我是靠谱客的博主 强健鞋垫,最近开发中收集的这篇文章主要介绍etl清洗框架 python_建模前的数据清洗/ETL(python),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1. 读取数据

python;gutter:true;">data= open('e:/java_ws/scalademo/data/sample_naive_bayes_data.txt' , 'r')

2. 把数据随机分割为training集 和test集

def SplitData(data,max,ind,seed): ## seed is always be 11L

test=[]

train=[]

random.seed(seed)

for line in data:

if random.randint(0,max)==ind: ## if a random int between 0 and max is ind, then put this line in test Set

test.append(''.join(line))

else:

train.append(''.join(line))

return train,test

3. 按分割符拆分一个数据集

def parseData(data,delimiter1,delimiter2): # delimiter1 是拆开X,Y; delimiter2 是拆开Y的每个元素

x=[]

y=[]

for line in data:

parts = line.split(delimiter1)

x1 = [float(a) for a in parts[1].split(delimiter2)]

y1 = float(parts[0])

##print x1,y1

x.append(x1)

y.append(y1)

return x,y

以上就是建模前的数据清洗/ETL(python)的全部内容。

最后

以上就是强健鞋垫为你收集整理的etl清洗框架 python_建模前的数据清洗/ETL(python)的全部内容,希望文章能够帮你解决etl清洗框架 python_建模前的数据清洗/ETL(python)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(39)

评论列表共有 0 条评论

立即
投稿
返回
顶部