etl清洗框架 python_建模前的数据清洗/ETL（python）

312 阅读 0 评论 206 点赞

我是靠谱客的博主强健鞋垫，这篇文章主要介绍etl清洗框架 python_建模前的数据清洗/ETL（python），现在分享给大家，希望可以做个参考。

1. 读取数据

python;gutter:true;">data= open('e:/java_ws/scalademo/data/sample_naive_bayes_data.txt' , 'r')

2. 把数据随机分割为training集和test集

def SplitData(data,max,ind,seed): ## seed is always be 11L

test=[]

train=[]

random.seed(seed)

for line in data:

if random.randint(0,max)==ind: ## if a random int between 0 and max is ind, then put this line in test Set

test.append(''.join(line))

else:

train.append(''.join(line))

return train,test

3. 按分割符拆分一个数据集

def parseData(data,delimiter1,delimiter2): # delimiter1 是拆开X,Y; delimiter2 是拆开Y的每个元素

x=[]

y=[]

for line in data:

parts = line.split(delimiter1)

x1 = [float(a) for a in parts[1].split(delimiter2)]

y1 = float(parts[0])

##print x1,y1

x.append(x1)

y.append(y1)

return x,y

以上就是建模前的数据清洗/ETL(python)的全部内容。

以上就是强健鞋垫最近收集整理的关于etl清洗框架 python_建模前的数据清洗/ETL（python）的全部内容，更多相关etl清洗框架内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。