概述
pandas是python的一个科学计算包,是一个强大的数据分析工具,常用于数据挖掘。
导入Pandas的标准方式:import pandas as pd
数据类型:series和dataframe
series:一维的数据类型,每个元素都有一个标签,series类似于Numpy中元素带标签的数组(标签可以是数字或者字符串) dataframe:二维的表结构,Pandas的dataframe可以存储许多种不同的数据类型,并且每一个坐标轴都有自己的标签
2.读取cvs文件和处理缺失值
2.1读取cvs文件
data=pd.read_cvs(‘file_path’)
读取cvs文件,会使用浮点值“NaN”来表示浮点或非浮点数组中的缺失值
2.2处理缺失值
处理NaN的方法有四种: dropna, drop, isnull, notnull
is(not)null:这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。
dropna:
(1)对于一个Series,dropna返回一个仅含非空数据和索引值的Series
(2)对于DataFrame的处理方式,一旦drop的话,至少要丢掉一行(列)
dropna提供了额外的参数来解决这个问题
dropna(axis,how,thresh,subset,inplace)
axis:表示轴 axis=0表示删除一行(默认值为0)
how:可选值为any或者how(all仅在切片元素全为NA时才抛弃该行(列))默认值为any
thresh:thresh为整数类型,eg:thresh=3,那么一行的NaN至少为3才会被drop
subset:通过subset来删除某些参数中含有NaN的行或列
inplace:可选TRUE或者FALSE(TRUE表示在原始数据上进行操作,改变其结构)默认值为FALSE
之后再更新
3.数据预处理之独热编码(one-hot)
在很多机器学习任务中,特征不总是连续值,有些特征是离散特征值
对于一个特征,如果它有m个可能值,经过独热编码后,变成m个二元特征,这些特征互斥(因此,数据会变成稀疏)
下面的例子是一个关于用户对于淘宝商品的操作(浏览,收藏,加入购物车以及购买)
先将这些特征值转换为数字(对应于1,2,3,4)
但是有些情况下这些值还是不连续,会使得分类器在模型训练的时候带来很多误差
好处:(1)解决分类器不好处理属性数据的问题 (2)在一定程度上起到了扩充特征的作用
Pandas 数据合并的三种方式:
1. pandas.merge()方法:数据库风格的合并;
合并的方式有:内连接,左连接,右连接,操作的对象是dataframe
pd.merge(df1,df2,on=“key”,how="left or right")
DataFrame还有一个join()方法可以以索引作为连接键
2. pandas.concat()方法:轴向连接,即沿着一条轴将多个对象堆叠到一起;
concat操作的对象是series。默认情况下,concat在竖轴(axis=0)上连接,产生一个新的series
pd.concat(s1,s2,axis=1)
3. 实例方法combine_first()方法:合并重叠数据。
s1.combine_first(s2)
最后
以上就是平淡乌龟为你收集整理的Python3-pandas使用的全部内容,希望文章能够帮你解决Python3-pandas使用所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复