概述
数据分析的一个重要包就是pandas。这里通过使用机器学习来做kaggle上的一个任务来学习pandas的使用,以及数据分析常用的一些编程方法与技巧。
首先导入pandas包和numpy包,这里因为我使用了anaconda环境所以没有必要再进行pip安装了。
然后再来讲解一下csv文件格式。从编码压缩方式来看,csv首先也是一种文本文档,而扩展名“csv”的意思就是这个文本文档里面记录的是以逗号或者其它符号分割的数据。所以打开csv文件当然可以使用python自带的输入输出流+管道读取(最简陋),也可以使用os读取文件。但是pandas为我们提供了一种高级的csv读取方式。使用read_csv()函数,我们就可以省略处理原始文本逗号以及换行的过程,直接得到以“DataFrame”这种数据结构整理的数据。
pandas还有read_table()函数,这个函数同样是处理源数据用的,但是这个函数更适合处理具有一个主键和一个关联值类型的数据。读取出来也是dataframe类型。
另外,read_csv这个函数还可以配合许多其它的参数,来处理各种各样的数据。'seq'参数可以设置分割符,以读取分割符不是逗号的csv文件。chunksize 参数,可以控制分块读取的大小,将变量分别写入内存,当硬盘中数据文件大小超过电脑内存大小时,电脑无法将数据一次全部读入内存,就必须分块处理这些数据。
names参数可以指定表头,而header这个参数可以去除表头,两者合并,即可实现“换表头”的效果。
csv中的纯文本转换为dataframe数据结构之后,我们就可以使用dataframe类的函数对数据做一些简要分析,比如查看数据量的大小,查看每列表头,以及每列的数据类型,还可以检测有没有空数据。
最后,如果对数据有什么修改,比如修改了表头,就可以使用to_csv()函数快速将一个dataframe对象中的数据提取出来,存入csv文件中,以保存处理过的数据。
最后
以上就是光亮小熊猫为你收集整理的pandas学习之数据加载即探索性数据分析的全部内容,希望文章能够帮你解决pandas学习之数据加载即探索性数据分析所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复