概述
来自bit.ly的1.usa.gov数据:
1.JSON数据:JavaScript Object Notation,一种轻量级的数据交换模式
入门的话推荐RUNOOB.COM的JSON教程,可以查看在线实例
2.分析文件
使用EditPluse打开发现一共3560条数据,每条数据的格式如图:
这是我使用EditpPlus查看出来的数据,那么怎么把它变换成Python中我们熟悉的字典格式呢?
Python中有许多内置或者第三方库可以将JSON字符串转化成字典对象,这里我们使用json模块对数据进行分析:
注意:
json字符串转化为字典有两种方法:json.load和 json.loads
json.load:接收的参数是文件对象,如open方法返回的对象
json.loads:接收json字符串
这句话的意思是:打开路径,读取路径中的每一行,将每一行的json字符串转化为字典对象,然后将这些字典保存在records数组里
3.分析数据
(1)数据中最常出现的时区是哪一个 'tz'字段
由于并不是每一行的数据都有时区字段,所以提取字段时要对每行数据进行判断
发现一共有3440行数据中有'tz'字段,我们得到并保存在了time_zones列表中
接下来使用pandas对时区进行计数
DataFrame将数据表示为一个表格
可以查看到表格的行数和列数
frame['tz']返回的Series方法有一个 value_counnts 方法,该方法可以统计出't'列的不同时区出现的次数,正好可以让我们得到我们所需要的信息
这里先取了十个时区出现的次数看一下
4.绘制统计图
使用 matplotlib生成图片
注意:1.3560条数据中只有3440条有‘tz’字段,而我们做统计图的时候这3560条是要全部包括的
2.有的数据有‘tz’字段,但却没有值,这种数据我们也要考虑在内
解决办法:
1.对于没有‘tz’字段的数据,使用fillna函数替换缺失值 “Missing”
2.有字段没值(只有空字符串)的可以通过布尔型数组索引加以替换成“Unknow”
可以发现 没有时区字段的和有时区字段没值的数据都统计了出来,做到这一步就可以画图了
得到的图像如图:
最后
以上就是甜甜嚓茶为你收集整理的Python数据分析学习笔记(一)的全部内容,希望文章能够帮你解决Python数据分析学习笔记(一)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复