我是靠谱客的博主 甜甜嚓茶,最近开发中收集的这篇文章主要介绍Python数据分析学习笔记(一),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

来自bit.ly的1.usa.gov数据:


1.JSON数据:JavaScript Object Notation,一种轻量级的数据交换模式


入门的话推荐RUNOOB.COM的JSON教程,可以查看在线实例


2.分析文件


使用EditPluse打开发现一共3560条数据,每条数据的格式如图:



这是我使用EditpPlus查看出来的数据,那么怎么把它变换成Python中我们熟悉的字典格式呢?

Python中有许多内置或者第三方库可以将JSON字符串转化成字典对象,这里我们使用json模块对数据进行分析:


注意:

json字符串转化为字典有两种方法:json.load和 json.loads

json.load:接收的参数是文件对象,如open方法返回的对象

json.loads:接收json字符串



这句话的意思是:打开路径,读取路径中的每一行,将每一行的json字符串转化为字典对象,然后将这些字典保存在records数组里


3.分析数据

(1)数据中最常出现的时区是哪一个 'tz'字段

由于并不是每一行的数据都有时区字段,所以提取字段时要对每行数据进行判断


发现一共有3440行数据中有'tz'字段,我们得到并保存在了time_zones列表中

接下来使用pandas对时区进行计数


DataFrame将数据表示为一个表格


可以查看到表格的行数和列数

frame['tz']返回的Series方法有一个 value_counnts 方法,该方法可以统计出't'列的不同时区出现的次数,正好可以让我们得到我们所需要的信息


这里先取了十个时区出现的次数看一下


4.绘制统计图

使用 matplotlib生成图片

注意:1.3560条数据中只有3440条有‘tz’字段,而我们做统计图的时候这3560条是要全部包括的

  2.有的数据有‘tz’字段,但却没有值,这种数据我们也要考虑在内

解决办法:

1.对于没有‘tz’字段的数据,使用fillna函数替换缺失值 “Missing”

2.有字段没值(只有空字符串)的可以通过布尔型数组索引加以替换成“Unknow”


可以发现 没有时区字段的和有时区字段没值的数据都统计了出来,做到这一步就可以画图了


得到的图像如图:










最后

以上就是甜甜嚓茶为你收集整理的Python数据分析学习笔记(一)的全部内容,希望文章能够帮你解决Python数据分析学习笔记(一)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部