我是靠谱客的博主 奋斗小白菜,最近开发中收集的这篇文章主要介绍16 使用Python下载数据,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

在本章中,你将从网上下载数据,并对这些数据进行可视化。网上的数据多得难以置信,且大多未经过仔细检查。如果能够对这些数据进行分析,你就能发现别人没有发现的规律和关联。

我们将访问并可视化以两种常见格式存储的数据: CsV和JSON。我们将使用Python模块csv来处理以CSV (逗号分隔的值)格式存储的天气数据,找出两个不同地区在一段时间内的最高温度和最低温度。然后,我们将使用matplbtIb根据下载的数据创建一一个图表,展示两个不同地区的气温变化:阿拉斯加锡特卡和加利福尼亚死亡谷。在本章的后面,我们将使用模块json来访问JSON格式存储的人口数据,并使用Pygal绘制一幅按国别划分的人口地图。

16.1 csv文件格式

要在文件中储存数据,最简单的方式是将数据作为一系列以逗号分隔的值(CSV)写入文件.这样的文件称为CSV文件,例如下面一行为CSV天气的格式数据

# 16.1.1 分析CSV文件头

filename = 'file/sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)
    hreader_row = next(reader)
    print(hreader_row)

运行结果

# 16.1.2 打印文件头及其位置
# 为了让文件头数据更容易让人理解,将列表中每个文件头以及位置打印出来

filename = 'file/sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)
    hreader_row = next(reader)

    for index, colum_hreader in enumerate(hreader_row):
        print(index, colum_hreader)

运行结果

# 16.1.3 提取并读取数据

# 知道哪些数据后,读取每天的的最高气温
# 从文件中读取最高气温
filename = 'file/sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)
    hreader_row = next(reader)
    # 创建一个highs的空列表,在遍历文件余下的各行
    highs = []
    # 遍历文件中余下的各行
    for row in reader:
        # 将字符串转为数字
        highs.append(row[1])
    print(highs)

运行结果

将字符串转换为数字

...
 for row in reader:
        # 将字符串转为数字
	high = int(row[1])
         highs.append(high)
...

运行结果

 # 16.1.4 绘制气温图表

#从文件中获取最高气温
...
# 根据数据绘制图形
# figsize:指定figure的宽和高,单位为英寸;
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(highs, c='red')
# 设置图形的格式
plt.title("Dailly high temperatures July 2014")
# 设置名称
plt.xlabel('x', fontsize=16)
plt.ylabel('Temperature(F)', fontsize=16)
plt.tick_params(axis='both', which='major', labelsize=16)
plt.show()

运行结果:

 

# 16.1.5模块datetime

 

注意:导入datetime时,不能省略from datetime
from datetime import datetime
# 我们首先导入了模块datetime中的datetime类,然后调用方法strptime(),并将包含所需日期的字符串作为第一个实参。
# 第二个实参告诉Python如何设置日期的格式。在这个示例中,' %Y-,让Python将字符串中第一个连字符前面的部分视为四位的年份:
#  %m,让Python将 第s个连字符前面的部分视为表示月份的数字:而’%d’让Python将字符串的最后-部分视为月份中的一天(1~31) 。
# 方法strptime()可接受各种实参,并根据它们来决定如何解读日期。

first_date = datetime.strptime('2014-7-1', '%Y-%m-%d')

运行结果

# 16.1.6在图表中添加日期

filename = 'file/sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)
    hreader_row = next(reader)
    # 创建一个highs的空列表,在遍历文件余下的各行
    highs = []
    # 从文件中提取日期,
    dates = []
    # 遍历文件中余下的各行
    for row in reader:
        # 将字符串转为数字
        high = int(row[1])
        highs.append(high)
        current_date = datetime.strptime(row[0], '%Y-%m-%d')
        dates.append(current_date)
    print(highs)

# 根据数据绘制图形
# figsize:指定figure的宽和高,单位为英寸;
fig = plt.figure(dpi=128, figsize=(10, 6))
# 将日期和最高气温值传递给plot
plt.plot(dates, highs, c='red')
# 设置图形的格式
plt.title("Dailly high temperatures July 2014")
# 设置名称
plt.xlabel('x', fontsize=16)
plt.ylabel('Temperature(F)', fontsize=16)
# 绘制斜的日期标签,以免他们重叠
fig.autofmt_xdate()
plt.tick_params(axis='both', which='major', labelsize=16)
plt.show()

运行结果:

# 16.1.7 涵盖更长的时间

使用最新的数据文件sitka_weather-2014.csv(下载地址)

filename = 'file/sitka_weather_2014.csv'
with open(filename) as f:
	...
# 设置图形的格式
plt.title("Dailly high temperatures - 2014")
# 设置名称
plt.xlabel('x', fontsize=16)

运行结果

# 16.1.8 再绘制一个数据系列

# 上图显示了大量意义深远的数据,但我们可以在其中再添加最低气温数据,使其更有用。
# 为此,需要从数据文件中提取最低气温,并将它们添加到图表

import csv
from datetime import datetime
from matplotlib import pyplot as plt

filename = 'file/sitka_weather_2014.csv'
with open(filename) as f:
    reader = csv.reader(f)
    header_row = next(reader)
    dates, highs, lows = [], [], []
    for row in reader:
        current_date = datetime.strptime(row[0], '%Y-%m-%d')
        dates.append(current_date)
        high = int(row[1])
        low = int(row[3])
        highs.append(high)
        # 储存最低气温
        lows.append(low)
# 根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
plt.plot(dates, highs, c='red')
# 绘制最低气温
plt.plot(dates, lows, c='blue')
# 设置图形的格式
plt.title("Dailly high and low temperatures - 2014")
# 设置名称
plt.xlabel('x', fontsize=16)
plt.ylabel('Temperature(F)', fontsize=16)
# 绘制斜的日期标签,以免他们重叠
fig.autofmt_xdate()
plt.tick_params(axis='both', which='major', labelsize=16)
plt.show()

运行结果

 

# 16.1.9 给图表区域着色
# 添加两个数据系列后,我们就可以了解每天的气温范围了。下面来给这个图表做最后的修饰,通过着色来呈现每天的气温范围。
# 为此,我们将使用方法fill_between() ,它接受一个 x 值系列和两个 y 值系列,并填充两个 y 值系列之间的空间

读取文件值
...
# 根据数据绘制图形
fig = plt.figure(dpi=128, figsize=(10, 6))
# alpha 指定颜色透明度,Alpha值为0表示完全透明,1默认完全不透明
plt.plot(dates, highs, c='red', alpha=0.5)
# 绘制最低气温
plt.plot(dates, lows, c='blue', alpha=0.5)
# 我们向fill_between() 传递了一个 x 值系列:列表dates ,还传递了两个 y 值系列:highs 和lows 。
# 实参facecolor 指定了填充区域的颜色,我们还将alpha 设置成了较小的值0.1,
# 让填充区域将两个数据系列连接起来;
plt.fill_between(dates, highs, lows, facecolor='blue', alpha=0.1)

 

# 16.1.10 错误检查

# 我们应该能够使用有关任何地方的天气数据来运行highs_lows.py中的代码,
# 但有些气象站会偶尔出现故障,未能收集部分或全部其应该收集的数据。缺失数据可能会引发异常,
# 如果不妥善地处理,还可能导致程序崩溃。
# 例如,我们来看看生成加利福尼亚死亡谷的气温图时出现的情况。将文件death_valley_2014.csv(下载)复制到工程目录

filename = 'file/death_valley_2014.csv'
with open(filename)  as f:
    reader = csv.reader(f)
    header_row = next(reader)
    dates, highs, lows = [], [], []
    for row in reader:
        current_date = datetime.strptime(row[0], '%Y-%m-%d')
        dates.append(current_date)
        high = int(row[1])
        low = int(row[3])
        highs.append(high)
        # 储存最低气温
        lows.append(low)

该traceback指出,Python无法处理其中一天的最高气温,因为它无法将空字符串(' ' )转换为整数。只要看一下death_valley_2014.csv,就能发现其中的问题

其中好像没有记录2014年2月16日的数据,表示最高温度的字符串为空。为解决这种问题,我们在从CSV文件中读取值时执行错误检查代码,对分析数据集时可能出现的异常进行处理,如下

filename = 'file/death_valley_2014.csv'
with open(filename)  as f:
    reader = csv.reader(f)
    header_row = next(reader)
    dates, highs, lows = [], [], []
    for row in reader:
        try:
            current_date = datetime.strptime(row[0], '%Y-%m-%d')
            high = int(row[1])
            low = int(row[3])
        except ValueError:
            print(current_date, 'missing data')
        else:
            dates.append(current_date)
            highs.append(high)
            # 储存最低气温
            lows.append(low)
...
# 根据数据绘制图形
..

运行结果

16.2 制制作作世世界界人人口口地地图图:JSON格式

16.2.1 下载世界人口数据(population_data下载)

16.2.2 提取2010年每个国家的人口数量

filename = 'file/population_data.json'
with open(filename) as f:
    pop_data = json.load(f)

# 打印每个国家2010年的人口数量
for pop_dict in pop_data:
    if pop_dict['Year'] == '2010':
        country_name = pop_dict['Country Name']
        population = pop_dict['Value']
        print("country_name:" + country_name + ":" + "population:" + population)

运行结果

# 16.2.3 将字符串转为数字值

filename = 'file/population_data.json'
with open(filename) as f:
    pop_data = json.load(f)
# 打印每个国家2010年的人口数量
for pop_dict in pop_data:
    if pop_dict['Year'] == '2010':
        country_name = pop_dict['Country Name']
        # Python不能将字符串'1127437398.85751' 转换为整数,为了消除这种错误,
        # 我们先将字符串转换为浮点数,在将浮点数转换为整数
        population = int(float(pop_dict['Value']))
        print("country_name:" + str(country_name) + ":" + "population:" +
              str(population))

# 16.2.4 获取两个字母的国别码

# 制作地图前,还需要解决数据存在的最后一个问题。Pygal中的地图制作工具要求数据为特定的格式:
# 用国别码表示国家,以及用数字表示人口数量。处理地理政治数据时,经常
# 需要用到几个标准化国别码集。population_data.json中包含的是三个字母的国别码,但Pygal
# 使用两个字母的国别码。我们需要想办法根据国家名获取两个字母的国别码
# Python3使用时需要在终端使用pip3指令进行安装
# pip install pygal_maps_world

for country_code in sorted(COUNTRIES.keys()):
    print(country_code, COUNTRIES[country_code])

运行结果

# 为获取国别码,我们将编写一个函数,它在COUNTRIES 中查找并返回国别码。
# 我们将这个函数放在一个名为country_codes 的模块中,以便能够在可视化程序中导入它

# 为获取国别码,我们将编写一个函数,它在COUNTRIES 中查找并返回国别码。
# 我们将这个函数放在一个名为country_codes 的模块中,以便能够在可视化程序中导入它
def get_country_code(country_name):
    """根据指定的国家,返回Pygal使用的两个字母的国别码"""
    for code, name in COUNTRIES.items():
        if name == country_name:
            return code

    # 如果没有找到指定的国家,就返回NONE
    return None

提取国家名和人口数量
filename = 'file/population_data.json'
with open(filename) as f:
    pop_data = json.load(f)

for pop_dict in pop_data:
    if pop_dict['Year'] == '2010':
        country_name = pop_dict['Country Name']
        population = int(float(pop_dict['Value']))
        code = get_country_code(country_name)
        if code:
            print(code + ":" + str(population))
        else:
            print("Error-" + country_name)

运行结果

 

16.2.5 制作世界地图

 有了国别码后,制作世界地图易如反掌。Pygal提供了图表类型Worldmap ,可帮助你制作呈现各国数据的世界地图。
# 为演示如何使用Worldmap ,我们来创建一个突出北美、中美和南美的简单地图

import pygal_maps_world.maps

wm = pygal_maps_world.maps.World()
wm._title = 'North,Central, and South America'
wm.add('North America', ['ca', 'mx', 'us'])
wm.add('Central America', ['bz', 'cr', 'gt', 'hn', 'ni', 'pa', 'sv'])
wm.add('South America', ['ar', 'bo', 'br', 'cl', 'co', 'ec', 'gf', 'gy',
                         'pe', 'py', 'sz', 'uy', 've'])
wm.render_to_file('americas.svg')

运行结果

# 16.2.6 在世界地图上呈字

wm = pygal_maps_world.maps.World()
wm.title = 'North,Central, and South America'
wm.add('North America', {'ca': 34126000, 'us': 309349000, 'mx': 113423000})
# 首先,创建了一个Worldmap 实例并设置了标题。接下来,使用了方法add() ,
# 但这次通过第二个实参传递了一个字典而不是列表。这个字典将两个字母的Pygal国别码作为键
# 将人口数量作为值。Pygal根据这些数字自动给不同国家着以深浅不一的颜色(人口最少的国家颜色最浅,人口最多的国家颜色最深),
wm.render_to_file('americas.svg')

运行结果

# 16.2.7 绘制完整的世界人口地图

将数据加载到列表中
...
cc_populations = {}
for pop_dict in pop_data:
    if pop_dict['Year'] == '2010':
        country_name = pop_dict['Country Name']
        population = int(float(pop_dict['Value']))
        code = get_country_code(country_name)
        if code:
            cc_populations[code] = population

wm = pygal_maps_world.maps.World()
wm.title = 'World population in 2010,by Country'
wm.add('2010', cc_populations)
wm.render_to_file("world_population.svg")

运行结果

# 16.2.8 根据人口数量将国家分组

# 印度和中国的人口比其他国家多得多,但在当前的地图中,它们的颜色与其他国家差别较小。
# 中国和印度的人口都超过了10亿,接下来人口最多的国家是美国,但只有大约3亿。
# 下面不将所有国家都作为一个编组,而是根据人口数量分成三组——少于1000万的、介于1000万和10亿之间的以及超过10亿的:

创建一个人口的字典
# 根据人口数量将所有的国家分成三组
cc_pops_1, cc_pops_2, cc_pops_3 = {}, {}, {}
for cc, pop in cc_populations.items():
    if pop < 10000000:
        cc_pops_1[cc] = pop
    if pop < 1000000000:
        cc_pops_2[cc] = pop
    else:
        cc_pops_3[cc] = pop

# 看看每组包含多少个国家
print(
    "每组包含多少个国家:" + str(len(cc_pops_1)) + " " + str(len(cc_pops_2)) + " " + str(
        len(cc_pops_3)))
wm = pygal_maps_world.maps.World()
wm.title = 'World Population in 2010, by Country'
wm.add('0-10m', cc_pops_1)
wm.add('10m-1bn', cc_pops_2)
wm.add('>1bn', cc_pops_3)
wm.render_to_file('world_population.svg')

运行结果

在本章中,你学习了:如何使用网上的数据集;如何处理CSV和JSON文件,以及如何提取你感兴趣的数据;如何使用matplotlib来处理以往的天气数据,包括如何使用模
块datetime ,以及如何在同一个图表中绘制多个数据系列;如何使用Pygal绘制呈现各国数据的世界地图,以及如何设置Pygal地图和图表的样式;

在下一章,你将编写自动从网上采集数据并对其进行可视化的程序

 

 

最后

以上就是奋斗小白菜为你收集整理的16 使用Python下载数据的全部内容,希望文章能够帮你解决16 使用Python下载数据所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部