我是靠谱客的博主 如意花卷,最近开发中收集的这篇文章主要介绍工具猿之python爬虫-豆瓣图书TOP250,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

import urllib.request
#导入模块
import re
#导入正则表达式模块
for page in range(10):
#遍历 1-10
print(page)
url = 'https://book.douban.com/top250?start=' + str(page * 25)
#打开 10 个网页的链接
url = urllib.request.urlopen(url)
#发出请求
source_code = url.read().decode('utf8')
#读出10个网页的源代码
# print(source_code)
#测试
reg = re.compile('<a href="(.*?)".*?title="(.*?)".*?</a>.*?<p class="pl">(.*?)</p>.*?<span class="rating_nums">(.*?)</span>',re.S)
 #正则匹配所需要的内容(以一个网页为例)
book_name = reg.findall(source_code)
# findall查找内容
# print(book_name)
#测试
book = []
#建立一个空的列表,用于存放下面循环的内容,形成一个二维数组。
for books in book_name:
#遍历book_name的内容
authors
= books[2].split('/')
#每个图书的作者名子个数不一样,以 / 分片,只取第一个名字
url = books[0]
 #取每本书的链接
name = books[1]
#取每本书的名字
author = authors[0]
#取每本书的第一个作者名字
date = authors[-2]
#取每本书的日期
money = authors[-1]
#取每本书的价钱
source = books[-1]
#取每本书的评分
book.append([name,source,author,money,url,date])
#加入刚才建立好的空列表,进行排序
for list in book:
#遍历二维数组book的内容
print(list)
#输出结果

最后

以上就是如意花卷为你收集整理的工具猿之python爬虫-豆瓣图书TOP250的全部内容,希望文章能够帮你解决工具猿之python爬虫-豆瓣图书TOP250所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(33)

评论列表共有 0 条评论

立即
投稿
返回
顶部