概述
python 爬取豆瓣图书, 保存为CSV格式
import requests
from bs4 import BeautifulSoup
import csv
urls = ['https://book.douban.com/top250?start={0}'.format(i) for i in range(10)]
for url in urls:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}
resp = requests.get(url,headers=headers,proxies={'171.13.136.238 ':'9999'})
fp = open('../爬虫/webspider/doubantushu.csv', 'a')
write = csv.writer(fp)
write.writerow(['书名','xinxi','评价','代言'])
if resp.status_code==200:
soup = BeautifulSoup(resp.text,'lxml')
infos = soup.find_all('table')
for i in infos:
book_name = i.select('tbody > tr > td > div.pl2 > a') #
#content > div > div.article > div > table:nth-child(2) > tbody > tr > td:nth-child(2) > div.pl2 > a
bookinfoma = i.find('p').string
print(bookinfoma)
bookvalue = i.find_all('span')[2].string
bookdaiyan = i.find_all('span')[3].string
s = [book_name,bookinfoma,bookvalue,bookdaiyan]
write.writerow(s)
**加快速度
使用多线程
使用代理ip**
最后
以上就是无心西牛为你收集整理的python 爬取豆瓣图书, 保存为CSV格式的全部内容,希望文章能够帮你解决python 爬取豆瓣图书, 保存为CSV格式所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复