概述
爬虫性能优化-线程池
线程池
线程的概念: 线程(Thread)也称为轻型进程(LWP)。因为线程只能在单个进程的作用域内活动,所以创建线程很简单。且线程允许协作和数据交换,在计算资源方面非常廉价。线程需要操作系统的支持,而JVM天然支持线程。
线程池的概念:线程池的概念是非常简单的,无非就是创建一批线程,之后就不再释放了,有任务就提交给这些线程处理,因此无需频繁的创建、销毁线程,同时由于线程池中的线程个数通常是固定的,也不会消耗过多的内存,因此这里的思想就是复用、可控。
Python线程实例
from threading import Thread
def func():
for i in range(1000):
print("func",i)
#main函数,也是主线程
if __name__ == '__main__':
# 开辟一个新线程,将任务(func()函数)交给新线程
t = Thread(target=func)
# 线程开启
t.start()
# 主线程任务
for i in range(1000):
print("main",i)
Python线程池实例
from concurrent.futures import ThreadPoolExecutor
def func(name):
for i in range(1000):
print(name,i)
if __name__ == '__main__':
# 创建线程池
with ThreadPoolExecutor(50) as t:
# 100个任务
for i in range(100):
# 将方法的参数在后面提交
t.submit(func,name=f"线程{i}")
print("执行完毕")
使用线程池爬取新发地所有菜价
- 网站分析
新发地的菜价数据在源代码中是找不到的,那可以表明新发地菜价是通过异步获取,则可以通过网络抓包获取url
点击下一页是,url并没有发生变化,且观察url提交的表头发现是post提交,因此找到提交的表单数据,就能够发现分页控制是依靠表单中current来操控.
import requests
from concurrent.futures import ThreadPoolExecutor
import csv
f = open("data.csv",mode="w",encoding='utf-8')
csvwriter = csv.writer(f)
# 爬取单页数据的方法,新发地的菜价是分页获取,post表单提交中,current代表获取的数据在第几页
def download_one_page(current):
url = "http://www.xinfadi.com.cn/getPriceData.html"
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49",
"Referer": "http://www.xinfadi.com.cn/priceDetail.html"
}
data={
"limit": 20,
"current": current
}
res = requests.post(url,headers=headers,data=data)
res.encoding='utf-8'
for i in res.json()['list']:
prodName=i['prodName']
avgPrice=i['avgPrice']
place=i['place']
text = prodName+avgPrice+place
csvwriter.writerow(text)
print(res.json()['current'],"下载完毕")
if __name__ == '__main__':
# 创建线程池
with ThreadPoolExecutor(50) as t:
for i in range(1,200):
t.submit(download_one_page,i)
最后
以上就是负责百褶裙为你收集整理的[Python爬虫]爬虫性能优化-线程池爬虫性能优化-线程池的全部内容,希望文章能够帮你解决[Python爬虫]爬虫性能优化-线程池爬虫性能优化-线程池所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复