[Python爬虫]爬虫性能优化-线程池爬虫性能优化-线程池

316 阅读 0 评论 209 点赞

我是靠谱客的博主负责百褶裙，这篇文章主要介绍[Python爬虫]爬虫性能优化-线程池爬虫性能优化-线程池，现在分享给大家，希望可以做个参考。

爬虫性能优化-线程池

线程池

线程的概念: 线程（Thread）也称为轻型进程（LWP）。因为线程只能在单个进程的作用域内活动，所以创建线程很简单。且线程允许协作和数据交换，在计算资源方面非常廉价。线程需要操作系统的支持，而JVM天然支持线程。

线程池的概念:线程池的概念是非常简单的，无非就是创建一批线程，之后就不再释放了，有任务就提交给这些线程处理，因此无需频繁的创建、销毁线程，同时由于线程池中的线程个数通常是固定的，也不会消耗过多的内存，因此这里的思想就是复用、可控。

Python线程实例

from threading import Thread

def func():
    for i in range(1000):
        print("func",i)

#main函数,也是主线程
if __name__ == '__main__':
    # 开辟一个新线程,将任务(func()函数)交给新线程
    t = Thread(target=func)
    # 线程开启
    t.start()

    # 主线程任务
    for i in range(1000):
        print("main",i)

Python线程池实例

from concurrent.futures import ThreadPoolExecutor

def func(name):
    for i in range(1000):
        print(name,i)

if __name__ == '__main__':
    # 创建线程池
    with ThreadPoolExecutor(50) as t:
        # 100个任务
        for i in range(100):
            # 将方法的参数在后面提交
            t.submit(func,name=f"线程{i}")
    print("执行完毕")

使用线程池爬取新发地所有菜价

网站分析
新发地的菜价数据在源代码中是找不到的,那可以表明新发地菜价是通过异步获取,则可以通过网络抓包获取url
点击下一页是,url并没有发生变化,且观察url提交的表头发现是post提交,因此找到提交的表单数据,就能够发现分页控制是依靠表单中current来操控.

import requests
from concurrent.futures import ThreadPoolExecutor
import csv

f = open("data.csv",mode="w",encoding='utf-8')
csvwriter = csv.writer(f)

# 爬取单页数据的方法,新发地的菜价是分页获取,post表单提交中,current代表获取的数据在第几页
def download_one_page(current):
    url = "http://www.xinfadi.com.cn/getPriceData.html"

    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.114 Safari/537.36 Edg/103.0.1264.49",
        "Referer": "http://www.xinfadi.com.cn/priceDetail.html"
    }

    data={
        "limit": 20,
        "current": current
    }
    res = requests.post(url,headers=headers,data=data)
    res.encoding='utf-8'
    for i in res.json()['list']:
        prodName=i['prodName']
        avgPrice=i['avgPrice']
        place=i['place']
        text = prodName+avgPrice+place
        csvwriter.writerow(text)
    print(res.json()['current'],"下载完毕")

if __name__ == '__main__':
    # 创建线程池
    with ThreadPoolExecutor(50) as t:
        for i in range(1,200):
            t.submit(download_one_page,i)