内向火车

文章
5
资源
0
加入时间
2年10月17天

怎么合理控制爬虫速度

爬虫的工作人员都知道,爬虫的速度并不是越快越好。如果爬虫采集的速度越快,就越容易被发现,也就越容易被封IP。那么,怎么合理控制爬虫速度呢?一般情况,可以对每个页面抓取之间的延迟设置为最大来控制频率,这样不会给服务器造成负担,也不会因访问频繁被封。但这种方法会导致抓取的速度较慢,如果有大量抓取任务,会严重影响效率。有一种自然的解决方法就是等待时间动态变化,最小的时间间隔减去网页读取的时间,这样无论在...