如何让你的Python爬虫采集得更快
如何让Python爬虫采集的更快,如何处理海量数据的下载是我们一直探索和研究的对象。下面是我们从数学角度给出的一些分析以及我们的一些经验分享。假设线程数为n,线程中下载平均用时为td,线程中数据处理部分(纯计算)用时为tc。由于单个Python进程只能使用单CPU核心,因此总的数据处理耗时应是各线程tc的累加即n*tc。因为下载是阻塞操作,CPU可以几乎同时处理所有下载,因此总的下载耗时就近似为td。那么Python爬虫的下载速度应为:等式稍作变换后为:对于特定的网站td为定值(常量),对于特定