我是靠谱客的博主 真实眼睛,最近开发中收集的这篇文章主要介绍如何优化 Python 爬虫的速度,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

从以下的五个方面去进行优化测试:
1、cpu瓶颈的话可以通过分布式的方式来解决 更多的结点去处理分发的任务就好了
2、本地带宽的瓶颈通过云服务器解决(一般都有100MB的方案提供) 定时定量的去购买使用可以节约成本(毕竟不是搜索引擎不会一直开着的)
3、目标服务器的带宽限制(基于IP的)通过跨区的服务器解决 云服务器提供商有多个机房的 分散节点所在的机房可以缓解问题 有提供动态ip的就更好了
4、目标服务器的访问限制,老渔哥提示搜一下<反爬虫>策略就差不多了解了 根据自己的编程能力来应对 给两个库投石问路 SeleniumPhantomJS 对于验证码相关的可以考虑购买服务(有外包的, 最高级别是人肉的一定可以搞定, 量要考虑一下价格不菲)真的不建议自己搞。
目标网站系统比较知名的话(discuz)可以网上搜搜 足够简单的话可以用opencv(有python绑定的版本而且跨平台) thredshold(二值化)处理颜色, eroded/dilate(腐蚀膨胀)处理噪点, findContours(查找轮廓)处理字符分割,穷举旋转和简单扭曲再匹配字库差不多就可以处理2010以前的简单二维码了(当然cpu开销还是很大的)
5、目标服务器的带宽上限限制 这么做的话你的爬虫就成了攻击了不讨论----以下内容常规的爬虫可能不会涉

最后

以上就是真实眼睛为你收集整理的如何优化 Python 爬虫的速度的全部内容,希望文章能够帮你解决如何优化 Python 爬虫的速度所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(32)

评论列表共有 0 条评论

立即
投稿
返回
顶部