(转)各种语言写网络爬虫有什么优点缺点
我用 PHP 和 Python 都写过爬虫和正文提取程序。最开始使用 PHP 所以先说说 PHP 的优点:1.语言比较简单,PHP 是非常随意的一种语言。写起来容易让你把精力放在你要做的事情上,而不是各种语法规则等等。2.各种功能模块齐全,这里分两部分:1.网页下载:curl 等扩展库;2.文档解析:dom、xpath、tidy、各种转码工具,可能跟题主的问题不太一样,我的爬虫需要提取正文,所以需...