“盗”亦有道,关于robots协议robots.txt
robots.txtrobots协议(全名为“网络爬虫排除标准”)(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。对于robots协议如何遵守,当前较为普遍的观点是:对于小程序这样爬取量少的小型爬虫,可以无视robots协议。(我们编程爱好者知道这一点就足够了)一般对于像搜索引擎这样,对全网进行爬取的大型...