python爬虫之如何获取百度搜索结果的真实URL
最近在编写一个BaiduSpider代码,通过pyquery的history属性,发现baidu这些连接大多进行了redirect(http 302),但是有一部分链接是直接获得了http200回复。对于从百度爬取的加密的url,进行requests.get()时不允许跳转(allow_redirects=False)。然后针对这两类服务器回复分别处理: http 302跳转:从headers中的'location'可以获得原始url; http 200回复:从con...