HTTP代理如何助力python爬虫爬取天猫店铺商品链接
在使用python爬虫爬取网页时会遇到很多含有特殊符号的情况,当把链接复制到浏览器打开,发现每个节点都多了个\,直接使用response.xpath()无法定位元素,为避免定位不到元素的问题,应先对响应内容做一下过滤,然后使用response.replace()将过滤后的html文档重新赋值给response,本文以爬取天猫店铺商品链接为例,向大家介绍爬取过程。爬取思路1、使用response.text获取html文本,去除其中的\;2、使用response.replace() 重新将去除\后的