概述
报错信息
这里是为了实现scrapy爬虫的翻页功能,错误很低级,但旨在介绍一下解决被编码问题的便捷思路。
2023-01-20 10:46:00 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1674182235677&countryId=&cityId
=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex=%7B%7D&pageSize=10&language=zh-cn&area=cn> (failed 3 times): 500 Internal Server Error
错误分析
pageIndex=%7B%7D,浏览器搜索编码转换,选择url编码/解码。我们可以发现%7B%7D解码后为 {}。
也就是说网页链接传入错误
从报错信息中,我们可以发现状态码为500,属于服务器错误类别,所以可以排除爬虫被服务器捕捉到的可能。
def parse(self, response,**kwargs):
for i in range(1,10):
self.index_add_url = self.index_url.format(i)
yield scrapy.Request(url=self.index_url,callback=self.page_index_parse)
正确代码
yield里url的链接传错了
def parse(self, response,**kwargs):
for i in range(1,10):
self.index_add_url = self.index_url.format(i)
yield scrapy.Request(url=self.index_add_url,callback=self.page_index_parse)
最后
以上就是平淡银耳汤为你收集整理的[scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET>(failed 3 times): 500 Internal Ser正确代码的全部内容,希望文章能够帮你解决[scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET>(failed 3 times): 500 Internal Ser正确代码所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复