Scrapy问题总结

63 阅读 0 评论 42 点赞

我是靠谱客的博主专注云朵，最近开发中收集的这篇文章主要介绍Scrapy问题总结，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

1.问题一
问题：使用scrapy crawl spider -o spider.csv命令保存为csv文件时输出的结果没有按照items的顺序来，网上搜了很多解决方法，都是要新建一个类，感觉很麻烦，琢磨了一会儿发现直接修改setting.py也可以实现

解决方案：
修改setting.py
添加一行内容如下

FEED_EXPORT_FIELDS = ["code", "name", "price", "fluctuation", "change_amount", "turnover", "turnover_amount", "amplitude", "rate"]

列表内表示的是自己在items定义的字段，即要输出结果的字段顺序

FEED_EXPORT_FIELDS = [“字段名1”,"字段名2"]

2.问题二

在爬取中财网的过程中出现了 Filtered offsite request to 'quote.cfi.cn'问题

问题：

2022-01-07 10:17:52 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite req uest to 'quote.cfi.cn': <GET 平安银行(000001)_股票行情，行情首页_中财网>

解决：

在yield scrapy.Request() 里添加 dont_filter=True即可

allowed_domain写法错误也会导致这个问题

正确写法为：

allowed_domains = ['data.cfi.cn']

不需要添加：http://等前缀

3.问题三

问题：

scrapy crawl gpSpider -o data.json保存为json格式的时候中文乱码，输入输出编码不一致编码不一致导致的

解决：

两种方法

第一种方法：添加配置

在settings.py文件添加FEED_EXPORT_ENCODING='utf-8'或FEED_EXPORT_ENCODING='gbk'

第二种方法：在输出命令后面加上-s FEED_EXPORT_ENCODING=utf-8

scrapy crawl gpSpider -o data1.json -s FEED_EXPORT_ENCODING=utf-8

最后

以上就是专注云朵为你收集整理的Scrapy问题总结的全部内容，希望文章能够帮你解决Scrapy问题总结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：大数据
浏览次数：63 次浏览
发布日期：2024-07-23 10:00:06
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_18_f0_14_zk1.html

Scrapy问题总结

概述

最后

评论列表共有 0 条评论

发表评论取消回复

Scrapy问题总结

概述

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复