我是靠谱客的博主 专注云朵,最近开发中收集的这篇文章主要介绍Scrapy问题总结,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1.问题一
问题:使用scrapy crawl spider -o spider.csv命令保存为csv文件时输出的结果没有按照items的顺序来,网上搜了很多解决方法,都是要新建一个类,感觉很麻烦,琢磨了一会儿发现直接修改setting.py也可以实现

解决方案:
修改setting.py
添加一行内容如下

FEED_EXPORT_FIELDS = ["code", "name", "price", "fluctuation", "change_amount", "turnover", "turnover_amount", "amplitude", "rate"]
列表内表示的是自己在items定义的字段,即要输出结果的字段顺序

FEED_EXPORT_FIELDS = [“字段名1”,"字段名2"]

2.问题二

在爬取中财网的过程中出现了 Filtered offsite request to 'quote.cfi.cn'问题

问题:

2022-01-07 10:17:52 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite req uest to 'quote.cfi.cn': <GET 平安银行(000001)_股票行情,行情首页_中财网>

解决:

在yield scrapy.Request() 里添加 dont_filter=True即可

allowed_domain写法错误也会导致这个问题

正确写法为:

allowed_domains = ['data.cfi.cn']

不需要添加:http://等前缀

3.问题三

问题:

scrapy crawl gpSpider -o data.json保存为json格式的时候中文乱码,输入输出编码不一致编码不一致导致的

解决:

两种方法

第一种方法:添加配置

在settings.py文件添加FEED_EXPORT_ENCODING='utf-8'或FEED_EXPORT_ENCODING='gbk'

第二种方法:在输出命令后面加上-s FEED_EXPORT_ENCODING=utf-8

scrapy crawl gpSpider -o data1.json -s FEED_EXPORT_ENCODING=utf-8

最后

以上就是专注云朵为你收集整理的Scrapy问题总结的全部内容,希望文章能够帮你解决Scrapy问题总结所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(39)

评论列表共有 0 条评论

立即
投稿
返回
顶部