Scrapy 获取数据保存为json文件结果items蜘蛛程序pipelinessettings设置随机延迟50-100ms介绍

59 阅读 0 评论 39 点赞

我是靠谱客的博主烂漫绿草，最近开发中收集的这篇文章主要介绍Scrapy 获取数据保存为json文件结果items蜘蛛程序pipelinessettings设置随机延迟50-100ms介绍，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

Scrapy 获取数据并保存为json文件

结果
items
蜘蛛程序
pipelines
settings设置随机延迟50-100ms
介绍

结果

在这里插入图片描述

items

import scrapy
class MyprojectItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    #Field类仅是内置字典类（dict）的一个别名，并没有提供额外的方法和属性。被用来基于类属性的方法来支持item生命语法。
    pinlun=scrapy.Field()#在items中定义数据类型；指出Pinlun是一个类似于字典的类，有键值对的形式
    pinluntime=scrapy.Field()#定义评论时间

蜘蛛程序

import scrapy
#from Myproject.items import MyprojectItem#报错，改为下面
from ..items import MyprojectItem#在一个package中，同级使用 . 在父级使用 ..
                                 #电脑不知道 你说的是哪个 文件 毕竟这两个文件名是一样的

class StockspiderSpider(scrapy.Spider):
    name = 'stockspider'

    allowed_domains = ["sina.com.cn"]
    #start_urls = ["http://guba.sina.com.cn/?s=bar&name=sh600518&type=0&page=2"]#提交请求给引擎，引擎发给排队器，然后转给下载器
    start = 1  # 设置一个变量， 规律 每增加1就是往下翻一页
    url = 'http://guba.sina.com.cn/?s=bar&name=sh600518&type=0&page='
    start_urls = [url + str(start)]

    def parse(self, response):#下载器返回了相应文件，然后开始处理响应文件
        #print(response.body)
        stockitem=MyprojectItem()
        stockitem['pinlun']= response.xpath('//*[@id="blk_list_02"]/table/tbody/tr[*]/td[3]/a/text()').extract()
        stockitem['pinluntime']= response.xpath('//*[@id="blk_list_02"]/table/tbody/tr[*]/td[5]/text()').extract()
        stockitem['name'] = response.xpath('//*[@id="blk_list_02"]/table/tbody/tr[*]/td[4]/div/a/text()').extract()
        yield stockitem#数据交给管道文件储存
        # 下载4页
        if self.start < 10:
            self.start += 1
            url = self.url + str(self.start)
            yield scrapy.Request(url, callback=self.parse)  #使用迭代的方式循环调用request

pipelines

import json#导入Json库

class MyprojectPipeline:
    def __init__(self):
        self.filename=open("stock600518.json","w")#初始化对象的属性

    def process_item(self, item, spider):
        text = json.dumps(dict(item), ensure_ascii=False)+"n"
        # bytes to str
        bs = str(text.encode("utf-8"), encoding="utf8")
        self.filename.write(bs)#写入文本
        return item#item必须return

    def close_spider(self, spider):#可选
        self.filename.close()

settings设置随机延迟50-100ms

DOWNLOAD_DELAY = 0.05

custom_settings = {
        "RANDOM_DELAY": 0.1,
        "DOWNLOADER_MIDDLEWARES": {
            "middlewares.random_delay_middleware.RandomDelayMiddleware": 999,
        }
    }

DOWNLOAD_DELAY与custom_settings都用于设置爬虫时的延迟。
但前一个设置的是固定的，后一个设置的是随机的。
对于后者如果设置RANDOM_DELAY=3，就代表随机延迟0-3秒。
二者结合起来总的延迟将有所改变。

DOWNLOAD_DELAY + 0 < total_delay < DOWNLOAD_DELAY + RANDOM_DELAY

所以这里这样设置，它的延迟就为50ms-100ms之间。

介绍

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。
Scrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架，它可以应用在广泛领域：Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。 [3]
尽管Scrapy原本是设计用来屏幕抓取（更精确的说，是网络抓取），但它也可以用来访问API来提取数据。
在这里插入图片描述
(1)、调度器(Scheduler):

调度器，说白了把它假设成为一个URL（抓取网页的网址或者说是链接）的优先队列，由它来决定下一个要抓取的网址是什么，同时去除重复的网址（不做无用功）。用户可以自己的需求定制调度器。

(2)、下载器(Downloader):

下载器，是所有组件中负担最大的，它用于高速地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的(其实整个框架都在建立在这个模型上的)。

(3)、爬虫（Spider）:

爬虫，是用户最关心的部份。用户定制自己的爬虫(通过定制正则表达式等语法)，用于从特定的网页中提取自己需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面。

(4)、实体管道(Item Pipeline):

实体管道，用于处理爬虫(spider)提取的实体。主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。

(5)、Scrapy引擎(Scrapy Engine):

Scrapy引擎是整个框架的核心.它用来控制调试器、下载器、爬虫。实际上，引擎相当于计算机的CPU,它控制着整个流程

最后

以上就是烂漫绿草为你收集整理的Scrapy 获取数据保存为json文件结果items蜘蛛程序pipelinessettings设置随机延迟50-100ms介绍的全部内容，希望文章能够帮你解决Scrapy 获取数据保存为json文件结果items蜘蛛程序pipelinessettings设置随机延迟50-100ms介绍所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错，欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：Scrapy
浏览次数：59 次浏览
发布日期：2024-07-23 06:10:03
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_18_f0_14_z_10_5.html

Scrapy 获取数据保存为json文件结果items蜘蛛程序pipelinessettings设置随机延迟50-100ms介绍

概述

Scrapy 获取数据并保存为json文件

结果

items

蜘蛛程序

pipelines

settings设置随机延迟50-100ms

介绍

最后

评论列表共有 0 条评论

发表评论取消回复

Scrapy 获取数据保存为json文件结果items蜘蛛程序pipelinessettings设置随机延迟50-100ms介绍

概述

Scrapy 获取数据 并保存为json文件

结果

items

蜘蛛程序

pipelines

settings设置随机延迟50-100ms

介绍

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

Scrapy 获取数据并保存为json文件

发表评论取消回复