我是靠谱客的博主 舒服发卡,最近开发中收集的这篇文章主要介绍初识Scrapy,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

Scrapy  : 

             Scrapy是一个应用程序框架,用于抓取网站并提取可用于广泛的有用应用程序的结构化数据,如数据挖掘,信息处理或历史档案

              Scrapy最初是为网页抓取而设计的,但它也可以用于使用API​​(如Amazon Associates Web Services)或作为通用网络抓取工具提取数据

Scrapy安装教程  :

              1. scrapy需要安装第三方库文件,lxml和Twisted
              2. 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
              3.       下载好文件之后,在DOS命令下pip install   文件的位置(lxlm)安装。
              4.       安装完成就可以安装:pip  install  scrapy

              5.      还需要安装 win32(启动蜘蛛的时候会提示安装,根据python版本来的我32位)      pip install pypiwin32

Scrapy的运行流程 :

            1 引擎访问spider,询问需要处理的URL链接,spider收到请求,将需要处理的URL告诉引擎,然后将URL给引擎处理。
            2 引擎通知调度器,调度器得到通知将URL排序入队,并加以处理。
            3 引擎通知调度器,调度器将处理好的request返回给引擎
            4 引擎接收到request后告诉下载器,按照setting中配置的顺序下载这个request的请求
           5 下载器收到请求,将下载好后的东西返回给引擎。如果下载失败,下载器会通知引擎,引擎再通知调度器,调度器收到消息后会记录这个下载失败的request。
           6 引擎得到下载好的东西后,通知spider(这里responses默认是交给def parse()函数处理)
           7 Spider收到通知后,处理接收的数据
           8 Spider处理完数据后返回给引擎两个结果:一个是需要跟进的URL,另一个是获取到的item数据。

           9 引擎将接收到的item数据交给管道处理,将需要跟进的URL交给调度器处理。重复循环直到获取完需要的全部信息。

创建一个项目:

             scrapy  startproject   tutorial         创建目录指定

             这将创建一个tutorial包含以下内容的目录:
                    scrapy 。cfg                部署配置文件
                    tutorial /                      project的Python模块,你将从这里导入你的代码
                          __init__ 。PY
                          物品。py                项目项目定义文件
                          中间件。py             项目中间件文件
                          管道。py                项目管道文件
                          设置。py                项目设置文件
                          蜘蛛/                      一个你将在后面放置你的蜘蛛

                              __init__的目录。PY

Scrapy爬虫实例 :

                       

Spider子类scrapy.Spider 定义了一些属性和方法:
                           name:标识蜘蛛。它在项目中必须是唯一的,也就是说,不能为不同的蜘蛛设置相同的名称。
                          start_requests():必须返回Spider将开始抓取的请求的迭代(您可以返回请求列表或编写生成器函数)。随后的请求将从这些初始请求中连续生成。
                        parse():将被调用来处理为每个请求下载的响应的方法。响应参数是TextResponse保存页面内容的一个实例,并有更多有用的方法来处理它。

                     该parse()方法通常解析响应,将提取的数据提取为字符串,并查找新的URL并Request根据它们创建新的请求()

  运行蜘蛛 :  

scrapy crawl s43999




最后

以上就是舒服发卡为你收集整理的初识Scrapy的全部内容,希望文章能够帮你解决初识Scrapy所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部