初识Scrapy

84 阅读 0 评论 56 点赞

我是靠谱客的博主舒服发卡，这篇文章主要介绍初识Scrapy，现在分享给大家，希望可以做个参考。

Scrapy :

Scrapy是一个应用程序框架，用于抓取网站并提取可用于广泛的有用应用程序的结构化数据，如数据挖掘，信息处理或历史档案

Scrapy最初是为网页抓取而设计的，但它也可以用于使用API（如Amazon Associates Web Services）或作为通用网络抓取工具提取数据

Scrapy安装教程 :

1. scrapy需要安装第三方库文件，lxml和Twisted
2. 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/
3. 下载好文件之后，在DOS命令下pip install 文件的位置（lxlm）安装。
4. 安装完成就可以安装：pip install scrapy

5. 还需要安装 win32（启动蜘蛛的时候会提示安装，根据python版本来的我32位） pip install pypiwin32

Scrapy的运行流程：

1 引擎访问spider，询问需要处理的URL链接，spider收到请求，将需要处理的URL告诉引擎，然后将URL给引擎处理。
2 引擎通知调度器，调度器得到通知将URL排序入队，并加以处理。
3 引擎通知调度器，调度器将处理好的request返回给引擎
4 引擎接收到request后告诉下载器，按照setting中配置的顺序下载这个request的请求
5 下载器收到请求,将下载好后的东西返回给引擎。如果下载失败，下载器会通知引擎，引擎再通知调度器，调度器收到消息后会记录这个下载失败的request。
6 引擎得到下载好的东西后，通知spider（这里responses默认是交给def parse（）函数处理）
7 Spider收到通知后，处理接收的数据
8 Spider处理完数据后返回给引擎两个结果：一个是需要跟进的URL，另一个是获取到的item数据。

9 引擎将接收到的item数据交给管道处理，将需要跟进的URL交给调度器处理。重复循环直到获取完需要的全部信息。

创建一个项目：

scrapy startproject tutorial 创建目录指定

这将创建一个tutorial包含以下内容的目录：
scrapy 。cfg 部署配置文件
tutorial / project的Python模块，你将从这里导入你的代码
__init__ 。PY
物品。py 项目项目定义文件
中间件。py 项目中间件文件
管道。py 项目管道文件
设置。py 项目设置文件
蜘蛛/ 一个你将在后面放置你的蜘蛛

__init__的目录。PY

Scrapy爬虫实例：

Spider子类scrapy.Spider 定义了一些属性和方法：
name：标识蜘蛛。它在项目中必须是唯一的，也就是说，不能为不同的蜘蛛设置相同的名称。
start_requests()：必须返回Spider将开始抓取的请求的迭代（您可以返回请求列表或编写生成器函数）。随后的请求将从这些初始请求中连续生成。
parse()：将被调用来处理为每个请求下载的响应的方法。响应参数是TextResponse保存页面内容的一个实例，并有更多有用的方法来处理它。

该parse()方法通常解析响应，将提取的数据提取为字符串，并查找新的URL并Request根据它们创建新的请求（）

运行蜘蛛：