概述
Scrapy :
Scrapy是一个应用程序框架,用于抓取网站并提取可用于广泛的有用应用程序的结构化数据,如数据挖掘,信息处理或历史档案
Scrapy最初是为网页抓取而设计的,但它也可以用于使用API(如Amazon Associates Web Services)或作为通用网络抓取工具提取数据
Scrapy安装教程 :
1. scrapy需要安装第三方库文件,lxml和Twisted
2. 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
3. 下载好文件之后,在DOS命令下pip install 文件的位置(lxlm)安装。
4. 安装完成就可以安装:pip install scrapy
5. 还需要安装 win32(启动蜘蛛的时候会提示安装,根据python版本来的我32位) pip install pypiwin32
Scrapy的运行流程 :
1 引擎访问spider,询问需要处理的URL链接,spider收到请求,将需要处理的URL告诉引擎,然后将URL给引擎处理。
2 引擎通知调度器,调度器得到通知将URL排序入队,并加以处理。
3 引擎通知调度器,调度器将处理好的request返回给引擎
4 引擎接收到request后告诉下载器,按照setting中配置的顺序下载这个request的请求
5 下载器收到请求,将下载好后的东西返回给引擎。如果下载失败,下载器会通知引擎,引擎再通知调度器,调度器收到消息后会记录这个下载失败的request。
6 引擎得到下载好的东西后,通知spider(这里responses默认是交给def parse()函数处理)
7 Spider收到通知后,处理接收的数据
8 Spider处理完数据后返回给引擎两个结果:一个是需要跟进的URL,另一个是获取到的item数据。
9 引擎将接收到的item数据交给管道处理,将需要跟进的URL交给调度器处理。重复循环直到获取完需要的全部信息。
创建一个项目:
scrapy startproject tutorial 创建目录指定
这将创建一个tutorial包含以下内容的目录:
scrapy 。cfg 部署配置文件
tutorial / project的Python模块,你将从这里导入你的代码
__init__ 。PY
物品。py 项目项目定义文件
中间件。py 项目中间件文件
管道。py 项目管道文件
设置。py 项目设置文件
蜘蛛/ 一个你将在后面放置你的蜘蛛
__init__的目录。PY
Scrapy爬虫实例 :
Spider子类scrapy.Spider 定义了一些属性和方法:
name:标识蜘蛛。它在项目中必须是唯一的,也就是说,不能为不同的蜘蛛设置相同的名称。
start_requests():必须返回Spider将开始抓取的请求的迭代(您可以返回请求列表或编写生成器函数)。随后的请求将从这些初始请求中连续生成。
parse():将被调用来处理为每个请求下载的响应的方法。响应参数是TextResponse保存页面内容的一个实例,并有更多有用的方法来处理它。
该parse()方法通常解析响应,将提取的数据提取为字符串,并查找新的URL并Request根据它们创建新的请求()
运行蜘蛛 :
scrapy crawl s43999
最后
以上就是舒服发卡为你收集整理的初识Scrapy的全部内容,希望文章能够帮你解决初识Scrapy所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复