Scrapy爬虫框架结构以及和Requests库的比较

325 阅读 0 评论 215 点赞

我是靠谱客的博主务实夏天，这篇文章主要介绍Scrapy爬虫框架结构以及和Requests库的比较，现在分享给大家，希望可以做个参考。

*爬虫框架是实现爬虫功能的一个软件结构和功能组件集合

*爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫

"5+2"结构

Spiders（用户提供Url、以及解析内容）、Item pipelines（对提取的信息进行处理）模块需要用户编写（配置）

其他模块：Engine、Scheduler、Downloader模块已有实现，不需要用户进行修改

Engine：控制所有模块之间的数据流、根据条件触发事件，不需要用户修改

Downloader：根据请求下载网页，不需要用户修改

Scheduler：对所有爬取请求进行调度管理、不需要用户进行修改

Downloader Middleware（中间件）

目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制

功能：修改、丢弃、新增请求或响应

用户可以编写配置代码

Spider：解析Downloader返回的响应（Response）、产生爬取项（scraped item）、产生额外的爬取请求（Request）

Item pipelines：以流水线方式处理Spider产生的爬取项、由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型。

可能的操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。

Spider Middleware（中间件）

目的：对请求和爬取项的再处理

功能：修改、丢弃、新增请求或爬取项

用户可以编写配置代码