概述
scrapy框架-下载及处理文件和图片
前言:scrapy提供下载item中包含的文件及图片, 提供了一个可重用的item pipelines, 这些pipeline有些共同的方法和结构(我们称之为media pipeline)。一般来说你会使用Files Pipeline或者 Images Pipeline。
这两种pipeline都实现了以下特性:
-
避免重新下载最近已经下载过的数据
-
将所有下载的图片转换成通用的格式(JPG)和模式(RGB)
-
缩略图生成
-
检测图像的宽/高,确保它们满足最小限制
一、使用Files Pipeline
工作流程:
当使用 FilesPipeline
,典型的工作流程如下所示:
- 在一个爬虫里,你抓取一个项目,把其中图片的URL放入
file_urls
组内。 - 项目从爬虫内返回,进入项目管道。
- 当项目进入
FilesPipeline
,file_urls
组内的URLs将被Scrapy的调度器和下载器(这意味着调度器和下载器的中间件可以复用)安排下载,当优先级更高,会在其他页面被抓取前处理。项目会在这个特定的管道阶段保持“locker”的状态,直到完成文件的下载(或者由于某些原因未完成下载)。 - 当文件下载完后,另一个字段(
files
)将被更新到结构中。这个组将包含一个字典列表,其中包括下载文件的信息,比如下载路径、源抓取地址(从file_urls
组获得)和图片的校验码(checksum)。files
列表中的文件顺序将和源file_urls
组保持一致。如果某个图片下载失败,将会记录下错误信息,图片也不会出现在files
组中
启用 Media Pipeline
为了启用 media pipeline,你首先需要在项目中添加它 ITEM_PIPELINES setting.
对于 Images Pipeline, 使用:
ITEM_PIPELINES = {'scrapy.pipeline.images.ImagesPipeline': 1}
对于 Files Pipeline, 使用:
ITEM_PIPELINES = {'scrapy.pipeline.files.FilesPipeline': 1}
你可以同时使用 Files 与 Images Pipeline.
接着IMAGES_STORE设置为一个有效的文件夹,用来存储下载的图片。 否则管道将保持禁用状态,即使你在 ITEM_PIPELINES设置中添加了它。
对于Files Pipeline, 设置 FILES_STORE
FILES_STORE = 'path'
对于Images Pipeline, 设置IMAGES_STORE
IMAGES_STORE = 'path'
i
二、扩展Media Pipeline
覆盖class scrapy.pipeline.files.FilesPipeline
- get_media_requests(item, info)
在工作流程中可以看到,管道会得到文件的URL并从项目中下载。为了这么做,你需要重写 get_media_requests()方法,并对各个图片URL返回一个Request:
def get_media_requests(self, item, info):
for file_url in item['file_urls']:
yield scrapy.Request(file_url)
下面是你可以在定制的图片管道里重写的方法:
class scrapy.pipeline.images.ImagesPipeline
ImagesPipeline 扩展了 FilesPipeline, 提供了自定义字段名称及自定义处理图片的能力。
-
**get_media_requests(item, info) **
-
item_completed(results, items, info)
当一个单独项目中的所有图片请求完成时(要么完成下载,要么因为某种原因下载失败), ImagesPipeline.item_completed()方法将被调用。
执行过程与 FilesPipeline.item_completed() 相同,但是在存储图片下载结果时使用了不同的字段名称。
默认情况下, item_completed()方法返回item。
-
一个例子
import scrapy from scrapy.pipelines.images import ImagesPipeline from scrapy.exceptions import DropItem class MyImagesPipeline(ImagesPipeline): def get_media_requests(self, item, info): # image_urls 是一个数组 for image_url in item['image_urls']: yield scrapy.Request(image_url) # 如果image_urls是一个链接 也可以 # yield scrapy.Request(item['image_urls']) # 以下方法可以不写 def item_completed(self, results, item, info): image_paths = [x['path'] for ok, x in results if ok] if not image_paths: raise DropItem("Item contains no images") item['image_paths'] = image_paths return item
修改保存地址及名称
这个需要在类中重写** (self, request, response=None, info=None)????*
def file_path(self, request, response=None, info=None):
item = request.meta['item']
image_guid =item['name']
return '%s.jpg' % (image_guid)
通过改变file_path的返回值来决定保存位置
最后
以上就是淡定红酒为你收集整理的scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片的全部内容,希望文章能够帮你解决scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复