scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片

362 阅读 0 评论 239 点赞

我是靠谱客的博主淡定红酒，这篇文章主要介绍scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片，现在分享给大家，希望可以做个参考。

scrapy框架-下载及处理文件和图片

前言：scrapy提供下载item中包含的文件及图片，提供了一个可重用的item pipelines，这些pipeline有些共同的方法和结构(我们称之为media pipeline)。一般来说你会使用Files Pipeline或者 Images Pipeline。

这两种pipeline都实现了以下特性:

避免重新下载最近已经下载过的数据
将所有下载的图片转换成通用的格式（JPG）和模式（RGB）
缩略图生成
检测图像的宽/高，确保它们满足最小限制

一、使用Files Pipeline

工作流程：

当使用 FilesPipeline ，典型的工作流程如下所示:

在一个爬虫里，你抓取一个项目，把其中图片的URL放入 file_urls 组内。
项目从爬虫内返回，进入项目管道。
当项目进入 FilesPipeline，file_urls 组内的URLs将被Scrapy的调度器和下载器（这意味着调度器和下载器的中间件可以复用）安排下载，当优先级更高，会在其他页面被抓取前处理。项目会在这个特定的管道阶段保持“locker”的状态，直到完成文件的下载（或者由于某些原因未完成下载）。
当文件下载完后，另一个字段(files)将被更新到结构中。这个组将包含一个字典列表，其中包括下载文件的信息，比如下载路径、源抓取地址（从 file_urls 组获得）和图片的校验码(checksum)。 files 列表中的文件顺序将和源 file_urls 组保持一致。如果某个图片下载失败，将会记录下错误信息，图片也不会出现在 files 组中

启用 Media Pipeline

为了启用 media pipeline，你首先需要在项目中添加它 ITEM_PIPELINES setting.

对于 Images Pipeline, 使用:

ITEM_PIPELINES = {'scrapy.pipeline.images.ImagesPipeline': 1}

对于 Files Pipeline, 使用:

ITEM_PIPELINES = {'scrapy.pipeline.files.FilesPipeline': 1}

你可以同时使用 Files 与 Images Pipeline.

接着IMAGES_STORE设置为一个有效的文件夹，用来存储下载的图片。否则管道将保持禁用状态，即使你在 ITEM_PIPELINES设置中添加了它。

对于Files Pipeline, 设置 FILES_STORE

FILES_STORE = 'path'

对于Images Pipeline, 设置IMAGES_STORE

IMAGES_STORE = 'path'
i

二、扩展Media Pipeline

覆盖class scrapy.pipeline.files.FilesPipeline

get_media_requests(item, info)

在工作流程中可以看到，管道会得到文件的URL并从项目中下载。为了这么做，你需要重写 get_media_requests()方法，并对各个图片URL返回一个Request:

def get_media_requests(self, item, info):
for file_url in item['file_urls']:
yield scrapy.Request(file_url)

下面是你可以在定制的图片管道里重写的方法：

class scrapy.pipeline.images.ImagesPipeline

ImagesPipeline 扩展了 FilesPipeline, 提供了自定义字段名称及自定义处理图片的能力。

**get_media_requests(item, info) **
item_completed(results, items, info)

当一个单独项目中的所有图片请求完成时（要么完成下载，要么因为某种原因下载失败）， ImagesPipeline.item_completed()方法将被调用。

执行过程与 FilesPipeline.item_completed() 相同，但是在存储图片下载结果时使用了不同的字段名称。

默认情况下， item_completed()方法返回item。

一个例子

import scrapy
from scrapy.pipelines.images import ImagesPipeline
from scrapy.exceptions import DropItem
class MyImagesPipeline(ImagesPipeline):
def get_media_requests(self, item, info):
# image_urls 是一个数组
for image_url in item['image_urls']:
yield scrapy.Request(image_url)
# 如果image_urls是一个链接 也可以
# yield scrapy.Request(item['image_urls'])
# 以下方法可以不写
def item_completed(self, results, item, info):
image_paths = [x['path'] for ok, x in results if ok]
if not image_paths:
raise DropItem("Item contains no images")
item['image_paths'] = image_paths
return item

修改保存地址及名称

这个需要在类中重写** (self, request, response=None, info=None)????*


def file_path(self, request, response=None, info=None):
item = request.meta['item']
image_guid =item['name']
return '%s.jpg' % (image_guid)

通过改变file_path的返回值来决定保存位置

最后

以上就是淡定红酒最近收集整理的关于scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片的全部内容，更多相关scrapy内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：python
浏览次数：362 次浏览
发布日期：2024-07-23 09:05:01

scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片

scrapy框架-下载及处理文件和图片

一、使用Files Pipeline

二、扩展Media Pipeline

修改保存地址及名称

最后

评论列表共有 0 条评论

发表评论取消回复

scrapy 下载及处理文件和图片scrapy框架-下载及处理文件和图片

scrapy框架-下载及处理文件和图片

一、使用Files Pipeline

二、扩展Media Pipeline

修改保存地址及名称

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复