Python 3实战爬虫之爬取京东图书的图片详解

219 阅读 0 评论 145 点赞

我是靠谱客的博主花痴手机，这篇文章主要介绍Python 3实战爬虫之爬取京东图书的图片详解，现在分享给大家，希望可以做个参考。

前言

最近工作中遇到一个需求，需要将京东上图书的图片下载下来，假如我们想把京东商城图书类的图片类商品图片全部下载到本地，通过手工复制粘贴将是一项非常庞大的工程，此时，可以用Python网络爬虫实现，这类爬虫称为图片爬虫，接下来，我们将实现该爬虫。

实现分析

首先，打开要爬取的第一个网页，这个网页将作为要爬取的起始页面。我们打开京东，选择图书分类，由于图书所有种类的图书有很多，我们选择爬取所有编程语言的图书图片吧，网址为：https://list.jd.com/list.html?cat=1713,3287,3797&page=1&sort=sort_rank_asc&trans=1&JL=6_0_0#J_main

如图：

图片2：

<img width="200" height="200" data-img="1" src="//img10.360buyimg.com/n7/g14/M03/0E/0D/rBEhV1Im1n8IAAAAAAcHltD_3_8AAC0FgC-1WoABweu831.jpg">

对比两张图片代码，发现其基本格式是一样的，只是图片的链接网址不一样，所以此时，我们根据该规律构造出提取图片链接的正则表达式：

<img width="200" height="200" data-img="1" src="//(.+?\.jpg)">

刚开始到这里，我以为就结束了，后来在爬取的过程中我发现每一页都少爬取了很多图片，再次查看源码发现，每页后面的几十张图片又是另一种格式：

<img width="200" height="200" data-img="1" data-lazy-img="//img10.360buyimg.com/n7/jfs/t3226/230/618950227/110172/7749a8bc/57bb23ebNfe011bfe.jpg">

所以，完整的正则表达式应该是这两种格式的或：

<img width="200" height="200" data-img="1" src="//(.+?\.jpg)">|<img width="200" height="200" data-img="1" data-lazy-img="//(.+?\.jpg)">

到这里，我们根据该正则表达式，就可以提取出一个页面中所有想要爬取的图片链接。

所以，根据上面的分析，我们可以得到该爬虫的编写思路与过程，具体如下：

建立一个爬取图片的自定义函数，该函数负责爬取一个页面下的我们想爬取的图片，爬取过程为：首先通过urllib.request.utlopen(url).read()读取对应网页的全部源代码，然后根据上面的第一个正则表达式进行第一次信息过滤，过滤完成之后，在第一次过滤结果的基础上，根据上面的第二个正则表达式进行第二次信息过滤，提取出该网页上所有的目标图片的链接，并将这些链接地址存储的一个列表中，随后遍历该列表，分别将对应链接通过urllib.request.urlretrieve(imageurl,filename=imagename)存储到本地，为了避免程序中途异常崩溃，我们可以建立异常处理。
通过for循环将该分类下的所有网页都爬取一遍，链接可以构造为url='https://list.jd.com/list.html?cat=1713,3287,3797&page=' + str(i)

完整的代码如下：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import re
import urllib.request
import urllib.error
import urllib.parse


sum = 0
def craw(url,page):
 html1=urllib.request.urlopen(url).read()
 html1=str(html1)
 pat1=r'<div id="plist".+? <div class="page clearfix">'
 result1=re.compile(pat1).findall(html1)
 result1=result1[0]
 pat2=r'<img width="200" height="200" data-img="1" src="//(.+?\.jpg)">|<img width="200" height="200" data-img="1" data-lazy-img="//(.+?\.jpg)">'
 imagelist=re.compile(pat2).findall(result1)
 x=1
 global sum
 for imageurl in imagelist:
  imagename='./books/'+str(page)+':'+str(x)+'.jpg'
  if imageurl[0]!='':
   imageurl='http://'+imageurl[0]
  else:
   imageurl='http://'+imageurl[1]
  print('开始爬取第%d页第%d张图片'%(page,x))

  try:
   urllib.request.urlretrieve(imageurl,filename=imagename)
  except urllib.error.URLError as e:
   if hasattr(e,'code') or hasattr(e,'reason'):
    x+=1

  print('成功保存第%d页第%d张图片'%(page,x))
  x+=1
  sum+=1

for i in range(1,251):
 url='https://list.jd.com/list.html?cat=1713,3287,3797&page='+str(i)
 craw(url,i)
print('爬取图片结束，成功保存%d张图'%sum)

运行结果如下：