爬虫beautifulsoup实践

66 阅读 0 评论 44 点赞

我是靠谱客的博主清秀花生，最近开发中收集的这篇文章主要介绍爬虫beautifulsoup实践，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

爬虫beautifulsoup实践：

目的：在https://unsplash.com/上爬取图片并保存到本地文件夹里。

一、观察response。首先，在Chrome浏览器里观察一下该网页的response内容，可以观察到，图片的URL都存放在img标签下面，srcset属性里面，而且它们的class属性都为_2zEKz。

二、理清爬虫步骤的思路。规律已经找出来了~下一步就把爬虫的思路写一下：
1、利用requests库获取目标网站的response（headers用Chrome浏览器里面的headers);
2、对获取到的response进行处理，截取到里面包含的每个图片URL信息；
3、对每个图片的URL进行请求，然后将每个response存到指定的文件夹里面。

如果你对python感兴趣，我这有个学习Python基地，里面有很多学习资料，感兴趣的+Q群：688244617

三、编写步骤。
1、利用requests库获取目标网站的response（headers用Chrome浏览器里面的headers);
在Chrome里面搞个user-agent去做headers
headers={‘user-agent’:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36’}
response = requests.get(‘https://unsplash.com/’,headers=headers)
这样，第一步就基本完成了，可以测试一下，看是否真的获取到response：
print(response.status_code)
如果结果输出为200，证明成功获取到response

2、对获取到的response进行处理，截取到里面包含的每个图片URL信息；
response里面包含了页面所有的html文本信息，但我们只需要其中的图片的URL，所以，这一步主要就是对这些文本信息进行处理。
这一步有两个方向可以选择，一是用正则表达式去匹配合适的文本信息，二是利用beautifulsoup去做一个获取。在这个实践中我们选用beautifulsoup，而且这样做的效率比正则表达式高很多（特别是对于对正则表达式不是很熟练的同学来说）。