基础篇-爬虫基本原理

304 阅读 0 评论 201 点赞

我是靠谱客的博主爱听歌电灯胆，这篇文章主要介绍基础篇-爬虫基本原理，现在分享给大家，希望可以做个参考。

本文为自己动手，丰衣足食！Python3网络爬虫实战案例的学习笔记，部分图片来源于视频截图。

爬虫：请求网站，并提取数据的自动化程序请求网站，并提取数据的自动化程序

爬虫基本流程

在了解爬虫的定义之后，那么再来看看爬虫是如何工作的吧。
第一步：发起请求。一般是通过HTTP库，对目标站点进行请求。等同于自己打开浏览器，输入网址。
第二步：获取响应内容（response）。如果请求的内容存在于服务器上，那么服务器会返回请求的内容，一般为：HTML，二进制文件（视频，音频），文档，Json字符串等。
第三步：解析内容。对于用户而言，就是寻找自己需要的信息。对于Python爬虫而言，就是利用正则表达式或者其他库提取目标信息。
第四步：保存数据。解析得到的数据可以多种形式，如文本，音频，视频保存在本地。