Python爬虫学习笔记（三）——爬虫基本原理Python爬虫

343 阅读 0 评论 227 点赞

我是靠谱客的博主朴实鸡翅，这篇文章主要介绍Python爬虫学习笔记（三）——爬虫基本原理Python爬虫，现在分享给大家，希望可以做个参考。

文章目录

Python爬虫
- 第二章爬虫基础
- - 第3节爬虫的基本原理
  - - 一、爬虫概述
    - 二、能抓取的数据
    - 三、通过JavaScript渲染的页面

Python爬虫

第二章爬虫基础

第3节爬虫的基本原理

一、爬虫概述

获取网页：
- 获取网页，就是获取网页的源代码。
- 向网站的服务器发送一个请求，返回的响应体便是网页源代码。
- Python提供了urllib、requests等库来帮助我们实现这个操作。我们可以用这些库来帮助我们实现HTTP请求操作，请求和响应都可以用类库提供的数据结构来表示，得到响应之后只需要解析数据结构中的Body部分即可，即得到网页的源代码。
提取信息
- 获取网页源代码后，接下来就是分析网页源代码，从中提取我们想要的数据。首先，最通用的方法便是采用正则表达式提取，这是一个万能的方法，但是在构造正则表达式时比较复杂且容易出错。
- 由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS选择器或XPath来提取网页信息的库，如Beautiful Soup、pyquery、lxml等。使用这些库，我们可以高效快速地从中提取网页信息，如节点的属性、文本值等。
- 提取信息是爬虫非常重要的部分，它可以使杂乱的数据变得条理清晰，以便我们后续处理和分析数据。
保存数据

提取到的数据可以保存，保存形式有多种多样，如可以简单保存为TXT 文本或JSON 文本，也可以保存到数据库，如MySQL 和MongoDB 等，也可保存至远程服务器，如借助SFTP 进行操作等。
自动化程序

爬虫可以代替我们来自动化地完成这份爬取工作，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行。

二、能抓取的数据

常规网页，它们对应着HTML 代码，而最常抓取的便是HTML源代码。
另外，可能有些网页返回的不是HTML 代码，而是一个JSON 字符串（其中API 接口大多采用这样的形式），这种格式的数据方便传输和解析，它们同样可以抓取，而且数据提取更加方便。
此外，我们还可以看到各种二进制数据，如图片、视频和音频等。利用爬虫，我们可以将这些二进制数据抓取下来，然后保存成对应的文件名。
另外，还可以看到各种扩展名的文件，如CSS、JavaScript 和配置文件等，这些其实也是最普通的文件，只要在浏览器里面可以访问到，就可以将其抓取下来。

上述内容其实都对应各自的URL ，是基于HTTP 或HTTPS 协议的，只要是这种数据，爬虫都可
以抓取。

三、通过JavaScript渲染的页面

现在网页越来越多地采用Ajax 、前端模块化工具来构建，整个网页可能都是由JavaScript 渲染出来的，也就是说原始的HTML 代码就是一个空壳，导致我们在用时urllib或requests抓取网页时，得到的源代码实际和浏览器中看到的不一样。
如
```
<script src= "app.js"></script>
```
就是指引入了app.js，它便负责整个网站的渲染

在浏览器中打开这个页面时，首先会加载这个HTML 内容，接着浏览器会发现其中引人了一个app.js 文件，然后便会接着去请求这个文件，获取到该文件后，便会执行其中的JavaScript 代码，而JavaScript 则会改变HTML 中的节点，向其添加内容，最后得到完整的页面。

但是在用urllib 或requests 等库请求当前页面时，我们得到的只是这个HTML 代码，它不会帮助我们去继续加载这个JavaScript 文件，这样也就看不到浏览器中的内容了。
因此，使用基本HTTP 请求库得到的源代码可能跟浏览器中的页面源代码不太一样。对于这样的情况，我们可以分析其后台Ajax 接口，也可使用Selenium 、Splash 这样的库来实现模拟JavaScript 渲染。