【学习笔记】北京理工大学-Python网络爬虫与信息提取一.Requests库二.Beautiful Soup库三.Re库（正则表达式）四.Scrapy爬虫框架

363 阅读 0 评论 240 点赞

我是靠谱客的博主单纯野狼，这篇文章主要介绍【学习笔记】北京理工大学-Python网络爬虫与信息提取一.Requests库二.Beautiful Soup库三.Re库（正则表达式）四.Scrapy爬虫框架，现在分享给大家，希望可以做个参考。

Python网络爬虫与信息提取

一.Requests库
- Requests库的7个主要方法
- Response对象的属性
- ☆爬取网页的通用代码框架
- HTTP协议
- - 网络爬虫的尺寸
  - 如何限制网络爬虫？
- 实例代码
二.Beautiful Soup库
- 信息提取
三.Re库（正则表达式）
- 正则表达式常用操作符
- Re库
四.Scrapy爬虫框架
- requests vs Scrapy
- Scrapy爬虫常用命令

在这里插入图片描述
掌握定向网络数据爬取和网页解析基本能力

一.Requests库

在这里插入图片描述

Requests库的7个主要方法

在这里插入图片描述

Response对象的属性

在这里插入图片描述

☆爬取网页的通用代码框架

在这里插入图片描述

HTTP协议

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

cookies 英[ˈkʊkiz]
n. 曲奇饼; 精明强干的人; 坚强的人; 网络饼干(网络或互联网使用者发给中央服务器信息的计算机文件);

proxy , proxies：英[ˈprɒksiz]
n. 代理权; 代表权; 代理人; 受托人; 代表; (测算用的)代替物，指标;

在这里插入图片描述
最常用的是get方法，对于内容大的用head方法

网络爬虫的尺寸

在这里插入图片描述

如何限制网络爬虫？

在这里插入图片描述

实例代码

二.Beautiful Soup库

在这里插入图片描述

等价↑
BeautifulSoup对应一个 HTML/XML文档的全部内容

在这里插入图片描述

prettify

在这里插入图片描述

信息提取

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

三.Re库（正则表达式）

在这里插入图片描述
正则表达式：表示一组字符串的特征

在这里插入图片描述

主要应用在字符串匹配中

正则表达式常用操作符

在这里插入图片描述

Re库

在这里插入图片描述

在这里插入图片描述

substitute 英[ˈsʌbstɪtjuːt] 美[ˈsʌbstɪtuːt]
n. 代替者; 代替物; 代用品; 替补(运动员);
v. (以…)代替; 取代;

在这里插入图片描述

四.Scrapy爬虫框架

在这里插入图片描述

在这里插入图片描述

requests vs Scrapy

在这里插入图片描述

在这里插入图片描述

Scrapy爬虫常用命令

在这里插入图片描述

最后

以上就是单纯野狼最近收集整理的关于【学习笔记】北京理工大学-Python网络爬虫与信息提取一.Requests库二.Beautiful Soup库三.Re库（正则表达式）四.Scrapy爬虫框架的全部内容，更多相关【学习笔记】北京理工大学-Python网络爬虫与信息提取一.Requests库二.Beautiful内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(240)

本文分类：Python
浏览次数：363 次浏览
发布日期：2024-06-12 09:30:01

相关文章

Python语言程序设计-北京理工大学-笔记#1

Python语言程序设计-北京理工大学-笔记#1

Mocc-Python语言程序设计（第七周）

Mocc-Python语言程序设计（第七周）

Python 语言程序设计

Python语言程序设计（北京理工大学MOOC）6-8周第六周第七周第八周

Python语言程序设计（北京理工大学MOOC）6-8周第六周第七周第八周

【学习笔记】北京理工大学-Python网络爬虫与信息提取一.Requests库二.Beautiful Soup库三.Re库（正则表达式）四.Scrapy爬虫框架

【学习笔记】北京理工大学-Python网络爬虫与信息提取一.Requests库二.Beautiful Soup库三.Re库（正则表达式）四.Scrapy爬虫框架

Python语言程序设计基础笔记

Python语言程序设计基础笔记

Prometheus系列（三）nginx-vts-exporter

Prometheus系列（三）nginx-vts-exporter

Python语言程序设计学习笔记Python语言程序设计学习笔记

Python语言程序设计学习笔记Python语言程序设计学习笔记

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部