Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法

207 阅读 0 评论 137 点赞

我是靠谱客的博主可靠花生，这篇文章主要介绍Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法，现在分享给大家，希望可以做个参考。

BeautifulSoup官方介绍：

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

官方网站：https://www.crummy.com/software/BeautifulSoup/

BeautifulSoup安装

在"C:WindowsSystem32"中找到"cmd.exe"，使用管理员身份运行，在命令行中输入：“pip install beautifulsoup4”运行。

C:Windowssystem32>pip install beautifulsoup4
Requirement already satisfied (use --upgrade to upgrade): beautifulsoup4 in c:usersleiappdatalocalprogramspythonp
ython35libsite-packagesbeautifulsoup4-4.5.0-py3.5.egg
You are using pip version 8.1.1, however version 9.0.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.

提示pip版本过低，使用 python -m pip install --upgrade pip 进行升级。

Beautiful Soup库的安装测试：

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data</p>','html.parser')

演示HTML页面地址:http://www.cnblogs.com/yan-lei

>>> import requests
>>> from bs4 import BeautifulSoup
>>> r = requests.get("http://www.cnblogs.com/yan-lei/")
>>> demo = r.text
>>> soup = BeautifulSoup(demo,"html.parser")
>>> soup

Beautiful Soup库的使用

以HTML为例，任何HTML文件都是有一组"<>"组织起来的，其实就是标签，标签之间形成了上下游关系，形成了标签树。BeautifulSoup库是解析、遍历、维护“标签树”的功能库

<p>..</p>:标签Tag

标签Name一般成对出现
属性Attributes 0个或多个

Beautiful Soup库的引用

Beautiful Soup库，也叫beautfulsoup4 或bs4。约定引用方式如下，即主要是用BeautifulSoup类。

from bs4 import BeautifulSoup
import bs4

Beautiful Soup类

将标签树转换为BeautifulSoup类，此时我们将HTML、标签树、BeautifulSoup类等价

from bs4 import BeautifulSoup
soup1 = BeautifulSoup("<html>data</html>","html.parser")
soup2 = BeautifulSoup(open("D://demo.html",'rb'),"html.parser")

使用 soup2 = BeautifulSoup(open("D://demo.html"),"html.parser") 报错：

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "C:UsersleiAppDataLocalProgramsPythonPython35libsite-packagesbeautifulsoup4-4.5.0-py3.5.eggbs4__init_
_.py", line 191, in __init__
UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

BeautifulSoup对应一个HTML/XML文档的全部内容。

Beautiful Soup库解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'html5lib')	pip install html5lib

Beautiful Soup类的基本元素

基本元素	说明
Tag	标签，最基本的信息组织单元，分别用<>和</>标明开头和结尾
Name	标签的名字，<p>...</p>的名字是'p'，格式：<tag>.name
Attributes	标签的属性，字典形式的组织，格式：<tag>.attrs
NavigleString	标签内非属性字符串，<>...</>中字符串，格式<tag>.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

Tag标签：任何存在于HTML语法中的标签都可以用soup.<tag>访问获得；当HTML文档中存在多个相同<tag>对应内容时，soup.<tag>返回第一个。
Tag的名字（name）：每个<tag>都有自己的名字，通过<tag>.name获取，字符串类型。
Tag的attrs（属性）：一个<tag>可以有0个或多个属性，字典类型。
Tag的NavigableString：NavigableString可以跨越多个层次
Tag的Comment：Comment是一种特殊类型。

>>> import requests
>>> from bs4 import BeautifulSoup
>>> r = requests.get('http://www.cnblogs.com/yan-lei/')
>>> html = r.text
>>> soup = BeautifulSoup(html,'html.parser')
>>> soup.title
<title>Python学习者 - 博客园</title>
>>> soup.a
<a name="top"></a>
>>> soup.a.name
'a'
>>> soup.a.parent.name
'body'
>>> soup.a.attrs
{'name': 'top'}
>>> type(soup.a)
<class 'bs4.element.Tag'>
>>> type(soup.a.attrs)
<class 'dict'>
>>> soup.h1.string
'Python学习者'
>>> type(soup.h1.string)
<class 'bs4.element.NavigableString'>

基于bs4库的HTML内容遍历方法

HTML中 <...>构成了所属关系，形成了标签的树形结构，有三种遍历方式。

使用以下的HTML进行测试：E:BeautifulSoupTest.html

<html>
    <head>
        <meta charset="utf-8">
        <title>BeautifulSoup</title>
    </head>
    <body>
        <div id="header">
            <h1  style="font-size:16px;text-align:center">这里是标题</h1>
        </div>
        <div id="nav">
            <h1>左导航</h1>
        </div>
        <div id="main">
            <p>第一段</p>
            <p>第二段</p>
            <img src="test.jpg"/>
            <p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>

        </div>
        <div id="footer">
            <h1>底边</h1>
        </div>

    </body>
</html>

标签树的下行遍历

属性	说明
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.contents	子节点的列表，将<tag>所有儿子节点存入列表
.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

BeautifulSoup类是标签树的根节点

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(open('E:\BeautifulSoupTest.html','rb'),'html.parser')
>>> soup.head.contents #返回的是列表
['n', <meta charset="utf-8">
<title>BeautifulSoup</title>
</meta>]
>>> len(soup.body.contents)
9
>>> for child in soup.body.children:   # 遍历儿子节点
...     print(child)
...


<div id="header">
<h1 style="font-size:16px;text-align:center">这里是标题</h1>
</div>


<div id="nav">
<h1>左导航</h1>
</div>


<div id="main">
<p>第一段</p>
<p>第二段</p>
<img src="test.jpg">
<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>
</img></div>


<div id="footer">
<h1>底边</h1>
</div>


>>> for child in soup.body.descendants:  # 遍历子孙节点
...     print(child)
...


<div id="header">
<h1 style="font-size:16px;text-align:center">这里是标题</h1>
</div>


<h1 style="font-size:16px;text-align:center">这里是标题</h1>
这里是标题




<div id="nav">
<h1>左导航</h1>
</div>


<h1>左导航</h1>
左导航




<div id="main">
<p>第一段</p>
<p>第二段</p>
<img src="test.jpg">
<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>
</img></div>


<p>第一段</p>
第一段


<p>第二段</p>
第二段


<img src="test.jpg">
<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>
</img>


<p><a href="http://www.cnblogs.com/yan-lei/">博客园</a></p>
<a href="http://www.cnblogs.com/yan-lei/">博客园</a>
博客园




<div id="footer">
<h1>底边</h1>
</div>


<h1>底边</h1>
底边

for child in soup.body.children:   # 遍历儿子节点
    print(child)

for child in soup.body.descendants:  # 遍历子孙节点
    print(child)

标签树的上行遍历

属性	说明
.parent	节点的父亲标签
.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点

>>> for parent in soup.a.parents:
...     if parent is None:
...             print(parent)
...     else:
...             print(parent.name)
...
p
img
div
body
html
[document]

# 判断所有先辈节点，包括soup本身，所以要区别判断
for parent in soup.a.parents:
    if parent is None:
            print(parent)
    else:
            print(parent.name)

标签树的平行遍历

属性	说明
.next_sibling	返回按照HTML文本顺序的下一个平行节点标签
.previous_sibling	返回按照HTML文本顺序的上一个平行节点标签
.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
.previous_siblings	迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

*所有的平行遍历发生在同一个父节点下的各节点间。

# div标签下一个平行节点标签
soup.div.next_sibling

# div标签上一个平行节点标签
soup.div.previous_sibling


# 遍历后续节点
for sibling in soup.div.next_sibling:
    print(sibling) 

# 遍历前续节点
for sibling in soup.div.previous_sibling:
    print(sibling)

基于bs4库的HTML格式输出

bs4库的prettify()方法

.prettify()为HTML文本<>及其内容增加'n'

.prettify()可用于标签，方法：<tag>.prettify()

print(soup.prettify())

bs4库将任何HTML输入都变成utf-8编码，Python 3.x默认支持编码是utf-8，解析无障碍。

信息标记的三种形式

信息的标记：

标记后的信息可形成信息组织结构，增加了信息维度
标记后的信息可用于通信、存储或展示
标记的结构与信息一样具有重要价值
标记后的信息更利于程序的理解和运用

HTML的信息标记：

HTML是WWW（World Wide Web）的信息组织方式。

HTML通过预定义的<>...</>标签形式组织不同类型的信息。

XML eXtensible Markup Language

XML格式是基于HTML格式发展以来的一种通用的信息格式。

XML基本格式：<name> ... </name>
空元素缩写形式：<name />
注释书写形式：

JSON JavaScript Object Notation

有类型的键值对 key:value

使用 "" 表达是字符串类型，没有字符串则是数字类型。

YAML YAML Ain't Markup Language

无类型键值对 key:value

通过缩进表达所属关系

- 表达并列关系
| 表达整块数据
# 表示注释

key : value
key : #Comment
-value1
-value2
key :
    subkey : subvalue

三种信息标记形式的比较：

XML 最早的通用信息标记语言，可扩展性好，但繁琐。Internet上的信息交互与传递。

JSON 信息有类型，适合程序处理（js），较XML简洁。移动应用云端和节点的信息通信，无注释。

YAML 信息无类型，文本信息比例最高，可读性好。各类系统的配置文件，有注释易读。

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。

XML JSON YAML

需要标记解析器例如bs4库的标签树遍历

优点：信息解析准确

缺点：提取过程繁琐，速度慢。

方法二：无视标记形式，直接搜索关键信息。

搜索

对信息的文本查找函数即可。

优点：提取过程简介，速度较快。

缺点：提取结果准确性与信息内容相关。

方法三：融合方法

融合方法：结合形式解析与搜索方法，提取关键信息。

基于bs4库的HTML内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)

返回一个列表类型，存储查找结果。

name：对标签名称的检索字符串。
attrs：对标签属性值的检索字符串，可标注属性检索。
recursive：是否对子孙全部检索，默认True。
string：<>...</>中字符串区域的检索字符串。

<tag>(..) 等价于 <tag>.find_all(..)

soup(..) 等价于 soup.find_all(..)

>>> soup.div()
[<h1 style="font-size:16px;text-align:center">这里是标题</h1>]
>>> for tag in soup.find_all(True):  # 返回所有的标签
...     print(tag.name)
...
html
head
meta
title
body
div
h1
div
h1
div
p
p
img
p
a
div
h1

扩展方法

方法	说明
<>.find()	搜索且只返回一个结果，自负串类型，同.find_all()参数
<>.find_parents()	在先辈节点中搜索，返回列表类型，同find_all()参数
<>.find_parent()	在先辈节点中返回一个结果，字符串类型，同.find()参数
<>.find_next_siblings()	在后续平行节点中搜索，返回列表类型，同.find_all()参数
<>.find_next_sibling()	在后续平行节点中返回一个结果，字符串类型，同.find()参数
<>.find_previous_siblings()	在前序节点中搜索，返回列表类型，同.find_all()参数
<>.find_previous_sibling()	在前序节点中返回一个结果，字符串类型，同.find()参数

转载于:https://www.cnblogs.com/yan-lei/p/7615902.html

最后

以上就是可靠花生最近收集整理的关于Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法的全部内容，更多相关Python网络爬虫与信息提取（二）——内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：爬虫
浏览次数：207 次浏览
发布日期：2024-07-03 06:25:01
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_22_f4_13_j_22_2.html

Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法

BeautifulSoup安装

Beautiful Soup库的安装测试：

Beautiful Soup库的使用

Beautiful Soup库的引用

Beautiful Soup类

Beautiful Soup库解析器

Beautiful Soup类的基本元素

基于bs4库的HTML内容遍历方法

标签树的下行遍历

标签树的上行遍历

标签树的平行遍历

基于bs4库的HTML格式输出

信息标记的三种形式

信息的标记：

HTML的信息标记：

XML eXtensible Markup Language

JSON JavaScript Object Notation

YAML YAML Ain't Markup Language

三种信息标记形式的比较：

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。

方法二：无视标记形式，直接搜索关键信息。

方法三：融合方法

基于bs4库的HTML内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)

扩展方法

最后

评论列表共有 0 条评论

发表评论取消回复

Python网络爬虫与信息提取（二）—— BeautifulSoupBeautifulSoup安装Beautiful Soup库的使用基于bs4库的HTML内容遍历方法基于bs4库的HTML格式输出信息标记的三种形式信息提取的一般方法基于bs4库的HTML内容查找方法

BeautifulSoup安装

Beautiful Soup库的安装测试：

Beautiful Soup库的使用

Beautiful Soup库的引用

Beautiful Soup类

Beautiful Soup库解析器

Beautiful Soup类的基本元素

基于bs4库的HTML内容遍历方法

标签树的下行遍历

标签树的上行遍历

标签树的平行遍历

基于bs4库的HTML格式输出

信息标记的三种形式

信息的标记：

HTML的信息标记：

XML eXtensible Markup Language

JSON JavaScript Object Notation

YAML YAML Ain't Markup Language

三种信息标记形式的比较：

信息提取的一般方法

方法一：完整解析信息的标记形式，再提取关键信息。

方法二：无视标记形式，直接搜索关键信息。

方法三：融合方法

基于bs4库的HTML内容查找方法

<>.find_all(name,attrs,recursive,string,**kwargs)

扩展方法

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复