BeautifulSoup库学习

306 阅读 0 评论 202 点赞

我是靠谱客的博主勤劳大山，这篇文章主要介绍BeautifulSoup库学习，现在分享给大家，希望可以做个参考。

简单地说，，BeautifulSoup就是Python的一个HTML或XML的解析库，可以用它方便的从网页中提取目标数据

python setup.py build
python setup.py install
要注意使用的时候不能直接import,而是要
from bs4 import BeautifulSoup

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, “html.parser”)	速度适中文档容错强	2.7前版本文档容错差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快，文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)	速度快，唯一支持xml解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性	速度慢，不依赖外部扩展

soup = BeautifulSoup(html)

html 可以为本地html文件，也可是通过requests.get()等方法获得的HTML文件

soup = BeautifulSoup(open(xxx.html))

BeautifulSoup初始化时会将不标准的HTML字符串更正格式

以上就是勤劳大山最近收集整理的关于BeautifulSoup库学习的全部内容，更多相关BeautifulSoup库学习内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。