python3 网络爬虫开发实战-使用Beautiful Soup
前言前面介绍了正则表达式的相关用法,但是一旦正则表达式写得有问题,得到的可能就不是我们想要的结果。对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有 id 或 class来区分,所以也可以借助它们的结构和属性来进行提取。这一节介绍Beautiful Soup,它借助网页的结构和属性等特性来解析网页Beautiful Soup的安装pip3 install beautifulsoup4解析器Beautiful Soup 在解析时实际上依赖于解析器。因为lxml解析器有解析HTML