我是靠谱客的博主 自然蜗牛,最近开发中收集的这篇文章主要介绍python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

此处不打算解释具体用法,因为官方主页中有说明:

以及网上也有很多资料解释,具体是如何使用BeautifulSoup的。

此处只是记录,在使用过程中,遇到的一些问题,以及如何解决的,或者是使用时候,有哪些需要注意的事情。

1.关于不支持相关的问题

如果要解析的html中包含类似于:

等字样的字符串,此处3.0.6的BeautifulSoup会解析出错的。

具体相关解释去看:

2.不支持html中一些属性/字符的深度嵌套

如果解析的html中包含一些特殊的情况,比如

sina的一个博客帖子:

其html源码中包含这样的:。。。。。。。。。。。。。。。

那么此部分内容,就会解析失败。

此处我用了代码:# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html

processedHtml = processedHtml.replace('', "");

processedHtml = processedHtml.replace("", "");

去处理,然后再去解析,就可以了。

最后

以上就是自然蜗牛为你收集整理的python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...的全部内容,希望文章能够帮你解决python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(67)

评论列表共有 0 条评论

立即
投稿
返回
顶部