我是靠谱客的博主 自然蜗牛,最近开发中收集的这篇文章主要介绍python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
此处不打算解释具体用法,因为官方主页中有说明:
以及网上也有很多资料解释,具体是如何使用BeautifulSoup的。
此处只是记录,在使用过程中,遇到的一些问题,以及如何解决的,或者是使用时候,有哪些需要注意的事情。
1.关于不支持相关的问题
如果要解析的html中包含类似于:
等字样的字符串,此处3.0.6的BeautifulSoup会解析出错的。
具体相关解释去看:
2.不支持html中一些属性/字符的深度嵌套
如果解析的html中包含一些特殊的情况,比如
sina的一个博客帖子:
其html源码中包含这样的:。。。。。。。。。。。。。。。
那么此部分内容,就会解析失败。
此处我用了代码:# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html
processedHtml = processedHtml.replace('', "");
processedHtml = processedHtml.replace("", "");
去处理,然后再去解析,就可以了。
最后
以上就是自然蜗牛为你收集整理的python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...的全部内容,希望文章能够帮你解决python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复