我是靠谱客的博主 爱笑橘子,最近开发中收集的这篇文章主要介绍html获取列表中的内容,使用python和BeautifulSoup从html中提取表内容,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我想从html文档中提取某些信息.例如,它包含一个表(在其他表中包含其他内容),如下所示:

Advisory:RHBA-2013:0947-1
Type:Bug Fix Advisory
Severity:N/A
Issued on:2013-06-13
Last updated on:2013-06-13
Affected Products:Red Hat Enterprise Linux ELS (v. 4)

我想提取信息,如"发布日期:".看起来像BeautifulSoup4可以轻松地做到这一点,但不知何故,我无法做到这一点.我的代码到目前为止:

from bs4 import BeautifulSoup

soup=BeautifulSoup(unicodestring_containing_the_entire_htlm_doc)

table_tag=soup.table

if table_tag['class'] == ['details']:

print table_tag.tr.th.get_text() + " " + table_tag.tr.td.get_text()

a=table_tag.next_sibling

print unicode(a)

print table_tag.contents

这将获取第一个表行的内容,以及内容列表.但是下一个兄弟的事情是行不通的,我想我只是错了.当然我可以解析内容,但在我看来,美丽的汤旨在阻止我们这样做(如果我开始解析自己,我不妨解析整个文档......).如果有人能够告诉我如何实现这一点,我将感激不尽.如果有更好的方式然后BeautifulSoup,我会有兴趣听到它.

最后

以上就是爱笑橘子为你收集整理的html获取列表中的内容,使用python和BeautifulSoup从html中提取表内容的全部内容,希望文章能够帮你解决html获取列表中的内容,使用python和BeautifulSoup从html中提取表内容所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(57)

评论列表共有 0 条评论

立即
投稿
返回
顶部