爬虫技术的正则基础：用re提取html标签中间的内容

330 阅读 0 评论 218 点赞

我是靠谱客的博主柔弱芝麻，这篇文章主要介绍爬虫技术的正则基础：用re提取html标签中间的内容，现在分享给大家，希望可以做个参考。

我们可以使用贪心捕获、费贪心捕获等方法，用正则表达式提取标签中间的内容。我们需要将模式字符串设置为

(.*)

来捕获标签中间的内容，其中点号.表示匹配除了换行符以外的任意字符，*表示匹配任意多（0个或者1个或者多个）字符。注意如果我们把小括号（）去掉，那么在返回的字符串中将把html标签也包括进去。我们可以通过以下代码来看一下运行的结果。

import re
content = '''
	<h>dakfadg</>
	<div>graph</div>
	<div>math</div>
'''

pat = r'<div>.*</div>'
results = re.findall(pat,content)
print(results)

pat = r'<div>(.*)</div>'
results = re.findall(pat,content)
print(results)

结果如下图所示：

['<div>graph</div>', '<div>math</div>']
['graph', 'math']
[Finished in 0.7s]

这样我们就把div标签中的内容存放在了一个列表当中，这项技术可以用在网络爬虫中。

最后

以上就是柔弱芝麻最近收集整理的关于爬虫技术的正则基础：用re提取html标签中间的内容的全部内容，更多相关爬虫技术内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：python基础知识点整理
浏览次数：330 次浏览
发布日期：2023-11-22 11:45:05

爬虫技术的正则基础：用re提取html标签中间的内容

最后

评论列表共有 0 条评论

发表评论取消回复

爬虫技术的正则基础：用re提取html标签中间的内容

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复