爬虫数据提取-正则表达式re提取网页数据信息
经过上一期我们介绍了xpath和beautifulsoup4提取数据之后,本章我们介绍一种新的提取数据的方法,就是正则表达是提取数据。首先我们介绍什么是正则表达式,正则表达式就是按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式。import re#这个就是正则表达式的库对于单字符匹配import retext='abc'result=re.match('a',text)#从text中匹配a元素下面我介绍一下所有的正则表达式的规则. -表示匹配任意字符\D - 表示