我是靠谱客的博主 年轻秋天,最近开发中收集的这篇文章主要介绍正则表达式re 匹配pagesource 在爬虫aminer中的应用一、是什么?二、使用步骤,觉得挺不错的,现在分享给大家,希望可以做个参考。
概述
aminer中爬取数据正则表达式的写法
文章目录
- 一、是什么?
- 二、使用步骤
一、是什么?
// 以该条为例子
url_list = re.findall('"url":"(.*?)"', browser_2.page_source, re.S)
//第一个参数表示符合这个格式的,其中.表任意字符,*表示任意数目,?表示非贪婪规则。如果你不加(),那么你返回的是整个字符串,加了(),你返回的是()里的东西。
//第二个参数是你正则re寻找的源文件
//re.S 表示的是正则模式:这一行找不到不中断,继续下一行
二、使用步骤
代码如下(示例):
try:
url_list = re.findall('"url":"(.*?)"', browser_2.page_source, re.S)
homepage=[]
for url in url_list:
homepage=homepage+[url.replace("\u002F", "/")]
# details = browser_2.find_element_by_xpath('//*[@class="expert_info_content"]')
# homepage = details.find_elements_by_xpath('//*[@class="homepage baseInfo"]')
# h = []
# for url in homepage:
#
h = h + [url.text]
#
print(h)
except:
homepage="no homepage"
try:
papers = re.findall('"pubs":(.*?)}', browser_2.page_source, re.S)
except:
papers = "no papers"
try:
citation = re.findall('"citations":(.*?),', browser_2.page_source, re.S)
except:
citation = "no citation"
try:
hindex = re.findall('"hindex":(.*?),', browser_2.page_source, re.S)
except:
hindex = "no hindex"
最后
以上就是年轻秋天为你收集整理的正则表达式re 匹配pagesource 在爬虫aminer中的应用一、是什么?二、使用步骤的全部内容,希望文章能够帮你解决正则表达式re 匹配pagesource 在爬虫aminer中的应用一、是什么?二、使用步骤所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复