aminer中爬取数据正则表达式的写法
文章目录
- 一、是什么?
- 二、使用步骤
一、是什么?
复制代码
1
2
3
4
5
6// 以该条为例子 url_list = re.findall('"url":"(.*?)"', browser_2.page_source, re.S) //第一个参数表示符合这个格式的,其中.表任意字符,*表示任意数目,?表示非贪婪规则。如果你不加(),那么你返回的是整个字符串,加了(),你返回的是()里的东西。 //第二个参数是你正则re寻找的源文件 //re.S 表示的是正则模式:这一行找不到不中断,继续下一行
二、使用步骤
代码如下(示例):
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29try: url_list = re.findall('"url":"(.*?)"', browser_2.page_source, re.S) homepage=[] for url in url_list: homepage=homepage+[url.replace("\u002F", "/")] # details = browser_2.find_element_by_xpath('//*[@class="expert_info_content"]') # homepage = details.find_elements_by_xpath('//*[@class="homepage baseInfo"]') # h = [] # for url in homepage: # h = h + [url.text] # print(h) except: homepage="no homepage" try: papers = re.findall('"pubs":(.*?)}', browser_2.page_source, re.S) except: papers = "no papers" try: citation = re.findall('"citations":(.*?),', browser_2.page_source, re.S) except: citation = "no citation" try: hindex = re.findall('"hindex":(.*?),', browser_2.page_source, re.S) except: hindex = "no hindex"
最后
以上就是年轻秋天最近收集整理的关于正则表达式re 匹配pagesource 在爬虫aminer中的应用一、是什么?二、使用步骤的全部内容,更多相关正则表达式re内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复