爬页面源码(page_source)
一般来说,selenium的page_source方法可以直接返回页面源代码
爬取网页ICP号:
复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24from selenium import webdriver import re html_list=[ "http://anzhuo.paojiao.cn/", "http://sj.zol.com.cn/android_app/", "https://appgallery.huawei.com/#/Apps", ] for url in html_list: browser = webdriver.Chrome() browser.set_page_load_timeout(20) # 网页超时加载时间 try: browser.get(url) result = browser.page_source except: print("{}超时".format(url)) browser.quit() else: icp_name = "" icp_list = re.findall("([京津冀晋苏浙皖闽豫鄂湘粤桂琼川蜀蒙辽吉黑沪赣鲁贵黔云滇渝藏陕秦新甘陇青宁港澳台]ICP[备|证]d{6,8}号*(?:-[1-9]d?)?)", result) if icp_list: icp_name = icp_list[0] print(url, icp_name) browser.quit()
如上,给了三个网页:
第一个网页超时,
第二个网
最后
以上就是舒适西装最近收集整理的关于page_sourse爬取渲染后的页面代码爬页面源码(page_source)的全部内容,更多相关page_sourse爬取渲染后内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复