概述
爬页面源码(page_source)
一般来说,selenium的page_source方法可以直接返回页面源代码
爬取网页ICP号:
from selenium import webdriver
import re
html_list=[
"http://anzhuo.paojiao.cn/",
"http://sj.zol.com.cn/android_app/",
"https://appgallery.huawei.com/#/Apps",
]
for url in html_list:
browser = webdriver.Chrome()
browser.set_page_load_timeout(20)
# 网页超时加载时间
try:
browser.get(url)
result = browser.page_source
except:
print("{}超时".format(url))
browser.quit()
else:
icp_name = ""
icp_list = re.findall("([京津冀晋苏浙皖闽豫鄂湘粤桂琼川蜀蒙辽吉黑沪赣鲁贵黔云滇渝藏陕秦新甘陇青宁港澳台]ICP[备|证]d{6,8}号*(?:-[1-9]d?)?)", result)
if icp_list:
icp_name = icp_list[0]
print(url, icp_name)
browser.quit()
如上,给了三个网页:
第一个网页超时,
第二个网
最后
以上就是舒适西装为你收集整理的page_sourse爬取渲染后的页面代码爬页面源码(page_source)的全部内容,希望文章能够帮你解决page_sourse爬取渲染后的页面代码爬页面源码(page_source)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复