page_sourse爬取渲染后的页面代码爬页面源码（page_source）

272 阅读 0 评论 180 点赞

我是靠谱客的博主舒适西装，这篇文章主要介绍page_sourse爬取渲染后的页面代码爬页面源码（page_source），现在分享给大家，希望可以做个参考。

爬页面源码（page_source）

一般来说，selenium的page_source方法可以直接返回页面源代码

爬取网页ICP号：

from selenium import webdriver
import re
html_list=[
"http://anzhuo.paojiao.cn/",
"http://sj.zol.com.cn/android_app/",
"https://appgallery.huawei.com/#/Apps",
]
for url in html_list:
browser = webdriver.Chrome()
browser.set_page_load_timeout(20)
# 网页超时加载时间
try:
browser.get(url)
result = browser.page_source
except:
print("{}超时".format(url))
browser.quit()
else:
icp_name = ""
icp_list = re.findall("([京津冀晋苏浙皖闽豫鄂湘粤桂琼川蜀蒙辽吉黑沪赣鲁贵黔云滇渝藏陕秦新甘陇青宁港澳台]ICP[备|证]d{6,8}号*(?:-[1-9]d?)?)", result)
if icp_list:
icp_name = icp_list[0]
print(url, icp_name)
browser.quit()

如上，给了三个网页：

第一个网页超时，

第二个网