我是靠谱客的博主 舒适西装,最近开发中收集的这篇文章主要介绍page_sourse爬取渲染后的页面代码爬页面源码(page_source),觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

爬页面源码(page_source)

一般来说,selenium的page_source方法可以直接返回页面源代码

爬取网页ICP号:

from selenium import webdriver
import re
html_list=[
"http://anzhuo.paojiao.cn/",
"http://sj.zol.com.cn/android_app/",
"https://appgallery.huawei.com/#/Apps",
]
for url in html_list:
browser = webdriver.Chrome()
browser.set_page_load_timeout(20)
# 网页超时加载时间
try:
browser.get(url)
result = browser.page_source
except:
print("{}超时".format(url))
browser.quit()
else:
icp_name = ""
icp_list = re.findall("([京津冀晋苏浙皖闽豫鄂湘粤桂琼川蜀蒙辽吉黑沪赣鲁贵黔云滇渝藏陕秦新甘陇青宁港澳台]ICP[备|证]d{6,8}号*(?:-[1-9]d?)?)", result)
if icp_list:
icp_name = icp_list[0]
print(url, icp_name)
browser.quit()

如上,给了三个网页:

第一个网页超时,

第二个网

最后

以上就是舒适西装为你收集整理的page_sourse爬取渲染后的页面代码爬页面源码(page_source)的全部内容,希望文章能够帮你解决page_sourse爬取渲染后的页面代码爬页面源码(page_source)所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(67)

评论列表共有 0 条评论

立即
投稿
返回
顶部