我是靠谱客的博主 俊逸猫咪,最近开发中收集的这篇文章主要介绍python打开js文件_python读取js文件中的内容?,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我扫描一些网站并希望获得所有的java脚本文件名称和内容

我尝试使用BeautifulSoup的python请求,但无法获取脚本详细信息和http://contents.am我错过了什么?

我一直在尝试很多方法来寻找,但我觉得在黑暗中磕磕绊绊。这是我正在尝试的代码

导入请求

来自bs4 进口 BeautifulSoup

r =请求。得到(“http://www.marunadanmalayali.com/”)

汤= BeautifulSoup(r.content)

您可以使用以下代码获取所有链接的JavaScript代码:soup.find_all('script')返回

一个列表理解这里使用循环遍历其返回的列表中的所有元素soup.find_all('script')。

i是一个类似于dict的对象,用于.get('src')检查它是否具有src属性。如果没有,请忽略它。否则,将其放入一个列表(l在示例中调用)。

输出,在这种情况下如下所示:

[ 'http://adserver.adtech.de/addyn/3.0/1602/5506153/0/6490/ADTECH ; loc = 700; target = _blank; grp = [group]',

'http://tags.expo9。 exponential.com/tags/MarunadanMalayalicom/ROS/tags.js '

'http://tags.expo9.exponential.com/tags/MarunadanMalayalicom/ROS/tags.js ',

' http://js.genieessp.com/吨/ 057/794 / a1057794.js '

'http://ib.adnxs.com/ttj?id=5620689&cb= [ CACHEBUSTER ]&pubclick = [ INSERT_CLICK_TAG ]',

' http://ib.adnxs.com/ttj ?ID = 5531763 ”,

'http://advs.adgorithms.com/ttj?id=3279193&cb= [ CACHEBUSTER ]&pubclick = [ INSERT_CLICK_TAG ]',

'http://xp2.zedo.com/jsc/xp2/fo.js ',

'http://www.marunadanmalayali.com/js/mnmads.js ',

“http://www.marunadanmalayali.com/js /jquery-2.1.0.min.js '

'http://www.marunadanmalayali.com/js/jquery.hoverIntent.minified.js ',

' http://www.marunadanmalayali.com/js/jquery.dcmegamenu .1.3.3.js '

'http://www.marunadanmalayali.com/js/jquery.cookie.js ',

'http://www.marunadanmalayali.com/js/swanalekha-ml.js ',

' HTTP :?//www.marunadanmalayali.com/js/marunadan.js R = 1875年 '

'http://www.marunadanmalayali.com/js/taboola_home.js ',

' http://d8.zedo.com/jsc /d8/fo.js ']

Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

我的代码错过了一些链接,因为它们实际上不在HTML源代码中。

您可以在控制台中看到它们:

但他们不在源头:

通常,那是因为这些链接是由JavaScript生成的。并且该requests模块不会像真正的浏览器一样在页面中运行任何JavaScript - 它只发送获取HTML源的请求。

如果您还需要它们,则必须使用另一个模块在该页面中运行JavaScript,然后您可以看到这些链接。为此,我建议使用

例如(确保您已经安装了selenium和Web驱动程序):

来自bs4 进口 BeautifulSoup

来自selenium import webdriver

驱动= webdriver.Chrome()#使用铬驱动器用于例如

驱动程序。得到('http://www.marunadanmalayali.com/')

soup = BeautifulSoup(driver.page_source,“html.parser”)

l = [i。获得(“SRC”)为我在 soup.find_all(“脚本”),如果我。得到('src')]

__import __('pprint').pprint(l)

有想学习Python的小伙伴往这里看,这里是我自己准备的一套python的学习资源,

里面包含初学者需要牢记的知识点还有大厂面试集锦,希望对你有帮助哦~

快来关注我领取吧

~

2021最新版Python零基础高强度7天极速入门到精通_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.comv2-c10e70daeb5ebdea3f4a5f3f7bd96b1d_180x120.jpg2021最新版python爬虫7天速成(附带代码课件)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.comv2-0647c17bc68be69a6d6da90d210ced69_180x120.jpg清华大学博士2020最新Python数据结构与算法教程(20小时全套合集)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.comv2-987e446f02beb44e9b358d582f074c8f_180x120.jpg

最后

以上就是俊逸猫咪为你收集整理的python打开js文件_python读取js文件中的内容?的全部内容,希望文章能够帮你解决python打开js文件_python读取js文件中的内容?所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(39)

评论列表共有 0 条评论

立即
投稿
返回
顶部