我是靠谱客的博主 发嗲盼望,最近开发中收集的这篇文章主要介绍Python使用Requests和bs4来分析网页Python使用Requests和bs4来分析网页,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

Python使用Requests和bs4来分析网页

PS: 也是从网上各个帖子中学习的Python,因此代码的格式以及内容有粘贴网上其他大神的代码,如有侵权请告知删除

以电影天堂为例
目的:爬取距今为之两周以内的电影链接

1 首先要找出主页和子页之间的关系
在网站中点击“最新电影”,会呈现多页电影列表,如图:
在这里插入图片描述分别对比首页,以及第二页,第三页的网址可知到
第一页:‘https://www.dytt8.net/html/gndy/dyzz/index.html’
第二页:‘https://www.dytt8.net/html/gndy/dyzz/list_23_2.html’
第三页:‘https://www.dytt8.net/html/gndy/dyzz/list_23_3.html’
所以可以用以下代码来记录网址

for page in range(1, 3):
    if page == 1:
        index = 'index'
    else:
        index = 'list_23_' + str(page)
    url = 'https://www.dytt8.net/html/gndy/dyzz/' + index + '.html'

2 获取网页内容
首先要用requests获取网页内容,然后利用bs4进行分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3 要想获取电影的链接,必须点击对应的电影名称,进入到下一个网页中,因此需要知道每个电影名称对应的下一个下载页面网址是什么
经查看可知,每一个电影的下载网址页面为:
url = ‘https://www.dytt8.net’ + link[“href”](上图中href的部分)

4 想要获取电影链接,需要对3中每个电影的url进行解析
当点击电影名称,进入到下载页面的时候,如图:
在这里插入图片描述

最后

以上就是发嗲盼望为你收集整理的Python使用Requests和bs4来分析网页Python使用Requests和bs4来分析网页的全部内容,希望文章能够帮你解决Python使用Requests和bs4来分析网页Python使用Requests和bs4来分析网页所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(48)

评论列表共有 0 条评论

立即
投稿
返回
顶部