python爬虫菜鸟教程-python爬虫项目（新手教程）之知乎（requests方式）

327 阅读 0 评论 216 点赞

我是靠谱客的博主激动斑马，这篇文章主要介绍python爬虫菜鸟教程-python爬虫项目（新手教程）之知乎（requests方式），现在分享给大家，希望可以做个参考。

-前言

之前一直用scrapy与urllib姿势爬取数据，最近使用requests感觉还不错，这次希望通过对知乎数据的爬取为各位爬虫爱好者和初学者更好的了解爬虫制作的准备过程以及requests请求方式的操作和相关问题。当然这是一个简单的爬虫项目，我会用重点介绍爬虫从开始制作的准备过程，目的是为了让和我一样自学的爬虫爱好者和初学者更多的了解爬虫工作。

一、观察目标网页模板和策略

很多人都忽略这一步，其实这一步最为重要，因为它决定了你将采取什么策略来获取数据，也可以评估出你能够做到什么程度

（1）打开浏览器的开发工具F12

这里我用的是Google浏览器，打开浏览器按F12，你将看到你加载网页情况，以及网络请求的方式和交互的参数情况。如果你没有看到，你应该百度自己的浏览器开发者工具，如何打开。我们在打开知乎门户网页后，F12看到开发者工具的Network一栏没有出现任何东西。如图1.1所示：

700

开发者工具图 1.1

然后我们在知乎搜索框内输入需要搜索的内容，你将会看到网页后台与前台数据交互的变化，加载的数据以及数据请求的方式和参数。如图1.2：

700

服务端与浏览器交互的信息图1.2

这里你可以看到有很多js文件和png格式文件，这些文件都是通过你的搜索这个动作，对方服务器返回的文件，根据这些你可以更加了解网页服务端与浏览器的交互过程。这里如果你很有经验的话，可以根据它的size和name字段快速找出你想要的交互文件。

因为我们之前的搜索操作，所以很容易可以看出来第一个带有search字段的是搜索操作时和网站服务器交互的文件。点击我们可以看到如图1.3：

700

与服务器通信请求参数图1.3

这里有返回给我们与服务器通信后的过程以及相关数据，右上方可以看到Headers、Previes、Response、cookie等选项。

headers可以看到请求的参数，我们很多时候写爬虫访问服务器被拒绝就是因为这里有很多参数验证没有通过，所以学会运用这里

最后

以上就是激动斑马最近收集整理的关于python爬虫菜鸟教程-python爬虫项目（新手教程）之知乎（requests方式）的全部内容，更多相关python爬虫菜鸟教程-python爬虫项目（新手教程）之知乎（requests方式）内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(216)

本文分类：Other
浏览次数：327 次浏览
发布日期：2024-07-23 23:15:01

相关文章

python爬取内容重复输出_python3爬虫重复返回第一页

python爬取内容重复输出_python3爬虫重复返回第一页

python爬虫步骤-python爬虫步骤（新手备学）爬虫编程。

python爬虫步骤-python爬虫步骤（新手备学）爬虫编程。

python基础爬虫——Scrapy快速入门

python基础爬虫——Scrapy快速入门

超级简单的Python爬虫教程,python爬虫菜鸟教程官网

超级简单的Python爬虫教程,python爬虫菜鸟教程官网

python爬虫菜鸟教程-python爬虫项目（新手教程）之知乎（requests方式）

python爬虫菜鸟教程-python爬虫项目（新手教程）之知乎（requests方式）

python超简单爬虫教程python超简单爬虫教程

python超简单爬虫教程python超简单爬虫教程

python爬虫菜鸟教程-Python爬虫学习100练001

python爬虫菜鸟教程-Python爬虫学习100练001

Python爬虫入门 | 1 Python环境的安装

Python爬虫入门 | 1 Python环境的安装

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部