爬虫小白第一篇西刺代理

128 阅读 0 评论 85 点赞

我是靠谱客的博主大气电脑，这篇文章主要介绍爬虫小白第一篇西刺代理，现在分享给大家，希望可以做个参考。

爬取西刺代理流程图

这里写图片描述

背景

环境：python3.6
模块：
1. urllib.request(获取html)
2. chardet（判断html的编码）
3. bs4.Beautiful（提取代理IP）
github地址(https://github.com/tonyxinminghui/spider/blob/master/xici_spider.py)

获取html

难点

选择用什么模块获取html
西刺代理的网址不伪造header是无法获取正确的html的。一般会返回503
python3内存中字符串的编码是Unicode的形式，我们一般获取的html都是编码过的，我们需要解码。
3引出4，如何判断html的编码。

解决方案

由于自己异常稀少的知识储量，选择了urllib.request（PS：网上大家都说requests是为人类写的模块，很多方法名都很人性化，可惜我不是很熟悉，以后有机会可以，用request重写一下。）
有关伪造header，urllib.request中相关的接口是
class urllib.request.Request(url[, data][, headers][, origin_req_host][, unverifiable])
这里列一下header的形式，具体接口参数，详见参考
复制代码forged_header = { 'User-Agent': XXXX, 'Referer' : XXXX, 'Host'
```
1
2
3
4
forged_header = {
'User-Agent': XXXX,
'Referer'   : XXXX,
'Host'
```

最后

以上就是大气电脑最近收集整理的关于爬虫小白第一篇西刺代理的全部内容，更多相关爬虫小白第一篇内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(85)

本文分类：爬虫
浏览次数：128 次浏览
发布日期：2024-04-29 06:50:01
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_7_o_26_fw_14__23__26_z.html

相关文章

测试用例的设计方法——因果图

软件测试（三）——因果图法、判定表法、场景法等

软件测试（三）——因果图法、判定表法、场景法等

Python 多线程爬取西刺代理

Python 多线程爬取西刺代理

☆ C/C++中使用结构体数组->排序(姓名+学号+分数)

☆ C/C++中使用结构体数组->排序(姓名+学号+分数)

爬虫小白第一篇西刺代理

计算机国际顶级会议

VS-c++限制用户输入长度

关于c/c++数组没有给数组长度输入的问题

关于c/c++数组没有给数组长度输入的问题

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部