我是靠谱客的博主 机智天空,最近开发中收集的这篇文章主要介绍访问网页,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

翻网页,找资源,统计或下载,就是爬虫了。

逛论坛,找帖子,这是手动爬虫。

写段程序完成自动化操作,就是自动化爬虫。

所以,爬虫第一步,访问网页。


平时我们看见的网页花里胡哨的,但是后面都是些代码而已,不过是些内容,样式,显示方式。

不管它是什么,反正链接对了,资源就在里面,至于怎么辨别,怎么获取 ,以后才知道。

先把网页内容拿下来再说。

from urllib import request

url = "https://www.baidu.com"
response = request.urlopen(url)
page = response.read()
print(page)

看了之后,你会发现,这是python3......

网站的框架千千万,但是都和唐唐僧一样啰嗦,那就是:

你不说你要,我怎么知道你想要呢

我不知道你想要,又怎么会给你呢

.......


网络就是这样,你要请求 ,然后才会有响应。

所以,这就告诉了我们,做人,一定要主动,要不谁也不搭理你。


这个也是个面向对象,而面向对象最大的特点,就是甩锅。

把自己的事情,变成别人的事情。

想吃个饭,自己做?不存在的:

找个管家,交给他。

管家找个厨娘,找个喂饭的,找个跑腿的。

.......

反正最后你只要张嘴,然后咀嚼,然后张嘴,然后咀嚼,然后......


不深入内部,你就会感受到绝对的舒服,如果深入内部....

比如你想找这个好吃的鸡蛋的生他的老母鸡:

找管家 ,管家说找厨娘,厨娘说找跑腿,跑腿说找小贩,小贩说找批发商....


自己亲自动手就没这么麻烦,但是也不会这么安逸了。

痛第一次吧,以后就只剩下舒服了,不舒服了就换个人。

反正也一定会换人,换人也就那么几个,这就是面向对象的后面痛不如前面痛。


然后用户爽了,请求来响应 ,直接下片就好了。

作为程序员的大管家,后续的人员安排维护也方便。

但是现在作为大管家的身份去找下蛋的公鸡?

不找大管家了,后续自己去找吧。


自己发起请求,自己得到响应,自己解析响应.....

至少响应里面包含的东西多,不用跑太多次。


你以为链式编程怎么来的,都是赤裸裸的甩锅,虽然有些SB是甩给自己。


当然了,还要自己充当翻译官,python3使用的可是银河联盟统一标准交流语言。

string = str(page, encoding="utf-8")
print(string)

不转换成方言,土鳖根本看不懂。

print(string.encode())
恩,标准语。


千辛万苦,被口水淹没,终于结束了。

淘金的都这样,我拉了这么多年的屎,也没拉个人宝出来。

牛黄的价值可不低啊。


所以,我想说

1. 想要资源,要知道线索 url,能够得到线索page

2. 人员角色不一样,我们可能要层层的询问

3. 可能有老外



最后

以上就是机智天空为你收集整理的访问网页的全部内容,希望文章能够帮你解决访问网页所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(64)

评论列表共有 0 条评论

立即
投稿
返回
顶部