概述
翻网页,找资源,统计或下载,就是爬虫了。
逛论坛,找帖子,这是手动爬虫。
写段程序完成自动化操作,就是自动化爬虫。
所以,爬虫第一步,访问网页。
平时我们看见的网页花里胡哨的,但是后面都是些代码而已,不过是些内容,样式,显示方式。
不管它是什么,反正链接对了,资源就在里面,至于怎么辨别,怎么获取 ,以后才知道。
先把网页内容拿下来再说。
from urllib import request
url = "https://www.baidu.com"
response = request.urlopen(url)
page = response.read()
print(page)
看了之后,你会发现,这是python3......
网站的框架千千万,但是都和唐唐僧一样啰嗦,那就是:
你不说你要,我怎么知道你想要呢
我不知道你想要,又怎么会给你呢
.......
网络就是这样,你要请求 ,然后才会有响应。
所以,这就告诉了我们,做人,一定要主动,要不谁也不搭理你。
这个也是个面向对象,而面向对象最大的特点,就是甩锅。
把自己的事情,变成别人的事情。
想吃个饭,自己做?不存在的:
找个管家,交给他。
管家找个厨娘,找个喂饭的,找个跑腿的。
.......
反正最后你只要张嘴,然后咀嚼,然后张嘴,然后咀嚼,然后......
不深入内部,你就会感受到绝对的舒服,如果深入内部....
比如你想找这个好吃的鸡蛋的生他的老母鸡:
找管家 ,管家说找厨娘,厨娘说找跑腿,跑腿说找小贩,小贩说找批发商....
自己亲自动手就没这么麻烦,但是也不会这么安逸了。
痛第一次吧,以后就只剩下舒服了,不舒服了就换个人。
反正也一定会换人,换人也就那么几个,这就是面向对象的后面痛不如前面痛。
然后用户爽了,请求来响应 ,直接下片就好了。
作为程序员的大管家,后续的人员安排维护也方便。
但是现在作为大管家的身份去找下蛋的公鸡?
不找大管家了,后续自己去找吧。
自己发起请求,自己得到响应,自己解析响应.....
至少响应里面包含的东西多,不用跑太多次。
你以为链式编程怎么来的,都是赤裸裸的甩锅,虽然有些SB是甩给自己。
当然了,还要自己充当翻译官,python3使用的可是银河联盟统一标准交流语言。
string = str(page, encoding="utf-8")
print(string)
不转换成方言,土鳖根本看不懂。
print(string.encode())
恩,标准语。
千辛万苦,被口水淹没,终于结束了。
淘金的都这样,我拉了这么多年的屎,也没拉个人宝出来。
牛黄的价值可不低啊。
所以,我想说
1. 想要资源,要知道线索 url,能够得到线索page
2. 人员角色不一样,我们可能要层层的询问
3. 可能有老外
最后
以上就是机智天空为你收集整理的访问网页的全部内容,希望文章能够帮你解决访问网页所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复