概述
1、爬虫基础知识
1.1 爬虫的分类
爬虫种类 | 说明 |
---|---|
通用爬虫 | 搜索引擎的一部分,将互联网的网页下载到本地,形成镜像 |
聚焦爬虫 | 面向特定的需求,在网页抓取的时候对内容已经进行了筛选 |
更多的是面向聚焦爬虫
1.1.1搜索引擎工作原理
1.1.1.1抓取网页 搜索引擎网络爬虫
1、首先选取一部分种子url,将这些URL放入到等待抓取的url队列中。
2、取出待抓取的url地址,解析等到主机的ip,将url对应的网页下载下来,存储进已经下载的网页库中,并且将这些已经完成url地址抓取的URL放入到已经抓取的url队列中。
3、分析已经抓取的URL队列中的url,分析其中的其他url,将这些没有提取的url继续放入到待抓取url队列中,从而进入下一个循环。
1.1.1.2数据存储
搜索引擎通过爬虫爬取的网页,将数据存储进原始页面数据库,其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下,搜索引擎在进行网页抓取的时候,也会做重复内容检测,如果遇到大量抄袭或者复制的内容,就不再爬取了
1.1.1.3预处理
搜索引擎将爬虫爬取的内容,会进行各种预处理
提取文字
中文分词
消除噪音
索引处理
链接关系计算
特殊文件处理
…
但是搜索引擎还不能处理图片,视频,flash非文字内容,也不能执行脚本和程序
1.1.1.4提供检索服务,网站排名
搜索引擎在对信息进行组织和处理之后,会为用户提供关键字检索服务,将用户检索的信息展示,同时,会根据page rank(连接访问量)进行网站排名。
1.2 关于通信过程
1、浏览器会通过dns服务器查找域名对应的IP地址
2、向IP地址对应的web服务器取发送请求
3、web服务器会根据请求进行响应,发送你需要的数据回浏览器
4、浏览器接收服务器发送过来的数据或者网页,会进行渲染,展示在页面中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YqqBkpnt-1600432797262)(爬虫md截图/通用网络爬虫.png)]
1.3 关于路径
URL:统一资源定位符
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=
协议(HTTP https ftp)://服务器的域名或者ip地址[端口]/访问资源的路径?查询字符串(键值结构)#锚点
http:超文本传输协议,是一种发布和接收html页面的方法
(端口 port:80)
https:相当于http的安全版本,在http加入ssl层(安全套接层) (端口port:443)
ssl层(安全套接层),在传输层对网络进行加密,保障数据传输的安全性
1.4关于请求方法
根据http标准
在http:0.9 时代 , 只支持get
在http:1.0时代 , 只支持get 、post 、head
在http:1.1时代 , 在1.0的基础上更新,get、 post 、head、 options、put、delete、trace、connect
在http:2.0时代,没有普及
方法 | 说明 | |
---|---|---|
get | 请求指定的页面信息,并且返回数据 | ♥1 |
post | 向指定的资源请求提交数据 | ♥2 |
head | 类似get,返回的是响应中没有具体的内容,用于获取报头 | 3 |
options | 允许客户端查看服务器性能 | 4 |
put | 从客户端向服务端传递的数据取代指定的文档内容,更新操作 | 5 |
delete | 请求服务器删除指定的页面 | 6 |
trace | 主要用于测试或者诊断 | 7 |
connect | 代理服务器 | 8 |
1.5get和post的区别
1、get是从服务器获取信息,post向服务器提交数据并获取页面信息
2、get:会将参数全部显示在url地址上,服务器根据请求url地址的参数返回响应
post:请求参数在请求体中,消息的长度是没有限制的,而且是隐式的方式进行传送,用来向服务器提交量比较大的数据。
1.6常见的请求头
Connection:keep-alive
1、client发起一个包含Connection:keep-alive 的请求(HTTP1.1默认值)
2、在server接收请求之后,
server支持keep-alive,回复一个包含Connection:keep-alive的响应,不关闭连接。
server不支持keep-alive,回复一个Connection:close,关闭连接。
3、如果client收到包含Connection:keep-alive的响应,则同一个连接下发送下一个请求,直到一方主动关闭连接。
其他知识点:
udp:写信方式,只发,不管收不收到
tcp:通话,必须接通
ACCEPT:
指浏览器或者其他的客户端可以接受的MINE(多用途互联网邮件扩展)文件类型,服务器可以根据它判断并返回适当的文件格式
text/html 希望接收的是html文本
application/xhtml
xhtml和xml文档
Q代表权重,0-1之间,越靠近1越接近响应
1.7状态码
100-199表示服务器成功的接收部分请求,要求客户端继续提交其余的请求才能完成整个处理过程
200-299:表示的是服务器成功的接收请求并且完成整个处理过程
300-399:为了完成请求,客户需要进一步细化请求,304使用缓存资源
400-499:客户端的请求有问题。404 not
found
403服务器拒绝没有权限
500-599:服务器出现错误
最后
以上就是眼睛大柜子为你收集整理的爬虫入门基础知识1、爬虫基础知识的全部内容,希望文章能够帮你解决爬虫入门基础知识1、爬虫基础知识所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复