爬虫入门基础知识1、爬虫基础知识

331 阅读 0 评论 219 点赞

我是靠谱客的博主眼睛大柜子，这篇文章主要介绍爬虫入门基础知识1、爬虫基础知识，现在分享给大家，希望可以做个参考。

1、爬虫基础知识

1.1 爬虫的分类

爬虫种类	说明
通用爬虫	搜索引擎的一部分，将互联网的网页下载到本地，形成镜像
聚焦爬虫	面向特定的需求，在网页抓取的时候对内容已经进行了筛选

更多的是面向聚焦爬虫

1.1.1搜索引擎工作原理

1.1.1.1抓取网页搜索引擎网络爬虫

1、首先选取一部分种子url，将这些URL放入到等待抓取的url队列中。
2、取出待抓取的url地址，解析等到主机的ip，将url对应的网页下载下来，存储进已经下载的网页库中，并且将这些已经完成url地址抓取的URL放入到已经抓取的url队列中。
3、分析已经抓取的URL队列中的url，分析其中的其他url，将这些没有提取的url继续放入到待抓取url队列中，从而进入下一个循环。

1.1.1.2数据存储

搜索引擎通过爬虫爬取的网页，将数据存储进原始页面数据库，其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下，搜索引擎在进行网页抓取的时候，也会做重复内容检测，如果遇到大量抄袭或者复制的内容，就不再爬取了

1.1.1.3预处理

搜索引擎将爬虫爬取的内容，会进行各种预处理

提取文字

中文分词

消除噪音

索引处理

链接关系计算

特殊文件处理

…

但是搜索引擎还不能处理图片，视频，flash非文字内容，也不能执行脚本和程序

1.1.1.4提供检索服务，网站排名

搜索引擎在对信息进行组织和处理之后，会为用户提供关键字检索服务，将用户检索的信息展示，同时，会根据page rank（连接访问量）进行网站排名。

1.2 关于通信过程

1、浏览器会通过dns服务器查找域名对应的IP地址
2、向IP地址对应的web服务器取发送请求
3、web服务器会根据请求进行响应，发送你需要的数据回浏览器
4、浏览器接收服务器发送过来的数据或者网页，会进行渲染，展示在页面中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YqqBkpnt-1600432797262)(爬虫md截图/通用网络爬虫.png)]

1.3 关于路径

URL：统一资源定位符
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=
协议（HTTP https ftp）://服务器的域名或者ip地址[端口]/访问资源的路径?查询字符串（键值结构）#锚点
http:超文本传输协议，是一种发布和接收html页面的方法
（端口 port：80）
https：相当于http的安全版本，在http加入ssl层（安全套接层） （端口port：443）
ssl层（安全套接层）,在传输层对网络进行加密，保障数据传输的安全性

1.4关于请求方法

根据http标准

在http：0.9 时代，只支持get

在http：1.0时代，只支持get 、post 、head

在http：1.1时代，在1.0的基础上更新，get、 post 、head、 options、put、delete、trace、connect

在http：2.0时代，没有普及

方法	说明
get	请求指定的页面信息，并且返回数据	♥1
post	向指定的资源请求提交数据	♥2
head	类似get，返回的是响应中没有具体的内容，用于获取报头	3
options	允许客户端查看服务器性能	4
put	从客户端向服务端传递的数据取代指定的文档内容，更新操作	5
delete	请求服务器删除指定的页面	6
trace	主要用于测试或者诊断	7
connect	代理服务器	8

1.5get和post的区别

1、get是从服务器获取信息，post向服务器提交数据并获取页面信息
2、get：会将参数全部显示在url地址上，服务器根据请求url地址的参数返回响应
post：请求参数在请求体中，消息的长度是没有限制的，而且是隐式的方式进行传送，用来向服务器提交量比较大的数据。

1.6常见的请求头

Connection：keep-alive
1、client发起一个包含Connection：keep-alive 的请求（HTTP1.1默认值）
2、在server接收请求之后，
server支持keep-alive，回复一个包含Connection：keep-alive的响应，不关闭连接。
server不支持keep-alive，回复一个Connection：close，关闭连接。
3、如果client收到包含Connection：keep-alive的响应，则同一个连接下发送下一个请求，直到一方主动关闭连接。
其他知识点：
udp：写信方式，只发，不管收不收到
tcp：通话，必须接通

ACCEPT：
指浏览器或者其他的客户端可以接受的MINE（多用途互联网邮件扩展）文件类型，服务器可以根据它判断并返回适当的文件格式
text/html 希望接收的是html文本
application/xhtml
xhtml和xml文档
Q代表权重，0-1之间，越靠近1越接近响应

1.7状态码

100-199表示服务器成功的接收部分请求，要求客户端继续提交其余的请求才能完成整个处理过程
200-299：表示的是服务器成功的接收请求并且完成整个处理过程
300-399：为了完成请求，客户需要进一步细化请求，304使用缓存资源
400-499：客户端的请求有问题。404 not
found
403服务器拒绝没有权限
500-599：服务器出现错误

最后

以上就是眼睛大柜子最近收集整理的关于爬虫入门基础知识1、爬虫基础知识的全部内容，更多相关爬虫入门基础知识1、爬虫基础知识内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：爬虫
浏览次数：331 次浏览
发布日期：2023-10-15 06:31:10

爬虫入门基础知识1、爬虫基础知识

1、爬虫基础知识

1.1 爬虫的分类

1.1.1搜索引擎工作原理

1.1.1.1抓取网页搜索引擎网络爬虫

1.1.1.2数据存储

1.1.1.3预处理

1.1.1.4提供检索服务，网站排名

1.2 关于通信过程

1.3 关于路径

1.4关于请求方法

1.5get和post的区别

1.6常见的请求头

1.7状态码

最后

评论列表共有 0 条评论

发表评论取消回复

爬虫入门基础知识1、爬虫基础知识

1、爬虫基础知识

1.1 爬虫的分类

1.1.1搜索引擎工作原理

1.1.1.1抓取网页 搜索引擎网络爬虫

1.1.1.2数据存储

1.1.1.3预处理

1.1.1.4提供检索服务，网站排名

1.2 关于通信过程

1.3 关于路径

1.4关于请求方法

1.5get和post的区别

1.6常见的请求头

1.7状态码

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

1.1.1.1抓取网页搜索引擎网络爬虫

发表评论取消回复