我是靠谱客的博主 眼睛大柜子,最近开发中收集的这篇文章主要介绍爬虫入门基础知识1、爬虫基础知识,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

1、爬虫基础知识

1.1 爬虫的分类

爬虫种类说明
通用爬虫搜索引擎的一部分,将互联网的网页下载到本地,形成镜像
聚焦爬虫面向特定的需求,在网页抓取的时候对内容已经进行了筛选

更多的是面向聚焦爬虫

1.1.1搜索引擎工作原理

1.1.1.1抓取网页 搜索引擎网络爬虫

1、首先选取一部分种子url,将这些URL放入到等待抓取的url队列中。
2、取出待抓取的url地址,解析等到主机的ip,将url对应的网页下载下来,存储进已经下载的网页库中,并且将这些已经完成url地址抓取的URL放入到已经抓取的url队列中。
3、分析已经抓取的URL队列中的url,分析其中的其他url,将这些没有提取的url继续放入到待抓取url队列中,从而进入下一个循环。

1.1.1.2数据存储

搜索引擎通过爬虫爬取的网页,将数据存储进原始页面数据库,其中的页面数据与用户浏览器得到的html页面是完全一致的
一般情况下,搜索引擎在进行网页抓取的时候,也会做重复内容检测,如果遇到大量抄袭或者复制的内容,就不再爬取了

1.1.1.3预处理

搜索引擎将爬虫爬取的内容,会进行各种预处理

提取文字

中文分词

消除噪音

索引处理

链接关系计算

特殊文件处理

但是搜索引擎还不能处理图片,视频,flash非文字内容,也不能执行脚本和程序

1.1.1.4提供检索服务,网站排名

搜索引擎在对信息进行组织和处理之后,会为用户提供关键字检索服务,将用户检索的信息展示,同时,会根据page rank(连接访问量)进行网站排名。

1.2 关于通信过程

1、浏览器会通过dns服务器查找域名对应的IP地址
2、向IP地址对应的web服务器取发送请求
3、web服务器会根据请求进行响应,发送你需要的数据回浏览器
4、浏览器接收服务器发送过来的数据或者网页,会进行渲染,展示在页面中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YqqBkpnt-1600432797262)(爬虫md截图/通用网络爬虫.png)]

1.3 关于路径

URL:统一资源定位符
https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=
协议(HTTP https ftp)://服务器的域名或者ip地址[端口]/访问资源的路径?查询字符串(键值结构)#锚点
http:超文本传输协议,是一种发布和接收html页面的方法
(端口 port:80)
https:相当于http的安全版本,在http加入ssl层(安全套接层) (端口port:443)
ssl层(安全套接层),在传输层对网络进行加密,保障数据传输的安全性

1.4关于请求方法

根据http标准

在http:0.9 时代 , 只支持get

在http:1.0时代 , 只支持get 、post 、head

在http:1.1时代 , 在1.0的基础上更新,get、 post 、head、 options、put、delete、trace、connect

在http:2.0时代,没有普及

方法说明
get请求指定的页面信息,并且返回数据♥1
post向指定的资源请求提交数据♥2
head类似get,返回的是响应中没有具体的内容,用于获取报头3
options允许客户端查看服务器性能4
put从客户端向服务端传递的数据取代指定的文档内容,更新操作5
delete请求服务器删除指定的页面6
trace主要用于测试或者诊断7
connect代理服务器8

1.5get和post的区别

1、get是从服务器获取信息,post向服务器提交数据并获取页面信息
2、get:会将参数全部显示在url地址上,服务器根据请求url地址的参数返回响应
post:请求参数在请求体中,消息的长度是没有限制的,而且是隐式的方式进行传送,用来向服务器提交量比较大的数据。

1.6常见的请求头

Connection:keep-alive
1、client发起一个包含Connection:keep-alive 的请求(HTTP1.1默认值)
2、在server接收请求之后,
server支持keep-alive,回复一个包含Connection:keep-alive的响应,不关闭连接。
server不支持keep-alive,回复一个Connection:close,关闭连接。
3、如果client收到包含Connection:keep-alive的响应,则同一个连接下发送下一个请求,直到一方主动关闭连接。
其他知识点:
udp:写信方式,只发,不管收不收到
tcp:通话,必须接通
ACCEPT:
指浏览器或者其他的客户端可以接受的MINE(多用途互联网邮件扩展)文件类型,服务器可以根据它判断并返回适当的文件格式
text/html 希望接收的是html文本
application/xhtml
xhtml和xml文档
Q代表权重,0-1之间,越靠近1越接近响应

1.7状态码

100-199表示服务器成功的接收部分请求,要求客户端继续提交其余的请求才能完成整个处理过程
200-299:表示的是服务器成功的接收请求并且完成整个处理过程
300-399:为了完成请求,客户需要进一步细化请求,304使用缓存资源
400-499:客户端的请求有问题。404 not
found
403服务器拒绝没有权限
500-599:服务器出现错误

最后

以上就是眼睛大柜子为你收集整理的爬虫入门基础知识1、爬虫基础知识的全部内容,希望文章能够帮你解决爬虫入门基础知识1、爬虫基础知识所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(56)

评论列表共有 0 条评论

立即
投稿
返回
顶部