读书使人充实,讨论使人机智,笔记使人准确…。凡有所学,皆成性格。
———— (英国)培根
文章目录
- 爬虫的概念
- 爬虫的作用
- 爬虫的分类
- 爬虫的流程
- HTTP和HTTPS的区别
- 常见请求头
- 常见响应头
- 各类别常见状态码
- http请求的过程
爬虫的概念
模拟浏览器,发送请求,获取响应
爬虫的作用
1.数据采集
2.软件测试
3.抢票
4.投票
5.网络安全
爬虫的分类
网站的数量
是否获取数据
url与数据的关系
爬虫的流程
1.获取一个url
2.向url发送请求,并获取响应(需要http协议)
3.如果从响应中提取url,则继续发送请求获取响应
4.如果从响应中提取数据,则将数据进行保存
HTTP和HTTPS的区别
HTTPS比HTTP更安全,但性能更低
HTTP:HTTP 是一种超文本传输协议(Hypertext Transfer Protocol) 协议,它是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范。默认端口80
HTTPS:只是在 HTTP 的基础之上增加了加密处理、认证机制和完整性保护,即 HTTPS = HTTP + 加密 + 认证 + 完整性保护 默认端口443
常见请求头
Accept: text/html,image/* – 浏览器接受的数据类型
Accept-Charset: ISO-8859-1 – 浏览器接受的编码格式
Accept-Encoding: gzip,compress --浏览器接受的数据压缩格式
Accept-Language: en-us,zh- --浏览器接受的语言
Host: www.it315.org:80 --(必须的)当前请求访问的目标地址(主机:端口)域名
Upgrade-Insecure-Requests: 升级为https请求
If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT --浏览器最后的缓存时间
Referer: http://www.it315.org/index.jsp – 当前请求来自于哪里 页面跳转前地址 反盗链(图片/视频)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0) --浏览器类型 用户代理,提供系统信息和浏览器信息
Cookie:name=eric – 浏览器保存的cookie信息
Connection: close/Keep-Alive – 浏览器跟服务器连接状态。close: 连接关闭 keep-alive:保存连接。长连接
Date: Tue, 11 Jul 2000 18:23:51 GMT – 请求发出的时间
Authorization:(用于HTTP协议需要认证资源的认证信息)
常见响应头
Location: http://www.it315.org/index.jsp -表示重定向的地址,该头和302的状态码一起使用。
Server:apache tomcat —表示服务器的类型
Content-Encoding: gzip – 表示服务器发送给浏览器的数据压缩类型
Content-Length: 80 --表示服务器发送给浏览器的数据长度
Content-Language: zh-cn --表示服务器支持的语言
Content-Type: text/html; charset=GB2312 --表示服务器发送给浏览器的数据类型及内容编码
Last-Modified: Tue, 11 Jul 2000 18:23:51 GMT --表示服务器资源的最后修改时间
Refresh: 1;url=http://www.it315.org --表示定时刷新
Content-Disposition: attachment; filename=aaa.zip --表示告诉浏览器以下载方式打开资源(下载文件时用到)
Transfer-Encoding: chunked
Set-Cookie:SS=Q0=5Lb_nQ; path=/search --表示服务器发送给浏览器的cookie信息(会话管理用到)
Expires: -1 --表示通知浏览器不进行缓存
Cache-Control: no-cache
Pragma: no-cache
Connection: close/Keep-Alive --表示服务器和浏览器的连接状态。close:关闭连接 keep-alive:保存连接
HTTP状态码表示客户端HTTP请求的返回结果、标记服务器端的处理是否正常或者是出现的错误,能够根据返回的状态码判断请求是否得到正确的处理很重要。状态码由3位数字和原因短语组成
数字中的第一位指定了响应类别,后两位无分类,响应类别有一下5种:
状态码分类表
类别 | 原因短语 | |
---|---|---|
1xx | Informational(信息性状态码) | 接受的请求正在处理 |
2xx | Success(成功状态码) | 请求正常处理完毕 |
3xx | Redirection(重定向) | 需要进行附加操作以完成请求 |
4xx | Client error(客户端错误) | 客户端请求出错,服务器无法处理请求 |
5xx | Server Error(服务器错误) | 服务器处理请求出错 |
各类别常见状态码
2xx (3种)
200 OK | 表示从客户端发送给服务器的请求被正常处理并返回 |
---|---|
204 No Content | 表示客户端发送给客户端的请求得到了成功处理,但在返回的响应报文中不含实体的主体部分(没有资源可以返回) |
206 Patial Content | 表示客户端进行了范围请求,并且服务器成功执行了这部分的GET请求,响应报文中包含由Content-Range指定范围的实体内容 |
3xx (5种
301 Moved Permanently | 永久性重定向,表示请求的资源被分配了新的URL,之后应使用更改的URL |
---|---|
302 Found | 临时性重定向,表示请求的资源被分配了新的URL,希望本次访问使用新的URL |
303 See Other | 表示请求的资源被分配了新的URL,应使用GET方法定向获取请求的资源 |
304 Not Modified | 表示客户端发送附带条件(是指采用GET方法的请求报文中包含if-Match、If-Modified-Since、If-None-Match、If-Range、If-Unmodified-Since中任一首部)的请求时,服务器端允许访问资源,但是请求为满足条件的情况下返回改状态码 |
307 Temporary Redirect | 临时重定向,与303有着相同的含义,307会遵照浏览器标准不会从POST变成GET;(不同浏览器可能会出现不同的情况) |
301与302的区别:前者是永久移动,后者是临时移动(之后可能还会更改URL)
302与303的区别:后者明确表示客户端应当采用GET方式获取资源
4xx (4种)
400 Bad Request | 表示请求报文中存在语法错误 |
---|---|
401 Unauthorized | 未经许可,需要通过HTTP认证 |
403 Forbidden | 服务器拒绝该次访问(没有权限) |
404 Not Found | 表示服务器上无法找到请求的资源,除此之外,也可以在服务器拒绝请求但不想给拒绝原因时使用 |
5xx (2种)
500 Inter Server Error | 表示服务器在执行请求时发生了错误,也有可能是web应用存在的bug或某些临时的错误时 |
---|---|
503 Server Unavailable | 表示服务器暂时处于超负载或正在进行停机维护,无法处理请求 |
所有状态码都不可信,一切以是否从抓包中得到的响应中获得到的数据为准
network中抓包得到的源码才是判断依据,elements中的源码是渲染之后的源码,不能作为判断标准
http请求的过程
1.浏览器在拿到域名对应的ip后,先向地址栏中的url发起请求,并获取响应
2.在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
3.浏览器每获取一个响应就对展示出的结果进行加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应
4.从获取第一个响应并在浏览器中展示,直到终获取全部响应,并在展示的结果中添加内容或修改一一这个过程叫做浏览器的渲染
注意:
但是在爬虫中,爬虫只会语求ur地址,对应的拿url地址对应的响应(该响应的内容可以是html,css,js,图片等)
浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样,是因为爬虫不具备渲染的能力
浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果
所以在爬虫中,需要以发送请求的一个url址对应的响应为准来进行数据的提取
爬虫三大框架
骨骼文件 | 肌肉文件 | 皮肤 |
---|---|---|
html静态文件 | js/ajax请求 | css/font/图片 |
最后
以上就是如意往事最近收集整理的关于python爬虫基础快速入门概念篇的全部内容,更多相关python爬虫基础快速入门概念篇内容请搜索靠谱客的其他文章。
发表评论 取消回复