我是靠谱客的博主 完美发卡,最近开发中收集的这篇文章主要介绍2022.11.13 反爬虫原理学习笔记,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

2022.11.13
DOM(文档对象模型):对HTML文档中所有元素进行访问的入口,实现页面元素的添加,移除和修改,重排。以面向对象的方式描述文档模型,定义了表示和修改文档所需的对象的名称,行为,关系
BOM(浏览器对象模型):访问浏览器的属性或实现一些方法
javascipt和css对网页内容的改变实际上宿舍对DOM的操作,而非直接改变HTML

Cookie 通过在客户端存储身份信息的方式与服务器保持状态,Session通过服务器来保持状态
第一次发起请求时,服务器的返回带有Cookie保存下来之后,下次再请求这个页面时,带着客户端保存下来的cookie发送给服务器
session对象会存储特定用户会话所需的属性及配置信息,这样可以使得在访问不同页面时带着相同信息

爬虫领域的静态网页:网页主体内容的渲染工作在服务器端完成,并通过相应正文返回的网页
爬虫领域的动态网页是指主体内容或者全部内容都需要客户端执行javascript代码来计算或渲染的网页

爬虫:通用爬虫和聚焦爬虫两大类,通常从一个或者多个url开始,在爬取的过程中不断的将新的并且h符合要求的url放入待爬队列,直到满足程序的停止条件
1.请求指定的URL以获取响应正文
2.解析响应正文内容并从中提取所需信息
3.将上一步提取的信息保存到数据库或文件中

反爬虫:限制爬虫程序访问服务器资源和获取数据的行为,主动型:有意识的使用技术手段区分正常用户和爬虫,被动型:为了提升用户体验或节约资源,用一些技术间接提高爬虫访问难度

信息校验爬虫:
1.use-agent反爬虫
use-agent是请求头域,组成:浏览器标识 (操作系统标识:加密等级标识:浏览器语言) 渲染引擎标识 坂本信息
客户端发起请求的时候会将use-agent一起发给服务器端,服务器端通过包含不符合要求的事物名称的清单判断use-agent是否合法

2.Cookie反爬虫
浏览器会自动检查i响应头中是否存在set-cookie头域,存在,将值保存在本地,并且每次请求都会自动携带对应的cookie值
服务器会校验cookie值是否符合规则,否则在响应头中添加set-cookie头域和cookie值

最后

以上就是完美发卡为你收集整理的2022.11.13 反爬虫原理学习笔记的全部内容,希望文章能够帮你解决2022.11.13 反爬虫原理学习笔记所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(46)

评论列表共有 0 条评论

立即
投稿
返回
顶部