概述
爬虫分类
按照系统结构和实现技术分为几种类型:
- 通用网络爬虫: 尽可能大的网络覆盖如搜索引擎(百度,google)
- 聚焦网络爬虫:有目标性,选择性地访问万维网来爬取信息
- 增量式网络爬虫: 只爬取新产生的或者已经更新的页面信息(耗时少,难度大)
- 深层网络爬虫:通过提交一些关键字才能获取的Web页面,如登录或注册后的页面
应用场景
- 在数据挖掘、机器学习、图像处理等科学研究领域,如果没有数据,则可以通过爬虫从网上抓取
- 在Web安全方面,使用爬虫可以对网站是否存在某一漏铜进行批量验证、利用;
- 在产品研发方面,可以采集各个商城物品价格,为客户提供市场最低价
- 在舆情监控方面,可以抓取、分析新浪微博的数据,从而识别出某用户是否为水军
tip: 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、 数据分析、数据挖掘、数据可视化等各大部分。
常用技术(Python)
- 常用爬虫库:urllib、requests、selenium、以及scrapy爬虫框架
- 数据解析库:lxml、beautifulsoup4、re、pyquery/
- 数据的存储:MySQL、MongoDB、Redis
防爬机制
- 基本的反爬虫手段,主要是检测请求头中的字段,比如:User-Agent. referer等
- 基于用户行为的反爬虫手段,主要是在后台对访问的IP(或User-Agent)进行统计,当超过某一设定的阀值,给予封锁。
- 基于Java的反爬虫手段,主要是在响应数据页面之前,先返回一段有Java代码的页面,用于验证访问者有无Java的执行环境,以确定使用的是不是浏览器
- 待补充。。。。。2021/1/19
笔记参考地址
https://blog.csdn.net/itnerd/category_10129579.html
作者: 颹蕭蕭
最后
以上就是时尚八宝粥为你收集整理的爪巴虫笔记Class1-简介的全部内容,希望文章能够帮你解决爪巴虫笔记Class1-简介所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复