我是靠谱客的博主 时尚八宝粥,最近开发中收集的这篇文章主要介绍爪巴虫笔记Class1-简介,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

爬虫分类

按照系统结构和实现技术分为几种类型:

  • 通用网络爬虫: 尽可能大的网络覆盖如搜索引擎(百度,google)
  • 聚焦网络爬虫:有目标性,选择性地访问万维网来爬取信息
  • 增量式网络爬虫: 只爬取新产生的或者已经更新的页面信息(耗时少,难度大)
  • 深层网络爬虫:通过提交一些关键字才能获取的Web页面,如登录或注册后的页面

应用场景

  • 在数据挖掘、机器学习、图像处理等科学研究领域,如果没有数据,则可以通过爬虫从网上抓取
  • 在Web安全方面,使用爬虫可以对网站是否存在某一漏铜进行批量验证、利用;
  • 在产品研发方面,可以采集各个商城物品价格,为客户提供市场最低价
  • 在舆情监控方面,可以抓取、分析新浪微博的数据,从而识别出某用户是否为水军

tip: 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取数据存储数据提取数据分析数据挖掘数据可视化等各大部分。

常用技术(Python)

  • 常用爬虫库:urllib、requests、selenium、以及scrapy爬虫框架
  • 数据解析库:lxml、beautifulsoup4、re、pyquery/
  • 数据的存储:MySQL、MongoDB、Redis

防爬机制

  • 基本的反爬虫手段,主要是检测请求头中的字段,比如:User-Agent. referer等
  • 基于用户行为的反爬虫手段,主要是在后台对访问的IP(或User-Agent)进行统计,当超过某一设定的阀值,给予封锁。
  • 基于Java的反爬虫手段,主要是在响应数据页面之前,先返回一段有Java代码的页面,用于验证访问者有无Java的执行环境,以确定使用的是不是浏览器
  • 待补充。。。。。2021/1/19

笔记参考地址

https://blog.csdn.net/itnerd/category_10129579.html
作者: 颹蕭蕭

最后

以上就是时尚八宝粥为你收集整理的爪巴虫笔记Class1-简介的全部内容,希望文章能够帮你解决爪巴虫笔记Class1-简介所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部