01爬虫概述

328 阅读 0 评论 217 点赞

我是靠谱客的博主贤惠薯片，这篇文章主要介绍01爬虫概述，现在分享给大家，希望可以做个参考。

 
 网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。 

 
 通用网络爬虫 

 
 通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。 

 
 聚焦网络爬虫 

 
 聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。 

 
 增量式网络爬虫 

 
 增量式网络爬虫（Incremental Web Crawler）是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。 

 
 Deep Web 爬虫 

 
 Deep Web 爬虫爬行过程中最重要部分就是表单填写，包含两种类型： 

 
 1) 基于领域知识的表单填写：此方法一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单。 

 
 2) 基于网页结构分析的表单填写： 此方法一般无领域知识或仅有有限的领域知识，将网页表单表示成 DOM 树，从中提取表单各字段值。 

最后

以上就是贤惠薯片最近收集整理的关于01爬虫概述的全部内容，更多相关01爬虫概述内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：Other
浏览次数：328 次浏览
发布日期：2024-07-22 16:55:01

01爬虫概述

最后

评论列表共有 0 条评论

发表评论取消回复

01爬虫概述

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复