爬虫实战学习笔记_1 爬虫基础+HTTP原理1 爬虫简介1.3 爬虫的原理2 HTTP原理
1 爬虫简介网络爬虫(又被称作网络蜘蛛、网络机器人,在某些社区中也经常被称为网页追逐者)可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息。1.1 Web网页存在方式表层网页指的是不需要提交表单,使用静态的超链接就可以直接访问的静态页面。 深层网页指的是需要用户提交一些关键词才能获得的Wb页面。深层页面需要访问的信息数量是表层页面信息数量的几百倍,所以深层页面是主要的爬取对象。1.2 网络爬虫的分类1.2.1通用网络爬虫/全网爬虫通用网络爬虫的爬行范围和数量巨大,对爬行速