概述
前面学习了mongodb数据库,这个数据库有很好的优点,也支持分布式部署,还支持大数据保存,这是一个很好用的数据库。不过,有时候我们在开发爬虫的过程中,会遇到这样一种场景,比如我们去抓取一个新闻网站,如果不断地去网站上抓取所有数据,必然效率低下,另外也会造成别人的网站服务降低,导致各大网站非常讨厌爬虫。肯定这种不断地从原网站下载的方法是不合适的,因此我们必须改变这种做法,从而需要使用redis数据库来解决这个问题。这个又是怎么样说呢?其实这个方法比较常见的方式,比如你去下载网站的数据,可以先缓存起来,然后就可以给自己的应用使用了,就不必要每次都去爬取一次。要缓存起来,一般情况又分为内存缓存和硬盘缓存。对于时间比较短,比如几分钟的缓存,就可以保存在内存里。如果是几天以上的就可以保存在硬盘里。redis数据库就是用来进行内存缓存,大多数的数据都一天之内使用的数据,或者叫做热点数据。有了redis数据库的缓存机制,爬虫就可以先判断缓存里是否有数据,如果没有就再去原网站下载;如果已经存在了,就不需要重复下载了。这样就可以大大提高数据的使用效率,也减轻别人网站的负载。并且redis数据库有一个天生的特性,就是可以设置数据记录定时删除的能力。
Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从201
最后
以上就是鳗鱼黄豆为你收集整理的爬虫日记(34):爬虫的基本数据库Redis的全部内容,希望文章能够帮你解决爬虫日记(34):爬虫的基本数据库Redis所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复