我是靠谱客的博主 鳗鱼黄豆,最近开发中收集的这篇文章主要介绍爬虫日记(34):爬虫的基本数据库Redis,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

前面学习了mongodb数据库,这个数据库有很好的优点,也支持分布式部署,还支持大数据保存,这是一个很好用的数据库。不过,有时候我们在开发爬虫的过程中,会遇到这样一种场景,比如我们去抓取一个新闻网站,如果不断地去网站上抓取所有数据,必然效率低下,另外也会造成别人的网站服务降低,导致各大网站非常讨厌爬虫。肯定这种不断地从原网站下载的方法是不合适的,因此我们必须改变这种做法,从而需要使用redis数据库来解决这个问题。这个又是怎么样说呢?其实这个方法比较常见的方式,比如你去下载网站的数据,可以先缓存起来,然后就可以给自己的应用使用了,就不必要每次都去爬取一次。要缓存起来,一般情况又分为内存缓存和硬盘缓存。对于时间比较短,比如几分钟的缓存,就可以保存在内存里。如果是几天以上的就可以保存在硬盘里。redis数据库就是用来进行内存缓存,大多数的数据都一天之内使用的数据,或者叫做热点数据。有了redis数据库的缓存机制,爬虫就可以先判断缓存里是否有数据,如果没有就再去原网站下载;如果已经存在了,就不需要重复下载了。这样就可以大大提高数据的使用效率,也减轻别人网站的负载。并且redis数据库有一个天生的特性,就是可以设置数据记录定时删除的能力。

 

Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从201

最后

以上就是鳗鱼黄豆为你收集整理的爬虫日记(34):爬虫的基本数据库Redis的全部内容,希望文章能够帮你解决爬虫日记(34):爬虫的基本数据库Redis所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(45)

评论列表共有 0 条评论

立即
投稿
返回
顶部