爬虫日记(34)：爬虫的基本数据库Redis

340 阅读 0 评论 225 点赞

我是靠谱客的博主鳗鱼黄豆，这篇文章主要介绍爬虫日记(34)：爬虫的基本数据库Redis，现在分享给大家，希望可以做个参考。

前面学习了mongodb数据库，这个数据库有很好的优点，也支持分布式部署，还支持大数据保存，这是一个很好用的数据库。不过，有时候我们在开发爬虫的过程中，会遇到这样一种场景，比如我们去抓取一个新闻网站，如果不断地去网站上抓取所有数据，必然效率低下，另外也会造成别人的网站服务降低，导致各大网站非常讨厌爬虫。肯定这种不断地从原网站下载的方法是不合适的，因此我们必须改变这种做法，从而需要使用redis数据库来解决这个问题。这个又是怎么样说呢？其实这个方法比较常见的方式，比如你去下载网站的数据，可以先缓存起来，然后就可以给自己的应用使用了，就不必要每次都去爬取一次。要缓存起来，一般情况又分为内存缓存和硬盘缓存。对于时间比较短，比如几分钟的缓存，就可以保存在内存里。如果是几天以上的就可以保存在硬盘里。redis数据库就是用来进行内存缓存，大多数的数据都一天之内使用的数据，或者叫做热点数据。有了redis数据库的缓存机制，爬虫就可以先判断缓存里是否有数据，如果没有就再去原网站下载；如果已经存在了，就不需要重复下载了。这样就可以大大提高数据的使用效率，也减轻别人网站的负载。并且redis数据库有一个天生的特性，就是可以设置数据记录定时删除的能力。

Redis（Remote Dictionary Server )，即远程字典服务，是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。从201