我是靠谱客的博主 淡淡草莓,最近开发中收集的这篇文章主要介绍mongo数据库 mapreduce 与 group 效率比较,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

参考:

http://www.oecp.cn/hi/yongtree/blog/2001

http://www.360doc.com/content/11/0517/07/2660674_117324396.shtml

http://www.360doc.com/content/11/0906/16/1542811_146231902.shtml

 

与传统的关系型数据库一样,mongo这个典型的NOSQL也提供了分组查询功能。

 

那我们今天就来实际探讨测试一下,这个两者的效率之比较

 

本文的mapreduce 使用的是morphia 层API,

关于mapreduce接口使用可以见demo

http://code.google.com/p/morphia/source/browse/trunk/morphia/src/test/java/com/google/code/morphia/TestMapreduce.java?r=1514&spec=svn1707

 

测试用例是这样设计的。插入100000次记录,250次为一次循环。

 

for (int i = 0; i < 100000; i++) {
        
         SyncContactsEntity syncContactsEntity = new SyncContactsEntity();
         syncContactsEntity.setCountname("jhytest" + i / 250);
        
         ds.save(syncContactsEntity);
        
         if (i % 1000 == 0) {
         // System.out.println(Calendar.getInstance().getTime().getTime());
         }
        
}


这样的话,数据库中每个联系人名字都有250个重复的,这样方便我们进行group测试。

 

这里直接贴出mapreduce的测试代码

 

System.out.println(Calendar.getInstance().getTime().getTime());
String map = "function () {emit(this.countname, {count:1}); }";
String reduce = "function (key, values) { var total = 0; for ( var i=0; i<values.length; i++ ) {total += values[i].count;} return { count : total }; }";
MapreduceResults<ResultEntity> mrRes = ds.mapReduce(
				MapreduceType.REPLACE,
				ds.createQuery(SyncContactsEntity.class), map, reduce, null,
				null, ResultEntity.class);

System.out.println(Calendar.getInstance().getTime().getTime());


 

查询时间打印为:

查询前:1356187367375
查询后:1356187376281   大概花了9秒钟

 

 

我们再来看看 mongodb 的group函数

 DBCollection userSColl = mongo.getDB("new_hotel").getCollection("contsentity");
		
 BasicDBObject key = new BasicDBObject("countname", true);
 BasicDBObject initial = new BasicDBObject("cou", 0);
 String reduce = "function(obj,pre){pre.cou++}";
 System.out.println(Calendar.getInstance().getTime().getTime());
 BasicDBList returnList = (BasicDBList) userSColl.group(key, null,initial, reduce);
 System.out.println(Calendar.getInstance().getTime().getTime());


 

查询前:1356187815390
查询后:1356187817390 大概花了2秒钟

 

当然了本案是在单节点的mongodb上进行的测试,group的效率明显很高。

 

但是需要提出两点注意点,大家在开发的时候注意:

1、网上文章说不要用 group  是因为他返回的list内存值,在查询结果条数大 10,000 keys 的情况下会爆出异常。

出处:http://api.mongodb.org/wiki/current/Aggregation.html#Aggregation-Group

 而 mapreduce的 查询结果是生成一张表,所以返回是fetch 一段一段加载的,不存在这样的问题。

 

2、group不适合在多点分片的mongodb部署中使用,这个需要注意。

 

关于这个问题可能后续继续讨论一下。

 

 

最后

以上就是淡淡草莓为你收集整理的mongo数据库 mapreduce 与 group 效率比较的全部内容,希望文章能够帮你解决mongo数据库 mapreduce 与 group 效率比较所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(64)

评论列表共有 0 条评论

立即
投稿
返回
顶部