我是靠谱客的博主 鲤鱼大山,最近开发中收集的这篇文章主要介绍集合去重,高效算法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

我们最常用的两个集合去重的方法是removeAll,但是当两个集合达到上万之后就已经很慢了,上百万之后,处理速度更是令人难以忍受,处理时间超过10分钟以上,测试代码如下:

public class Test {
    public static void main(String[] args) {
        List<Integer> list1 = new ArrayList<>();
        List<Integer> list2 = new ArrayList<>();
        for(int i = 0; i<=1000000; i++) {
            list1.add(i);
        }
        for(int i = 500000; i<=1500000; i++) {
            list2.add(i);
        }
        System.out.println("start: " + new Date());
        list2.removeAll(list1);
        System.out.println("end: " + new Date());
    }
}

这个时候我们可以使用CollectionUtils的intersection方法(取交集)和disjunction方法(取差集),disjunction 就是我们要的去重之后的集合,代码如下:

public class Test {
    public static void main(String[] args) {
        List<Integer> list1 = new ArrayList<>();
        List<Integer> list2 = new ArrayList<>();
        for(int i = 0; i<=1000000; i++) {
            list1.add(i);
        }
        for(int i = 500000; i<=1500000; i++) {
            list2.add(i);
        }
        System.out.println("start: " + new Date());
        Collection intersection = CollectionUtils.intersection(list1, list2);
        Collection disjunction = CollectionUtils.disjunction(list2, intersection);
        System.out.println("end: " + new Date());
    }
}

测试结果:
start: Thu Dec 06 20:36:11 CST 2018
end: Thu Dec 06 20:36:12 CST 2018
单个集合数据量达到100万,处理时间为1s,结果显而易见。

源码如下:

public static Collection intersection(Collection a, Collection b) {
        ArrayList list = new ArrayList();
        Map mapa = getCardinalityMap(a);
        Map mapb = getCardinalityMap(b);
        Set elts = new HashSet(a);
        elts.addAll(b);
        Iterator it = elts.iterator();

        while(it.hasNext()) {
            Object obj = it.next();
            int i = 0;

            for(int m = Math.min(getFreq(obj, mapa), getFreq(obj, mapb)); i < m; ++i) {
                list.add(obj);
            }
        }

        return list;
    }


    public static Collection disjunction(Collection a, Collection b) {
        ArrayList list = new ArrayList();
        Map mapa = getCardinalityMap(a);
        Map mapb = getCardinalityMap(b);
        Set elts = new HashSet(a);
        elts.addAll(b);
        Iterator it = elts.iterator();

        while(it.hasNext()) {
            Object obj = it.next();
            int i = 0;

            for(int m = Math.max(getFreq(obj, mapa), getFreq(obj, mapb)) - Math.min(getFreq(obj, mapa), getFreq(obj, mapb)); i < m; ++i) {
                list.add(obj);
            }
        }

        return list;
    }

    public static Map getCardinalityMap(Collection coll) {
        Map count = new HashMap();
        Iterator it = coll.iterator();

        while(it.hasNext()) {
            Object obj = it.next();
            Integer c = (Integer)((Integer)count.get(obj));
            if (c == null) {
                count.put(obj, INTEGER_ONE);
            } else {
                count.put(obj, new Integer(c + 1));
            }
        }

        return count;
    }


从源码不难发现,集合遍历次数仅为集合a和集合b的并集的数量,通过Map的使用极大的提高了处理速度。

最后

以上就是鲤鱼大山为你收集整理的集合去重,高效算法的全部内容,希望文章能够帮你解决集合去重,高效算法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(40)

评论列表共有 0 条评论

立即
投稿
返回
顶部