概述
1、nutch-1.x中在crawl.java中。最后有这么一句话。
?indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));
它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。
2、
dedup.dedup(new Path[] { indexes });
fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);
主要是对刚才生成的indexes索引部分进行合并(MD5)。删除重复的索引。根据自己的业务可以适量的修改。
2、分布式索引在指定时也可以指定 indexes部分,也可以指定index部分,两者的区别应该知道了吧!
最后
以上就是贪玩雪碧为你收集整理的crawl结果文件夹中的index,indexes文件夹的区别的全部内容,希望文章能够帮你解决crawl结果文件夹中的index,indexes文件夹的区别所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复