crawl结果文件夹中的index,indexes文件夹的区别

316 阅读 0 评论 209 点赞

我是靠谱客的博主贪玩雪碧，这篇文章主要介绍crawl结果文件夹中的index,indexes文件夹的区别，现在分享给大家，希望可以做个参考。

1、nutch-1.x中在crawl.java中。最后有这么一句话。

?indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats)));

它会把crawldb，linkdb以及segments，进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。

2、

dedup.dedup(new Path[] { indexes });
fstats = fs.listStatus(indexes, HadoopFSUtil.getPassDirectoriesFilter(fs));
merger.merge(HadoopFSUtil.getPaths(fstats), index, tmpDir);

主要是对刚才生成的indexes索引部分进行合并（MD5）。删除重复的索引。根据自己的业务可以适量的修改。

2、分布式索引在指定时也可以指定 indexes部分，也可以指定index部分，两者的区别应该知道了吧！

最后

以上就是贪玩雪碧最近收集整理的关于crawl结果文件夹中的index,indexes文件夹的区别的全部内容，更多相关crawl结果文件夹中内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：开源搜索引擎（nutch）
浏览次数：316 次浏览
发布日期：2023-09-08 22:35:18

crawl结果文件夹中的index,indexes文件夹的区别

最后

评论列表共有 0 条评论

发表评论取消回复

crawl结果文件夹中的index,indexes文件夹的区别

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复