文件类似的推理 -- 超级本征值（super feature）

336 阅读 0 评论 222 点赞

我是靠谱客的博主苗条奇迹，这篇文章主要介绍文件类似的推理 -- 超级本征值（super feature），现在分享给大家，希望可以做个参考。

基于内容的变长分块（CDC）技术，能够用来对文件进行变长分块。而后用来进行反复性检測，广泛用于去重系统中。后来又出现了对相似数据块进行delta压缩，进一步节省存储开销。

所以就须要一种高效的相似性检測算法，在论文 WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression 提出的super-features 算法具有非常好的效果。主要思想是在滑动窗体进行分块的过程中，通过一个窗体的rabin fingerprint 我们能够随机的得到一个数值。假设它比这个块中全部窗体w的rabin指纹都大。就把它记为一个特征值 feature-i，通过这个方案得到的多个feature。计算rabin 指纹得到的就是超级特征值SF，下图每一个SF有四个特征值得到。

以下是对几个文件简单的測试结果，这里每一个文件生成俩超级特征值（假设两个文件有一个super feature一样，就能够觉得它们相似性非常高），效果比simhash好（缺乏大量数据集论证）。

F1,F2,F3 分别在F的基础上头，尾，中间增加额外字节，发现得到的两个超级特征值都一样 Supfeature[0]=5465959093573163876，Supfeature[1]=7673021043978770954。

F4是一个全然不同的文件。 Supfeature[0]=2682386775420212619，Supfeature[1]=3509276326591445061。

參考：

1. Philip Shilane-WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression

2.Some applications of rabin's fingerprinting method.

版权声明：本文博主原创文章。博客，未经同意不得转载。

最后

以上就是苗条奇迹最近收集整理的关于文件类似的推理 -- 超级本征值（super feature）的全部内容，更多相关文件类似的推理内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(222)

本文分类：Other
浏览次数：336 次浏览
发布日期：2024-05-31 06:50:01

相关文章

Python 实现Jaccard 相似度计算排序基本原理工程实现代码

Python 实现Jaccard 相似度计算排序基本原理工程实现代码

关于我国各省市工业科技研发现状的探讨 ——基于聚类分析的基本判断

关于我国各省市工业科技研发现状的探讨 ——基于聚类分析的基本判断

python 编写聚类指标purity纯度和jaccard函数自编purity纯度和jaccard函数，最后运算速度都挺快的，另外，似乎用scipy中的混淆矩阵也可以编写scipy，而且要比我写的jaccard简便一些，可能是把我写的一些封装了吧。

python 编写聚类指标purity纯度和jaccard函数自编purity纯度和jaccard函数，最后运算速度都挺快的，另外，似乎用scipy中的混淆矩阵也可以编写scipy，而且要比我写的jaccard简便一些，可能是把我写的一些封装了吧。

python箱线图注明特征值_站内python提取tif文件特征值搜索-第二电脑网

python箱线图注明特征值_站内python提取tif文件特征值搜索-第二电脑网

文件类似的推理 -- 超级本征值（super feature）

文件类似的推理 -- 超级本征值（super feature）

python open cv 图片对比_图片相似度比较_python

python open cv 图片对比_图片相似度比较_python

论文WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression

论文WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression

提取so文件的特征值ELF文件格式 elf文件格式总结 readelf工具你还需要知道的事代码

提取so文件的特征值ELF文件格式 elf文件格式总结 readelf工具你还需要知道的事代码

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部