我是靠谱客的博主 单薄太阳,这篇文章主要介绍怎样衡量两个字符串的相似度(编辑距离动态规划求解),现在分享给大家,希望可以做个参考。

前言

目前计算句子相似性有很多不同的方案,比如基于语义词典的方法、基于相同词汇的方法、基于统计的方法和基于编辑距离的方法。这篇文章先介绍编辑距离的基础。

编辑距离

编辑距离其实就是指把一个字符串转换为另外一个字符串所需要的最小编辑操作的代价数。包括插入字符、替换字符和删除字符。编辑距离越小,相似度越大。

比如我们要将what转换成where,可能是将 a -> e,接着 t -> r ,变为wher,最后添加 e,完成。因为每一步都可以插入、删除或替换,那么如何才能在最终得到一个最小的代价,这是就会用到动态规划来求解。

假设我们有长度分别为i、j的两个字符串,设编辑距离为edit(i,j)。接着我们看下,如果它们最后的字符相等,则编辑距离其实等于edit(i-1,j-1)。而如果最后的字符不相等,那么我们可以通过插入或替换来使其相等,但是不同的操作对应的代价不相同,如果插入则为edit(i,j-1)+1eidit(i-1,j)+1,替换则为edit(i-1,j-1)+1

求解

用以下动态方程来表示:

其中

最后

以上就是单薄太阳最近收集整理的关于怎样衡量两个字符串的相似度(编辑距离动态规划求解)的全部内容,更多相关怎样衡量两个字符串内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(48)

评论列表共有 0 条评论

立即
投稿
返回
顶部