概述
前言
目前计算句子相似性有很多不同的方案,比如基于语义词典的方法、基于相同词汇的方法、基于统计的方法和基于编辑距离的方法。这篇文章先介绍编辑距离的基础。
编辑距离
编辑距离其实就是指把一个字符串转换为另外一个字符串所需要的最小编辑操作的代价数。包括插入字符、替换字符和删除字符。编辑距离越小,相似度越大。
比如我们要将what
转换成where
,可能是将 a -> e,接着 t -> r ,变为wher
,最后添加 e,完成。因为每一步都可以插入、删除或替换,那么如何才能在最终得到一个最小的代价,这是就会用到动态规划来求解。
假设我们有长度分别为i、j
的两个字符串,设编辑距离为edit(i,j)
。接着我们看下,如果它们最后的字符相等,则编辑距离其实等于edit(i-1,j-1)
。而如果最后的字符不相等,那么我们可以通过插入或替换来使其相等,但是不同的操作对应的代价不相同,如果插入则为edit(i,j-1)+1
或 eidit(i-1,j)+1
,替换则为edit(i-1,j-1)+1
。
求解
用以下动态方程来表示:
其中最后
以上就是单薄太阳为你收集整理的怎样衡量两个字符串的相似度(编辑距离动态规划求解)的全部内容,希望文章能够帮你解决怎样衡量两个字符串的相似度(编辑距离动态规划求解)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复