我是靠谱客的博主 搞怪歌曲,最近开发中收集的这篇文章主要介绍java文本相似度算法,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述


import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Set;
import java.util.stream.Collectors;
import org.apache.commons.collections4.SetUtils;
/**
* 文本相似度相关判断方法
* 参考链接:https://zhuanlan.zhihu.com/p/91645988
* @author ylguo
*
*/
public class SimilarityHelper {
/**
* 汉明距离
* @param a
* @param b
* @return
*/
public static float hamming(String a, String b) {
if (a == null || b == null) {
return 0f;
}
if (a.length() != b.length()) {
return 0f;
}
int disCount = 0;
for (int i = 0; i < a.length(); i++) {
if (a.charAt(i) != b.charAt(i)) {
disCount++;
}
}
return (float) disCount / (float) a.length();
}
/**
* 余弦相似性
* @param a
* @param b
* @return
*/
public static float cos(String a, String b) {
if (a == null || b == null) {
return 0F;
}
Set<Integer> aChar = a.chars().boxed().collect(Collectors.toSet());
Set<Integer> bChar = b.chars().boxed().collect(Collectors.toSet());
// 统计字频
Map<Integer, Integer> aMap = new HashMap<>();
Map<Integer, Integer> bMap = new HashMap<>();
for (Integer a1 : aChar) {
aMap.put(a1, aMap.getOrDefault(a1, 0) + 1);
}
for (Integer b1 : bChar) {
bMap.put(b1, bMap.getOrDefault(b1, 0) + 1);
}
// 向量化
Set<Integer> union = SetUtils.union(aChar, bChar);
int[] aVec = new int[union.size()];
int[] bVec = new int[union.size()];
List<Integer> collect = new ArrayList<>(union);
for (int i = 0; i < collect.size(); i++) {
aVec[i] = aMap.getOrDefault(collect.get(i), 0);
bVec[i] = bMap.getOrDefault(collect.get(i), 0);
}
// 分别计算三个参数
int p1 = 0;
for (int i = 0; i < aVec.length; i++) {
p1 += (aVec[i] * bVec[i]);
}
float p2 = 0f;
for (int i : aVec) {
p2 += (i * i);
}
p2 = (float) Math.sqrt(p2);
float p3 = 0f;
for (int i : bVec) {
p3 += (i * i);
}
p3 = (float) Math.sqrt(p3);
return ((float) p1) / (p2 * p3);
}
/**
* 莱文斯坦距离
* @param a
* @param b
* @return
*/
public static float Levenshtein(String a, String b) {
if (a == null && b == null) {
return 1f;
}
if (a == null || b == null) {
return 0F;
}
int editDistance = editDis(a, b);
return 1 - ((float) editDistance / Math.max(a.length(), b.length()));
}
private static int editDis(String a, String b) {
int aLen = a.length();
int bLen = b.length();
if (aLen == 0) return aLen;
if (bLen == 0) return bLen;
int[][] v = new int[aLen + 1][bLen + 1];
for (int i = 0; i <= aLen; ++i) {
for (int j = 0; j <= bLen; ++j) {
if (i == 0) {
v[i][j] = j;
} else if (j == 0) {
v[i][j] = i;
} else if (a.charAt(i - 1) == b.charAt(j - 1)) {
v[i][j] = v[i - 1][j - 1];
} else {
v[i][j] = 1 + Math.min(v[i - 1][j - 1], Math.min(v[i][j - 1], v[i - 1][j]));
}
}
}
return v[aLen][bLen];
}
/**
* Jaccard 相似度
* @param a
* @param b
* @return
*/
public static float jaccard(String a, String b) {
if (a == null && b == null) {
return 1f;
}
// 都为空相似度为 1
if (a == null || b == null) {
return 0f;
}
Set<Integer> aChar = a.chars().boxed().collect(Collectors.toSet());
Set<Integer> bChar = b.chars().boxed().collect(Collectors.toSet());
// 交集数量
int intersection = SetUtils.intersection(aChar, bChar).size();
if (intersection == 0) return 0;
// 并集数量
int union = SetUtils.union(aChar, bChar).size();
return ((float) intersection) / (float)union;
}
/**
* Sorensen Dice 相似度系数
* @param a
* @param b
* @return
*/
public static float SorensenDice(String a, String b) {
if (a == null && b == null) {
return 1f;
}
if (a == null || b == null) {
return 0F;
}
Set<Integer> aChars = a.chars().boxed().collect(Collectors.toSet());
Set<Integer> bChars = b.chars().boxed().collect(Collectors.toSet());
// 求交集数量
int intersect = SetUtils.intersection(aChars, bChars).size();
if (intersect == 0) {
return 0F;
}
// 全集,两个集合直接加起来
int aSize = aChars.size();
int bSize = bChars.size();
return (2 * (float) intersect) / ((float) (aSize + bSize));
}
public static void main(String[] args) {
String oldText = "2019年5月15日- ";
String newText = "ong年5月15日";
System.out.println(SimilarityHelper.cos(oldText, newText));
System.out.println(SimilarityHelper.Levenshtein(oldText, newText));
System.out.println(SimilarityHelper.jaccard(oldText, newText));
System.out.println(SimilarityHelper.SorensenDice(oldText, newText));
}
}

最后

以上就是搞怪歌曲为你收集整理的java文本相似度算法的全部内容,希望文章能够帮你解决java文本相似度算法所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(47)

评论列表共有 0 条评论

立即
投稿
返回
顶部