迷路冰棍

文章
7
资源
0
加入时间
3年0月21天

NLP—小任务一:文本相似度计算任务描述:

任务描述:文本相似度计算任务找出其中可能存在的重复项编号仅仅后4位不同文本描述相同或者相似例如:300030280004 油漆笔-[规格:红色,斑马]300030280010 油漆笔-[规格:红色,斑马]分词结巴分词其他分词方式实现方式数据存到excel文档中例如python实现实现思路:先读取excel文件数据先挑出一个需要对比的数据,用这个数据与所有的数据进行相似度比较每次比较前先判断一下编号是否仅后四位不同然后对比较的两组词进行结巴分词