Word2Vec训练同义词模型
一、需求描述 业务需求的目标是识别出目标词汇的同义词和相关词汇,如下为部分目标词汇(主要用于医疗问诊): 尿 痘痘 发冷 呼吸困难 恶心数据源是若干im数据,那么这里我们选择google 的word2vec模型来训练同义词和相关词。二、数据处理 数据处理考虑以下几个方面: 1. 从hive中导出不同数据量的数据 2. 过滤无用的训练样本(例如字数少于