机器学习/人工智能的笔试面试题目——NLP相关面试
可分为传统模型和词嵌入模型。传统模型包括词袋模型、TF-IDF、n-gram、LDA,其中词袋模型主要是依据字典来计算每个样本中的词语对应的频率/有无出现特征;而TF-IDF主要是用来衡量某个单词对于语义区别的重要性;n-gram主要是通过滑动窗口的形式将连续的单词作为对应特征;LDA是通过分解“文档-单词”矩阵来得到“文档-主题”和“主题-单词”两个概率分布,主要目的是计算每篇文档的主题分布。这一类传统模型实现较为简单,效率高,但所获得的的特征不包含语义信息,且易造成维度灾难。