词共现矩阵

280 阅读 0 评论 185 点赞

我是靠谱客的博主淡淡春天，这篇文章主要介绍词共现矩阵，现在分享给大家，希望可以做个参考。

通过统计一个事先指定大小的窗口内的word共现次数，以word周边的共现词的次数做为当前word的vector。具体来说，我们通过从大量的语料文本中构建一个共现矩阵来定义word representation。

有语料如下：

I like deep learning.
I like NLP.
I enjoy flying.

则其共现矩阵如下：

在这里插入图片描述
此时选的窗口大小为3，选择在该窗口内词汇的共现频率作为vector。

将共现矩阵行(列)作为词向量表示后，可以知道like，enjoy都是在I附近且统计数目大约相等，他们意思相近。

矩阵定义的词向量在一定程度上缓解了one-hot向量相似度为0的问题，但没有解决数据稀疏性和维度灾难的问题。

以上就是淡淡春天最近收集整理的关于词共现矩阵的全部内容，更多相关词共现矩阵内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。