斯坦福CS224n课程笔记1-introduction and Word vectors 2019Human language and word meaningWord2vec introductionreference

89 阅读 0 评论 59 点赞

我是靠谱客的博主发嗲冰棍，最近开发中收集的这篇文章主要介绍斯坦福CS224n课程笔记1-introduction and Word vectors 2019Human language and word meaningWord2vec introductionreference，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

Human language and word meaning

语言是一个低带宽的信息传输方式，相比于5G，这决定了语言的熵会很高。

How do we have usable meaning in a computer?

one-hot的字词表示：

词语维度是很高的，而且有很多衍生的词语，接近于无限的维度。
词语之间没有相似度，即one-hot向量是正交的，相似词语和不相似词语之间都是正交关系。

WordNet

一个工具，来获取词语的同义词、hypernyms ( is a relation, eg. panda is a procyonid, ), 缺点：

缺少细微差别
1. 例如，某些情况下，proficient才是good的同义词，即特定的上下文。
缺少新词，难以实时更新：
主观、需要人力创建和修改，不能计算词语相似度。

分布式表达

使用词语周围的词语来表示其的意义。

Distributional semantics: A word’s meaning is given by the words that frequently appear close-by 、

使用此种方式训练神经网络得到词向量表达，并将其降维到2D，可视化的效果：

可以看到，are, is, were距离很近，向量相似度较高，而实际也是如此。

在这里插入图片描述

那么，问题来，怎么训练词向量呢？

Word2vec introduction

在这里插入图片描述

skip-gram：使用中心词语，来预测周围的词语。

最大化似然，目标是对于正确的上下文的词语，给出概率最大, $θ$ 是参数：
$prod_{t=1}^{T} prod_{-m leq j leq m atop j neq 0} Pleft(w_{t+j} | w_{t} ; thetaright)$
目标函数，注意加了负号，所以是最小化目标函数：
$sum_{t=1}^{T} sum_{-m leq j leq m atop j neq 0} log Pleft(w_{t+j} | w_{t} ; thetaright)$
那么如何计算概率 $P(w_{i+j}|w_t;theta)$ ?

对于每个词语都有两个向量：
- w作为中心词的向量 $v_w$
- w作为上下文的向量 $u_w$
对于中心词语c，上下文词语o：

$left(u_{o}^{T} v_{c}right)}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)}$

那么，参数空间为 $R^{2d*v}$ ，其实就是词向量。v是单词个数，v是词向量维度。含义是中心词的词向量和上下文的词向量越相似，其概率就越大。那么想同上下文的词语，他们的词向量也就越相似（因为他们的中心词向量都和上下文词向量相似，他们之间也就相似）。

那么如何通过梯度下降优化呢，
$v_{c}} J(theta)=-frac{1}{T} sum_{t=1}^{T} sum_{-m leq j leq m atop j neq 0} frac{partial}{partial v_{c}} log Pleft(w_{t+j} | w_{t} ; thetaright)$
其中：
$v_{c}} log P(o | c)=frac{partial}{partial v_{c}} log frac{exp left(u_{o}^{T} v_{c}right)}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)}} \ {=frac{partial}{partial v_{c}} operatorname{logexp}left(u_{o}^{T} v_{c}right)-frac{partial}{partial v_{c}} log sum_{w in V} exp left(u_{w}^{T} v_{c}right)}end{array}$
对两项分别求偏导：

第一项： $v_{c}} operatorname{logexp}left(u_{o}^{T} v_{c}right)=u_{o}$

第二项复杂一些，需要用到链式法则，将log(x)看做一个整体展开：
$v_{c}} log sum_{w in V} exp left(u_{w}^{T} v_{c}right) = frac{1}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)} * frac{partial}{partial v_{c}} ( sum_{x in V} exp left(u_{x}^{T} v_{c}right)) \ = frac{1}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)} * sum_{x in V} frac{partial}{partial v_{c}} ( exp left(u_{x}^{T} v_{c}right) ) \ = frac{1}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)} * sum_{x in V} exp left(u_{x}^{T} v_{c}right) frac{partial}{partial v_{c}} ( u_{x}^{T} v_{c} ) \ = frac{sum_{x in V} exp left(u_{x}^{T} v_{c}right) u_{x}}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)} \ = sum_{x in V} P(x | c) u_{x}$
最终：
$v_{c}} log P(o | c) = u_o - sum_{x in V} P(x | c) u_{x}$
理解为在中心词c的情况下，预测的上下文单词和实际上下文单词向量（ $u_o$ ）的差异，