CS224n笔记三之词向量模型与GloVe

292 阅读 0 评论 193 点赞

我是靠谱客的博主和谐纸飞机，这篇文章主要介绍CS224n笔记三之词向量模型与GloVe，现在分享给大家，希望可以做个参考。

词向量模型

语言学家J. R. Firth提出，通过一个单词的上下文可以得到它的意思，所以我们可以定义一个以预测某个单词的上下文的模型：

$p (c o n t e x t | w t) = . . .$
我们的目标当然是希望概率p越大越好，所以我们可以定义一个目标函数：

$J' (θ) = \prod t = 1 T \prod - m \leq j \leq m, j \neq 0 P (w t + j | w t; θ)$
我们的目的就是最大化上面这个目标函数。但一般来说，我们都是想最小化目标函数的，所以我们可以改写目标函数为：

$J (θ) = - 1 T \sum t = 1 T \sum - m \leq j \leq m, j \neq 0 l o g P (w t + j | w t; θ)$
所以我们接下来的目标就是如何计算 P(wt+j|wt;θ) ，或者说如何定义 P(wt+j|wt;θ) 。

定义 P(wt+j|wt;θ)

P (w t + j | w t; θ) \Rightarrow e x p ( u T o v c ) \sum V w = 1 e x p ( u T w v c )

其中， vc 就是中心词 wt 的词向量， uo 就是 wt+j 的词向量，这就是softmax。所以我们的目标就是不断调整词库中每个词的词向量，使得这个P最大。所以我们的参数就是词库中的这些词向量，并且每个词都有两个词向量，一个是作为中心词的时候(即 v )，一个是作为上下文的时候(即u)。所以参数 θ 如下：

计算梯度

\sum - m \leq j \leq m, j \neq 0 l o g P (w t + j | w t; θ)

在对上式进行求梯度时，其实只对 2m+1 个词向量进行了求导(一个 vc ，2m个 uo )，所以 ∇θJt(θ) 是非常稀疏的。即:
视频中只是演示了对 vc 的求导，其实还需要对 uo 求导，因为 θ 里面包含有v，u两部分向量，当然都需要求导啦。

GloVe

GloVe模型的目标函数是：

$J (θ) = 1 2 \sum i, j = 1 W f (P i j) (u T i v j - l o g P i j) 2$
其中， Pij 是两个词的共现频次，也就是两个词同时出现的次数(在拿到数据的时候就可以统计出来了)。f是一个max函数，如下所示：
从图中可以看出，频次 Pij 越高， f(Pij) 的值一开始也会越大，达到 xmax 之后，即使频次再高， f(Pij) 值也不会再增加了，这在一定程度上对共现频次太高的词起到了抑制作用。
前面说到的 θ 包含了v和u两部分向量，也就是每个词都有两个词向量的，那么最后究竟要选哪一个作为最终的词向量呢？最佳方案是将它们相加作为最终的词向量：
$X f i n a l = U + V$

最后

以上就是和谐纸飞机最近收集整理的关于CS224n笔记三之词向量模型与GloVe的全部内容，更多相关CS224n笔记三之词向量模型与GloVe内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(193)

本文分类：NLP
浏览次数：292 次浏览
发布日期：2023-12-27 09:00:23

相关文章

CS224n 笔记1-自然语言处理与深度学习简介1 自然语言处理简介2 词向量（Word Vectors）3 基于奇异值分解（SVD）的方法4 基于迭代的算法-Word2vec

CS224n 笔记1-自然语言处理与深度学习简介1 自然语言处理简介2 词向量（Word Vectors）3 基于奇异值分解（SVD）的方法4 基于迭代的算法-Word2vec

CS224随便做的一些笔记

CS224d笔记2——word2vec

CS224d笔记2——word2vec

自学斯坦福计算机全部课程参考

CS224n笔记三之词向量模型与GloVe

CS224n笔记三之词向量模型与GloVe

【CS224n】(lecture1)课程介绍和word2vec学习总结一、课程安排二、Word2vec算法三、训练四、代码实现Reference

【CS224n】(lecture1)课程介绍和word2vec学习总结一、课程安排二、Word2vec算法三、训练四、代码实现Reference

CS224d lecture 9札记1.Semantic Vector Space for sentence2.objection function？Max-margin framework3.BPTS(Backpropagation Through Structure)4.Recursive NN的改良版

CS224d lecture 9札记1.Semantic Vector Space for sentence2.objection function？Max-margin framework3.BPTS(Backpropagation Through Structure)4.Recursive NN的改良版

CS224n笔记（一）

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部