CS224n笔记(一)
skip-gram model在每一个估算步都取一个词作为中心词汇,尝试去预测它一定范围内上下文的词汇,这个模型会定义一个概率分布:给定一个中心词汇,其他单词在这个词汇上下文出现的概率,作为词汇的向量表示,然后让概率分布最大化。这个模型只有一个概率分布,这个概率分布就是输出,也就是出现在中心词周围的上下文的一个输出,接着我们要定义一个半径m,然后从中心词汇开始到距离为m的位置,用刚刚的概率分布去...