机器学习主题模型之LDA概念

81 阅读 0 评论 54 点赞

我是靠谱客的博主飞快芹菜，这篇文章主要介绍机器学习主题模型之LDA概念，现在分享给大家，希望可以做个参考。

隐含狄利克雷分布（Latent Dirichlet allocation）是一种生成式统计模型，是泛化的pLSA模型，区别在于LDA假设主题分布是稀疏的Dirichlet prior，即所有文档只覆盖一小部分的主题，且这些主题只频繁地使用一小部分的单词。

LDA是三层贝叶斯模型，基于变分方法的近似推理和经验贝叶斯参数估计的EM算法，使用“先验分布”和“数据对数似然”得出“后验分布”，再用后验分布作为新的先验分布，往复迭代。这就要求先验分布和后验分布具有相同的形式，即二者为共轭分布。

一、相关概念

1、二项分布Binomial distribution

二项分布是重复n次独立的伯努利试验，每次试验只有两种可能的结果，期望为np，方差为np(1-p)。二项分布可以作为LDA中的数据对数似然。

$b(n,p)=binom{n}{k}p^{k}(1-p)^{n-k}$

2、Beta分布

Beta分布是一组定义在(0,1)or[0,1]区间的连续概率分布，有两个参数α,β>0，可看做是一系列pattern相似的二项分布（n、p未知），认为α与成功的事件数相关、β与失败的事件数相关：

$beta(alpha ,beta )=frac{gamma (alpha +beta )}{gamma (alpha )(beta )}x^{alpha -1}(1-x)^{beta -1}$

$gamma (x)=(x-1)!$

$e(x)=frac{alpha }{alpha +beta }, , , var(x)=frac{alpha beta }{(alpha +beta )^{^{2}}(alpha +beta +1)}$

Beta前面的系数起标准化作用，使得这个分布的概率密度积分为1。除去前面的系数以外，Beta分布和二项分布具有相同的形式，因此可知Beta分布是伯努利分布、二项分布的共轭先验分布的密度函数；若将Beta分布作为先验分布、二项分布作为似然函数，那么后验分布仍是Beta分布：

$b(k|n,p)cdot beta(p|alpha ,beta )\=binom{n}{k}p^{k}(1-p)^{n-k}cdot frac{gamma (alpha +beta )}{gamma (alpha )gamma (beta )}p^{alpha -1}(1-p)^{beta -1} \=frac{gamma (alpha +beta +n)}{gamma (alpha +k)gamma (beta +n-k)}p^{alpha +k -1}(1-p)^{beta +n-k-1}\\=beta(p|alpha +k,beta+n-k )$

3、多项分布Multinational distribution

是二项分布的推广，N次试验可能的结果有K种（K≥2），每种数量分别为 $m_{_{i}}$ ，，i∈(1,2,...,K)；取到每类的概率分别为 $p_{i}in (0,1)$ ，。多项分布的期望为 $np_{i}$ ，方差为 $np_{i}(1-p_{i})$ ，协方差为 $-np{_{i}}p_{j} (ineq j)$ 。

$pn(n:p)=frac{n!}{m_{1}!cdot cdot cdot m_{k}!}p_{1}^{m_{1}}cdot cdot cdot p_{k}^{m_{k}}$

4、Dirichlet分布

是Beta分布的推广，N次试验可能的结果有K类（K≥2），每种的浓度concentration参数分别为 $alpha _{i}>0$ ，i∈(1,2,...,K)；取到每类的概率分别为 $p_{i}in (0,1)$ ，。Dirichlet分布是多项分布的共轭分布：

$dir(p|alpha )=frac{gamma left ( sum_{i=1}^{k}alpha _{i} right )}{prod_{i=1}^{k}gamma (alpha _{i})}prod_{i=1}^{k}p_{i}^{alpha _{i}-1}$

$e_{dir(p|alpha )}=frac{alpha _{i}}{sum_{k}^{ }alpha _{k}}$

$var_{dir(p|alpha )}=frac{alpha _{i}left ( sum_{k}^{ } alpha _{k}-alpha _{i}right )}{left ( sum_{k}^{ }alpha _{k} right )^{2}left ( sum_{k}^{ }alpha _{k}+1 right )}$

$pn(n:p)cdot dir(p|alpha )\=frac{n!}{prod_{i=1}^{k}m_{i}!}prod_{i=1}^{k}p_{i}^{m_{i}}cdot frac{gamma left ( sum_{i=1}^{k}alpha _{i} right )}{prod_{i=1}^{k}gamma (alpha _{i})}prod_{i=1}^{k}p_{i}^{alpha _{i}-1}\=frac{gamma left ( sum_{i=1}^{k}m_{i}+alpha _{i} right )}{prod_{i=1}^{k}gamma (m_{i}+alpha _{i})}prod_{i=1}^{k}p_{i}^{m_{i}+alpha _{i}-1}\\=dir(p|alpha +m)$

Dirichlet分布常用作贝叶斯理论中的先验分布，如果没有任何先验信息有利于一个类超过其他类的情况，则一般将所有的浓度参数初始化为相等的值（对称的Dirichlet分布）。可认为浓度参数是样本的集中程度，当ɑ=1时，对称的Dirichlet分布相当于一个均匀分布，在它的support上的所有点都是相等的——扁平的Dirichlet分布；当ɑ>1时，则倾向于密集分布，单个类别内所有值都是相似的；当ɑ<1时，则倾向于稀疏分布，单个类别内所有值都接近于0，大多数样本集中在少数类别中。

二、LDA主题模型

LDA是一种比较常用的主题模型，每篇文档是由一系列潜在主题构成，而每个主题又是一个在词上的多项分布。假设文集/语料库（corpus）D中共有M篇文档，第m个文档有 $n_{m}$ 个单词，这些文档一共涉及K个主题，词汇表中所有词总数为V。