多示例论文泛读--Attention-based Deep Multiple Instance Learning

184 阅读 0 评论 122 点赞

我是靠谱客的博主清脆微笑，这篇文章主要介绍多示例论文泛读--Attention-based Deep Multiple Instance Learning，现在分享给大家，希望可以做个参考。

基本概念

Permutation Invariant：指的是特征之间没有空间位置关系
Pooling(池化):是卷积神经网络中的一个重要的概念，它实际上是一种形式的降采样。多种不同形式的非线性池化函数，而其中“最大池化（Max pooling）”是最为常见的。它是将输入的图像划分为若干个矩形区域，对每个子区域输出最大值。直觉上，这种机制能够有效的原因在于，在发现一个特征之后，它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小，因此参数的数量和计算量也会下降，这在一定程度上也控制了过拟合

实例级别： $f$ 是一个实例级别的分类器，返回值为每个实例的分数， $g$ 则是判别函数。
嵌入级别： $f$ 将实例映射为一个低维嵌入；MIL池化用于获取包的表示。

MIL池化

最大池化层：
$forall_{m=1, cdots, M}: z_{m}=max _{k=1, cdots, K}left{mathbf{h}_{k m}right}$

最大池化层：
$sum_{k=1}^{K} mathbf{h}_{k}$

注意力机制

$H=left{mathbf{h}_{1}, cdots, mathbf{h}_{K}right}$ 表示包的嵌入，MIL的嵌入为：
$mathbf{z}=sum_{k=1}^{K} a_{k} mathbf{h}_{k}$
其中：
$a_{k}=frac{exp left{mathbf{w}^{top} tanh left(mathbf{V} mathbf{h}_{k}^{top}right)right}}{sum_{j=1}^{K} exp left{mathbf{w}^{top} tanh left(mathbf{V h}_{j}^{top}right)right}}$

门控注意力机制：
$a_{k}=frac{exp left{mathbf{w}^{top} tanh left(mathbf{V} mathbf{h}_{k}^{top}right)right} odot operatorname{sigm}left(mathbf{U h}_{k}^{top}right)}{sum_{j=1}^{K} exp left{mathbf{w}^{top} tanh left(mathbf{V} mathbf{h}_{j}^{top}right)right} odot operatorname{sigm}left(mathbf{U h}_{j}^{top}right)},$