概述
基本概念
- Permutation Invariant:指的是特征之间没有空间位置关系
- Pooling(池化):是卷积神经网络中的一个重要的概念,它实际上是一种形式的降采样。多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合
实例级别:
f
f
f是一个实例级别的分类器,返回值为每个实例的分数,
g
g
g则是判别函数。
嵌入级别:
f
f
f将实例映射为一个低维嵌入;MIL池化用于获取包的表示。
MIL池化
最大池化层:
∀
m
=
1
,
⋯
,
M
:
z
m
=
max
k
=
1
,
⋯
,
K
{
h
k
m
}
forall_{m=1, cdots, M}: z_{m}=max _{k=1, cdots, K}left{mathbf{h}_{k m}right}
∀m=1,⋯,M:zm=k=1,⋯,Kmax{hkm}
最大池化层:
z
=
1
K
∑
k
=
1
K
h
k
mathbf{z}=frac{1}{K} sum_{k=1}^{K} mathbf{h}_{k}
z=K1k=1∑Khk
注意力机制
H
=
{
h
1
,
⋯
,
h
K
}
H=left{mathbf{h}_{1}, cdots, mathbf{h}_{K}right}
H={h1,⋯,hK}表示包的嵌入,MIL的嵌入为:
z
=
∑
k
=
1
K
a
k
h
k
mathbf{z}=sum_{k=1}^{K} a_{k} mathbf{h}_{k}
z=k=1∑Kakhk
其中:
a
k
=
exp
{
w
⊤
tanh
(
V
h
k
⊤
)
}
∑
j
=
1
K
exp
{
w
⊤
tanh
(
V
h
j
⊤
)
}
a_{k}=frac{exp left{mathbf{w}^{top} tanh left(mathbf{V} mathbf{h}_{k}^{top}right)right}}{sum_{j=1}^{K} exp left{mathbf{w}^{top} tanh left(mathbf{V h}_{j}^{top}right)right}}
ak=∑j=1Kexp{w⊤tanh(Vhj⊤)}exp{w⊤tanh(Vhk⊤)}
门控注意力机制:
a
k
=
exp
{
w
⊤
tanh
(
V
h
k
⊤
)
}
⊙
sigm
(
U
h
k
⊤
)
∑
j
=
1
K
exp
{
w
⊤
tanh
(
V
h
j
⊤
)
}
⊙
sigm
(
U
h
j
⊤
)
,
a_{k}=frac{exp left{mathbf{w}^{top} tanh left(mathbf{V} mathbf{h}_{k}^{top}right)right} odot operatorname{sigm}left(mathbf{U h}_{k}^{top}right)}{sum_{j=1}^{K} exp left{mathbf{w}^{top} tanh left(mathbf{V} mathbf{h}_{j}^{top}right)right} odot operatorname{sigm}left(mathbf{U h}_{j}^{top}right)},
ak=∑j=1Kexp{w⊤tanh(Vhj⊤)}⊙sigm(Uhj⊤)exp{w⊤tanh(Vhk⊤)}⊙sigm(Uhk⊤),
最后
以上就是清脆微笑为你收集整理的多示例论文泛读--Attention-based Deep Multiple Instance Learning的全部内容,希望文章能够帮你解决多示例论文泛读--Attention-based Deep Multiple Instance Learning所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复