验证计算机视觉中的Attention

218 阅读 0 评论 144 点赞

我是靠谱客的博主虚拟身影，这篇文章主要介绍验证计算机视觉中的Attention，现在分享给大家，希望可以做个参考。

注意：
使用的Resnet50 作为base没数据局采用的时候
数据集采用花分类数据集
超参数没做任何的调整
只跑了30个epoch 感觉模型还没有问完全达到最优的性能
没有使用任何的预训练权重

只使用Resnet
Loss:

在这里插入图片描述

Acc：最好是在0.79左右

在相同的情况下只加入了SE 方式的注意力

Loss:
在这里插入图片描述

ACC:
在这里插入图片描述

在这里插入图片描述

用的1x1卷积是se网络最大的特点，实验效果好，全链接层都是放到最后。对图片语义损失挺大，中间就经过很多层fc效果一般都不咋地，不绝对。
SE的怎么实现感觉区别还是很大的，最后结果如果还是要看.我就换成卷积了但是效果不好。降低了三个点左右。

Auc：最好是在0.85左右提升还是很大的
4. scSENet 好家伙就是是因为太复杂了吗，不对他的空间attention 应该是有利于分割或者是之类的pixel level的实验。
结果AUC只有0.5

比如这个大佬所做的：https://www.cnblogs.com/pprp/p/12200334.html，就不重复尝试了。

PS：尝试理解Attention的作用原理
全连接的作用的是对一个实体进行从一个特征空间到另一个特征空间的映射，而注意力机制是要对来自同一个特征空间的多个实体进行整合。
全连接的权重对应的是一个实体上的每个特征的重要性，而注意力机制的输出结果是各个实体的重要性。
比如说，一个单词“love”在从200维的特征空间转换到100维的特征空间时，使用的是全连接，不需要注意力机制，因为特征空间每一维的意义是固定的。而如果我们面对的是词组“I love you”，需要对三个200维的实体特征进行整合，整合为一个200维的实体，此时就要考虑到实体间的位置可能发生变化，我们下次收到的句子可能是“love you I”，从而需要一个与位置无关的方案。

作者：SleepyBag
链接：https://www.zhihu.com/question/320174043/answer/651998472
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这也就是为什么上述这些其实放在encoder的过程中，也就是维度增大的过程中，work的比较好的原因。