论文笔记--Bilinear CNN Models for Fine-grained Visual Recognition
在不使用边框信息的CUB-200-2011的训练结果上,加入平方根+l2归一化的准确率为75.1%,仅使用l2归一化时为71.7%,不进行归一化时为69.3%,具有巨大的性能差异,值得之后思考和实验尝试。具体的网络架构中,作者将两组不同的CNN分别称为M-Net和D-Net。在网络的前向传播过程中,输入图像在经过卷积网络,sum-pooling,square-root和l2归一化后,D-Net的输出大小为28x28,M-Net的输出大小为27x27。为了方便之后的合并,作者舍去了D-Net的一行