【卷积神经网络的加速】Speeding up Convolutional Neural Networks with Low Rank Expansions

233 阅读 0 评论 154 点赞

主题：【深度卷积神经网络的加速】

Speeding up Convolutional Neural Networks with Low Rank Expansions

附上论文链接：上一篇中提到的低秩方法的参考文献

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.748.118&rep=rep1&type=pdf

摘要：

1.卷积层的重复性计算消耗了大部分时间，论文提出了两种方法来加速这些计算过程。

通过cross-channel 和 filter redundancy 的方法来构建秩为1的低秩filter。

2. 方法与架构无关所以可以轻松应用于现有的CPU以及GPU的卷积加速。

Denton 使用低秩近似和滤波器的优化，对单一卷积层实现1.6倍加速，准确度损失1%。

Mamalet 使用秩为1的filter,与平均池化层进行结合，但是这种设计不能用于一般的网络结构设计。

Vanhoucke 表示将权值进行八位量化可以对网络进行有效的加速，同时对网络acc损失最小.

Rigamonti 表明多个图像滤波器可以通过一组共享的可分离（rank-1）滤波器进行近似，从而实现大幅加速，精度损失最小。

2.硬件部分

cuda-convnet 和Caffe 表明高度优化的CPU和GPU代码可以为CNN提供卓越的计算性能。

通过在GPU上的批量图像上有效计算的FFT，在傅里叶域中执行卷积。

方法表明，可以利用特定的CPU架构，例如，通过使用SSSE3和SSSE4定点指令以及内存中数据的适当对齐。

Farabet表明，使用CNN的定制FPGA实现可以大大提高处理速度。

3.特定架构

选择性搜索的搜索空间缩减技术通过廉价地识别图像中的少量候选对象位置，大大减少了必须计算CNN的完全前向通过的次数。

PS:这篇论文中提出的优化方法不依托于任意架构，可与上述所提的方法进行融合。

三．Filter Approximations

利用不同信道与filter之间的存在冗余这一事实，对已训练好的神经网络进行加速。

第一种方法：

单通道输入图像与d*d*N的filter进行卷积，复杂度为O（d*d*N*h’*w’）h’,w’为输出的尺寸

通过M个滤波器的较小基组的线性组合来近似滤波器组

得到的新的复杂度

当时，复杂度得到有效的压缩。

另一种方法：

将（d*d）filter分解为一列(d*1)乘以一行（1*d）的序列的乘积，这样一来秩为1.,且卷积关系相互独立。复杂度可以减少为O（2dH’W’）。

论文使用的方法：

利用冗余在信道维度中执行低秩分解，可以实现大幅加速。

PS：：：FFT的方法可以与该方法结合，对单一卷积过程进行加速，但是由于计算FFT时产生的开销，FFT加速往往对大型滤波器更好)

2.1Approximating Convolutional Neural Network Filter Banks

1.用自己的话介绍了CNN的过程，他说卷积层是最expensive的，不大理解

2.3D的filter与输入的channel数量相同，举了RGB图像作为输入的例子。

N为卷积核的数量，若channel数位C的话，上面模型的复杂度位O(CNd*dH‘W’)

提出两种优化方法：

M<N，使用M个filter进行线性组合来近似原filter.从下图右半部分就可以准确理解a={a1…..aN}为系数，优化之后，复杂度为O(CMd*dH‘W’+cMNH’W’)。
若再进一步考虑到将近似过后的filter进行分解，分解成秩为1的filter(一行乘以一列，数量为M，下图左半部份)，复杂度进一步减少为O(MC(d + N)H‘W‘)，所以当M<<d*min{d,N}时，该方法可有效降低复杂度。PS：上图以单一通道为例。
根据1中所提到的方法，对于每个通道中的filter都可以进行2D的可分解filter来近似。方法1之利用了输出时的通道间的冗余，方法2将会结合输入域输出时的通道间的冗余