gather torch_torch.nn.DataParallel中数据Gather的问题：维度不匹配

192 阅读 0 评论 127 点赞

我是靠谱客的博主饱满斑马，这篇文章主要介绍gather torch_torch.nn.DataParallel中数据Gather的问题：维度不匹配，现在分享给大家，希望可以做个参考。

Pytorch中的多GPU非常好用，一句话就能搞定：self.model = torch.nn.DataParallel(self.model)。

然而这两天我做零样本学习中遇到了一个问题始终无法解决，就是说单GPU可以跑，一旦使用多GPU，就会出现：

RuntimeError: Gather got an input of invalid size: got [24, 10, 448，448], but expected [24, 11, 448，448] (gather at /pytorch/torch/csrc/cuda/comm.cpp:239

的错误。我每个batch数据为48张448*448图片，在每个gpu上划分了24张没问题，但通道上不知道为啥会出现10/11这两个数字，我backbone用的是ResNet-101，哪一层都没有10或11这种数值，而且为啥会在通道上进行划分？

经过一步步检查参数尺度，终于发现了问题：

原来是这里的self.embed_arr导致的问题。self.embed_arr是我输入的语义标签，和批次无关，这个变量在整个训练过程中都是固定的，维度为21*300，会影响到特征通道。在单GPU情况下，对每张图片self.embed_arr都是一样的，因此正常。然而由于torch.nn.DataParallel(self.model)，所以model的input都会被强制等分，因此当我使用两个gpu时，在gpu0上和gpu1上的self.embed_arr被分别拆成了10*300和11*300两份，于是我的图像特征也在两个gpu上变成了[24, 10, 448，448]和[24, 11, 448，448]。当两个gpu forward完就会发现数据维度不匹配，无法gather。终于破案了！（如果self.embed_arr的维度恰好为[20*300]，在两个GPU划分为两个10*30，模型正常运行，细思极恐~）

接下来就是如何解决这个问题，我查看了torch.nn.DataParallel源码：