如何处理训练过程中出现OOM(显存不足)
【现象描述】GPU上网络运行过程中出现OOM(显存不足)【原因分析】出现该现象,可能原因如下:1.训练batchsize过大。2.输入数据的shape是变化的(输入数据动态shape)。3.输出结果的tensor保存起来了。4.网络中的算子里出现显存泄漏(算子里每次launch都申请显存,并且不释放)。【解决方法】步骤1:排查训练的batchsize是否过大,可以逐步缩小batch,如果觉得batch不够大,还是出现OOM,则排除这个原因。步骤2:确认输入数据