多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录一、准备工作二、深度学习环境配置三、代码环境配置四、分布式的电脑配置五、分布式训练imagenet后记
最近在做目标跟踪的训练时,需要对backbone做一个在imagenet上的预训练模型。众所周知,140GB+的imagenet数据集上训练网络很是考验算力。刚开始在单机双卡(2080Ti)上试了一下,1个epoch需要6个小时,跑完100 epoch大约100*6/24=25天。瞬间放弃单机多卡,将目光放在了多机多卡训练,特撰文记录这段时间的工作,方便以后查询。一、准备工作因为之前配置单机的深度学习环境时,备份了许多安装包,所以后续大多数都是离线安装安装包目录: cuda_10.2.89