2023年12月归档_野性菠萝的博客_PHP编程,Windows 7,键盘鼠标,JavaScript,分布式,redhat领域博主

多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录一、准备工作二、深度学习环境配置三、代码环境配置四、分布式的电脑配置五、分布式训练imagenet后记

最近在做目标跟踪的训练时，需要对backbone做一个在imagenet上的预训练模型。众所周知，140GB+的imagenet数据集上训练网络很是考验算力。刚开始在单机双卡(2080Ti)上试了一下，1个epoch需要6个小时，跑完100 epoch大约100*6/24=25天。瞬间放弃单机多卡，将目光放在了多机多卡训练，特撰文记录这段时间的工作，方便以后查询。一、准备工作因为之前配置单机的深度学习环境时，备份了许多安装包，所以后续大多数都是离线安装安装包目录： cuda_10.2.89

分布式 2023-12-06 61 点赞 0 评论 92 浏览

野性菠萝

多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录一、准备工作二、深度学习环境配置三、代码环境配置四、分布式的电脑配置五、分布式训练imagenet后记

他的专栏

他的归档

热门文章

野性菠萝

多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录一、准备工作二、深度学习环境配置​三、代码环境配置四、分布式的电脑配置五、分布式训练imagenet后记

他的专栏

他的归档

热门文章

多机多卡分布式训练(Distributed Data DataParallel, DDP)安装踩坑记录一、准备工作二、深度学习环境配置三、代码环境配置四、分布式的电脑配置五、分布式训练imagenet后记