pytorch多节点分布式训练
本文为代码结构梳理。不提供理论知识。顺便说一点,nccl好像只支持linux。1.参数输入(选)parser.add_argument('--distributed', default=True, help="Whether to turn on the distribution")parser.add_argument('--rank', type=int, default=0, help='node rank for distributed training')parse