分布式深度学习学习总结1.分布式学习基本概念2.分布式深度学习通信优化(重点)
分布式深度学习1.深度学习的问题:数据量大,网络模型大,训练时间太长。解决办法:1.采用高性能硬件,图形处理单元(graphics processing unit)和张量处理器(TPU)加速模型训练2. 分布式训练:在多个节点上并行训练深度神经网络也是行之有效的加速方法。每个节点仅仅执行整体计算任务的一部分,这样可以大幅缩短深度神经网络的训练时间2.分布式分布式种类问题原因数据并行 (主流)节点间的通信开销网络模型训练过程的迭代性,不同的计算节点之间