我是靠谱客的博主 敏感狗,这篇文章主要介绍分布式AI训练软件栈&硬件栈技术详解,现在分享给大家,希望可以做个参考。

注:决策智能与机器学习,深耕AI脱水干货

分布式TensorFlow 神经网络训练基准测试参考 驱动、内核软件、训练框架和集群通信软件准备 网络、服务器和容器平台配置 通过NCCL和Horovod集群通信框架,分布式运行集群训练任务 https://docs.mellanox.com/pages/releaseview.action?pageId=15049828 https://docs.mellanox.com/pages/releaseview.action?pageId=15049840

更多 AI Benchmark Reference Deployment Guide

▪ TensorFlow solutions on https://community.mellanox.com/s/topic/0TO50000000g1umGAA/tensorflow

▪ Reference Deployment Guide for RDMA over Ethernet (RoCE) accelerated TensorFlow 1.6 with an NVIDIA GPU Card over Mellanox 100 GbE Network https://community.mellanox.com/s/article/reference-deployment-guide-for-rdma-over-ethernet-roce--accelerated-tensorflow-1-6-with-an-nvidia-gpu-card-over-mellanox-100-gbe-network

▪ RDG for distributed, dockerised, RDMA accelerated Horovod training framework on HPE Apollo 6500 servers and 100Gb InfiniBand fabric https://docs.mellanox.com/pages/releaseview.action?pageId=15049840 ▪ How To build and run RDMA / RoCE accelerated Horovod framework Docker https://docs.mellanox.com/pages/releaseview.action?pageId=15049724 ▪ RDG for Accelerated ML and HPC Applications on K8s Cluster over Ethernet with RoCE https://docs.mellanox.com/pages/releaseview.action?pageId=15049828

原版文档下载链接, (HPC + GPU DRMA + AI DIST)

公众号内回复:0506

交流合作

请加微信号:yan_kylin_phenix注明姓名+单位+从业方向+地点,非诚勿扰。

最后

以上就是敏感狗最近收集整理的关于分布式AI训练软件栈&硬件栈技术详解的全部内容,更多相关分布式AI训练软件栈&硬件栈技术详解内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(55)

评论列表共有 0 条评论

立即
投稿
返回
顶部