靠谱客 9 月 30 日消息,在上周的中国算力大会期间,中国移动携手全球 50 余家合作伙伴发布全调度以太网(GSE)全套技术标准,以及全球首套 GSE 商用产品。

图片

以太网已成为新一代智算中心网络技术的发展方向,2023 年 5 月,中国移动联合 10 余家中国企业率先发布了全调度以太网技术架构(GSE)白皮书,并在 8 月中国算力大会上启动“GSE 推进计划”,成员包括国内外主流云服务商、设备商、芯片商、高校等 50 余家产学研机构,与美国公司主导的超级以太网联盟(UEC)成为全球范围内两个具有影响力的技术体系。

为兼顾智算中心建设的节奏与技术发展的需求,全调度以太网技术划分为 GSE1.0 和 GSE2.0 两个商用阶段,靠谱客附介绍如下:

  • GSE1.0 基于现有芯片最大限度地支持 GSE 新技术,优化网络性能,目前已在中国移动智算中心(哈尔滨)超万卡集群实现首次商用,将训练过程中通信时间占比缩 20% 以上,达到国际先进水平。

  • GSE2.0 则全面革新以太网底层转发机制和上层协议栈,通过基于 PKTC 的多路径喷洒、基于 DGSQ 的拥塞控制机制以及基于 66B 原子码块的故障检测与通告等原创技术创新,从根本上解决传统无损以太性能和可靠性问题

此外,为同时满足以华为昇腾 910 系列为代表的 GPU 集成网卡的 GPU 服务器和以英伟达 H800 系列为代表的配备独立网卡的 GPU 服务器组网需求,GSE 构建了 GSE-N2N 和 GSE-E2E 两大技术场景,前者网络实现全部 GSE 功能,实现计算和网络与天然解耦,后者将部分 GSE 能力延伸至服务器网卡,借助端网协同实现集群互联。

本次发布的成果主要有 GSE 全套技术标准包括《GSE1.0 算网协同技术标准》、《GSE 2.0 网络侧优化技术标准》即 GSE-N2N 标准和《GSE2.0 端网协同技术标准》即 GSE-E2E 标准。

  • GSE1.0 技术标准主要涵盖端口级 + 算网协同的负载均衡、端网协同的拥塞感知授权等核心技术,已经规模商用;

  • GSE-N2N 技术标准主要定义了基于 PKTC 的多路径喷洒、基于 DGSQ 的拥塞控制、控制面设计、网络健壮性及网络可视化等核心技术,本次发布的交换机商用产品已全面实现;

  • GSE-E2E 技术标准主要涉及端网协同机制、多路径喷洒机制、基于 DGSQ 的拥塞控制、端侧乱序重排及快速丢包重传等核心内容,商用网卡芯片已完成开发。

图片

本次发布的 GSE 商用交换机支持千卡级组网规模,组网性能号称比传统 RoCEv2 交换机提升 50% 以上。

图片

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,靠谱客所有文章均包含本声明。

点赞(54)

评论列表共有 0 条评论

立即
投稿
返回
顶部