英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

2024-11-04 15:21 187 阅读 0 评论 124 点赞

靠谱客 11月4日消息，科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。

传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定高效的学习过程：

减少训练步骤：nGPT 不再直接对模型权重应用权重衰减，而是依赖学习到的缩放参数，优化模型在训练中的调整方式。
简化过程：此方法消除了对 LayerNorm 或 RMSNorm 等归一化技术的需求，使训练过程更为简单和快速。

英伟达团队使用 OpenWebText 数据集进行测试，nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入，nGPT 所需的训练轮次远少于传统模型，显著缩短了训练时间。

英伟达新 ngpt 架构撬动 ai 未来：超球面学习提效，训练模型时间可缩短至 1/20

英伟达新 ngpt 架构撬动 ai 未来：超球面学习提效，训练模型时间可缩短至 1/20

nGPT 的一个关键优势是将归一化（normalization）和表示学习（representation learning）结合成一个统一框架，这种设计简化了模型架构，便于扩展和适应更复杂的混合系统。未来，nGPT 的方法可能被整合进其他类型的模型和架构，从而开发出更强大的 AI 系统。

靠谱客附上参考地址

nGPT: Normalized Transformer with Representation Learning on the Hypersphere

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，靠谱客所有文章均包含本声明。

点赞(124)

本文分类：人工智能

相关文章

消息称智驾供应商地平线将在香港 IPO，以最高发行价筹资 6.96 亿美元

消息称智驾供应商地平线将在香港 IPO，以最高发行价筹资 6.96 亿美元

英伟达股价再创历史新高，市值超 3.5 万亿美元直逼苹果

英伟达股价再创历史新高，市值超 3.5 万亿美元直逼苹果

消息称 Nvidia App 现代化控制面板将随 RTX 50 系列显卡正式发布

消息称 Nvidia App 现代化控制面板将随 RTX 50 系列显卡正式发布

索泰否认印尼工厂已量产 RTX 5090：网传视频中的显卡实为 RTX 4070 Ti Super

索泰否认印尼工厂已量产 RTX 5090：网传视频中的显卡实为 RTX 4070 Ti Super

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

微软携手英伟达“撒钱”，海量 AI 资源助推医疗、健康领域突破

微软携手英伟达“撒钱”，海量 AI 资源助推医疗、健康领域突破

（更新：消息人士称并非 RTX 5090）一印度尼西亚峇淡工厂首批显卡开机过测

（更新：消息人士称并非 RTX 5090）一印度尼西亚峇淡工厂首批显卡开机过测

微软 219 亿美元大订单在望，美国陆军要求 IVAS 头显单价低于 8 万美元

微软 219 亿美元大订单在望，美国陆军要求 IVAS 头显单价低于 8 万美元

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部