机器学习正在突破摩尔定律，Epoch 最新AI发展趋势预测

2024-07-03 13:10 81 阅读 0 评论 54 点赞

声明:本文来自于微信公众号深思SenseAI（ID:gh_a54fc6d3826c），作者:深思SenseAI，授权靠谱客转载发布。

近日，Epoch AI更新了他们对机器学习远期趋势的研究报告，在计算、数据、硬件、算法、成本等多个维度对人工智能模型趋势进行了深入研究。

Epoch AI是一家研究机构，致力于研究影响人工智能发展轨迹和治理的关键趋势和问题，以造福社会。其报告中的研究结论联合了包括 StandfordHAI 在内的多个学术机构发布，部分研究成果在 ICML 等期刊会议发布，是目前市面上相对权威的趋势预测来源。

01.

计算趋势:

前沿 AI 模型的训练计算量每年增长4-5倍

AI 训练中使用的计算量是 AI 进步的关键驱动因素。Epoch AI 对300多个机器学习系统的分析表明，从2010年到2024年5月，用于训练近期模型的计算量每年增长4-5倍。我们发现前沿模型、近期的大型语言模型以及领先公司的模型也出现了类似的增长。

最先进的 AI 模型发展速度有多快?AI 训练中使用的计算量是 AI 进步的关键驱动因素。Epoch AI 对300多个机器学习系统的分析表明:

自2010年以来，著名 ML 模型的训练计算量每年增长4.1倍。而从1956年到2010年，著名 ML 模型的训练计算量每年增长1.5倍。

对排名前10名的前沿模型进行统计观测:

在2018年前，模型计算量的增长速度快于总体趋势，高达6.7x/年，或许反映了实验室加入 AI 竞赛。

2018年之后，前沿模型的增长放缓至4.2x/年，与总体趋势趋于一致。

语言模型是当今最重要的模型之一。前沿 LLM 在过去十年中经历了快速的计算增长，在 GPT-3（2020年）之后放缓至每年5倍。

领先的人工智能实验室，包括OpenAI、Google DeepMind 和 Meta AI，一直在以与总体趋势相对一致的速度扩展其模型，平均每年增长5-7倍。

每年4-5倍的增长速度是令人难以置信的，需要面临巨大的工程和科学挑战才能维持。训练很快将涉及管理数十万个 GPU 的集群，并使用它们高效地训练更大的模型。

Gemini Ultra 可能是迄今为止计算最密集的模型，其最后一次训练运行的总训练计算量估计为5e25FLOP。

02.

数据趋势

2028年前，人类的文本Token会被消耗殆尽

有多少文本可以用于训练?

Common Crawl（CC）是一个广泛使用的爬取数据存储库，包含超过100万亿个 Token，大约是最大数据集的10倍。

Epoch AI 采用常用于研究搜索引擎的方法来估算索引网站的大小。使用CC等网络语料库计算词频，然后在Google搜索词频不同的单词，并记录每个单词的页面数量。由此计算出索引网络上大概有500万亿个Token，排除掉不适合LLM训练的数据集，最终网络文本库存将下降至100万亿个 Token。

那么何时会耗尽网络上的文本?在大概100T Token上训练一个4个Epochs的模型大概会消耗~5e28FLOP的计算资源，预计比GPT4高出3个数量级（OOMs），根据模型算法的增长速度，大概在2028年会达到这个临界点，如果过度训练，这一时间甚至会更早到来。