AMD发布AI小语言模型：6900亿token、推测解码提速3.88倍AMD发布首个小语言模型，增强企业部署灵活性

2024-10-10 03:06 272 阅读 0 评论 180 点赞

AMD推出小语言模型，赋能企业个性化部署

AMD发布首个小语言模型，增强企业部署灵活性

近日，AMD推出了其首个小语言模型（SLM），名为“AMD-135M”。相较于体积庞大的大语言模型（LLM），AMD-135M更加小巧灵活，并具备针对性，非常适合具有高私密性和专业性的企业部署。

AMD-135M小语言模型概览

AMD-135M小模型属于Llama家族，共有两个版本：

基础型AMD-Llama-135M：拥有6700亿个token，在八块Instinct MIM250 64GB加速器上训练六天。
扩展型AMD-Llama-135M-code：额外增加了200亿个针对编程的token，在相同硬件上训练四天。

推测解码：提升性能，降低内存占用

AMD-135M小模型采用了一种称为“推测解码”的方法。该方法通过较小的草稿模型，在一个前向传播中生成多个候选token，然后发送给更大的、更精确的目标模型进行验证或纠正。这种方法允许同时生成多个token，而不影响性能。此外，它还可以降低内存占用，但由于数据交易量增加，功耗也会随之增加。 AMD利用AMD-Llama-135M-code作为CodeLlama-7b的草稿模型，测试了推测解码的使用效果。

在MI250加速器上，性能提升最高可达2.8倍。
在锐龙AI CPU上，性能提升最高可达3.88倍。
在锐龙AI NPU上，性能提升最高可达2.98倍。

开源资源，促进模型开发

AMD-135M小模型的训练代码、数据集等资源均已开源，遵循Apache 2.0协议。企业和开发者可以根据自己的特定需求和应用场景进行定制和优化。

性能与其他小语言模型的对比

根据AMD的说法，AMD-135M小模型的性能与其他开源小语言模型基本相当或略有领先。在某些任务上，如Hellaswag和SciQ，它甚至超过了Llama-68M和LLama-160M。而在Hellaswag、WinoGrande、SciQ、MMLU和ARC-Easy等其他任务上，其性能与GTP2-124MN和OPT-125M类似。 AMD-135M小语言模型为企业提供了灵活且强大的工具，可以根据其独特需求和业务目标进行定制化部署。其开源特性和与其他模型类似的性能，使其成为企业探索人工智能和语言处理应用的理想选择。

（举报）