乏善可陈的第二届OpenAI开发者大会，果然没有掀起太大波澜

2024-10-09 18:07 290 阅读 0 评论 192 点赞

声明：本文来自于微信公众号机器之心，作者:机器之心，授权热心网友转载发布。

OpenAI宫斗后的 DevDay 开发者大会，没有什么惊喜。

OpenAI 的宫斗大戏刚落下帷幕，今日凌晨就在旧金山召开了第二届 DevDay 开发者大会。

不过，与去年盛大的活动相比，今年略显低调，他们没有推出重大产品，而是选择对其现有的 AI 工具和 API 进行增量改进。

在这次活动中，OpenAI 发布了四大API新功能:视觉微调（Vision Fine-Tuning）、实时 API(Realtime API)、模型蒸馏(Model Distillation)和提示缓存(Prompt Caching)。

这些新工具突出了 OpenAI 的战略转变，即转向赋予其开发者生态系统更多能力，而不是直接在最终用户应用领域竞争。

Sam Altman 也在 X 上表示，从 GPT-4到4o mini，每个 token 的成本降低98%，同时处理 token 的数量暴涨50倍。

最后，Altman 还不忘「鼓舞士气」:通往 AGI 的道路从未如此清晰。

实时 API:构建快速的语音到语音体验

OpenAI 在开发者大会上正式推出实时 API 的公测版，允许所有付费开发者在他们的应用程序中构建低延迟、多模态的体验。

与 ChatGPT 的高级语音模式类似，实时 API 支持使用 API 中已经支持的6种预设语音进行自然的语音到语音对话。这意味着开发者可以开始将 ChatGPT 的语音控制添加到应用程序中。

他们还推出了聊天完成 API（Chat Completions API）中的音频输入和输出功能，以支持那些不需要实时 API 低延迟优势的使用场景。

以前，要创建类似的语音助手体验，开发者需要使用像 Whisper 这样的自动语音识别模型来转录音频，然后将文本传递给文本模型进行推理，最后使用文本到语音模型播放模型的输出。这种方法常常导致情感和口音的丢失，以及明显的延迟。

现在有了聊天完成 API，开发者可以用一个 API 调用来处理整个流程，尽管它仍然比人类对话慢。实时 API 通过直接流式传输音频输入和输出来改进这一点，使得会话体验更加自然。它还可以自动处理中断，就像 ChatGPT 中的高级语音模式一样。

实时 API 本质上简化了构建语音助手和其他会话 AI 工具的过程，消除了将多个模型组合用于转录、推理和文本到语音转换的需要。

例如，一个名为 Speak 的语言学习平台，使用实时 API 来驱动其角色扮演功能，鼓励用户练习用新语言进行对话。

实时 API 使用文本和音频 token 价格也已出炉。

文本输入 token 的价格是每100万个5美元，输出 token 每100万个20美元。

音频输入的价格是每100万个100美元，输出是每100万个200美元。这相当于每分钟音频输入约0.06美元，每分钟音频输出约0.24美元。

对于希望创建基于语音的应用程序的开发者来说，这个价格还是比较公道的。

视觉微调:使用图像和文本微调 GPT-4o

自从 OpenAI 在 GPT-4o 上首次引入微调功能以来，已经有成千上万的开发者使用仅限文本的数据集定制模型，以提高特定任务的性能。然而，在许多情况下，仅对文本进行模型微调并不能提供预期的性能提升。

因此，此次 OpenAI 宣布为 GPT-4o 引入视觉微调功能，允许开发者使用图像和文本来自定义模型的视觉理解能力，从而实现增强的视觉搜索功能、改进自动驾驶汽车或智能城市的物体检测，以及更准确的医学图像分析等应用。

例如，东南亚的一家食品配送和共享出行公司 Grab 已经利用这项技术来改进其地图服务。仅使用100个示例的视觉微调，Grab 在车道计数准确率上提高了20%，在限速标志定位上提升了13%，超过了基础 GPT-4o 模型。

这一现实世界的应用展示了视觉微调的可能性，即使用少量的视觉训练数据，也能显著增强各行各业的人工智能服务。

目前，所有付费用户都可以使用视觉微调功能，直到2024年10月31日，OpenAI 每天为开发者提供免费的100万个训练 token，用于通过图像微调 GPT-4o 模型。

2024年10月31日之后，微调 GPT-4o 模型的费用将是每100万个 token25美元，推理的费用是每100万个输入 token3.75美元，每100万个输出 token15美元。

提示缓存:成本可降低50%

许多开发者在构建 AI 应用程序时会在多个 API 调用中重复使用相同的上下文，比如在编辑代码库或与聊天机器人进行长时间、多轮次的对话时。

今天，OpenAI 引入了提示缓存（Prompt Caching），这是一个旨在降低开发者成本和延迟的功能。

该系统会自动对模型最近处理过的输入 tokens 应用打50% 的折扣，对于频繁重复使用上下文的应用来说，这可能会带来成本的大幅降低。

提示缓存将自动应用于最新版本的 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini，以及这些模型的微调版本。

（来源:OpenAI）OpenAI 在2024DevDay 上公布的定价表显示，AI 模型使用成本大幅降低，缓存输入 tokens 相比未缓存 tokens 在各种 GPT 模型中最多可节省50% 的费用。新的 o1模型展示了其高级功能的溢价定价。

「我们一直很忙，」OpenAI 平台产品负责人奥利维尔・戈德蒙特（Olivier Godement）在公司旧金山总部举行的小型新闻发布会上说，「就在两年前，GPT-3还处于领先地位。现在，我们已经将成本降低了近1000倍。我试图想出一个在两年内将成本降低了近1000倍的技术示例 —— 但我想不到这样的例子。」

这种显著的降成本，为初创企业和企业探索新应用提供了重大机遇，这些应用此前由于成本高昂而无法触及。

模型蒸馏:让小模型拥有尖端模型功能

OpenAI 此次还引入了模型蒸馏（Model Distillation）。这种集成的工作流程允许开发者使用 o1-preview 和 GPT-4o 等高级模型的输出，来提高像 GPT-4o mini 这样更高效模型的性能。