OpenAI神秘模型「草莓」两周内上线？数学推理暴涨，月收费200刀已有人付费

2024-09-16 11:50 240 阅读 0 评论 159 点赞

声明：本文来自于微信公众号新智元，作者：新智元，授权热心网友转载发布。

就在刚刚，The Information曝出:OpenAI的草莓将于两周内上线!收费疑似200刀一个月，最大的特色就是比其他模型多思考10到20秒。然而因为「狼来了」太多回，网友们忍不住吐槽:OpenAI现在就是个炒作公司。

最新消息，「草莓」将在两周内发布!

这一消息由外媒The Information曝出，据称是两位已经测试过草莓模型的人士透露的。

发布时间比此前报道的秋季要早。

草莓跟其他模型的最大区别是啥呢?

答案是，更智能，但更慢、更贵。

而知名爆料人Jimmy Apples的说法是，一个模型（可能被称为GPT-4.5）预计会在十月发布。

与此同时，GPT-5很可能会在12月发布，但保险起见，说2025年第一或第二季度发布，是比较稳妥的。

在9月3日，Jimmy Apple还曾经艾特Sam Altman，戏谑地问道:「我耳边的低语是真的吗?我们终于要在十月做一些事了吗?」

根据Jimmy Apple的说法，需要耐心的时代已经过去，现在，我们迎来了发布的季节。

而AI大V「数字生命卡兹克」表示，自己的朋友发现ChatGPT Pro会员已经上线了，售价200美元每月。

他们推测，ChatGPT Pro会员，或许就是为即将上线的草莓而准备的。

不过根据此前的爆料，草莓本身的目的，似乎是为OpenAI的下一代大模型猎户座生成更高质量数据。

因此也有人说，我们不必对草莓抱以过高期待。

草莓，比我们预期的更早?

据悉，两位已经测试过草莓模型的人士透露，OpenAI计划在两周内将其作为ChatGPT服务的一部分发布。

而在原先，The Information报道的发布时间是在秋季。

这一次，报道中透露了一些新细节。

首先，虽然草莓是ChatGPT的一部分，但它是一个独立的产品。

目前还不清楚它将如何推出，一种可能是将其包含这种驱动ChatGPT的AI模型的下拉菜单中，根据两位人士的说法。

这就会让草莓跟常规的服务有很大不同。

第二点，草莓和其他对话式AI最大的区别，就是它在响应之前会思考10到20秒，然后才回答问题。

多个网友现身说法，表示自己上周发现ChatGPT返回某个响应时需要10秒才能加载，或许OpenAI已经在进行a/b测试了。

第三点，草莓的初始版本目前只能接收和生成文本，而不能处理图像，这也就意味着，它尚未像OpenAI的其他模型一样实现多模态功能。

因为如今发布的大多数LLM都是多模态的，这个缺陷对比之下就很显著。

最后，就是定价问题了。

现在OpenAI的聊天机器人有免费的，也有分等级的订阅价格。

草莓可能会有低价位和高价位的两档，前者会有速率限制，并且限制用户每小时的最大消息数量;而更高价位的版本，响应的速度也会更快。

这种安排，当然也是希望让更多用户为新模型付费，就像此前OpenAI限制ChatGPT免费用户消息数量一样。

草莓会怎样收费呢?

根据The Information此前的爆料，每月50、75、200、2000刀似乎都有可能。

一位知情人士称，在OpenAI早期的内部讨论中，订阅价格曾高达每月2000美元，但并未最终确定

如今看来，200美元/月的定价应该是没跑了。

来源:数字生命卡兹克

The Information还预测，目前为ChatGPT付费（每月20美元）的客户，会比免费用户更早访问首个草莓模型。

处理复杂问题更拿手

据悉，草莓会比GPT-4o更擅长复杂的问题，或多步骤查询。

目前，如果用户想在ChatGPT中得到理想的答案，往往还需要输入各种格外的prompt。

比如用「连贯思维提示」，让ChatGPT通过中间推理步骤来得出答案。

而草莓可能会避免这种麻烦，让用户一步得到结果。

这也就意味着，草莓不仅在数学和编码问题上会更好，还会更擅长主观的商业任务，比如头脑风暴一个产品营销策略。

爆料人表示，草莓的思考步骤，会避免它出错。

而多思考的那十秒到二十秒，会让它更可能知道，何时要向客户询问后续问题，来完成对他们的解答。

多思考20秒是鸡肋?

然而两位人士透露，OpenAI还需要再解决一些问题。

比如，理论上讲，草莓应该能够在用户提出简单问题时，跳过其思考步骤。然而在实际应用中，模型并不总是这样。

它可能会错误地花费过多时间，来回答那些其他OpenAI模型很快就能回答的问题。

用过草莓模型的人抱怨说，跟GPT-4o相比，草莓的回复只是稍稍更好一些，但并没有好到值得用户去等10到20秒。

另外，OpenAI希望迎合用户的这一特定偏好:在回答新问题前，草莓会记住并且整合与用户先前的聊天记录。

这个细节非常重要，比如如果用户希望软件代码以某种格式书写的时候，这种能力就非常有用。

然而令人沮丧的是，草莓并不总是能做到这一点。

网友吐槽:还要挤多久?

冷知识:距离OpenAI发布GPT-4，已经过去了一年零六个月。而新模型的影子，至今还没看到。

OpenAI的草莓，来来回回炒作了好几遍。狼来了的故事来了太多次，网友们都快麻了。

别家都是要发模型就干脆利落地发，只有它把同一个话题来回来去地炒，就是不发真东西。

奥特曼之前晒出花园里的草莓照，就曾一度引起轩然大波，然而最终却无事发生，这种「谜语人」的操作难免令人生厌。

现在提起OpenAI，很多群众的第一反应就是——

没错，它已经逐渐沦为「炒作」的代名词。

更有网友做出梗图，调侃道:OpenAI发布新模型的姿势是这样的——

这样的——

以及这样的——

本来在大模型领域，OpenAI是遥遥领先的领导者。但如今，竞争者们早已后来居上了。

上个月，谷歌就推出了AI语音助手，能够灵活处理用户的突然中断和话题变化。

要知道，OpenAI在五月就首发了「Her」的功能，然而这个语音助手GPT-4o Voice随后却推迟了发布，原因是OpenAI在提高安全措施，确保模型拒绝不当内容。

如今正值草莓模型的发布前期，可能OpenAI也在做类似的准备。

而最令人失望的一点其实是，跟前两年的如火如荼相比，今年OpenAI的发展似乎已经停滞了。

与此同时，模型的计算量、参数大小、数据集大小，都纷纷遭遇瓶颈，开源模型和闭源模型的能力也在逐渐缩小。

是不是因为没有不够的GPU，所以我们现在依然离AGI如此遥远?

如何破局?用RL

打破瓶颈的方法，如今各家都走到了同一路径——Self-play RL。

在LLM领域，自我博弈理论看起来就像是AI反馈

Claude3.5就是基于Self-play RL做出的，因此代码能力强到突出。

而我们都知道，草莓有一个重要作用，就是给下一代大模型合成数据，这里面有个前提，就是它同样是基于新范式Self-play做出的。

很多LLM的弱点就在推理能力上，而有些初创公司为了提高它们的推理能力，就采用了一种廉价的技巧，将问题分解为更小的步骤，尽管这些方法速度慢且成本高昂。

AlphaGo就是通过Self-play学习，击败了李世石

在草莓中，我们也看到了类似的思路。

用Self-play RL去验证，自然就能让草莓的数学和代码能力上飞速暴涨。

同样，付出的代价就是极高的推理成本，导致它又贵、又慢。

但得到的结果，是极高的智能，或许启发我们通往AGI的路线，就靠草莓这种思路了。

说起来，「草莓之父」，其实就是已经离职了的OpenAI的首席科学家Ilya Sutskever。

据悉，OpenAI的一些人认为Q*可能是OpenAI在AGI上取得的一个突破

在Ilya离职之前，OpenAI的研究人员Jakub Pachocki和Szymon Sidor，在Ilya的工作基础上开发了一个新的数学求解模型Q*。

据称，Q*解决的此前从未见过的数学题。

Ilya做出的突破，使OpenAI不再受限于获取足够的高质量数据来训练新模型，而这，正是开发下一代模型的主要障碍。

另外，在去年Q*的前期准备中，OpenAI研究人员开发了一种被称为「测试时计算」的概念变体，目的是提升LLM的问题解决能力。

这样，LLM就会花更多时间考虑被要求执行的命令，或问题的各个部分。

当时，Ilya发表了一篇与这项工作相关的博客，展示了模型如何解决了数个极有难度的数学问题。

比如在下面这道题中，GPT-4成功执行了一系列复杂的多项式分解。

基于这类技术做出的草莓，虽然更贵、更慢，但数学和推理的进步无疑是惊人的。

或许对于普通用户，它未必是一个更值得付费的产品。

但对于需要高阶能力的场景，草莓会更有发挥的余地。

大佬猜测:谷歌DeepMind论文疑似揭示方法

有趣的是，Menlo风投负责人、前谷歌搜索工程师Debarghya Das发推称:Google DeepMind在最近一篇论文中提出的方法，可能就是OpenAI在Strawberry上用的。

论文提出，让LLM进行更多的「测试时计算」（test-time computation），对于构建能在开放语境下操作、能实现自我提升的agent，是关键的一步

而这篇论文就重点研究了扩展「推理期计算」（inference-time computation）这个问题。

如果允许LLM使用固定但非平凡量的推理期计算，它在应对具有挑战性的提示词时，可以有多少性能提升?

这个问题不仅影响LLM的可实现性能，还关系到LLM预训练的未来，以及如何在推理计算和预训练计算之间进行权衡。

为了回答这个问题，研究团队分析了扩展测试时计算的两种主要机制:（1）针对密集的、基于过程的验证器奖励模型进行搜索;(2)根据测试时得到的提示词，自适应更新模型对响应的分布。

结果显示，在这两种情况下，对测试时计算的不同扩展方法的有效性，很大程度上取决于提示词的难度。

论文地址:https://arxiv.org/abs/2408.03314

基于此，研究团队提出了一种「计算最优」扩展策略——通过为每个提示词自适应地分配测试时计算，使测试时计算的扩展的效率提高4倍以上。

另外，在FLOPs一致的评估中，对于那些较小的基础模型已取得一定程度非平凡成功率的问题，测试时计算可以使其超越规模大14倍的模型。

不过，网友们对这一猜测并不认可。

Topology首席执行官Aidan McLaughlin表示，谷歌DeepMind探讨的是最佳N采样和蒙特卡洛树搜索（MCTS）。

而「草莓」可能会是一个具有特殊token（回溯、规划等）的深度混合模型。它可能会通过人类数据标注者和来自易于验证领域(如数学/编程)的强化学习进行训练。

另一位网友也提出疑问——「草莓」不是一个神经符号模型吗?

对此，Deedy解释道:「根据网上的这些信息和传闻:『草莓』将通过在响应空间中使用搜索技术来改进推理，其推理时间计算为10到20秒。」

而这，正是这项研究所解释的内容。

参考资料:

https://x.com/apples_jimmy/status/1833595024543781088

https://www.theinformation.com/articles/new-details-on-openais-strawberry-apples-siri-makeover-larry-ellison-doubles-down-on-data-centers?rc=epv9gi

https://x.com/deedydas/status/1833539735853449360

https://mp.weixin.qq.com/s/sc5aMSwU9dKd3X4lzTjkIg

（举报）

点赞(159)

本文分类：业界

相关文章

iPhone 16 Pro Max首发！苹果A18 Pro首个跑分出炉：多核成绩跟天玑9300持平

iPhone 16 Pro Max首发！苹果A18 Pro首个跑分出炉：多核成绩跟天玑9300持平

困在贫困大山里的“小英”们，靠苦难全网吸粉百万

困在贫困大山里的“小英”们，靠苦难全网吸粉百万

交个朋友遭遇月饼李鬼将全部退一赔三：停售启动专项调查

交个朋友遭遇月饼李鬼将全部退一赔三：停售启动专项调查

高通激进！骁龙8 Gen4定版：超大核飙至4.32GHz 远高于A18 Pro

高通激进！骁龙8 Gen4定版：超大核飙至4.32GHz 远高于A18 Pro

OpenAI神秘模型「草莓」两周内上线？数学推理暴涨，月收费200刀已有人付费

OpenAI神秘模型「草莓」两周内上线？数学推理暴涨，月收费200刀已有人付费

淘宝挖不来“养家”主播

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放

给我一张脸，视频背景随你换，林黛玉都被清华理工男玩废了｜免费开放

苹果16自愧不如！标价9万的华为三折叠已被多人购买全款拿下

苹果16自愧不如！标价9万的华为三折叠已被多人购买全款拿下

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部