谷歌发布新RL方法,性能提升巨大,o1模型已证明 谷歌DeepMind的研究人员提出了一种创新多轮强化学习方法——SCoRe。多数大模型不具备自我纠错或能力较差,尤其是在数学和代码领域在给出错误答案后,会一直坚持错误答案,影 o1模型 2024年09月27日 129 点赞 110 评论 68 浏览