4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化 【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现 Llama7B 2024年08月11日 129 点赞 110 评论 77 浏览