强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

12天前

机器之心报道 机器之心编辑部 无需依赖外部反馈或额外模型,纯纯的自我纠正。 自我纠正(Self-correction)是大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本 …