最新大语言模型推理测试引众议,DeepSeek R1 常常在提供错误答案前就“我放弃”了??
Cursor 刚刚参与了一项研究,他们基于 NPR 周日谜题挑战(The Sunday Puzzle),构建了一个包含近 600 个问题新基准测试。
这些谜题特点是很好理解,不需要专业知识就能看懂,然鹅解决起来却没那么容易。
举个栗子:
想一个熟悉的五个字母、两个音节的单词。将中间字母改为字母表中该字母前面的字母,你将得到一个熟悉的五个字母、三个音节的单词。这个单词是什么?
标准答案是 alpha → aloha,很容易验证。
但这样的题,即便是在美国长大讲英语的成年人,五天也很难解出来。
研究人员用此最新基准,对 OpenAI o1、OpenAI o3-mini、DeepSeek R1 和 Google Gemini Flash Thinking 等模型进行测试,结果发现这些最新一代的推理模型解决这样的谜题也很具挑战性。
他们还表示,研究揭示了一些新的模型“故障”模式,这在现有的基准测试中并不明显。
比如 DeepSeek R1 会在推理过程中直接放弃,然后给一个它明知是错误的答案,有时还会陷入“无限思考”状态。
具体来看看是怎么回事。
周日谜题挑战数据集
NPR Sunday Puzzle Challenge,是美国一档广播智力游戏节目,自 1987 年以来一直在播,每周日听众都会收到一个简短谜题。
这些谜题通常涉及字母游戏,只需要普通的英语知识和美国文化常识就能理解。
不过每个谜题通常只有一个或极少数正确答案,题目难度各异,即便听众有整整五天的时间思考,有时最后也只有少数听众能想出正确答案。而当答案揭晓时,听众们都会恍然大悟觉得这个答案既正确又优雅。
最近,来自韦尔斯利学院、得克萨斯大学奥斯汀分校、查理大学、Cursor、欧柏林学院、美国东北大学的研究团队,从网上抓取了 13 年的周日谜题挑战记录构建了一个数据集。
他们认为,目前一些最新基准测试用非常难的任务评估模型,比如大学级数学竞赛问题、编程问题以及需要在学术领域深入的领域专业知识问题,这种设计不仅对人类来说难以解决,而且也非常难以理解和验证。
也就是说,大多数人或无法检查答案是否确实正确,或无法验证模型在推理上是否正确且有效。
于是,他们从这个节目的“off-air challenges”中整理出了近 600 个问题作为测试数据集。
这些题目很好理解且便于验证。
在整理过程中,他们补充了必要的上下文信息(时间、地点等),比如在一个关于电影名称的谜题中,特意标注了具体年份,避免歧义。
电影 Wild Wild West 的首字母缩写是三个 W。请问
去年2013 年哪部著名电影的首字母缩写有两个 W?标准答案:The Wolf Of Wall Street
为确保每个问题的答案清晰明确,大多数挑战都有一个或少数几个独特答案,像下面这样婶儿有许多答案的问题都被 pass 掉了:
然后团队用该基准评估了一众顶流推理模型,包括 OpenAI o1、o1-mini、o3-mini,DeepSeekR1、谷歌 Gemini 2.0 Flash Thinking Experimental01-21,作为对照,还测试了不具备推理功能的 GPT-4o 和 Claude Sonnet 3.5。
测试采用 zero-shot prompting,直接向模型提供问题,不给任何额外的格式说明或指导。
不过有些谜题题目本身自带示例说明:
SWITZERLAND(瑞士)的字母可以重新排列成 LIZARD(蜥蜴)和 NEWTS(蝾螈)两个单词,LIZARD 是一个动物的单数形式,而 NEWTS 是复数形式。请再说出另一个具有相同特性的国家。即另一个其字母可以重新排列来拼写两种动物 —— 一个单数和一个复数的国家。它是一个主要国家。这个国家是哪一个?
标准答案:Mexico(墨西哥) → ox(牛),mice(老鼠)
团队给出的最终测试结果却出人意料。
根据下图该基准的平均准确率,OpenAI o1 表现最优,准确率为 59%;然后是 o3-mini,准确率为 47%,DeepSeek R1 准确率为 35%。
不具备推理功能的 GPT-4o 和 Claude Sonnet 3.5 明显不如推理模型。
出人意料的点在于,在博士级科学问题 GPQA 基准上,DeepSeek R1、OpenAI o1 和 o3-mini 的表现差距不大,然而在该基准上 o1 在通用知识方面却显示出明显的优势。
团队还观察到一些新的模型“故障”模式 —— 推理半道“I give up”。
这种放弃表现出两种形式,一种是给出一个在推理过程中完全没有出现过的“凭空”答案。
另一种是明知违反问题约束但仍然给出答案,常发生在下面这种问题中:
想一个包含三个音节的八个字母的单词,每个音节中都包含字母“I”,但奇怪的是,没有一个“I”发音,无论是长音还是短音。答案不是复数形式。这个单词是什么?
标准答案:Daiquiri
以 DeepSeek R1 为例,它给出了“queueing”这个答案,并直接表示这个答案“有点牵强”,还解释有些人可能会把“queueing”发音为“kyoo-ee-ing”。
团队表示,在 595 个测试问题中,DeepSeek R1 在 142 个问题上明确“放弃”。
此外,他们还发现 R1 等会陷入“无限思考”的状态,在达到 32768token 上下文输出限制前无法完成推理,并没有 </think>。
特别在以下两个挑战中 R1 表现不佳,在 10 次试验中有 5 次未能完成推理。
即使将限制提高到 128K,这个问题仍然存在,由此,团队认为 R1 需要某种推理时机控制机制,鼓励模型在接近输出 token 限制时结束推理。
研究人员还发现,这些推理模型有时会表现出异常的不确定性,可能会提出一个答案,马上又收回,然后尝试给出新答案。
在某些情况下,模型很早就找到了正确答案,但仍会继续探索其它可能性。
最后团队分析了推理长度与准确率的关系,发现在输出约 10000 个 token 后,继续推理对提升准确率的帮助不大。
对于 R1 来说,在输出约 3000 token 时就开始超过 Gemini Thinking 的表现。
新基准引发网友热议
这项研究发布后,在 Hacker News 上引起网友热烈讨论。
其中最具争议的一个点在于,有网友认为这项研究并非传统意义上的“推理”挑战:
解决这些问题所需的核心技能似乎是知晓“流行品牌名”或“知名演员”等类别的所有已知名称,检查它们是否符合。
作为人类,你可能会因为不知道某个特别名称而永远无法回答某个问题,例如不是美国人,我不知道“Citgo”是什么,我这辈子从未见过这个名。
网友表示这的确是一个 AI 系统原则上可能真正擅长的事情,但当测试内容过于侧重“记忆回忆”时,把它称为“推理”似乎很奇怪。
如果问题是多项选择的,消除了让候选答案浮现在脑海中的挑战,那么我会同意这是一个“推理”测试。
持此观点的网友不在少数。
我有同样的想法。这让我想起解决 Project Euler 问题,通常存在一种明显的简单方法可以保证得出正确答案,但如果执行到完成,将消耗过多的内存 / 计算资源。如果提示模型制定一种有效解决这些挑战的策略,而不是直接解决它们,模型的表现可能会好得多…… 这表明了一个潜在的改进方向。
另外,针对模型表现不一,也有网友提出能否确定这些谜题和答案没被加到模型的训练数据中的疑问。
聚焦到研究结果上,网友对研究中的发现很感兴趣:
有趣的是,模型在推理中经常包含正确答案,但却没能意识到这一点。
数草莓问题中“r”这一问题也再被网友搬出,有网友认为模型表现不佳的关键还是在分词器上。
对于这项研究你怎么看?
论文链接:https://arxiv.org/abs/2502.01584
测试结果和数据集:https://huggingface.co/spaces/nuprl/verbal-reasoning-challenge
参考链接:https://news.ycombinator.com/item?id=42992336
本文来自微信公众号:量子位(ID:QbitAI),作者:西风
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。