
新智元报谈 剪辑:剪辑部 JZs 【新智元导读】LLM作念数学题,并非靠真确推理,而是靠牵记?最近,普林斯顿、谷歌等研究者详备解剖了o1-mini等模子作念数学题的进程,发现它们靠的是记!最实锤的笔据之一,等于题目明明如故调动了条款,模子却依然给出了原题的谜底。 破案了! 就在刚刚,来自普林斯顿和谷歌的研究者发现—— 大模子作念数学题,不是靠推理,而是靠从西席集里记下的解题手段! 论文地址:https://arxiv.org/abs/2502.06453 这「未解之谜」一直困扰着不少业内东谈主

新智元报谈
剪辑:剪辑部 JZs
【新智元导读】LLM作念数学题,并非靠真确推理,而是靠牵记?最近,普林斯顿、谷歌等研究者详备解剖了o1-mini等模子作念数学题的进程,发现它们靠的是记!最实锤的笔据之一,等于题目明明如故调动了条款,模子却依然给出了原题的谜底。
破案了!
就在刚刚,来自普林斯顿和谷歌的研究者发现——
大模子作念数学题,不是靠推理,而是靠从西席集里记下的解题手段!
论文地址:https://arxiv.org/abs/2502.06453
这「未解之谜」一直困扰着不少业内东谈主士:在数学上,LLM到底是学会了举一反三,照旧仅仅学会了背题?
张开剩余95%之后,,但网上就少见据围聚调换类型的题目,让这一问题显得愈加扑朔迷离。
此次华东谈主研究团队带来了新进展,推出了全新的MATH-Perturb测试基准,测试AI泛化能力到底奈何。
跟着LLM在MATH、OlympiadBench和AIME上连破记录,这让东谈主们看到了AI在数学领域的广阔后劲。
「数学天才」头脑的背后,模子是真的模子连络了数学常识、掌合手了推理精髓,照旧仅仅名义上的「牵记游戏」?
若是模子在西席时交游到了与测试集相似的题目,那它在测试中的高准确率可能就有「水分」,很可能仅仅记着了谜底,而非真确连络了解题念念路。
就像一个学生,靠死记硬背记着了教材上的例题谜底,一朝考试题目稍有变化,就不知谈奈何下手。
研究东谈主员选用零样本念念维链(zero-shot chain-of-thought)的方法,对18种不同类型的LLM进行了全面测试。这些模子涵盖了长念念维链模子、闭源大模子、开源小模子以及数学专用模子等。
在MATH-P-Hard数据集上,测试的悉数模子王人遇到了「滑铁卢」,准确率广博裁汰了10%-25%,包括 OpenAI的GPT-4/o1系列、谷歌的Gemini系列以及Deepseek-math、Qwen2.5-Math等模子。
著作的主要终了如下:
对18个LLM的数学推理能力进行了基准测试,终了骄横悉数模子,包括o1-mini和Gemini-2.0-flash-thinking,在MATH-P-Hard上的性能显耀下落(10%-25%)。这标明这些模子偏向于原始推理模式的漫步,何况濒临硬扰动的问题时,会受到漫步外效应的影响。
对失败模式分析的深入分析,并发现了一种新的牵记体式,即模子从西席围聚牵记了解题手段,并在不判断修改后的配置是否仍然适用的情况下盲目应用这些手段。
由12位研究生级别的众人商量、打算并构建了 MATH-P-Simple(浮浅扰动)和 MATH-P-Hard(硬扰动)两个数据集,自MATH数据集的第5级(最难)问题。
对18个LLM的数学推理能力进行了基准测试,终了骄横悉数模子,包括o1-mini和Gemini-2.0-flash-thinking,在MATH-P-Hard上的性能显耀下落(10%-25%)。这标明这些模子偏向于原始推理模式的漫步,何况濒临硬扰动的问题时,会受到漫步外效应的影响。
对失败模式分析的深入分析,并发现了一种新的牵记体式,即模子从西席围聚牵记了解题手段,并在不判断修改后的配置是否仍然适用的情况下盲目应用这些手段。
由12位研究生级别的众人商量、打算并构建了 MATH-P-Simple(浮浅扰动)和 MATH-P-Hard(硬扰动)两个数据集,自MATH数据集的第5级(最难)问题。
这不由得让东谈主想起之前苹果研究者的一篇广为流传的论文。
论文地址:https://arxiv.org/abs/2410.05229
他们发现,给数学题换个皮,LLM本来会作念的数学题,就忽然不会了!
「当索菲照应她侄子时,她会为他拿出多样各类的玩物。积木袋里有31块积木。毛绒动物桶里有8个毛绒动物。堆叠环塔上有9个姹紫嫣红的环。索菲最近买了一管弹性球,这使她为侄子准备的玩物总和达到了62个。管子里有些许个弹性球?」把这谈题中索菲的名字、侄子的称谓、玩物的具体数量调动,模子就作念不合了
只修改了题目中的罕见名词,LLM的阐扬就昭着出现了漫步均值从右向左的出动,方差加多,也等于说,它们作念题的准确度变低了。
此次普林斯顿、谷歌的这项研究,也再次考证了这篇论文的不雅点:LLM对数学题的推理能力,有水分。
MATH-Perturb:数学推理能力的「试金石」
为了更准确地评估LLM的数学推理能力,研究东谈主员推出了MATH-Perturb基准测试,用来训练模子在濒临不同难度扰动时的阐扬。
这个基准测试包含两个部分:MATH-P-Simple和MATH-P-Hard,题目均来自MATH数据围聚难度最高的5级问题。
在构建数据集时,研究东谈主员邀请了12位具有深厚数学布景的数学大佬来担任注视者。
关于MATH-P-Simple,注视者进行的是浮浅扰动,对原问题进行一些非本色的修改,举例调动问题中的数值、变量称号或表述样式,但不调动问题的基本推理模式妥协题方法。
比如,原问题是求函数
的值域,经过浮浅扰动后,变成求
的值域。诚然题目有所变化,但解题的中枢念念路照旧通过因式剖判和分析函数特质来求解。
MATH-P-Simple和MATH-P-Hard的标注进程
硬扰动(MATH-P-Hard)则是对原问题进行小而关键的修改,这些修改会导致原有的解题方法不再适用,需要应用更高等的数学常识和更复杂的推理手段来措置。
不异以函数值域问题为例,硬扰动后的问题可能变成求
的值域,这时就需要应用柯西-施瓦茨不等式等更复杂的数学常识来求解。
竟然,这么修改后,LLM就显现马脚了!
它们并莫得发现,原先我方学会的解题手段,并不适用于修改后的数学题,而是不时盲目套用。
比如这谈题中,数学题中具体条款调动后,模子仍然选用了原先的解法,最终天然就得出了不实的谜底。
(更多具体情况,参见实验终了)
此外,研究东谈主员还效劳了两个紧要原则。
「最小修改」原则要求注视者尽量减少对原问题的修改,这么能在保持问题体式邻近的情况下,测试模子的泛化能力。
「谜底调动」原则保证修改后的问题谜底与原谜底不同,拒接模子平直输出牵记中的谜底,确保终了真实可靠。
构建完数据集后,研究东谈主员对每个扰动后的问题进行了仔细查验,确保问题的表述明晰、准确,何况谜底正确。
扰动问题与原始问题之间的归一化剪辑距离和镶嵌向量余弦相似度漫步情况如下图所示。
详备终了
研究东谈主员选用零样本念念维链行为在基准测试中的尺度评估方法。
为了进行对比,还会在原始的279个问题集上对模子进行评估,以下末节中将其称为「原始」(Original)。
测试不允许使用任何器用,包括走访代码讲解器,因为发现好多问题不错通过编写暴力搜索方法粗放措置。
为了查验生成的谜底是否与真实谜底相匹配,选用了等价性查验方法:最初进行字符串标准化,然后使用sympy包查验两个数学对象的等价性。
LLM的基准测试性能
洽商了多种谈话模子,包括长念念维链(long-CoT)模子、闭源的大型模子、开源的微型模子以及异常针对数学的模子。其中具体分类如下:
长念念维链(long-CoT)模子:o1-preview,o1-mini,Gemini 2.0 flash thinking
闭源模子:GPT-4o,GPT-4 Turbo(Achiam等,2023),Gemini 1.5 Pro,Gemini 2.0 flash,Claude 3.5 Sonnet,Claude 3 Opus(Anthropic, 2024)
开源通用模子:Llama 3.1,Gemma 2,Phi-3.5
数学专用模子:MetaMath,MAmmoTH2,Deepseek-Math,Qwen2.5-Math,NuminaMath,Mathtral
长念念维链(long-CoT)模子:o1-preview,o1-mini,Gemini 2.0 flash thinking
闭源模子:GPT-4o,GPT-4 Turbo(Achiam等,2023),Gemini 1.5 Pro,Gemini 2.0 flash,Claude 3.5 Sonnet,Claude 3 Opus(Anthropic, 2024)
开源通用模子:Llama 3.1,Gemma 2,Phi-3.5
数学专用模子:MetaMath,MAmmoTH2,Deepseek-Math,Qwen2.5-Math,NuminaMath,Mathtral
下表深切了LLM在原始问题集、MATH-P-Simple和MATH-P-Hard上的举座准确率,并分别经营了来自西席集和测试集的准确率。
如预期的那样,评估的悉数模子在MATH-P-Hard上的阐扬显耀低于原始问题集,标明MATH-P-Hard愈加艰巨。
同期,相较于原始问题集,大大宗模子在MATH-P-Simple上的阐扬也略有下落。
作家良好到,性能下落主要来自西席集。即便测试样本与西席问题具有调换的推理模式,起始进的模子也仍然存在泛化舛误。
关于来自测试集的问题,守望情况下,原始问题和MATH-P-Simple修改版,对模子来说应当是不异「从未见过」的。
根据表1中的实考笔据,不雅察到不同的终了:多个模子性能下落朝上了5%;不外,令东谈主诧异的是,Phi-3.5-mini-instruct的阐扬反而有所进步。关于评估的大大宗模子,MATH-P-Simple测试集的准确率接近原始测试集的准确率。
值得一提的是,尽管已有研究发现经过修改的基准与原始基准之间,模子的性能下落幅度为58%到80%(测试的最好模子是GPT-4),但在此次评估的模子中并未不雅察到如斯广阔的差距,这标明新设备的模子在嘱咐浮浅扰动时的鲁棒性有所进展。
LLM零样本念念维链性能准确率:「Orignal」指的是未修改的279个问题集。关于train列和test列,分别深切来自西席集和测试集的问题的准确率
推理技能推广。已有研究标明,推广推理技能经营不错提高LLM的性能。将推理技能推广到基准测试的终了。
关于每个问题,独处生成N个解答,并通过以下公式经营每个1≤k≤N的pass@k观点:
其中c是n次运转中正确谜底的数量。
此外,还经营了自一致性,即大宗投票法的阐扬。关于每个k,从N次运转中随即抽取k个回应,并得到大宗投票的谜底。
下图深切了5次随即抽样的平均值和尺度差。关于Llama-3.1-8B-Instruct和Qwen2.5-Math-7B-Instruct,配置N = 64,而关于o1-mini,配置N = 8。
推广推理技能经营的效率
LLM作念数学题,会因为什么而失败
为了研究模子在濒临 硬扰动时的泛化能力,作家围聚分析了那些在MATH-P-Hard修改版中的失败案例。
但要良好:总问题中的20%-47%,模子至少能正确措置原始问题或MATH-P-Simple修改版。
关于这些问题,不错使用较容易问题的正确解行为参考,更好地笃定模子在艰巨问题中的失败模式。
最初,不雅察到当模子濒临更难的问题时,广博存在一些失败模式。这些不果然较弱的模子中阐扬得尤为隆起。
具体来说,模子可能忽略修改后的假定,不实地假定原始假定仍然诞生。
举例,参见图5中的示例。原问题为:
问题:十个东谈主围坐在一张圆桌旁。随即抽取其中三个东谈主作念演讲。被选中的三个东谈主坐在一语气座位上的概率是些许?
问题:十个东谈主围坐在一张圆桌旁。随即抽取其中三个东谈主作念演讲。被选中的三个东谈主坐在一语气座位上的概率是些许?
修改后,问题变难了:
十个东谈主围坐在一个圆桌旁,随即遴荐三个东谈主以特定次第进行演讲。问这三个东谈主中,第一个和第二个演讲者坐在一语气座位上,何况第二个和第三个演讲者也坐在一语气座位上的概率是些许?
十个东谈主围坐在一个圆桌旁,随即遴荐三个东谈主以特定次第进行演讲。问这三个东谈主中,第一个和第二个演讲者坐在一语气座位上,何况第二个和第三个演讲者也坐在一语气座位上的概率是些许?
模子并莫得矫健到问题如故调动,本来的推理方法不再有用。然后按照本来的推理模式进行推理,给出了原题的谜底——1/12。
而试验上,正确谜底是应该是1/36。
作家手动进行了20次重迭发现Claude-3.5-Sonnet的通过率为50%。在不实中,30%是由于上述牵记问题变成的。
牵记化与不实推理蚁合的示例
在其他情况下,模子可能盲目地应用原始问题的解题手段,而莫得最初判断这些手段在修改后的问题环境中是否仍然适用(图1中的回应等于由GPT-4o生成的一个例子)。
真谛的是,模子致使可能输出原始问题的预期终了(并未在高下文中提供),而不是修改版问题的终了。
比如上头这谈题吧,原题是若是
并找出悉数餍足条款的整数n。
而调动后的题将条款替换为
并要求找出餍足条款的最小整数n。
终了在这种情况下,模子给出的谜底却是悉数整数值(10和13),而非最小整数值(10)。
诶,这是模子背谜底实锤了?
要知谈,这种牵记化行为关于大大宗现存文件中的扰动类型来说是难以捕捉的,因为这些扰动并不需要不同的解题政策。
模式崩溃
研究东谈主员还温雅了模式崩溃(pattern collapse)带来的影响。
模式崩溃是指模子无法远隔扰动后的问题和原问题,导致回应与原问题谜底调换。
在MATH-P-Hard数据围聚,除了少数几个模子外,模式崩溃的情况在总不实中的占比不到10%。
这标明,模子在濒临硬扰动问题时,诚然可能会出现多样不实,但大宗情况下照旧约略矫健到问题的变化,而不是浮浅地重规复谜底。
但是,东谈主工查验发现,模子的输出常常不是浮浅地重规复谜底,而是在推理进程中出现了一些深重的不实,举例忽略或诬蔑修改后的假定。
高下体裁习
高下体裁习是指模子在推理时利用原问题和谜底行为示例来补助解题。
在MATH-P-Simple数据集上,使用原问题和谜底行为高下体裁习示例,简直能进步悉数模子的性能。
这是因为MATH-P-Simple问题不错通过平直应用原解题门径来措置,原问题和谜底的示例能提供有用的陈迹。
但是,在MATH-P-Hard数据集上,高下体裁习的效率则较为复杂。
诚然原谜底中的数学常识偶然约略匡助模子措置修改后的问题,但由于原问题和MATH-P-Hard问题之间存在深重的各别,模子也容易被原谜底误导,导致不实加多。
总体来看,高下体裁习在MATH-P-Hard上的效率并不睬想,进步幅度相当有限。
LLM在濒临硬扰动问题时,阐扬出昭着的局限性,好多不实源于模子对解题手段的盲目牵记,而枯竭对问题本色的连络。
总之,这项研究骄横,悉数模子在复杂扰动MATH-P-Hard 上的阐扬均有所下落,而且好多不实王人是源于一种新的牵记体式——
模子从西席围聚记着了解题手段,然后在题目调动条款后,并不判断是否适用,而盲目应用这些手段。
这证实,诚然大大宗LLM在数学推理方面得到了一定的收货,但距离真确连络和掌合手数学常识还有很大的差距。
不外最近,谷歌DeepMind拿下IMO金牌的AlphaGeometry,初度破解了2009年IMO最难几何题G7。
在进程中,它给出了惊天动地的惊东谈主解法——
利用关键的补助作图(图中的红点),就只需求「角度」和「比例推导」。
是以开云体育,o1-preview、o1-mini、GPT-4o、Deepseek-Math等模子,在解数学题上和AlphaGeometry究竟出入多远呢?
发布于:北京市