北京大学物理学院的施秋、郭少扬、宋卓洋等团队于2025年4月发布了一项开创性研究《PHYBench: 大语言模型物理感知与推理能力的整体评估》。该论文已提交至arXiv预印本平台(arXiv:2504.16074v1),目前正在审核中。研究成果及数据集已公开发布在项目官方网站:https://phybench-official.github.io/phybench-demo/。
物理智能:AI发展道路上的一道坎
想象一下,如果你手里有一个苹果,然后松开手,会发生什么?对我们人类来说,这个问题简直不能再简单了——苹果会掉到地上。我们不需要进行复杂的计算,也不需要回忆牛顿定律的精确表述,就能准确预测物体的行为。这种对物理世界的直觉理解,是我们从小就形成的能力。
但对于大语言模型(LLM)来说,理解物理世界却是一个极具挑战的任务。虽然最先进的AI模型在数学推理和编程等领域已经取得了令人瞩目的成就,甚至能解决奥林匹克难度的问题,但当涉及到物理世界的感知和推理时,它们的表现却远远落后于人类专家。
正是在这样的背景下,北京大学的研究团队开发了PHYBench——一个专门设计用于评估大语言模型物理感知和推理能力的基准测试。这个基准测试不仅能帮助我们了解当前AI模型在物理理解方面的局限性,还为未来AI模型的改进提供了明确的方向。
为什么需要PHYBench?现有基准测试的三大局限
现有的AI评估基准测试存在三个主要问题,这也是PHYBench试图解决的关键挑战:
首先是过度简化的推理任务。随着最新模型能力的迅速提升,现有的基准测试已经变得太过简单,无法有效区分模型之间的真正差异。就像是用幼儿园的算术题去评估大学生的数学能力一样,这些测试已经不足以挑战当前的AI模型。PHYBench则提供了更具挑战性的问题,能够更好地测试模型的真实推理能力和理解深度。
其次是过于抽象的问题设计。许多现有基准测试采用高度抽象的数学问题或特定领域的专业问题,这些问题往往与现实世界脱节。想象一下,知道如何解一个复杂的代数方程和知道如何预测现实中一个物体如何运动是两回事。PHYBench通过锚定在具体的物理场景中,评估模型对实际世界的理解和推理能力,这对于开发需要在现实环境中有效运行的AI系统尤为重要。
第三个问题是缺乏精确的评估指标。现有的自动评估方法通常依赖多选题形式或简单的二元(对/错)评分,这无法捕捉复杂推理过程中的细微差别。这就像用"及格/不及格"来评价一篇复杂的论文,无法区分"勉强及格"和"差一点及格"的差异。PHYBench引入了更精细的评估方法,可以评估部分正确的解答,为模型能力的逐步提升提供了更平滑的评估曲线。
PHYBench:500道精心设计的物理难题
PHYBench包含500道经过精心筛选和设计的物理问题,这些问题全部基于现实世界的物理场景,旨在测试模型理解和推理现实物理过程的能力。与其他评估基准不同,PHYBench特别强调问题的现实性和物理直觉,而不仅仅是抽象的计算能力。
这些问题涵盖了物理学的多个领域,包括力学、电磁学、热力学、光学、现代物理和高等物理学。难度级别从高中物理练习到本科物理问题,甚至包括物理奥林匹克挑战题。这种广泛的覆盖确保了PHYBench能够全面评估AI模型的物理理解能力。
让我们通过一个简单的例子来理解PHYBench中的问题类型:想象三个小球通过三根轻绳连成一条线,其中一根绳子的末端悬挂在天花板上。初始状态下,整个系统静止且垂直。现在,有一个锤子在水平方向击打其中一个小球,使该球获得瞬时速度v?。问题是:当击打最上面的小球时,中间那根绳子的瞬时张力是多少?
这类问题要求模型首先理解物理系统的空间结构,然后识别相关的物理定律,最后进行准确的数学推导。整个过程既检验了模型对物理世界的"感知"能力,也测试了其严谨的推理能力。
表达式编辑距离:一种全新的评估指标
除了设计高质量的问题外,PHYBench还提出了一种创新的评估指标——表达式编辑距离分数(EED Score)。这个指标基于数学表达式之间的编辑距离,能有效捕捉模型推理过程和结果中的差异。
传统的二元评分方法(对/错)就像是学校里严格的老师,只看答案是否完全正确,不给部分分。而EED Score更像是一位细心的导师,会考虑你的解答有多接近正确答案。
具体来说,EED Score通过计算表达式树之间的编辑距离来评估相似度。编辑距离代表将一个树结构表达式转换为另一个所需的最小节点级编辑(插入、删除和更新)次数。
举个例子,假设一道电磁学问题的正确答案是: B = √(n?²/n?² + (1/2)(4mQ/πε?a³q))
而模型给出了两种不同的错误答案:
系数错误:B = √(n?²/n?² + (1/2)(2mQ/πε?a³q))
结构错误:B = πQq/(n?n?a)
尽管两个答案都是错误的,但第一个答案保留了解决方案的物理本质,只有微小的计算错误;而第二个答案则表明模型对问题有根本性的误解。EED Score能够量化这种区别,为第一个答案给予较高的分数,反映其对物理概念的部分理解。
这种评分方法不仅能更精确地评估模型的能力,还能为模型开发提供更具指导性的反馈。就像学习一门新语言时,知道你错在哪里比仅仅知道"错了"要有用得多。
实验结果:AI与人类专家的差距
研究团队评估了多种代表性的大语言模型在PHYBench上的表现,并将结果与人类专家进行了比较。为了建立人类基准,研究者招募了北京大学物理学院的81名学生,每人解决了8个来自PHYBench数据集的问题。
实验结果显示,即使是最先进的推理模型在物理推理任务上的表现也相当有限。表现最好的模型Gemini 2.5 Pro在准确性上仅达到36.9%,EED Score为49.5,远低于人类基准(准确性61.9%,EED Score 70.4)。这一显著差距凸显了当前AI模型在复杂物理推理方面的局限性。
值得注意的是,专为推理设计的模型(如Gemini 2.5 Pro、o3和DeepSeek-R1)普遍优于通用语言模型。但最新的通用模型,如DeepSeek-V3、GPT-4.1和Claude 3.7 Sonnet,也展现出了相当的竞争力。而32B规模的模型(DeepSeek-Distill-32B和QwQ-32B)表现则明显较弱,这与它们在其他基准测试中的强劲表现形成鲜明对比。
研究者还分析了模型在不同物理领域的表现。结果显示,传统模型(如GPT-4o)在力学领域表现相对较差,可能是因为它们在训练数据中接触到的三维几何和动力学内容有限。而热力学问题通常涉及多步推理和复杂过程分析,在这方面,推理模型和非推理模型之间存在明显的性能差距。
错误分析:物理感知与稳健推理的挑战
通过对模型错误的深入分析,研究者将PHYBench评估的能力分为两个关键维度:物理感知(Physical Perception)和稳健推理(Robust Reasoning)。
物理感知能力是指模型对物理对象、变量和动态的识别理解能力。在这个阶段,模型需要进行密集的语义推理,确定哪些物理效应是重要的,哪些可以安全忽略。这就像我们在看到一个球滚下斜坡时,不需要考虑空气阻力、量子效应或地球自转的影响一样。
稳健推理能力则指模型进行一致的数学推导、方程求解和正确应用已建立条件的能力。这相当于在确定了物理模型后,正确地应用物理定律和数学知识求解问题的过程。
从结构角度看,物理感知代表了推理链中的关键决策节点,而稳健推理则形成了连接这些节点的链接。物理感知节点的错误可能导致对物理场景的根本性误解,导致错误的答案;或者引入不必要的物理效应,使后续的符号推理变得复杂。同时,稳健推理错误涉及推导表达式、解方程或应用条件的不一致性,这些错误会累积并导致最终表达式与正确答案越来越偏离。
研究表明,32B模型在物理感知阶段表现特别差,甚至在基础问题上也常常失败。而像例子中提到的三球系统问题,即便是最先进的模型如Gemini-2.5-Pro、o3和DeepSeek-R1也未能正确处理其运动学特性。这种失败不仅突显了模型感知能力的根本局限性,也反映了其语义推理能力的不足。
结论:AI物理理解能力的现状与未来
PHYBench的研究结果揭示了即使是最先进的大语言模型在物理感知和推理方面也存在显著限制。研究中表现最好的Gemini 2.5 Pro仅达到了36.9%的准确率,远低于人类专家的61.9%。这一差距清晰地表明,虽然AI在数学和编程等领域取得了重大进展,但在理解和推理物理世界方面仍有很长的路要走。
这项研究的价值不仅在于指出了当前AI模型的局限性,更在于为未来的发展提供了明确的方向。PHYBench不仅是一个评估工具,更是一个指南针,指引AI向着更深入理解物理世界的方向发展。
正如研究者在论文中引用的那句话:"基准测试既不崇拜也不贬低模型;它们指引人类和AI共同迈向AGI(通用人工智能)。"通过PHYBench这样的基准测试,我们不仅可以更准确地评估AI的能力,还可以找到提升这些能力的方法。
对于普通人来说,这项研究意味着什么?它提醒我们,尽管当前的AI系统在许多领域表现出色,但它们对物理世界的理解仍然有限。当我们期待未来AI能够在现实世界中自主运行(如自动驾驶汽车或家用机器人)时,这种物理理解能力将是至关重要的。只有当AI能够像人类一样直观地理解物理规律,它们才能真正安全可靠地融入我们的日常生活。
如果你对这项研究感兴趣,可以访问项目官方网站(https://phybench-official.github.io/phybench-demo/)了解更多信息,或直接查阅arXiv上的论文(arXiv:2504.16074v1)。
好文章,需要你的鼓励
想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。
想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。
想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。
想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。