AI摘要

苹果公司近期发表的研究论文《思考的幻觉》探讨了大型推理模型(LRMs)的优缺点和局限性。研究发现,尽管LRMs在推理基准测试中表现更好,但它们在处理复杂问题时存在扩展限制,推理能力随着问题复杂性的增加而下降。论文通过可控的难题环境分析了LRMs的内部推理过程,揭示了它们在精确计算和推理一致性上的局限性,并提出了关于它们真实推理能力的关键问题。
苹果公司近期发表的研究论文《思

苹果的人工智能之旅简直不可思议:
2010年:收购Siri
2018年:挖角谷歌AI负责人
2022年:被ChatGPT发布惊呆了
2023-2024年:推出Apple Intelligence(虚拟产品)时搞砸
2025年:发表研究论文称AI推理模型是假的,仅仅是模式匹配机器

论文导读

近期的前沿语言模型引入了大型推理模型(LRMS),这些模型在提供答案之前生成详细的思维过程。尽管这些模型在推理基准上展示了更好的表现,但它们的基本能力、扩展特性和局限性仍然未得到充分理解。当前的评估主要集中在已建立的数学和编码基准上,强调最终答案的准确性。然而,这种评估范式常常受到数据污染的影响,且无法提供关于推理过程的结构和质量的深入见解。在本研究中,我们通过可控的难题环境系统地探讨了这些差距,这些环境能够精确操控组合复杂性,同时保持一致的逻辑结构。这种设置使得我们能够分析不仅仅是最终答案,还包括内部推理过程,从而提供关于LRMs如何“思考”的见解。通过对各种难题的广泛实验,我们发现,前沿的LRMS具有直观的扩展极限:它们的推理工作量随着问题复杂性的增加而增加,但超过一定程度后会下降,尽管它们拥有足够的标记预算。通过将LRMS与其标准LLM对比,在相同推理计算量下,我们识别出了三种性能模式:(1)低复杂度任务,其中标准模型意外地优于LRMS;(2)中等复杂度任务,其中LRMS在增加思考后显示出优势;(3)高复杂度任务,其中两种模型都会完全崩溃。我们发现,LRMS在精确计算上存在局限性:它们未能使用明确的算法,且在不同难题中推理不一致。我们还更深入地研究了推理过程,分析了模型在探索解法时的模式,并分析了它们的计算行为,揭示了它们的优势、局限性,并最终提出了关于它们真实推理能力的关键问题。

原文地址

https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

以下是通过google gemini生成的思维导图

《思考的幻觉》思维导图

思维导图:思考的幻觉

I. 核心主题:理解推理模型的优点与局限性

* 通过问题复杂性的视角

II. 大型推理模型 (LRMs) 介绍

* **定义:** 生成详细思考过程的最新前沿语言模型
* **优点:** 在推理基准测试中表现出改进的性能
* **不足/未充分理解之处:**
    * 基本能力
    * 扩展特性
    * 局限性

III. 当前评估范式的问题

* **主要关注:** 现有数学和编码基准测试
* **强调:** 最终答案的准确性
* **局限:**
    * 数据污染(常见问题)
    * 无法提供对推理轨迹结构和质量的深入见解

IV. 本研究方法

* **目标:** 系统性调查上述差距
* **工具:** 可控的谜题环境
    * **特点:**
        * 允许精确操纵组合复杂性
        * 保持一致的逻辑结构
* **分析内容:**
    * 最终答案
    * 内部推理轨迹
* **目的:** 深入了解 LRMs 如何“思考”

V. 研究发现

* **主要发现:**
    * 前沿 LRMs 在超过一定复杂性后会面临“完全准确性崩溃”
    * **反直觉的扩展限制:**
        * 推理努力(思考 token 使用量)最初随问题复杂性增加
        * 但在达到模型特定阈值后,反直觉地下降
* **这意味着:**
    * LRM 思考过程在推理方面存在根本性扩展限制
    * 超过特定复杂性阈值,模型:
        * 无法解决问题
        * 反直觉地减少推理计算
        * 即使面对更困难的问题且远低于上下文和生成限制

VI. 关键图表解读

* **图11:** 思考型模型与非思考型模型在“首次失败移动”与“问题复杂性 (N)”方面的比较
    * **模型:** Claude-3.7-Sonnet, DeepSeek-R1, DeepSeek-V3, o3-mini
    * **观察到:** 思考 token 使用量(推理努力)先增后降的模式
* **图12:** 思考型模型与非思考型模型“首次失败移动”的密度分布
    * **模型:** Claude-3.7-Sonnet, DeepSeek-R1, DeepSeek-V3
* **图13:** 三种 LRMs(DeepSeek-R1, Claude-3.7-Sonnet with thinking, o3-mini)在四种谜题环境下,推理努力与问题复杂性 (N) 的详细结果
最后修改:2025 年 06 月 09 日
点赞的人是最酷的