推理模型演进之路:从 Chain-of-Thought 到 Diffusion LLM 的五年狂飙

推理模型演进之路:从 Chain-of-Thought 到 Diffusion LLM 的五年狂飙

当 o1 在 AIME 数学竞赛中拿下 83% 的分数时,我们见证的不只是一个模型变强了,而是一条全新技术路线的崛起。


开篇:一个反直觉的事实

2022 年,Google 的研究者发表了一篇论文:只要在 prompt 后面加上一句 “Let’s think step by step”,大语言模型在数学推理任务上的准确率就能大幅提升。这听起来近乎荒谬——模型的架构没有变,训练数据没有变,仅仅改变了提问的方式,性能却发生了质的飞跃。

三年后,OpenAI 发布了 o1 系列模型。它在 AIME(美国数学邀请赛)上达到了 83% 的正确率,而 GPT-4 只有约 12%。更关键的是,o1 在回答之前会”思考”更长时间——它不再是一个单纯的”下一个 token 预测器”,而是拥有了一个推理过程

从”提示出来的推理”到”训练出来的推理”,再到”并行推理”和”扩散式推理”,大语言模型的推理能力经历了一条清晰却曲折的演进路线。

这篇文章将带你走完这条路——从 CoT 的起点,到 Diffusion LLM 的新方向,再到 2026 年正在发生的推理效率革命。


第一阶段:Prompting 时代 —— 推理是被”提示”出来的

Chain-of-Thought:一句咒语引发的革命

2022 年 5 月,Jason Wei 等人在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出了 CoT 提示法。核心思想很简单:让模型在给出最终答案之前,先生成中间的推理步骤。

在此之前,模型的推理能力受限于 prompt 的零样本或少样本设置。CoT 的关键突破在于:

  • Few-shot CoT:在示例中展示推理链(输入 → 推理步骤 → 答案)
  • Zero-shot CoT:无需示例,仅需在 prompt 中加上 “Let’s think step by step”

实验表明,当模型参数量超过一定阈值(约 100B)时,CoT 的效果才会显著涌现。这暗示了一个重要事实:推理能力可能早已潜伏在模型参数中,只是需要合适的触发方式。

自我一致性:多数投票的力量

CoT 虽然有效,但存在一个明显问题:模型每次生成的推理链可能不同,答案也可能不同。

Wang 等人在 2022 年提出 Self-Consistency(自我一致性)方法:对同一个问题生成多条不同的推理链,然后对最终答案进行多数投票。这个方法在 GSM8K、SVAMP 等数学数据集上进一步提升了准确率。

其本质是:通过增加推理时的计算量(采样更多路径),换取更高的准确率。 这已经初具”测试时计算扩展”(Test-Time Compute Scaling)的雏形。

从线性到树形:Tree of Thoughts

CoT 的推理是线性的——一步一步往下走,不能回头。2023 年,Yao 等人提出 Tree of Thoughts(ToT),将推理过程组织为一棵搜索树

  1. 模型生成多个可能的”思维分支”
  2. 对每个分支进行评估
  3. 使用搜索算法(BFS/DFS/Beam Search)选择最优路径
  4. 可以回溯、可以剪枝

这更像人类解题时的真实过程:先想几个方向,评估哪个更靠谱,再深入思考。

随后,Graph of Thoughts(GoT)进一步将推理过程建模为图结构,允许不同思路之间的信息聚合和循环。

这个阶段的本质

回顾 2022-2023 年的这些工作,有一个共同特征:推理能力不是训练出来的,而是提示出来的。 模型在预训练阶段已经吸收了足够的知识和模式,但这些能力在标准生成模式下被”压缩”了——模型被迫一步到位给出答案。

CoT 系列方法的本质,是让模型把内部的知识展开(unfold)成一个显式的推理链

但这个阶段也有明显的局限:

  • 推理质量高度依赖于 prompt 设计
  • 对于复杂问题,线性 CoT 容易”跑偏”
  • 模型并没有”学会”推理,只是在”模仿推理的表达形式”

第二阶段:训练内化时代 —— 把推理”教”给模型

如果说第一阶段是在”解锁”模型已有的能力,第二阶段则是在主动训练模型的推理能力

Process Reward Model:从结果到过程

传统的强化学习对齐(RLHF)使用的是 Outcome Reward Model (ORM)——只对最终答案的好坏给予奖励。但在数学推理中,一个错误的中间步骤可能碰巧得到正确答案,而一个正确的推理链可能因为最后的计算失误被全盘否定。

2023 年,Lightman 等人在《Let’s Verify Step by Step》中提出使用 Process Reward Model (PRM)——对推理链中的每一步都进行评估和奖励。

实验表明,PRM 的训练效果显著优于 ORM。在 GSM8K 上,使用 PRM 训练的模型比 ORM 高出近 10 个百分点。这是因为:

  1. 更密集的学习信号:每一步都有反馈,而非只在最后
  2. 纠错能力:模型学会了在错误步骤”回头”
  3. 泛化性更好:过程级的奖励鼓励了更稳定的推理策略

Self-Training:让模型自我提升

另一条路线是 Self-Training(自训练)。Zelikman 等人的 STaR(Self-Taught Reasoner)方法展示了:

  1. 模型先生成一批推理链
  2. 筛选出得到正确答案的推理链
  3. 用这些高质量的推理链重新训练模型
  4. 重复这个循环

这形成了一个自我提升的闭环:模型通过自身产出的高质量数据来改进自己。这种方法的优雅之处在于,它不需要额外的人工标注数据——模型自己就是最好的数据生成器。

Gulcehre 等人的 ReST(Reinforced Self-Training)方法则将这个过程与强化学习结合,在保持推理质量的同时显著提升了效率。

这个阶段的本质

第二阶段的核心转变是:从”提示出推理”到”训练出推理”。 推理不再是一个外部技巧,而是模型内部的一种能力。

但这也带来了一个新的问题:训练一个推理模型需要大量的计算资源和高质量的训练数据。这为下一阶段的突破埋下了伏笔。


第三阶段:推理模型爆发 —— 当推理成为独立品类

OpenAI o1:推理模型的”iPhone 时刻”

2024 年 9 月,OpenAI 发布了 o1 系列模型。这不是 GPT-4 的简单升级,而是一个全新的范式:

  • 大规模强化学习训练:使用比 RLHF 更复杂的 RL 策略
  • 推理时间可伸缩:回答前的”思考”时间越长,质量越高
  • Chain-of-Thought 内化:推理链不再是提示出来的,而是模型训练时就掌握的

o1 在多项基准上实现了跳跃式提升:

基准 GPT-4 o1 提升
AIME 数学竞赛 ~12% 83% +71pp
GPQA(物理/化学/生物博士级问答) ~30% 78% +48pp
Codeforces 编程竞赛 ~11%(percentile) 89% +78pp

o1 的意义不仅在于性能数字,更在于它定义了一个新的模型品类:推理模型(Reasoning Model)

o3 与 Extended Thinking

2025 年,OpenAI 推出 o3,进一步提升了推理密度和效率。同时,Anthropic 在 Claude 3.7 Sonnet 中引入了 Extended Thinking 模式——让 Claude 也能进行”长思考”。

Google 的 Gemini 2.0 Flash Thinking 也加入了这个赛道。推理模型不再是 OpenAI 的专利,而是成为各大厂商的标配。

开源反击:DeepSeek 与 QwQ

当闭源厂商在推理模型上领跑时,开源社区并没有掉队。

DeepSeek-R1(2025 年 1 月)使用 GRPO(Group Relative Policy Optimization) 训练方法,在数学和代码推理任务上接近甚至超越了 GPT-4 的水平。更重要的是,它证明了:

  1. 不需要海量的人工标注数据——GRPO 可以用模型自身的输出进行对比学习
  2. 不需要巨大的算力——开源社区用有限的资源复现了接近 o1 的效果
  3. 推理能力可以被”蒸馏”——将大推理模型的能力转移到小模型

QwQ-32B(阿里巴巴,2024 年 11 月)则是一个更极致的例子:一个 32B 参数的小模型,通过类 GRPO 的训练,在推理任务上达到了接近 o1 的效果,而推理成本仅为 o1 的 1%

这个阶段的本质

第三阶段的关键转折是:推理模型成为了一个独立的品类,而不是通用模型的”功能升级”。 它有自己的训练方法(强化学习 + CoT)、自己的评估标准(AIME、GPQA)、甚至自己的推理范式(Extended Thinking)。

但随之而来的新问题也出现了:推理越慢越好吗?思考 30 秒和思考 300 秒有什么区别?

这就引出了第四阶段——推理效率革命。


第四阶段:推理效率革命 —— 更快、更便宜、更智能

Test-Time Compute Scaling:推理的”摩尔定律”

o1 最重要的发现之一是:在推理任务上,增加测试时的计算量(更多思考步骤、更多采样)比增加模型参数更有效。

这催生了一个全新的研究方向:Test-Time Compute Scaling(测试时计算扩展)

核心问题是:给定一个固定的计算预算,如何最优地分配推理资源?是生成更多条推理链然后投票?还是在单条推理链上做更深的搜索?

2026 年 4 月的新论文《Scaling Test-Time Compute for Agentic Coding》将这一思路扩展到 Agent 场景——让 Agent 在编写代码时动态决定需要多少”思考”时间。

GRPO 训练范式普及

GRPO 的出现极大地降低了推理模型的训练门槛。与传统的 PPO(Proximal Policy Optimization)相比:

  • 不需要 Value Model:省掉了一个完整的模型训练
  • Group-wise 对比:对一组输出进行相对排序,而非绝对打分
  • 实现简单:开源社区已经实现了一键复现版本

2025 年,HPC-AI.com 的开发者展示了 GRPO 的一键运行版本,让任何拥有 HPC 资源的研究者都能训练自己的推理模型。

Diffusion LLM:推理的另一条路

如果说以上工作都是在自回归框架内做优化,那么 Diffusion LLM 则是在挑战自回归范式本身

2025 年 4 月,Inception Labs 发布了 Mercury——第一个商业规模的扩散语言模型。它的核心思想是:

不逐字生成,而是并行生成整个文本,再通过多轮迭代逐步”精炼”。

这类似于 Stable Diffusion 生成图像的过程:从噪声开始,逐步去噪,最终得到清晰的图像。

Mercury 的后续版本带来了更大的突破:

模型 亮点 速度提升
Mercury 2(2026.02) 扩散推理模型,质量对标自回归 显著提升
Consistency Diffusion(2026.02) 一致性蒸馏 14 倍加速,零质量损失
Block Diffusion 自回归与扩散的插值 可控的速度-质量权衡
Introspective Diffusion(2026.04) 自我反思的扩散模型 进一步提升推理质量

为什么扩散模型在推理任务上有优势?因为推理的本质是全局最优——你需要同时考虑整个推理链的逻辑一致性,而不是一步一步地”走一步看一步”。扩散模型的并行生成天然更适合这种全局优化。

2026 年:World Models 与多模态推理

最新的趋势是推理能力从文本向多模态扩展:

  • SANA-WM(NVIDIA,2026 年 5 月):仅 2.6B 参数的开源世界模型,能生成 1 分钟的 720p 视频。这意味着模型不仅”理解”物理世界,还能”想象”它。
  • Multimodal Diffusion LLMs(MMaDA-Parallel,2025 年 11 月):将扩散推理扩展到多模态编辑和生成。
  • Agentic Reasoning:推理不再停留在文本层面,而是直接驱动 Agent 的行动——思考 → 行动 → 观察 → 再思考的闭环。

这个阶段的本质

第四阶段的核心主题是:推理不再只是”更强”,而是”更聪明地强”。

  • 用更少的参数达到同样的推理效果(QwQ-32B)
  • 用更短的时间完成同样的推理任务(Consistency Diffusion 14x 加速)
  • 用更合理的方式分配推理资源(Test-Time Compute Scaling)
  • 用更自然的范式进行推理(Diffusion vs Autoregressive)

第五阶段:未来方向 —— 2026 及以后

World Models:推理的物理基础

当模型能够”想象”物理世界时,推理就不再是纯符号操作,而是有了物理基础。SANA-WM 这样的世界模型预示着:未来的推理模型可能先”模拟”物理过程,再基于模拟结果进行推理。

这类似于人类解决问题时的”心理模拟”——下棋时先在脑海中”走几步”,修车时先”想象”拆装过程。

自我反思与自我修正

Introspective Diffusion LLMs 的出现表明,推理模型正在获得自我反思的能力——不仅能生成推理链,还能评估自己的推理是否正确,并在发现错误时自我修正。

这是从”一次生成”到”迭代优化”的范式转变。

推理民主化

随着 DeepSeek-R1、QwQ-32B 等开源模型的成熟,推理能力不再被少数巨头垄断。任何研究者和开发者都能:

  • 下载开源推理模型
  • 用 GRPO 在自有数据上微调
  • 用扩散 LLM 探索新的推理范式

核心技术深度解析

CoT 为什么有效?

Quanta Magazine 在 2024 年 3 月发表了一篇深度分析文章,从理论角度解释了 CoT 的有效性:

神经网络本质上是并行计算引擎。当被要求直接输出答案时,它必须在有限的前向传播中”压缩”所有计算。而 CoT 相当于将计算展开到时间维度——每一步前向传播只处理一部分计算,多步累积后完成复杂的推理。

这解释了为什么小模型上的 CoT 效果有限——它们的”每一步计算能力”不足,展开再多步也不够。而大模型有足够的每步计算能力,展开后就能处理复杂任务。

CoT 的争议:真的是推理还是模仿?

2025 年 8 月,两篇几乎同时发表的论文引发了激烈讨论:

  1. Sean Goedecke 的《Is Chain-of-Thought AI Reasoning a Mirage?》提出:CoT 生成的推理链可能只是对推理过程的模仿,而非真正的逻辑推导。
  2. Ars Technica 报道的研究发现:LLMs 在逻辑推理任务上”擅长流利的废话,拙于严密的推导”。

这两篇论文的共同观点是:CoT 的”推理链”可能是一个事后解释(post-hoc rationalization),而非真实的推理过程。

这个争议至今没有定论。但它提醒我们:在评估推理模型时,不能只看答案的正确性,还要看推理过程的逻辑严密性。

GRPO 与 PPO 的本质区别

PPO 是传统的强化学习对齐方法,需要训练一个额外的 Value Model 来估计每个状态的”价值”。这在推理任务中有两个问题:

  1. 训练成本翻倍:需要同时训练 Policy Model 和 Value Model
  2. Value Model 的不确定性:在推理任务中,中间步骤的”价值”很难准确估计

GRPO 的思路更简单:对同一输入生成一组输出,然后在这个组内进行相对排名。 不需要绝对的价值估计,只需要知道”哪个更好”。

PPO:  生成输出 → Value Model 打分 → 更新策略
GRPO: 生成一组输出 → 组内排序 → 更新策略

这种”相对优于绝对”的思路,与人类学习的方式更相似:我们通常不需要知道一个答案的”绝对分数”,只需要知道哪个答案更好。

自回归 vs 扩散:推理范式的选择

维度 自回归模型 扩散模型
生成方式 逐 token 串行 并行 + 迭代精炼
推理时间 O(n),n 为输出长度 O(k),k 为迭代次数(通常 k << n)
逻辑一致性 局部最优(逐步生成) 全局最优(整体精炼)
可并行性
成熟度 高(2022 至今) 中(2025 至今)
适用场景 长文本生成、对话 数学推理、代码生成、短文本

扩散模型不是要替代自回归模型,而是在推理密集型任务上提供了更好的选择。


开源推理模型对比

模型 参数量 训练方法 推理方式 AIME 得分 推理成本
OpenAI o1 未公开 RL + SFT 自回归 + 扩展思考 ~83%
DeepSeek-R1 671B (MoE) GRPO 自回归 + 思考 ~79%
QwQ-32B 32B 类 GRPO 自回归 + 思考 ~78% 极低
Mercury 未公开 扩散训练 并行扩散 中等
Claude 3.7 未公开 SFT + RL 自回归 + Extended Thinking ~80%

选择建议:

  • 需要最强推理能力且不差钱 → OpenAI o1 / Claude 3.7
  • 追求性价比 → DeepSeek-R1(API 价格约为 o1 的 1/5)
  • 本地部署或极低预算 → QwQ-32B(32B 参数,单卡可跑)
  • 探索新范式 → Mercury 等扩散 LLM

争议与反思

争议一:推理能力是真实的吗?

“CoT is a mirage” 的讨论引发了对推理本质的深层思考。一个核心问题是:如果模型在推理链中写了错误的中间步骤,但最终答案正确,这算推理成功还是失败?

目前的共识是:至少在某些任务上,推理链确实反映了模型的计算过程,而不仅仅是事后包装。但这也意味着我们需要更好的评估方法来区分”真正的推理”和”推理的模仿”。

争议二:CoT 的价值在下降?

Wharton 商学院教授 Ethan Mollick 在 2025 年发表研究,发现随着模型越来越强,CoT 提示的收益在递减。他的观点是:

当模型足够强大时,它已经”内化”了推理能力,不需要显式的 CoT 提示来触发。

这意味着 CoT 可能是一个”过渡技术”——在模型不够强时有效,在模型足够强后变得多余。

争议三:推理越慢越好吗?

o1 的成功让人们以为”思考越久越好”,但现实可能更复杂:

  • 对于简单问题,过度思考反而可能引入错误
  • 对于开放性问题,”正确答案”不存在,思考时间的收益递减
  • 推理成本(时间和 Token)与收益之间存在最优解

2026 年的研究方向之一正是 Compute-Optimal Scaling——找到每个任务的最优推理预算。


实践指南

如何选择推理模型?

任务类型          推荐模型           理由
────────────────  ────────────────  ──────────────────────
数学竞赛/逻辑推理   o1 / Claude 3.7   最强推理能力
日常编程辅助       QwQ-32B / R1      性价比最优
本地部署           QwQ-32B           32B 参数,单卡可跑
批量代码审查       Mercury 2         并行推理,吞吐高
多模态推理         Gemini Thinking   原生多模态

本地部署 QwQ-32B

# 使用 llama.cpp 部署
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# 下载量化模型(需要 Hugging Face CLI)
pip install huggingface-hub
huggingface-cli download Qwen/QwQ-32B-GGUF qwq-32b-Q4_K_M.gguf

# 启动服务
./llama-server -m qwq-32b-Q4_K_M.gguf -c 8192 --host 0.0.0.0 --port 8080

推理模型的最佳 Prompt 策略

与通用模型不同,推理模型有独特的使用方式:

  1. 不需要加 “Let’s think step by step”——推理模型已经内化了 CoT
  2. 给足上下文——推理模型对上下文的利用效率更高
  3. 善用系统提示——指定角色和任务类型可以激活特定的推理模式
  4. 容忍延迟——推理模型的响应时间更长,这是正常的
  5. 评估中间步骤——如果 API 支持,检查模型的思考过程,而不仅仅是最终答案

总结:推理演进的三重奏

回顾这五年的演进,我们可以用”三重奏”来概括:

第一重:提示(Prompting)

CoT、Self-Consistency、Tree of Thoughts —— 从外部触发模型的推理能力。这是”发现”的阶段。

第二重:训练(Training)

PRM、Self-Training、GRPO —— 将推理能力内化到模型参数中。这是”塑造”的阶段。

第三重:架构(Architecture)

Diffusion LLM、World Models、Introspective Models —— 重新设计推理的底层范式。这是”超越”的阶段。

这三个阶段不是替代关系,而是叠加关系。今天的推理模型同时受益于:

  • CoT 提示技巧(即使内化了,prompt 仍然有影响)
  • PRM 训练方法(让模型学会逐步推理)
  • 新的架构选择(扩散、世界模型等)

未来展望

2026 年的推理模型正在走向三个方向:

  1. 更快:扩散 LLM 将推理速度提升 14 倍,Test-Time Compute Scaling 让每一秒的计算都物尽其用
  2. 更便宜:QwQ-32B 用 1% 的成本实现了接近 o1 的效果
  3. 更通用:从数学推理到代码、从文本到多模态、从思考到行动

推理不再是少数模型的专利,而是正在成为所有 AI 系统的基础设施。


参考资料

核心论文

  1. Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022)
  2. Wang, X. et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023)
  3. Yao, S. et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (NeurIPS 2023)
  4. Lightman, H. et al. “Let’s Verify Step by Step” (2023)
  5. Zelikman, E. et al. “STaR: Bootstrapping Reasoning With Reasoning” (NeurIPS 2022)

技术博客与分析

  1. Sebastian Raschka. “Understanding Reasoning LLMs” — https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
  2. Quanta Magazine. “How Chain-of-Thought Reasoning Helps Neural Networks Compute” — 2024.03
  3. Sean Goedecke. “Is Chain-of-Thought AI Reasoning a Mirage?” — 2025.08
  4. HuggingFace. “Scaling Test-Time Compute with Open LLM Models” — 2024.12

项目与模型

  1. DeepSeek-R1 — https://github.com/deepseek-ai/DeepSeek-R1
  2. QwQ-32B — https://qwenlm.github.io/blog/qwq-32b-preview/
  3. Mercury (Inception Labs) — https://www.inceptionlabs.ai/introducing-mercury
  4. Consistency Diffusion — https://www.together.ai/blog/consistency-diffusion-language-models
  5. SANA-WM — https://nvlabs.github.io/Sana/WM/