推理模型演进之路：从 Chain-of-Thought 到 Diffusion LLM 的五年狂飙

当 o1 在 AIME 数学竞赛中拿下 83% 的分数时，我们见证的不只是一个模型变强了，而是一条全新技术路线的崛起。

开篇：一个反直觉的事实

2022 年，Google 的研究者发表了一篇论文：只要在 prompt 后面加上一句 “Let’s think step by step”，大语言模型在数学推理任务上的准确率就能大幅提升。这听起来近乎荒谬——模型的架构没有变，训练数据没有变，仅仅改变了提问的方式，性能却发生了质的飞跃。

三年后，OpenAI 发布了 o1 系列模型。它在 AIME（美国数学邀请赛）上达到了 83% 的正确率，而 GPT-4 只有约 12%。更关键的是，o1 在回答之前会”思考”更长时间——它不再是一个单纯的”下一个 token 预测器”，而是拥有了一个推理过程。

从”提示出来的推理”到”训练出来的推理”，再到”并行推理”和”扩散式推理”，大语言模型的推理能力经历了一条清晰却曲折的演进路线。

这篇文章将带你走完这条路——从 CoT 的起点，到 Diffusion LLM 的新方向，再到 2026 年正在发生的推理效率革命。

第一阶段：Prompting 时代 —— 推理是被”提示”出来的

Chain-of-Thought：一句咒语引发的革命

2022 年 5 月，Jason Wei 等人在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出了 CoT 提示法。核心思想很简单：让模型在给出最终答案之前，先生成中间的推理步骤。

在此之前，模型的推理能力受限于 prompt 的零样本或少样本设置。CoT 的关键突破在于：

Few-shot CoT：在示例中展示推理链（输入 → 推理步骤 → 答案）
Zero-shot CoT：无需示例，仅需在 prompt 中加上 “Let’s think step by step”

实验表明，当模型参数量超过一定阈值（约 100B）时，CoT 的效果才会显著涌现。这暗示了一个重要事实：推理能力可能早已潜伏在模型参数中，只是需要合适的触发方式。

自我一致性：多数投票的力量

CoT 虽然有效，但存在一个明显问题：模型每次生成的推理链可能不同，答案也可能不同。

Wang 等人在 2022 年提出 Self-Consistency（自我一致性）方法：对同一个问题生成多条不同的推理链，然后对最终答案进行多数投票。这个方法在 GSM8K、SVAMP 等数学数据集上进一步提升了准确率。

其本质是：通过增加推理时的计算量（采样更多路径），换取更高的准确率。 这已经初具”测试时计算扩展”（Test-Time Compute Scaling）的雏形。

从线性到树形：Tree of Thoughts

CoT 的推理是线性的——一步一步往下走，不能回头。2023 年，Yao 等人提出 Tree of Thoughts（ToT），将推理过程组织为一棵搜索树：

模型生成多个可能的”思维分支”
对每个分支进行评估
使用搜索算法（BFS/DFS/Beam Search）选择最优路径
可以回溯、可以剪枝

这更像人类解题时的真实过程：先想几个方向，评估哪个更靠谱，再深入思考。

随后，Graph of Thoughts（GoT）进一步将推理过程建模为图结构，允许不同思路之间的信息聚合和循环。

这个阶段的本质

回顾 2022-2023 年的这些工作，有一个共同特征：推理能力不是训练出来的，而是提示出来的。 模型在预训练阶段已经吸收了足够的知识和模式，但这些能力在标准生成模式下被”压缩”了——模型被迫一步到位给出答案。

CoT 系列方法的本质，是让模型把内部的知识展开（unfold）成一个显式的推理链。

但这个阶段也有明显的局限：

推理质量高度依赖于 prompt 设计
对于复杂问题，线性 CoT 容易”跑偏”
模型并没有”学会”推理，只是在”模仿推理的表达形式”

第二阶段：训练内化时代 —— 把推理”教”给模型

如果说第一阶段是在”解锁”模型已有的能力，第二阶段则是在主动训练模型的推理能力。

Process Reward Model：从结果到过程

传统的强化学习对齐（RLHF）使用的是 Outcome Reward Model (ORM)——只对最终答案的好坏给予奖励。但在数学推理中，一个错误的中间步骤可能碰巧得到正确答案，而一个正确的推理链可能因为最后的计算失误被全盘否定。

2023 年，Lightman 等人在《Let’s Verify Step by Step》中提出使用 Process Reward Model (PRM)——对推理链中的每一步都进行评估和奖励。

实验表明，PRM 的训练效果显著优于 ORM。在 GSM8K 上，使用 PRM 训练的模型比 ORM 高出近 10 个百分点。这是因为：

更密集的学习信号：每一步都有反馈，而非只在最后
纠错能力：模型学会了在错误步骤”回头”
泛化性更好：过程级的奖励鼓励了更稳定的推理策略

Self-Training：让模型自我提升

另一条路线是 Self-Training（自训练）。Zelikman 等人的 STaR（Self-Taught Reasoner）方法展示了：

模型先生成一批推理链
筛选出得到正确答案的推理链
用这些高质量的推理链重新训练模型
重复这个循环

这形成了一个自我提升的闭环：模型通过自身产出的高质量数据来改进自己。这种方法的优雅之处在于，它不需要额外的人工标注数据——模型自己就是最好的数据生成器。

Gulcehre 等人的 ReST（Reinforced Self-Training）方法则将这个过程与强化学习结合，在保持推理质量的同时显著提升了效率。

这个阶段的本质

第二阶段的核心转变是：从”提示出推理”到”训练出推理”。 推理不再是一个外部技巧，而是模型内部的一种能力。

但这也带来了一个新的问题：训练一个推理模型需要大量的计算资源和高质量的训练数据。这为下一阶段的突破埋下了伏笔。

第三阶段：推理模型爆发 —— 当推理成为独立品类

OpenAI o1：推理模型的”iPhone 时刻”

2024 年 9 月，OpenAI 发布了 o1 系列模型。这不是 GPT-4 的简单升级，而是一个全新的范式：

大规模强化学习训练：使用比 RLHF 更复杂的 RL 策略
推理时间可伸缩：回答前的”思考”时间越长，质量越高
Chain-of-Thought 内化：推理链不再是提示出来的，而是模型训练时就掌握的

o1 在多项基准上实现了跳跃式提升：

基准	GPT-4	o1	提升
AIME 数学竞赛	~12%	83%	+71pp
GPQA（物理/化学/生物博士级问答）	~30%	78%	+48pp
Codeforces 编程竞赛	~11%（percentile）	89%	+78pp

o1 的意义不仅在于性能数字，更在于它定义了一个新的模型品类：推理模型（Reasoning Model）。

o3 与 Extended Thinking

2025 年，OpenAI 推出 o3，进一步提升了推理密度和效率。同时，Anthropic 在 Claude 3.7 Sonnet 中引入了 Extended Thinking 模式——让 Claude 也能进行”长思考”。

Google 的 Gemini 2.0 Flash Thinking 也加入了这个赛道。推理模型不再是 OpenAI 的专利，而是成为各大厂商的标配。

开源反击：DeepSeek 与 QwQ

当闭源厂商在推理模型上领跑时，开源社区并没有掉队。

DeepSeek-R1（2025 年 1 月）使用 GRPO（Group Relative Policy Optimization） 训练方法，在数学和代码推理任务上接近甚至超越了 GPT-4 的水平。更重要的是，它证明了：

不需要海量的人工标注数据——GRPO 可以用模型自身的输出进行对比学习
不需要巨大的算力——开源社区用有限的资源复现了接近 o1 的效果
推理能力可以被”蒸馏”——将大推理模型的能力转移到小模型

QwQ-32B（阿里巴巴，2024 年 11 月）则是一个更极致的例子：一个 32B 参数的小模型，通过类 GRPO 的训练，在推理任务上达到了接近 o1 的效果，而推理成本仅为 o1 的 1%。

这个阶段的本质

第三阶段的关键转折是：推理模型成为了一个独立的品类，而不是通用模型的”功能升级”。 它有自己的训练方法（强化学习 + CoT）、自己的评估标准（AIME、GPQA）、甚至自己的推理范式（Extended Thinking）。

但随之而来的新问题也出现了：推理越慢越好吗？思考 30 秒和思考 300 秒有什么区别？

这就引出了第四阶段——推理效率革命。

第四阶段：推理效率革命 —— 更快、更便宜、更智能

Test-Time Compute Scaling：推理的”摩尔定律”

o1 最重要的发现之一是：在推理任务上，增加测试时的计算量（更多思考步骤、更多采样）比增加模型参数更有效。

这催生了一个全新的研究方向：Test-Time Compute Scaling（测试时计算扩展）。

核心问题是：给定一个固定的计算预算，如何最优地分配推理资源？是生成更多条推理链然后投票？还是在单条推理链上做更深的搜索？

2026 年 4 月的新论文《Scaling Test-Time Compute for Agentic Coding》将这一思路扩展到 Agent 场景——让 Agent 在编写代码时动态决定需要多少”思考”时间。

GRPO 训练范式普及

GRPO 的出现极大地降低了推理模型的训练门槛。与传统的 PPO（Proximal Policy Optimization）相比：

不需要 Value Model：省掉了一个完整的模型训练
Group-wise 对比：对一组输出进行相对排序，而非绝对打分
实现简单：开源社区已经实现了一键复现版本

2025 年，HPC-AI.com 的开发者展示了 GRPO 的一键运行版本，让任何拥有 HPC 资源的研究者都能训练自己的推理模型。

Diffusion LLM：推理的另一条路

如果说以上工作都是在自回归框架内做优化，那么 Diffusion LLM 则是在挑战自回归范式本身。

2025 年 4 月，Inception Labs 发布了 Mercury——第一个商业规模的扩散语言模型。它的核心思想是：

不逐字生成，而是并行生成整个文本，再通过多轮迭代逐步”精炼”。

这类似于 Stable Diffusion 生成图像的过程：从噪声开始，逐步去噪，最终得到清晰的图像。

Mercury 的后续版本带来了更大的突破：

模型	亮点	速度提升
Mercury 2（2026.02）	扩散推理模型，质量对标自回归	显著提升
Consistency Diffusion（2026.02）	一致性蒸馏	14 倍加速，零质量损失
Block Diffusion	自回归与扩散的插值	可控的速度-质量权衡
Introspective Diffusion（2026.04）	自我反思的扩散模型	进一步提升推理质量

为什么扩散模型在推理任务上有优势？因为推理的本质是全局最优——你需要同时考虑整个推理链的逻辑一致性，而不是一步一步地”走一步看一步”。扩散模型的并行生成天然更适合这种全局优化。

2026 年：World Models 与多模态推理

最新的趋势是推理能力从文本向多模态扩展：

SANA-WM（NVIDIA，2026 年 5 月）：仅 2.6B 参数的开源世界模型，能生成 1 分钟的 720p 视频。这意味着模型不仅”理解”物理世界，还能”想象”它。
Multimodal Diffusion LLMs（MMaDA-Parallel，2025 年 11 月）：将扩散推理扩展到多模态编辑和生成。
Agentic Reasoning：推理不再停留在文本层面，而是直接驱动 Agent 的行动——思考 → 行动 → 观察 → 再思考的闭环。

这个阶段的本质

第四阶段的核心主题是：推理不再只是”更强”，而是”更聪明地强”。

用更少的参数达到同样的推理效果（QwQ-32B）
用更短的时间完成同样的推理任务（Consistency Diffusion 14x 加速）
用更合理的方式分配推理资源（Test-Time Compute Scaling）
用更自然的范式进行推理（Diffusion vs Autoregressive）

第五阶段：未来方向 —— 2026 及以后

World Models：推理的物理基础

当模型能够”想象”物理世界时，推理就不再是纯符号操作，而是有了物理基础。SANA-WM 这样的世界模型预示着：未来的推理模型可能先”模拟”物理过程，再基于模拟结果进行推理。

这类似于人类解决问题时的”心理模拟”——下棋时先在脑海中”走几步”，修车时先”想象”拆装过程。

自我反思与自我修正

Introspective Diffusion LLMs 的出现表明，推理模型正在获得自我反思的能力——不仅能生成推理链，还能评估自己的推理是否正确，并在发现错误时自我修正。

这是从”一次生成”到”迭代优化”的范式转变。

推理民主化

随着 DeepSeek-R1、QwQ-32B 等开源模型的成熟，推理能力不再被少数巨头垄断。任何研究者和开发者都能：

下载开源推理模型
用 GRPO 在自有数据上微调
用扩散 LLM 探索新的推理范式

核心技术深度解析

CoT 为什么有效？

Quanta Magazine 在 2024 年 3 月发表了一篇深度分析文章，从理论角度解释了 CoT 的有效性：

神经网络本质上是并行计算引擎。当被要求直接输出答案时，它必须在有限的前向传播中”压缩”所有计算。而 CoT 相当于将计算展开到时间维度——每一步前向传播只处理一部分计算，多步累积后完成复杂的推理。

这解释了为什么小模型上的 CoT 效果有限——它们的”每一步计算能力”不足，展开再多步也不够。而大模型有足够的每步计算能力，展开后就能处理复杂任务。

CoT 的争议：真的是推理还是模仿？

2025 年 8 月，两篇几乎同时发表的论文引发了激烈讨论：

Sean Goedecke 的《Is Chain-of-Thought AI Reasoning a Mirage?》提出：CoT 生成的推理链可能只是对推理过程的模仿，而非真正的逻辑推导。
Ars Technica 报道的研究发现：LLMs 在逻辑推理任务上”擅长流利的废话，拙于严密的推导”。

这两篇论文的共同观点是：CoT 的”推理链”可能是一个事后解释（post-hoc rationalization），而非真实的推理过程。

这个争议至今没有定论。但它提醒我们：在评估推理模型时，不能只看答案的正确性，还要看推理过程的逻辑严密性。

GRPO 与 PPO 的本质区别

PPO 是传统的强化学习对齐方法，需要训练一个额外的 Value Model 来估计每个状态的”价值”。这在推理任务中有两个问题：

训练成本翻倍：需要同时训练 Policy Model 和 Value Model
Value Model 的不确定性：在推理任务中，中间步骤的”价值”很难准确估计

GRPO 的思路更简单：对同一输入生成一组输出，然后在这个组内进行相对排名。 不需要绝对的价值估计，只需要知道”哪个更好”。

PPO:  生成输出 → Value Model 打分 → 更新策略
GRPO: 生成一组输出 → 组内排序 → 更新策略

这种”相对优于绝对”的思路，与人类学习的方式更相似：我们通常不需要知道一个答案的”绝对分数”，只需要知道哪个答案更好。

自回归 vs 扩散：推理范式的选择

维度	自回归模型	扩散模型
生成方式	逐 token 串行	并行 + 迭代精炼
推理时间	O(n)，n 为输出长度	O(k)，k 为迭代次数（通常 k << n）
逻辑一致性	局部最优（逐步生成）	全局最优（整体精炼）
可并行性	低	高
成熟度	高（2022 至今）	中（2025 至今）
适用场景	长文本生成、对话	数学推理、代码生成、短文本

扩散模型不是要替代自回归模型，而是在推理密集型任务上提供了更好的选择。

开源推理模型对比

模型	参数量	训练方法	推理方式	AIME 得分	推理成本
OpenAI o1	未公开	RL + SFT	自回归 + 扩展思考	~83%	高
DeepSeek-R1	671B (MoE)	GRPO	自回归 + 思考	~79%	中
QwQ-32B	32B	类 GRPO	自回归 + 思考	~78%	极低
Mercury	未公开	扩散训练	并行扩散	中等	中
Claude 3.7	未公开	SFT + RL	自回归 + Extended Thinking	~80%	高

选择建议：

需要最强推理能力且不差钱 → OpenAI o1 / Claude 3.7
追求性价比 → DeepSeek-R1（API 价格约为 o1 的 1/5）
本地部署或极低预算 → QwQ-32B（32B 参数，单卡可跑）
探索新范式 → Mercury 等扩散 LLM

争议与反思

争议一：推理能力是真实的吗？

“CoT is a mirage” 的讨论引发了对推理本质的深层思考。一个核心问题是：如果模型在推理链中写了错误的中间步骤，但最终答案正确，这算推理成功还是失败？

目前的共识是：至少在某些任务上，推理链确实反映了模型的计算过程，而不仅仅是事后包装。但这也意味着我们需要更好的评估方法来区分”真正的推理”和”推理的模仿”。

争议二：CoT 的价值在下降？

Wharton 商学院教授 Ethan Mollick 在 2025 年发表研究，发现随着模型越来越强，CoT 提示的收益在递减。他的观点是：

当模型足够强大时，它已经”内化”了推理能力，不需要显式的 CoT 提示来触发。

这意味着 CoT 可能是一个”过渡技术”——在模型不够强时有效，在模型足够强后变得多余。

争议三：推理越慢越好吗？

o1 的成功让人们以为”思考越久越好”，但现实可能更复杂：

对于简单问题，过度思考反而可能引入错误
对于开放性问题，”正确答案”不存在，思考时间的收益递减
推理成本（时间和 Token）与收益之间存在最优解

2026 年的研究方向之一正是 Compute-Optimal Scaling——找到每个任务的最优推理预算。

实践指南

如何选择推理模型？

任务类型          推荐模型           理由
────────────────  ────────────────  ──────────────────────
数学竞赛/逻辑推理   o1 / Claude 3.7   最强推理能力
日常编程辅助       QwQ-32B / R1      性价比最优
本地部署           QwQ-32B           32B 参数，单卡可跑
批量代码审查       Mercury 2         并行推理，吞吐高
多模态推理         Gemini Thinking   原生多模态

本地部署 QwQ-32B

# 使用 llama.cpp 部署
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# 下载量化模型（需要 Hugging Face CLI）
pip install huggingface-hub
huggingface-cli download Qwen/QwQ-32B-GGUF qwq-32b-Q4_K_M.gguf

# 启动服务
./llama-server -m qwq-32b-Q4_K_M.gguf -c 8192 --host 0.0.0.0 --port 8080

推理模型的最佳 Prompt 策略

与通用模型不同，推理模型有独特的使用方式：

不需要加 “Let’s think step by step”——推理模型已经内化了 CoT
给足上下文——推理模型对上下文的利用效率更高
善用系统提示——指定角色和任务类型可以激活特定的推理模式
容忍延迟——推理模型的响应时间更长，这是正常的
评估中间步骤——如果 API 支持，检查模型的思考过程，而不仅仅是最终答案

总结：推理演进的三重奏

回顾这五年的演进，我们可以用”三重奏”来概括：

第一重：提示（Prompting）

CoT、Self-Consistency、Tree of Thoughts —— 从外部触发模型的推理能力。这是”发现”的阶段。

第二重：训练（Training）

PRM、Self-Training、GRPO —— 将推理能力内化到模型参数中。这是”塑造”的阶段。

第三重：架构（Architecture）

Diffusion LLM、World Models、Introspective Models —— 重新设计推理的底层范式。这是”超越”的阶段。

这三个阶段不是替代关系，而是叠加关系。今天的推理模型同时受益于：

CoT 提示技巧（即使内化了，prompt 仍然有影响）
PRM 训练方法（让模型学会逐步推理）
新的架构选择（扩散、世界模型等）

未来展望

2026 年的推理模型正在走向三个方向：

更快：扩散 LLM 将推理速度提升 14 倍，Test-Time Compute Scaling 让每一秒的计算都物尽其用
更便宜：QwQ-32B 用 1% 的成本实现了接近 o1 的效果
更通用：从数学推理到代码、从文本到多模态、从思考到行动

推理不再是少数模型的专利，而是正在成为所有 AI 系统的基础设施。

参考资料

核心论文

Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022)
Wang, X. et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023)
Yao, S. et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (NeurIPS 2023)
Lightman, H. et al. “Let’s Verify Step by Step” (2023)
Zelikman, E. et al. “STaR: Bootstrapping Reasoning With Reasoning” (NeurIPS 2022)

技术博客与分析

Sebastian Raschka. “Understanding Reasoning LLMs” — https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
Quanta Magazine. “How Chain-of-Thought Reasoning Helps Neural Networks Compute” — 2024.03
Sean Goedecke. “Is Chain-of-Thought AI Reasoning a Mirage?” — 2025.08
HuggingFace. “Scaling Test-Time Compute with Open LLM Models” — 2024.12

项目与模型

DeepSeek-R1 — https://github.com/deepseek-ai/DeepSeek-R1
QwQ-32B — https://qwenlm.github.io/blog/qwq-32b-preview/
Mercury (Inception Labs) — https://www.inceptionlabs.ai/introducing-mercury
Consistency Diffusion — https://www.together.ai/blog/consistency-diffusion-language-models
SANA-WM — https://nvlabs.github.io/Sana/WM/

阅读: 356