推理模型演进之路:从 Chain-of-Thought 到 Diffusion LLM 的五年狂飙
当 o1 在 AIME 数学竞赛中拿下 83% 的分数时,我们见证的不只是一个模型变强了,而是一条全新技术路线的崛起。
开篇:一个反直觉的事实
2022 年,Google 的研究者发表了一篇论文:只要在 prompt 后面加上一句 “Let’s think step by step”,大语言模型在数学推理任务上的准确率就能大幅提升。这听起来近乎荒谬——模型的架构没有变,训练数据没有变,仅仅改变了提问的方式,性能却发生了质的飞跃。
三年后,OpenAI 发布了 o1 系列模型。它在 AIME(美国数学邀请赛)上达到了 83% 的正确率,而 GPT-4 只有约 12%。更关键的是,o1 在回答之前会”思考”更长时间——它不再是一个单纯的”下一个 token 预测器”,而是拥有了一个推理过程。
从”提示出来的推理”到”训练出来的推理”,再到”并行推理”和”扩散式推理”,大语言模型的推理能力经历了一条清晰却曲折的演进路线。
这篇文章将带你走完这条路——从 CoT 的起点,到 Diffusion LLM 的新方向,再到 2026 年正在发生的推理效率革命。
第一阶段:Prompting 时代 —— 推理是被”提示”出来的
Chain-of-Thought:一句咒语引发的革命
2022 年 5 月,Jason Wei 等人在论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中提出了 CoT 提示法。核心思想很简单:让模型在给出最终答案之前,先生成中间的推理步骤。
在此之前,模型的推理能力受限于 prompt 的零样本或少样本设置。CoT 的关键突破在于:
- Few-shot CoT:在示例中展示推理链(输入 → 推理步骤 → 答案)
- Zero-shot CoT:无需示例,仅需在 prompt 中加上 “Let’s think step by step”
实验表明,当模型参数量超过一定阈值(约 100B)时,CoT 的效果才会显著涌现。这暗示了一个重要事实:推理能力可能早已潜伏在模型参数中,只是需要合适的触发方式。
自我一致性:多数投票的力量
CoT 虽然有效,但存在一个明显问题:模型每次生成的推理链可能不同,答案也可能不同。
Wang 等人在 2022 年提出 Self-Consistency(自我一致性)方法:对同一个问题生成多条不同的推理链,然后对最终答案进行多数投票。这个方法在 GSM8K、SVAMP 等数学数据集上进一步提升了准确率。
其本质是:通过增加推理时的计算量(采样更多路径),换取更高的准确率。 这已经初具”测试时计算扩展”(Test-Time Compute Scaling)的雏形。
从线性到树形:Tree of Thoughts
CoT 的推理是线性的——一步一步往下走,不能回头。2023 年,Yao 等人提出 Tree of Thoughts(ToT),将推理过程组织为一棵搜索树:
- 模型生成多个可能的”思维分支”
- 对每个分支进行评估
- 使用搜索算法(BFS/DFS/Beam Search)选择最优路径
- 可以回溯、可以剪枝
这更像人类解题时的真实过程:先想几个方向,评估哪个更靠谱,再深入思考。
随后,Graph of Thoughts(GoT)进一步将推理过程建模为图结构,允许不同思路之间的信息聚合和循环。
这个阶段的本质
回顾 2022-2023 年的这些工作,有一个共同特征:推理能力不是训练出来的,而是提示出来的。 模型在预训练阶段已经吸收了足够的知识和模式,但这些能力在标准生成模式下被”压缩”了——模型被迫一步到位给出答案。
CoT 系列方法的本质,是让模型把内部的知识展开(unfold)成一个显式的推理链。
但这个阶段也有明显的局限:
- 推理质量高度依赖于 prompt 设计
- 对于复杂问题,线性 CoT 容易”跑偏”
- 模型并没有”学会”推理,只是在”模仿推理的表达形式”
第二阶段:训练内化时代 —— 把推理”教”给模型
如果说第一阶段是在”解锁”模型已有的能力,第二阶段则是在主动训练模型的推理能力。
Process Reward Model:从结果到过程
传统的强化学习对齐(RLHF)使用的是 Outcome Reward Model (ORM)——只对最终答案的好坏给予奖励。但在数学推理中,一个错误的中间步骤可能碰巧得到正确答案,而一个正确的推理链可能因为最后的计算失误被全盘否定。
2023 年,Lightman 等人在《Let’s Verify Step by Step》中提出使用 Process Reward Model (PRM)——对推理链中的每一步都进行评估和奖励。
实验表明,PRM 的训练效果显著优于 ORM。在 GSM8K 上,使用 PRM 训练的模型比 ORM 高出近 10 个百分点。这是因为:
- 更密集的学习信号:每一步都有反馈,而非只在最后
- 纠错能力:模型学会了在错误步骤”回头”
- 泛化性更好:过程级的奖励鼓励了更稳定的推理策略
Self-Training:让模型自我提升
另一条路线是 Self-Training(自训练)。Zelikman 等人的 STaR(Self-Taught Reasoner)方法展示了:
- 模型先生成一批推理链
- 筛选出得到正确答案的推理链
- 用这些高质量的推理链重新训练模型
- 重复这个循环
这形成了一个自我提升的闭环:模型通过自身产出的高质量数据来改进自己。这种方法的优雅之处在于,它不需要额外的人工标注数据——模型自己就是最好的数据生成器。
Gulcehre 等人的 ReST(Reinforced Self-Training)方法则将这个过程与强化学习结合,在保持推理质量的同时显著提升了效率。
这个阶段的本质
第二阶段的核心转变是:从”提示出推理”到”训练出推理”。 推理不再是一个外部技巧,而是模型内部的一种能力。
但这也带来了一个新的问题:训练一个推理模型需要大量的计算资源和高质量的训练数据。这为下一阶段的突破埋下了伏笔。
第三阶段:推理模型爆发 —— 当推理成为独立品类
OpenAI o1:推理模型的”iPhone 时刻”
2024 年 9 月,OpenAI 发布了 o1 系列模型。这不是 GPT-4 的简单升级,而是一个全新的范式:
- 大规模强化学习训练:使用比 RLHF 更复杂的 RL 策略
- 推理时间可伸缩:回答前的”思考”时间越长,质量越高
- Chain-of-Thought 内化:推理链不再是提示出来的,而是模型训练时就掌握的
o1 在多项基准上实现了跳跃式提升:
| 基准 | GPT-4 | o1 | 提升 |
|---|---|---|---|
| AIME 数学竞赛 | ~12% | 83% | +71pp |
| GPQA(物理/化学/生物博士级问答) | ~30% | 78% | +48pp |
| Codeforces 编程竞赛 | ~11%(percentile) | 89% | +78pp |
o1 的意义不仅在于性能数字,更在于它定义了一个新的模型品类:推理模型(Reasoning Model)。
o3 与 Extended Thinking
2025 年,OpenAI 推出 o3,进一步提升了推理密度和效率。同时,Anthropic 在 Claude 3.7 Sonnet 中引入了 Extended Thinking 模式——让 Claude 也能进行”长思考”。
Google 的 Gemini 2.0 Flash Thinking 也加入了这个赛道。推理模型不再是 OpenAI 的专利,而是成为各大厂商的标配。
开源反击:DeepSeek 与 QwQ
当闭源厂商在推理模型上领跑时,开源社区并没有掉队。
DeepSeek-R1(2025 年 1 月)使用 GRPO(Group Relative Policy Optimization) 训练方法,在数学和代码推理任务上接近甚至超越了 GPT-4 的水平。更重要的是,它证明了:
- 不需要海量的人工标注数据——GRPO 可以用模型自身的输出进行对比学习
- 不需要巨大的算力——开源社区用有限的资源复现了接近 o1 的效果
- 推理能力可以被”蒸馏”——将大推理模型的能力转移到小模型
QwQ-32B(阿里巴巴,2024 年 11 月)则是一个更极致的例子:一个 32B 参数的小模型,通过类 GRPO 的训练,在推理任务上达到了接近 o1 的效果,而推理成本仅为 o1 的 1%。
这个阶段的本质
第三阶段的关键转折是:推理模型成为了一个独立的品类,而不是通用模型的”功能升级”。 它有自己的训练方法(强化学习 + CoT)、自己的评估标准(AIME、GPQA)、甚至自己的推理范式(Extended Thinking)。
但随之而来的新问题也出现了:推理越慢越好吗?思考 30 秒和思考 300 秒有什么区别?
这就引出了第四阶段——推理效率革命。
第四阶段:推理效率革命 —— 更快、更便宜、更智能
Test-Time Compute Scaling:推理的”摩尔定律”
o1 最重要的发现之一是:在推理任务上,增加测试时的计算量(更多思考步骤、更多采样)比增加模型参数更有效。
这催生了一个全新的研究方向:Test-Time Compute Scaling(测试时计算扩展)。
核心问题是:给定一个固定的计算预算,如何最优地分配推理资源?是生成更多条推理链然后投票?还是在单条推理链上做更深的搜索?
2026 年 4 月的新论文《Scaling Test-Time Compute for Agentic Coding》将这一思路扩展到 Agent 场景——让 Agent 在编写代码时动态决定需要多少”思考”时间。
GRPO 训练范式普及
GRPO 的出现极大地降低了推理模型的训练门槛。与传统的 PPO(Proximal Policy Optimization)相比:
- 不需要 Value Model:省掉了一个完整的模型训练
- Group-wise 对比:对一组输出进行相对排序,而非绝对打分
- 实现简单:开源社区已经实现了一键复现版本
2025 年,HPC-AI.com 的开发者展示了 GRPO 的一键运行版本,让任何拥有 HPC 资源的研究者都能训练自己的推理模型。
Diffusion LLM:推理的另一条路
如果说以上工作都是在自回归框架内做优化,那么 Diffusion LLM 则是在挑战自回归范式本身。
2025 年 4 月,Inception Labs 发布了 Mercury——第一个商业规模的扩散语言模型。它的核心思想是:
不逐字生成,而是并行生成整个文本,再通过多轮迭代逐步”精炼”。
这类似于 Stable Diffusion 生成图像的过程:从噪声开始,逐步去噪,最终得到清晰的图像。
Mercury 的后续版本带来了更大的突破:
| 模型 | 亮点 | 速度提升 |
|---|---|---|
| Mercury 2(2026.02) | 扩散推理模型,质量对标自回归 | 显著提升 |
| Consistency Diffusion(2026.02) | 一致性蒸馏 | 14 倍加速,零质量损失 |
| Block Diffusion | 自回归与扩散的插值 | 可控的速度-质量权衡 |
| Introspective Diffusion(2026.04) | 自我反思的扩散模型 | 进一步提升推理质量 |
为什么扩散模型在推理任务上有优势?因为推理的本质是全局最优——你需要同时考虑整个推理链的逻辑一致性,而不是一步一步地”走一步看一步”。扩散模型的并行生成天然更适合这种全局优化。
2026 年:World Models 与多模态推理
最新的趋势是推理能力从文本向多模态扩展:
- SANA-WM(NVIDIA,2026 年 5 月):仅 2.6B 参数的开源世界模型,能生成 1 分钟的 720p 视频。这意味着模型不仅”理解”物理世界,还能”想象”它。
- Multimodal Diffusion LLMs(MMaDA-Parallel,2025 年 11 月):将扩散推理扩展到多模态编辑和生成。
- Agentic Reasoning:推理不再停留在文本层面,而是直接驱动 Agent 的行动——思考 → 行动 → 观察 → 再思考的闭环。
这个阶段的本质
第四阶段的核心主题是:推理不再只是”更强”,而是”更聪明地强”。
- 用更少的参数达到同样的推理效果(QwQ-32B)
- 用更短的时间完成同样的推理任务(Consistency Diffusion 14x 加速)
- 用更合理的方式分配推理资源(Test-Time Compute Scaling)
- 用更自然的范式进行推理(Diffusion vs Autoregressive)
第五阶段:未来方向 —— 2026 及以后
World Models:推理的物理基础
当模型能够”想象”物理世界时,推理就不再是纯符号操作,而是有了物理基础。SANA-WM 这样的世界模型预示着:未来的推理模型可能先”模拟”物理过程,再基于模拟结果进行推理。
这类似于人类解决问题时的”心理模拟”——下棋时先在脑海中”走几步”,修车时先”想象”拆装过程。
自我反思与自我修正
Introspective Diffusion LLMs 的出现表明,推理模型正在获得自我反思的能力——不仅能生成推理链,还能评估自己的推理是否正确,并在发现错误时自我修正。
这是从”一次生成”到”迭代优化”的范式转变。
推理民主化
随着 DeepSeek-R1、QwQ-32B 等开源模型的成熟,推理能力不再被少数巨头垄断。任何研究者和开发者都能:
- 下载开源推理模型
- 用 GRPO 在自有数据上微调
- 用扩散 LLM 探索新的推理范式
核心技术深度解析
CoT 为什么有效?
Quanta Magazine 在 2024 年 3 月发表了一篇深度分析文章,从理论角度解释了 CoT 的有效性:
神经网络本质上是并行计算引擎。当被要求直接输出答案时,它必须在有限的前向传播中”压缩”所有计算。而 CoT 相当于将计算展开到时间维度——每一步前向传播只处理一部分计算,多步累积后完成复杂的推理。
这解释了为什么小模型上的 CoT 效果有限——它们的”每一步计算能力”不足,展开再多步也不够。而大模型有足够的每步计算能力,展开后就能处理复杂任务。
CoT 的争议:真的是推理还是模仿?
2025 年 8 月,两篇几乎同时发表的论文引发了激烈讨论:
- Sean Goedecke 的《Is Chain-of-Thought AI Reasoning a Mirage?》提出:CoT 生成的推理链可能只是对推理过程的模仿,而非真正的逻辑推导。
- Ars Technica 报道的研究发现:LLMs 在逻辑推理任务上”擅长流利的废话,拙于严密的推导”。
这两篇论文的共同观点是:CoT 的”推理链”可能是一个事后解释(post-hoc rationalization),而非真实的推理过程。
这个争议至今没有定论。但它提醒我们:在评估推理模型时,不能只看答案的正确性,还要看推理过程的逻辑严密性。
GRPO 与 PPO 的本质区别
PPO 是传统的强化学习对齐方法,需要训练一个额外的 Value Model 来估计每个状态的”价值”。这在推理任务中有两个问题:
- 训练成本翻倍:需要同时训练 Policy Model 和 Value Model
- Value Model 的不确定性:在推理任务中,中间步骤的”价值”很难准确估计
GRPO 的思路更简单:对同一输入生成一组输出,然后在这个组内进行相对排名。 不需要绝对的价值估计,只需要知道”哪个更好”。
PPO: 生成输出 → Value Model 打分 → 更新策略
GRPO: 生成一组输出 → 组内排序 → 更新策略
这种”相对优于绝对”的思路,与人类学习的方式更相似:我们通常不需要知道一个答案的”绝对分数”,只需要知道哪个答案更好。
自回归 vs 扩散:推理范式的选择
| 维度 | 自回归模型 | 扩散模型 |
|---|---|---|
| 生成方式 | 逐 token 串行 | 并行 + 迭代精炼 |
| 推理时间 | O(n),n 为输出长度 | O(k),k 为迭代次数(通常 k << n) |
| 逻辑一致性 | 局部最优(逐步生成) | 全局最优(整体精炼) |
| 可并行性 | 低 | 高 |
| 成熟度 | 高(2022 至今) | 中(2025 至今) |
| 适用场景 | 长文本生成、对话 | 数学推理、代码生成、短文本 |
扩散模型不是要替代自回归模型,而是在推理密集型任务上提供了更好的选择。
开源推理模型对比
| 模型 | 参数量 | 训练方法 | 推理方式 | AIME 得分 | 推理成本 |
|---|---|---|---|---|---|
| OpenAI o1 | 未公开 | RL + SFT | 自回归 + 扩展思考 | ~83% | 高 |
| DeepSeek-R1 | 671B (MoE) | GRPO | 自回归 + 思考 | ~79% | 中 |
| QwQ-32B | 32B | 类 GRPO | 自回归 + 思考 | ~78% | 极低 |
| Mercury | 未公开 | 扩散训练 | 并行扩散 | 中等 | 中 |
| Claude 3.7 | 未公开 | SFT + RL | 自回归 + Extended Thinking | ~80% | 高 |
选择建议:
- 需要最强推理能力且不差钱 → OpenAI o1 / Claude 3.7
- 追求性价比 → DeepSeek-R1(API 价格约为 o1 的 1/5)
- 本地部署或极低预算 → QwQ-32B(32B 参数,单卡可跑)
- 探索新范式 → Mercury 等扩散 LLM
争议与反思
争议一:推理能力是真实的吗?
“CoT is a mirage” 的讨论引发了对推理本质的深层思考。一个核心问题是:如果模型在推理链中写了错误的中间步骤,但最终答案正确,这算推理成功还是失败?
目前的共识是:至少在某些任务上,推理链确实反映了模型的计算过程,而不仅仅是事后包装。但这也意味着我们需要更好的评估方法来区分”真正的推理”和”推理的模仿”。
争议二:CoT 的价值在下降?
Wharton 商学院教授 Ethan Mollick 在 2025 年发表研究,发现随着模型越来越强,CoT 提示的收益在递减。他的观点是:
当模型足够强大时,它已经”内化”了推理能力,不需要显式的 CoT 提示来触发。
这意味着 CoT 可能是一个”过渡技术”——在模型不够强时有效,在模型足够强后变得多余。
争议三:推理越慢越好吗?
o1 的成功让人们以为”思考越久越好”,但现实可能更复杂:
- 对于简单问题,过度思考反而可能引入错误
- 对于开放性问题,”正确答案”不存在,思考时间的收益递减
- 推理成本(时间和 Token)与收益之间存在最优解
2026 年的研究方向之一正是 Compute-Optimal Scaling——找到每个任务的最优推理预算。
实践指南
如何选择推理模型?
任务类型 推荐模型 理由
──────────────── ──────────────── ──────────────────────
数学竞赛/逻辑推理 o1 / Claude 3.7 最强推理能力
日常编程辅助 QwQ-32B / R1 性价比最优
本地部署 QwQ-32B 32B 参数,单卡可跑
批量代码审查 Mercury 2 并行推理,吞吐高
多模态推理 Gemini Thinking 原生多模态
本地部署 QwQ-32B
# 使用 llama.cpp 部署
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
# 下载量化模型(需要 Hugging Face CLI)
pip install huggingface-hub
huggingface-cli download Qwen/QwQ-32B-GGUF qwq-32b-Q4_K_M.gguf
# 启动服务
./llama-server -m qwq-32b-Q4_K_M.gguf -c 8192 --host 0.0.0.0 --port 8080
推理模型的最佳 Prompt 策略
与通用模型不同,推理模型有独特的使用方式:
- 不需要加 “Let’s think step by step”——推理模型已经内化了 CoT
- 给足上下文——推理模型对上下文的利用效率更高
- 善用系统提示——指定角色和任务类型可以激活特定的推理模式
- 容忍延迟——推理模型的响应时间更长,这是正常的
- 评估中间步骤——如果 API 支持,检查模型的思考过程,而不仅仅是最终答案
总结:推理演进的三重奏
回顾这五年的演进,我们可以用”三重奏”来概括:
第一重:提示(Prompting)
CoT、Self-Consistency、Tree of Thoughts —— 从外部触发模型的推理能力。这是”发现”的阶段。
第二重:训练(Training)
PRM、Self-Training、GRPO —— 将推理能力内化到模型参数中。这是”塑造”的阶段。
第三重:架构(Architecture)
Diffusion LLM、World Models、Introspective Models —— 重新设计推理的底层范式。这是”超越”的阶段。
这三个阶段不是替代关系,而是叠加关系。今天的推理模型同时受益于:
- CoT 提示技巧(即使内化了,prompt 仍然有影响)
- PRM 训练方法(让模型学会逐步推理)
- 新的架构选择(扩散、世界模型等)
未来展望
2026 年的推理模型正在走向三个方向:
- 更快:扩散 LLM 将推理速度提升 14 倍,Test-Time Compute Scaling 让每一秒的计算都物尽其用
- 更便宜:QwQ-32B 用 1% 的成本实现了接近 o1 的效果
- 更通用:从数学推理到代码、从文本到多模态、从思考到行动
推理不再是少数模型的专利,而是正在成为所有 AI 系统的基础设施。
参考资料
核心论文
- Wei, J. et al. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022)
- Wang, X. et al. “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023)
- Yao, S. et al. “Tree of Thoughts: Deliberate Problem Solving with Large Language Models” (NeurIPS 2023)
- Lightman, H. et al. “Let’s Verify Step by Step” (2023)
- Zelikman, E. et al. “STaR: Bootstrapping Reasoning With Reasoning” (NeurIPS 2022)
技术博客与分析
- Sebastian Raschka. “Understanding Reasoning LLMs” — https://magazine.sebastianraschka.com/p/understanding-reasoning-llms
- Quanta Magazine. “How Chain-of-Thought Reasoning Helps Neural Networks Compute” — 2024.03
- Sean Goedecke. “Is Chain-of-Thought AI Reasoning a Mirage?” — 2025.08
- HuggingFace. “Scaling Test-Time Compute with Open LLM Models” — 2024.12
项目与模型
- DeepSeek-R1 — https://github.com/deepseek-ai/DeepSeek-R1
- QwQ-32B — https://qwenlm.github.io/blog/qwq-32b-preview/
- Mercury (Inception Labs) — https://www.inceptionlabs.ai/introducing-mercury
- Consistency Diffusion — https://www.together.ai/blog/consistency-diffusion-language-models
- SANA-WM — https://nvlabs.github.io/Sana/WM/
