引言
大型语言模型(LLMs)在处理复杂推理任务方面展现出惊人的能力,尤其是在数学奥林匹克竞赛、专业编程和科学推理等领域。长链式思考(Long Chain-of-Thought, CoT)作为一种新兴策略,通过增加推理过程的长度来提升LLMs的测试时扩展能力。然而,尽管长CoT推理带来了显著的性能提升,但其过长的token长度已成为一个主要瓶颈,严重限制了其有效性和实际应用价值。
当前,为了在保持性能的同时压缩推理token长度,研究人员付出了大量努力。现有解决方案大致可分为三类:免训练方法、基于监督微调(SFT)的方法和基于强化学习(RL)的方法。然而,这些方法在压缩长CoT时,往往未区分不同思考的重要性,即对所有思考一视同仁地进行压缩。这种做法可能阻碍更简洁、更有效的推理,因为某些思考可能比其他思考更关键,例如,"问题理解"可能比"双重验证"更重要,因为它不带来额外的准确性却消耗更多token。
为了解决这一问题,本文提出了一种名为 Long⊗Short 的高效推理框架。该框架的核心思想是:并非所有思考都同等重要。它首先通过自动长CoT分块和蒙特卡洛推演来调查不同思考对推理的有效性和效率贡献,并在此基础上提出了一种理论上有界的联合度量指标。随后,Long⊗Short框架通过协同工作,让两个LLM(一个负责生成重要思考的"长思考LLM"和一个负责生成其余思考的"短思考LLM")共同解决问题。具体而言,该方法首先合成少量冷启动数据,分别对LLMs进行微调,使其适应长思考和短思考的推理风格。此外,它还提出了一种面向协同的多轮强化学习机制,专注于模型自演化以及长思考LLM和短思考LLM之间的协作。实验结果表明,Long⊗Short在多个基准测试中,在显著减少token长度(超过80%)的同时,实现了与现有先进模型相当的性能。
理解长CoT中的思考
为了实现Long⊗Short框架中长思考和短思考的协同推理,首先需要深入理解长CoT中不同思考的重要性,即它们如何影响模型的有效性和效率。本文提出了一种新颖的方法来量化这些思考的贡献。
自动长CoT分块与思考推演的定量分析
与现有依赖模板或特定字符(如 \n\n 或 wait)来分割CoT的工作不同,本文提出了一种自动分割长CoT的方法。该方法利用LLMs将从先进模型(如DeepSeek-R1)中提取的长CoT分解为多个逻辑思考块,每个块代表一个独立的推理步骤(例如,问题理解、答案验证)。这种自动分块机制为后续的思考级别分析奠定了基础。
为了量化每个思考的有效性和效率贡献,研究人员对每个思考块进行了蒙特卡洛推演。与以往通过token概率进行量化的方法不同,蒙特卡洛推演能够更准确地近似每个思考在推理过程中对准确性和效率的实际影响。通过这种分析,研究人员发现,位于CoT前端的思考往往具有更高的贡献度。例如,在GPQA Diamond数据集上,仅使用前8个思考就能使Qwen2.5-7B模型在零样本提示策略下,性能大幅超越DeepSeek-R1-Distill-Qwen-7B。这表明,早期思考对于推理的有效性至关重要。
然而,研究也发现,长思考会导致token长度显著增加。例如,在GPQA Diamond数据集上,即使只使用一个思考,基础模型的响应长度也会翻倍。这提示我们,在追求准确性提升的同时,必须考虑思考的效率,对于那些仅带来微小准确性提升却大幅增加响应长度的思考,可能需要进行压缩。这些实验观察结果强调了思考的准确性增益和长度增加都至关重要,但如何统一衡量思考的重要性仍然是一个挑战。
图:如何在漫长的 CoT 中调查思想重要性的工作流程
图:定量说明思维如何影响两个推理数据集上的 (a) 响应准确性和 (b) 响应长度。我们研究了从 DeepSeek-R1-Distill-Qwen-7B 中提炼出的长思维如何影响基础模型 Qwen2.5-7B 的准确性和长度。青色虚线可以看作是完全长思路下的有效性上限,而橙色虚线则表示完全短思路下的有效性上限。
思考有效性与效率的联合度量
为了统一评估每个思考的有效性和效率,本文提出了一种联合度量指标。该指标综合考虑了蒙特卡洛推演获得的准确性增益以及对过长响应的惩罚。该度量公式为:
其中:
• dy 是所有思考的总长度。
• dyi 是特定思考 yi 的长度。 (dy - dyi) / dy 这一项对较短的思考赋予更高的分数。
• d{{y1,…,yi}} 是从 y1 到 yi 的累积思考长度。 (dy - d{y1,…,yi}) / dy 这一项对上下文长度较短的思考赋予更高的分数。
• Nrighti / Nsumi 表示通过执行蒙特卡洛推演过程 πθbase(q, {y1, y2, …, yi}) 获得的经验准确性。Nsumi 是推演的总次数,Nrighti 是正确响应的数量。这一项越高,思考的有效性越大。
• δ(yi) 是一个条件衰减惩罚项(实验中设置为0.25)。如果包含思考 yi 并未带来准确性增益(与使用 yi-1 相比),则激活此惩罚项。这一项对冗余思考(不能带来额外准确性增益)赋予较低的分数。
理论分析证明,该度量指标与最优指标之间的偏差存在上限,且该上限主要由蒙特卡洛推演的概率误差决定,可以通过增加样本量来减小。图3展示了当蒙特卡洛推演次数从23 增加到 27时,思考有效性和效率的联合度量结果。结果表明,高分主要与早期思考相关,这与直觉和分析一致。
Long⊗Short框架
基于上述思考分析,本文提出了Long⊗Short,一个旨在激励LLM长短思考推理能力的高效推理框架。
图:Long⊗Short的整体流程
Long⊗Short思考推理的冷启动与监督微调
通过前面提出的自动长CoT分块和联合度量方法,我们可以获得一系列包含思考及其分数的配对,即 {(y1, M(y1)), (y2, M(y2)), …, (yn, M(yn))},其中 M(yi) 是衡量思考有效性和效率的联合度量。接下来,需要构建用于微调长思考LLM和短思考LLM的SFT(监督微调)数据集。
冷启动数据合成。 在Long⊗Short框架中,得分高的思考被分配给长思考LLM处理,而得分低的思考则由短思考LLM处理。为了实现这一点,本文采用了一种启发式方法,通过对思考轨迹 {(y1, M(y1)), (y2, M(y2)), …, (yn, M(yn))} 进行顺序扫描。在此过程中,第一个思考 y1 总是被保留为长思考。对于每个后续思考 yi(i > 1),将其联合度量 M(yi) 与所有先前思考的最大分数进行比较:M(yi) > max{M(y1), M(y2), …, M(yi-1)}。如果此不等式成立,则 yi 被认为足够重要,并被保留为长思考。否则,如果 M(yi) ≤ max{M(y1), …, M(yi-1)},则会提示一个非推理LLM根据思考类型重新完成 yi,其结果自然作为短思考。这个过程最终会生成一个包含交替思考块的结构化序列:{l1, s1, l2, s2, …, lm, sk},其中 m+k ≤ n,因为多个思考可能会合并成一个短思考。表1展示了一个长思考LLM和短思考LLM如何切换角色来回答给定问题的示例。
效率感知微调。 随后,将推理模板和思考上下文连接起来,得到两个SFT数据集 Dlong 和 Dshort。具体来说,对于 Dlong,指令输入 xlong = Γlong || q || h 是长思考推理模板 Γlong、问题 q 以及长思考LLM和短思考LLM之间历史对话 h(例如 <think>…</think><answer>…</rethink>)的连接。而指令输出则对应长思考推理过程。对于 Dshort,指令输入 xshort = Γshort || q || h。不同之处在于推理模板和潜在的历史对话 h(例如 <think>…</think> 或 <think>…</think><answer>…</rethink><think>…</think>)。然后,利用这些数据集对基础模型进行全参数微调。通过这个微调过程,可以得到两个专门的模型:πθlong,用于有效生成长思考;πθshort,用于高效生成短思考。
表:举例说明长思维 LLM 和短思维 LLM 如何转换角色来回答给定的问题。一般来说,长思维 LLM 使用 <think> 开始思考,并使用 </think> 停止思考过程。短思维 LLM 使用 <answer> 继续剩余步骤,而使用 </answer> 则停止解题过程或使用 </rethink> 要求长思维 LLM 再次生成思维
面向协同的多轮强化学习
在冷启动阶段之后,长思考LLM和短思考LLM可以通过多轮对话协作解决问题。为了促进更高效的推理,本文提出了一种面向协同的多轮强化学习框架,旨在增强Long⊗Short思考推理范式的有效性和效率。
异步策略优化。 与现有通过与环境直接交互来更新模型策略的多轮强化学习方法不同,Long⊗Short的方法要求长思考LLM πθlong 和短思考LLM πθshort 进行多轮对话,以获得用于策略更新的最终奖励。通过在策略学习过程中明确地以外部模型为条件,可以实现更有效的协作。这种交替优化确保了每个模型都与其对应模型协同更新其策略,从而实现更高效的推理。
在线采样策略。 为了提高策略优化的稳定性并避免额外的值函数近似,本文使用组相对策略优化(GRPO)来为每个输入 x 采样一组输出 o = {o1, o2, …, oG}。采样过程遵循迭代框架,系统在生成长思考(通过 πθlong)和短思考(通过 πθshort)之间交替。这个过程一直持续到短思考LLM生成最终响应,该响应包含在指定的答案token <answer> 和 </answer> 之间。然后,根据混合奖励模型计算奖励。
混合奖励建模。 奖励函数 r(x, o) 是指导强化学习优化过程的主要训练信号。本文设计了一个结合正确性、格式遵循和响应长度的混合奖励,其公式为:
其中:
• apred 是从输出 o 中提取的最终答案,agold 是真实答案。EM(.) 是一个基于规则的函数。
• FM(.) 代表格式奖励函数,旨在鼓励LLMs遵循附录中表7和表8中指定的预定义训练模板。
• LM(.) 是长度奖励函数,用于引导模型使用更少的token来获得最终答案。
• 系数 η、λ 和 µ 作为重加权参数,用于控制每个组件在大规模强化学习过程中的贡献。在初始阶段,µ 设置为0,并逐渐增加。
实验
实验设置
基础LLM。 实验中,本文选择了Llama-3.1-8B和Qwen-2.5-7B作为基础模型,并与它们的CoT推理版本(即DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Qwen-7B)进行了比较。
基准测试。 本文在五个广泛使用的基准测试中评估了所提出方法的性能:MATH500、AIME2024、AIME2025、GPQADiamond和AMC2023。
评估与指标。 本文采用Pass@1准确率、平均长度和准确率-效率得分(AES)作为评估指标,以衡量模型在推理有效性和效率之间是否达到理想平衡。具体而言,AES的计算公式为:
其中,Lengthbase 和 Accbase 分别指蒸馏后的长CoT LLM的响应token长度和准确率。遵循O1-Pruner的原始设置,当 Accmodel - Accbase ≥ 0 时,η = 1 且 ζ = 3;否则,ζ = -5。
主要结果
本文比较了Long⊗Short在SFT冷启动阶段和迭代RL训练过程中的表现。表中展示了Long⊗Short在异步演化轮次中的比较结果,显示了Pass@1准确率的持续提升和响应长度的显著下降。其中,Long-r0⊗Short-r0 表示经过冷启动SFT阶段的模型,索引表示策略演化的轮次。
可以观察到两个关键点:
-
冷启动阶段建立了强大的初始策略。 为了使长思考LLM和短思考LLM能够有效地切换角色,本文通过蒙特卡洛推演收集SFT数据。经过微调后,Qwen2.5-7B在MATH500、AIME24/25、GPQA Diamond和AMC23上取得了显著的性能提升:分别为7.4%、59.98%、83.86%、17.32%和58.82%,同时平均响应长度从1,623个token增加到7,323个token。类似地,Llama3.1-8B也显示出16.88%、133.30%、149.93%、12.67%和111.11%的改进,响应长度从3,713个token增加到6,611个token。响应长度的增加是预期之中的,因为长思考LLM从DeepSeek-R1中蒸馏了长CoT推理风格。过长的推理长度问题将通过后续的RL过程得到缓解。
-
多轮RL持续提升推理能力。 报告显示,经过长思考LLM的4轮演化和短思考LLM的2轮演化后,Long⊗Short使Qwen2.5-7B和Llama3.1-8B的性能与DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B相当,同时将推理token长度减少了80%以上。Long-r3⊗Short-r2 也取得了最佳的AES指标,证实了迭代RL训练最大化了效率。
与现有基线的比较
本文还将Long⊗Short与现有链式思考长到短方法进行了全面比较。基线方法分为以下几类:
-
免训练方法: 这些方法依赖于提示工程或推理时技术,不进行任何参数更新。本文选择了CoD和TALE-EP作为基线。
-
基于SFT的方法: 这些方法利用精心策划的数据集进行监督微调,以学习推理模式。本文选择了C3oT、DAST和O1-Pruner作为基线。
-
基于RL的方法: 这些方法利用强化学习,通常通过任务特定目标或人类反馈获得的奖励信号来优化推理性能。本文选择了SimplePO-DAST和Kimik1.5作为基线。
一下两表展示了Long⊗Short与现有方法在Qwen2.5-7B和Llama3.1-8B上的比较结果。
表:Long⊗Short 与 Qwen2.5-7B 上现有方法的比较。我们选择 DeepSeek-R1-Distill-Qwen7B 的平均精度和长度作为 AES 指标计算的基准。
表:Long⊗Short 在 Llama3.1-8B 上与现有方法的比较。我们选择 DeepSeek-R1-Distill-Llama8B 的平均精度和长度作为 AES 指标计算的基准。
可以看出,Long⊗Short在多个基准测试和模型骨干网络上,在推理准确性和效率方面都取得了持续改进:
-
在Qwen2.5-7B骨干网络上, Long⊗Short在平均准确率方面优于大多数基线,同时显著降低了平均输出长度(2,113个token,而大多数基线为13K-17K个token)。值得注意的是,Long⊗Short取得了更高的AES分数,这表明它不仅保持了高推理性能,而且与AES基线(DeepSeek-R1-Distill-Qwen7B)相比,生成了更简洁的输出。虽然一些免训练和基于RL的方法在某些基准测试中表现出竞争力,但它们通常会带来大量的输出长度和延迟开销。
-
在Llama3.1-8B骨干网络上, Long⊗Short再次表现出强大的性能,在AMIE2025基准测试中取得了最高准确率(33.33%),在MATH500中取得了第二好的性能(86.20%),同时保持了最低的平均输出长度(2,402个token)。与AES基线(DeepSeek-R1-Distill-Llama8B)相比,Long⊗Short显著提升了AES。
与现有LLM的比较
此外,本文还将Long⊗Short与现有推理和非推理模型进行了比较,以全面评估其在推理任务中的有效性和效率。基线LLM分为以下几类:
-
非推理模型: 这些模型旨在快速解决问题,不进行显式推理。虽然它们速度快,但缺乏逐步推理可能导致不完整或不准确的输出。本文选择了GPT-4-o、DeepSeek-V3-671B、Qwen2.5-7B和Llama3.1-8B等先进模型作为代表性示例。
-
推理模型: 这些模型采用扩展的链式思考能力,在任务中执行多步推理。虽然通常更有效,但它们倾向于产生过长的推理轨迹,这会影响效率。本文选择了OpenAI-o1、DeepSeek-R1、QwQ、DeepSeek-R1-Distill-Qwen-7B和DeepSeek-R1-Distill-Llama-8B作为代表性模型。
-
混合推理模型: 这些模型能够在推理和非推理模式之间切换,从而实现更灵活的推理。本文选择了Qwen3-8B和Qwen3-32B作为比较对象。
表:与现有 LLM 的比较
可以看出,Long⊗Short展现出三个关键优势:
-
与非推理模型相比, Long⊗Short在所有基准测试中显著提高了性能,同时保持了相似的响应长度。例如,Long⊗Short-Llama3.1-8B在大多数任务中比其基础模型Llama3.1-8B平均提高了20多个百分点,甚至输出长度更短(2,402个token vs. 3,713个token)。
-
与推理模型相比, 除了DeepSeek-R1,Long⊗Short取得了相当或更好的性能,同时大幅减少了token使用量——平均输出长度压缩了80%以上(例如,从24k-28k个token减少到2k个token),从而为推理密集型任务提供了更高效的解决方案。
-
与混合推理模型相比, Long⊗Short始终匹配或超越了它们的性能,同时生成了显著更短的响应。例如,Long⊗Short-Qwen2.5-7B在AMC2023上取得了90.00分,优于Qwen3-8B-nothinking(60.00),并与Qwen3-32B-thinking(92.50)接近,同时token长度少于Qwen3-8B-nothinking。
总的来说,Long⊗Short在所有类似大小的非推理模型中取得了最高的平均Pass@1,超越了GPT-4-o、Qwen2.5-7B、Llama3.1-8B、Qwen3-8B-nothinking,甚至Qwen3-32B-nothinking。
消融研究和深入分析
本文对Long⊗Short的两个关键组件——长短思考推理冷启动和面向协同的多轮RL训练的有效性进行了消融研究,并讨论了长短思考推理范式中“顿悟时刻”的出现。
冷启动消融研究。 本文通过以下变体评估了所提出的冷启动阶段的有效性:
-
SFT w/random:用随机评分代替思考度量。
-
Prompt wo/SFT:直接提示基础模型采用长思考和短思考推理风格,不进行微调。
表中展示了冷启动消融研究的结果。
如表所示,直接提示或用随机值代替思考度量都会导致准确率显著下降和长度增加,这凸显了冷启动阶段对于长短思考推理的必要性。
异步多轮RL训练的模型演化分析。 在迭代RL过程中,长思考LLM和短思考LLM是异步更新的。它们的策略变化相互影响,共同影响整体性能,如图5所示。在早期训练中,更新短思考LLM会降低性能,这突出了长思考LLM的关键作用。为了解决这个问题,本文首先演化长思考LLM到第2轮,同时保持短思考LLM不变,从而获得了显著的性能提升。随后对短思考LLM的更新(到第1轮或更高)最初会导致性能下降,这表明它们之间的协作不稳定。随着长思考LLM进一步演化到第3和第4轮,性能趋于稳定并得到改善。尽管通过持续演化可能获得进一步的收益,但由于计算资源限制,本文将其留作未来的工作。
Long⊗Short思考推理的“顿悟时刻”。 另一个现象是RL训练过程中出现的“过度思考”和“重新思考”的“顿悟时刻”。尽管最近的研究表明即使是基础模型也表现出“顿悟时刻”,但本文发现RL可以导致“顿悟时刻”频繁发生,同时响应长度减少。
结论、局限性与未来工作 (Conclusion, Limitation and Future Work)
论文成功提出了一个有理论依据的思想重要性分析框架,并基于此开发了 Long Short 这一新颖的协同推理框架 。通过SFT冷启动和多轮RL进化,该框架显著提升了基础LLM的推理效率和性能。
局限性:作者坦诚,该方法计算成本高昂,尤其是在蒙特卡洛模拟和多轮RL进化阶段。
未来工作:未来的研究方向包括将该框架扩展到不同尺寸的LLM,并探索其在工业界的潜在应用。
论文链接
《Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning》:https://arxiv.org/abs/2505.11827