引言
大型语言模型(LLM)在自然语言处理方面表现出色,但推理和决策能力仍有提升空间。研究人员正尝试将强化学习(RL)引入LLM智能体训练,以优化其在复杂任务中的表现。自2024年下半年以来,多项研究将LLM视为智能体,通过RL训练增强其多步推理、工具使用和环境交互能力。这种方法旨在利用RL的反馈和探索机制,提升LLM的推理策略、自主决策和协作能力,从而提高解决复杂任务的效率和成功率。
本文将综述8项关于“基于强化学习优化通用大语言模型智能体”的最新研究,涵盖奖励分配、多智能体协同、检索增强和推理规模化等方面。我们将介绍研究背景和动机,分类讨论主要进展,进行对比分析,并总结挑战与展望未来方向。
背景与动机
传统大模型往往依赖模仿学习(如指令微调)来学习人类提供的思维链,但在测试时仍需要通过多次采样或引入外部验证器来提高答案正确率,代价高且无法本质上提升模型推理水平。
强化学习为此提供了一条新途径:通过环境反馈信号来引导模型自我探索更优的解题路径。近期一系列研究尝试设计新的RL框架和奖励机制,专门用于提升LLM在复杂推理、多步骤决策、多工具交互等场景下的能力边界。
当前研究面临的主要挑战包括:
-
多轮推理的信用分配问题:传统方法只根据最终结果给予奖励,无法准确评估每个中间步骤的贡献
-
推理效率与准确性的平衡:需要在保持准确性的同时压缩冗长的推理链条
-
外部工具调用:模型需要学会何时以及如何查询搜索引擎等外部资源
-
多智能体协同:多个模型协作时需要有效的协同训练机制
-
泛化与推理规模化:希望模型在更大推理深度下性能提升,并具备跨任务泛化能力
主要研究方法
多轮交互中的细粒度奖励与信用分配优化
回合级奖励归因 (Turn-Level Credit Assignment)
Zeng等人提出在马尔可夫决策过程框架下,设计细粒度回合级优势估计策略。该方法将每次工具使用或对话响应视为一个决策回合,为每个回合单独估计对最终成果的贡献度,从而更准确地强化有益的中间步骤。实验显示,在复杂工具使用环境中,智能体的工具调用准确率达到100%,最终答案匹配率从20-30%提升至50%
Context-lite多轮RL
Chen等人关注于长对话历史、稀疏奖励等多轮代理任务的挑战,提出“Context-lite”多轮强化学习框架,包含两个核心机制
(a) 可定制的代理记忆机制:智能体可以根据任务需求选择性地使用历史对话上下文,以避免无关冗余的历史干扰。
(b) 双折扣因子的GAE:分别针对决策步和token序列进行折扣累积,可以在计算优势时,同时平衡每一步决策以及每步中长token序列对回报的影响,实现步骤级与词元级信用分配的解耦。
实验在BabyAI环境的四个任务上验证了该框架。与没有记忆机制或没有双折扣GAE的变体相比,Context-lite显著提高了多轮任务的效率和成功率。这说明在多轮环境交互中,引入灵活记忆和双层次优势估计可以有效缓解长期依赖和稀疏奖励问题。
SWEET-RL逐步评估算法
Meta AI的Zhou等人聚焦于人机协同的多轮复杂任务,设计了SWEET-RL算法(Step-WisE Evaluation from Training-time information),关键是引入一个训练期评论员模型,利用交互过程中的的隐藏信息或最终答案,对智能体的每个对话步骤进行评分,从而提供细粒度的逐步奖励信号。
实验结果显示,在ColBench上,SWEET-RL将Llama-3.1-8B模型的任务成功率和用户胜率提高了绝对6%,并使其性能达到或超过GPT-4o的水平。这说明引入训练期辅助评价可以显著提升多轮协作任务中智能体的表现,而不需要人工逐步反馈。
综上,这三项方法都致力于解决多轮交互中的奖励分配和信用归因难题:前两者(回合级方法和Context-lite)通过改进优势估计算法,从算法层面提供更精准的奖励分配;SWEET-RL则通过引入辅助评价模型,从架构层面提供更丰富的中间反馈信号。它们共同证明了,在LLM智能体执行多步任务时,精细刻画每一步的贡献对于提升整体决策效果至关重要。
多智能体协同与自我反思机制
Long⊗Short双Agent协作
Ning等人提出在LLM推理中引入双智能体分工协作的思想,引入Long⊗Short推理框架:由两个LLM智能体分别扮演“长思路生成者”和“短思路生成者”的角色,协同解决问题。
长思路LLM负责产出更详细、全面的关键推理步骤,以确保推理有效性
短思路LLM则专注于简洁地生成其余辅助步骤,提高推理效率
两者协同工作的过程可以看作一个多轮对话:长思路Agent先提出初步推理,短思路Agent补充简洁推理,反复交叉,最终产出答案,过多轮强化学习进行优化,强化两Agent之间的配合。
通过这种方式,成功将Qwen2.5-7B和Llama3.1-8B模型的推理链条长度减少了80%以上,而性能与大型教师模型DeepSeek-R1的蒸馏模型相当。新框架在大幅压缩思维链的同时,保持了答案准确率基本不下降。
多智能体反思强化 (Multi-Agent Reflection)
Yuan和Xie关注LLM验证-改进(verify-and-improve)推理范式,即让模型生成初答,再自我检查并反复改进答案。他们采用Actor-Critic框架:由一个演员(actor)LLM提出答案改进方案,另一个评论员(critic)LLM根据偏好对改进方案打分。
具体而言,在训练中对于同一问题,模型会自举产生多个不同版本的解答,然后评论员根据某种质量评价标准对这些解答排序,给出偏好反馈,演员据此更新策略。这种直接偏好反馈等价于一个学习到的奖励模型,指导模型往更优答案分布优化。
实验采用多个基础模型实例化该框架,在数学推理基准MATH500等上都取得了显著提升,对一个数学问题连续迭代五次改进,采用投票集成后正确率从58.2%提升到63.2%
上述两种协同方法都利用了多个LLM Agent之间的交互来提升推理。Long⊗Short框架强调不同专长的模型合作:一个详尽,一个简洁,结合各自优势。而Multi-Agent Reflection则体现决策者-评估者角色分离:一个提案,一个反馈修正,通过偏好学习实现闭环优化。两者共同点是通过RL促进多Agent形成良性协作策略,从而克服单一模型自我推理的局限,达到更高的性能和效率。可以设想,在未来复杂任务中,不同LLM智能体各司其职、互相反馈,将是提高AI解题能力的重要途径。
检索增强的LLM强化学习
Search-R1(检索强化)
Jin等人提出Search-R1框架,让LLM通过强化学习来学习如何在推理过程中自主生成搜索查询。在该框架中,模型的动作包括:基于当前思维链状态决定是否发出搜索请求,以及构造搜索查询的内容。整个推理由多轮“思考-搜索-思考-回答”组成,直至产生最终答案。
为了使RL训练稳定有效,作者采用了两项技术:
其一,引入检索Token遮蔽机制,在策略优化时对检索返回的文本片段不计算语言模型的损失。防止模型仅记忆或依赖检索结果文本,从而保持推理过程与外部证据的对齐,同时避免梯度直接作用于静态的检索文本导致训练不稳定。
其二,设计了简单的基于最终输出的奖励函数——只根据模型最终答案的正确性给予奖励,这种结果导向的稀疏奖励避免了复杂的人工设计,直接以问答是否正确来优化策略
实验在NQ、TriviaQA、HotpotQA等7个开放域问答数据集上显示,经过RL训练后的模型性能相较不使用RL的基线提升显著:Qwen2.5-7B模型相比检索增强的链式思维基线提高了26%的准确率。此外,由于引入了多轮检索和决策,Search-R1模型的答案长度和检索调用次数也得到自适应优化。
RAG-R1(多查询并行检索)
Tan等人进一步探索检索增强生成(RAG)框架中的模型训练问题。他们提出RAG-R1训练框架,使LLM在推理过程中可以自适应地并行利用多个检索查询。
模型不再局限于每次提出一个查询、得到结果、再决定下一个查询,而是能够在某些步骤同时发出多条查询,并行获取多方面信息。显著降低了总推理回合数,减少了推理时间。同时,通过并行获取不同角度的证据,模型的知识覆盖和推理深度也有所提升。
RAG-R1还设计了机制鼓励模型在内部已有知识(参数知识)和外部检索结果之间进行自适应选择,模型可以根据需要决定直接依赖内存中的知识,还是查询外部以获取更新信息,实现内外知识的平衡利用。
在七个问答基准上的实验表明,RAG-R1相对最佳基线模型的准确率最高提高了13.2%,同时将推理时长缩短了11.1%。这说明通过RL训练,模型不仅学会了更有效的检索策略,还掌握了并行思考的本领,能够在保证答案质量的前提下大幅加快推理速度。
通过对比,Search-R1和RAG-R1代表了检索增强型LLM的两种RL优化方向:前者解决了如何教会模型在推理中调用检索工具并优化交互流程的问题,后者则进一步考虑同时利用多路信息来加速推理和提高答案覆盖面。两者都证明了RL在这类知识强化任务中的价值:模型经过奖励驱动的训练,能够学到非显式编入Prompt的检索策略。例如,Search-R1中的模型学会了何时查询、查询什么,RAG-R1中的模型更学会并行、多源地查询。需要指出的是,RAG-R1背后的很多技巧与Search-R1一脉相承,例如它同样强调训练稳定性(作者专门缓解了RL训练时可能出现的不稳定现象)以及采用最终问答正确率作为主要奖励信号。两者的不同在于RAG-R1引入了更高阶的并行检索和内部知识利用,从而进一步提升了模型在大规模检索推理场景下的表现和效率。
强化学习与推理能力规模化
T1框架(推理规模扩展)
清华大学的Hou等人提出的T1框架通过一系列策略鼓励模型进行更广泛的探索,并研究增加推理预算(推理步数或尝试次数)对性能的影响。首先用合成的思维链数据(融入了“尝试-错误”和“自我验证”过程)对模型进行有监督初始化。使模型在强化学习前就具备较多样化的推理模式。接下来在RL训练阶段,引入多样性采样和动态正则化策略,对于每个训练问题,模型以高温采样生成多个不同解答路径,鼓励探索不同的推理路线。
这些措施在保证稳定性的同时提高了探索强度。另外,T1在研究中将推理步骤和最终答案生成解耦,允许模型在给定推理深度下输出答案,并观察随着推理深度增加性能如何变化,发现经过T1训练的模型呈现出明显的“推理扩展”行为:当增加测试时的推理步骤(如让模型想得更久或尝试更多次)时,性能可以持续提升,而不需要额外的验证或投票过程。这意味着模型学会了充分利用额外的推理计算预算来改进答案,而不像普通模型那样很快饱和。
实验结果方面,T1在多个复杂数学推理基准(如MATH500, AIME24/25等)上相比先前最佳模型提高了10%-20%的准确率。以Qwen2.5-32B为基础模型,在MATH500上T1达到了92.4分,超越此前最好的90.6分。并且T1在跨领域的GPQA问答上也有显著提升,展示了一定的泛化能力。这些成果表明,通过鼓励探索的RL训练,LLM可以突破以往推理能力的瓶颈:不仅在已知任务上表现更佳,还能在增加推理资源时继续挖掘自身潜力。
对比分析
综上所述,近一年围绕强化学习提升LLM智能体的研究各自从不同角度切入,但在核心目标上异曲同工:让模型更聪明地思考和行动,而不仅仅是模仿训练数据。表1总结了本文讨论的各方法在强化学习框架、奖励设计、多轮交互、通用性和人工反馈依赖等维度的对比。
论文 | RL框架/算法 | 奖励类型 | 多轮交互 | 通用任务 | 人工反馈 |
---|---|---|---|---|---|
Not All Thoughts | 多智能体自博弈,策略梯度 | 组合指标:正确性 + 压缩长度 | 是 | 是(通用推理) | 否 |
Turn-Level Credit | MDP + GRPO策略优化 | 稀疏最终奖励(结果正确性)+回合级优势归因 | 是 | 是(多任务通用) | 否 |
Multi-Agent Reflect | Actor-Critic (DPSDP算法) | 偏好奖励(自生成比较) | 是 | 是 | 否 |
Context-lite RL | PPO + 改进GAE | 稀疏最终奖励(任务成功)+双折扣优势估计 | 是 | 否(特定环境) | 否 |
Search-R1 | PPO/GRPO混合 | 稀疏最终奖励(答案准确) | 是 | 是(开放QA) | 否 |
SWEET-RL | Actor-Critic + 辅助评论员 | 逐步奖励(训练期Critic给分) | 是 | 否(协作编程) | 否 |
RAG-R1 | PPO变体(并行检索策略) | 稀疏最终奖励(答案准确) | 是 | 是(开放QA) | 否 |
T1 (THUDM) | PPO + 熵奖+KL惩罚 | 稀疏最终奖励(答案准确)+探索奖励(熵 | 并行查询 | 是(复杂推理) | 否 |
强化学习框架
大多数方法采用了基于策略梯度的框架(如PPO或其变种)。其中Turn-Level方法将多步决策形式化为MDP并结合GRPO偏好优化,而Multi-Agent Reflection和SWEET-RL则使用Actor-Critic结构(前者是DPSDP定制算法,后者多了一个训练期Critic模型)。Not All Thoughts和Search-R1/RAG-R1基本上在PPO框架上加入自定义模块(多Agent协作或多查询并行等)。T1从熵奖励和KL约束可推断其基于PPO的策略优化。总体来说,自定义的RL算法(如GRPO、DPSDP)被引入以适配LLM的大动作空间和偏好学习需求,但也大量借鉴了现有策略梯度框架。
奖励设计
不同方法差异较大,直接体现了各自优化目标的侧重。
Search-R1、RAG-R1、Turn-Level、Context-lite、T1等都采用了任务最终结果的稀疏奖励(通常基于答案正确与否)。但又各有变化:Turn-Level和Context-lite进一步对稀疏奖励进行优势分配优化,使其对中间步骤生效;T1在最终正确奖励外增加了熵奖励作为探索激励。Multi-Agent Reflection采用了偏好式奖励,评论员对比多种答案给出相对偏好,高于/低于基准而非绝对分数。SWEET-RL的奖励最为特别,利用训练时额外信息由Critic给予逐步反馈,相当于对每一步都有dense奖励信号。Not All Thoughts则在稀疏奖励中隐含融合了效率指标,通过设计指标鼓励更短推理而不牺牲准确,属于一个多目标奖励的案例。
因此可以看到,奖励设计上呈现两类趋势:一类坚持结果导向的简单奖励(便于稳定训练),另一类尝试丰富中间反馈(便于高效探索)。如何在这两者间平衡,将是今后研究的重要方向。
多轮交互维度
所有方法大都涉及了多轮决策过程。例如工具使用、检索查询、对话协作等本身就是多轮过程,RL主要负责在这些过程中决定每一步行动。
需要指出,“多轮”在不同方法中含义略有不同:对于Search-R1/RAG-R1,多轮指模型可以进行多次检索交互;对Turn-Level、Context-lite、SWEET-RL,多轮指与环境或用户连续对话/操作;对Multi-Agent Reflection和Not All Thoughts,多轮指模型内部多个Agent交替操作产生推理链。只有T1相对特殊,它的主要改进在于推理步骤内部的探索和扩展,因此算作单轮问答任务(没有环境交互)下的RL训练。即便如此,T1也可以看作在隐式的多步思维链上优化策略——只是这些思维步骤都是模型自身在单轮回答内完成的,而非显式与环境互动。因此,总体来说,本综述的方法大多关注多步决策问题,体现了RL擅长处理序列决策的优势。
通用任务能力
有些方法泛化性更强,有些则专注于特定场景。从表中可以看到,Search-R1和RAG-R1针对开放域问答设计,涉及的知识领域广泛,可视为通用知识推理任务。Turn-Level Credit方法被作者宣称为通用策略,可嵌入任意多轮RL算法中,实验涵盖多轮工具使用和问答等场景,因此通用性较好。Multi-Agent Reflection虽然主要实验在数学题,但其verify-improve范式适用于各种需要自我修改答案的任务(作者也测试了一些分布外任务)。T1更是直接以提升“复杂推理任务”的普适性能为目标,甚至在跨领域任务上也有不错表现。
相比之下,Context-lite主要在BabyAI这种模拟环境下验证,属于封闭环境下的指令执行,通用性有限于类似场景。SWEET-RL聚焦人机协同的内容创作(编程和UI设计)任务,该框架可以推广到其他协同场景,但毕竟有一个真实人参与的特殊前提,当前实验所涉领域也相对有限。Not All Thoughts方法针对数学和智力题等长链推理任务提出,对于这类需要压缩思维链的问题有效,但不一定适用于例如开放式对话等场景。然而,它体现的高效推理思想在其他任务上可能也有启发意义。
总体而言,大部分RL优化LLM的方法并未限定在某单一领域,而是着眼于提升模型的通用推理/决策能力。一些工作还引入了新的通用评测基准(如ColBench、EIF-Bench等)来衡量模型广泛任务下的协作或指令执行能力,这都有助于推动LLM智能体的通用性发展。
人工反馈的依赖
值得强调的是,上述方法几乎都避免了人工参与训练回路。所有比较的工作中,奖励信号要么来自任务本身的自动评价(如答案匹配正确或代码执行成功),要么来自模型生成的偏好比较或训练期可用的信息。没有一篇论文直接使用人工标注者来反馈奖励,这与经典的RLHF有所区别。虽然有的用了“偏好”或“胜率”这样的概念,但这些偏好并非人类主观选择,而是通过模型或程序自动计算(例如SWEET-RL里critic对步骤的评价,实际上是基于已知答案的程序化打分,而非真人评分)。
这种倾向体现了业界希望降低对人工反馈依赖、实现训练自动化的努力。一方面,人工反馈昂贵且难以扩展;另一方面,人工标注的偏好可能不精细或不一致,无法满足复杂推理过程的指导需求。因此,这些研究更多地探索利用环境信号、任务自带的评价指标、模型自监督信号等方式来构造奖励函数。
存在的挑战与未来展望
尽管上述方法在各自场景下取得了可喜进展,但强化学习优化LLM智能体仍面临诸多挑战,需要进一步研究和突破
奖励设计与对齐问题
自动构造的奖励函数是否真正代表了我们想让模型学到的“正确行为”。例如,简单使用答案是否正确作为奖励,模型可能学会投机取巧(如在多轮对话中反复尝试直到碰巧正确),而不是扎实地改进推理能力。
这涉及价值对齐的问题:如何设计奖励使之既全面涵盖期望的各方面能力,又不诱导模型产生不良副作用。目前的方法大多聚焦于正确率等单一指标或简单组合,未来可能需要引入多因素奖励(例如事实正确、推理步骤合理、与人偏好一致等)并权衡其比重。
此外,一些研究者指出强化学习可能被高估:模型能力的提升很多时候来自于额外的数据和计算投入,而不一定是RL本身创造了新知识。因此,需要慎重评估RL奖励是否真正带来认知上的提升,还是仅调整了输出形式。
未来方向是在更严格和多维的评测下验证RL的贡献,例如引入人类评审、对复杂推理过程的质量评估等,确保模型的进步符合人类期望。
训练稳定性与效率
RL训练众所周知难以稳定收敛。在LLM这样参数庞大、动作空间连续的情况下尤其如此。许多本文提及的方法都不同程度地遇到了训练不稳定或样本效率低的问题,并采用技巧缓解,例如Search-R1的检索token遮蔽、T1的KL约束、RAG-R1强调训练稳定性改进等。
然而,这些技巧并非从根本上解决问题。例如,多轮长轨迹任务的稀疏奖励使得RL算法需要大量尝试才能获得有效学习信号;偏好模型的训练则可能引入新不稳定因素。未来需要在算法层面改进,如分层RL(将任务分解成子任务分别学,再结合)、基于模型的RL(learn a model of environment to help planning),或者更好的探索策略来提升样本效率。
另外,训练效率和成本也是现实考虑:不少方法需要上万步的模型交互(例如SWEET-RL训练了一个16B规模模型且耗费较大计算),如何降低计算开销、提高每次交互的利用率,是实用化道路上的关键。
泛化能力和任务转移
许多RL优化后的模型在特定基准上表现突出,但当换到略有不同的任务或环境时,效果可能下降。比如,Context-lite在BabyAI上有效,但能否推广到真实机器人操作或开放型对话?SWEET-RL在编程/UI协作上表现好,但面对另一个需要多轮协同的任务(如教学对话)是否同样奏效?
未来或许需要开发更通用的训练任务或环境来提升模型泛化——类似于让模型在各种不同类型的多轮任务上都进行一些RL训练,避免其能力局限于单一类型。这可能需要结合策略蒸馏等方法,将RL得到的策略提炼、移植到预训练模型中。
多智能体与人机协作
引入多个Agent协同解决问题带来了新的复杂性。
一方面,多Agent之间如何合理通信、分工是难点,如果协作不好可能互相干扰甚至出现不稳定的策略振荡。本文涉及的协同方法大多在双智能体简单配合下验证,未来若扩展到更多Agent(例如由若干专家Agent组成团队),需要考虑组织结构和通信协议的设计,以及信用分配的进一步细化。
另一方面,人机协作场景下,人类的行为难以完全预测,RL训练往往只能基于模拟的“人类模型”进行,这可能与真实人类偏好存在差距。如何让智能体适应真实用户的多样化反馈,将关系到这类技术能否用于实际应用。
一种可能方向是在线强化学习,即在真实交互中持续更新策略,但这涉及安全和伦理风险,需要慎重对待。近期也有工作提出人类AI协同的专门评测,未来或许需要研发安全高效的人机在环RL算法,让模型在保障用户体验的同时不断提升协作水平。
安全性与可控性
RL赋予LLM更大的决策自由度,也伴随着错误行为放大的风险。例如,在工具使用场景中,若奖励设计不完善,模型可能学到一些投机取巧的工具使用方式,甚至利用工具去执行不良指令。多轮对话中,模型可能反复尝试未验证的方法导致不符合伦理的输出(比如为了提高奖励不断输出迎合偏好的内容)。因此,强化学习优化LLM时的安全控制不容忽视。
未来需要结合安全约束在训练中,比如在策略更新时加入对不良行为的惩罚项,或者训练一个安全评论员来实时监控策略输出。此外,提高模型的可解释性也是挑战之一:RL得到的策略往往是个黑箱,我们需要更好地理解模型内部的决策依据,尤其当它可以自主规划多步行动时。可能的方向包括让模型同时输出决策理由或让第二个模型监督决策合理性等。只有确保模型“学得好”又“学得正”,才能在实际复杂环境中部署这些强化的LLM智能体。
总结
综上,强化学习正在成为优化通用大语言模型智能体的强大工具。从多轮对话到检索问答,从自我反思到多Agent协作,这些前沿研究为我们展示了LLM + RL的多种可能性。通过精心设计的RL框架和奖励机制,模型不仅在准确率上有所提升,更展现出更强的决策意识和问题求解能力——会自行拆解问题、调用外部资源、反复改进答案,朝着更智能的Agent方向迈进。然而,这项领域仍处于早期探索阶段,各方法之间尚缺少统一理论,很多实践细节有待打磨。在未来,我们有望看到:更稳健高效的RL算法应用于更大型的LLM,结合人类偏好和安全约束,实现持续自我进化的通用智能体;不同方向的方法(如偏好学习与检索增强、多Agent与信用分配)可能融合,催生出兼具多模态工具使用、多步推理和人机协作能力的综合型LLM代理。这些进展将为企业内部的智能应用带来新契机,例如更聪明的对话助手、更自主的数据分析Agent等。在探索道路上,我们应充分认识到RL赋能LLM的潜力与局限,稳步推进技术改进和安全措施。可以预见,强化学习与大模型的结合将是通往通用人工智能的重要路径之一,不断拓展着大模型智能体的能力疆界。
原文链接
《Not All Thoughts are Generated Equal: Efficient LLM Reasoning via Multi-Turn Reinforcement Learning》:https://arxiv.org/abs/2505.11827
《Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment》:https://arxiv.org/abs/2505.11821
《Reinforce LLM Reasoning through Multi-Agent Reflection》:https://arxiv.org/abs/2505.11821
《Context-lite Multi-turn Reinforcement Learning for LLM Agents》:https://openreview.net/forum?id=6CE5PLsZdW
《Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning
》:https://arxiv.org/abs/2503.09516
《SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks》:https://arxiv.org/abs/2503.15478
《RAG-R1 : INCENTIVIZE THE SEARCH AND REASON- ING CAPABILITIES OF LLMS THROUGH MULTI-QUERY PARALLELISM》:https://arxiv.org/abs/2507.02962
《T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling》;https://arxiv.org/abs/2501.11651