引言

在人工智能领域，大型推理模型（LRMs）的进步正以前所未有的速度改变着我们处理复杂任务的方式。这些模型通过扩展推理过程，在数学、编程和软件工程等领域取得了显著成功。然而，传统Transformer架构中自注意力机制固有的二次计算复杂度，使得持续扩展推理过程面临巨大挑战。为了解决这一瓶颈，MiniMax-M1应运而生，它是一款开创性的开源大型混合注意力推理模型，旨在高效扩展测试时计算。

MiniMax-M1是基于MiniMax-Text-01模型开发的，它融合了混合专家模型（MoE）架构和闪电注意力机制。该模型总参数量高达4560亿，每个token激活的参数量为459亿。MiniMax-M1原生支持100万token的上下文长度，是DeepSeek R1上下文大小的8倍。更重要的是，MiniMax-M1中的闪电注意力机制能够高效扩展测试时计算。例如，在10万token的生成长度下，M1的FLOPs消耗仅为DeepSeek R1的25%。这些特性使得M1特别适合处理需要长时间输入和大量思考的复杂任务。

本文将深入探讨MiniMax-M1的核心技术、训练方法以及其在各项基准测试中的表现，揭示其如何为下一代语言模型智能体奠定坚实基础，以应对现实世界的挑战。

MiniMax-M1的核心架构：混合专家模型与闪电注意力

MiniMax-M1的核心优势在于其创新的混合架构，它结合了混合专家模型（Mixture-of-Experts, MoE）和闪电注意力（Lightning Attention）机制，旨在克服传统Transformer模型在处理长序列和扩展推理时的计算瓶颈。

混合专家模型（MoE）

MoE架构允许模型在处理每个输入token时，动态地激活部分专家网络，而不是整个模型。MiniMax-M1总参数量为4560亿，但每个token仅激活459亿参数，这显著降低了推理时的计算成本，同时保持了模型的巨大容量。这种稀疏激活的特性使得模型能够更高效地处理大规模数据，并为更长的推理链提供了可能性。

闪电注意力（Lightning Attention）

闪电注意力是MiniMax-M1的另一个关键组成部分。它是一种I/O感知的线性注意力变体实现，旨在解决传统自注意力机制中存在的二次计算复杂度问题。在MiniMax-M1的设计中，每七个带有闪电注意力的Transnormer块之后，会跟随一个带有Softmax注意力的Transformer块。这种混合注意力设计理论上能够将推理长度高效扩展到数十万个token。
与DeepSeek R1相比，M1在64K token生成长度下的FLOPs消耗不到50%，在100K token长度下约为25%。这种显著的计算成本降低使得M1在推理和大规模强化学习（RL）训练中都更加高效。

此外，得益于其闪电注意力机制，MiniMax-M1原生支持高达100万token的上下文长度，这比DeepSeek R1的上下文大小大了8倍，并且比目前所有开源大型推理模型都高出一个数量级。这一特性使得M1特别适合处理需要处理长输入和生成扩展思考的复杂现实世界任务。

高效强化学习（RL）扩展：算法与闪电注意力

MiniMax-M1的训练过程采用了大规模强化学习（RL），并在效率方面进行了创新。这不仅得益于其混合架构的固有优势，还归功于一种新颖的RL算法——CISPO，以及针对混合架构RL扩展挑战的解决方案。

CISPO算法：优化重要性采样权重

在传统的RL算法如PPO/GRPO中，为了稳定训练，通常会对token更新进行裁剪。然而，研究发现这种裁剪操作可能会对训练性能产生负面影响，尤其是在长链式思考（CoT）推理行为的出现方面。

MiniMax-M1团队发现，与反射行为相关的低概率token（例如“然而”、“重新检查”、“等等”）在策略更新时往往具有较高的重要性采样（IS）权重，但这些token在第一次在线更新后很可能被裁剪掉，从而无法对后续的离线梯度更新做出贡献。这在混合架构模型中尤为突出，并阻碍了强化学习的可扩展性。

为了解决这个问题，MiniMax-M1提出了CISPO（Clipped IS-weight Policy Optimization）算法。CISPO的核心思想是，不裁剪token更新，而是裁剪重要性采样权重。这种方法确保了所有token，即使是那些与大更新相关的token，也能对梯度计算做出贡献，从而提高了RL效率并稳定了训练。实验表明，CISPO在相同的训练步数下显著优于DAPO和GRPO，并且在训练效率上表现出卓越的性能，例如，它仅用DAPO一半的训练步数就达到了相同的性能。

闪电注意力RL扩展的挑战与解决方案

尽管混合注意力架构本身就为高效RL扩展提供了便利，但在实际大规模RL实验中，MiniMax-M1团队遇到了独特的挑战，并开发了有针对性的解决方案：

生成与训练中的计算精度不匹配：RL训练对计算精度高度敏感。在MiniMax-M1的RL训练中，团队观察到训练模式和推理模式下生成token的概率存在显著差异。这种差异源于训练和推理内核之间的精度不匹配，这阻碍了奖励的增长。通过逐层分析，团队发现LM输出层的高幅度激活是主要误差源。解决方案是将LM输出头的精度提高到FP32，从而使理论上相同的两种概率重新对齐，将训练和推理概率之间的相关性从约0.9提高到0.99以上，从而实现了奖励的成功增长。
优化器超参数敏感性：MiniMax-M1的梯度幅度范围很广，从1e-18到1e-5，并且相邻迭代的梯度相关性较弱。不适当的AdamW优化器配置（如默认的beta和eps值）可能导致训练不收敛。团队通过实验调整了beta值和eps值，以适应这种梯度特性，确保了训练的稳定性。
通过重复检测进行早期截断：在RL训练过程中，复杂的提示可能会导致病态的冗长和重复响应，其巨大的梯度会威胁模型稳定性。为了解决这个问题，MiniMax-M1团队开发了一种基于token概率的启发式方法：如果连续3000个token的概率都高于0.99，则停止生成。这种方法成功地防止了模型不稳定，并通过消除这些病态的、长尾情况提高了生成吞吐量。

通过这些创新，MiniMax-M1的完整RL训练周期仅需3周，使用512个H800 GPU，租用成本约为53万美元，这充分展示了其高效和可扩展的RL框架。

利用多样化数据扩展强化学习

MiniMax-M1的RL训练管道整合了多样化的环境，包括可以通过规则验证的任务和需要通过奖励模型验证的通用任务。所有这些环境都通过精心设计的课程整合到RL阶段。

基于规则验证的推理密集型任务

MiniMax-M1的RL训练数据包括大量基于规则验证的推理密集型任务，这些任务的正确性可以通过确定性规则进行验证，并辅以格式奖励。主要包括：

数学推理：数据集包含数十万个高质量、竞赛级别的数学问题，这些问题经过精心筛选和组织，并与标准参考解决方案配对。数据清洗流程包括去除不完整样本、格式错误样本，并进行语义去重，以避免与SFT数据集的重叠。此外，还通过n-gram和嵌入式方法消除与常用数学基准测试集的潜在污染。最终，筛选出约5万个高质量数学样本用于RL训练。
逻辑推理：针对41个逻辑推理任务，MiniMax-M1利用SynLogic框架（Liu et al., 2025a）合成了数据。该框架具有任务特定的数据生成器和基于规则的任务特定验证器，能够自动生成逻辑数据。通过精心配置难度参数，确保生成的数据在难度和可学习性之间取得平衡，避免了过难或过易的实例。
竞技编程：从在线判题平台和流行编程网站收集问题。对于缺少测试用例的问题，开发了基于LLM的工作流，并使用MiniMax-Text-01模型生成全面的测试套件。通过模型采样和难度筛选，保留了中等挑战性和高质量的算法问题，生成了3万个竞技编程数据样本。
软件工程：受SWE-bench（Jimenez et al., 2024）启发，MiniMax-M1通过利用GitHub公共仓库的真实世界数据构建了可验证的强化学习环境。数据集主要包括封装了常见软件开发挑战（如bug定位、代码修复、测试用例合成）的问题和拉取请求。通过复杂的容器化沙盒环境模拟真实的软件开发工作流，代码的实际执行提供了直接和可验证的反馈，测试用例的通过/失败状态作为RL框架的主要奖励信号。

基于模型反馈的通用领域任务

除了基于规则验证的任务，MiniMax-M1还将RL范围扩展到更广泛的通用领域任务，这些任务难以通过规则验证，因此使用奖励模型提供反馈。主要分为两类：

有事实真相的任务：主要包括STEM和其他事实性问题，答案是客观的，但可能有多种有效表达。MiniMax-M1使用生成式奖励模型（GenRM）作为验证器，而不是依赖基于规则的检查器。通过人工标注的奖励模型基准和GenRM在多个基准上的表现评估其有效性。
无事实真相的任务：涵盖更广泛的任务，包括指令遵循、创意写作等。即使这些查询通常是开放式的且没有事实真相答案，MiniMax-M1也为每个查询配对了一个参考答案，作为奖励模型判断的参考。在RL训练中，采用成对比较框架评估模型响应，并通过人工标注的基准和优化评分标准来解决潜在偏差。

整合多样化数据的课程

MiniMax-M1的RL训练过程采用了一种精心管理的课程和动态加权策略，以应对在推理密集型任务和通用领域任务上同时表现出色的挑战。训练从仅包含基于规则奖励的推理密集型任务开始，然后逐步混合通用领域任务。这确保了模型在不断完善其可验证技能（例如数学和代码）的同时，逐步提高其在各种通用任务（从复杂指令遵循到开放式CoT推理）上的性能。这种混合RL训练鼓励模型学习其推理能力的上下文相关应用，从而在统一的策略框架内，对可验证问题进行严谨的、循序渐进的推导，并对通用查询进行更灵活、适应性强的生成。它防止了专业技能的灾难性遗忘，同时促进了更广泛的泛化能力。

将RL扩展到更长的思考

MiniMax-M1的混合架构原生支持对更长序列的近线性扩展，这使得将RL训练中的生成长度进一步扩展成为可能。最初的RL训练将输出长度限制在40K token，在此基础上，MiniMax-M1团队将生成长度扩展到80K token，从而产生了MiniMax-M1-80k模型。

数据与长度扩展策略

为了高效训练80K输出长度的RL模型，团队利用了之前训练的40K模型来指导数据过滤过程。具体而言，他们评估了现有数据集的通过率，并移除了容易解决的样本，调整数据分布以偏向更具挑战性的示例，例如困难的数学和编码问题。此外，在观察到合成推理数据会破坏长上下文RL训练的稳定性后，他们对合成推理数据进行了降采样，因为这种数据类型生成的输出往往重复且同质，持续暴露于这些模式对模型的整体性能有害。

为了逐步增加输出长度，MiniMax-M1采用了分阶段窗口扩展RL策略。训练从40K的输出长度开始，逐步扩展到48K、56K、64K、72K，最终达到80K。这种分阶段的方法确保了每个步骤的训练稳定性。向后续长度的过渡由一组经验指标决定，包括生成序列的困惑度收敛以及输出长度的99%分位数是否接近当前上下文窗口限制。这些信号为模型扩展的准备情况提供了有价值的见解，从而在整个过程中保持了稳健的训练。

解决扩展过程中的训练不稳定性

在扩展过程中，团队在每个长度窗口训练的后期阶段遇到了一个关键问题：模型表现出对模式崩溃的敏感性，即生成序列的后半部分退化为不连贯或混乱的文本。这种现象始终伴随着困惑度的增加，表明生成质量和稳定性受到损害。团队确定了根本原因：在输出长度扩展期间，负样本的长度增长速度远快于正样本，经常更早地达到上下文窗口限制。因此，不成比例的巨大负梯度累积在生成序列的后半部分。这种不平衡源于GRPO优势归一化和所采用的token级损失固有的不平等性质。

为了解决这个问题，MiniMax-M1实施了三个关键解决方案：

通过重复检测进行早期停止：检测重复模式（连续高概率token）并进行早期停止，以防止重复响应过度消耗上下文窗口。
采用组合样本级损失和token级归一化：缓解负样本和正样本之间的不平衡，并减轻不利影响。
降低梯度裁剪阈值：进一步稳定生成过程。

这些改进确保了MiniMax-M1在扩展到更长思考长度时仍能保持训练的稳定性和生成质量。

评估

MiniMax-M1在多个关键领域进行了全面评估，包括数学、通用编码、软件工程、推理与知识、长上下文、智能体工具使用、事实性和通用助手能力。所有任务均使用温度1.0和top-p 0.95采样进行评估。

核心基准测试

• 数学：为了评估数学推理能力，MiniMax-M1使用了多个竞赛级别的数学基准，包括MATH-500、AIME 2024和AIME 2025。对于AIME评估，采样32次并计算平均通过率作为最终得分。

• 通用编码：通过LiveCodeBench和FullStackBench评估通用编程能力，这些基准评估了跨不同编程任务的代码生成能力。

• 软件工程：在SWE-bench上进行评估，这是一个基于真实世界软件工程问题的基准。

• 推理与知识：在TAU-bench和MRCR（4-needle）等基准上进行评估，这些基准侧重于模型的推理能力和对长上下文的理解。

性能表现

MiniMax-M1在标准基准测试中的表现与DeepSeek-R1和Qwen3-235B等强大的开源模型相当或更优，在复杂软件工程、工具利用和长上下文任务方面表现出特别的优势。与最新的DeepSeek-R1-0528模型相比，MiniMax-M1在数学和编码竞赛中略有落后，但在更真实的工具使用和长上下文场景中取得了相当或更优的性能。值得注意的是，MiniMax-M1在智能体工具使用基准TAU-Bench上超越了Gemini 2.5 Pro，并在长上下文理解基准上超越了OpenAI o3和Claude 4 Opus。

这些评估结果表明，MiniMax-M1通过高效扩展测试时计算，为下一代语言模型智能体进行推理和解决现实世界挑战奠定了坚实的基础。

结论

MiniMax-M1的发布标志着大型推理模型领域的一个重要里程碑。通过创新性地结合混合专家模型架构和闪电注意力机制，MiniMax-M1不仅在处理长上下文方面取得了显著突破，更在测试时计算效率上实现了质的飞跃。其独特的RL训练方法，包括CISPO算法和针对混合架构的优化，使其能够在有限的资源下高效完成大规模训练。

MiniMax-M1在多项基准测试中展现出卓越的性能，尤其在复杂软件工程、工具利用和长上下文任务中表现突出，证明了其在解决现实世界复杂问题方面的强大潜力。作为一款开源模型，MiniMax-M1的发布将极大地促进社区协作和领域发展，为构建更智能、更高效的下一代语言模型智能体奠定坚实基础。

MiniMax-M1的成功实践为未来大型模型的设计和训练提供了宝贵的经验，预示着通过架构创新和高效训练策略，我们能够持续推动AI技术边界，解锁更多可能性。

MiniMax-M1：通过闪电注意力高效扩展测试时计算

引言