MiniMax M2 系列受到了开发者社区的广泛关注,不少用户在深度使用中发现了一些 corner case——其中"模型无法说出马嘉祺"这个问题引发了较多讨论。本文详细记录了Minimax团队的内部排查过程,从 tokenizer 对齐到 lm_head 退化分析,揭示了稀疏 Token 遗忘的机制及修复方案。
在 M2 系列模型发布后的几个月,我们收到了大量热心用户的反馈和建议,这促使我们进一步加速模型的迭代效率。除了更加认真工作之外,我们能找到的唯一途径就是开启模型和组织的自我进化。MiniMax M2.7是我们第一个模型深度参与迭代自己的模型。
今天我们来介绍 MiniMax-M2.5。经过数十万个真实复杂环境中的大规模强化学习训练,M2.5 在编程、工具调用和搜索、办公等生产力场景都达到或者刷新了行业的 SOTA,比如 SWE-Bench Verified(80.2%),Multi-SWE-Bench(51.3%),BrowseComp(76.3%)。M2.5 优化了模型对复杂任务的拆解能力和思考过程中 token 的消耗,使其能更快地完成复杂的 Agentic 任务,比如在 SWE-Bench Verified 的测试中,比上一个版本 M2.1 完成任务的速度快了 37%。
Worlds to Dream, Stories to Live|一份关于如何在生产环境中构建真正可用的 Role-Play Agent 的技术报告。今年是我们做 Talkie / Xingye 的第三年。三年时间,足以让一个产品在用户生命中留下痕迹,也足以让我们从长期的使用反馈中读出一些不那么显而易见的洞见。
MiniMax M2.1 系统性提升了 Rust、Java、Golang、C++ 等多编程语言能力,强化 Web/App 开发美学与复合指令约束,在 SWE-bench、VIBE 等基准上接近 Claude Opus 4.5 水平,并在 Claude Code、Cline、Roo Code 等主流 Agent 框架中展现稳定泛化表现,为真实世界复杂办公与编程任务提供高效解决方案。
MiniMax正式开源并上线MiniMax M2,专为Agent和代码而生,仅Claude Sonnet 8%价格,2倍速度。模型具备顶级代码能力、强大Agentic表现和极致性价比,在Artificial Analysis榜单排名全球前五。同时推出MiniMax Agent产品,提供Lightning高效模式和Pro专业模式,限时免费开放使用。