
AI语音的Her Moment正在逐渐逼近。当无数智能体与硬件设备,以前所未有的方式进入我们的生活,AI语音交互也应声迎来爆发式的增长。大量终端、客户和创作者的个性化需求,需要同一套底层模型来规模化满足,在自然、富有温度的语音体验之外,「个性化语音」必须被解决。
当前领先的文本转语音(TTS)模型虽然令人印象深刻,但通常只提供有限的音色和语种选择。这不仅限制了用户的选择,也未能捕捉到人类语言中蕴含的文化多样性。
我们研发了基于AR Transformer 模型的高质量 TTS 系统——MiniMax Speech 02。模型具有足够强的泛化能力,能够轻松驾驭32语种、不同口音、不同情绪的人声。
该模型系统的核心创新之处在于其内在的 Zero-shot 能力,我们将其命名为Intrinsic Zero-Shot Text-to-Speech with a Learnable Speaker Encoder。在架构上,我们设置了一个「会学习的音色提取器」它能和AR Transformer灵活地协同。
我们将它与和AR Transformer 一起训练,让语音合成的效果有了明显提升。也正因此,我们可以通过一个模型,提供任意语言 × 任意口音 × 任意音色的无限组合,大大丰富了语音生成的多样性。
在国际权威的Artificial Analysis 上,MiniMax Speech 02也通过全球用户测评,位列全球第一。
权威双榜,全球第一
在两项全球权威语音基准测评榜单:Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中, MiniMax Speech(在榜中对应为Speech-02-HD)超越了OpenAI、ElevenLabs 等全球性能优异的模型,双双位列第一。
在专业指标测评外,Arena 榜单的 ELO 评分,是根据用户在随机听取并比较不同模型的语音样本时,选出更优的结果来得出的;榜单结果证明,从用户体验上, MiniMax Speech 02 的听感更加优异。


在提供更优异听感同时,MiniMax Speech 02 做到了价格更低,分别是 ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。

模型架构带来的灵活性
「会学习的音色提取器」本质上是一个人声编码器( speaker encoder),它能够将任意长度的音频片段转化为固定尺寸的条件向量,从而实现高质量、灵活的声音表达。

Zero-shot带来超拟人的音色:只需要一段参考音频,不需与之对应的文本;这种Zero-shot的方式中,编码器仅从参考音频中提取音色特征,因此更能捕捉声音的本质——音色、音调和风格等特征,从而带来对韵律更灵活广泛的解码空间,最终的输出效果媲美真人,且比真人更加稳定。
32种语言高质量合成:在处理参考音频过程中,Speaker encoder处理音色特征时与语义内容解耦;由于 Speaker encoder 是 learnable的,它可以在训练数据集所涵盖的所有语言上进行训练。这也是MiniMax Speech从本质上支持32种多语种,且跨语言效果更优异的原因。
可扩展功能与个性化表达: 由于speaker encoder 所实现的条件向量本身也可解耦,赋予MiniMax Speech下游应用扩展的灵活性,我们实现了任意音色灵活情感表达、基于语音描述生成音色、以及基于特定说话人的克隆增强等功能。这些功能使得MiniMax Speech进一步丰富个性化语音空间。
更多技术细节、实验对比数据、以及开源的多语言测试集,欢迎阅读技术报告:
https://minimax-ai.github.io/tts_tech_report/
Showcase
音色表现力


多语言



zero-shot 跨语言输出case



文生音
声音描述:English-speaking middle-aged male voice, slightly husky, speaking at a moderate-to-slow pace with a deep tone. Like someone telling an old story, conveying a nostalgic feeling, with a relaxed and composed manner of speaking.

声音描述:中国女青年的声音,音色清脆,说话速度偏快,语调活泼,像是在做游戏直播,声音中带着愉快的感觉整体音调较高,整体氛围比较轻松。

欢迎前往MiniMax Audio页面可以体验MiniMax Speech的强大功能:
https://www.minimax.io/audio
https://www.minimaxi.com/audio
多语种Benchmark
MiniMax Speech支持32种语言的合成。为评估其多语言性能,我们构建了一个专用测试集,并与elevenlabs的 multilingual_V2 进行比较评估。
- 两个模型均以Zero-shot的方式克隆语音并生成;
- WER (字错率)计算中,使用Whisper-large-v3或paraformer-zm进行转录;
- SIM(语音相似度) 通过计算Speaker embeding间的余弦相似度来确定。
测试结果表明:
- 在SIM(语音相似度)指标上,MiniMax Speech 02在所有语种中都优于elevenlabs;这表明,MiniMax Speech 02 在 zero-shot 条件下的多语言表现力更胜一筹。
- MiniMax Speech 02在英语、法语、意大利语和葡萄牙语等主流欧美语种上,均展现出色的准确性。相较之下,粤语、泰语、越南语、日语等一些亚洲语种上,ElevenLabs的字错率会超过10%。这充分表明Speech MiniMax在多语言适应上更加强大和可靠。

提升音色质感
为了优化生成语音的质感,我们采用Flow-VAE将音频压缩为隐层特征,并通过Flow Matching模型来建模这一隐层特征。

传统VAE通常假设 latent space为标准正态分布,Flow-VAE则引入flow模型。该方案可以将编码器输出分布约束到正态分布而非标准正态分布,从而提升编码器的信息表达能力。
Flow-VAE提供了比传统梅尔频谱图信息更丰富的音频表征;Flow Matching则能准确建模这些音频表征的分布。两者结合,使得MiniMax Speech 02在生成语音时表达更多细节。在听感上,带来更高音质、高相似度的体验。
未来,我们将致力于进一步提升模型的可控性与效率。
在海外,我们已支持大量内容创作者,通过低门槛的语音工具用自己的声音灵活接单,为广告、短片尽情声音表演,赋能零工经济。此外,通过对稀缺珍贵小语种的支持,MiniMax 希望通过AI,把多语种的声音以当地最地道的发音传向全世界,让全球每一种语言都被听见、每一种文化都被理解。
语音团队正在招聘,(加入我们)如果你也想和我们一起创造打动人心、个性化的语音,欢迎加入我们,一同探索声音的无限可能。