天博体育好意思团新音频模子开源, 音色克隆才智拉满

天博盘口

发布日期：2026-04-03 01:19:26 点击次数：131

天博体育好意思团新音频模子开源，音色克隆才智拉满

IT之家4月2日音书，好意思团昨天发布LongCat-AudioDiT音频生成模子，透澈毁灭梅尔谱等中间暗示，平直在波形潜空间进行基于扩散模子的文本转语音（TTS），堪称“糟塌零样本TTS音色克隆上限”。

据先容，业界主流TTS引擎长期受困于“多阶段”的复杂经过：先权衡中间声学特征（如梅尔频谱），再依赖一个安闲的神经声码器将特征“翻译”成最终波形。这种经过推行上是在两个不同空间里“寄语”，势必会累积裂缝，导致最终合成的声息丢失了高保真、个性化的细节。

而LongCat-AudioDiT的中枢架构逻辑止境简便，天博体育只用一个波形变分自编码器（Wav-VAE）和一个扩散Transformer（DiT），在波形隐空间里完成声息的压缩、建模与重建。领有高效的下采样与多模范建模、非参数捷径闪现熟习以及挣扎式多标的熟习等多维度改变。

同期，该模子的主干积蓄基于Transformer，集周至局自符合层归一化（GlobalAdaLN）、QK-Norm+RoPE闪现耀视力熟习等多项结构优化。还大略通过双重拘谨机制诞生流匹配TTS的“熟习-推理”不匹配问题。

性能方面，该模子的3.5B版块在Seed-ZH测试集的语言东说念主同样度（SIM）主张提高至0.818，Seed-Hard测试集达到0.797，逾越了Seed-TTS、CosyVoice3.5、MiniMax-Speech等著明模子。

当今该模子照旧开源天博体育，IT之家附1B/3.5B参数版块贯穿如下：

A8体育官方网站首页

热点资讯