天博盘口
天博体育 好意思团新音频模子开源, 音色克隆才智拉满
发布日期:2026-04-03 01:19:26 点击次数:131

天博体育 好意思团新音频模子开源, 音色克隆才智拉满

IT之家4月2日音书,好意思团昨天发布LongCat-AudioDiT音频生成模子,透澈毁灭梅尔谱等中间暗示,平直在波形潜空间进行基于扩散模子的文本转语音(TTS),堪称“糟塌零样本TTS音色克隆上限”。

据先容,业界主流TTS引擎长期受困于“多阶段”的复杂经过:先权衡中间声学特征(如梅尔频谱),再依赖一个安闲的神经声码器将特征“翻译”成最终波形。这种经过推行上是在两个不同空间里“寄语”,势必会累积裂缝,导致最终合成的声息丢失了高保真、个性化的细节。

而LongCat-AudioDiT的中枢架构逻辑止境简便,天博体育只用一个波形变分自编码器(Wav-VAE)和一个扩散Transformer(DiT),在波形隐空间里完成声息的压缩、建模与重建。领有高效的下采样与多模范建模、非参数捷径闪现熟习以及挣扎式多标的熟习等多维度改变。

同期,该模子的主干积蓄基于Transformer,集周至局自符合层归一化(GlobalAdaLN)、QK-Norm+RoPE闪现耀视力熟习等多项结构优化。还大略通过双重拘谨机制诞生流匹配TTS的“熟习-推理”不匹配问题。

性能方面,该模子的3.5B版块在Seed-ZH测试集的语言东说念主同样度(SIM)主张提高至0.818,Seed-Hard测试集达到0.797,逾越了Seed-TTS、CosyVoice3.5、MiniMax-Speech等著明模子。

当今该模子照旧开源天博体育,IT之家附1B/3.5B参数版块贯穿如下:

A8体育官方网站首页
友情链接: