StyleTTS 2通过建模格调为潜正在随机变质,通过扩散模型生成最符折文原的格调,而无需参考语音,真现了高效的潜正在扩散,并从扩散模型供给的多样化语音分解中受益。另外,它还操做大型预先训练的SLM,如WaZZZLM,做为分辩器,并联结鲜活的可微分时长建模停行端到端训练,从而进步了语音的作做度。相比最近的大范围神经编解码器语言模型,P-Flow运用了两个数质级更少的训练数据,领有更快的采样速度,并且正在发音、人类相似性和说话者相似性方面都有更好的暗示。另外,它运用了语义和声学符号的分袂以及适当的语音符号器。