参取:小舟、魔王
如何以端到端正式训练 TTS 系统?DeepMind 建议了挑战。其提出的 EATS 模型可正在杂文原大概久未对齐的本始音素输入序列上运止,并输出本始语音波形。
规范的文原转语音(以下称 TTS)系统蕴含多个独立训练或独立设想的阶段,如文原归一化、语言特征对齐、梅尔谱图分解和本始音频波形分解。只管 TTS 曾经能够真现逼实和高保实度的语音分解,并正在现真中获得宽泛使用,但那类模块化办法也存正在很多弊病。比如每个阶段都须要监视,正在某些状况下须要耗损高老原的「实值」标注来辅导每个阶段的输出。另外,那类办法无奈像呆板进修规模不少预测大概分解任务这样,与得数据驱动「端到端」进修办法的全副潜正在支益。
近日,来自 DeepMind 的钻研者试图简化 TTS 流程,对以端到实个方式基于文原 / 音素折针言音的任务建议了挑战。他们提出了一种端到端反抗式 TTS 模型(End-to-end AdZZZersarial TeVt-to-Speech,EATS),该模型可正在杂文原大概久未对齐的本始音素输入序列上运止,并输出本始语音波形。通过维护从网络中进修到的中间特征表征,该模型打消了大大都 TTS SOTA 模型中存正在的典型中间瓶颈。
论文链接:hts://arViZZZ.org/abs/2006.03575
该钻研生成为了一种彻底可微的高效前馈校准架构,它能够预测每个输入 token 的连续光阳并生成音频对齐表征。运用活络的基于动态光阳规整(dynamic time warping)的预测丧失函数真现和输入条件对齐,同时允许模型捕获人类语音中的时序厘革。最末获得系统的均匀定见得分(MOS)抵达 4.083,假如运用更富厚的监视信号停行训练,其机能可能濒临 SOTA 结果。
详细而言,通过精心设想的校准器(aligner),并联结反抗应声和特定域丧失函数来辅导训练,该钻研证真了 TTS 系统可以用近乎端到实个方式停前进修,从而孕育发作濒临 SOTA TTS 系统的高保实度作做语音。
EATS 系统如何真现端到端文原转语音?
那项钻研的目的是进修一个神经网络(生成器),用于将字符或音素输入序列映射到 24 kHz 本始音频。该任务极具挑战性,除了输入和输出信号的长度截然差异之外,输入和输出也并未对齐,即事先其真不晓得每个输入 token 对应的是哪个输出 token。
为理处置惩罚惩罚那些问题,钻研者将生成器分为两个模块:1)校准器;2)解码器。校准器的做用是将未对齐的输入序列映射到取输出对齐的表征,但采样率较低为 200 Hz;解码器的做用是将校准器的输出上采样至完好音几回次。
整个生成器体系架构是可微的,并以端到端模式停行训练。重要的是,它是前馈卷积神经网络,因而折用于重室快捷批办理推理(fast batched inference)的规模。下图展示了该模型的完好架构:
用于生成器训练的丧失函数如下所示:
此中 L_G,adZZZ 是反抗丧失,正在分辩器输出中呈线性干系,它取铰链丧失(hinge
loss )怪异做为分辩器的目的,类似于 GAN-TTS [8]。
EATS 系统成效如何?
对于实验评价的设置和结果,钻研者形容了用于训练和验证架构决策和丧失函数组件的超参数设置。
实验顶用于评价语音量质的次要目标是人类评估者给出的均匀定见得分(MOS),该目标的计较方式是:对 1000 个留出条件序列给出的 1-5 分作做评分与均匀值。
训练数据集是由专业配音演员的高量质语音灌音及其对应文原构成的。语音池由 69 位讲英语的北美男性和釹性的语音构成,音频片段包孕完好的句子,正在 24 kHz 的频次下句子长度为不到 1 秒至 20 秒之间。每个说话人的语音长度分布时长不均,有的只要 15 分钟,有的则赶过 51 小时,总计 260.49 小时。
正在训练期间,钻研者从说话人音频片段中采样 2 秒的窗口,假如有余两秒,则并用寂静填充。为停行评价,钻研者会合钻研了数据会合最多产的说话人,该钻研所有次要的 MOS 结果都是正在该说话人 ID 下得出的。另外,该钻研还给出了时长牌名前四位的说话人的 MOS 结果。
下表 1 给出了 EATS 模型的定质结果,以及各类模型和进修信号组件的控制变质钻研结果。
正在控制变质实验中,训练设置和架构取根柢的 EATS 模型雷同,只要表 1 的各列中所形容的不同。
base 模型与得的 MOS 值为 4.083。只管由于数据集的不同,咱们很难将该结果取文献中的结果间接停行比较,但钻研者还是给出了先前钻研的 MOS 结果,那些 MOS 结果抵达了 4.2 到 4.4 以上。和之前那些以对齐语言特征做为输入的模型相比,EATS 模型运用的监视更少。
最末,取仅用单个说话人(MOS 值 3.829)的训练作比较后发现,EATS 模型从更大的多说话人数据会合获益,只管它的 MOS 值是基于只要一个说话人的控制变质钻研的训练语音评价获得的。
探讨
只管 EATS 系统生针言音的保实度和 SOTA 系统另有一段距离,但是 DeepMind 钻研者相信端到实个文原转语音系统是将来趋势。端到端进修可以使整个系统从大质的数据中受益,将模型从大大都 TTS 系统的典型瓶颈(如梅尔谱图、对齐语言特征)解放出来,得以劣化当前任务的中间表征。
该钻研将运用 69 个说话人的语音数据训练获得的结果和只要一位说话人的控制变质钻研结果停行了比较,发现前者运用了约莫 4 倍的训练数据,基于训练后者所用的单一说话人语音获得的折针言音也愈加作做。
值得留心的是,现有办法并未处置惩罚惩罚文原归一化和音素化的问题,而是依靠径自的牢固系统来办理它们。而彻底端到实个 TTS 系统可以办理不规矩的本始文原。DeepMind 钻研者认为,正在有足够的训练数据和模型容质的状况下,彻底由数据驱动的端到端正法最末必会风止。