End-to-End Speech Synthesis for Tibetan Multidialect

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">MOS of Lhasa-Ü-Tsang dialect</td><td class="align_center">MOS of Amdo pastoral dialect</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Linear predictive amplitude spectrum + Griffin–Lim</td><td class="align_center">3.30</td><td class="align_center">3.52</td></tr><tr><td class="align_left">Mel spectrogram + Griffin–Lim</td><td class="align_center">3.55</td><td class="align_center">3.70</td></tr><tr><td class="align_left">Mel spectrogram + WaveNet</td><td class="align_center">3.95</td><td class="align_center">4.18</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The MOS comparison of speech synthesized by different models.</div>

Complexity

tab4

Table 4

Table 4: End-to-End Speech Synthesis for Tibetan Multidialect