Multitask Learning with Local Attention for Tibetan Speech Recognition

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Architecture</td><td class="align_center">Model</td><td class="align_center">Lhasa-Ü-Tsang</td><td class="align_center">Changdu-Kham</td><td class="align_center">Amdo Pastoral</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" colspan="2">SpeakerID model</td><td class="align_center">67.75</td><td class="align_center">93.13</td><td class="align_center">95.31</td></tr><tr><td class="align_left" rowspan="2">WaveNet-CTC with speaker ID</td><td class="align_center">S-S1</td><td class="align_center">68.32</td><td class="align_center">92.85</td><td class="align_center"><b>97.48</b></td></tr><tr><td class="align_center">S-S2</td><td class="align_center"><b>71.15</b></td><td class="align_center">95.23</td><td class="align_center">96.12</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="2">Attention (5)-WaveNet-CTC</td><td class="align_center">S-S1</td><td class="align_center">0</td><td class="align_center">0</td><td class="align_center">0</td></tr><tr><td class="align_center">S-S2</td><td class="align_center">60.64</td><td class="align_center">77.38</td><td class="align_center">85.85</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="2">WaveNet-Attention (5)-CTC</td><td class="align_center">S-S1</td><td class="align_center">70.35</td><td class="align_center">92.85</td><td class="align_center"><b>97.48</b></td></tr><tr><td class="align_center">S-S2</td><td class="align_center">69.40</td><td class="align_center"><b>100</b></td><td class="align_center">96.70</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Speaker ID recognition accuracy (%) of two-task models.</div>

Complexity

tab4

Table 4

Table 4: Multitask Learning with Local Attention for Tibetan Speech Recognition