Multitask Learning with Local Attention for Tibetan Speech Recognition

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Architecture</td><td class="align_center">Model</td><td class="align_center">Lhasa-Ü-Tsang</td><td class="align_center">Changdu-Kham</td><td class="align_center">Amdo Pastoral</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" colspan="2">DialectID model</td><td class="align_center">97.88</td><td class="align_center">92.24</td><td class="align_center">97.9</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-CTC with dialect ID and speaker ID</td><td class="align_center">D-S-S1</td><td class="align_center">98.01</td><td class="align_center"><b>98.8</b></td><td class="align_center">99.41</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">99.73</td><td class="align_center">96.42</td><td class="align_center"><b>99.61</b></td></tr><tr><td class="align_center">S-D-S</td><td class="align_center">99.25</td><td class="align_center">95.23</td><td class="align_center">99.03</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">Attention (5)-WaveNet-CTC</td><td class="align_center">S-D-S</td><td class="align_center"><b>100</b></td><td class="align_center">76.19</td><td class="align_center">91.27</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center"><b>100</b></td><td class="align_center">90.47</td><td class="align_center">94.18</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center"><b>100</b></td><td class="align_center">82.14</td><td class="align_center">93.02</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-Attention (5)-CTC</td><td class="align_center">S-D-S</td><td class="align_center"><b>100</b></td><td class="align_center">89.28</td><td class="align_center">93.79</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center"><b>100</b></td><td class="align_center">85.71</td><td class="align_center">93.79</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center"><b>100</b></td><td class="align_center">95.23</td><td class="align_center">94.18</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-Attention (7)-CTC</td><td class="align_center">S-D-S</td><td class="align_center">0</td><td class="align_center">85.71</td><td class="align_center">91.66</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">0</td><td class="align_center">89.98</td><td class="align_center">93.88</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">0</td><td class="align_center">89.28</td><td class="align_center">95.34</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-Attention (10)-CTC</td><td class="align_center">S-D-S</td><td class="align_center">0</td><td class="align_center">85.71</td><td class="align_center">95.54</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">0</td><td class="align_center">94.04</td><td class="align_center">93.99</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">0</td><td class="align_center">0</td><td class="align_center">0</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Dialect ID recognition accuracy (%) of three-task models.</div>

Complexity

tab6

Table 6

Table 6: Multitask Learning with Local Attention for Tibetan Speech Recognition