Multitask Learning with Local Attention for Tibetan Speech Recognition

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Architecture</td><td class="align_center">Model</td><td class="align_center">Lhasa-Ü-Tsang</td><td class="align_center">Changdu-Kham</td><td class="align_center">Amdo Pastoral</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" colspan="2">DialectID model</td><td class="align_center">97.88</td><td class="align_center">92.24</td><td class="align_center">97.9</td></tr><tr><td class="align_left" rowspan="2">WaveNet-CTC with dialect ID</td><td class="align_center">D-S</td><td class="align_center">98.57</td><td class="align_center">95.23</td><td class="align_center"><b>99.6</b></td></tr><tr><td class="align_center">S-D</td><td class="align_center">99.01</td><td class="align_center">97.61</td><td class="align_center">99.41</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="2">Attention (5)-WaveNet-CTC</td><td class="align_center">D-S</td><td class="align_center"><b>100</b></td><td class="align_center">89.28</td><td class="align_center">94.52</td></tr><tr><td class="align_center">S-D</td><td class="align_center">0</td><td class="align_center">0</td><td class="align_center">0</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="2">WaveNet-Attention (5)-CTC</td><td class="align_center">D-S</td><td class="align_center"><b>100</b></td><td class="align_center"><b>98.8</b></td><td class="align_center">99.41</td></tr><tr><td class="align_center">S-D</td><td class="align_center"><b>100</b></td><td class="align_center">94.04</td><td class="align_center">98.06</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Dialect ID recognition accuracy (%) of two-task models.</div>

Complexity

tab3

Table 3

Table 3: Multitask Learning with Local Attention for Tibetan Speech Recognition