Multitask Learning with Local Attention for Tibetan Speech Recognition

<table class="table-group" id="tab7"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Architecture</td><td class="align_center">Model</td><td class="align_center">Lhasa-Ü-Tsang</td><td class="align_center">Changdu-Kham</td><td class="align_center">Amdo pastoral</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" colspan="2">SpeakerID model</td><td class="align_center">67.75</td><td class="align_center">93.13</td><td class="align_center">95.31</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-CTC with dialect ID and speaker ID</td><td class="align_center">S-D-S</td><td class="align_center"><b>72.91</b></td><td class="align_center"><b>98.8</b></td><td class="align_center">96.12</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">70.21</td><td class="align_center">95.23</td><td class="align_center">93.6</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">70.35</td><td class="align_center">96.42</td><td class="align_center">96.89</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">Attention (5)-WaveNet-CTC</td><td class="align_center">S-D-S</td><td class="align_center">61.08</td><td class="align_center">83.33</td><td class="align_center">89.53</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">62.12</td><td class="align_center">83.33</td><td class="align_center">87.01</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">61.99</td><td class="align_center">84.52</td><td class="align_center">90.11</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-Attention (5)-CTC</td><td class="align_center">S-D-S</td><td class="align_center">61.99</td><td class="align_center">85.71</td><td class="align_center">92.05</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">62.53</td><td class="align_center">82.14</td><td class="align_center">91.08</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">61.18</td><td class="align_center">89.28</td><td class="align_center">92.44</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-Attention (7)-CTC</td><td class="align_center">S-D-S</td><td class="align_center">60.91</td><td class="align_center">85.71</td><td class="align_center">91.66</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">62.04</td><td class="align_center">84.31</td><td class="align_center">92.01</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">58.49</td><td class="align_center">86.90</td><td class="align_center">90.69</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="3">WaveNet-Attention (10)-CTC</td><td class="align_center">S-D-S</td><td class="align_center">58.49</td><td class="align_center">84.52</td><td class="align_center">92.05</td></tr><tr><td class="align_center">D-S-S1</td><td class="align_center">59.43</td><td class="align_center">83.33</td><td class="align_center">91.27</td></tr><tr><td class="align_center">D-S-S2</td><td class="align_center">63.47</td><td class="align_center">92.85</td><td class="align_center"><b>97.86</b></td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Speaker ID recognition accuracy (%) of three-task models.</div>

Complexity

tab7

Table 7

Table 7: Multitask Learning with Local Attention for Tibetan Speech Recognition