Recognition of Emotions in Mexican Spanish Speech: An Approach Based on Acoustic Modelling of Emotion-Specific Vowels

<table class="table-group" id="tab9"><tr><td><table class="table"><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr class="thead"><td align="left">Speaker </td><td align="center">Statistic </td><td align="center">Anger </td><td align="center">Happiness </td><td align="center">Neutral </td><td align="center">Sadness </td><td align="center">Word accuracy </td><td align="center">Phoneme accuracy </td></tr><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">MS1 </td><td align="center">Average </td><td align="center">100.00</td><td align="center">66.67</td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">78.75</td><td align="center">82.82</td></tr><tr><td align="center">Std Dev </td><td align="center"> 0.00 </td><td align="center">0.00 </td><td align="center">0.00 </td><td align="center">0.00 </td><td align="center">2.17 </td><td align="center">1.71 </td></tr><tr><td align="left" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">MS2 </td><td align="center">Average </td><td align="center">81.90 </td><td align="center">86.67 </td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">86.59 </td><td align="center">88.32</td></tr><tr><td align="center">Std Dev </td><td align="center">11.74 </td><td align="center"> 12.64</td><td align="center">0.00 </td><td align="center">0.00 </td><td align="center">5.21 </td><td align="center">4.70 </td></tr><tr><td align="left" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">MS3</td><td align="center">Average </td><td align="center">90.00 </td><td align="center">95.00 </td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">93.17 </td><td align="center">93.83</td></tr><tr><td align="center">Std Dev </td><td align="center">9.13 </td><td align="center"> 11.18</td><td align="center">0.00 </td><td align="center">0.00 </td><td align="center">3.52 </td><td align="center"> 3.09 </td></tr><tr><td align="left" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">FS1 </td><td align="center">Average </td><td align="center">96.67 </td><td align="center">100.00 </td><td align="center">93.33 </td><td align="center">100.00 </td><td align="center">77.00 </td><td align="center">82.34</td></tr><tr><td align="center">Std Dev </td><td align="center">7.45 </td><td align="center"> 0.00</td><td align="center">14.91 </td><td align="center">0.00 </td><td align="center">6.59 </td><td align="center"> 4.41 </td></tr><tr><td align="left" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">FS2 </td><td align="center">Average </td><td align="center">76.31 </td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">83.63 </td><td align="center">85.88 </td></tr><tr><td align="center">Std Dev </td><td align="center">10.85 </td><td align="center"> 0.00</td><td align="center">0.00 </td><td align="center">0.00 </td><td align="center">5.61 </td><td align="center">4.96 </td></tr><tr><td align="left" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">FS3 </td><td align="center">Average </td><td align="center">77.26 </td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">100.00 </td><td align="center">84.75 </td><td align="center">86.46 </td></tr><tr><td align="center">Std Dev </td><td align="center">9.96 </td><td align="center"> 0.00</td><td align="center">0.00 </td><td align="center">0.00 </td><td align="center">7.56 </td><td align="center">5.85 </td></tr><tr><td align="left" colspan="8"><hr/></td></tr><tr><td align="left" rowspan="2">Total (all speakers) </td><td align="center">Average </td><td align="center">87.02 </td><td align="center">91.39 </td><td align="center">98.89 </td><td align="center">100.00 </td><td align="center">83.98 <br/></td><td align="center">86.61 <br/></td></tr><tr><td align="center">Std Dev</td><td align="center">12.47</td><td align="center">13.75</td><td align="center">6.09</td><td align="center">0.00</td><td align="center">7.30</td><td align="center">5.55</td></tr><tr class="table-tr"><td colspan="8"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Average classification performance of the ASR system for speech and emotion recognition (individual speakers from the speech corpus) across five iterations.

The Scientific World Journal

tab9

Table 9

Table 9: Recognition of Emotions in Mexican Spanish Speech: An Approach Based on Acoustic Modelling of Emotion-Specific Vowels