Semisupervised Deep Features of Time-Frequency Maps for Multimodal Emotion Recognition

<table class="table-group" id="tab8"><tr><td><table class="table"><tr><td class="thead-hr" colspan="11"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="3">Classifier</td><td class="align_center" colspan="10">CNN</td></tr><tr class="thead"><td class="align_center" colspan="2">AlexNet</td><td class="align_center" colspan="2">VGG19</td><td class="align_center" colspan="2">ResNet18</td><td class="align_center" colspan="2">Inception-V3</td><td class="align_center" colspan="2">EfficientNet-b0</td></tr><tr class="thead"><td class="align_center">Acc</td><td class="align_center">Kappa</td><td class="align_center">Acc</td><td class="align_center">Kappa</td><td class="align_center">Acc</td><td class="align_center">Kappa</td><td class="align_center">Acc</td><td class="align_center">Kappa</td><td class="align_center">Acc</td><td class="align_center">Kappa</td></tr><tr><td class="thead-hr" colspan="11"><hr/></td></tr><tr><td class="align_left">SVM</td><td class="align_center">0.876</td><td class="align_center">0.752</td><td class="align_center">0.881</td><td class="align_center">0.762</td><td class="align_center">0.901</td><td class="align_center">0.816</td><td class="align_center"><b>0.928</b></td><td class="align_center"><b>0.856</b></td><td class="align_center">0.904</td><td class="align_center">0.808</td></tr><tr><td class="align_left">ANN</td><td class="align_center">0.875</td><td class="align_center">0.750</td><td class="align_center">0.886</td><td class="align_center">0.774</td><td class="align_center">0.885</td><td class="align_center">0.802</td><td class="align_center">0.901</td><td class="align_center">0.801</td><td class="align_center">0.898</td><td class="align_center">0.796</td></tr><tr><td class="align_left"><i>k</i>NN</td><td class="align_center">0.864</td><td class="align_center">0.728</td><td class="align_center">0.866</td><td class="align_center">0.732</td><td class="align_center">0.875</td><td class="align_center">0.782</td><td class="align_center">0.891</td><td class="align_center">0.783</td><td class="align_center">0.884</td><td class="align_center">0.768</td></tr><tr><td class="align_left">Random forest</td><td class="align_center">0.847</td><td class="align_center">0.694</td><td class="align_center">0.875</td><td class="align_center">0.751</td><td class="align_center">0.901</td><td class="align_center">0.778</td><td class="align_center">0.889</td><td class="align_center">0.779</td><td class="align_center">0.882</td><td class="align_center">0.764</td></tr><tr><td class="align_left">Decision tree</td><td class="align_center">0.847</td><td class="align_center">0.694</td><td class="align_center">0.853</td><td class="align_center">0.701</td><td class="align_center">0.871</td><td class="align_center">0.764</td><td class="align_center">0.882</td><td class="align_center">0.764</td><td class="align_center">0.889</td><td class="align_center">0.778</td></tr><tr class="table-tr"><td colspan="11"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The bold values represent the highest accuracies.<br/></div></td></tr></table>

<div>Classification accuracy and kappa score of the four-class scenario for different CNNs and classifiers.</div>

International Journal of Intelligent Systems

tab8

Table 8

Table 8: Semisupervised Deep Features of Time-Frequency Maps for Multimodal Emotion Recognition