Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Convolution layers</td><td class="align_center">Face features accuracy (%)</td><td class="align_center">Scene features accuracy (%)</td><td class="align_center">Image features accuracy (%)</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left"><i>L</i>1</td><td class="align_center">55.14</td><td class="align_center">44.39</td><td class="align_center">46.03</td></tr><tr><td class="align_left"><i>L2</i></td><td class="align_center">57.94</td><td class="align_center">44.62</td><td class="align_center">42.99</td></tr><tr><td class="align_left"><i>L</i>3</td><td class="align_center">54.67</td><td class="align_center">43.92</td><td class="align_center">44.62</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Accuracy of emotion recognition of different modals.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition