Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Fully connected layers</td><td class="align_center">Ekman (%)</td><td class="align_center">VideoEmotion-8 (%)</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">No attention fusion</td><td class="align_center">47.9</td><td class="align_center">49.3</td></tr><tr><td class="align_left"><i>G</i>1</td><td class="align_center">56.68</td><td class="align_center">52.69</td></tr><tr><td class="align_left"><i>G</i>2</td><td class="align_center">57.7</td><td class="align_center">53.13</td></tr><tr><td class="align_left"><i>G</i>3</td><td class="align_center">55.31</td><td class="align_center">51.71</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Accuracy of emotion recognition of global attention on Ekman and VideoEmotion-8 datasets.</div>

Computational Intelligence and Neuroscience

tab6

Table 6

Table 6: Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition