Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_center" colspan="3">Ekman</td><td class="align_center" colspan="3">VideoEmotion-8</td></tr><tr class="thead"><td class="align_left">Convolution layers</td><td class="align_center">Event (%)</td><td class="align_center">Object (%)</td><td class="align_center">Scene (%)</td><td class="align_center">Event (%)</td><td class="align_center">Object (%)</td><td class="align_center">Scene (%)</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">No attention</td><td class="align_center">42.45</td><td class="align_center">36.43</td><td class="align_center">40.95</td><td class="align_center">48.10</td><td class="align_center">46.45</td><td class="align_center">46.33</td></tr><tr><td class="align_left"><i>L</i>1</td><td class="align_center">44.14</td><td class="align_center">41.42</td><td class="align_center">44.41</td><td class="align_center">51.34</td><td class="align_center">49.88</td><td class="align_center">49.14</td></tr><tr><td class="align_left"><i>L</i>2</td><td class="align_center">45.78</td><td class="align_center">41.14</td><td class="align_center">44.69</td><td class="align_center">53.18</td><td class="align_center">49.63</td><td class="align_center">49.39</td></tr><tr><td class="align_left"><i>L</i>3</td><td class="align_center">45.23</td><td class="align_center">40.33</td><td class="align_center">43.60</td><td class="align_center">52.81</td><td class="align_center">48.90</td><td class="align_center">49.02</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Accuracy of emotion recognition of different modals on Ekman and VideoEmotion-8 datasets.</div>

Computational Intelligence and Neuroscience

tab5

Table 5

Table 5: Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition