Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition

<table class="table-group" id="tab9"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Method</td><td class="align_center">Ekman (%)</td><td class="align_center">VideoEmotion-8 (%)</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Emotion in context [<a href="/journals/cin/2021/5585041/#B10" target="_blank">10</a>]</td><td class="align_center">51.8</td><td class="align_center">50.6</td></tr><tr><td class="align_left">Xu et al. [<a href="/journals/cin/2021/5585041/#B33" target="_blank">33</a>]</td><td class="align_center">50.4</td><td class="align_center">46.7</td></tr><tr><td class="align_left">Kernelized feature [<a href="/journals/cin/2021/5585041/#B26" target="_blank">26</a>]</td><td class="align_center">54.4</td><td class="align_center">49.7</td></tr><tr><td class="align_left">Concept selection [<a href="/journals/cin/2021/5585041/#B27" target="_blank">27</a>]</td><td class="align_center">54.40</td><td class="align_center">50.82</td></tr><tr><td class="align_left">Graph-based network [<a href="/journals/cin/2021/5585041/#B36" target="_blank">36</a>]</td><td class="align_center">55.01</td><td class="align_center">51.77</td></tr><tr><td class="align_left">CAAN [<a href="/journals/cin/2021/5585041/#B37" target="_blank">37</a>]</td><td class="align_center">56.23</td><td class="align_center">52.5</td></tr><tr><td class="align_left">Ours</td><td class="align_center">57.7</td><td class="align_center">53.13</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Top-1 accuracy (%) comparing state-of-the-art methods on Ekman-6 and VideoEmotion-8.</div>

Computational Intelligence and Neuroscience

tab9

Table 9

Table 9: Hierarchical Attention-Based Multimodal Fusion Network for Video Emotion Recognition