A Deep Multimodal Model for Predicting Affective Responses Evoked by Movies Based on Shot Segmentation

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model (with Features6)</td><td class="align_center" colspan="2">Experienced arousal (loss1)</td><td class="align_center" colspan="2">Experienced valence (loss2)</td></tr><tr class="thead"><td class="align_center">MSE</td><td class="align_center">PCC</td><td class="align_center">MSE</td><td class="align_center">PCC</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">Ours without LSTM</td><td class="align_center">0.0288</td><td class="align_center">0.5826</td><td class="align_center">0.0751</td><td class="align_center">0.3276</td></tr><tr><td class="align_left">Ours</td><td class="align_center"><b>0.0275</b></td><td class="align_center"><b>0.6187</b></td><td class="align_center"><b>0.0632</b></td><td class="align_center"><b>0.3443</b></td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>With or without capture changes in audio and visual feature sequences using LSTM.</div>

Security and Communication Networks

tab5

Table 5

Table 5: A Deep Multimodal Model for Predicting Affective Responses Evoked by Movies Based on Shot Segmentation