FPT-Former: A Flexible Parallel Transformer of Recognizing Depression by Using Audiovisual Expert-Knowledge-Based Multimodal Measures

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">RMSE</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">AVEC 2019 baseline-FACS [<a href="/journals/ijis/2024/1564574/#B19" target="_blank">19</a>]</td><td class="align_center">7.02</td></tr><tr><td class="align_left">AVEC 2019 baseline-MFCC [<a href="/journals/ijis/2024/1564574/#B19" target="_blank">19</a>]</td><td class="align_center">7.28</td></tr><tr><td class="align_left">AVEC 2019 baseline-eGeMAPS [<a href="/journals/ijis/2024/1564574/#B19" target="_blank">19</a>]</td><td class="align_center">7.78</td></tr><tr><td class="align_left">FPT-Former (FACS only)</td><td class="align_center"><b>6.11</b></td></tr><tr><td class="align_left">FPT-Former (MFCC only)</td><td class="align_center"><b>7.02</b></td></tr><tr><td class="align_left">FPT-Former (eGeMAPS only)</td><td class="align_center"><b>6.60</b></td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The bold font indicates that the RMSE of our model is lower than the previous three models.<br/></div></td></tr></table>

<div>Comparison between FPT-Former (when only one modality is used) and baseline of AVEC-2019.</div>

International Journal of Intelligent Systems

tab6

Table 6

Table 6: FPT-Former: A Flexible Parallel Transformer of Recognizing Depression by Using Audiovisual Expert-Knowledge-Based Multimodal Measures