FPT-Former: A Flexible Parallel Transformer of Recognizing Depression by Using Audiovisual Expert-Knowledge-Based Multimodal Measures

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Study</td><td class="align_center">Model name</td><td class="align_center">Modality</td><td class="align_center">RMSE</td><td class="align_center">MAE</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">Al Hanai et al. 2018 [<a href="/journals/ijis/2024/1564574/#B43" target="_blank">43</a>]</td><td class="align_center">Long-short term memory (LSTM) neural network</td><td class="align_center">Audio and text features</td><td class="align_center">6.50</td><td class="align_center">5.13</td></tr><tr><td class="align_left">Zhang et al. 2020 [<a href="/journals/ijis/2024/1564574/#B44" target="_blank">44</a>]</td><td class="align_center">An autoencoder model based on a bidirectional gated recurrent unit (BiGRU)</td><td class="align_center">Speech signals</td><td class="align_center">5.68</td><td class="align_center">4.64</td></tr><tr><td class="align_left">Yang et al. 2020 [<a href="/journals/ijis/2024/1564574/#B45" target="_blank">45</a>]</td><td class="align_center">Deep convolutional generative adversarial network (DCGAN)</td><td class="align_center">Speech, text, and face data</td><td class="align_center">5.52</td><td class="align_center">4.63</td></tr><tr><td class="align_left">Han et al. 2023 [<a href="/journals/ijis/2024/1564574/#B46" target="_blank">46</a>]</td><td class="align_center">Spatial-temporal feature network (STFN)</td><td class="align_center">Speech data</td><td class="align_center">6.29</td><td class="align_center">5.38</td></tr><tr><td class="align_left">Fang et al. 2023 [<a href="/journals/ijis/2024/1564574/#B47" target="_blank">47</a>]</td><td class="align_center">A multimodal fusion model with a multilevel attention mechanism (MFM-Att)</td><td class="align_center">Audiovisual and text data</td><td class="align_center">5.17</td><td class="align_center">—</td></tr><tr><td class="align_left">Ours</td><td class="align_center">A flexible parallel transformer model (FPT-Former)</td><td class="align_center">Audiovisual expert-knowledge-based measures</td><td class="align_center"><b>4.80</b></td><td class="align_center"><b>4.58</b></td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The bold font indicates the lowest value among the compared studies.<br/></div></td></tr></table>

<div>The performance of depression recognition on E-DAIC databases.</div>

International Journal of Intelligent Systems

tab3

Table 3

Table 3: FPT-Former: A Flexible Parallel Transformer of Recognizing Depression by Using Audiovisual Expert-Knowledge-Based Multimodal Measures