Semisupervised Deep Features of Time-Frequency Maps for Multimodal Emotion Recognition

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Types</td><td class="align_center">Patch size/stride (or remarks)</td><td class="align_center">Input size</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Convolution</td><td class="align_center">3 × 3/2</td><td class="align_center">299 × 299 × 3</td></tr><tr><td class="align_left">Convolution</td><td class="align_center">3 × 3/1</td><td class="align_center">149 × 149 × 32</td></tr><tr><td class="align_left">Convolution padded</td><td class="align_center">3 × 3/1</td><td class="align_center">147 × 147 × 32</td></tr><tr><td class="align_left">Maximum pooling</td><td class="align_center">3 × 3/2</td><td class="align_center">147 × 147 × 64</td></tr><tr><td class="align_left">Convolution</td><td class="align_center">3 × 3/1</td><td class="align_center">73 × 73 × 64</td></tr><tr><td class="align_left">Convolution</td><td class="align_center">3 × 3/2</td><td class="align_center">71 × 71 × 80</td></tr><tr><td class="align_left">Convolution</td><td class="align_center">3 × 3/1</td><td class="align_center">35 × 35 × 192</td></tr><tr><td class="align_left">3 × inception</td><td class="align_center">As in Figure <a href="../fig3/">3</a>(a)</td><td class="align_center">35 × 35 × 288</td></tr><tr><td class="align_left">5 × inception</td><td class="align_center">As in Figure <a href="../fig3/">3</a>(b)</td><td class="align_center">17 × 17 × 768</td></tr><tr><td class="align_left">2 × inception</td><td class="align_center">As in Figure <a href="../fig3/">3</a>(c)</td><td class="align_center">8 × 8 × 1280</td></tr><tr><td class="align_left">Maximum pooling</td><td class="align_center">8 × 8</td><td class="align_center">8 × 8 × 2048</td></tr><tr><td class="align_left">Linear</td><td class="align_center">Logits (unnormalized log-probabilities)</td><td class="align_center">8 × 8 × 2048</td></tr><tr><td class="align_left">Softmax</td><td class="align_center">Classifier</td><td class="align_center">8 × 8 × <svg height="9.25202pt" id="M74" style="vertical-align:-3.29111pt" version="1.1" viewbox="-0.0498162 -5.96091 10.8371 9.25202" width="10.8371pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M495 86L479 114C446 82 419 66 409 66C401 66 401 72 406 97C420 166 436 231 453 297C489 435 454 448 428 448C406 448 384 439 354 422C305 394 222 327 161 247H159L183 345C200 415 194 448 173 448C143 448 82 410 23 351L38 325C64 349 95 371 105 371C111 371 116 365 109 336L25 -4L31 -12C50 -4 77 3 107 9C119 69 132 122 145 168C197 254 321 381 370 381C387 381 393 374 378 305L329 95C309 17 320 -12 345 -12C372 -12 430 19 495 86Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,6.461,3.132)"><path d="M387 400C387 425 348 451 303 451C247 451 176 414 132 376C69 322 24 228 24 148C24 43 74 -12 147 -12C211 -12 301 33 363 103L346 128C319 99 249 51 193 51C148 51 112 84 112 165C112 230 130 287 154 330C170 359 199 400 243 400C277 400 304 383 326 354C333 345 343 343 354 348C378 360 387 382 387 400Z"></path></g></svg></td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

International Journal of Intelligent Systems

tab4

Table 4

Table 4: Semisupervised Deep Features of Time-Frequency Maps for Multimodal Emotion Recognition