Multimodal Feature Learning for Video Captioning

<table class="fixed-width table-group" id="tab3"><tr><td><table class="table"><colgroup><col style="width:7.43em"/><col style="width:3.11em"/><col style="width:3.09em"/><col style="width:3.07em"/><col style="width:3.12em"/><col style="width:3.96em"/></colgroup><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Models</td><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center">CIDEr</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">SCN [<a href="/journals/mpe/2018/3125879/#B11" target="_blank">11</a>]</td><td class="align_center">-</td><td class="align_center">-</td><td class="align_center">-</td><td class="align_center">51.1</td><td class="align_center">77.7</td></tr><tr><td class="align_left">LSTM-TSA [<a href="/journals/mpe/2018/3125879/#B12" target="_blank">12</a>]</td><td class="align_center">82.8</td><td class="align_center">72.0</td><td class="align_center">62.8</td><td class="align_center">52.8</td><td class="align_center">74.0</td></tr><tr><td class="align_left">hLSTMat [<a href="/journals/mpe/2018/3125879/#B10" target="_blank">10</a>]</td><td class="align_center">82.9</td><td class="align_center"><b>72.2</b></td><td class="align_center"><b>63.0</b></td><td class="align_center"><b>53.0</b></td><td class="align_center">73.8</td></tr><tr><td class="align_left">SeFLA</td><td class="align_center"><b>84.8</b></td><td class="align_center">70.8</td><td class="align_center">60.0</td><td class="align_center">50.0</td><td class="align_center"><b>94.3</b></td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Performance comparison with other state-of-the-art models on MSVD dataset.</div>

Mathematical Problems in Engineering

Multimodal Feature Learning for Video Captioning

Table 3