Research on Video Captioning Based on Multifeature Fusion

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Models</td><td class="align_center">BLEU4</td><td class="align_center">METEOR</td><td class="align_center">ROUGEL</td><td class="align_center">CIDEr</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">MPool [<a href="/journals/cin/2022/1204909/#B14" target="_blank">14</a>]</td><td class="align_center">0.304</td><td class="align_center">0.237</td><td class="align_center">0.520</td><td class="align_center">0.350</td></tr><tr><td class="align_left">Ruc-uva [<a href="/journals/cin/2022/1204909/#B13" target="_blank">13</a>]</td><td class="align_center">0.387</td><td class="align_center">0.269</td><td class="align_center">—</td><td class="align_center">0.459</td></tr><tr><td class="align_left">S2VT [<a href="/journals/cin/2022/1204909/#B17" target="_blank">17</a>]</td><td class="align_center">0.314</td><td class="align_center">0.257</td><td class="align_center">0.559</td><td class="align_center">0.352</td></tr><tr><td class="align_left">TA [<a href="/journals/cin/2022/1204909/#B16" target="_blank">16</a>]</td><td class="align_center">0.285</td><td class="align_center">0.250</td><td class="align_center">0.533</td><td class="align_center">0.371</td></tr><tr><td class="align_left">SAAT [<a href="/journals/cin/2022/1204909/#B21" target="_blank">21</a>]</td><td class="align_center">0.399</td><td class="align_center">0.277</td><td class="align_center">0.612</td><td class="align_center">0.510</td></tr><tr><td class="align_left">M<sup>3</sup>-Inv3 [<a href="/journals/cin/2022/1204909/#B19" target="_blank">19</a>]</td><td class="align_center">0.381</td><td class="align_center">0.266</td><td class="align_center">—</td><td class="align_center">—</td></tr><tr><td class="align_left">SGN [<a href="/journals/cin/2022/1204909/#B22" target="_blank">22</a>]</td><td class="align_center">0.408</td><td class="align_center">0.283</td><td class="align_center">0.608</td><td class="align_center">0.495</td></tr><tr><td class="align_left">PickNet [<a href="/journals/cin/2022/1204909/#B12" target="_blank">12</a>]</td><td class="align_center">0.389</td><td class="align_center">0.272</td><td class="align_center">0.595</td><td class="align_center">0.421</td></tr><tr><td class="align_left"><b>Ours</b></td><td class="align_center"><b>0.443</b></td><td class="align_center"><b>0.327</b></td><td class="align_center"><b>0.619</b></td><td class="align_center"><b>0.521</b></td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparing the experimental results with the representative research work in the field of video captioning.</div>

Computational Intelligence and Neuroscience

Research on Video Captioning Based on Multifeature Fusion

Table 3