Visual-Text Reference Pretraining Model for Image Captioning

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr class="thead"><td class="align_left">Approach</td><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center"><i>M</i></td><td class="align_center"><i>R</i></td><td class="align_center"><i>C</i></td><td class="align_center"><i>S</i></td></tr><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr><td class="align_left">VRN-SC</td><td class="align_center">81.9</td><td class="align_center">67.1</td><td class="align_center">53.2</td><td class="align_center">40.7</td><td class="align_center">30.3</td><td class="align_center">61.0</td><td class="align_center">129.7</td><td class="align_center">28.2</td></tr><tr><td class="align_left">VRN-DC</td><td class="align_center">82.9</td><td class="align_center">67.3</td><td class="align_center">53.4</td><td class="align_center">40.9</td><td class="align_center">30.9</td><td class="align_center">61.5</td><td class="align_center">130.2</td><td class="align_center">28.5</td></tr><tr class="table-tr"><td colspan="9"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of the results generated by the visual reference network of VTR-PTM in single-channel and dual-channel coding on MSCOCO.</div>

Computational Intelligence and Neuroscience

Visual-Text Reference Pretraining Model for Image Captioning

Table 4