Visual-Text Reference Pretraining Model for Image Captioning

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr class="thead"><td class="align_left">Approach</td><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center"><i>M</i></td><td class="align_center"><i>R</i></td><td class="align_center"><i>C</i></td><td class="align_center"><i>S</i></td></tr><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr><td class="align_left">VTR-PTM0</td><td class="align_center">71.1</td><td class="align_center">55.4</td><td class="align_center">40.2</td><td class="align_center">29.6</td><td class="align_center">24.3</td><td class="align_center">51.5</td><td class="align_center">100.5</td><td class="align_center">20.1</td></tr><tr><td class="align_left">VTR-PTM1</td><td class="align_center">80.2</td><td class="align_center">65.4</td><td class="align_center">52.3</td><td class="align_center">39.5</td><td class="align_center">29.2</td><td class="align_center">58.3</td><td class="align_center">128.6</td><td class="align_center">27.3</td></tr><tr><td class="align_left">VTR-PTM2</td><td class="align_center">82.9</td><td class="align_center">67.3</td><td class="align_center">53.4</td><td class="align_center">40.9</td><td class="align_center">30.9</td><td class="align_center">61.5</td><td class="align_center">130.2</td><td class="align_center">28.5</td></tr><tr class="table-tr"><td colspan="9"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of the results generated by VTR-PTM in different input modes on MS COCO.</div>

Computational Intelligence and Neuroscience

Visual-Text Reference Pretraining Model for Image Captioning

Table 3