Visual-Text Reference Pretraining Model for Image Captioning

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Approach</td><td class="align_center">B@4</td><td class="align_center"><i>M</i></td><td class="align_center"><i>R</i></td><td class="align_center"><i>C</i></td><td class="align_center"><i>S</i></td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">ST [<a href="/journals/cin/2022/9400999/#B20" target="_blank">20</a>]</td><td class="align_center">11.1</td><td class="align_center">17.0</td><td class="align_center">34.5</td><td class="align_center">139.9</td><td class="align_center">31.1</td></tr><tr><td class="align_left">UP-DOWN [<a href="/journals/cin/2022/9400999/#B45" target="_blank">45</a>]</td><td class="align_center">10.9</td><td class="align_center">16.9</td><td class="align_center">34.5</td><td class="align_center">139.4</td><td class="align_center">31.4</td></tr><tr><td class="align_left">ASG [<a href="/journals/cin/2022/9400999/#B27" target="_blank">27</a>]</td><td class="align_center">17.6</td><td class="align_center">22.1</td><td class="align_center">44.7</td><td class="align_center">202.4</td><td class="align_center">40.6</td></tr><tr><td class="align_left">VTR-PTM (ours)</td><td class="align_center">20.5</td><td class="align_center">27.8</td><td class="align_center">45.3</td><td class="align_center">185.9</td><td class="align_center">50.9</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The performance of the published state of the art and our model on the test sets of Visual Genome. In dense image captioning, the model receives a single image and generates a set of regions, each annotated with confidence and a caption.</div>

Computational Intelligence and Neuroscience

Visual-Text Reference Pretraining Model for Image Captioning

Table 2