Visual-Text Reference Pretraining Model for Image Captioning

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr class="thead"><td class="align_left">Approach</td><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center"><i>M</i></td><td class="align_center"><i>R</i></td><td class="align_center"><i>C</i></td><td class="align_center"><i>S</i></td></tr><tr><td class="thead-hr" colspan="9"><hr/></td></tr><tr><td class="align_left">ADAPTIVE [<a href="/journals/cin/2022/9400999/#B24" target="_blank">24</a>]</td><td class="align_center">74.8</td><td class="align_center">58.4</td><td class="align_center">44.4</td><td class="align_center">33.6</td><td class="align_center">26.4</td><td class="align_center">55.0</td><td class="align_center">104.2</td><td class="align_center">19.7</td></tr><tr><td class="align_left">UP-DOWN [<a href="/journals/cin/2022/9400999/#B45" target="_blank">45</a>]</td><td class="align_center">80.2</td><td class="align_center">64.1</td><td class="align_center">49.1</td><td class="align_center">36.3</td><td class="align_center">27.7</td><td class="align_center">56.9</td><td class="align_center">120.1</td><td class="align_center">21.4</td></tr><tr><td class="align_left">CAVP [<a href="/journals/cin/2022/9400999/#B46" target="_blank">46</a>]</td><td class="align_center">80.1</td><td class="align_center">64.7</td><td class="align_center">50.0</td><td class="align_center">38.6</td><td class="align_center">28.3</td><td class="align_center">58.9</td><td class="align_center">126.3</td><td class="align_center">21.6</td></tr><tr><td class="align_left">SGAE [<a href="/journals/cin/2022/9400999/#B26" target="_blank">26</a>]</td><td class="align_center">80.6</td><td class="align_center">65.0</td><td class="align_center">50.1</td><td class="align_center">39.0</td><td class="align_center">28.4</td><td class="align_center">58.9</td><td class="align_center">129.1</td><td class="align_center">22.2</td></tr><tr><td class="align_left">ORT [<a href="/journals/cin/2022/9400999/#B47" target="_blank">47</a>]</td><td class="align_center">80.8</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">38.6</td><td class="align_center">28.7</td><td class="align_center">58.4</td><td class="align_center">128.3</td><td class="align_center">22.6</td></tr><tr><td class="align_left">AOANET [<a href="/journals/cin/2022/9400999/#B48" target="_blank">48</a>]</td><td class="align_center">81.0</td><td class="align_center">65.8</td><td class="align_center">—</td><td class="align_center">38.9</td><td class="align_center">29.2</td><td class="align_center">58.8</td><td class="align_center">129.8</td><td class="align_center">22.4</td></tr><tr><td class="align_left">U-VLP [<a href="/journals/cin/2022/9400999/#B7" target="_blank">7</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">39.5</td><td class="align_center">29.3</td><td class="align_center">—</td><td class="align_center">129.3</td><td class="align_center">23.2</td></tr><tr><td class="align_left">NG-SAN [<a href="/journals/cin/2022/9400999/#B29" target="_blank">29</a>]</td><td class="align_center">80.8</td><td class="align_center">65.4</td><td class="align_center">50.8</td><td class="align_center">39.9</td><td class="align_center">29.3</td><td class="align_center">59.2</td><td class="align_center">132.1</td><td class="align_center">23.3</td></tr><tr><td class="align_left">ASG [<a href="/journals/cin/2022/9400999/#B27" target="_blank">27</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">23.0</td><td class="align_center">24.5</td><td class="align_center">50.1</td><td class="align_center">204.2</td><td class="align_center">42.1</td></tr><tr><td class="align_left">VTR-PTM (ours)</td><td class="align_center">82.9</td><td class="align_center">67.3</td><td class="align_center">53.4</td><td class="align_center">40.9</td><td class="align_center">30.9</td><td class="align_center">61.5</td><td class="align_center">130.2</td><td class="align_center">28.5</td></tr><tr class="table-tr"><td colspan="9"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparisons with state-of-the-art single-model approaches on MSCOCO karpathy test split.</div>

Computational Intelligence and Neuroscience

Visual-Text Reference Pretraining Model for Image Captioning

Table 1