Gated Object-Attribute Matching Network for Detailed Image Caption

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="13"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" colspan="6">Flickr30k</td><td class="align_center" colspan="6">MSCOCO</td></tr><tr class="thead"><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center">METEOR</td><td class="align_center">CIDEr</td><td class="align_center">B@1</td><td class="align_center">B@2</td><td class="align_center">B@3</td><td class="align_center">B@4</td><td class="align_center">METEOR</td><td class="align_center">CIDEr</td></tr><tr><td class="thead-hr" colspan="13"><hr/></td></tr><tr><td class="align_left">DeepV-SAlign [<a href="/journals/mpe/2020/9562587/#B7" target="_blank">7</a>]</td><td class="align_center">0.573</td><td class="align_center">0.369</td><td class="align_center">0.240</td><td class="align_center">0.157</td><td class="align_center">0.153</td><td class="align_center">0.247</td><td class="align_center">0.625</td><td class="align_center">0.450</td><td class="align_center">0.321</td><td class="align_center">0.230</td><td class="align_center">0.195</td><td class="align_center">0.660</td></tr><tr><td class="align_left">Soft-Attention [<a href="/journals/mpe/2020/9562587/#B26" target="_blank">26</a>]</td><td class="align_center">0.667</td><td class="align_center">0.434</td><td class="align_center">0.288</td><td class="align_center">0.191</td><td class="align_center">0.185</td><td class="align_center">—</td><td class="align_center">0.707</td><td class="align_center">0.492</td><td class="align_center">0.344</td><td class="align_center">0.243</td><td class="align_center">0.239</td><td class="align_center">—</td></tr><tr><td class="align_left">Hard-Attention [<a href="/journals/mpe/2020/9562587/#B26" target="_blank">26</a>]</td><td class="align_center">0.669</td><td class="align_center">0.439</td><td class="align_center">0.296</td><td class="align_center">0.199</td><td class="align_center">0.185</td><td class="align_center">—</td><td class="align_center">0.718</td><td class="align_center">0.504</td><td class="align_center">0.357</td><td class="align_center">0.250</td><td class="align_center">0.230</td><td class="align_center">—</td></tr><tr><td class="align_left">Attribute-FCN [<a href="/journals/mpe/2020/9562587/#B15" target="_blank">15</a>]</td><td class="align_center">0.647</td><td class="align_center">0.460</td><td class="align_center">0.324</td><td class="align_center">0.230</td><td class="align_center">0.189</td><td class="align_center">—</td><td class="align_center">0.709</td><td class="align_center">0.537</td><td class="align_center">0.402</td><td class="align_center">0.304</td><td class="align_center">0.243</td><td class="align_center">—</td></tr><tr><td class="align_left">Adaptive-Attention [<a href="/journals/mpe/2020/9562587/#B11" target="_blank">11</a>]</td><td class="align_center">0.677</td><td class="align_center">0.494</td><td class="align_center">0.354</td><td class="align_center">0.251</td><td class="align_center">0.204</td><td class="align_center">0.531</td><td class="align_center">0.742</td><td class="align_center">0.580</td><td class="align_center">0.439</td><td class="align_center">0.332</td><td class="align_center">0.266</td><td class="align_center">1.085</td></tr><tr><td class="align_left">Attribute-CNN + LSTM [<a href="/journals/mpe/2020/9562587/#B14" target="_blank">14</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">0.56</td><td class="align_center">0.42</td><td class="align_center">0.31</td><td class="align_center">0.26</td><td class="align_center">0.94</td></tr><tr><td class="align_left">NBT [<a href="/journals/mpe/2020/9562587/#B13" target="_blank">13</a>]</td><td class="align_center">0.720</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">0.285</td><td class="align_center">0.231</td><td class="align_center">0.575</td><td class="align_center">0.759</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">0.349</td><td class="align_center">0.274</td><td class="align_center">1.089</td></tr><tr><td class="align_left">Up-Down [<a href="/journals/mpe/2020/9562587/#B12" target="_blank">12</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">0.802</td><td class="align_center">0.641</td><td class="align_center">0.491</td><td class="align_center">0.369</td><td class="align_center">0.276</td><td class="align_center">1.179</td></tr><tr><td class="align_left">Ours (Box proposed)</td><td class="align_center">0.711</td><td class="align_center">0.507</td><td class="align_center">0.393</td><td class="align_center">0.266</td><td class="align_center">0.211</td><td class="align_center">0.630</td><td class="align_center">0.753</td><td class="align_center">0.592</td><td class="align_center">0.462</td><td class="align_center">0.341</td><td class="align_center">0.266</td><td class="align_center">0.954</td></tr><tr><td class="align_left">Ours (RL)</td><td class="align_center">0.735</td><td class="align_center">0.522</td><td class="align_center">0.401</td><td class="align_center">0.297</td><td class="align_center">0.219</td><td class="align_center">0.674</td><td class="align_center">0.772</td><td class="align_center">0.620</td><td class="align_center">0.476</td><td class="align_center">0.352</td><td class="align_center">0.270</td><td class="align_center">1.098</td></tr><tr class="table-tr"><td colspan="13"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The performance of the state-of-the-art image captioning models on the Flickr30k and MSCOCO testing splits.</div>

Mathematical Problems in Engineering

Gated Object-Attribute Matching Network for Detailed Image Caption

Table 1