A Cross-Modal Image and Text Retrieval Method Based on Efficient Feature Extraction and Interactive Learning CAE

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Datasets</td><td class="align_center" colspan="4">MAP values</td></tr><tr class="thead"><td class="align_center">Methods</td><td class="align_center">Image query</td><td class="align_center">Text query</td><td class="align_center">Average</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">Flickr30K</td><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B15" target="_blank">15</a>]</td><td class="align_center">0.215</td><td class="align_center">0.237</td><td class="align_center">0.226</td></tr><tr><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B28" target="_blank">28</a>]</td><td class="align_center">0.304</td><td class="align_center">0.312</td><td class="align_center">0.328</td></tr><tr><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B22" target="_blank">22</a>]</td><td class="align_center">0.281</td><td class="align_center">0.335</td><td class="align_center">0.308</td></tr><tr><td class="align_center">The proposed method</td><td class="align_center">0.338</td><td class="align_center">0.379</td><td class="align_center">0.359</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">MSCOCO</td><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B15" target="_blank">15</a>]</td><td class="align_center">0.198</td><td class="align_center">0.264</td><td class="align_center">0.231</td></tr><tr><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B28" target="_blank">28</a>]</td><td class="align_center">0.293</td><td class="align_center">0.319</td><td class="align_center">0.301</td></tr><tr><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B22" target="_blank">22</a>]</td><td class="align_center">0.275</td><td class="align_center">0.318</td><td class="align_center">0.297</td></tr><tr><td class="align_center">The proposed method</td><td class="align_center">0.324</td><td class="align_center">0.343</td><td class="align_center">0.334</td></tr><tr><td class="align_left" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">Pascal VOC 2007</td><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B15" target="_blank">15</a>]</td><td class="align_center">0.192</td><td class="align_center">0.198</td><td class="align_center">0.195</td></tr><tr><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B28" target="_blank">28</a>]</td><td class="align_center">0.279</td><td class="align_center">0.295</td><td class="align_center">0.262</td></tr><tr><td class="align_center">Reference [<a href="/journals/sp/2022/7314599/#B22" target="_blank">22</a>]</td><td class="align_center">0.251</td><td class="align_center">0.247</td><td class="align_center">0.249</td></tr><tr><td class="align_center">The proposed method</td><td class="align_center">0.306</td><td class="align_center">0.311</td><td class="align_center">0.309</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>MAP (<i>R</i> = 50) values of different methods on three datasets.</div>

Scientific Programming

tab2

Table 2

Table 2: A Cross-Modal Image and Text Retrieval Method Based on Efficient Feature Extraction and Interactive Learning CAE