Multiple Context Learning Networks for Visual Question Answering

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" colspan="4">Test-dev</td><td class="align_center">Test-std</td></tr><tr class="thead"><td class="align_center">All</td><td class="align_center">Y/N</td><td class="align_center">Num</td><td class="align_center">Other</td><td class="align_center">All</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">BUTD [<a href="/journals/sp/2022/4378553/#B13" target="_blank">13</a>]</td><td class="align_center">65.32</td><td class="align_center">81.82</td><td class="align_center">44.21</td><td class="align_center">56.05</td><td class="align_center">65.67</td></tr><tr><td class="align_left">MFH [<a href="/journals/sp/2022/4378553/#B32" target="_blank">32</a>]</td><td class="align_center">68.76</td><td class="align_center">85.31</td><td class="align_center">49.56</td><td class="align_center">59.89</td><td class="align_center">-</td></tr><tr><td class="align_left">Counter [<a href="/journals/sp/2022/4378553/#B33" target="_blank">33</a>]</td><td class="align_center">68.09</td><td class="align_center">83.14</td><td class="align_center">51.62</td><td class="align_center">58.97</td><td class="align_center">68.09</td></tr><tr><td class="align_left">v-AGCN [<a href="/journals/sp/2022/4378553/#B17" target="_blank">17</a>]</td><td class="align_center">65.94</td><td class="align_center">82.58</td><td class="align_center">45.12</td><td class="align_center">56.71</td><td class="align_center">66.17</td></tr><tr><td class="align_left">ReGAT [<a href="/journals/sp/2022/4378553/#B16" target="_blank">16</a>]</td><td class="align_center">70.27</td><td class="align_center">86.08</td><td class="align_center">54.42</td><td class="align_center">60.33</td><td class="align_center">70.58</td></tr><tr><td class="align_left">DFAF [<a href="/journals/sp/2022/4378553/#B20" target="_blank">20</a>]</td><td class="align_center">70.22</td><td class="align_center">86.09</td><td class="align_center">53.32</td><td class="align_center">60.49</td><td class="align_center">70.34</td></tr><tr><td class="align_left">MCAN [<a href="/journals/sp/2022/4378553/#B21" target="_blank">21</a>]</td><td class="align_center">70.63</td><td class="align_center">86.82</td><td class="align_center">53.26</td><td class="align_center">60.72</td><td class="align_center">70.90</td></tr><tr><td class="align_left">MEDAN [<a href="/journals/sp/2022/4378553/#B22" target="_blank">22</a>]</td><td class="align_center">70.60</td><td class="align_center">87.10</td><td class="align_center">52.69</td><td class="align_center">60.56</td><td class="align_center">71.01</td></tr><tr><td class="align_left">MCLN-LSTM</td><td class="align_center">70.26</td><td class="align_center">85.95</td><td class="align_center">53.18</td><td class="align_center">60.72</td><td class="align_center">70.63</td></tr><tr><td class="align_left">MCLN-BERT</td><td class="align_center">71.05</td><td class="align_center">87.43</td><td class="align_center">53.28</td><td class="align_center">61.08</td><td class="align_center">71.48</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison with previous state-of-the-art methods on VQA v2.0 test dataset.</div>

Scientific Programming

Multiple Context Learning Networks for Visual Question Answering

Table 6