Multiple Context Learning Networks for Visual Question Answering

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" rowspan="2">Module</td><td class="align_center">GQA</td><td class="align_center" colspan="4">VQA v2.0</td></tr><tr class="thead"><td class="align_center">All</td><td class="align_center">All</td><td class="align_center">Y/N</td><td class="align_center">Num</td><td class="align_center">Other</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">1</td><td class="align_center">Without all</td><td class="align_center">53.08</td><td class="align_center">54.60</td><td class="align_center">69.79</td><td class="align_center">36.02</td><td class="align_center">47.50</td></tr><tr><td class="align_left">2</td><td class="align_center">Only VCL</td><td class="align_center">53.45</td><td class="align_center">55.13</td><td class="align_center">69.82</td><td class="align_center">36.09</td><td class="align_center">47.99</td></tr><tr><td class="align_left">3</td><td class="align_center">Only TCL</td><td class="align_center">53.50</td><td class="align_center">55.53</td><td class="align_center">69.82</td><td class="align_center">36.44</td><td class="align_center">49.72</td></tr><tr><td class="align_left">4</td><td class="align_center">Only VTCL</td><td class="align_center">58.63</td><td class="align_center">62.07</td><td class="align_center">79.79</td><td class="align_center">42.67</td><td class="align_center">53.73</td></tr><tr><td class="align_left">5</td><td class="align_center">TCL + VTCL</td><td class="align_center">63.88</td><td class="align_center">65.17</td><td class="align_center">82.88</td><td class="align_center">44.68</td><td class="align_center">57.15</td></tr><tr><td class="align_left">6</td><td class="align_center">VCL + VTCL</td><td class="align_center">59.04</td><td class="align_center">62.72</td><td class="align_center">79.33</td><td class="align_center">43.29</td><td class="align_center">55.23</td></tr><tr><td class="align_left">7</td><td class="align_center">VCL + TCL</td><td class="align_center">53.72</td><td class="align_center">55.76</td><td class="align_center">71.01</td><td class="align_center">36.37</td><td class="align_center">49.29</td></tr><tr><td class="align_left">8</td><td class="align_center">Full modules</td><td class="align_center">64.48</td><td class="align_center">65.68</td><td class="align_center">83.40</td><td class="align_center">45.57</td><td class="align_center">57.53</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The results of ablating the context learning modules on VQA v2.0 and GQA validation sets.</div>

Scientific Programming

Multiple Context Learning Networks for Visual Question Answering

Table 2