Multiple Context Learning Networks for Visual Question Answering

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center"><i>lr</i>×</td><td class="align_center">All</td><td class="align_center">Y/N</td><td class="align_center">Num</td><td class="align_center">Other</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left"><i>N</i> = 1, BERT</td><td class="align_center">0.001</td><td class="align_center">65.21</td><td class="align_center">82.61</td><td class="align_center">45.74</td><td class="align_center">57.13</td></tr><tr><td class="align_left"><i>N</i> = 1, BERT</td><td class="align_center">0.01</td><td class="align_center">66.12</td><td class="align_center">84.08</td><td class="align_center">45.97</td><td class="align_center">57.80</td></tr><tr><td class="align_left"><i>N</i> = 1, BERT</td><td class="align_center">0.1</td><td class="align_center">66.61</td><td class="align_center">85.09</td><td class="align_center">46.14</td><td class="align_center">57.98</td></tr><tr><td class="align_left"><i>N</i> = 2, BERT</td><td class="align_center">0.1</td><td class="align_center">67.52</td><td class="align_center">85.18</td><td class="align_center">49.09</td><td class="align_center">58.97</td></tr><tr><td class="align_left"><i>N</i> = 3, BERT</td><td class="align_center">0.1</td><td class="align_center">67.86</td><td class="align_center">85.35</td><td class="align_center">49.75</td><td class="align_center">59.27</td></tr><tr><td class="align_left"><i>N</i> = 4, BERT</td><td class="align_center">0.1</td><td class="align_center">67.80</td><td class="align_center">85.73</td><td class="align_center">49.94</td><td class="align_center">58.94</td></tr><tr><td class="align_left"><i>N</i> = 3, LSTM</td><td class="align_center">-</td><td class="align_center">66.86</td><td class="align_center">84.62</td><td class="align_center">48.85</td><td class="align_center">58.34</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The results of fine-tuning BERT on VQA v2.0 validation set.</div>

Scientific Programming

tab3

Table 3

Table 3: Multiple Context Learning Networks for Visual Question Answering