RDMMFET: Representation of Dense Multimodality Fusion Encoder Based on Transformer

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Label</td><td class="align_center">Method</td><td class="align_center">Test-dev</td><td class="align_center">Test-std</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="3">No pretraining</td><td class="align_center">DFAF [<a href="/journals/misy/2021/2662064/#B8" target="_blank">8</a>]</td><td class="align_center">70.22</td><td class="align_center">70.34</td></tr><tr><td class="align_center">MCAN [<a href="/journals/misy/2021/2662064/#B9" target="_blank">9</a>]</td><td class="align_center">70.63</td><td class="align_center">70.90</td></tr><tr><td class="align_center">MUAN [<a href="/journals/misy/2021/2662064/#B38" target="_blank">38</a>]</td><td class="align_center">70.82</td><td class="align_center">71.10</td></tr><tr><td class="align_left" rowspan="6">Pretraining</td><td class="align_center">ViLBERT [<a href="/journals/misy/2021/2662064/#B23" target="_blank">23</a>]</td><td class="align_center">70.55</td><td class="align_center">70.92</td></tr><tr><td class="align_center">VisualBert [<a href="/journals/misy/2021/2662064/#B27" target="_blank">27</a>]</td><td class="align_center">70.80</td><td class="align_center">71.00</td></tr><tr><td class="align_center">VL-BERT(base) [<a href="/journals/misy/2021/2662064/#B28" target="_blank">28</a>]</td><td class="align_center">71.16</td><td class="align_center">-</td></tr><tr><td class="align_center">VL-BERT(large) [<a href="/journals/misy/2021/2662064/#B28" target="_blank">28</a>]</td><td class="align_center">71.79</td><td class="align_center">72.22</td></tr><tr><td class="align_center">LXMERT [<a href="/journals/misy/2021/2662064/#B24" target="_blank">24</a>]</td><td class="align_center">72.42</td><td class="align_center">72.54</td></tr><tr><td class="align_center"><b>RDMMFET (ours)</b></td><td class="align_center"><b>72.59</b></td><td class="align_center"><b>72.67</b></td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison with the latest models on the VQA v2.0 data set.</div>

Mobile Information Systems

tab3

Table 3

Table 3: RDMMFET: Representation of Dense Multimodality Fusion Encoder Based on Transformer