RDMMFET: Representation of Dense Multimodality Fusion Encoder Based on Transformer

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Image (K)</td><td class="align_center" colspan="6">Questions</td></tr><tr class="thead"><td class="align_center">MS COCO (K) [<a href="/journals/misy/2021/2662064/#B33" target="_blank">33</a>]</td><td class="align_center">VG (M) [<a href="/journals/misy/2021/2662064/#B34" target="_blank">34</a>]</td><td class="align_center">VQA v2.0 (K)</td><td class="align_center">GQA (M) [<a href="/journals/misy/2021/2662064/#B35" target="_blank">35</a>]</td><td class="align_center">VG-QA (M) [<a href="/journals/misy/2021/2662064/#B36" target="_blank">36</a>]</td><td class="align_center">All (M)</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">180</td><td class="align_center">617</td><td class="align_center">5.39</td><td class="align_center">658</td><td class="align_center">1.07</td><td class="align_center">1.44</td><td class="align_center">9.18</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Statistics of data sets used for pretraining.</div>

Mobile Information Systems

tab1

Table 1

Table 1: RDMMFET: Representation of Dense Multimodality Fusion Encoder Based on Transformer