RGB-D Human Action Recognition of Deep Feature Enhancement and Fusion Using Two-Stream ConvNet

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Network</td><td class="align_center">Top 1</td><td class="align_center">Top 5</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Baseline</td><td class="align_center">81.5%</td><td class="align_left"></td></tr><tr><td class="align_left">1-block</td><td class="align_center">85.23%</td><td class="align_center">98.74%</td></tr><tr><td class="align_left">2-block</td><td class="align_center">86.43%</td><td class="align_center">98.62%</td></tr><tr><td class="align_left">3-block</td><td class="align_center">85.43%</td><td class="align_center">97.12%</td></tr><tr><td class="align_left">4-block</td><td class="align_center">82.14%</td><td class="align_center">97.2%</td></tr><tr><td class="align_left">5-block</td><td class="align_center">85.55%</td><td class="align_center">97.31%</td></tr><tr><td class="align_left">1-2-block</td><td class="align_center">85.63%</td><td class="align_center">96.32%</td></tr><tr><td class="align_left">1-3-block</td><td class="align_center">84.08%</td><td class="align_center">95.67%</td></tr><tr><td class="align_left">1-4-block</td><td class="align_center">84.24%</td><td class="align_center">92.35%</td></tr><tr><td class="align_left">2-2-block</td><td class="align_center">87.62%</td><td class="align_center">97.3%</td></tr><tr><td class="align_left">2-3-block</td><td class="align_center">84.1%</td><td class="align_center">95.2%</td></tr><tr><td class="align_left">2-4-block</td><td class="align_center">84.41%</td><td class="align_center">94.69%</td></tr><tr><td class="align_left">3-3-block</td><td class="align_center">83.77%</td><td class="align_center">94.12%</td></tr><tr><td class="align_left">3-4-block</td><td class="align_center">80.19%</td><td class="align_center">91.63%</td></tr><tr><td class="align_left">4-4-block</td><td class="align_center">77.09%</td><td class="align_center">91.03%</td></tr><tr><td class="align_left">5-5-block</td><td class="align_center">77.75%</td><td class="align_center">90.12%</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of accuracy of adding nonlocal to different locations of st-gcn.</div>

Journal of Sensors

tab3

Table 3

Table 3: RGB-D Human Action Recognition of Deep Feature Enhancement and Fusion Using Two-Stream ConvNet