Integrating Temporal and Spatial Attention for Video Action Recognition

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">Model</td><td class="align_center">Pretraining dataset</td><td class="align_center">Accuracy (%)</td><td class="align_center">GFLOPs</td></tr><tr><td class="align_left" colspan="4"><hr/></td></tr><tr><td class="align_left">Res3D [<a href="/journals/scn/2022/5094801/#B22" target="_blank">22</a>]</td><td class="align_center">Sports-1M</td><td class="align_center">54.9</td><td class="align_center">—</td></tr><tr><td class="align_left">T3D [<a href="/journals/scn/2022/5094801/#B24" target="_blank">24</a>]</td><td class="align_center">Kinetics-400</td><td class="align_center">59.2</td><td class="align_center">—</td></tr><tr><td class="align_left">R(2 + 1)D [<a href="/journals/scn/2022/5094801/#B25" target="_blank">25</a>]</td><td class="align_center">Sports-1M</td><td class="align_center">66.6</td><td class="align_center">41.69</td></tr><tr><td class="align_left">TSM [<a href="/journals/scn/2022/5094801/#B26" target="_blank">26</a>]</td><td class="align_center">Kinetics-400</td><td class="align_center">73.6</td><td class="align_center">32.88</td></tr><tr><td class="align_left">I3D RGB [<a href="/journals/scn/2022/5094801/#B27" target="_blank">27</a>]</td><td class="align_center">Imagenet + Kinetics-400</td><td class="align_center">74.8</td><td class="align_center">108</td></tr><tr><td class="align_left">T-CNN [<a href="/journals/scn/2022/5094801/#B12" target="_blank">12</a>]</td><td class="align_center">Kinetics-400</td><td class="align_center">73.3</td><td class="align_center">15.78</td></tr><tr><td class="align_left">T-CNN + spatial</td><td class="align_center">Kinetics-400</td><td class="align_center">75.2</td><td class="align_center">52.3</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparisons with other methods on HMDB51 dataset.</div>

Security and Communication Networks

tab3

Table 3

Table 3: Integrating Temporal and Spatial Attention for Video Action Recognition