Integrating Temporal and Spatial Attention for Video Action Recognition

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">Model</td><td class="align_center">Pretraining dataset</td><td class="align_center">Accuracy (%)</td><td class="align_center">GFLOPs</td></tr><tr><td class="align_left" colspan="4"><hr/></td></tr><tr><td class="align_left">C3D [<a href="/journals/scn/2022/5094801/#B20" target="_blank">20</a>]</td><td class="align_center">Sports-1M</td><td class="align_center">82.3</td><td class="align_center">38.57</td></tr><tr><td class="align_left">TRN [<a href="/journals/scn/2022/5094801/#B21" target="_blank">21</a>]</td><td class="align_center">—</td><td class="align_center">83.5</td><td class="align_center">83.83</td></tr><tr><td class="align_left">Res3D [<a href="/journals/scn/2022/5094801/#B22" target="_blank">22</a>]</td><td class="align_center">Sports-1M</td><td class="align_center">85.8</td><td class="align_center">—</td></tr><tr><td class="align_left">P3D [<a href="/journals/scn/2022/5094801/#B23" target="_blank">23</a>]</td><td class="align_center">Imagenet + Sports-1M</td><td class="align_center">88.6</td><td class="align_center">18.51</td></tr><tr><td class="align_left">T3D [<a href="/journals/scn/2022/5094801/#B24" target="_blank">24</a>]</td><td class="align_center">Kinetics-400</td><td class="align_center">90.3</td><td class="align_center">—</td></tr><tr><td class="align_left">TSN [<a href="/journals/scn/2022/5094801/#B8" target="_blank">8</a>]</td><td class="align_center">Imagenet + Kinetics-400</td><td class="align_center">91.1</td><td class="align_center">80</td></tr><tr><td class="align_left">R(2 + 1)D [<a href="/journals/scn/2022/5094801/#B25" target="_blank">25</a>]</td><td class="align_center">Sports-1M</td><td class="align_center">93.6</td><td class="align_center">41.69</td></tr><tr><td class="align_left">TSM [<a href="/journals/scn/2022/5094801/#B26" target="_blank">26</a>]</td><td class="align_center">Kinetics-400</td><td class="align_center">95.5</td><td class="align_center">32.88</td></tr><tr><td class="align_left">I3D RGB [<a href="/journals/scn/2022/5094801/#B27" target="_blank">27</a>]</td><td class="align_center">Imagenet + Kinetics-400</td><td class="align_center">95.6</td><td class="align_center">108</td></tr><tr><td class="align_left">T-CNN [<a href="/journals/scn/2022/5094801/#B12" target="_blank">12</a>]</td><td class="align_center">Kinetics-400</td><td class="align_center">95.3</td><td class="align_center">15.78</td></tr><tr><td class="align_left">T-CNN + spatial</td><td class="align_center">Kinetics-400</td><td class="align_center">96.7</td><td class="align_center">52.3</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparisons with other methods on UCF101 dataset.</div>

Security and Communication Networks

tab2

Table 2

Table 2: Integrating Temporal and Spatial Attention for Video Action Recognition