PointTransformer: Encoding Human Local Features for Small Target Detection

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr class="thead"><td class="align_left">Method</td><td class="align_center">AP</td><td class="align_center">AP50</td><td class="align_center">AP75</td><td class="align_center">APs</td><td class="align_center">APm</td><td class="align_center">APl</td></tr><tr><td class="thead-hr" colspan="7"><hr/></td></tr><tr><td class="align_left">FCOS</td><td class="align_center">28.1</td><td class="align_center">39.5</td><td class="align_center">31.3</td><td class="align_center">16.5</td><td class="align_center">35.7</td><td class="align_center">48.1</td></tr><tr><td class="align_left">EfficentNet-B0-based EfficientDet</td><td class="align_center">27.9</td><td class="align_center">38.6</td><td class="align_center">30.8</td><td class="align_center">16.8</td><td class="align_center">34.5</td><td class="align_center">46.6</td></tr><tr><td class="align_left">EfficentNet-B3-based EfficientDet</td><td class="align_center">30.8</td><td class="align_center">40.8</td><td class="align_center">33.6</td><td class="align_center">17.0</td><td class="align_center">36.2</td><td class="align_center">49.1</td></tr><tr><td class="align_left">Transformer-based Deformable DETR</td><td class="align_center">33.5</td><td class="align_center">42.7</td><td class="align_center">36.1</td><td class="align_center">19.4</td><td class="align_center">41.5</td><td class="align_center">51.7</td></tr><tr><td class="align_left">YOLOV5-X</td><td class="align_center">31.4</td><td class="align_center">40.1</td><td class="align_center">33.2</td><td class="align_center">17.3</td><td class="align_center">38.7</td><td class="align_center">53.5</td></tr><tr><td class="align_left">Our proposed model</td><td class="align_center">37.2</td><td class="align_center">45.5</td><td class="align_center">40.7</td><td class="align_center">29.3</td><td class="align_center">42.1</td><td class="align_center">43.2</td></tr><tr class="table-tr"><td colspan="7"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison with the SOTA model.</div>

Computational Intelligence and Neuroscience

tab4

Table 4

Table 4: PointTransformer: Encoding Human Local Features for Small Target Detection