An Improved EfficientNetV2 Model Based on Visual Attention Mechanism: Application to Identification of Cassava Disease

<table class="table-group" id="tab9"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">Top1 Acc (%)</td><td class="align_center">Param (M)</td><td class="align_center">FLOPs (G)</td><td class="align_center">Infer time (s)</td><td class="align_center">Train time (h)</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">AlexNet</td><td class="align_center">89.8</td><td class="align_center">57.0</td><td class="align_center">0.8</td><td class="align_center">2.01</td><td class="align_center"><b>4.8</b></td></tr><tr><td class="align_left">VGG16</td><td class="align_center">96.3</td><td class="align_center">102</td><td class="align_center">15.5</td><td class="align_center">1.58</td><td class="align_center">22.4</td></tr><tr><td class="align_left">GoogLeNet</td><td class="align_center">94.9</td><td class="align_center">10.2</td><td class="align_center">1.52</td><td class="align_center">1.02</td><td class="align_center">7.8</td></tr><tr><td class="align_left">ResNet34</td><td class="align_center">97.8</td><td class="align_center">22.3</td><td class="align_center">3.68</td><td class="align_center">1.306</td><td class="align_center">8.7</td></tr><tr><td class="align_left">RegNetX</td><td class="align_center">95.6</td><td class="align_center">5.5</td><td class="align_center">0.43</td><td class="align_center">1.21</td><td class="align_center">25</td></tr><tr><td class="align_left">RegNetY</td><td class="align_center">98.4</td><td class="align_center"><b>5.1</b></td><td class="align_center"><b>0.42</b></td><td class="align_center">1.32</td><td class="align_center">27</td></tr><tr><td class="align_left">EfficientNetV2</td><td class="align_center">98.53</td><td class="align_center">21.4</td><td class="align_center">2.908</td><td class="align_center">1.01</td><td class="align_center">35</td></tr><tr><td class="align_left">PDRNet</td><td class="align_center"><b>99.56</b></td><td class="align_center">21.5</td><td class="align_center">2.909</td><td class="align_center"><b>1.01</b></td><td class="align_center">35</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Different network performance results on augmentation dataset. Infer time is measured on 1080ti GPU with batch size 16 using the same codebase; train time is the total training time. All models are trained with transfer learning.</div>

Computational Intelligence and Neuroscience

tab9

Table 9

Table 9: An Improved EfficientNetV2 Model Based on Visual Attention Mechanism: Application to Identification of Cassava Disease