PF-ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition

<table class="table-group" id="tab4"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Methods</td><td class="align_center">Number of encoder layers per channel</td><td class="align_center">Epochs</td><td class="align_center">#Params (M)</td><td class="align_center">FLOPs (G)</td><td class="align_center">Acc. (%)</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left" rowspan="3">T-ViT</td><td class="align_center">3</td><td class="align_center">300</td><td class="align_center">43.11</td><td class="align_center">4.32</td><td class="align_center">98.1</td></tr><tr><td class="align_center">4</td><td class="align_center">300</td><td class="align_center">57.28</td><td class="align_center">5.72</td><td class="align_center">98.3</td></tr><tr><td class="align_center">6</td><td class="align_center">300</td><td class="align_center">85.62</td><td class="align_center">8.52</td><td class="align_center">98.6</td></tr><tr><td class="align_left" colspan="6"><hr/></td></tr><tr><td class="align_left" rowspan="3">F-ViT</td><td class="align_center">2</td><td class="align_center">300</td><td class="align_center">57.28</td><td class="align_center">2.94</td><td class="align_center">96.6</td></tr><tr><td class="align_center">3</td><td class="align_center">300</td><td class="align_center">85.62</td><td class="align_center">4.36</td><td class="align_center">97.3</td></tr><tr><td class="align_center">6</td><td class="align_center">300</td><td class="align_center">170.63</td><td class="align_center">8.61</td><td class="align_center">97.7</td></tr><tr><td class="align_left" colspan="6"><hr/></td></tr><tr><td class="align_left" rowspan="3">S-ViT</td><td class="align_center">2</td><td class="align_center">300</td><td class="align_center">99.79</td><td class="align_center">2.99</td><td class="align_center">96.3</td></tr><tr><td class="align_center">3</td><td class="align_center">300</td><td class="align_center">148.38</td><td class="align_center">4.43</td><td class="align_center">97.1</td></tr><tr><td class="align_center">4</td><td class="align_center">300</td><td class="align_center">198.98</td><td class="align_center">5.86</td><td class="align_center">97.0</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Performance of different models on the DHWDB dataset: parameters; FLOPs; accuracy.</div>

Computational Intelligence and Neuroscience

tab4

Table 4

Table 4: PF-ViT: Parallel and Fast Vision Transformer for Offline Handwritten Chinese Character Recognition