HRNet Encoder and Dual-Branch Decoder Framework-Based Scene Text Recognition Model

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr class="thead"><td class="align_left">Model</td><td class="align_center">IIIT5k</td><td class="align_center">SVT</td><td class="align_center">IC03</td><td class="align_center">IC13</td><td class="align_center">IC15</td><td class="align_center">SVTP</td><td class="align_center">CUTE80</td></tr><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr><td class="align_left">Baseline (HRNet)</td><td class="align_center">91.7</td><td class="align_center">88.4</td><td class="align_center">93.4</td><td class="align_center">92.2</td><td class="align_center">78.6</td><td class="align_center">80.2</td><td class="align_center">80.9</td></tr><tr><td class="align_left">Baseline + SR (Bilinear Interpolation)</td><td class="align_center">93.0</td><td class="align_center">89.5</td><td class="align_center">92.7</td><td class="align_center">92.7</td><td class="align_center">81.1</td><td class="align_center">81.1</td><td class="align_center">78.1</td></tr><tr><td class="align_left">Baseline + SR (Bilinear Interpolation) + SAM</td><td class="align_center">93.0</td><td class="align_center">92.1</td><td class="align_center">91.9</td><td class="align_center">93.2</td><td class="align_center">81.7</td><td class="align_center">83.3</td><td class="align_center">81.2</td></tr><tr><td class="align_left">Baseline + SR (Trans Conv2D) + SAM</td><td class="align_center">93.4</td><td class="align_center">91.8</td><td class="align_center">93.3</td><td class="align_center">93.6</td><td class="align_center">81.8</td><td class="align_center">82.6</td><td class="align_center">81.6</td></tr><tr><td class="align_left">Proposed model</td><td class="align_center">93.7</td><td class="align_center">91.3</td><td class="align_center">93.3</td><td class="align_center">94.3</td><td class="align_center">82.8</td><td class="align_center">83.1</td><td class="align_center">83.0</td></tr><tr class="table-tr"><td colspan="8"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Comparison of accuracy of ablation models (%).</div>

International Journal of Antennas and Propagation

tab2

Table 2

Table 2: HRNet Encoder and Dual-Branch Decoder Framework-Based Scene Text Recognition Model