HRNet Encoder and Dual-Branch Decoder Framework-Based Scene Text Recognition Model

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Model</td><td class="align_center" colspan="7">Benchmark</td><td class="align_center" colspan="2">Average</td></tr><tr class="thead"><td class="align_center">IIIT5k</td><td class="align_center">SVT</td><td class="align_center">IC03</td><td class="align_center">IC13</td><td class="align_center">IC15</td><td class="align_center">SVTP</td><td class="align_center">CUTE80</td><td class="align_center">Regular</td><td class="align_center">Irregular</td></tr><tr><td class="thead-hr" colspan="10"><hr/></td></tr><tr><td class="align_left">ASTER</td><td class="align_center">93.4</td><td class="align_center">89.5</td><td class="align_center">94.5</td><td class="align_center">91.8</td><td class="align_center">76.1</td><td class="align_center">78.5</td><td class="align_center">79.5</td><td class="align_center">92.3</td><td class="align_center">78.0</td></tr><tr><td class="align_left">TextSR</td><td class="align_center">92.5</td><td class="align_center">87.2</td><td class="align_center">93.2</td><td class="align_center">91.3</td><td class="align_center">75.6</td><td class="align_center">77.4</td><td class="align_center">78.9</td><td class="align_center">91.0</td><td class="align_center">77.3</td></tr><tr><td class="align_left">ESIR</td><td class="align_center">93.3</td><td class="align_center">90.2</td><td class="align_center">—</td><td class="align_center">91.7</td><td class="align_center">76.9</td><td class="align_center">79.6</td><td class="align_center">83.3</td><td class="align_center">91.7</td><td class="align_center">79.9</td></tr><tr><td class="align_left">2DOCR</td><td class="align_center">94</td><td class="align_center">90.1</td><td class="align_center">94.3</td><td class="align_center">92.7</td><td class="align_center">76.3</td><td class="align_center">82.3</td><td class="align_center">86.8</td><td class="align_center">92.7</td><td class="align_center">81.8</td></tr><tr><td class="align_left">Bi-STET</td><td class="align_center">94.7</td><td class="align_center">89</td><td class="align_center">96</td><td class="align_center">93.4</td><td class="align_center">75.7</td><td class="align_center">80.6</td><td class="align_center">82.5</td><td class="align_center">93.2</td><td class="align_center">79.6</td></tr><tr><td class="align_left">SEED</td><td class="align_center">93.8</td><td class="align_center">89.6</td><td class="align_center">—</td><td class="align_center">92.8</td><td class="align_center">80</td><td class="align_center">81.4</td><td class="align_center">83.6</td><td class="align_center">92.0</td><td class="align_center">81.6</td></tr><tr><td class="align_left">DAN</td><td class="align_center">94.3</td><td class="align_center">89.2</td><td class="align_center">95</td><td class="align_center">93.9</td><td class="align_center">74.5</td><td class="align_center">80</td><td class="align_center">84.4</td><td class="align_center">93.1</td><td class="align_center">79.6</td></tr><tr><td class="align_left">SPIN</td><td class="align_center">94.7</td><td class="align_center">87.6</td><td class="align_center">93.4</td><td class="align_center">91.5</td><td class="align_center">79.1</td><td class="align_center">79.7</td><td class="align_center">85.1</td><td class="align_center">91.8</td><td class="align_center">81.3</td></tr><tr><td class="align_left">RobustScanner</td><td class="align_center">95.3</td><td class="align_center">88.1</td><td class="align_center">—</td><td class="align_center">94.8</td><td class="align_center">77.1</td><td class="align_center">79.5</td><td class="align_center">90.3</td><td class="align_center">92.7</td><td class="align_center">82.3</td></tr><tr><td class="align_left">SCGAN</td><td class="align_center">94</td><td class="align_center">90</td><td class="align_center">95.6</td><td class="align_center">93.3</td><td class="align_center">81.6</td><td class="align_center">85.1</td><td class="align_center">78.1</td><td class="align_center">93.2</td><td class="align_center">81.6</td></tr><tr><td class="align_left">Proposed model</td><td class="align_center">93.7</td><td class="align_center">91.3</td><td class="align_center">93.3</td><td class="align_center">94.3</td><td class="align_center">82.8</td><td class="align_center">83.1</td><td class="align_center">83.0</td><td class="align_center">93.1</td><td class="align_center">82.9</td></tr><tr class="table-tr"><td colspan="10"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>Note: bold font is the optimal value in each column, and the underline font is the suboptimal value in each column. </div></td></tr></table>

<div>The accuracy comparison between the proposed model and recent models (%).</div>

International Journal of Antennas and Propagation

tab1

Table 1

Table 1: HRNet Encoder and Dual-Branch Decoder Framework-Based Scene Text Recognition Model