[Retracted] Gradient Descent Optimization in Deep Learning Model Training Based on Multistage and Method Combination Strategy

<table class="table-group" id="tab10"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2"> </td><td class="align_center" colspan="2">ResNet-20 on Cafri-10</td><td class="align_center" colspan="2">LSTM on IMDB</td></tr><tr class="thead"><td class="align_center">Val-loss</td><td class="align_center">Val-acc</td><td class="align_center">Val-loss</td><td class="align_center">Val-acc</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">Adam + SGD</td><td class="align_center"><b>0.6088</b></td><td class="align_center"><b>0.8494</b></td><td class="align_center">0.9167</td><td class="align_center">0.8135</td></tr><tr><td class="align_left">Adam + (SGD + <i>M</i>)</td><td class="align_center">0.6582</td><td class="align_center">0.8335</td><td class="align_center">1.0421</td><td class="align_center"><b>0.8156</b></td></tr><tr><td class="align_left">Adam + (SGD + <i>d</i>)</td><td class="align_center">0.6108</td><td class="align_center">0.8451</td><td class="align_center"><b>0.9032</b></td><td class="align_center">0.8140</td></tr><tr><td class="align_left">Adam + (SGD + <i>M</i> + <i>d</i>)</td><td class="align_center">0.7453</td><td class="align_center">0.8093</td><td class="align_center">1.1045</td><td class="align_center">0.8150</td></tr><tr><td class="align_left">Adam + RMSprop</td><td class="align_center">0.6929</td><td class="align_center">0.8304</td><td class="align_center">1.1457</td><td class="align_center">0.8089</td></tr><tr><td class="align_left">Adam + (RMSprop + <i>d</i>)</td><td class="align_center">0.8948</td><td class="align_center">0.7816</td><td class="align_center">1.1166</td><td class="align_center">0.8038</td></tr><tr><td class="align_left">Adam + Adam</td><td class="align_center">0.8138</td><td class="align_center">0.7999</td><td class="align_center">1.2044</td><td class="align_center">0.8060</td></tr><tr><td class="align_left">Adam + (Adam + <i>d</i>)</td><td class="align_center">1.1411</td><td class="align_center">0.7164</td><td class="align_center">1.3086</td><td class="align_center">0.8089</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The bold values represent the best results.<br/></div></td></tr></table>

<div>Performance of the proposed method, Adam.</div>

Security and Communication Networks

tab10

Table 10

Table 10: [Retracted] Gradient Descent Optimization in Deep Learning Model Training Based on Multistage and Method Combination Strategy