[Retracted] Gradient Descent Optimization in Deep Learning Model Training Based on Multistage and Method Combination Strategy

<table class="table-group" id="tab8"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2"> </td><td class="align_center" colspan="2">ResNet-20 on Cafri-10</td><td class="align_center" colspan="2">LSTM on IMDB</td></tr><tr class="thead"><td class="align_center">Val-loss</td><td class="align_center">Val-acc</td><td class="align_center">Val-loss</td><td class="align_center">Val-acc</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">SGD + SGD</td><td class="align_center">1.0178</td><td class="align_center">0.6948</td><td class="align_center">0.6919</td><td class="align_center">0.5570</td></tr><tr><td class="align_left">SGD + (SGD + <i>M</i>)</td><td class="align_center">1.0763</td><td class="align_center">0.7134</td><td class="align_center">0.4408</td><td class="align_center">0.7971</td></tr><tr><td class="align_left">SGD + (SGD + <i>d</i>)</td><td class="align_center">0.9607</td><td class="align_center">0.7168</td><td class="align_center">0.6890</td><td class="align_center">0.5777</td></tr><tr><td class="align_left">SGD + (SGD + <i>M</i> + <i>d</i>)</td><td class="align_center">0.9040</td><td class="align_center">0.7557</td><td class="align_center">0.4353</td><td class="align_center">0.7982</td></tr><tr><td class="align_left">SGD + RMSprop</td><td class="align_center">0.9408</td><td class="align_center">0.7419</td><td class="align_center"><b>0.4287</b></td><td class="align_center"><b>0.8367</b></td></tr><tr><td class="align_left">SGD + (RMSprop + <i>d</i>)</td><td class="align_center">1.0131</td><td class="align_center">0.7298</td><td class="align_center">0.4342</td><td class="align_center">0.8237</td></tr><tr><td class="align_left">SGD + Adam</td><td class="align_center"><b>0.8751</b></td><td class="align_center"><b>0.7641</b></td><td class="align_center">0.9210</td><td class="align_center">0.8100</td></tr><tr><td class="align_left">SGD + (Adam + <i>d</i>)</td><td class="align_center">1.0692</td><td class="align_center">0.7274</td><td class="align_center">0.8172</td><td class="align_center">0.8130</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>m: Momentum, D: decay by 1<i>e </i>−<i> </i>6 every iteration, and “()”: take methods at the same timepiece. The bold values represent the best results.<br/></div></td></tr></table>

<div>Performance of the proposed method, SGD.</div>

Security and Communication Networks

tab8

Table 8

Table 8: [Retracted] Gradient Descent Optimization in Deep Learning Model Training Based on Multistage and Method Combination Strategy