[Retracted] Gradient Descent Optimization in Deep Learning Model Training Based on Multistage and Method Combination Strategy

<table class="table-group" id="tab13"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2"> </td><td class="align_center" colspan="2">ResNet-20 on Cafri-10</td><td class="align_center" colspan="2">LSTM on IMDB</td></tr><tr class="thead"><td class="align_center">Val-loss</td><td class="align_center">Val-acc</td><td class="align_center">Val-loss</td><td class="align_center">Val-acc</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left">(SGD + M + d) + SGD</td><td class="align_center">0.6324</td><td class="align_center">0.8340</td><td class="align_center">0.3736</td><td class="align_center">0.8366</td></tr><tr><td class="align_left">(SGD + M + d) + (SGD + M)</td><td class="align_center">0.8533</td><td class="align_center">0.7737</td><td class="align_center">0.3770</td><td class="align_center">0.8369</td></tr><tr><td class="align_left">(SGD + M + d) + (SGD + d)</td><td class="align_center">0.6485</td><td class="align_center">0.8278</td><td class="align_center">0.3970</td><td class="align_center">0.8234</td></tr><tr><td class="align_left">(SGD + M + d) + (SGD + M + d)</td><td class="align_center">0.8289</td><td class="align_center">0.7868</td><td class="align_center">0.4274</td><td class="align_center">0.8036</td></tr><tr><td class="align_left">(SGD + M + d) + RMSprop</td><td class="align_center">0.9795</td><td class="align_center">0.7593</td><td class="align_center">0.4949</td><td class="align_center">0.8245</td></tr><tr><td class="align_left">(SGD + M + d) + (RMSprop + d)</td><td class="align_center">0.8371</td><td class="align_center">0.7884</td><td class="align_center">0.4587</td><td class="align_center">0.8279</td></tr><tr><td class="align_left">(SGD + M + d) + Adam</td><td class="align_center">1.2722</td><td class="align_center">0.7058</td><td class="align_center">0.8569</td><td class="align_center">0.8091</td></tr><tr><td class="align_left">(SGD + M + d) + (Adam + d)</td><td class="align_center">0.7481</td><td class="align_center">0.8112</td><td class="align_center">0.9056</td><td class="align_center">0.8070</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>The bold values represent the best results. </div></td></tr></table>

<div>Performance of the proposed method, SGD with Momentum and decay.</div>

Security and Communication Networks

tab13

Table 13

Table 13: [Retracted] Gradient Descent Optimization in Deep Learning Model Training Based on Multistage and Method Combination Strategy