A Multiphase Semistatic Training Method for Swarm Confrontation Using Multiagent Deep Reinforcement Learning

<table class="table-group" id="tab5"><tr><td><table class="table"><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr class="thead"><td class="align_center" colspan="8"><b>Hyperparameters</b></td></tr><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr><td class="align_left">Batch size</td><td class="align_center">2048</td><td class="align_center">Buffer size</td><td class="align_center">20480</td><td class="align_center">Learning rate</td><td class="align_center">3.0<i>e</i> − 05</td><td class="align_center">Beta</td><td class="align_center">0.01</td></tr><tr><td class="align_left">Epsilon</td><td class="align_center">0.2</td><td class="align_center">Lambda</td><td class="align_center">0.95</td><td class="align_center">Num epoch</td><td class="align_center">3</td><td class="align_center">Time horizon</td><td class="align_center">128</td></tr><tr><td class="align_left" colspan="8"><hr/></td></tr><tr><td class="align_center" colspan="4"><b>Network setting</b></td><td class="align_center" colspan="4"><b>Reward signals</b></td></tr><tr><td class="align_left">Hidden units</td><td class="align_center">512</td><td class="align_center">Num layers</td><td class="align_center">3</td><td class="align_center">Gamma</td><td class="align_center">0.99</td><td class="align_center">Strength</td><td class="align_center">1</td></tr><tr class="table-tr"><td colspan="8"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The main parameters of training.</div>

Computational Intelligence and Neuroscience

tab5

Table 5

Table 5: A Multiphase Semistatic Training Method for Swarm Confrontation Using Multiagent Deep Reinforcement Learning