Network Architecture for Optimizing Deep Deterministic Policy Gradient Algorithms

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Order</td><td class="align_center">Parameter</td><td class="align_center">Value</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">1</td><td class="align_center">Decay rate</td><td class="align_center">0.9</td></tr><tr><td class="align_left">2</td><td class="align_center">Actor net learning rate</td><td class="align_center">0.0001</td></tr><tr><td class="align_left">3</td><td class="align_center">Critic net learning rate</td><td class="align_center">0.0001</td></tr><tr><td class="align_left">4</td><td class="align_center">Neuron number in 1<sup>st</sup> layer</td><td class="align_center">400</td></tr><tr><td class="align_left">5</td><td class="align_center">Neuron number in 2<sup>nd</sup> layer</td><td class="align_center">300</td></tr><tr><td class="align_left">6</td><td class="align_center">Experience pool volume</td><td class="align_center">100000</td></tr><tr><td class="align_left">7</td><td class="align_center">Batch data size</td><td class="align_center">256</td></tr><tr><td class="align_left">8</td><td class="align_center">Soft update coefficient</td><td class="align_center">0.01</td></tr><tr><td class="align_left">9</td><td class="align_center">Action reward discount rate</td><td class="align_center">0.99</td></tr><tr><td class="align_left">10</td><td class="align_center">Critic net output distribution low limit</td><td class="align_center">−20</td></tr><tr><td class="align_left">11</td><td class="align_center">Target net parameters update round number</td><td class="align_center">10</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Mujoco environment model hyperparameters.</div>

Computational Intelligence and Neuroscience

tab1

Table 1

Table 1: Network Architecture for Optimizing Deep Deterministic Policy Gradient Algorithms