Diversity Evolutionary Policy Deep Reinforcement Learning

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left">Task</td><td class="align_center">TD3</td><td class="align_center">Multiactor TD3</td><td class="align_center">CEM</td><td class="align_center">CEM-TD3</td><td class="align_center">DPERL</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">Hopper-v2</td><td class="align_center">3025 ± 577</td><td class="align_center">3241 ± 363</td><td class="align_center">1054 ± 17</td><td class="align_center">3652 ± 116</td><td class="align_center">3732 ± 106</td></tr><tr><td class="align_left">HalfCheetah-v2</td><td class="align_center">10002 ± 930</td><td class="align_center">10341 ± 578</td><td class="align_center">2298 ± 690</td><td class="align_center">10978 ± 758</td><td class="align_center">11615 ± 464</td></tr><tr><td class="align_left">Ant-v2</td><td class="align_center">3618 ± 425</td><td class="align_center">3881 ± 319</td><td class="align_center">845 ± 52</td><td class="align_center">4037 ± 466</td><td class="align_center">4852 ± 317</td></tr><tr><td class="align_left">Walker2d-v2</td><td class="align_center">4399 ± 238</td><td class="align_center">4470 ± 301</td><td class="align_center">743 ± 225</td><td class="align_center">4612 ± 357</td><td class="align_center">5001 ± 562</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The mean and standard deviation of the cumulative return per turn in different MuJoCo tasks.</div>

Computational Intelligence and Neuroscience

Diversity Evolutionary Policy Deep Reinforcement Learning

Table 3