Multirobot Coverage Path Planning Based on Deep Q-Network in Unknown Environment

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Parameters</td><td class="align_center">Values</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Replay memory size</td><td class="align_center">100000</td></tr><tr><td class="align_left">Discount factor</td><td class="align_center">0.99</td></tr><tr><td class="align_left">The initial value of the greedy exploration</td><td class="align_center">1</td></tr><tr><td class="align_left">The final value of the greedy exploration</td><td class="align_center">0.25</td></tr><tr><td class="align_left">Robot's maximum number of steps in each episode</td><td class="align_center">180</td></tr><tr><td class="align_left">Learning rate</td><td class="align_center">0.0005</td></tr><tr><td class="align_left">Target network update frequency</td><td class="align_center">50 (episodes)</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The list of parameters of training.</div>

Journal of Robotics

tab2

Table 2

Table 2: Multirobot Coverage Path Planning Based on Deep Q-Network in Unknown Environment