End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation

<table class="table-group" id="tab6"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Environment</td><td class="align_center">Method</td><td class="align_center">Reward</td><td class="align_center">MER (%)</td><td class="align_center">IQRE</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">Maze-1</td><td class="align_center">ICM + scratch</td><td class="align_center">584.59</td><td class="align_center">100.00</td><td class="align_center">7.93</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">586.32</td><td class="align_center">100.00</td><td class="align_center">4.72</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">583.74</td><td class="align_center">100.00</td><td class="align_center">9.13</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">586.56</td><td class="align_center">100.00</td><td class="align_center">7.24</td></tr><tr><td class="align_left" rowspan="4">Maze-2</td><td class="align_center">ICM + scratch</td><td class="align_center">567.28</td><td class="align_center">100.00</td><td class="align_center">8.07</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">571.87</td><td class="align_center">100.00</td><td class="align_center">5.15</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">514.63</td><td class="align_center">89.46</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">569.44</td><td class="align_center">100.00</td><td class="align_center">6.83</td></tr><tr><td class="align_left" rowspan="4">Maze-3</td><td class="align_center">ICM + scratch</td><td class="align_center">532.27</td><td class="align_center">91.64</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + scratch</td><td class="align_center">579.65</td><td class="align_center">100.00</td><td class="align_center">6.54</td></tr><tr><td class="align_center">ICM + fine-tuning</td><td class="align_center">483.16</td><td class="align_center">82.95</td><td class="align_center">N/A</td></tr><tr><td class="align_center">Ours + fine-tuning</td><td class="align_center">542.68</td><td class="align_center">92.63</td><td class="align_center">N/A</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Experiment results of learning exploration with fine-tuning method (exist extrinsic reward).</div>

Computational Intelligence and Neuroscience

tab6

Table 6

Table 6: End-to-End Autonomous Exploration with Deep Reinforcement Learning and Intrinsic Motivation