Learning Attentional Communication with a Common Network for Multiagent Reinforcement Learning

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Parameters</td><td class="align_center">Value</td><td class="align_center">Descriptions</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Lr</td><td class="align_center">0.0005</td><td class="align_center">The learning rate</td></tr><tr><td class="align_left">Epsilon</td><td class="align_center">1</td><td class="align_center">Probability of exploration</td></tr><tr><td class="align_left">Min_epsilon</td><td class="align_center">0.05</td><td class="align_center">Minimum probability of exploration</td></tr><tr><td class="align_left">Anneal_steps</td><td class="align_center">50000</td><td class="align_center">The annealing steps of exploration</td></tr><tr><td class="align_left">T_max</td><td class="align_center">2000000</td><td class="align_center">The total step size of training</td></tr><tr><td class="align_left">N_episodes</td><td class="align_center">1</td><td class="align_center">The number of episodes sampled at an epoch</td></tr><tr><td class="align_left">Evaluate_cycle</td><td class="align_center">100</td><td class="align_center">The interval of the evaluation cycle</td></tr><tr><td class="align_left">Evaluate_epoch</td><td class="align_center">32</td><td class="align_center">Frequency of evaluation</td></tr><tr><td class="align_left">Batch_size</td><td class="align_center">32</td><td class="align_center">The batch data size for training</td></tr><tr><td class="align_left">Buffer_size</td><td class="align_center">5000</td><td class="align_center">The size of the buffer</td></tr><tr><td class="align_left">Target_update_cycle</td><td class="align_center">200</td><td class="align_center">The update interval of the target network</td></tr><tr><td class="align_left">hidden_dim</td><td class="align_center">64</td><td class="align_center">The dimension of a hidden layer</td></tr><tr><td class="align_left">Head</td><td class="align_center">8</td><td class="align_center">The number of the multihead</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Training parameters of the MAACCN algorithm.</div>

Computational Intelligence and Neuroscience

tab1

Table 1

Table 1: Learning Attentional Communication with a Common Network for Multiagent Reinforcement Learning