A Cooperative Lightweight Translation Algorithm Combined with Sparse-ReLU

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Description</td><td class="align_center">Substructure</td><td class="align_center">Layer name</td><td class="align_center">Size</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="9">Encoder</td><td class="align_center" rowspan="5">MultiHeadAttention</td><td class="align_center">cast_queries</td><td class="align_center">(512, 384)</td></tr><tr><td class="align_center">cast_keys_values</td><td class="align_center">(512,768)</td></tr><tr><td class="align_center">cast_output</td><td class="align_center">(384,512)</td></tr><tr><td class="align_center">softmax</td><td class="align_center">softmax</td></tr><tr><td class="align_center">layer_norm</td><td class="align_center">eps = 1e-05</td></tr><tr><td class="align_center" rowspan="4">PositionWiseFCNetwork</td><td class="align_center">LayerNorm</td><td class="align_center">eps = 1e-05</td></tr><tr><td class="align_center">fc_1</td><td class="align_center">(512,1024)</td></tr><tr><td class="align_center">fc_2</td><td class="align_center">(1024,512)</td></tr><tr><td class="align_center">Sparse-ReLU</td><td class="align_center">Sparse-ReLU ：<i>a</i> = 0.25,<i>b</i> = 1,<i>c</i> = 0.2,<i>d</i> = 0.4</td></tr><tr><td class="align_left" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="4">Decoder</td><td class="align_center">Embedding</td><td class="align_center">Embedding</td><td class="align_center">(10000, 512)</td></tr><tr><td class="align_center">MultiHeadAttention</td><td class="align_center">tgt_emb</td><td class="align_center">(10000, 512)</td></tr><tr><td class="align_center">MultiHeadAttention</td><td class="align_center">pos_emb</td><td class="align_center">(10000, 512)</td></tr><tr><td class="align_center">PositionWiseFCNetwork</td><td class="align_center">Sparse-ReLU</td><td class="align_center">Sparse-ReLU ：<i>a</i> = 0.25,<i>b</i> = 1,<i>c</i> = 0.1,<i>d</i> = 0.4</td></tr><tr><td class="align_left" colspan="4"><hr/></td></tr><tr><td class="align_left" rowspan="2">Output</td><td class="align_center">LayerNorm</td><td class="align_center">LayerNorm</td><td class="align_center">eps = 1e-05</td></tr><tr><td class="align_center">Fc</td><td class="align_center">Fc</td><td class="align_center">(512,10000)</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Computational Intelligence and Neuroscience

tab1

Table 1

Table 1: A Cooperative Lightweight Translation Algorithm Combined with Sparse-ReLU