A Voice Cloning Method Based on the Improved HiFi-GAN Model

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr class="thead"><td class="align_left">Layer</td><td class="align_center">Layer context</td><td class="align_center">Total context</td><td class="align_center">Input × output</td></tr><tr><td class="thead-hr" colspan="4"><hr/></td></tr><tr><td class="align_left">Frame 1</td><td class="align_center">[t − 2, t + 2]</td><td class="align_center">5</td><td class="align_center">100 × 512</td></tr><tr><td class="align_left">Frame 2</td><td class="align_center">{t − 2, t, t + 2}</td><td class="align_center">9</td><td class="align_center">1536 × 512</td></tr><tr><td class="align_left">Frame 3</td><td class="align_center">{t − 3, t, t + 3}</td><td class="align_center">15</td><td class="align_center">1536 × 512</td></tr><tr><td class="align_left">Frame 4</td><td class="align_center">{t}</td><td class="align_center">15</td><td class="align_center">512 × 512</td></tr><tr><td class="align_left">Frame 5</td><td class="align_center">{t}</td><td class="align_center">15</td><td class="align_center">512 × 1500</td></tr><tr><td class="align_left">Sats pooling</td><td class="align_center">[0, T)</td><td class="align_center">T</td><td class="align_center">1500T × 3000</td></tr><tr><td class="align_left">Segment 1</td><td class="align_center">{0}</td><td class="align_center">T</td><td class="align_center">3000 × 512</td></tr><tr><td class="align_left">Segment 2</td><td class="align_center">{0}</td><td class="align_center">T</td><td class="align_center">512 × 512</td></tr><tr><td class="align_left">SoftMax</td><td class="align_center">{0}</td><td class="align_center">T</td><td class="align_center">512 × K</td></tr><tr class="table-tr"><td colspan="4"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

Computational Intelligence and Neuroscience

tab1

Table 1

Table 1: A Voice Cloning Method Based on the Improved HiFi-GAN Model