A Voice Cloning Method Based on the Improved HiFi-GAN Model

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Initial learning rate</td><td class="align_center">0.0001</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Model embedding size</td><td class="align_center">256</td></tr><tr><td class="align_left">Model hidden layer size</td><td class="align_center">256</td></tr><tr><td class="align_left">Model layers</td><td class="align_center">3</td></tr><tr><td class="align_left">Speaker batch size</td><td class="align_center">32</td></tr><tr><td class="align_left">Number of utterances per speaker</td><td class="align_center">10</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Speaker encoder model parameters based on <i>x</i>-vector.</div>

Computational Intelligence and Neuroscience

tab2

Table 2

Table 2: A Voice Cloning Method Based on the Improved HiFi-GAN Model