A Voice Cloning Method Based on the Improved HiFi-GAN Model

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr class="thead"><td class="align_left">Dimensions of the speaker embedding vector</td><td class="align_center">256</td></tr><tr><td class="thead-hr" colspan="2"><hr/></td></tr><tr><td class="align_left">Silence duration (s)</td><td class="align_center">0.4</td></tr><tr><td class="align_left">Utterance duration (s)</td><td class="align_center">16</td></tr><tr><td class="align_left">Mel spectrum channel number</td><td class="align_center">80</td></tr><tr><td class="align_left">Initial learning rate</td><td class="align_center">0.003</td></tr><tr><td class="align_left">Final learning rate</td><td class="align_center">0.00005</td></tr><tr><td class="align_left">Spectral window length (ms)</td><td class="align_center">50</td></tr><tr><td class="align_left">Spectral window shift (ms)</td><td class="align_center">12.5</td></tr><tr class="table-tr"><td colspan="2"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>The key training parameters of the feature prediction network.</div>

Computational Intelligence and Neuroscience

tab3

Table 3

Table 3: A Voice Cloning Method Based on the Improved HiFi-GAN Model