Learning Deep Embedding with Acoustic and Phoneme Features for Speaker Recognition in FM Broadcasting

<table class="table-group" id="tab2"><tr><td><table class="table"><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr class="thead"><td class="align_left">Feature</td><td class="align_center">Method</td><td class="align_center">Aggregation</td><td class="align_center">Loss</td><td class="align_center">EER (%)</td></tr><tr><td class="thead-hr" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="11">AC</td><td class="align_center">Nagrani et al. [<a href="/journals/ietbm/2024/6694481/#B11" target="_blank">11</a>]</td><td class="align_center">—</td><td class="align_center">—</td><td class="align_center">8.8</td></tr><tr><td class="align_center">Nagrani et al. [<a href="/journals/ietbm/2024/6694481/#B11" target="_blank">11</a>]</td><td class="align_center">TAP</td><td class="align_center">Softmax</td><td class="align_center">10.2</td></tr><tr><td class="align_center">Kim and Park [<a href="/journals/ietbm/2024/6694481/#B26" target="_blank">26</a>]</td><td class="align_center">TAP</td><td class="align_center">AAM-Softmax</td><td class="align_center">5.68</td></tr><tr><td class="align_center">Han et al. [<a href="/journals/ietbm/2024/6694481/#B27" target="_blank">27</a>]</td><td class="align_center">SAP</td><td class="align_center">Softmax</td><td class="align_center">5.75</td></tr><tr><td class="align_center">Han et al. [<a href="/journals/ietbm/2024/6694481/#B27" target="_blank">27</a>]</td><td class="align_center">SAP</td><td class="align_center">AM-Softmax</td><td class="align_center">4.15</td></tr><tr><td class="align_center">Cai et al. [<a href="/journals/ietbm/2024/6694481/#B28" target="_blank">28</a>]</td><td class="align_center">SAP</td><td class="align_center">A-Softmax</td><td class="align_center">4.40</td></tr><tr><td class="align_center">Cai et al. [<a href="/journals/ietbm/2024/6694481/#B28" target="_blank">28</a>]</td><td class="align_center">LDE</td><td class="align_center">A-Softmax</td><td class="align_center">4.48</td></tr><tr><td class="align_center">Wang et al. [<a href="/journals/ietbm/2024/6694481/#B29" target="_blank">29</a>]</td><td class="align_center">MHA</td><td class="align_center">CosAMS</td><td class="align_center">4.46</td></tr><tr><td class="align_center">Wang et al. [<a href="/journals/ietbm/2024/6694481/#B29" target="_blank">29</a>]</td><td class="align_center">MRMHA</td><td class="align_center">CosAMS</td><td class="align_center">4.10</td></tr><tr><td class="align_center">Wang et al. [<a href="/journals/ietbm/2024/6694481/#B29" target="_blank">29</a>]</td><td class="align_center">MRMHA</td><td class="align_center">CosAMS</td><td class="align_center">3.98</td></tr><tr><td class="align_center">Wang et al. [<a href="/journals/ietbm/2024/6694481/#B29" target="_blank">29</a>]</td><td class="align_center">MRMHA</td><td class="align_center">CosAMS</td><td class="align_center">3.96</td></tr><tr><td class="align_center" colspan="5"><hr/></td></tr><tr><td class="align_left" rowspan="4">AC&amp;PH</td><td class="align_center"><i>ours_PFI_1</i></td><td class="align_center">TAP</td><td class="align_center">AAM-Softmax</td><td class="align_center">4.24</td></tr><tr><td class="align_center"><i>ours_PFI_2</i></td><td class="align_center">TAP</td><td class="align_center">AAM-Softmax</td><td class="align_center">4.46</td></tr><tr><td class="align_center"><i>ours_PFI_1</i></td><td class="align_center">AWP</td><td class="align_center">AAM-Softmax</td><td class="align_center"><b>3.72</b></td></tr><tr><td class="align_center"><i>ours_PFI_2</i></td><td class="align_center">AWP</td><td class="align_center">AAM-Softmax</td><td class="align_center">3.84</td></tr><tr class="table-tr"><td colspan="5"><hr class="tbody-hr"/></td></tr></table></td></tr><tr class="table-fn"><td><div>AC, acoustic; PH, phoneme; TAP, temporal average pooling; SAP, self-attention pooling; LDE, learnable dictionary encoding; MHA, multihead attention; MRMHA, multiresolution multihead attention; AWP, adaptive weight pooling. The use of “bold” is to emphasize the experimental result (3.72%).<br/></div></td></tr></table>

<div>TI-SV results for the hybrid DNNs compared with existing benchmarks.</div>

IET Biometrics

tab2

Table 2

Table 2: Learning Deep Embedding with Acoustic and Phoneme Features for Speaker Recognition in FM Broadcasting