An Adaptive Method Based on Multiscale Dilated Convolutional Network for Binaural Speech Source Localization

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left"> </td><td class="align_center">Training set</td><td class="align_center">Testing set</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">KEMAR HRIRs</td><td class="align_center">Anechoic HRIRs</td><td class="align_center">Anechoic HRIRs with headphone AKGK271 MK II</td></tr><tr><td class="align_left">TIMIT speech recordings</td><td class="align_center">10 males and 10 females</td><td class="align_center">Other 3 males and 3 females</td></tr><tr><td class="align_left">Source-to-sensor distance</td><td class="align_center">0.5 m, 1 m, 2 m, 3 m</td><td class="align_center">1 m, 1.5 m</td></tr><tr><td class="align_left">Noise types</td><td class="align_center">Babble, destroyerops and factory1</td><td class="align_center">White, m109 and f16</td></tr><tr><td class="align_left">SNRs</td><td class="align_center">−20 dB: 15 : 25 dB</td><td class="align_center">−10 dB: 10 : 30 dB</td></tr><tr><td class="align_left">Reverberation time <svg height="15.5154pt" id="M37" style="vertical-align:-3.2911pt" version="1.1" viewbox="-0.0498162 -12.2243 25.988 15.5154" width="25.988pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><rect height="0.65243" width="16.4936" x="0" y="-11.522"></rect><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M610 18C585 26 567 34 540 68C517 97 499 128 476 171C452 215 425 276 413 304C496 332 570 394 570 494C570 555 545 595 509 619S419 650 364 650H139L133 622C216 615 219 612 203 527L129 132C112 40 105 36 23 28L17 0H279L285 28C199 34 194 40 211 132L239 284H284C320 284 334 275 351 236C374 182 394 140 420 93C459 23 495 -1 592 -8H600L610 18ZM480 485C480 424 449 372 403 342C374 323 338 316 293 316H245L291 562C296 589 301 601 311 608S337 618 358 618C432 618 480 575 480 485Z"></path></g><g transform="matrix(.013,0,0,-0.013,8.151,0)"><path d="M620 675H597C578 656 570 650 541 650H144C112 650 104 653 94 675H72C59 618 42 552 23 493L53 491C71 534 88 564 105 585C124 608 144 615 238 615H290L197 121C182 40 174 34 88 28L82 0H361L367 28C275 34 266 38 281 121L374 615H441C522 615 543 608 553 583C562 560 566 531 565 493L597 494C603 551 612 629 620 675Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,16.494,3.132)"><path d="M141 347C171 480 264 541 327 570C364 587 403 599 436 605L429 641C389 634 339 622 300 609C191 570 37 458 37 239C37 86 126 -12 245 -12C367 -12 454 89 454 210C454 314 380 397 272 397C252 397 230 390 208 380L141 347ZM231 338C323 338 366 257 366 174C366 108 340 27 263 27C180 27 129 123 129 244C129 268 130 292 135 310C158 323 193 338 231 338Z"></path></g><g transform="matrix(.0091,0,0,-0.0091,20.926,3.132)"><path d="M245 635C92 635 37 457 37 312C37 149 91 -12 244 -12C395 -12 449 166 449 312C449 469 395 635 245 635ZM243 598C332 598 358 454 358 312C358 173 334 26 245 26C158 26 128 174 128 313S152 598 243 598Z"></path></g></svg></td><td class="align_center">None</td><td class="align_center">0.1 s, 0.3 s, 0.5 s</td></tr><tr><td class="align_left">Direct-to-reverberant ratio (DRR)</td><td class="align_center">None</td><td class="align_center">−1.44 dB, −2.02 dB, −2.58 dB</td></tr><tr><td class="align_left">Number of binaural mixtures</td><td class="align_center">52369 noise-free and noisy signals and 5819 for validation set</td><td class="align_center">936 for each kind of noise and SNR, and 1221 reverberant signals</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Configuration of training and testing sets.</div>

Complexity

tab1

Table 1

Table 1: An Adaptive Method Based on Multiscale Dilated Convolutional Network for Binaural Speech Source Localization