An Adaptive Method Based on Multiscale Dilated Convolutional Network for Binaural Speech Source Localization

<table class="table-group" id="tab3"><tr><td><table class="table"><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr class="thead"><td class="align_left">RT<sub>60</sub>/DRR</td><td class="align_center">—</td><td class="align_center" colspan="2">0.1 s/−1.44 dB</td><td class="align_center" colspan="2">0.3 s/−2.02 dB</td><td class="align_center" colspan="2">0.5 s/−2.58 dB</td></tr><tr class="thead"><td class="align_left">Noise/SNR</td><td class="align_center">Avg.</td><td class="align_center">-/-</td><td class="align_center">White/15 dB</td><td class="align_center">-/-</td><td class="align_center">White/15 dB</td><td class="align_center">-/-</td><td class="align_center">White/15 dB</td></tr><tr><td class="thead-hr" colspan="8"><hr/></td></tr><tr><td class="align_left">MLP [<a href="/journals/complexity/2020/5819624/#B8" target="_blank">8</a>]</td><td class="align_center">28.87</td><td class="align_center">43.24</td><td class="align_center">24.46</td><td class="align_center">33.42</td><td class="align_center">24.19</td><td class="align_center">23.84</td><td class="align_center">24.05</td></tr><tr><td class="align_left">DNN [<a href="/journals/complexity/2020/5819624/#B19" target="_blank">19</a>]</td><td class="align_center">67.69</td><td class="align_center">92.14</td><td class="align_center">78.11</td><td class="align_center">74.94</td><td class="align_center">53.51</td><td class="align_center">63.81</td><td class="align_center">43.65</td></tr><tr><td class="align_left">Regular CNN</td><td class="align_center">61.40</td><td class="align_center">85.26</td><td class="align_center">79.73</td><td class="align_center">58.23</td><td class="align_center">52.16</td><td class="align_center">49.40</td><td class="align_center">43.65</td></tr><tr><td class="align_left">Dilation-2 CNN</td><td class="align_center">57.69</td><td class="align_center">77.15</td><td class="align_center">75.41</td><td class="align_center">56.02</td><td class="align_center">50.14</td><td class="align_center">43.74</td><td class="align_center">43.65</td></tr><tr><td class="align_left">Dilation-5 CNN</td><td class="align_center">84.03</td><td class="align_center">94.59</td><td class="align_center">89.46</td><td class="align_center">92.14</td><td class="align_center">75.95</td><td class="align_center">86.62</td><td class="align_center">65.41</td></tr><tr><td class="align_left">Cascaded DCNN</td><td class="align_center">73.16</td><td class="align_center">91.15</td><td class="align_center">77.84</td><td class="align_center">84.52</td><td class="align_center">56.62</td><td class="align_center">79.25</td><td class="align_center">49.59</td></tr><tr><td class="align_left">Ours <svg height="9.49473pt" id="M57" style="vertical-align:-0.2063999pt" version="1.1" viewbox="-0.0498162 -9.28833 28.4893 9.49473" width="28.4893pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M529 97L508 118C475 75 449 58 438 58C428 58 421 66 415 104C393 234 374 403 364 496C345 670 307 712 254 712C220 712 174 691 153 669L161 645C176 653 194 658 206 658C237 658 261 640 278 562C287 522 290 483 293 434C223 269 110 105 23 9L32 -12C59 -6 85 0 108 7C152 64 251 252 300 366C307 297 315 221 337 82C346 24 363 -12 393 -12C425 -12 475 13 529 97Z"></path></g><g transform="matrix(.013,0,0,-0.013,10.806,0)"><path d="M535 323V373H52V323H535ZM535 138V188H52V138H535Z"></path></g><g transform="matrix(.013,0,0,-0.013,22.068,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z"></path></g></svg></td><td class="align_center">78.86</td><td class="align_center">93.12</td><td class="align_center">87.97</td><td class="align_center">83.78</td><td class="align_center">71.08</td><td class="align_center">76.50</td><td class="align_center">60.68</td></tr><tr><td class="align_left">Ours <svg height="9.49473pt" id="M58" style="vertical-align:-0.2063999pt" version="1.1" viewbox="-0.0498162 -9.28833 37.7278 9.49473" width="37.7278pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M529 97L508 118C475 75 449 58 438 58C428 58 421 66 415 104C393 234 374 403 364 496C345 670 307 712 254 712C220 712 174 691 153 669L161 645C176 653 194 658 206 658C237 658 261 640 278 562C287 522 290 483 293 434C223 269 110 105 23 9L32 -12C59 -6 85 0 108 7C152 64 251 252 300 366C307 297 315 221 337 82C346 24 363 -12 393 -12C425 -12 475 13 529 97Z"></path></g><g transform="matrix(.013,0,0,-0.013,10.806,0)"><path d="M535 323V373H52V323H535ZM535 138V188H52V138H535Z"></path></g><g transform="matrix(.013,0,0,-0.013,22.068,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z"></path></g><g transform="matrix(.013,0,0,-0.013,28.308,0)"><path d="M113 -12C146 -12 170 11 170 46C170 78 146 103 114 103S58 78 58 46C58 11 82 -12 113 -12Z"></path></g><g transform="matrix(.013,0,0,-0.013,31.272,0)"><path d="M244 635C114 635 38 519 38 422C38 317 111 240 217 240C236 240 255 244 277 256L345 292C311 140 203 39 59 15L64 -15C89 -15 150 -5 204 17C339 72 440 202 440 386C440 521 368 635 244 635ZM228 602C326 602 352 479 352 390C352 370 351 347 348 324C327 308 293 296 258 296C174 296 124 369 124 458C124 517 152 602 228 602Z"></path></g></svg></td><td class="align_center">83.48</td><td class="align_center">94.59</td><td class="align_center">89.05</td><td class="align_center">90.66</td><td class="align_center">77.70</td><td class="align_center">85.08</td><td class="align_center">63.81</td></tr><tr class="table-tr"><td colspan="8"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Localization accuracy (%) of different approaches in the noisy and reverberant scenes.</div>

Complexity

tab3

Table 3

Table 3: An Adaptive Method Based on Multiscale Dilated Convolutional Network for Binaural Speech Source Localization