ASLNet: An Encoder-Decoder Architecture for Audio Splicing Detection and Localization

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr class="thead"><td class="align_left" rowspan="2">Dataset</td><td class="align_center" rowspan="2">Language</td><td class="align_center" rowspan="2">Duration (seconds)</td><td class="align_center" colspan="3">Num. of audio clips</td></tr><tr class="thead"><td class="align_center">Original</td><td class="align_center">Spliced</td><td class="align_center">Total</td></tr><tr><td class="thead-hr" colspan="6"><hr/></td></tr><tr><td class="align_left">ENSet2s</td><td class="align_center">English</td><td class="align_center">2</td><td class="align_center">9,898</td><td class="align_center">15,173</td><td class="align_center">25,071</td></tr><tr><td class="align_left">ENSet3s</td><td class="align_center">English</td><td class="align_center">3</td><td class="align_center">4,089</td><td class="align_center">19,783</td><td class="align_center">23,872</td></tr><tr><td class="align_left">CNSet2s</td><td class="align_center">Chinese</td><td class="align_center">2</td><td class="align_center">44,727</td><td class="align_center">86,073</td><td class="align_center">130,800</td></tr><tr><td class="align_left">CNSet3s</td><td class="align_center">Chinese</td><td class="align_center">3</td><td class="align_center">44,669</td><td class="align_center">85,865</td><td class="align_center">130,534</td></tr><tr class="table-tr"><td colspan="6"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Illustration of audio clips in each dataset.</div>

Security and Communication Networks

tab1

Table 1

Table 1: ASLNet: An Encoder-Decoder Architecture for Audio Splicing Detection and Localization