Two Efficient Techniques to Find Approximate Overlaps between Sequences

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left">Data Set </td><td class="align_center"> Size </td><td class="align_center"> # of strings </td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Random data</td><td class="align_center"> 1 MB<svg height="3.39444pt" id="M343" style="vertical-align:-0.04981995pt" version="1.1" viewbox="-0.0498162 -3.34462 6.88499 3.39444" width="6.88499pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M469 201V252H50V201H469Z" id="g190-178"></path><glyph.data ascent="989" descent="-360" horiz-adv-x="520" vert-adv-y="520"></glyph.data></g></svg>5 MB</td><td class="align_center"><span style="width: 63.2555ptpx;"><svg height="8.55521pt" id="M344" style="vertical-align:-0.2063904pt" version="1.1" viewbox="-0.0498162 -8.34882 63.2555 8.55521" width="63.2555pt" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink"><g transform="matrix(.013,0,0,-0.013,0,0)"><path d="M153 550H386L412 615L406 623H120L82 318C104 327 142 338 184 338C294 338 347 275 347 187C347 112 305 39 221 39C160 39 119 71 97 89C88 97 80 96 71 90C59 80 50 67 49 57C48 45 52 36 66 23C80 9 123 -12 169 -12C221 -11 288 15 342 59C403 109 431 165 431 225C431 308 366 395 238 395C212 395 165 379 127 364L153 550Z" id="g113-54"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,6.24,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,12.48,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,18.72,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,25.054,0)"><path d="M469 201V252H50V201H469Z" id="g190-178"></path><glyph.data ascent="989" descent="-360" horiz-adv-x="520" vert-adv-y="520"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,31.839,0)"><path d="M153 550H386L412 615L406 623H120L82 318C104 327 142 338 184 338C294 338 347 275 347 187C347 112 305 39 221 39C160 39 119 71 97 89C88 97 80 96 71 90C59 80 50 67 49 57C48 45 52 36 66 23C80 9 123 -12 169 -12C221 -11 288 15 342 59C403 109 431 165 431 225C431 308 366 395 238 395C212 395 165 379 127 364L153 550Z" id="g113-54"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,38.079,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,44.319,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,50.559,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g><g transform="matrix(.013,0,0,-0.013,56.799,0)"><path d="M241 635C89 635 35 457 35 312C35 153 89 -12 240 -12C390 -12 443 166 443 312C443 466 390 635 241 635ZM238 602C329 602 354 454 354 312C354 172 330 22 240 22C152 22 124 173 124 313S148 602 238 602Z" id="g113-49"></path><glyph.data ascent="3473" descent="-2876" horiz-adv-x="480" vert-adv-y="480"></glyph.data></g></svg></span></td></tr><tr><td class="align_left">Homo sapiens exome (SRR500004)</td><td class="align_center"> 1.1 GB</td><td class="align_center"> 15 M</td></tr><tr><td class="align_left"><i>E. coli</i> (SRR2244250)</td><td class="align_center"> 302 MB</td><td class="align_center"> 502,172</td></tr><tr><td class="align_left"><i>C. elegans </i></td><td class="align_center"> 167 MB</td><td class="align_center"> 334,465</td></tr><tr><td class="align_left"><i>Citrus clementina </i></td><td class="align_center"> 104 MB</td><td class="align_center"> 118,365</td></tr><tr><td class="align_left"><i>Citrus sinensis </i></td><td class="align_center"> 154 MB</td><td class="align_center"> 208,909</td></tr><tr><td class="align_left"><i>Citrus trifoliata </i></td><td class="align_center"> 46 MB</td><td class="align_center"> 62,344</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

BioMed Research International

tab1

Table 1

Table 1: Two Efficient Techniques to Find Approximate Overlaps between Sequences