An Efficient Parallelized Ontology Network-Based Semantic Similarity Measure for Big Biomedical Document Clustering

<table class="algorithm-group"><tr><td><table class="algorithm" id="alg3"><tr><td colspan="2">Document similarity calculation</td></tr><tr><td colspan="2">Input: &lt;m, list(d)&gt;</td></tr><tr><td colspan="2">Output: &lt;pair of d, similarity&gt;</td></tr><tr><td colspan="2">Notation: Write (k, v) outputs &lt;k, v&gt;</td></tr><tr><td colspan="2">Class mapper</td></tr><tr><td colspan="2"> Method map (heading, list(d))</td></tr><tr><td colspan="2">  m ← heading</td></tr><tr><td colspan="2">  For each d<sub>1</sub> ∈ D</td></tr><tr><td colspan="2">   r ← Sim (m, d<sub>1</sub>)</td></tr><tr><td colspan="2">   For each d<sub>2</sub> in list(d)</td></tr><tr><td colspan="2">    s ← string (d<sub>1</sub> +” &amp;” + d<sub>2</sub>)</td></tr><tr><td colspan="2">    Write (s, r)</td></tr><tr><td colspan="2">   End for</td></tr><tr><td colspan="2">  End for</td></tr><tr><td colspan="2">Class reducer</td></tr><tr><td colspan="2"> Method reduce (s, list(r))</td></tr><tr><td colspan="2">Sum ← 0, count ← 0</td></tr><tr><td colspan="2"> For each r in list(r)</td></tr><tr><td colspan="2">   Sum ← sum + r</td></tr><tr><td colspan="2">   Count ← count +1</td></tr><tr><td colspan="2">  End for</td></tr><tr><td colspan="2">  Write (s, sum/count)</td></tr></table></td></tr></table>

<div> Algorithm of MapReduce-based document similarity calculation.</div>

Computational and Mathematical Methods in Medicine

alg3

Algorithm 3

Algorithm 3: An Efficient Parallelized Ontology Network-Based Semantic Similarity Measure for Big Biomedical Document Clustering