Design and Development of a Big Data Platform for Disease Burden Based on the Spark Engine

<table class="table-group" id="tab1"><tr><td><table class="table"><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr class="thead"><td class="align_left"> </td><td class="align_center">Hadoop</td><td class="align_center">Spark</td></tr><tr><td class="thead-hr" colspan="3"><hr/></td></tr><tr><td class="align_left">Type</td><td class="align_center">Basic platform, including calculation, storage, and scheduling</td><td class="align_center">Pure distributed computing tools</td></tr><tr><td class="align_left">Scene</td><td class="align_center">Mass data batch processing (disk iterative calculation)</td><td class="align_center">Massive data batch processing (memory iterative calculation, interactive calculation), massive data stream calculation</td></tr><tr><td class="align_left">Price</td><td class="align_center">Low</td><td class="align_center">High</td></tr><tr><td class="align_left" rowspan="2">Programming paradigm</td><td class="align_center">MAP + REDUCE</td><td class="align_center">RDD is a DAG directed acyclic graph</td></tr><tr><td class="align_center">API level is relatively low, and algorithm adaptability is poor</td><td class="align_center">The API is top-level and easy to use</td></tr><tr><td class="align_left" colspan="3"><hr/></td></tr><tr><td class="align_left">Data storage structure</td><td class="align_center">The calculation result is on the HDFS disk with a large delay</td><td class="align_center">RDD intermediate operation results are stored in memory with a small delay</td></tr><tr><td class="align_left">Operation mode</td><td class="align_center">Tasks are maintained in process mode, and the task starts slowly</td><td class="align_center">Tasks are maintained in a threaded manner, with fast task startup, and can be created in batch to improve the parallel ability</td></tr><tr class="table-tr"><td colspan="3"><hr class="tbody-hr"/></td></tr></table></td></tr></table>

<div>Technical differences between Spark and Hadoop.</div>

Computational Intelligence and Neuroscience

tab1

Table 1

Table 1: Design and Development of a Big Data Platform for Disease Burden Based on the Spark Engine