基于Spark的高通量测序数据处理分析系统

文档更新于2022-03-02 19:19|4.5分(高于98%的文档) |545|44




11 项目介绍本项目为基于Spark云平台的高通量测序数据处理分析系统,致力于提供给用户一个分析和处理大型数据的平台,用户只需将已有数据上传到平台上,由这个系统对数据进行分析和处理,最后返回给用户所需的结果。基于Spark云平台的高通量测序数据处理分析系统,具有短序列比对拼接和查询、序列功能分析和进化分析等功能。与市场上已有产品相比,它具有分析效率高、无时空限制、处理分析流程一体化等特点。此产品将架设在北京市计算中心的生物云平台上,为个人及中小型生物制药企业等服务对象提供24*7在线服务。这不仅可大幅降低初创公司自身的运营成本,同时也可节约消费者软硬件的采购成本和管理成本。由于总工程量过大,毕业设计阶段仅选取“DNA序列拼接算法”这部分进行实现。目前在国际范围内,基因拼接算法还很少在Spark平台下实现,本项目主要对DeBruijin图算法和StringGraph图算法进行详细的学习和研究,并且在Spark平台下,借助RDD编程,将这两种算法和路径相容算法进行有效的结合,使得拼接算法执行效率更高,拼接结果更加精确,完成基于Spark云平台的高通量测序数据处理分析系统的DNA序列拼接部分。2 项目可行性分析21市场可行性分析本部分分别从市场发展概述、市场容量及趋势以及市场竞争三方面对本项目市场可行性进行分析。211市场发展概述近年来,随着人类基因组计划的开展,基因测序(DNA测序)产业近些年得到迅猛发展。来自BBCresearch的数据显示,全球基因测序市场总量从2007年的7941万美元增长至2013年的45亿美元,预计未来几年全球市场仍将继续保持快速增

2长,2018年达到117亿美元,复合年增长率(CAGR)达212%。在我国DNA测序市场发展更为迅速,以华大基因为首的测序类公司均实现100%以上的复合增长。在巨大利益的推动下,DNA测序工作已然成为生物信息学领域研究的热点之一。然而,基因测序所生成的原始数据必须通过专业人员进行分析和解读,利用计算机科学和信息技术揭示大量而复杂的生物数据所赋有的规律,对于整个基因测序行业尤为重要。然而,现今的生物信息分析涉及的数据存储、解读及共享是整个基因测序行业面临的最大难题,主要原因一是数据量庞大,二是数据的复杂性。Ebiotrade调查结果显示,普遍认为数据分析是使用基因测序的一大难题。对于海量的生物信息数据,需要具有行之有效的算法和高效的计算环境,在数据处理和分析领域的研究也逐渐的成为热点。由于科学技术水平的限制,当前的DNA测序仪的测序能力相对较低,无法完整的测出DNA序列,其最长也只能测得几百个碱基的基因片段的序列。所以,为了测得完整的DNA序列,必须将此DNA序列打断为足够小的片段,这样测序仪测出这些小的片段的序列提供给测序人员,然后后期需要将这些小的DNA片段拼接起来,这就是DNA序列拼接技术,即利用现有的小片段序列,将其拼接成一条完整的基因序列。目前,全球范围内的拼接算法大都基于Hadoop的,很少实现基于spark的基因拼接算法,由于Hadoop本身在设计上存在一些不足,MapReduce时在设计上追求简化的计算模型、大规模分布计算的容错性和可扩展性[22],因而存在较大的磁盘 I/O开销以及冗余读写和编程不够灵活等问题,更适合大规模数据的批量或离线计算,不能充分满足数据挖掘和机器学习常用的迭代计算、图计算和低延迟的交互式查询计算等更复杂的计算需求。由AMPLab实验室在零九年提出的Spark,是一个通用的大数据处理引擎,它很提出很好的弥补了Hadoop所存在的不足,主要进行的是RDD的运算,可以较好的满足图计算等更为复杂的计算需求,它本身就能快速,易使用的处理复杂数据,目前已经成为了发展最快的大数据处理引擎之一,并在生物信息学领域出现了一些成功的应用。212市场容量估算及趋势分析据前瞻产业研究院全球DNA测序行业研究小组整理数据显示,2011年全球测序产品及服务市场是30亿美元左右规模,预估之后以年平均成长率(CAGR)175%