云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

京东云_餐饮企业网站_怎么申请

小七 141 0

基因组变异分析的并行化

在数据库里试试这个笔记本这是西北基因组中心的Deborah Siegel和来自Databricks的Denny Lee来自华盛顿大学的客座帖子,介绍他们与ADAM和Spark在基因组变异分析方面的合作。这是使用K-Means、ADAM和Apache Spark进行的3部分系列基因组变异分析的第2部分:1.一言以蔽之,基因组测序2.基因组变异分析的并行化3.利用基因组变异和K均值预测地理种群介绍在过去的几年里,我们看到基因组测序的成本和时间都在迅速减少。了解基因组序列变化的潜力包括帮助我们识别易患常见疾病的人、解决罕见疾病以及使临床医生能够根据个人情况定制处方和剂量。在这个由三部分组成的博客中,我们将提供基因组测序及其潜力的入门知识。我们将关注基因组变异分析——即基因组序列之间的差异——以及如何利用Databricks Community Edition利用ApacheSpark和ADAM(基因组处理的可伸缩API和CLI)来加速分析。最后,我们将对基因组变异数据执行k-means聚类算法,并建立一个基于这些变异的个体地理种群预测模型。这篇文章将集中在平行化基因组序列分析上;为了复习基因组测序,你可以简单回顾一下基因组测序。你也可以跳到第三篇关于使用基因组变异和K均值预测地理种群的文章。基因组变异分析的并行化一言以蔽之,基因组测序,分析中有许多步骤和阶段可以分布式和并行化,以期在非常大的数据上显著提高性能并可能改善结果Apache Spark非常适合序列数据,因为它不仅以分布式并行方式执行许多任务,但可以主要在内存中这样做,减少了对中间文件的需要。ADAM+Spark的基准测试(排序基因组读取并标记重复读取以便删除)显示了可伸缩的加速,从单个节点上的1.5天到商品集群上的不到1小时(ADAM:Genomics Formats and Processing Patterns for Cloud Scale Computing)。当使用当前的基因组序列数据格式时,提到的一个主要问题是它们不容易并行化。从根本上讲,当前的工具集和基因组数据格式(例如SAM、BAM、VCF等)并不是为分布式计算环境设计的。为了提供上下文,接下来的部分将提供从基因组序列到变体工作流的简化背景。简化基因组序列到变异工作流在分析变体之前,必须首先执行一些质量控制和预处理步骤。简化的工作流程如下图所示。基因组测序仪机器的输出是以FASTQ格式的文本格式,以ASCII格式存储简短的核苷酸序列读数及其相关的质量分数。下图是FASTQ格式的数据示例。典型的下一步是使用BWA(Burrows-Wheeler-Alignment)序列比对工具,如Bowtie,将大量短DNA序列(reads)与参考基因组对齐,并创建一个SAM文件——一个将映射标签存储到基因组的序列比对映射文件。下图(来自序列对齐/映射格式规范)是SAM格式的示例。本规范有许多术语和概念超出了本博客文章的范围;有关更多信息,请参考序列对齐/映射格式规范。来源:序列比对/地图格式规范下一步是使用SAMtools将SAM存储到BAM(SAM的二进制版本)(此过程的一个很好的参考是Dave Tang的学习BAM文件)。最后,通过将BAM文件与引用序列进行比较(通常使用BCFtools完成),生成一个Variant Call Format(VCF)文件。注意,一个很好的简短博客文章描述了这个过程是Kaushik Ghose的SAM!砰!VCF!什么?。VCF概述有了VCF文件,我们终于可以开始执行变量分析了。VCF本身是一个复杂的规范,因此要获得更详细的解释,请参考1000基因组项目VCF(Variant Call Format)版本4.0规范。来源:1000基因组项目VCF(变量调用格式)版本4.0规范虽然有各种工具可以处理和分析VCF,但它们不能以分布式并行方式使用。VCF文件的简化视图是它包含元数据、头和数据。元数据通常是感兴趣的,应该应用于每个基因型。如下图所示,即使您有四个节点(即节点1、节点2、节点3、节点4)来处理您的基因型数据,也无法有效地将数据分发到所有四个节点。使用传统的变量分析工具,必须将包括所有数据、元数据和头的整个文件发送到单个节点。此外,VCF文件每行有一个以上的观察结果(变体及其所有基因型)。这使得在不重新格式化或使用特殊工具的情况下,不可能同时分析基因型。另一个使VCF分析复杂化的关键问题是VCF格式规范的复杂性。参考1000个基因组项目VCF(Variant Call Format)版本4.0规范,围绕如何解释VCF中的行有许多规则。因此,任何想要分析变量数据的数据科学家都必须花费大量的精力来理解他们正在处理和解析的特定vcf。介绍亚当大数据基因组学ADAM项目旨在解决有关序列数据分布和序列数据并行处理的问题,如技术报告ADAM:云计算的基因组格式和处理模式所述。ADAM由一个CLI(快速处理基因组数据的工具包)、大量api(转换、分析和查询基因组数据的接口)、模式和文件格式(允许高效并行访问数据的列格式)组成。bdg格式模式为了解决解析常见序列数据类型(如读取、面向引用的数据、变量、基因型和程序集)的复杂性,ADAM使用bdg格式,这是一组可扩展的apacheavro模式,它是围绕数据类型本身而不是文件格式构建的。换句话说,模式允许ADAM(或其他任何工具)更容易地查询数据,而不是根据文件格式构建自定义代码来解析每一行数据。这些数据格式是非常高效的—它们很容易序列化,并且关于每个特定模式的信息(例如数据类型)不必在每一批数据中冗余地发送。集群中的节点以可扩展的方式知道模式是什么(可以使用扩展模式添加数据,并与旧模式下的数据一起分析)。通过ADAM拼花地板并行分配ADAM Parquet文件(与二进制或文本VCF文件相比)支持快速处理,因为它们支持序列数据的并行分布。在VCF文件的早期图像中,我们看到整个文件必须发送到一个节点。使用ADAM Parquet文件,元数据和头文件被合并到数据元素和模式中,元素是"整齐的",因为每个元素有一个观察值(一个变体的一个基因型)。这使文件能够分布在多个节点上。它还使得只为您想要的数据过滤元素变得很简单,比如某个面板的基因型,而不需要使用特殊的工具。ADAM文件以Parquet columnar存储格式存储,该格式是为并行处理而设计的。在GATK4中,基因组分析工具箱也能够读写ADAM Parquet格式的数据。更新了简化基因组序列到变体的工作流程使用已定义的模式(bdg格式)和ADAM的api,数据科学家可以专注于查询数据,而不是解析数据格式。下一步行动在下一篇博客中,我们将运行一个并行的生物信息学分析示例,利用基因组变异和K均值预测地理种群。你也可以回顾一下基因组测序的入门:简而言之,基因组测序。归属我们想特别调用以下帮助我们创建笔记本的资源大数据基因组学ADAM项目亚当:云计算的基因组学格式和处理模式(伯克利AMPLab)Andy Petrella与Spark和ADAM以及相关的GitHub回购进行了闪电般的基因组学研究。利用深度学习对基因组数据进行群体分层分析。马修·康伦闪电Viz项目。Timothy Danford的幻灯片演示(关于带有Spark的基因组学)孟德尔基因组学中心揭示了数百种罕见疾病的基因组基础美国国立卫生研究院基因组测序计划针对常见、罕见疾病的基因组基础1000基因组计划同时,我们还要感谢安东尼·约瑟夫、孟祥瑞、侯赛因·法拉基和蒂姆·亨特的额外贡献和评论。免费试用Databricks。今天就开始吧