CDN_阿里云link_免费

小七 2019年10月25日 21:23 141 0

一言以蔽之，基因组测序

在数据库里试试这个笔记本这是西北基因组中心的Deborah Siegel和来自Databricks的Denny Lee来自华盛顿大学的客座帖子，介绍他们与ADAM和Spark在基因组变异分析方面的合作。这是使用K-Means、ADAM和Apache Spark进行的3部分系列基因组变异分析的第1部分：1.一言以蔽之，基因组测序2.基因组变异分析的并行化3.利用基因组变异和K均值预测地理种群介绍在过去的几年里，我们看到基因组测序的成本和时间都在迅速减少。了解基因组序列变化的潜力包括帮助我们识别易患常见疾病的人、解决罕见疾病以及使临床医生能够根据个人情况定制处方和剂量。在这个由三部分组成的博客中，我们将提供基因组测序及其潜力的入门知识。我们将关注基因组变异分析——即基因组序列之间的差异——以及如何利用Databricks Community Edition利用ApacheSpark和ADAM（基因组处理的可伸缩API和CLI）来加速分析。最后，我们将对基因组变异数据执行k-means聚类算法，并建立一个基于这些变异的个体地理种群预测模型。这第一篇文章将提供基因组测序的基础知识。你也可以跳到第二个后并行化基因组变异分析，重点是并行生物信息分析，或第三个帖子预测地理人口使用基因组变异和K-均值。基因组测序一个非常简单的语言类比想象一下一个由30亿个字符组成的长字符串，其中大约有25000个单词与其他字符相互交错。有些单词甚至可以造句。更改、添加或删除字符或字符组可能会改变单词和句子的结构或含义。每根长串大约有1000万到3000万个地方会出现这种差异。这让事情变得有趣。当然，一切都比较复杂。但这表明它本身是基因组数据的一个有用的抽象。在基因组中，我们一直在构建单词（基因）在字符串（碱基）中的位置的知识，并且我们已经发现了它们不同的地方（变体）。但我们并不是什么都知道。我们仍在研究变异的影响，基因之间的相互关系，以及它们在某些情况下如何以不同的形式和数量表达。一言以蔽之，基因组测序基因组测序包括使用化学和一种记录技术，以顺序（按顺序）读取编码基因组（a、G、C、T）的字符。数据最初以短字符串的形式读取。对于一个人基因组的30倍覆盖率（30倍是一个共同的目标），可能有大约6亿个短字符串，每个字符串150个字符。在数据预处理期间，字符串将被映射/对齐，通常是一个引用序列。有许多不同的方法来调整。最终，这给每个基地一个明确的位置。对齐序列数据的变体分析通过将序列与参考序列或其他对齐序列进行比较来发现代码差异，并将基因型分配给一个人的变体。一些检测到的变体将基于噪声，并且可以通过严格的参数阈值（如覆盖率、质量和特定领域的偏差）进行过滤。与硬过滤不同的是，一些分析师通过拟合高斯混合模型对变量进行阈值筛选。甚至在下游，分析员对数据进行量化和探索，尝试识别高度显著的变量（给定输入大小的一小部分），并尝试预测其功能效应。为什么是序列？从数据科学的角度来看，基因组序列（和外显子组序列）是一个有趣的数据。我们可以利用我们对序列的知识来获得关于代码如何以及为什么经过长时间进化的提示。基因组测序研究的知识正越来越多地融入医学中。基因组测序现在被用于非侵入性产前诊断。基因组测序将很快被用于临床筛查和诊断测试，许多正在进行的工作将扩展基因组医学。在研究和发现方面，大规模的队列和人群规模的基因组测序研究发现了变异或变异模式，这些变异或变异模式可能使人们容易患上常见疾病，如自闭症、心脏病和特定癌症。测序研究还显示了影响药物代谢的变异，使临床医生能够个性化地为每个人提供处方和剂量。在罕见的遗传性疾病的情况下，对一个家族中的某些成员进行测序通常会导致找到病因变异。（图片来源：Frederic Reinier，经许可使用）在过去五年里，测序实验已经将基因组变异与数百种罕见疾病联系起来："就个人而言，一种罕见的疾病可能只影响少数家庭。总的来说，仅在美国就有2000万到3000万人受到罕见疾病的影响。"基于这些原因，有一些资源可以用来阅读和分析序列。英国国家卫生服务局（National Health Service of The UK）有一个项目，在2017年之前对10万个家庭成员患有罕见疾病或癌症的家庭进行基因组测序。在美国，国家人类基因组研究所（NHGRI）计划在未来4年内资助普通疾病研究2.4亿美元和罕见疾病研究4000万美元。还有其他种类的测序将受益于生物信息学的规模化和降低数据科学应用于大量序列数据的障碍，如RNA序列、微生物组测序、免疫系统和癌症谱测序。测序技术一直是加速发展的目标。1998年至2001年，第一个人类基因组测序。它花费了2009年的28亿美元。如今，一个基因组可以在3天内进行测序，花费约1000美元（欲知更多信息，请查阅美国国立卫生研究院：国家人类基因组研究所>DNA测序成本）。在最初25年的测序实验中，这种化学方法一次只允许对一段DNA进行测序，这使得测序既费时、又慢而且昂贵。下一代测序已经变得非常并行，使得测序可以在同一个实验中的许多DNA片段上进行。此外，通过分子索引，多个个体的DNA可以一起测序，并且在分析过程中可以分离出数据。推测地球上大多数选择加入的人将在不远的将来进行基因组测序，这并不令人难以置信。要了解更多有关下一代测序的细节，请参阅《成熟：下一代测序技术的十年》根据应用和设置，目前的测序仪器每天可读取约600千兆碱基。一个大中型测序中心有几个这样的仪器同时运行。我们将在后面详细地看到，生物信息学面临的一个挑战是，用于分析变体的下游软件先前针对特定的、不可扩展的文件格式而不是数据模型本身进行了优化。其结果是存在管道脆弱性和可扩展性障碍。现在我们有了大规模的平行测序，许多人都在寻找平行的生物信息学分析。公共数据基因组序列数据通常是私有的。2007年至2013年间，1000个基因组项目是公众"群体水平测序"的初步尝试。在最后阶段，它提供了26个群体中2504个个体的测序覆盖率数据。我们使用这个项目中易于访问的数据作为资源，在Databricks Community Edition中构建了一个笔记本。下一步行动在下一篇博客平行化基因组变异分析中，我们将探讨并行生物信息学分析。你也可以跳过使用基因组变异和K均值预测地理种群。归属我们想特别调用以下帮助我们创建笔记本的资源大数据基因组学ADAM项目亚当：云计算的基因组学格式和处理模式（伯克利AMPLab）Andy Petrella与Spark和ADAM以及相关的GitHub回购进行了闪电般的基因组学研究。利用深度学习对基因组数据进行群体分层分析。马修·康伦闪电Viz项目。Timothy Danford的幻灯片演示（关于带有Spark的基因组学）孟德尔基因组学中心揭示了数百种罕见疾病的基因组基础美国国立卫生研究院基因组测序计划针对常见、罕见疾病的基因组基础1000基因组计划同时，我们还要感谢安东尼·约瑟夫、孟祥瑞、侯赛因·法拉基和蒂姆·亨特的额外贡献和评论。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3417.html