域名注册_数据库案例教程_优惠券

小七 2019年10月25日 21:23 141 0

深入学习医学图像在人口规模：按需网络研讨会和常见问题解答现已提供！

6月26日，我们举办了一个在线研讨会——在人群规模上深入学习医学图像——来自人类长寿公司（HLI）的数据科学和工程团队的成员，该公司是医学成像和基因组学的领导者。在网络研讨会上，HLI分享了他们如何使用MRI图像、全基因组测序数据和其他临床数据集来驱动Health Nucleus，这是一个用于检测和确定痴呆症等症状前疾病风险的个性化健康平台。这个平台的核心是在大量核磁共振图像上使用深度学习管道来识别综合风险报告的生物标志物，使人们能够更好地管理与退行性疾病相关的生命周期。人工智能成功的主要障碍HLI面临的主要挑战之一是创建一个敏捷的机器学习环境。他们的团队在使用一系列筒仓式数据和机器学习工具时高度脱节。这使得他们很难创建协作、高效和可重复的工作流程—降低了生产率和创新能力。他们面临的另一个挑战是围绕数据的管理，从聚合和培训到大规模验证数据。他们不仅努力处理数兆字节的数据并将其传递到各种脱节的系统中，而且他们还需要严格的HIPAA管理要求来保护患者的健康信息。他们如何利用数据块为集成健康屏幕供电在讨论了关键的挑战之后，HLI分享了他们是如何使用数据块和开源技术（如apachesparktm、Tensorflow和MLflow）来构建一个包含14000多个未识别个人的综合成像数据库，并为模型开发、培训和部署提供一个灵活的环境。数据块是其数据架构的核心。数据存储在S3中，然后通过SQS消息传递系统将其输入到Databricks中，从而启动ETL批处理作业。然后对成像数据进行去识别和准备，以便进行下游分析。HLI团队分享了他们是如何在交互式集群上的Databricks中开发核心逻辑的，以及Databricks IDE集成如何使他们能够轻松地调试管道中的代码。通过使用工作区CLI，他们能够轻松地将代码从IDE复制/粘贴到Databricks笔记本中，以便快速轻松地进行故障排除和调试，然后轻松地将代码导出回他们的IDE中。接下来，他们展示了他们如何使用数据来训练机器学习模型来预测健康评分。对于他们的机器学习工作流程来说，确保跨研究、数据科学和工程以及模型再现性的高水平协作至关重要。MLflow是一个用于管理端到端ML生命周期的开源框架，是这个过程的核心。通过使用MLflow，HLI的数据科学团队能够记录和修改他们的各种实验，包括结果和参数，从而使他们能够轻松地共享和训练模型，并允许团队成员根据需要重用代码和模型。MLflow的另一个重要特性是它与语言和环境无关，允许他们的数据科学家使用他们选择的编码环境，并针对远程Databricks集群执行代码。最后，HLI团队详细介绍了一些结果和数据块对他们的深度学习项目交付能力的影响。具体来说，他们实现了以下好处：在统一平台上改进跨团队协作加速从创意到产品的时间加速生物标志物识别-减少评估模型所需的时间改进的工作流程将生物信息学和数据科学结合起来以提高生产力更快的ETL管道和更短的ETL开发时间简化的模型开发——MLflow和预打包的库使团队能够更快地构建深度学习模型现场演示和笔记本：转移识别的深度学习在HLI的演示之后，我们主持了一个在Databricks上进行转移识别的深度学习模型的现场演示。这些笔记本现在可以让您自己运行：笔记本1：整体图像数据集——首先，运行这个笔记本，将数据从GigaDB图像存储库转移到云存储中。笔记本2：生成肿瘤/正常图像补丁-下一个笔记本将处理整个幻灯片图像以创建补丁文件，用于训练检测转移的神经网络。笔记本3：使用深度学习来检测中间部位-这最后一本笔记本训练了一个基于异常结构的神经网络来检测转移，并将模型记录在MLFlow模型库中。网络研讨会问答在网络研讨会的最后，我们举行了一个问答。下面是问题和他们的答案：1）元数据存储在独立的数据存储中，而不是ETLed映像中，或者只是存储在另一个存储桶中？。您使用哪种数据存储和格式？元数据保留在S3上的DICOM图像中，因为它是DICOM的一部分，但是我们也将元数据信息的子集存储在我们的数据目录中，以查询研究所需的图像。这提供了更快的性能、查询元数据的标准化方法，并为我们提供了对谁有权访问数据的额外控制。研究人员将使用restapi查询数据目录中的那些图像。有趣的是，我们没有在数据目录中存储每个DICOM文件的标签。相反，我们将其存储在序列级别，因为我们的研究人员关心的是图像序列，而不是单个图像。我们的数据存储后端是一个为大数据查询优化的非关系数据库。2）使用了什么库/算法去识别DICOM图像？我们主要使用pydicom。然而，我们也使用GDCM来执行一些pydicom无法处理的解压。在算法方面，我们对重试逻辑和flatMap转换使用指数退避来将工作负载分布在我们的工作进程中。3）你能分享关于GPU设置和典型训练时间的任何数字吗？我们使用p3.8x.large实例将培训分发到四个NVIDIA Tesla V100 gpu上。由于3D数据需要更多的内存，所以我们使用了小批量，并在gpu上分割模型。平均训练时间至少为9小时，以验证骰子上的患者作为早期停止的标准。我们使用100个c4.2x型大节点，为参考人群中15K+个体提取定量成像生物标志物。下一步行动下载我们的转移检测深度学习笔记本：笔记本1：全侧图像数据集笔记本2：生成肿瘤/正常图像补丁笔记本3：使用深入学习来检测中间部位观看网络研讨会重播：在人口规模上深入学习医学图像免费试用Databricks。今天就开始吧

本文地址： /zhuji/3246.html