微软云_青春珊瑚岛百度云_年度促销

小七 2019年10月25日 21:23 141 0

COVID-19数据集现在在Databricks上可用：数据社区如何提供帮助

最初发布于2020年4月14日；更新日期：2020年4月21日随着当前COVID-19流感大流行的大规模破坏，许多数据工程师和数据科学家都在问自己"数据社区能提供什么帮助？"数据社区已经在短时间内完成了一些惊人的工作，包括（但肯定不限于）最常用的COVID-19数据源之一：Johns Hopkins CSSE的2019年新型冠状病毒COVID-19（2019 nCoV）数据存储库。下面的动画GIF是3月22日至4月14日确诊病例（县）和死亡（圈）的比例图。其他例子包括新型冠状病毒的基因组流行病学，它提供了病原体进化的实时跟踪（点击播放传播和系统发育）。图2：来源：新型冠状病毒基因组流行病学（2020-04-08）医院资源利用模型的一个强有力的例子包括华盛顿大学的健康和指标评估（IHME）COVID-19预测。下面的屏幕截图提供了预计的医院资源利用率指标，突出显示峰值资源是在2020年3月28日使用的。图3:IHME COVID-19意大利预测（2020-04-08）但我能帮上什么忙？我们认为，克服COVID-19是目前世界上最棘手的问题，要帮助做出重要决定，必须了解基础数据。因此，我们已经采取措施让任何人——从第一次的数据探索者到数据专业人士——都能参与到这项工作中来。3月下旬，我们从COVID-19数据集的数据分析入门课程开始，我们的技术讲座是关于分析COVID-19的：数据社区能提供帮助吗？在这节课中，我们使用各种开源项目（包括但不限于apachespark）执行了探索性数据分析和自然语言处理（NLP）™蟒蛇，熊猫和伯特。我们还为您提供了这些笔记本电脑供您下载并在您自己选择的环境中使用，无论是您自己的本地Python虚拟环境、云计算还是Databricks社区版。例如，在本次会议期间，我们分析了COVID-19开放研究数据集挑战（CORD-19）数据集，并观察到：有数千个JSON文件，每个文件都包含研究论文的文本细节，包括它们的引用。JSON模式的复杂性使得处理这些数据成为一项复杂的任务。幸运的是，apachespark可以快速自动地推断出这些JSON文件的模式，使用这个笔记本，我们将数千个JSON文件保存到几个Parquet文件中，以便于后续的探索性数据分析。由于本文大部分是非结构化的，因此存在数据质量问题，包括（但不限于）正确识别主要作者的国家。在这本笔记本中，我们提供了清理这些数据的步骤，并确定了ISO阿尔法3国家代码，这样我们就可以根据主要作者的国家映射论文数量。图4：主要作者所在国通过分析COVID-19得到的与COVID-19相关的研究论文数量：数据社区能提供帮助吗？在清理完数据之后，我们可以应用各种NLP算法对这些数据进行分析和直觉分析，这本笔记本可以完成各种任务，包括概括论文摘要（一篇论文从7800个字符到1100个字符），以及根据这些研究论文的标题创建以下单词云。基于COVID-19相关研究论文标题的词云分析COVID-19：数据社区能提供帮助吗？给我看看数据！正如大多数数据分析师、工程师和科学家所证实的那样，数据质量对探索性数据分析有着巨大的影响。正如《关于机器学习的一些有用的知识》（2012年10月）中所述："一个拥有大量数据的愚蠢算法胜过数量适中的聪明算法。" 值得注意的是，这句话是为了强调拥有大量高质量数据的重要性，而不是简单化机器学习的许多其他重要方面，例如（但不限于）特征工程和数据的重要性是不够的。数据社区中的许多人已经并将继续为提供Kaggle和GitHub上的各种SARS-CoV-2（病因）和COVID-19（疾病）数据集，包括。为了便于您进行分析（如果您使用的是Databricks或Databricks Community Edition），我们会定期刷新并提供各种COVID-19数据集，用于研究（即非商业）目的。我们目前正在刷新以下数据集，并计划随时间增加更多数据集：/databricks datasets/[位置]资源/../COVID/CORD-19型/COVID-19开放研究数据集挑战赛（CORD-19）/../COVID/CSSEGISandData/2019年新型冠状病毒COVID-19（2019 nCoV）数据仓库，由Johns Hopkins CSSE提供/../COVID/ESRI_医院床位/权威医疗：美国医院床位/../COVID/IHME公司/IHME（UW）COVID-19投影/../COVID/USAFacts公司/美国事实：确认死亡/../COVID/coronavirusdataset/韩国（DS4C数据）/../COVID/COVID-19-数据/纽约时报COVID-19数据集通过我们的探索性数据分析研讨会了解更多信息多亏了我们之前技术讲座的积极反馈，我们很高兴地宣布，我们将继续举办一个研讨会系列，介绍如何使用COVID-19数据集在Python中进行探索性数据分析。视频将在YouTube上提供，笔记本电脑将在https://github.com/databricks/tech-talks供您在您选择的环境中使用。关于Databricks的Python简介本研讨会向您展示了在免费Databricks社区版上使用笔记本环境在Python中编程所需的简单步骤。Python是一种流行的编程语言，因为它有广泛的应用，包括数据分析、机器学习和web开发。本次研讨会将介绍一些重要的基本概念，帮助您开始用Python编写代码，重点是数据分析。您将了解不同类型的变量，for循环、函数和条件语句。无需事先掌握编程知识。谁应该参加这个研讨会：欢迎任何人和每个人，CS学生，甚至非技术人员参加。无需事先掌握编程知识。如果你以前学过Python课程，这对你来说可能太基础了。大熊猫数据分析本次研讨会的重点是pandas，一个用于数据分析和操作的强大的开源Python包。在本研讨会中，您将学习如何读取数据、计算摘要统计信息、检查数据分布、执行基本数据清理和转换以及绘制简单的数据可视化图。我们将使用约翰霍普金斯系统科学与工程中心（CSSE）新型冠状病毒（COVID-19）数据集。谁应该参加这个研讨会：任何人和每个人-CS学生，甚至非技术人员都欢迎加入。建议有Python基本经验。需要：虽然不需要准备工作，但我们推荐基本的Python知识。如果您是Python新手，那么我们的Python入门教程是一个很好的起点。使用scikit learn进行机器学习scikitlearn是数据科学从业者最流行的开源机器学习库之一。本研讨会将介绍机器学习的基础知识、不同类型的机器学习以及如何构建简单的机器学习模型。本次研讨会的重点是应用和评估机器学习方法的技术，而不是它们背后的统计概念。我们将使用约翰霍普金斯系统科学与工程中心（CSSE）发布的新型冠状病毒（COVID-19）的数据。谁应该参加这个研讨会：任何人和每个人-CS学生，甚至非技术人员都欢迎加入。必须有Python和pandas的基本经验。如果您是Python和pandas的新手，请观看Python简介教程并注册使用pandas进行数据分析教程。Apache Spark简介本研讨会将介绍apachespark的基本原理，apachespark是最流行的大数据处理引擎。在本研讨会中，您将学习如何使用Spark接收数据，分析Spark UI，并更好地理解分布式计算。我们将使用纽约时报发布的数据。不需要事先了解Spark，但强烈建议有Python经验。谁应该参加这个研讨会：任何人和每个人-CS学生，甚至非技术人员都欢迎加入。必须有Python和pandas的基本经验。如果您是Python和pandas的新手，请观看Python简介教程。对COVID-19数据集有一些了解为了帮助您快速分析COVID-19数据集，我们还在《纽约时报》COVID-19数据集和Johns Hopkins CSSE的2019年新型冠状病毒COVID-19（2019 nCoV）数据仓库的技术会谈/样本文件夹中添加了其他笔记本（可在/databricks datasets/COVID中定期更新）。《纽约时报》的COVID-19分析笔记本包括了对COVID-19病例和按县划分的死亡人数的分析。图6：华盛顿州前10个县的COVID-19比例案例，突出显示教育设施关闭的时间（来源：纽约时报COVID-19数据集，截至2020年4月14日）图7：纽约州前10个县的COVID-19比例案例，突出显示教育设施关闭的时间（来源：纽约时报COVID-19数据集，截至2020年4月14日）基于JHU COVID-19分析笔记本的一些观察结果包括：截至2020年4月11日，JHU COVID-19日报的模式已经改变了三次。前面的笔记本包括一个脚本，它循环遍历每个文件，提取文件名（获取日期），并将三种不同的模式合并在一起。它包括牛郎星可视化，以可视化的数量和死亡人数与COVID-19在美国的指数增长

本文地址： /zhuji/2923.html