全站加速_阿里云sdk_返现

小七 2019年10月25日 21:23 141 0

在数据块上构建数据科学应用程序

在数据库里试试这个笔记本这是一个由3部分组成的系列文章的第2部分，介绍如何在Databricks上编写apachespark应用程序。这篇文章重点介绍有助于数据科学家解决业务问题而不是管理基础设施的工具和功能。对于数据科学家来说，最大的挑战是从原型到生产的整个过程中获取一个模型。这一过程中经常会出现各种不同的环境、无法反映生产数据质量的数据示例以及一系列基础架构难题。当多个团队被限制为共享一个集群来完成所有工作时，这些问题会变得更糟。在这些挑战中，原因在于，作为一个解决方案架构师，我看到许多数据科学团队在数据块方面取得了成功。jasonscheller在接受siliconagle采访时很好地描述了成功的秘诀："由于Databricks提供的笔记本产品，我们没有必要在上面再建立一个额外的堆栈。无论分析师拿出什么样的笔记本电脑，笔记本电脑都可以直接插入初级生产系统中。"Jason还量化了客户数据科学团队所取得的生产力收益："在[Apache]Spark之前，我们花了大约24小时对一天的数据进行建模，以便为特定的活动进行优化。使用Spark，我们可以在大约10分钟内模拟六个月的数据。"我的个人经历反映了杰森所说的话。在Databricks之前运行apachespark很难将原型投入生产。此外，等待基础设施团队为我提供环境是令人沮丧的。当我开始在Databricks工作时，我看到了用我们自己的产品运行所有生产工作负载是多么容易，对于我们的客户来说，大幅度减少他们的原型到生产时间是多么简单。我编写本指南是为了演示使用Databricks构建数据产品的过程。Databricks最强大的一个方面是用户可以简单地制作应用程序原型，然后直接将它们投入生产。这本指南是什么在本系列的前一个指南中，我们介绍了如何在Databricks上编写apachespark应用程序。如果还没有，一定要检查一下！第二个指南遵循同样的精神，但面向数据科学家的工作流程。为了做到这一点，指南从测试一个简单的想法开始，并通过迭代数据分析的过程。我们将从美国农业部和美国国税局提供的两组数据开始。美国农业部的数据包含了美国各地农贸市场数量的邮政编码数据。国税局有不同邮政编码的纳税信息。有了这两个数据集，我们希望通过该地区的纳税额来预测邮政编码中的农贸市场数量。假设是，缴纳更高税收的邮政编码（包括个人和企业）将拥有更多的农贸市场，因为在这些邮政编码的公民有更多的收入，可以为当地采购的水果和蔬菜支付更高的溢价！现在，这个假设做出了相当多的假设，但将为数据科学家提供一个很好的例子。尽管这些数据集无论如何都不是大数据集，但我们将通过创建显示关键信息位的强大可视化效果、清理数据以集中分析以及构建机器学习管道，了解如何使用ApacheSpark处理数据。对于那些刚刚开始机器学习的人，以及那些已经熟悉scikit learn等其他机器学习库但不确定如何在apachespark中构建类似管道的人来说，这个过程是一个很好的例子。在构建管道时，我们将介绍一些方便的数据库功能。正如Jason在采访中提到的，"Databricks中的笔记本可以是SQL查询、scala代码、python……而可视化功能就直接内置在……"。例如，下面的图像是使用Databricks内置的可视化功能快速创建的，它位于SQL查询的正上方，以便快速获得哪个邮政编码缴纳的税最高，以及这些税是由什么组成的。在数据块中内置可视化，邮政编码被截断以简化分析。这些可视化提供了我们将在构建两个机器学习模型的过程中利用的洞察力：首先，我们将利用线性回归来演示在管道之外建立机器学习模型的一般过程。它也将为我们在这种情况下理解简单线性方法的预测能力提供一个很好的基线。在研究了一个简单的线性模型之后，我们将更深入地介绍如何创建一个管道，该管道将尝试同一模型的各种不同版本（称为超参数调整）以获得更好的结果。我们将使用此技术以自动方式调整随机森林回归模型。然后，我们将比较这两个模型，看看它们在彼此之间的表现。下一步是什么您可以使用Databricks平台完成本指南中的示例（注册免费试用）。本系列的下一个指南将介绍数据工程师在使用Databricks平台时通常会使用的工作流。我们将通过连接到各种数据源来逐步构建ETL管道。我们还将完成创建udf以处理混乱的日期时间格式以及与另一个数据集相结合的过程。指南将有大量的代码和解释，所以请关注我们的Twitter或订阅我们的时事通讯！免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3430.html