域名注册_阿里云服务器后台_优惠券

小七 2019年10月25日 21:23 141 0

大规模生产和自动化您的数据平台

数据驱动的创新已不再是在当今市场上保持竞争力的选择。能够首先将数据、分析和基于ML的产品推向市场的公司将很快击败竞争对手。虽然许多公司已经为应用程序开发简化了CI/CD（持续集成和交付）过程，但很少有公司有明确定义的开发数据和ML产品的过程。这就是为什么要有生产就绪、可靠和可扩展的数据管道，为您的经理使用的分析仪表盘和ML应用程序提供数据。随着新特性集的开发，数据科学家、数据分析师和数据工程师需要一致的工具集和环境，以帮助他们快速地迭代思想。随着这些想法的发展，需要对其进行测试，并迅速从开发到生产。一旦投入生产，ML模型和分析就需要不断地监控其有效性、稳定性和规模。如果您想加速创建新的和创新的数据产品，您将需要高度依赖自动化来克服以下挑战。缺乏一致性和协作性的开发环境当一个新团队在一个组织中开始构建他们的数据产品或服务时，他们需要在开始之前设置好基础设施、工具和企业治理策略。我们称之为"完全配置"的数据环境。这需要与组织中的多个团队进行协调和协商，可能需要几天时间（如果不是几周或几个月）。理想的情况是在几分钟内按需获得这样一个完全配置的数据环境。缺乏一致的Devops流程数据团队编写了许多代码来管理数据本身，例如用于数据接收、数据质量、数据清理和数据转换的代码。在数据被下游团队用于商业智能和机器学习之前，所有这些都是必需的。机器学习流程本身是非常迭代的。数据的数量和种类变化迅速，因此需要对处理数据管道和训练机器学习模型的代码进行更改。与任何其他应用程序开发代码库一样，这需要CI/CD管道规程来确保质量、一致性和幂等性。理想情况下，数据工程师和数据科学家（如app dev工程师）可以专注于代码的迭代，让数据平台和工具应用正确的质量门来将代码传输到生产中。对数据管道和ML模型性能的可见性有限数据环境可以在多个维度上发生变化—底层数据、数据管道中的数据转换代码以及使用这些数据构建的模型。任何这些都可能影响依赖它的应用程序的行为和性能。成百上千的团队部署了数千个应用程序和服务。扩展和监视这些应用程序的运行状况和性能的问题变得复杂起来。支持组织数据平台的DevOps团队需要自动化工具，以帮助数据团队随着工作负载的增加而扩展，并利用监控工具来确保这些应用程序的健康运行。按需完全配置的数据环境部署工作区连接数据源设置用户和组创建群集和群集策略添加用户和组的权限部署工作区（DeployWorkspace）——一个全球性的组织应该能够通过提供最接近其数据团队所在地的数据环境来满足其团队的数据平台需求，更重要的是，在数据所在的位置共同定位服务。作为组织的数据平台领导者，您应该能够在多个云和多个区域中满足这些团队的需求。一旦选择了一个地区，下一步就是为组织内的独立团队部署完全隔离的"环境"。工作区可以表示这样的环境，这些环境将团队彼此隔离，同时仍然允许团队成员彼此协作。通过直接调用工作区restapi或使用使用这些api的客户端工作区配置工具，可以自动创建这些工作区。连接数据源–下一步是将数据源连接到环境，包括在工作区中装载数据源。为了从数据环境中以适当的权限级别访问这些云原生数据源，可以使用标准化的基础设施（如Terraform）设置适当的权限和角色。提供用户和组–下一步是使用基于标准的scimapi在工作区中提供用户和组。当使用身份提供者（IdP），如azureactivedirectory，Okta等时，可以通过在IdP和Databricks之间设置自动同步来进一步自动化。这样就可以在一个标准位置IdP无缝地管理用户。创建集群和集群策略–既然已经配置了用户和数据，那么您需要设置计算，以便用户可以运行其工作负载来处理数据。clusters对象表示工作区中完全管理的、自动缩放的计算单元。通常，组织有两种实例化集群的模式。首先，用于交互式工作负载的长时间运行的静态集群——数据科学家在笔记本上进行探索性分析。第二，是由于计划或按需自动作业而创建的临时集群。静态集群由管理员在使用集群api创建数据环境的过程中设置。这可以确保集群符合策略，例如为vm使用正确的实例类型、使用正确的运行时、使用正确的标记等。您还可以配置集群以使用库API拥有正确的库集，因此最终用户不必担心这一点。根据定义，临时集群是在运行时创建的，因此策略只能在运行时应用。为了自动化这一点，您可以使用集群策略来帮助您定义工作区中任何用户可以创建的任何集群的参数，从而确保这些集群符合您的策略。Grant permissions（授予权限）–下一步，您需要向用户和组授予数据环境中对象的适当级别的权限，以便他们能够执行任务。Databrick支持对对象（如群集、作业、笔记本、池等）的细粒度访问控制。这些可以使用权限API（预览版）进行自动化。完全配置的数据环境CI/CD管道开发环境–现在您已经向组织中的产品（或服务）团队交付了一个完全配置的数据环境，数据科学家已经开始着手于此。他们正在使用他们熟悉的数据科学笔记本界面进行探索性分析。数据工程师也开始在环境中工作，他们喜欢在ide的上下文中工作。他们希望在他们最喜欢的IDE和数据环境之间建立一个连接，这样他们就可以使用IDE熟悉的接口来编写代码，同时利用数据环境的强大功能来运行单元测试，所有这些都是在IDE的上下文中进行的。任何一个训练有素的工程团队都会把他们的代码从开发人员的桌面带到产品中，通过各种质量关口和反馈循环运行。首先，团队需要将他们的数据环境连接到git这样的服务上的代码存储库，这样代码库就可以得到正确的版本控制，并且团队可以在代码库上进行协作。登台/集成环境——当数百名数据科学家和数据工程师在数据环境的开发阶段工作时，需要将一组更改推到集成测试阶段，但需要更多的控制。通常，您希望较少的用户能够访问集成测试环境，在该环境中，测试将连续运行，结果将被报告，更改将进一步升级。为了做到这一点，团队需要另一个工作区来表示他们的"登台"环境。另一个完全配置的环境可以很快交付给这个团队。与流行的持续集成工具（如Jenkins或azuredevops服务）的集成使团队能够持续地测试更改。随着更多的开发人员和更多的工作负载，对代码库的更改率会增加。需要更快地运行测试。这也要求底层基础设施能够非常快地可用。Databricks池允许基础设施保持在随时可用的状态，同时防止了总是在线的基础设施的成本失控。有了所有这些工具，团队就能够为他们的持续集成工作流实现"登台"环境。生产环境–最终，当代码需要部署到生产环境时（类似于完全配置的登台环境），可以快速地配置完全配置的生产环境。这是一个更加封闭的环境，只允许少数用户访问。使用他们的标准部署工具，通过利用平台的定义良好的restapi，团队可以将工件部署到他们的生产环境中。一旦建立了这个CI/CD管道，团队就可以快速地将更改从开发人员桌面转移到生产环境中，同时使用熟悉的工具来发布高质量的产品。大规模的数据链自动化精简操作随着时间的推移，随着处理的数据量的增加，数据团队需要扩展其工作负载。DevOps团队需要确保数据平台可以无缝扩展以适应其工作负载。DevOps团队可以利用数据平台中的自动伸缩功能，为这些工作负载提供无缝的自动扩展。此外，在多个云上可用的平台，以及每个云中的多个区域（AWS、Azure）允许DevOps团队

本文地址： /zhuji/3319.html