阿里云_阿里云镜像站_学生机

小七 2019年10月25日 21:23 141 0

Azure数据块的技术概述

这是Databricks的首席技术专家mateizaharia和微软的杰出工程师petercarlin的联合博客文章。今天在Microsoft Connect（）上，我们介绍了Azure Databricks，这是一个令人兴奋的预览版新服务，它将Apache Spark分析平台和Azure云的优点结合在一起。作为Databricks和微软的紧密合作伙伴关系，azuredatabricks带来了其他云平台所没有的独特优势。这篇博客文章介绍了数据科学家、数据工程师和业务决策者可以使用Azure上的Databricks的能力的技术和新功能。Apache Spark+Databricks+enterpriseCloud=Azure数据库一旦你在云中大规模地管理数据，你就为预测分析、人工智能和实时应用开辟了巨大的可能性。在过去五年中，构建这些应用程序的首选平台是Apache Spark：由于在全球数千家企业中拥有庞大的社区，Spark能够大规模、实时地运行强大的分析算法，以推动业务洞察力。然而，大规模管理和部署Spark仍然具有挑战性，特别是对于具有大量用户和强烈安全需求的企业用例。输入数据块。Databricks是由2013年启动Spark项目的团队创建的，它提供了一个端到端的、管理的apachespark平台，该平台针对云进行了优化。Databricks具有一键式部署、自动缩放和优化的Databricks运行时，可将云中Spark作业的性能提高10-100倍，使运行大规模Spark工作负载变得简单且经济高效。此外，Databricks还包括一个交互式笔记本环境、监控工具和安全控制，这些都使得在拥有数千用户的企业中很容易利用Spark。在azuredatabricks中，我们通过Databricks和Microsoft之间的协作，与Azure服务紧密集成，从而超越了基础Databricks平台。Azure Databricks的特点是优化了连接到Azure存储平台（例如Data Lake和Blob存储）的连接器，以实现尽可能快的数据访问，以及直接从Azure控制台单击管理。这是apachespark平台提供商首次与云提供商紧密合作，从头开始优化数据分析工作负载。对数据工程师和数据科学家的好处为什么Azure数据库对数据科学家和工程师如此有用？让我们来看看：优化环境Azure Databricks从一开始就在云中优化了性能和成本效率。Databricks运行时为Apache Spark工作负载添加了几个关键功能，这些功能在Azure上运行时可以提高性能并将成本降低10-100倍：与Azure存储服务（如Azure Blob Store和Azure Data Lake）的高速连接器，与这些服务背后的Microsoft团队一起开发。自动缩放和自动终止火花集群，以自动最小化成本。性能优化包括缓存、索引和高级查询优化，与传统的Apache Spark部署相比，在云环境或内部部署环境中，性能可以提高10-100倍。无缝协作还记得文档变成真正的多编辑时生产力的飞跃吗？为什么我们不能在数据工程和数据科学中使用它？azuredatabricks带来了这一点。Databricks上的笔记本是实时和共享的，具有实时协作功能，因此组织中的每个人都可以处理您的数据。仪表板使业务用户能够使用新参数调用现有作业。Databricks与PowerBI紧密集成，实现了交互式可视化。所有这些都是可能的，因为Azure数据库由Azure数据库和其他支持高并发访问、快速性能和地域复制的技术支持。易于使用azuredatabricks附带了交互式笔记本，允许您连接到常见的数据源，运行机器学习算法，并学习apachespark的基本知识，以便快速入门。它还提供了一个集成的调试环境，允许您从交互式笔记本中分析Spark作业的进度，以及分析过去作业的强大工具。最后，预安装了其他常见的分析库，如Python和R数据科学堆栈，以便您可以将它们与Spark一起使用，以获得见解。我们真的相信大数据可以变得更容易使用10倍，并且我们继续从apachespark开始的理念，提供一个统一的端到端平台。Azure数据库的体系结构那么，Azure数据库是如何组合起来的呢？在较高的层次上，该服务在每个Azure客户的订阅中启动并管理worker节点，让客户利用其帐户中现有的管理工具。具体地说，当客户通过Databricks启动集群时，"Databricks设备"被部署为客户订阅中的Azure资源。客户指定要使用的vm的类型和数量，但是Databricks管理所有其他方面。除此设备外，还将托管资源组部署到客户的订阅中，我们使用VNet、安全组和存储帐户填充该订阅。这些是Azure用户熟悉的概念。一旦这些服务准备就绪，用户就可以通过azuredatabricks UI或通过诸如autoscaling之类的功能来管理Databricks集群。所有元数据（例如计划的作业）都存储在一个具有地理复制功能的Azure数据库中，以实现容错。对于用户来说，这种设计意味着两件事。首先，他们可以轻松地将Azure数据库连接到其帐户中的任何存储资源，例如，现有的Blob存储订阅或datalake。其次，数据链是从Azure控制中心集中管理的，不需要额外的设置。Azure集成总计我们正在将Azure数据库与Azure平台的所有功能紧密集成，以便为用户提供最好的平台。以下是我们迄今为止完成的一些工作：虚拟机类型的多样性：客户可以使用所有现有的虚拟机：用于机器学习场景的F系列、用于大容量内存场景的M系列、用于通用目的的D系列等等。安全和隐私：在Azure中，数据的所有权和控制权属于客户。我们构建了Azure数据库来遵守这些标准。我们的目标是azuredatabricks提供所有其他Azure遵循的合规认证。网络拓扑的灵活性：客户有各种各样的网络基础设施需求。azuredatabricks支持客户VNETs中的部署，VNETs可以控制哪些源和接收器可以访问以及如何访问它们。azurestorage和azuredatalake集成：这些存储服务通过DBFS向Databricks用户公开，以提供对现有数据的缓存和优化分析。azurepowerbi：用户可以使用JDBC将powerbi直接连接到他们的Databricks集群，以便使用熟悉的工具以交互方式查询大规模的数据。azureactivedirectory提供对资源访问的控制，并且已经在大多数企业中使用。azuredatabricks工作区部署在客户订阅中，因此AAD自然可以用来控制对源、结果和作业的访问。azuresqldatawarehouse、azuresqldb和azurecosmsdb:azuredatabricks可以轻松高效地将结果上传到这些服务中，以便进行进一步的分析和实时服务，使得在Azure上构建端到端数据架构变得很简单。除了您可以看到的所有集成，我们还努力以您看不到的方式进行集成，但可以看到其好处。在内部，我们使用Azure容器服务通过容器运行Azure Databricks控制平面和数据平面。加速网络提供了云中最快的虚拟化网络基础设施。azuredatabricks利用这一点进一步提高Spark性能。最新一代的Azure硬件（Dv3-VMs），具有NvMe-ssd在IO上的延迟达到100us。这使得Databricks的I/O性能更好。不过，我们只是触及表面而已！随着服务正式上市并超越这一点，我们希望继续与其他即将推出的Azure服务集成。结论我们很高兴能和你搭档瑞克斯。一家领先的云提供商和领先的分析系统提供商第一次合作构建了一个从零开始优化的云分析平台，从Azure的存储和网络基础设施一直到Databricks的Apache Spark运行时。我们相信azuredatabricks将大大简化企业级生产数据应用程序的构建，我们希望在服务推出时听到您的反馈。

本文地址： /zhuji/3072.html