域名交易_百度云网盘下载_试用

小七 2019年10月25日 21:23 141 0

使用Azure Databricks和Azure数据工厂将90多个数据源连接到您的数据湖

通过各种洞察和数据源，使各组织能够及时、安全地访问各种数据。这一过程的第一步是使用健壮的数据管道来协调和自动化摄取。随着数据量、种类和速度的迅速增加，对可靠和安全的管道的需求越来越大，以提取、转换和加载（ETL）数据。Databricks客户每月处理超过2 EB（20亿GB）的数据，而Azure Databricks是当今Microsoft Azure上增长最快的数据和人工智能服务。azuredatabricks和其他Azure服务之间的紧密集成使客户能够简化和扩展他们的数据接收管道。例如，与azureactivedirectory（azuread）的集成支持一致的基于云的身份和访问管理。此外，与Azure Data Lake Storage（ADLS）的集成为大数据分析提供了高度可扩展和安全的存储，Azure数据工厂（ADF）支持混合数据集成，以简化大规模ETL。图表：带有Azure数据工厂和Azure数据块的批处理ETL使用单个工作流连接、接收和转换数据ADF包括90多个内置数据源连接器，并无缝运行Azure Databricks笔记本电脑，将所有数据源连接并摄取到单个数据湖中。ADF还提供了内置的工作流控制、数据转换、管道调度、数据集成和许多其他功能，以帮助您创建可靠的数据管道。ADF使客户能够摄取原始格式的数据，然后使用Azure数据块和Delta-Lake将其数据提炼并转换为青铜、银色和金色的表。例如，客户经常将ADF与azuredatabricks Delta Lake一起使用，以支持对其数据湖的SQL查询，并为机器学习构建数据管道。Azure Databricks和Azure数据工厂入门要使用Azure数据工厂运行Azure Databricks笔记本，请导航到Azure门户并搜索"数据工厂"，然后单击"创建"以定义新的数据工厂。接下来，为数据工厂提供一个唯一的名称，选择一个订阅，然后选择一个资源组和区域。单击"创建"。创建后，单击"转到资源"按钮查看新的数据工厂。现在通过单击"Author&Monitor"磁贴打开datafactory用户界面。从Azure数据工厂"让我们开始吧"页面中，单击左侧面板中的"作者"按钮。接下来，单击屏幕底部的"连接"，然后单击"新建"。在"新建链接服务"窗格中，单击"计算"选项卡，选择"Azure Databricks"，然后单击"继续"。输入Azure Databricks链接服务的名称并选择工作区。单击屏幕右上角的用户图标，然后选择"用户设置"，从Azure Databricks工作区创建访问令牌。单击"生成新令牌"。将令牌复制并粘贴到链接服务表单中，然后选择集群版本、大小和Python版本。检查所有设置并单击"创建"。链接服务就绪后，是时候创建管道了。从Azure数据工厂UI中，单击加号（+）按钮并选择"管道"。通过单击"参数"选项卡，然后单击加号（+）按钮来添加参数。接下来，通过展开"Databricks"活动，将Databricks笔记本添加到管道中，然后将Databricks笔记本拖放到管道设计画布上。通过选择"azuredatabricks"选项卡并选择上面创建的链接服务来连接到azuredatabricks工作区。接下来，单击"设置"选项卡以指定笔记本路径。现在单击"验证"按钮，然后单击"全部发布"以发布到ADF服务。发布后，单击"添加触发器|立即触发"触发管道运行。查看参数，然后单击"完成"以触发管道运行。现在切换到左侧面板上的"监视器"选项卡，查看管道运行的进度。将Azure Databricks笔记本电脑集成到您的Azure数据工厂管道中提供了一种灵活和可伸缩的方法来参数化和操作您的自定义ETL代码。要了解有关azuredatabricks如何与azuredatafactory（ADF）集成的更多信息，请参阅此ADF博客文章和本ADF教程。要了解有关如何在数据湖中探索和查询数据的更多信息，请参阅本次网络研讨会，使用SQL查询Delta lake中的数据湖。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3315.html