香港服务器_免费云服务器永久使用_

小七 2019年10月25日 21:23 141 0

使用Databricks Delta和AWS Glue Data Catalog服务转换您的AWS数据湖

在这篇博客文章中，我们将探讨如何使用AWS Glue数据目录服务，可靠、高效地将您的AWS数据湖无缝地转换为Delta湖。AWS Glue服务是一个与Apache兼容的配置单元无服务器元存储，允许您轻松地跨AWS服务、应用程序或AWS帐户共享表元数据。这有几个具体的好处：通过跨多个Databricks工作区使用相同的AWS Glue目录简化了可管理性。通过在AWS Glue中为元数据使用身份和访问管理凭证传递简化了集成的安全性。有关详细说明，请参阅Databricks博客介绍Databricks AWS IAM Credential Passthrough。提供了对跨Amazon服务的元数据的更容易访问，以及对AWS Glue中编目的数据的访问。Databricks Delta Lake与AWS核心服务的集成此参考实现说明了定位独特的Databricks Delta-Lake与AWS核心服务的集成，帮助您解决最复杂的数据湖难题。概述什么是三角洲湖？DeltaLake是一个开源存储层，它为数据湖带来了可靠性。Delta Lake提供ACID事务、可扩展的元数据处理，并将流式处理和批处理数据处理统一起来。DeltaLake运行在现有的数据湖之上，与ApacheSparkAPI完全兼容。下载本电子书，了解数据湖面临的主要数据可靠性挑战，以及Delta Lake如何帮助解决这些挑战。Databricks最近在2019年Spark峰会上公开了Delta Lake的来源。您可以在增量io.对Delta Lake的Presto和Amazon Athena兼容性支持从Databricks runtime 5.5开始，现在可以从Presto和Amazon Athena查询Delta Lake表。当使用清单文件在配置单元元存储中定义外部表时，Presto和Amazon Athena使用清单文件中的文件列表，而不是通过目录列表查找文件。可以像查询表一样查询这些表，数据以Parquet等格式存储。第1步。如何配置Databricks集群以访问AWS Glue目录首先，必须使用必需的AWS Glue Catalog IAM角色启动Databricks计算集群。在Databricks-AWS-Glue-as-Metastore文档中，IAM角色和策略需求以一种逐步的方式清晰地概述。为了本博客的目的，我创建了一个AWS IAM角色，名为Field_Glue_role，它还授权访问我的S3 bucket。我将角色附加到集群配置中，如图1所示。图1。接下来，集群配置的Spark配置属性必须在集群启动之前设置，如图2所示。图2.更新Databricks集群Spark配置属性第二步。使用Databricks笔记本设置AWS Glue数据库在创建AWS Glue数据库之前，让我们将集群附加到在上一步中创建的笔记本上，并使用以下命令测试您的设置：然后使用AWS Glue控制台验证是否显示了相同的数据库列表，并列出了这些数据库。我们现在准备直接从笔记本电脑创建一个新的AWS Glue数据库，如下所示：并通过重新发布SHOW数据库来验证新的AWS Glue数据库是否已成功创建。也可以通过数据窗格查看AWS Glue数据库。第三步。使用相同的元存储创建Delta-Lake表和清单文件现在，让我们直接从笔记本创建表并将其编目到AWS Glue Data目录中。请参阅如何使用爬虫程序填充AWS Glue数据目录以创建和编目表。我使用的是电影推荐网站MovieLens数据集，它由电影收视率组成。我首先用以下python代码创建了一个DataFrame：然后将DataFrame注册为临时表，使用SQL进行访问，如下所示：现在，让我们使用SQL和在上一步中创建的临时表来创建Delta Lake表：注意：按照这个三角洲湖-三角洲湖快速入门指南中的描述，创建三角洲湖表非常容易。现在，我们可以使用以下步骤生成amazonaathena所需的清单文件。通过运行此Scala方法生成清单。如果创建了python、SQL或R笔记本，请记住在单元格前面加上%scala。使用特殊格式SymlinkTextInputFormat和清单文件位置在连接到Athena的配置单元元存储中创建一个表：在上面的示例代码中，请注意，清单文件是在s3a://aws airlifts/movies_delta/\u symlink_format_manifest/file位置创建的。第4步。使用Amazon Athena查询Delta Lake表Athena是一个无服务器的服务，不需要任何基础设施来管理和维护。因此，您可以查询Delta表，而不需要运行Databricks集群。从Amazon Athena控制台，选择您的数据库，然后预览表，如下所示：结论在AWS Glue的支持下，我们为所有使用AWS生态系统的企业引入了一个强大的无服务器元存储策略。此外，我们还通过与Amazon Athena的集成，提升您的Data Lake与Delta Lake的可靠性，并为您的企业提供无缝和无服务器的数据访问。现在，您可以安全地让您的分析师、数据工程师和数据科学家使用Databricks统一分析平台来支持AWS上的datalake策略。相关资源：开源三角洲湖电子书：建立可靠的数据湖规模与三角洲湖三角洲湖快速启动Databricks运行时试试看！免费试用Databricks。今天就开始吧

本文地址： /zhuji/3252.html