云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

香港服务器_免费云服务器永久使用_

小七 141 0

使用Databricks Delta和AWS Glue Data Catalog服务转换您的AWS数据湖

在这篇博客文章中,我们将探讨如何使用AWS Glue数据目录服务,可靠、高效地将您的AWS数据湖无缝地转换为Delta湖。AWS Glue服务是一个与Apache兼容的配置单元无服务器元存储,允许您轻松地跨AWS服务、应用程序或AWS帐户共享表元数据。这有几个具体的好处:通过跨多个Databricks工作区使用相同的AWS Glue目录简化了可管理性。通过在AWS Glue中为元数据使用身份和访问管理凭证传递简化了集成的安全性。有关详细说明,请参阅Databricks博客介绍Databricks AWS IAM Credential Passthrough。提供了对跨Amazon服务的元数据的更容易访问,以及对AWS Glue中编目的数据的访问。Databricks Delta Lake与AWS核心服务的集成此参考实现说明了定位独特的Databricks Delta-Lake与AWS核心服务的集成,帮助您解决最复杂的数据湖难题。概述什么是三角洲湖?DeltaLake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供ACID事务、可扩展的元数据处理,并将流式处理和批处理数据处理统一起来。DeltaLake运行在现有的数据湖之上,与ApacheSparkAPI完全兼容。下载本电子书,了解数据湖面临的主要数据可靠性挑战,以及Delta Lake如何帮助解决这些挑战。Databricks最近在2019年Spark峰会上公开了Delta Lake的来源。您可以在增量io.对Delta Lake的Presto和Amazon Athena兼容性支持从Databricks runtime 5.5开始,现在可以从Presto和Amazon Athena查询Delta Lake表。当使用清单文件在配置单元元存储中定义外部表时,Presto和Amazon Athena使用清单文件中的文件列表,而不是通过目录列表查找文件。可以像查询表一样查询这些表,数据以Parquet等格式存储。第1步。如何配置Databricks集群以访问AWS Glue目录首先,必须使用必需的AWS Glue Catalog IAM角色启动Databricks计算集群。在Databricks-AWS-Glue-as-Metastore文档中,IAM角色和策略需求以一种逐步的方式清晰地概述。为了本博客的目的,我创建了一个AWS IAM角色,名为Field_Glue_role,它还授权访问我的S3 bucket。我将角色附加到集群配置中,如图1所示。图1。 接下来,集群配置的Spark配置属性必须在集群启动之前设置,如图2所示。图2.更新Databricks集群Spark配置属性第二步。使用Databricks笔记本设置AWS Glue数据库在创建AWS Glue数据库之前,让我们将集群附加到在上一步中创建的笔记本上,并使用以下命令测试您的设置:然后使用AWS Glue控制台验证是否显示了相同的数据库列表,并列出了这些数据库。我们现在准备直接从笔记本电脑创建一个新的AWS Glue数据库,如下所示:并通过重新发布SHOW数据库来验证新的AWS Glue数据库是否已成功创建。也可以通过数据窗格查看AWS Glue数据库。第三步。使用相同的元存储创建Delta-Lake表和清单文件现在,让我们直接从笔记本创建表并将其编目到AWS Glue Data目录中。请参阅如何使用爬虫程序填充AWS Glue数据目录以创建和编目表。我使用的是电影推荐网站MovieLens数据集,它由电影收视率组成。我首先用以下python代码创建了一个DataFrame:然后将DataFrame注册为临时表,使用SQL进行访问,如下所示:现在,让我们使用SQL和在上一步中创建的临时表来创建Delta Lake表:注意:按照这个三角洲湖-三角洲湖快速入门指南中的描述,创建三角洲湖表非常容易。现在,我们可以使用以下步骤生成amazonaathena所需的清单文件。通过运行此Scala方法生成清单。如果创建了python、SQL或R笔记本,请记住在单元格前面加上%scala。使用特殊格式SymlinkTextInputFormat和清单文件位置在连接到Athena的配置单元元存储中创建一个表:在上面的示例代码中,请注意,清单文件是在s3a://aws airlifts/movies_delta/\u symlink_format_manifest/file位置创建的。第4步。使用Amazon Athena查询Delta Lake表Athena是一个无服务器的服务,不需要任何基础设施来管理和维护。因此,您可以查询Delta表,而不需要运行Databricks集群。从Amazon Athena控制台,选择您的数据库,然后预览表,如下所示:结论在AWS Glue的支持下,我们为所有使用AWS生态系统的企业引入了一个强大的无服务器元存储策略。此外,我们还通过与Amazon Athena的集成,提升您的Data Lake与Delta Lake的可靠性,并为您的企业提供无缝和无服务器的数据访问。现在,您可以安全地让您的分析师、数据工程师和数据科学家使用Databricks统一分析平台来支持AWS上的datalake策略。 相关资源:开源三角洲湖电子书:建立可靠的数据湖规模与三角洲湖三角洲湖快速启动Databricks运行时试试看!免费试用Databricks。今天就开始吧