云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

大带宽_达州网站建设公司_安全稳定

小七 141 0

开源三角洲湖

在规模上轻松构建可靠的数据湖我们很高兴宣布三角洲湖项目的开放采购。Delta Lake是一个存储层,它通过写操作之间的乐观并发控制和快照隔离为写入期间的一致读取提供ACID事务,从而为构建在HDFS和云存储上的数据湖带来可靠性。Delta Lake还提供了内置的数据版本控制,以便于回滚和重新生成报表。该项目可在增量io下载并在Apache许可证2.0下使用。数据湖面临的挑战数据湖是现代数据体系结构中的一个常见元素。它们是组织寻求收集和挖掘的过多数据的中心接收点。虽然在处理数据范围方面向前迈出了一大步,但他们遇到了以下常见问题:读写数据湖是不可靠的。数据工程师经常遇到不安全的写入数据池的问题,这会导致读者在写入过程中看到垃圾数据。他们必须构建解决方案,以确保读者在写入过程中始终看到一致的数据。数据湖中的数据质量很低。将非结构化数据转储到数据湖很容易。但这是以数据质量为代价的。由于没有验证模式和数据的任何机制,数据湖的数据质量很差。因此,试图挖掘这些数据的分析项目也失败了。随着数据量的增加,性能变差。随着转储到数据湖中的数据量增加,文件和目录的数量也会增加。处理数据的大数据作业和查询引擎在处理元数据操作上花费了大量的时间。这个问题在流作业的情况下更为明显。更新数据湖中的记录很困难。工程师需要构建复杂的管道来读取整个分区或表,修改数据并将其写回。这样的管道效率低,维护困难。由于这些挑战,许多大数据项目无法实现其愿景,有时甚至完全失败。我们需要一个解决方案,使数据从业者能够利用他们现有的数据池,但同时确保数据质量。介绍Delta Lake开源项目DeltaLake解决了上述问题,以简化您如何构建数据湖。三角洲湖提供以下关键功能:ACID事务:Delta Lake提供多个写入之间的ACID事务。每次写入都是一个事务,事务日志中记录的写入操作都有一个串行顺序。事务日志在文件级别跟踪写操作,并使用乐观并发控制,这非常适合于数据湖,因为尝试修改同一文件的多个写入操作并不经常发生。在存在冲突的场景中,Delta Lake抛出一个并发修改异常,供用户处理并重试作业。deltalake还提供了强大的可串行化隔离级别,允许工程师不断地向目录或表中写入数据,而消费者则可以继续从同一目录或表中读取数据。读者将看到读取开始时存在的最新快照。模式管理:deltalake自动验证正在写入的数据帧的架构是否与表的架构兼容。表中的数据列设置为空,但不在数据框中。如果数据帧中有表中不存在的额外列,则此操作将引发异常。Delta-Lake具有显式地添加新列的DDL,并且能够自动更新模式。可伸缩的元数据处理:deltalake将表或目录的元数据信息存储在事务日志中,而不是存储在metastore中。这使得Delta-Lake能够在固定的时间内列出大目录中的文件,并且在读取数据时效率很高。数据版本控制和时间旅行:deltalake允许用户读取表或目录的先前快照。当文件在写入过程中被修改时,Delta Lake会创建文件的较新版本并保留旧版本。当用户想要读取表或目录的旧版本时,他们可以向apachespark的read api提供一个时间戳或版本号,Delta Lake根据事务日志中的信息构造该时间戳或版本的完整快照。这允许用户复制实验和报告,如果需要,还可以将表还原为旧版本。统一的批处理和流式处理接收器:除了批处理写入之外,Delta Lake还可以作为apachespark的结构化流式处理的高效流式接收器。与ACID事务和可伸缩元数据处理相结合,高效的流sink现在支持大量接近实时的分析用例,而不必维护复杂的流和批处理管道。记录更新和删除(即将推出):Delta Lake将支持合并、更新和删除DML命令。这使得工程师可以轻松地在数据湖中更新和删除记录,并简化他们的变更数据捕获和GDPR用例。由于deltalake在文件级粒度上跟踪和修改数据,所以它比读取和覆盖整个分区或表要高效得多。数据期望(即将推出):deltalake还将支持一个新的API来设置表或目录上的数据期望值。工程师将能够指定一个布尔条件并调整严重性来处理数据期望。当apachespark作业写入表或目录时,Delta-Lake将自动验证记录,当发生冲突时,它将根据提供的严重性处理记录。结论apachespark改变了大数据处理领域,并允许工程师构建高效的数据管道。然而,我们发现在工程师如何使用大数据管理他们的存储层(包括prem和cloud)方面存在一个严重的差距。他们不得不采取变通办法,建立复杂的数据管道,将数据传递给消费者。随着Delta Lake的出现,我们看到Databricks的客户可以毫不费力地大规模构建可靠的数据湖。现在,我们正在开放三角洲湖项目的资源,以使更广泛的社区也受益。三角洲湖项目可在增量io. 我们也欢迎捐款,并很高兴与社区合作,使之更美好。您可以加入我们的邮件列表或Slack频道与社区进行讨论。要在云端试用DeltaLake,请在Databricks(Azure | AWS)中注册免费试用。 对开源的三角洲湖感兴趣吗?访问Delta Lake在线中心了解更多信息,下载最新代码并加入Delta Lake社区。 免费试用Databricks。今天就开始吧