云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站空间_服务器安全检测_优惠券

小七 141 0

DeltaLake现在由Linux基金会托管,成为数据湖的开放标准

在今天阿姆斯特丹举行的Spark+AI欧洲峰会上,我们宣布Delta Lake正在成为Linux基金会项目。该项目与社区一起,旨在为管理数据湖中的大量数据建立一个开放的标准。Apache2.0软件许可证保持不变。Delta Lake专注于提高数据湖的可靠性和可扩展性。它更高层次的抽象和保证,包括ACID事务和时间旅行,大大简化了真实世界数据工程架构的复杂性。自从六个月前我们开放了Delta Lake的资源以来,我们一直为接待而感到谦卑。该项目已部署在数千个组织中,每月处理EB的数据,成为数据和AI架构中不可或缺的支柱。为了进一步推动社区的采用和发展,我们决定与Linux基金会合作,利用他们的平台和他们在培养有影响力的开源项目方面的丰富经验,包括Linux本身、Jenkins和Kubernetes。我们与阿里巴巴、博思艾伦汉密尔顿、英特尔和Starburst一起宣布,不仅为Apache Spark开发Delta Lake支持,还为Apache Hive、Apache Nifi和Presto开发支持。为更健壮的数据湖提供丰富的功能集如前所述,Delta-Lake使数据湖更易于使用和更健壮。它旨在解决数据湖中常见的许多问题。例如,不完整的数据摄取可能会导致数据损坏;Delta Lake的ACID事务解决了这一问题,包括多个数据管道同时向数据湖读写数据。为数据湖提供数据的数据源可能无法提供完整的列数据或正确的数据类型,因此模式强制可以防止错误数据导致数据损坏。变更数据捕获和更新/删除/更新支持允许非附加工作负载在数据湖上正常工作,这是GDPR/CCPA必须的。Delta Lake的功能列表还在继续,其首要目标是为数据湖带来更高的数据可靠性和可扩展性,以便其数据更容易被其他系统和技术使用。数据湖的开放性和可扩展性三角洲湖设计的主要原则是开放性和可扩展性。DeltaLake将所有数据和元数据存储在云对象存储中,采用开放协议设计,利用JSON和ApacheParquet等现有的开放格式。这种开放性不仅消除了供应商锁定的风险,而且对于构建一个生态系统以支持数据科学、机器学习和SQL等各种不同的用例也是至关重要的。为了确保项目的长期发展和社区发展,我们与Linux基金会合作,进一步发扬这种开放精神。开放三角洲湖泊治理与社区参与我们很高兴Linux基金会现在将把Delta Lake作为项目的中立之家,并以开放的治理模式鼓励参与和技术贡献。这将有助于为长期管理提供一个框架;建立一个为三角洲湖的成功投资的社区生态系统;并为数据湖的数据存储开发一个开放的标准。我们相信,这种方法将有助于确保存储在三角洲湖的数据保持开放和可访问性,同时推动更多创新和发展,以解决这一领域的挑战性问题。Databricks团队已经为数据和人工智能生态系统创建了各种开源项目,包括apachespark、MLflow、考拉和Delta湖。我们继续参与开源社区,因为我们知道这是将新功能推向市场的最快、最全面的方式。我们能够建立一个可持续的、健康的业务,同时也与社区保持联系,以确保项目不会将客户锁定在专有系统或数据格式中。我们迫不及待地想看看这个社区将如何塑造三角洲湖和更广阔的生态系统的未来。请访问增量io有关最新发布信息,请在Twitter上关注@DeltaLakeOSS。了解更多信息:Linux Foundation新闻稿关于托管Delta Lake开源项目免费试用Databricks。今天就开始吧