云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

分布式数据库_php服务器配置_学生机

小七 141 0

开源Delta-Lake项目迁移到Linux基金会

DatabricksInc.的DeltaLake今天成为Linux基金会旗下最新的开源软件项目。Delta-Lake的创始人说,自从今年4月Databricks开放源代码以来,Delta-Lake的发展势头迅猛,已经被数千家机构使用,其中包括阿里巴巴集团控股有限公司(Alibaba Group Holding Ltd.)、博思艾伦汉密尔顿公司(Booz Allen Hamilton Corp.)和英特尔公司(Intel Corp.)。这个项目被认为是一种提高所谓"数据湖"可靠性的方法,所谓"数据湖"是以自然格式存储的数据的系统或存储库,通常以对象"blob"或文件的形式存储。大型企业普遍使用数据湖,因为它们提供了一种可靠的方法来确保组织内的任何人都可以访问数据。它们可用于存储任何类型的数据,包括本机格式的结构化和非结构化信息,还支持对有助于提供业务事项实时见解的数据进行分析。但数据湖也并非没有问题,最常见的问题是它们存储的许多信息不可靠或不准确。这是由几个原因造成的,包括写入失败、模式不匹配以及批处理和流数据混合时出现的数据不一致。不可靠的数据可能是一种负担,因为它妨碍公司及时获得准确的见解。它还可以减缓诸如机器学习模型训练之类的活动,这些活动需要一致的数据来确保准确性。Delta Lake旨在提高数据湖的效率,并确保信息保持准确可靠。它通过跨批处理和流式数据以及多个同时写入来管理事务。它还消除了构建复杂的数据管道的需要,这些管道用于在不同的计算系统之间传输信息。事实上,可以公平地说,Delta Lake实际上更类似于"数据仓库",比如Apache Hive,而不是数据湖。两者之间的主要区别在于后者中的信息被转换为符合数据仓库自己的预定义模式,这意味着它不能以其本机格式存储。这意味着数据更加可靠,尽管这意味着企业在分析数据时会失去很多灵活性。Databricks的联合创始人兼首席执行官alighodsi表示,公司将把项目的管理权交给Linux基金会,以鼓励来自开源社区的更多创新。"为了解决组织的数据难题,我们希望确保这个项目是最真实的开源项目,"戈德西说我们相信,Delta Lake将很快成为数据湖中数据存储的标准。"星座研究公司分析师Holger Mueller告诉SiliconANGLE,数据湖是现代企业的基础。穆勒说:"看到标准化和开源的有益动力在起作用,这是件好事。"但是,向开源机构提供技术资产仍然不是成功的保证,只有时间会证明这一点。"Linux基金会表示,Delta Lake将在一个开放的治理模式下运作,这意味着促进更多的人参与该项目。今年早些时候,Ghodsi与SiliconANGLE的livestreaming工作室Cube谈到了数据块:图片:增量io既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。