云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名备案_服务器和云_排行榜

小七 141 0

大数据公司Databricks公司希望通过一个新的开源项目来清理公司混乱的数据湖。Databricks说,这个项目的名称与普通数据湖类似,但通过确保存储在其中的所有信息是"干净的"且没有错误,从而提供了更高的可靠性。数据湖是以自然格式存储的数据的系统或存储库,通常是对象"blob"或文件。它们通常充当所有企业数据的单一存储,包括源系统数据的原始副本和用于报告、可视化、分析和机器学习等任务的转换数据。但是Databricks说,存储在传统数据湖中的信息可能不可靠或不准确,原因有很多。其中包括写入失败、模式不匹配和数据不一致,这些都是批处理和流数据混合在一起时产生的。Databricks首席执行官阿里·戈德西(Ali Ghodsi)告诉SiliconANGLE:"过去十年,各组织一直在建设数据湖,但一直未能从数据中获得洞察力。"因为它是垃圾输入-垃圾输出,所以企业在数据质量、可扩展性和性能方面都会遇到问题。"该公司表示,这些不可靠的数据可能会妨碍企业及时获得业务洞察力,也会减缓机器学习模型培训等需要准确和一致数据的举措。戈德西补充说:"三角洲湖通过‘过滤’杂乱无章的数据和阻断进入三角洲湖的通道来应对这些挑战。"干净的数据位于数据湖顶部的三角洲湖中。这种数据可靠性在当今的数据湖中是无法提供的。"Delta Lake确保数据保持准确可靠,因为它跨批处理和流式数据管理事务,以及多个同时写入。使用apachespark分析数据的公司可以将Delta Lakes作为其主要的信息源,因此不需要对其数据架构进行更改。此外,三角洲湖省去了在不同计算系统间传输信息所需的复杂数据管道的需要。一家公司的所有信息都可以存储在三角洲湖中,数百个应用程序可以根据需要利用这些信息。三角洲湖也使个人开发者的生活更轻松。随着一个三角洲湖的建立,开发者可以从他们的笔记本电脑访问它,并快速建立一个数据管道到他们正在开发的任何应用程序。他们还可以访问每个Delta湖的早期版本进行审计、回滚或复制机器学习实验的结果。此外,开发人员可以将他们的parquet(存储大型数据集的常用格式)转换为Delta-Lake,从而避免了对系统进行大量的新数据读写操作。"Delta Lake应该被那些希望将其原始的、不可靠的数据转换成随时可用、可靠的机器学习数据的开发者使用,"Ghodsi说Delta Lake将简化数据工程,消除开发人员每天遇到的可靠性问题。"SiliconANGLE姐妹市场研究公司Wikibon的分析师James Kobielus说,实际上,Delta Lake听起来与数据仓库没有区别,他将其定义为一个"单一版本的真相"管理的净化数据存储库,供下游应用程序用于运营商业智能,预测建模和其他工作负载。Kobielus说:"换句话说,听起来Databricks正在扩大其面向市场的重点,以解决更广泛的传统企业用例,比如数据仓库。"但是,Delta Lakes回避了一个显而易见的问题:除了能够使用Spark分析仓库中的数据之外,它还能做什么呢?这可能是最广泛采用的开源数据仓库项目Apache Hive还没有得到支持?"Delta Lake现在使用Apache2.0许可证。照片:拉尔斯•尼森•摄影艺术/皮克斯贝既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。