云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名交易_深圳高端网站建设公司_学生机

小七 141 0

应用亮点:基岩

这篇文章是由我们在Zaloni的朋友撰写的,Zaloni的基础平台现在是"ApacheSpark认证的"基岩的托管数据管道现在包括apachespark从Strata+Hadoop世界大会上的喧嚣中可以明显看出,apachespark现在已经从早期采用阶段转变为Hadoop生态系统中不可或缺的永久部分。快速的采用速度令人印象深刻!考虑到Spark进入主流Hadoop世界,我们很高兴地宣布Baskethold现在已经在Spark上获得正式认证。火花是如何增强基岩的?基岩™ 将托管数据管道定义为包含摄取、组织和准备阶段。基岩的优势在于通过这些阶段处理数据的综合性。●摄取:将来自不同来源的数据引入Hadoop●组织:对传入数据应用业务、技术和操作元数据●准备:协调执行数据质量检查、屏蔽敏感字段、运行更改数据捕获操作和转换的工作流。托管数据管道的准备阶段是basket和Spark真正互补的阶段。数据准备是为分析和报告准备原始数据的所有方面。Spark非常适合执行数据准备所需的处理类型。将高速内存执行与一组健壮的本地操作和转换相结合,Spark自然适合。在Baskethold 3.1中,Spark现在是Baskethold工作流设计调色板的一部分,它支持20多个内置工作流操作,您可以将这些操作拖放到画布上以创建准备工作流。如果您喜欢使用SQL,那么可以使用basketholdsparksql操作。让我们看看一个典型的基岩管理的数据管道,看看Spark适合哪里。基岩的一个非常常见的用例是将数据从传统的关系数据库移动到HDFS中,并使数据在Hive中可用。为了在基岩中创建这个托管数据管道,我们从基岩着陆区开始,以可靠地将数据摄取到HDFS中。管理业务和技术元数据,并在数据到达并加载到Hadoop时捕获操作元数据。在准备阶段,可能需要用于检查数据质量、屏蔽敏感数据或合并增量更改的内置基础功能。最后,通过使用Spark或SparkSQL来实现定制或专有的转换、聚合和分析,我们最终完成了托管数据管道的准备阶段。展望未来这只是基岩和Spark共同为托管数据管道带来价值的开始。未来,Baskethold将被扩展以支持完整的Spark生态系统,现有的基础准备操作(如屏蔽、数据质量检查和更改数据捕获)将与Spark实现一起使用。要了解更多关于Baskethold和Spark启用的托管数据管道的信息,请访问我们的在线网站zaloni.com网站,或直接联系我mmackinnon@zaloni.com免费试用Databricks。今天就开始吧