域名交易_深圳高端网站建设公司_学生机

小七 2019年10月25日 21:23 141 0

应用亮点：基岩

这篇文章是由我们在Zaloni的朋友撰写的，Zaloni的基础平台现在是"ApacheSpark认证的"基岩的托管数据管道现在包括apachespark从Strata+Hadoop世界大会上的喧嚣中可以明显看出，apachespark现在已经从早期采用阶段转变为Hadoop生态系统中不可或缺的永久部分。快速的采用速度令人印象深刻！考虑到Spark进入主流Hadoop世界，我们很高兴地宣布Baskethold现在已经在Spark上获得正式认证。火花是如何增强基岩的？基岩™ 将托管数据管道定义为包含摄取、组织和准备阶段。基岩的优势在于通过这些阶段处理数据的综合性。●摄取：将来自不同来源的数据引入Hadoop●组织：对传入数据应用业务、技术和操作元数据●准备：协调执行数据质量检查、屏蔽敏感字段、运行更改数据捕获操作和转换的工作流。托管数据管道的准备阶段是basket和Spark真正互补的阶段。数据准备是为分析和报告准备原始数据的所有方面。Spark非常适合执行数据准备所需的处理类型。将高速内存执行与一组健壮的本地操作和转换相结合，Spark自然适合。在Baskethold 3.1中，Spark现在是Baskethold工作流设计调色板的一部分，它支持20多个内置工作流操作，您可以将这些操作拖放到画布上以创建准备工作流。如果您喜欢使用SQL，那么可以使用basketholdsparksql操作。让我们看看一个典型的基岩管理的数据管道，看看Spark适合哪里。基岩的一个非常常见的用例是将数据从传统的关系数据库移动到HDFS中，并使数据在Hive中可用。为了在基岩中创建这个托管数据管道，我们从基岩着陆区开始，以可靠地将数据摄取到HDFS中。管理业务和技术元数据，并在数据到达并加载到Hadoop时捕获操作元数据。在准备阶段，可能需要用于检查数据质量、屏蔽敏感数据或合并增量更改的内置基础功能。最后，通过使用Spark或SparkSQL来实现定制或专有的转换、聚合和分析，我们最终完成了托管数据管道的准备阶段。展望未来这只是基岩和Spark共同为托管数据管道带来价值的开始。未来，Baskethold将被扩展以支持完整的Spark生态系统，现有的基础准备操作（如屏蔽、数据质量检查和更改数据捕获）将与Spark实现一起使用。要了解更多关于Baskethold和Spark启用的托管数据管道的信息，请访问我们的在线网站zaloni.com网站，或直接联系我mmackinnon@zaloni.com免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3617.html