分布式数据库_网站建设分工_好用

小七 2019年10月25日 21:23 141 0

应用亮点：Pentaho

这篇文章是我们在Pentaho的朋友在他们的数据集成和分析平台"在apachespark上认证"后客座撰写的Pentaho最大的热情之一就是让组织能够利用大数据中惊人的创新，利用当今组织中现有的技能解决新的挑战。我们的Pentaho实验室围绕数据工程和分析与大数据平台（如Hadoop和Storm）本机集成的原型和创新努力已经导致数十家客户部署下一代大数据解决方案。这些解决方案的例子包括优化数据仓库体系结构、利用Hadoop作为一个经济高效的数据精炼厂，以及对不同的数据源执行高级分析，以实现对客户更广泛的360度视角。从Hadoop早期开始，我们就没有看到过像现在apachespark那样对新的大数据技术如此兴奋。Spark是一个与Hadoop兼容的计算系统，通过内存计算，通过Java、Scala和Python中的简单api，可以大大加快大数据分析的速度，并简化编写。随着第二届Spark峰会本周在旧金山举行，我想分享一些早期的概念验证工作，Pentaho实验室和我们在Databricks的合作伙伴正在合作整合Pentaho和Spark，以提供高性能、大数据分析解决方案。Spark大数据集成Pentaho数据集成（PDI）的核心是一个可移植的ETL"数据机器"，它现在可以作为独立的Pentaho集群部署，也可以通过MapReduce和YARN部署到Hadoop集群中。Pentaho实验室团队现在也采用了同样的概念，并致力于在Spark内部部署以实现更快的大数据ETL处理。ETL设计者的潜在好处是能够在PDI易于使用的图形化设计环境中设计、测试和优化ETL作业，然后在Spark上大规模运行它们。在利用Spark进行大数据集成时，这将显著降低所需的技能集，提高生产率，并降低维护成本。Spark高级分析去年，Pentaho实验室推出了Weka的分布式版本，这是Pentaho的机器学习和数据挖掘平台。目标是开发一种平台无关的方法，通过利用Hadoop和Spark等分布式环境，将Weka用于非常大的数据集。我们的第一个试验性实现通过使用Hadoop实现并行的集群内模型训练证明了这种架构。我们现在正在与Spark进行类似的集成，包括数据分析和评估Spark中的分类和回归算法。来自Pentaho实验室的早期反馈证实，在Spark上开发解决方案比使用MapReduce更快、更容易。在短短几周的开发中，我们已经演示了在集群树冠集群中执行的概念验证，并且非常接近于让k-means++在Spark中工作！下一步：探索与MLlib的数据科学包集成MLlib已经是对大数据执行高级分析的最流行的技术之一。通过将Pentaho数据集成与Spark和MLlib集成，数据科学家将受益于拥有一个易于使用的环境（PDI）来准备用于基于MLlib的解决方案的数据。此外，这种集成将使it部门更容易操作数据科学团队的工作，方法是协调整个端到端流程，从数据采集到数据准备，再到执行基于MLlib的作业，再到共享结果，所有这些都在一个简单的PDI作业流中。为了了解这种集成是如何工作的，我建议您看看最近作为Pentaho Business Analytics 5.1数据科学包的一部分推出的与R的类似集成。今天就用Pentaho和Spark做实验吧！今天您可以尝试使用Pentaho和Spark进行ETL和报告。与我们在Databricks的合作伙伴一起，我们最近为以下结合了Pentaho和Spark*的用例开发了原型：通过使用Pentaho data Integration的表输入步骤和ApacheShark（配置单元SQL层运行在Spark上）从Spark读取数据作为ETL工作流的一部分使用Pentaho报告针对Apache Shark报告Spark数据我们对这迈出的第一步感到兴奋，我们都希望这是朝着更深层次融合的合作之旅迈出的第一步。Jake Cornelius产品管理高级副总裁Pentaho*请注意，这些Databricks集成构成了概念证明，目前Pentaho客户不支持这些集成。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3587.html