对象存储_无锡网站建设制作_限时特惠

小七 2019年10月25日 21:23 141 0

嘉宾博客：客户如何在Hadoop上用apachespark取胜

这是我们在MapR的朋友发的一篇客帖。这个博客总结了我过去几个月与在MapR发行版（包括Hadoop）上部署apachespark的用户的谈话。总的来说，我的主要观察是，Spark确实正在进入我们的用户社区，它不仅利用了Spark的快速应用程序开发和性能功能，而且还利用了MapR平台独特支持的完整Spark堆栈的强大功能。为什么是火花？我们询问了用户在部署Spark之后学到了什么，下面是他们必须分享的内容：传统的MapReduce显然很难编码和维护。用户希望尽快构建大量应用程序，Spark现在允许他们减少开发和维护时间。这一趋势与我们最近进行的一项调查一致，发现18%的MapR客户在一个集群上部署了超过50个用例。用户提到，在如此快速地部署如此多的应用程序时，平台功能（如多租户、高可用性和数据保护）更加重要。虽然Scala为Spark应用程序开发提供了很好的优势，但是有足够多的开发人员使用javaapi来构建Spark应用程序。支持Lambda表达式的java8有望使它们的工作变得更加简单。PythonAPI主要由数据科学家社区的一小部分用户使用，主要用于初始数据建模目的。用例概述结合Spark和MapR，已经部署了许多不同的用例。以下是一些：更快的批处理应用程序：内存中的Spark速度无疑是一个优势，特别是对于面向客户的应用程序。许多用户已经意识到，如果他们的数据集可以根据他们拥有的节点数量轻松地放入内存，如果延迟对于特定的用例很重要，那么他们需要快速地将这些应用转换为Spark，以获得性能优势。一家领先的销售业绩管理公司已经为他们的生产应用程序做到了这一点，最初是用传统的MapReduce编写的。ETL数据管道：由于MapR完全支持Spark堆栈，许多用户正在将复杂的ETL管道合并到更简单的程序中，这些程序包括将MLLib/Spark流输出提供给sparksql和GraphX应用程序。Novartis在药物研发中使用Spark进行图形处理规模。几个MapR的大型金融服务客户正在对来自web clickstream的流数据进行ETL，并将其加载到呼叫中心应用程序的事务性应用程序中，以便客户服务代表能够获得有关客户拥有的所有最新信息一直在网上研究。OLAP多维数据集：在我们的客户群中，一个新兴的Spark用例是一个OLAP多维数据集，最终用户可以根据预先配置的数据集和过滤器对OLAP多维数据集进行切分。在Spark上下文中加载的预定义数据可以由最终用户通过预定义的过滤器实时更改，这些过滤器在后台启动动态聚合和简单的线性回归。此解决方案用于部署面向客户的服务，以进行实时多维OLAP分析。例如，澳大利亚最大的分析服务提供商Quantium已经为其最终用户实施了此解决方案。操作分析：另一个用例是基于流数据、时间序列数据或操作数据（如web clickstreams）的实时仪表盘和警报系统，其中NoSQL存储（如MapR DB）被部署为持久、高吞吐量的持久层。一家大型零售分析公司、一家著名的金融服务公司以及一家财富100强的医疗保健公司正在生产中实施此类解决方案。平台能力仍然很重要这可能并不令人惊讶，但MapR客户传统上所享受的企业级功能仍然适用于Hadoop上的Spark应用程序。NFS摄取、高可用性、Hadoop NoSQL数据库的绝佳选择、灾难恢复和跨数据中心复制仍然是生产部署的关键。想了解更多吗？阅读Hadoop上Spark的客户案例研究。查看基本的apachespark备忘单。如果您不熟悉大数据，请查看我们基于Spark的Hadoop快速入门解决方案。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3671.html