企业网站_企业网站建设哪家好_最新活动

小七 2019年10月25日 21:23 141 0

应用聚光灯：Lightbend

这篇文章是我们在Lightbend的朋友在让他们的Lightbend Activator Apache Spark模板"在Apache Spark上认证"后客座撰写的。apachespark与Lightbend反应平台：天作之合当我几年前开始使用Hadoop时，发现编写Hadoop作业很难做到，这让我很沮丧。如果您的问题符合查询模型，那么Hive提供了一个基于SQL的脚本工具。对于许多常见的数据流问题，Pig提供了有用的抽象，但它不是一种成熟的"图灵完备"语言。否则，您必须使用底层hadoopmapreduceapi。有些第三方API封装了MapReduce API，比如级联和烫伤，但是它们无法修复MapReduce的性能问题。Spark——新的大数据计算引擎但人们对另一种替代品apachespark的兴趣正在增长。现在，Spark已经成为为Hadoop和Mesos集群编写大数据应用程序的下一代平台。Spark正在取代久负盛名的Hadoop MapReduce，原因如下：性能Spark的弹性分布式数据集（RDD），是容错的分布式数据集合，可以并行操作。RDD利用智能的、内存中的数据缓存来避免不必要的磁盘往返，先写后读，这在map和reduce步骤排序在一起的非平凡的MapReduce作业中很常见。自然数据处理习语Spark提供了一组功能强大的可组合构建块，用于编写简洁但功能强大的查询和数据流。虽然MapReduce API可以用于编写范围广泛的计算，但将许多算法转换为API可能非常困难，需要特殊的专业知识。相比之下，Spark提供的简洁的Scala、Java和PythonAPI使开发人员的工作效率更高。流式与批处理模式操作MapReduce只支持批处理模式操作。数据团队越来越需要对事件流进行更多的"实时"处理。Spark不需要使用另一个工具来实现这个目的，它允许您使用非常相似的逻辑和api编写流式和批处理模式应用程序。是什么让Spark如此成功？火花的成功的一部分是由于它建立的基础，光弯曲反应平台的组成部分。首先是Scala，它是JVM的灵活的对象函数语言。人们经常会问Spark的创建者、Databricks的联合创始人Matei Zaharia为什么选择Scala。以下是他最近对这个问题的回答：很多人问这个问题，答案很简单。当我们启动Spark时，我们有两个目标——我们希望与基于JVM的Hadoop生态系统合作，我们希望有一个类似于Microsoft的DryadLINQ（我所知的第一个语言集成的大数据框架，它产生了FlumeJava和Crunch之类的东西）。在JVM上，提供这种API的唯一语言是Scala，因为它能够捕获函数并在网络上发布它们。Scala的静态类型也使得控制性能比Jython或Groovy容易得多。SCAPLE基金会中的第二个光弯组件是AKKA，一个工具包和运行时，用于在JVM上构建高度并发、分布式和容错的事件驱动应用程序。Spark利用Akka的分布式、细粒度、灵活和动态的Actor模型来构建弹性的、分布式的组件来管理和处理数据。Lightbend和Databricks一起工作apachespark和Lightbend Reactive平台（包括Scala、Akka、Play和Slick）的结合，为企业开发人员提供了一套全面的工具，可以轻松构建经过认证的Spark应用程序，具有高度的可伸缩性和弹性。Lightbend将继续开发工具，帮助Spark取得巨大成功，Databricks也将取得成功。我们还将努力使我们的工具之间的开发人员体验无缝。对于初学者，我鼓励您查看我们不断增长的针对Spark的Lightbend Activator模板，特别是我的介绍性Spark Workshop，这是我们第一个在Spark应用程序上认证的。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3582.html