云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

企业网站_企业网站建设哪家好_最新活动

小七 141 0

应用聚光灯:Lightbend

这篇文章是我们在Lightbend的朋友在让他们的Lightbend Activator Apache Spark模板"在Apache Spark上认证"后客座撰写的。apachespark与Lightbend反应平台:天作之合当我几年前开始使用Hadoop时,发现编写Hadoop作业很难做到,这让我很沮丧。如果您的问题符合查询模型,那么Hive提供了一个基于SQL的脚本工具。对于许多常见的数据流问题,Pig提供了有用的抽象,但它不是一种成熟的"图灵完备"语言。否则,您必须使用底层hadoopmapreduceapi。有些第三方API封装了MapReduce API,比如级联和烫伤,但是它们无法修复MapReduce的性能问题。Spark——新的大数据计算引擎但人们对另一种替代品apachespark的兴趣正在增长。现在,Spark已经成为为Hadoop和Mesos集群编写大数据应用程序的下一代平台。Spark正在取代久负盛名的Hadoop MapReduce,原因如下:性能Spark的弹性分布式数据集(RDD),是容错的分布式数据集合,可以并行操作。RDD利用智能的、内存中的数据缓存来避免不必要的磁盘往返,先写后读,这在map和reduce步骤排序在一起的非平凡的MapReduce作业中很常见。自然数据处理习语Spark提供了一组功能强大的可组合构建块,用于编写简洁但功能强大的查询和数据流。虽然MapReduce API可以用于编写范围广泛的计算,但将许多算法转换为API可能非常困难,需要特殊的专业知识。相比之下,Spark提供的简洁的Scala、Java和PythonAPI使开发人员的工作效率更高。流式与批处理模式操作MapReduce只支持批处理模式操作。数据团队越来越需要对事件流进行更多的"实时"处理。Spark不需要使用另一个工具来实现这个目的,它允许您使用非常相似的逻辑和api编写流式和批处理模式应用程序。是什么让Spark如此成功?火花的成功的一部分是由于它建立的基础,光弯曲反应平台的组成部分。首先是Scala,它是JVM的灵活的对象函数语言。人们经常会问Spark的创建者、Databricks的联合创始人Matei Zaharia为什么选择Scala。以下是他最近对这个问题的回答:很多人问这个问题,答案很简单。当我们启动Spark时,我们有两个目标——我们希望与基于JVM的Hadoop生态系统合作,我们希望有一个类似于Microsoft的DryadLINQ(我所知的第一个语言集成的大数据框架,它产生了FlumeJava和Crunch之类的东西)。在JVM上,提供这种API的唯一语言是Scala,因为它能够捕获函数并在网络上发布它们。Scala的静态类型也使得控制性能比Jython或Groovy容易得多。SCAPLE基金会中的第二个光弯组件是AKKA,一个工具包和运行时,用于在JVM上构建高度并发、分布式和容错的事件驱动应用程序。Spark利用Akka的分布式、细粒度、灵活和动态的Actor模型来构建弹性的、分布式的组件来管理和处理数据。Lightbend和Databricks一起工作apachespark和Lightbend Reactive平台(包括Scala、Akka、Play和Slick)的结合,为企业开发人员提供了一套全面的工具,可以轻松构建经过认证的Spark应用程序,具有高度的可伸缩性和弹性。Lightbend将继续开发工具,帮助Spark取得巨大成功,Databricks也将取得成功。我们还将努力使我们的工具之间的开发人员体验无缝。对于初学者,我鼓励您查看我们不断增长的针对Spark的Lightbend Activator模板,特别是我的介绍性Spark Workshop,这是我们第一个在Spark应用程序上认证的。免费试用Databricks。今天就开始吧