云解析_数据库数据结构_代金券

小七 2019年10月25日 21:23 141 0

应用焦点：Arimo

这篇文章是我们在Arimo的朋友们客串撰写的，描述了他们为什么和如何押注apachespark。2012年初，一群具有分布式系统和机器学习背景的工程师聚集在一起成立了Arimo。在新生的Hadoop生态系统中，我们看到了一个尚未解决的主要问题：它主要是一个存储游戏。数据被动地放在HDFS上，提取的值很少。可以肯定的是，有MapReduce、Hive、Pig等，但是价值是一个强大的函数，它与（a）计算速度，（b）逻辑的复杂性，以及（c）易用性有关。虽然Hadoop生态系统在底层得到了很好的发展，但它上面还有很多机会没有被抓住。关于速度：我们已经看到数据在谷歌的Dremel和PowerDrill这样的系统中以非常快的速度移动。它启用了Hadoop用户无法使用的交互行为。毫无疑问，我们知道交互速度是必要的，内存计算是解决问题的关键。正如Cloudera的迈克·奥尔森（Mike Olson）打趣道："我们很幸运生活在一个有谷歌的时代。他们活在未来5年左右，偶尔还会向我们其他人发送信息。"就规模需求和从数据中提取的价值而言，谷歌确实"活在未来"。关于复杂性：对于Arimo来说，"小"和"大"数据的本质区别在于数据是否足够大，可以学习。对于一些问题，比如"我的头撞在砖墙上疼吗？"100个样品就够了。要对大型图像进行分类，一百万个样本是不够的。我们知道第二个关键数据是不够的。大数据世界需要复杂的机器学习。大数据需要大计算。""预测性"不仅仅是一长串X分析中的另一个形容词；它是一种量子变化，将大与小的价值区分开来。因此，Arimo作为一家"大数据/机器学习"公司诞生了。我们确切的产品特性将取决于客户对话，但核心论点是明确的。我们希望带来"人人共享的数据智能"，特别是上面讨论的速度和复杂性。如果内存计算和机器学习逻辑是释放大数据价值的关键，为什么这个问题在2012年还没有解决呢？因为在任何技术转型中，成本/收益权衡都很重要。在下面的图表中，交叉点发生在不同的时间，不同的努力；它在华尔街达到临界点大约在2000-2005年，在谷歌c.2006-2010年，我们预测整个企业世界：大约现在（2013-2015年）。图1。转换到内存计算的交叉点如果您的组织或行业还没有明确发生这种情况，请放松。很快就会的。因为正如下面的延迟和带宽趋势图所示，未来越来越青睐RAM。图2。未来越来越倾向于向RAM转变当Arimo团队开始在Hadoop上构建这个大型计算分析堆栈时，我们希望我们的解决方案能够覆盖所有业务用户，同时也为数据工程师和科学家提供方便的api。这需要一个优秀的协作用户界面、可靠的数据挖掘和机器学习逻辑的结合，以及强大的大型计算引擎的支持。我们对内存环境做了一个调查，发现少数团队也在同一个方向上工作。但事实上，它们要么过于渐进，要么过于激进。一些人正在开发解决方案，比如在MR迭代之间缓存数据，或者维护一个没有持久性的高级数据结构的低级别内存缓存。但对于其他人来说，虚拟化的架构太过昂贵了。然后我们遇到了Spark和Berkeley AMPLab团队。很快，我们就知道他们已经确定了正确的问题陈述，并为时代做出了正确的架构决策。以下是一些关键的设计选择，为广泛采用c.2012：数据模型：Spark是唯一支持高级持久分布式内存数据集概念的体系结构。并非所有的"内存"系统都是等价的。Spark的RDD独立于任何给定的计算步骤而存在，不仅允许快速迭代算法，而且高级数据集随时可用于每次迭代而不延迟。同样重要的是，它们使长时间运行的交互式内存速度应用成为可能。重新计算的弹性：由于复制是另一个选择，Spark及时地选择了重新计算。内存已经变得更便宜了，但还不够便宜，无法像HDFS磁盘那样成为复制的主流。一般DAG支持：虽然可以构建专用的SQL查询引擎来克服hadoopmapreduce的局限性（其他人也选择了这条路），但Spark的通用DAG模型意味着我们可以在其上构建任意的算法和应用程序。我们欣喜若狂。Spark代表了我们多年的研发工作，在开发复杂的面向用户的应用程序之前，我们不必花费大量的时间来构建引擎。当我们决定支持AMPLab Spark工作时，只有1到2个其他人做出了类似的承诺。我们真的把公司赌在星火上。但多亏了Spark，我们得以在Arimo pInsights和pAnalytics上悄无声息地快速前进，在向Spark团队传递我们的投入和市场数据的同时，不断重复客户反馈。我们在每一次相关的谈话中都宣传了Spark的善良。到2013年夏末，Databricks即将诞生，这进一步增强了我们对Spark on Hadoop生态系统的信心。现在将有一个官方的商业实体，其存在的前提是发展生态系统的增长和保持其健康。Databricks的团队在这方面做得非常出色。今天，Arimo是第一批通过Spark认证的应用程序之一。我们看到Arimo on Spark的企业采用速度非常快。最成熟的客户往往是已经部署了Hadoop的公司，他们对大数据的失败承诺非常熟悉。当客户看到Arimo解决方案时，我们立即看到他们的兴奋：一个面向用户的分析应用程序，它是交互式的、易于使用的、支持基本分析和机器学习的，并且在大型Hadoop数据集上实际以秒的实时速度运行。最后，用户真正能够从数据存储中提取数据智能。价值创造不再仅仅是大数据。它是关于大计算的，Spark已经为我们提供了这种能力。Spark已经将它作为Apache的顶级项目，从孵化到毕业的时间达到了创纪录的水平。它也是Apache最活跃的项目之一，有数百个贡献者。这是因为其优越的体系结构和工程选择的及时性，如上所述。有了这些，再加上适当的照顾和喂养，apachespark将有一个光明的未来，即使它不断发展并适应不断变化的技术和业务驱动因素。Christopher Nguyen是Arimo的联合创始人兼首席执行官。他曾任谷歌应用（Google Apps）的工程总监、斯坦福大学（Stanford）博士，共同创办了两家成功退出的企业初创企业，同时也是科大计算机工程项目的教授和联合创始人。他以优异成绩毕业于加州大学伯克利分校。克里斯托弗在创建技术公司以解决企业业务挑战方面拥有丰富的经验。在2014年Spark峰会上，来听听他关于Spark的分布式数据帧（DDF）演讲：为我们其他人简化大数据。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3581.html