MySQL数据库_考研英语网课百度云_安全稳定

小七 2019年10月25日 21:23 141 0

Hadoop正在漂泊。去年我们都知道企业的大数据意味着什么。它意味着Hadoop，它正处在一个巨大的采用浪潮的顶峰。大数据仍在这股浪潮中，但尚不清楚Hadoop是否在跟上。Hadoop的成功带来了意想不到的生态系统后果。Hadoop的名字一直应用于由Cloudera、Hortonworks和MapR领导的几个供应商中的任何一个所策划的开源大数据工具集合。但是我们已经看到类似的、创新的开源工具的大量涌现，这些工具正在创建替代生态系统，比如Spark、Kafka、Mesos、S3和Cassandra等等。这套新工具的迅速增加，有可能使Hadoop不再是不断发展的大数据生态系统的"良好的内务管理认可标志"。Hadoop的身份危机给大数据专业人士带来了挑战，因为生态系统现在包含了如此广泛的工具菜单，从而削弱了生态系统的一致性：Splunk是一种选择。它更像是一个应用程序，而不是一个工具箱，因此它提供了开箱即用的价值，而不是需要六到九个月的试用期，而且它需要的专业开发人员和管理技能要少得多。基于连续处理构建的实时应用程序，如Kafka、Spark和Flink，正在将Hadoop推向崩溃点，因为它是为批处理而设计的。随着工具数量的激增，Hadoop供应商已经失去了对工具如何协同工作的大量控制。当这些工具集合广为人知时，Hadoop供应商可以将它们与自己的管理工具缝合在一起，以帮助简化它们如何协同工作。让我们退一步，看看目前为止的旅程能告诉我们我们的前进方向。Hadoop的传统优势在于它为客户提供的灵活性。客户第一次有了自己动手的方法来组装来自开源组件的分析数据管道。同时，没有一个组织开发所有组件。这种随心所欲的治理方法和客户需求促进了大数据工具数量和质量的显著增长，Hadoop供应商可以从中管理他们分发的工具集合。2015年在圣何塞举行的Hadoop峰会上，"三大Hadoop"发行版供应商Cloudera、Hortonworks和MapR大多就大数据管理平台应该包含哪些内容达成了广泛共识。即使注意力开始从MapReduce转移，Hadoop所有用例的核心仍然是hdf和YARN。每个Hadoop发行版供应商还包括另外20到30个Apache项目，这些项目使每个发行版都非常相似。最后，发行版供应商添加了管理工具，以帮助集成所有这些在没有集中协调的情况下开发的组件。大数据专业人士通常理解每个部分的功能以及它如何与其他部分一起工作，即使发行版仍然相当笨拙。提前几周参加2016年Hadoop峰会。开源大数据软件产品的激增只是在加速。这是个问题。三大巨头对Hadoop定义的模糊共识正在瓦解。结果，顾客们开始感到困惑。技术的扩散比新技术、新应用或新客户更快地产生新的营销术语。在Hadoop峰会上，我们一遍又一遍地从客户那里听到这样一句话：通过从过多的生态系统组件中进行选择，我们正在失去组装一个连贯的分析数据管道的能力。这就破坏了Hadoop的"混搭"价值主张。今天公布第二季度财报的霍顿工场似乎看到了这股浪潮的到来。该公司告诉我们，他们将更加规范地定义如何为每个用例选择正确的组件。在认识到大数据不再局限于Hadoop之后，他们宣布未来的会议将被称为Dataworks而不是Hadoop峰会。但最重要的是，该行业还需要一家供应商围绕一个新平台达成共识，使生态系统日益混乱的局面合理化。那么，究竟是什么"引发"大数据产品的泛滥呢？"一个强大的火焰伴随着微小的火花"但丁在写这些话的时候显然没有把Hadoop放在心上，但这就是我们今天的处境。Hadoop有一个温和的开端：Yahoo！作为一个简单的谷歌网页搜索产品。但这三大巨头意识到Hadoop可能不止于此，并将自己设置为数据丰富应用程序的开源Hadoop平台的保管人。让我们仔细看看围绕Hadoop定义的共识现在是如何以及为什么会崩溃的。Spark支持数据的连续处理，它正在迅速取代批处理MapReduce作为Hadoop中的默认执行引擎。Spark为Hadoop开辟了全新的用例。使用高级分析构建连续处理功能成为可能，而不仅仅是将流式处理功能作为批处理的附加功能。大数据工具跨越了一系列"可调性"或专业化，而不是简单性和集成性。Hadoop供应商的竞争不是彼此，而是大数据3.0云服务。具有讽刺意味的是，Spark的广度使得核心平台成为可能，围绕这个平台，围绕着一个全新的工具生态系统来构建大数据丰富的应用程序。使用Cassandra而不是HBase。而不是纱线，使用码头集装箱和Mesos或Kubernetes。用卡夫卡代替水槽。而且，最终的"蟑螂作为幸存者"技术，而不是HDFS，而是使用S3或任何商品对象存储。所有这些创新都留下了管理和发展的复杂性。主流企业无法或不愿雇佣稀缺的、必要的、昂贵的技能，它们越来越希望亚马逊、微软和谷歌以及其他基于其服务或基础设施的供应商提供"服务即服务"的简单性。除了Hadoop之外，这些云供应商也有自己的分析即服务（analytics-as-a-service）。如今，客户可以选择运行这些供应商云中托管的Hadoop，并交换一些专门的、专有的功能，比如使用Amazon的Kinesis firehoose进行弹性数据摄取，或者在Azure上建立一个机器学习api库。随着时间的推移，我们期望云供应商在其专有服务之间提供更深入的集成。如果客户愿意放弃开源软件，云供应商可能会提供大数据分析套件的开发和管理简单性，将其作为一个单元进行设计、构建、测试、操作和交付。如果传统的Hadoop供应商想要在这个快速增长的生态系统中竞争，他们需要做的不仅仅是管理一系列工具。他们需要创建一个一致的平台来隐藏大量工具的管理和开发复杂性。georgegilbert是wikibonresearch的大数据和分析分析师。既然你来了…点击订阅我们的YouTube频道（见下文），显示您对我们使命的支持。我们的订户越多，YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢！支持我们的使命：>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命，以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值，而不是广告。与许多在线出版物不同的是，我们没有付费墙或横幅广告，因为我们想让我们的新闻保持开放，不受影响，也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道，我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持，他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道，视频采访和其他无广告内容，请花点时间看看我们的赞助商支持的视频内容样本，在推特上表达你的支持，然后继续回到SiliconANGLE。

本文地址： /cunchu/16725.html