全站加速_中国期刊网数据库_学生机

小七 2019年10月25日 21:23 141 0

斯特拉蒂奥遇见阿帕奇·斯帕克：一个真实的爱情故事

这是我们Stratio朋友的一篇客座帖子，宣布他们的平台现在是"经过认证的ApacheSpark发行版"。认证分销Stratio很高兴地宣布它是一个官方认证的apachespark发行版。认证对我们来说非常重要，因为我们深信，认证计划为Spark社区提供了许多好处：它促进了合作和整合，为丰富的Spark生态系统提供了广泛的进化和支持，简化关键安全更新的采用，并允许开发适用于任何认证发行版的应用程序，这是成功生态系统的关键要素。这篇文章简要介绍了我们从大数据技术开始到改用Spark的历史。斯特拉蒂奥遇见火花：一个真实的爱情故事我们在7年前就开始使用大数据技术，那时Hadoop还在Beta测试阶段。我们开始使用大数据技术并不是因为我们非常聪明，能够预测到数据的未来，这只是偶然和必要。我们有一个ORM（在线声誉管理）的产品。这个产品收集了400多家公司的互联网评论。在收集了所有这些评论之后，我们正在使用语义引擎处理它们，生成报告并向客户发送警报。随着web2.0的出现，互联网上的信息开始呈指数级增长；所有的博客都产生了数以百万计的帖子和评论。因此，我们的语义引擎每天处理的时间更长，直到我们无法在上午9点之前发送报告。我们讨论了解决问题的方法，例如增加服务器数量以及其他解决方案。正如您已经想象到的，其中一个解决方案是使用一种叫做Hadoop的新兴技术来优化我们的语义引擎处理。我们年轻勇敢（现在仍然如此），我们走上了这条路。这真的很难，hadoopbeta有很多bug。几个月后，我们能够为我们的语义引擎实现一个MapReduce风格的程序，并进行了第一次测试。结果令人印象深刻；我们将处理所有评论所需的时间从12小时缩短到不到30分钟。这太棒了；当然，我们知道语义处理是相当"地图可还原的"，但它还是让我们大吃一惊。那时我们爱上了大数据技术。到2013年，我们已经开发了6年多的大数据项目。那时我们正在实现结合Hadoop和Storm的nathanmarzlambda架构。我们实现了很好的目标，我们的客户对结果印象深刻。但我们也发现了一些局限性：既没有交互式查询，也没有实时数据流分析。项目的开发、部署和支持变得越来越复杂。所以我们在寻找更好的方式和技术来服务我们的客户，因此我们找到了Spark。火花我们在2013年开始使用Spark。内存处理和优雅的架构能够提供难以置信的功能和可能性，最大程度地简化了这一点，简直太棒了。在Spark成为Apache孵化器项目之前，我们决定将Spark纳入我们的平台，因为我们看到了它背后的概念、改进和可能性是如此巨大，以至于我们毫不怀疑它是新的"Hadoop Map Reduce"引擎。2013年，Spark streaming加入Spark，2014年Spark成为Apache顶级项目，因此时间证明了我们的正确性。事实上，我们并没有包含Spark keeping Hadoop Map Reduce；我们完全取代了Hadoop Map Reduce，创建了一个纯粹的Spark平台。Stratio：一个纯粹的Spark企业平台这么早就将spark纳入我们的平台有点冒险，但成为这么早的采纳者对我们有很大的回报。我们已经能够在创纪录的时间内创建一个纯spark企业平台，我们的第一个版本在3月底发布。得益于Spark和我们的纯Spark方法，我们的企业平台比以前的平台更精简、更简单：我们集成了一些Hadoop工具，比如Flume，还创建了一些模块，这些模块是企业级Spark平台所必需的。行政第一个是我们的管理模块。""管理员"负责：安装、内部部署和云计算平台管理与监控安全系统仪表板和报告系统警报交叉数据在做了7年大数据项目之后，我们再次看到客户使用大数据技术有多么困难，因此我们试图简化大数据技术的使用，并牢记三个主要目标：允许客户端仅使用SQL来使用系统。不需要别的了。将最好的处理引擎与最好的NoSQL数据库结合起来，充分利用这两个世界的优势。允许组合：不同的存储系统（HDFS、MongoDB、Elastic Search…）或通过实时进入系统的数据流存储的数据（过去的数据和当前的数据）为了实现上述目标，我们创建了"交叉数据"："CrossData"不仅是一个简单的SQL接口；它结合了数据，还使用Spark来补充NoSQL数据库的api中没有实现的特性，例如，在MongoDB中创建SQL joint，或者允许在"不可能"语句之前使用任何其他语句。火花流和层流我们从一开始就在使用火花流。事实上，我们在Spark Streaming推出之前开发的一些项目中正在替换Storm。Stratio认为Spark Streaming是构建交互式复杂事件处理强大解决方案的完美工具。因此，我们将Spark Streaming与复杂引擎处理（CEP）以及Kafka creating Stratio Streaming相结合：用例我们只使用Spark进行处理，不只是在poc中，而是用于大公司的实际项目。将我们使用以前的技术进行的项目与现在使用Spark进行的项目进行比较，我们可以指出几个好处：开发者：更容易更快的开发系统工程师：更容易部署和降低成本支持客户和业务：以更少的复杂性实现更高的价值我们测量了一些银行客户使用Spark与以前的大数据平台相比的改进，Spark的速度提高了20倍，将处理时间缩短到几分钟。以下是Spark和Stratio平台的一些实际使用案例：NH酒店：他们希望从社交网络中收集顾客满意度数据和客人评论，并将其与财务数据相结合。使用Stratio平台，他们每年能够管理大约20万次评论。全球有400多家酒店主管使用质量关注在线工具，员工可变收入的15%取决于其衡量标准。此外，通过使用这个工具，他们大大减少了负面评论。Telefonica：网络安全组织有必要分析他们的所有日志，以便发现甚至防止可能的黑客攻击。在检查了许多现有技术后，他们决定使用Stratio平台来完成这项任务。目前，他们可以利用来自不同来源（访问日志、DNS、电子邮件、评论等）的所有可用信息，通过检测和解决可能的安全漏洞或漏洞利用并生成详尽的信息。未来我们认为Spark是Hadoop映射的进化过程中的缩小、扩展和没有任何先前的限制，所以我们只是在大数据处理革命的开始。只有每年都有新的模块和可能性来改进，才能使以前的技术无法实现的产品和项目成为现实。所以保持联系，因为这场冒险才刚刚开始。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3599.html