云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_蚌埠网站建设_速度快

小七 141 0

2016年欧盟Spark峰会第一天的数据广播

更新:演示视频现已发布。在下面找到它们。Spark峰会主题布鲁塞尔10月早晨的阴天或早晨的通勤交通并没有让1000多名阿帕奇Spark爱好者聚集在广场会议中心聆听Spark创造者Matei Zaharia的主旨演讲。使用ApacheSpark2.0简化大数据应用程序年初,当Matei Zaharia在Spark Summit East登台时,他与ApacheSpark分享了社区发展的愿景,并创造了术语"连续应用程序",作为开发人员编写对实时数据做出反应的端到端实时应用程序的一种方式。2016年7月,Apache Spark 2.0发布。今天在布鲁塞尔,Zaharia在Spark Summit的主旨演讲中,分享了Spark 2.0的所有工作,以统一基于数据帧和数据集的单一接口,不仅促进和简化如何编写连续的应用程序,还简化了如何编写大数据应用程序。Zaharia说编写大数据应用程序很难。首先,它需要处理任务、存储系统和ETL、聚合、机器学习和流式传输等模式的复杂组合。其次,很难同时获得生产率和性能。然而,他概述了Spark 2.0方法简化大数据应用程序编写的许多方法。首先,Spark的统一引擎允许您在单个API中表达整个工作流,连接现有的库和存储。其次,数据帧和ML管道中的高级api导致代码优化。最后,结构化流式api使开发人员能够编写多方面的连续应用程序。Databricks软件工程师Greg Owen展示了Matei所指的连续应用程序(一种与批处理和流数据交互的方式)演示了如何将实时流数据聚合与机器学习模型相结合,以获得更新的见解。所有这些都是可能的,因为结构化流媒体。在他的演示中,使用情绪分析,格雷格展示了与英国脱欧相关的实时推文如何影响人们对马米特不断上涨的价格的情绪。总而言之,星火2为基于上述原因的基于所有数据的数据流和数据集统一API的未来奠定了基础。最终,大数据开发人员编写更少的代码,处理更少的概念,并获得更好的性能。更新:您可以在这里观看完整的演示文稿。下一个AMPLab:实时智能安全执行在Matei的主题演讲之后,Databricks的联合创始人兼执行主席Ion Stoica分享了他对分布式计算下一阶段的展望。作为apachespark、Alluxio和apachemesos的孵化器,AMPLab的统治将于今年结束。但它进入了创新的新阶段:RISELab(实时智能安全执行)。Stoica说,致力于构建开放源代码框架、工具和算法,以使在实时数据上构建实时应用程序决策具有更强的安全性,这一新阶段将通过Drilling和Opaque Stoica两个项目来创新和增强Spark。虽然毛毛雨将ApacheSpark的流延迟减少了10倍,并增强了容错能力,但Opaque增强了Spark在静止或移动时的数据加密,在云端或本地提供了更强的保护。更新:您可以在这里观看完整的演示文稿。开发人员跟踪会议Spark的业绩:过去、现在和未来在峰会第一天的开发者培训开始后,Sameer Agarwal调查了ApacheSpark过去、现在和未来的表现。在他们对Spark性能的简短历史探索中,团队提出了一个基本问题:"Spark已经相当快了,但我们能不能让它快10倍?"简而言之,这个答案导致了apachespark2.0与第二代钨丝引擎一起发布,该引擎基于现代编译器和MPP数据库的思想,并应用于数据处理查询(SQL/dataframe)。Agarwal分享了对Spark内部结构的深刻见解,并介绍了Tungton如何在运行时发出优化的字节码,从而将整个查询压缩为一个函数,消除了虚拟函数调用,并利用CPU寄存器处理中间数据。他还讨论了钨丝如何以面向列的格式在内存中布局缓存数据,以实现更高效的存储和更高的性能。更新:您可以在这里观看完整的演示文稿。深入研究催化剂优化器无论您是用SQL、DataFrame还是Dataset来表示查询或计算,它都会经历与Catalyst优化器相同的sparksql引擎。通过仔细的分析,Catalyst优化器为JVM生成逻辑和物理计划,然后生成RDD级别的字节码,以获得最佳性能。Herman van Hovell,Spark提交者和Databricks软件工程师,带着他的听众深入了解查询所经历的整个管道和转换。他解释说,Catalyst中的主要数据类型是由节点对象或具有零个或多个子节点的操作组成的树。接下来,他讨论了如何应用规则来操作树,最后讨论了规则如何重新排列树中的节点以获得最佳代码生成。演讲结束后,听众立即进行了一次实践性实验,并深入了解了Catalyst在引擎盖下的工作原理。更新:您可以在这里观看完整的演示文稿,也可以在这里观看实际操作的实验课程。下一步是什么第二天的简要回顾可以在我们的博客中阅读。此外,在Spark峰会之后不久,所有的主题演讲和会议讨论和幻灯片都将在Spark Summit欧盟网站上提供。免费试用Databricks。今天就开始吧