域名注册_新浪虚拟主机_怎么买

小七 2019年10月25日 21:23 141 0

2017年欧盟火花峰会回顾与反思

《孤独星球》写道："都柏林现在是一个真正的国际化首都，大量涌入的人、能量和思想为这座永远迷人的多层城市注入了新鲜的味道和万花筒般的色彩。"。再加上这个在吉尼斯桶形都柏林会议中心举行的为期三天的多层次城市火花峰会，您将从跨越海洋和穿越陆地的演讲者和与会者那里获得关于大数据和人工智能（AI）未来的富有远见的想法。尽管有飓风奥菲利亚和布莱恩的阴霾，第三届欧盟火花峰会还是吸引了来自全球各地的1100多名火花爱好者出席，与会者得以见面、交流和指导。有超过102个跟踪会议和3个Apache Spark课程，与会者有一系列的Spark主题可供选择；超过320名与会者通过参加Databricks培训团队提供的Spark培训课程，学习了深度学习、机器学习、调优和配置Spark。作为Spark社区的倡导者，我也很高兴看到在Spark峰会前的会议上有这么多人出现。在全球620个拥有437000个成员的Meetup集团中，我们无疑是一个全球性的Spark社区，在峰会上的这种大规模集会证明了Spark在全球许多行业的普遍增长、采用、成熟和使用。在@databricks@spark#summit#meetup w/@timjhunter@holdenkarau@bllchmbrs参加。感谢您参加斯巴克夏令营的演讲pic.twitter.com/DRuq63AnJl-{Jules Damji}？？（@2twitme）2017年10月24日Spark meetup的组织者Jean-Georges Perrin通过这条微博捕捉到了峰会的精髓和融合：#斯巴克夏米特很棒——很高兴见到老朋友，结交这么多新朋友！长命百岁，繁荣昌盛！明年见！-Jean-Georges Perrin（@jgperrin）2017年10月26日在这个博客中，我们从Spark社区和Databricks中选出了一些最受欢迎的声音，并确定了Spark未来的发展趋势。利用深度学习管道简化人工智能从一开始，Databricks的创始人就致力于让大数据变得简单的愿景，为开发人员提供高级api，使困难的事情变得更简单和可能。首先，使用Structure Spark api，然后使用结构化流媒体，现在使用深度学习管道。Spark Matei Zaharia的联合创始人和创建者说："我们的理念一直是使Spark简单化，并使用可组合的高级API来统一引擎，以便其他快速出现的工作负载可以轻松集成到引擎中。"。他解释了为什么流式和深度学习工作负载是复杂的，并详细阐述了Databricks如何与社区合作，在apachespark中简化它们。不必担心如何将各种流媒体引擎串联起来以满足其工作负载，而是使用允许它们构建端到端流式应用程序的高级API，开发人员的工作效率可以大大提高。它们摆脱了配置和管理集群的束缚。深度学习管道API也是如此。为了演示易于集成和简化，软件开发人员和深度学习管道的合著者Sue Ann Hong演示了如何编写一个深度学习应用程序，该应用程序的代码长度为7行，时间不超过10分钟，标签为0。深度学习管道（DLP）的创建者Sue Ann Hong和Tim Hunter进一步阐述了DLP深度潜水课程的原因和方式。此外，Matei还宣布了spark2.2和2.3的社区努力和贡献，包括基于成本的优化器、PySpark的主要性能和包改进，以及Kubernetes支持。使用Databricks Delta简化数据体系结构Databricks的首席执行官兼联合创始人Ali Ghodsi秉承统一的理念和它为大数据从业者提供的所有优点，宣布了Databricks Delta，一个新的实时数据统一数据管理系统，作为统一分析平台的一部分。Ghodsi在他的主题演讲中强调Databricks Delta实现了三个目标：a）数据仓库的可靠性和查询性能b）以流式系统的速度查询结构化数据的可用性和c）数据湖的可扩展性和成本效率。"因为Delta是一个统一的数据管理系统，既可以处理低延迟流数据，也可以处理批处理过程，因此它允许组织大大简化其数据架构，"Ghodsi解释道。为了演示Delta如何通过Databricks Delta的一个使用案例简化数据架构，Databricks Delta目前正被一家财富100强公司用于一个每天处理数万亿条记录的信息安全应用程序，Delta首席软件工程师Michael Armbrust展示了这种统一数据管理系统的威力和潜力。突出火花社区声音欧洲核子研究所电子束部门的高级软件工程师Jakub Wozniak解释说，在欧洲核子研究所，Tim Berners-Lee创建网络的发源地，电子加速器产生的数据量巨大。当光子沿着世界上最大的电子加速器加速时，所有的磁铁、设备、控制器和质子每秒产生超过1pb的原始物理数据事件。如何捕获、分析和可视化这种规模的数据？沃兹尼亚克在尝试和比较其他系统之后，宣布Spark作为他们数据提取和分析的选择，因为Spark具有大规模的分布式处理能力。在他的主题演讲中，沃兹尼亚克解释了原因。与欧洲核子研究中心（CERN）需要大规模、快速地分析大量数据密切相关的是，需要确保Spark作业的监控和性能。欧洲核子研究所Hadoop、Spark和数据库服务的首席工程师Luca Canali就Spark在规模上的性能故障排除、挑战、工具和CERN采用的方法进行了密集而密集的讨论。Jacek Laskowski在另一次演讲中也表达了这种性能和监视Spark工作负载的趋势。对吉姆·唐宁来说，这次在都柏林举行的峰会是一次返校节活动。蒂姆是爱尔兰人，毕业于都柏林三一学院，他介绍了Tensorflow和Spark工作流。他分析了Spark与Tensorflow集成的不同框架，从Tensorframes到TensorflowOnSpark到Databrick的深度学习管道，并提出了人工智能将如何随着时间的推移而发展。但让我印象最深的是，他洞察到，当人工智能的历史从今天开始书写几十年后，什么样的人工智能事件不会突出，就像1684年埃德蒙·哈雷（Edmund Halley）造访艾萨克·牛顿（Isaac Newton）时，一个事件是如何突出的，他提出了一个问题："地球在它的轨道上描述了什么样的曲线太阳，假设引力平方反比？"以人工智能为例，唐宁推测，有一个事件不会成为今天大家谈论的历史，那就是Facebook在"我们如何扩展人工智能"上的账户由杰西卡·麦卡锡和玛丽娜·阿列克谢娃（Jessica McCarthy）和玛丽娜·阿列克谢娃（Marina B.Alekseeva）介绍的"大数据中的女性午餐"描绘了这一全球性的关键运动的演变过程，以激励和鼓励女性进入大数据领域。作为第二天主题演讲"低接触机器学习"的一部分，Leah McGuire告诉我们，在大数据应用的人工智能世界中，人为因素是多么重要。最后，在本次Spark峰会上，一个非常明显的新兴主题是规模、规模和规模—无论您的用例是使用Databricks Delta流式传输和存储1万亿条记录，还是在CERN每秒检查I PB原始物理数据事件，还是在Salesforce构建复杂的深度学习和机器学习模型。在这个关于规模的主题故事中，添加了一个引人入胜的帐户和用例，即使用结构化流式K-means、ApacheKafka、机器学习和ApacheNifi构建可伸缩的全球地缘政治新闻扫描仪、刮板和聚合器。下一步是什么由于没有人能参加所有的会议，我们已经把所有的视频和幻灯片发布在Spark Summit的网站上。有空请仔细阅读。如果你错过了在都柏林的激情时刻，你可以在2018年6月在旧金山赶上下一个。更好的是，试着提交一份报告。下一届Spark峰会的报告征集（CfP）将很快公布，敬请关注。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3068.html