域名注册_数码兽数据库_返现

小七 2019年10月25日 21:23 141 0

Databricks和Apache Spark™ 2017年回顾

在Databricks，我们通过回顾2017年作为一家公司和社区所取得的成就，迎接2018年新的一年的到来。在这个博客中，我们详细阐述了三个主题：统一、扩展和协作。统一年从apachespark诞生之初，统一就一直是apachespark的一个关键和奠基原则。Associated Computing Machines（ACM）授予了在加州大学伯克利分校（UC Berkeley）启动Spark研究项目的团队，该项目后来成为Apache Spark的最佳论文奖：Apache Spark：大数据处理的统一引擎。Spark将所有工作负载与一个高性能引擎结合起来的先见之明在当时是一个令人讨厌的想法。然后，传统智慧为每种新的数据工作负载指定了一个单独的大数据引擎：SQL、流、机器学习和图形处理。不过，Spark可不是这样。在三个方面，斯帕克扣篮了传统的智慧。但这种统一的概念并没有随着Spark的首次发布而停止。事实上，它在Spark中得到了发展和推动；它形成了结构化流式API的统一，并由Spark SQL引擎提供支持，因此开发人员可以使用统一的高级数据帧/数据集API进行批处理和/或流式计算。最重要的是，它为构建和引入统一的分析平台提供了基础：统一数据科学家、工程师和分析师，使其能够协作工作，将人员和流程聚集在一起，使用单一平台。随着统一分析平台架构框架的布局，构建和添加软件模块化组件以增强其针对不同角色的能力和容量变得很自然。例如，我们介绍了Databricks Serverless，它是apachespark的下一代资源管理，提供自动配置、Spark感知的弹性和细粒度的资源共享。在一个统一的平台上添加一个高性能和增强的引擎，您将两全其美。例如，为了给用户提供最好的性能体验，我们发布了Databricks Runtime（DBR），包括Databricks I/O（DBIO）、Databricks Serverless和开源Apache Spark，这些都是为云优化的。在DBR上运行基于大数据SQL引擎的行业标准基准测试结果显示，我们的表现优于其他公司5倍，如下所示。此外，我们的R用户还受益于扩展的功能和性能改进。DATABRICKS运行时优于其他计算引擎与Databricks Delta统一的数据湖和数据仓库到目前为止，大数据从业者使用混合的lambda体系结构构建可伸缩的数据管道，通过繁琐复杂的ETL处理管道组合或合并历史静态数据。然后，这些管道将其原始数据持久化到数据池中，并将数据细化到多个仓库中，从而提供商业智能（BI）工具来执行即席查询或从其筒仓中生成报告，并用于特定目的。这些集合过程不仅复杂、脆弱和昂贵，而且还可能将不一致或无效的数据引入数据池。想象一下，如果你能摆脱数据湖或数据仓库。如果您可以简化今天的企业数据体系结构管道，以实现历史上静态和实时数据分析和持久性。会采取什么形式？对于这个数据工程难题，我们的答案是Databricks Delta，一个统一的数据管理系统。它消除了对复杂的ETL、数据验证和大量数据仓库的需要。相反，作为针对您的历史和实时数据的统一数据管理系统，它为我们的用户提供了数据湖的容量和数据仓库的可靠性，而在流式延迟时，这两者都没有在一个统一的平台下使用。作为我们统一分析平台的一部分，我们去年在都柏林举行的欧盟Spark峰会上公开了这一产品。扩张年份然而，统一的主题与其说是统一软件组件，不如说是在统一文化下扩展公司。去年夏天，我们获得了财务上的提振，结束了风险投资系列D轮融资1.4亿美元，使我们的累计融资达到2.5亿美元。有了这一次金融刺激，我们把翅膀伸向了欧盟，并着手开发和扩大我们的产品，作为我们扩张的一部分。我们的阿姆斯特丹工程团队现在专注于apachespark的性能，因为团队主要以在构建高性能和可扩展分布式系统方面拥有深入专业知识和经验的工程师为荣。通过班加罗尔的Databricks技术中心，作为扩展的一部分，我们可以在全球范围内为我们的动态企业客户提供真正的24×7支持。接下来，伦敦这个国际化的城市就在不远处。我们在伦敦市中心扩张，利用我们欧洲、中东和非洲地区总部的人工智能和机器学习机会，这是一个不断增长的市场。《经济学人》写道："这两个字母（AI）加起来可以赚很多钱。没有一个技术领域比人工智能更热门。2017年前9个月，人工智能领域的风险投资总额达76亿美元。"同样重要的是，我们公布了统一分析平台的可用性，它是Azure云上的一流服务。今年晚些时候，我们在microsoftconnect上宣布了对azuredatabricks的私有预览。现在，Microsoft enterprise客户可以无缝地启动Spark群集，并轻松地与其他Microsoft服务集成，以满足他们的大数据分析需求。这是2017年我们将可扩展统一分析平台从AWS扩展到Azure云的一个巨大成就。最后，在未来的一年和2020年以后，我们相信更多的人工智能和机器学习现实世界的应用将渗透到我们生活的许多方面。麻省理工学院的技术评论认为"西方不应该害怕中国的人工智能革命。它应该复制它。"人工智能一直是大数据和apachespark最令人激动的新的和不断增长的应用程序之一。但是，如果不大规模地处理大数据，人工智能是不可行的。它也不能促进开发人员的快速开发而不使人工智能开发框架变得更容易。我们希望解决"99%与1%的问题"，正如Databricks的EMEA副总裁David Wyatt所解释的那样，AI有"百分之一的问题"，这将如何影响业务为了拥抱人工智能，我们将Spark Summit更名为Spark+AI Summit，将人工智能的各个方面都包括进来。

本文地址： /zhuji/3078.html