云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

腾讯云_数据库原理ppt_优惠

小七 141 0

Databricks:让大数据变得简单

我们在Databricks的愿景是让大数据变得简单,这样我们就能让每个组织都能将其数据转化为价值。在2014年Spark峰会上,我们非常兴奋地推出了Databricks,这是我们实现这一愿景的首款产品。在这篇文章中,我将简要介绍数据科学家和数据工程师在处理大数据时面临的挑战,然后展示Databricks如何应对这些挑战。今天的大数据挑战虽然大数据对改善企业、拯救生命和促进科学发展的承诺越来越现实,但分析和处理数据仍然像以往一样困难。无论大小企业的软件工程师、数据工程师、数据科学家,都在努力建立和维护集群,处理一大堆系统,这些系统不仅难以集成,而且很难使用。建立和维护集群当一个组织启动一个大数据计划时,通常,第一步是建立一个Hadoop集群。不幸的是,这很难。今天,仅仅在本地建立一个集群可能需要6-9个月的时间。即使组织已经有了一个本地集群,也可能需要2-3个月才能为一个新的大数据项目获得更多的服务器。整合系统动物园一旦集群就位,下一步就是构建数据管道。如图1所示,基于Hadoop的典型数据管道包括ETL(交互式)数据探索、构建仪表板和报表、高级分析和数据产品(如推荐系统)。图1:典型的大数据管道。不幸的是,实现这样一个数据管道是非常困难的,因为它需要将不同的、复杂的系统拼接在一起,包括批处理系统(例如hadoopmr)、查询引擎(例如Hive、Impala、Apache Drill)、商业智能工具(例如Qlik、Tableau),以及为机器学习和基于图形的算法提供支持的系统(例如,Giraph、GraphLab、Mahout、R)。难以使用的系统不幸的是,即使在建立了管道之后,系统本身仍然很难使用。不同的系统公开不同的api和编程语言(例如Java、Clojure、Scala、Python、R),充其量,它们提供了一个shell接口。此外,执行高级分析是很困难的,而构建数据应用程序则更加困难。数据块我们在Databricks的目标是解决所有这些挑战。为了实现这一目标,我们引入了Databricks(图2),这是一个用于数据分析和处理的端到端平台,我们相信它将使大数据比以往任何时候都更易于使用。图2:Databricks云Databricks是围绕apachespark构建的,由两个附加组件组成:托管平台(Databricks平台)和工作区(Databricks工作区)。接下来,让我们看看这些组件如何解决这三个挑战中的每一个。Databricks平台:无需设置和维护集群Databricks平台是一个托管平台,它使得创建和管理集群变得非常容易。Databricks平台包括一个复杂的集群管理器,它允许用户在几秒钟内启动并运行集群,同时提供他们所需的一切。尤其是Databricks平台提供了安全性、资源隔离性,它实例化了一个完全配置和最新的Spark集群,它允许动态扩展,并提供无缝的数据导入。这样,Databricks平台就不需要设置和维护本地集群。apachespark:统一现有的大数据系统Databricks是围绕apachespark构建的,它统一了当今大数据系统提供的许多功能。特别是apachespark提供了对批处理、交互式查询处理、流式处理、机器学习和基于图形的计算的支持,所有这些都是通过一个API实现的。这使得开发人员、数据科学家和数据工程师能够在一个系统中实现他们的整个管道。Databricks工作区:使平台易于使用Databricks工作区通过提供三个功能强大的基于web的应用程序:笔记本、仪表盘和作业启动程序,使大数据框架的使用更加容易,特别是Spark。笔记本允许用户交互式地查询和可视化数据。笔记本电脑还支持在线协作,从而允许多个用户实时合作进行数据探索。目前,笔记本允许用户使用Python、SQL和Scala查询和分析数据。一旦用户创建了一个或多个笔记本,他们就可以从这些笔记本中获取最有趣的结果并创建复杂的仪表板。他们可以通过一个功能强大但直观的仪表板生成器来实现这一点,然后只需单击一个按钮就可以将仪表板发布给组织中的其他员工或其客户。仪表板是交互式的,因为每个绘图都可以依赖于一个或多个变量。更新这些变量后,每个绘图后面的查询将自动重新执行,并重新生成绘图。最后,Databricks工作区包括一个作业启动程序,它允许用户以编程方式运行任意Spark作业。例如,用户可以安排作业定期运行,或者在输入更改时运行。用数据链构建大数据管道图3显示了Databricks如何显著简化图1所示的大数据管道。图3:Databricks云,大数据管道为了简单起见,我们假设大多数客户的数据都在S3中。然后,Databricks可以就地操作S3数据(无需复制),并实现整个数据管道:我们可以使用Spark作业或笔记本来进行ETL,这些作业可以定期运行,也可以在输入发生变化时运行你可以使用笔记本进行交互式探索和高级分析可以使用仪表板生成器在报表中创建仪表板最后,我们可以创建、构建和运行数据产品作为Spark作业或笔记本。此外,Databricks可以读取AWS中可用的其他存储系统和数据库的输入,并允许用户通过ODBC连接器使用他们喜爱的商业智能工具。通过这种方式,Databricks允许用户专注于寻找答案和构建优秀的数据产品,而不是费力地建立集群,将难以使用的不同系统拼接在一起。第三方应用程序虽然Databricks工作区使Databricks立即开箱即用,并允许用户构建非常重要的数据管道,但我们计划在我们自己的应用程序之外增加对第三方应用程序的支持。图4:支持第三方应用程序我们已经与一些认证的Spark应用程序开发人员合作,在databrick上运行他们的应用程序。我们期待着用一个充满活力的应用程序生态系统来扩展数据块。Databricks和Spark社区Databricks将对apachespark项目产生有益的影响,它重申了我们致力于使Spark成为最好的大数据框架的承诺。Databricks将极大地加速Spark的采用,因为它将使学习和使用apachespark更加容易。此外,Databricks运行100%的apachespark。这意味着没有锁定。用户可以在Databricks上开发他们的工作和应用程序,并在任何经过认证的Spark发行版上运行,无论是在本地还是在云端。摘要我们相信Databricks将大大简化大数据分析,它将成为开发、测试和运行数据产品的最佳场所。这将进一步推动Spark社区的发展,使大数据比以往任何时候都更易于使用。有关可用性和部署方案的更多信息,请查看以下常见问题解答。免费试用Databricks。今天就开始吧