云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名解析_郑州营销型网站建设_高性价比

小七 141 0

Databricks社区版的新内容

在纽约Spark峰会上,我们宣布了Databricks社区版(CE)测试版。CE是Databricks服务的免费版本,通过为数据科学家和工程师提供一个简单、集成的开发环境,提供高质量的培训材料和示例应用程序,每个人都可以学习和探索apachespark。社区对Databricks CE beta的兴趣远远超出了我们的预期。在发射的短短几天内,就有数千人将自己列入了等待名单!考虑到这样的需求,我们一直在努力扩大服务和运营规模,以便尽可能多地为更多的人提供服务。等待名单上的大多数人现在已经收到了账户,并开始尝试Spark和Databricks。我们的用户在Databricks CE中特别喜欢的一件事是探索培训材料和收集样本笔记本。今天,我们很高兴地宣布,我们提供了额外的材料,一个MOOC课程和两个示例应用程序,供您学习和探索Spark。使用apachespark MOOC进行机器学习首先,我们很高兴地宣布,我们的第二个大型在线开放课程(MOOC)"利用Apache Spark进行机器学习"的所有讲座和实验已于2015年7月在EdX平台上由加州大学洛杉矶分校的Ameet Talwalkar教授。这是一个为期五周的课程,介绍开发可伸缩的真实世界机器学习管道所需的基本统计和算法原理。去年开设时,这门课程非常成功,注册学生超过55000人,其中近15%毕业。这是在EdX和其他顶级在线教育平台上授课的MOOC平均毕业率的两倍多。这充分说明了这门课程的质量和需求,现在您也可以从Databricks CE中学习。在R和Scala中分析管道样本其次,Databricks-CE上最成功的示例应用程序之一是对一百万首歌曲数据集的一个分析管道。这个分析的目的是回答这样的问题:当你第一次听到一首歌时,你曾经把它分为慢歌还是快歌?这甚至是一个有效的分类吗?如果是这样的话,你能自动做到吗?本文旨在回答这些问题。我们用Python编写了原始管道。虽然Python是一种非常流行的语言,但是我们的许多早期用户已经询问过我们如何将管道移植到Spark支持的其他语言中。今天,我们很高兴地宣布,我们已经将这个分析管道移植到了Spark用户使用的另外两种流行语言R和Scala中。与Python编写的原始版本一样,Scala和R版本解析、探索和建模来自million songs数据集的示例。该管道由三段组成:ETL:解析原始文本并创建缓存表。探索:使用图表探索歌曲表的不同方面。Model:使用SparkML根据歌曲的某些属性对歌曲进行聚类。 金州勇士通关分析:第三方笔记本最后,我们很高兴第一次包括一个由Databricks CE用户创建的笔记本。使用图表来可视化2015-2016赛季金州勇士队队员之间的传球次数,这款笔记本利用了GraphFrames、一个新的Spark包,它可以有效地支持按比例查询图表,以及一个执行可视化的D3库。作为一个例子,这个笔记本展示了Databricks与越来越多的第三方软件包的无缝集成。今天有超过200个Spark套餐。丰富内容的可用性使Databricks CE成为学习spark的理想平台,使用户能够开发有用的应用程序,并与社区共享他们的笔记本电脑。现在就试试吧如果您已经有权访问社区版,请立即登录。或者在这里的候补名单上。免费试用Databricks。今天就开始吧