云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

金山云_虚拟主机香港_怎么样

小七 141 0

在Databricks中使用sparklyr

试着把这本笔记本放在数据库里,上面有所有的说明2016年9月,RStudio发布了sparklyr,这是Apache Spark的新R接口。sparklyr与Spark的接口遵循流行的dplyr语法。在Databricks,我们提供了运行apachespark及其支持的所有应用程序和包的最佳场所,它们来自Spark支持的所有语言。Sparkyr加入Spark生态系统不仅是对SparkR的补充,还将Spark的触角扩展到新的用户和社区。今天,我们很高兴地宣布,Sparkyr可以无缝地用于运行ApacheSpark2.2或更高版本和Scala2.11的Databricks集群。在这篇博客文章中,我们将展示如何在Databricks中安装和配置sparklyr。我们还介绍了Databricks R笔记本电脑的一些最新改进。清理R命名空间当我们在2015年发布R笔记本时,我们将SparkR集成到笔记本中:SparkR包默认是在命名空间中导入的,Spark和SQL上下文对象都被初始化和配置。成千上万的用户在R笔记本上运行R和Spark代码。我们了解到,他们中的一些人使用我们的笔记本电脑作为单节点R数据分析的便捷方式。对于这些用户来说,预装的SparkR函数屏蔽了其他流行软件包中的几个函数,最著名的是dplyr。为了改善希望使用R笔记本进行单节点分析的用户和Sparkr2.2开始的Sparkyr新用户的体验,我们不再默认导入SparkR。对单节点R数据科学感兴趣的用户可以使用大型实例启动单节点集群,并在干净的R命名空间中轻松地运行现有的单节点R分析。对于希望使用SparkR的用户,SparkSession对象仍然是初始化的,并且在他们导入SparkR之后就可以使用它了。数据库中的Sparkyr我们与RStudio的朋友合作,使sparklyr能够无缝地在Databricks集群中工作。从sparklyr版本0.5.5开始,sparklyr中有一个新的连接方法:databricks。在databricks R笔记本中调用spark_connect(method="databricks")时,sparklyr将连接到该笔记本的spark集群。由于这个集群是完全管理的,所以您不需要指定任何其他信息,如版本、SPARK_HOME等。安装Sparkyr您可以从CRAN轻松安装Sparkyr:安装.packages("斯帕克尔")配置Sparkyr连接在Databricks中配置sparklyr连接再简单不过了。图书馆(斯帕克尔)sc%汇总(count=n(),萼片长度=平均值(萼片长度),标准偏差=sd(萼片长度))%>%收集库(ggplot2)ggplot(虹膜总结,aes(萼片宽度、萼片长度、颜色=物种)+几何线(尺寸=1.2)+几何误差条(aes(ymin=萼片长度-标准偏差,ymax=萼片长度+标准偏差),宽度=0.05)+geom_文本(aes(标签=计数),vjust=-0.2,hjust=1.2,color="黑色")+主题(图例。位置="顶部")同时使用SparkR和Sparkyr我们发现SparkR和Sparkyr是互补的。您可以在单个笔记本或作业中使用相邻的包。为此,您可以在Databricks笔记本中导入SparkR和sparklyr。SparkR连接在笔记本中预先配置好,导入包后,就可以开始使用sparkrapi了。另外,请记住SparkR中的一些函数掩盖了dplyr中的许多函数。图书馆(SparkR)以下对象被从'包装:dplyr’:排列,介于,合并,收集,包含,计数,累计,密级,说明,不同,解释,过滤,第一,分组依据,交叉,滞后,最后,领先,变异,百分比排名,重命名,行数,样本数,选择,sql,总结,联合如果在导入dplyr之后导入SparkR,则可以使用完全限定的名称来引用dplyr中的函数,例如dplyr::arrange()。类似地,如果在SparkR之后导入dplyr,SparkR中的函数将被dplyr屏蔽。或者,如果不需要,可以有选择地分离两个包中的一个。分离("包装:dplyr")结论我们正在不断改进Databricks R笔记本电脑,使其成为执行可重复R数据分析的最佳场所,无论是使用apachespark的分布式数据,还是使用现有rich R生态系统的包进行单节点计算。正如我们用几个简单的步骤演示的那样,您现在可以在Databricks上无缝地使用sparklyr。您可以在我们的社区版中使用Databricks运行时beta3.0进行测试,其中包括apachespark2.2的最新候选版本。免费试用Databricks。今天就开始吧