云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_便宜香港虚拟主机_排行榜

小七 141 0

随需应变网络研讨会和常见问题解答:使用apachespark并行化R代码

8月15日,数据科学中心(datasciencecentral)与Databricks的hosseinfalaki举办了一个使用apachespark并行化R代码的在线研讨会。本次网络研讨会介绍了SparkR的概念、体系结构以及apachespark2.x中作为SparkR的一部分引入的一系列新api,为数据科学家和统计学家提供了在Spark集群上分布现有计算的新能力。随着Spark 2.0的发布和后续版本的发布,R API正式支持在分布式数据上执行用户代码。这主要是通过一系列apply()函数完成的。DSC网络研讨会系列:使用Apache®Spark并行化R代码™ 蒂姆·马特森在维米奥的报道。如果你错过了这个网络研讨会,你现在就可以观看它,也可以阅读这里的幻灯片。此外,我们还演示了两款R笔记本电脑:笔记本1笔记本2如果你想免费访问Databricks的统一分析平台,并在上面试用R笔记本,你可以在这里免费试用。最后,我们进行了问答,下面是所有的问题和答案。如果我可以在Spark上使用R,为什么我现在需要一个单独的ML库呢?虽然使用apply()函数可以实现广泛的功能,但是有许多算法需要分布式优化实现。示例包括广义线性模型或基于树的模型。对于这些用例,您可以使用SparkR的ML功能。关于火花铺层:是否需要显式地将库加载到工作线程,以及"推送"共享变量?类似于并行R包中的clusterEvalQ和clusterExport?是的,您需要在worker上显式加载库。至于变量,你不一定需要把它们"推"给工人。如果变量很小,这将很好地工作,SparkR的闭包捕获将很容易地处理它们。如果辅助数据很大,建议直接将辅助数据推送到工作人员(使用数据平面)。spark lapply中的每个工作人员是在原始列表的一个分区上工作还是在整个原始列表上工作?除了一个在列表上工作,另一个在数据帧上工作之外,lapply和dapply之间的主要区别是什么?使用时火花铺层()每个工作线程将对输入列表的单个值进行操作*火花铺层()通过控制平面将其论点发送给工人。但是,dapply()和gapply()依赖于Spark的数据平面。如何确定哪个工人处理哪些数据?每个工人在结束时得到的数据的哪一部分?使用dapply()时,无法控制哪个工作线程处理数据的哪个部分。但是,使用gapply()可以确保每个工作进程处理与特定键关联的所有数据。gapply()/dapply()是否可以用于函数或任务,如训练模型?如果培训过程可以并行实现,或者有方法将部分结果(来自不同的工人)合并到最终模型中,则可以使用dapply()/gapply()进行模型培训。你能举个例子说明dapply()什么时候有用吗?当使用与数据分组无关的简单转换时,可以使用dapply()或dapplyCollect()。这些R工人是微软R服务器的一部分还是Spark二进制文件的一部分?不,SparkR是一个开源项目,是apachespark的一部分。在火花铺层(),是否可以不为.libPath()指定网络路径,这样就不必这样做了安装.packages()在每个节点上?你可以。当worker中缺少包时,它是从驱动程序中已下载的包导入还是从CRAN mirror导入?您需要在worker上显式地安装第三方软件包。是否可以共享您在本次网络研讨会上展示的笔记本?是的,请看上面的链接(笔记本1和笔记本2)。我们只能在Databricks平台上使用SparkR吗?或者我们可以在RStudio中使用它吗?你也可以在其他平台上使用SparkR。如果我们有一个1500万到1600万的大数据集,您推荐lappy、dapply()或gapply()哪个函数?请勿使用火花铺层()分发您的数据。首先,将数据并行化为SparkDataFrame,然后根据您的用例使用dapply()或gapply()。SparkR是否可以用于使用模型进行预测的分布式记录评分?对。您可以将model对象分发给所有worker(例如,通过持久化到磁盘并从磁盘读取数据),然后可以使用dapply()/gapply()并行地根据模型对数据进行评分。并行处理的结果dataframe实例存储/驻留在哪里?它是分布在集群上还是由主机内存持有?如果使用dapplyCollect()/gapplyCollect(),则结果将作为本地数据帧对象。否则,当使用dapply()/gapply()时,结果是存储在所有工作线程上的分布式对象。dapply()(与dapplyCollect()不同)将执行延迟执行,对吗?是的,dapply()和gapply()是懒惰的。免费试用Databricks。今天就开始吧