云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

CDN_咸宁市网站建设_便宜的

小七 141 0

2016年用户SparkR教程

AMPLab和Databricks在用户会议上给出了SparkR的教程。会议于6月27日至6月30日在斯坦福大学举行。在这篇博文中,我们提供了高层次的介绍,同时还提供了培训材料的指导,以及我们在本教程中进行的一项调查的一些发现。第一部分:数据探索本教程的第一部分是关于SparkR的大数据探索。我们从介绍SparkR的演示开始本教程。这包括对SparkR体系结构的概述,并介绍了SparkR可能的三种机器学习类型:大数据,小学习隔板、骨料大规模机器学习实践练习首先简要概述Databricks工作区。我们在Databricks社区版中使用R笔记本来运行R和SparkR命令。这是一个免费服务,支持在Scala/Python和R中运行Spark。参与者首先将第一个笔记本导入他们的工作区。正如您在本笔记本中看到的,我们首先将100万首歌曲数据集作为Apache Spark数据帧进行阅读,并使用两种技术对其进行了可视化探索:总结和可视化采样和可视化这本笔记本通过实例介绍了这两种技巧,最后以一些练习结束。第二部分:高级分析在本教程的第二部分中,我们介绍了SparkR中可用的机器学习算法。其中包括SparkML算法,这些算法通过一个自然的R接口向R用户公开。例如,SparkR用户可以像使用现有glmnet包一样利用分布式GLM实现。我们还介绍了apachespark2.0中添加到SparkR中的两个新的功能强大的API。dapply用于并行地对Spark数据帧的所有分区应用R函数火花铺层用于在多台机器/工人中并行R函数第二个笔记本再次使用百万首歌曲数据集进行K均值聚类,并使用GLM建立了一个预测模型。和第一部分一样,它以一些练习结束,以便进一步练习。调查结果以下是调查结果的简短摘要。超过一半的与会者是数据科学家,大约20%是学生。当被问及R的用例时,每个人都把"数据清理和争论"列为一个用例。大多数人(约80%)还将"数据探索"和"预测分析"作为R的用途。大多数参与者表示,他们将数据从本地文件系统加载到R中。从RDBMS系统中加载是第二受欢迎的,占60%。大多数参与者是dplyr的用户,大约60%的人表示他们更喜欢hadleyverse进行数据清理和争论。当被问及他们是如何传达他们的发现时,最流行的方法是在幻灯片/文档中发布R图,紧接着是共享rMarkdown文件。超过一半的与会者从未使用过SparkR或MLLib,约25%的人积极考虑这两种方法。我们希望本教程对与会者有所帮助。下一步是什么?如果要试用这些笔记本,请执行以下操作:注册Databricks社区版将SparkR教程第1部分和第2部分导入Databricks Community Edition免费试用Databricks。今天就开始吧