CDN_咸宁市网站建设_便宜的

小七 2019年10月25日 21:23 141 0

2016年用户SparkR教程

AMPLab和Databricks在用户会议上给出了SparkR的教程。会议于6月27日至6月30日在斯坦福大学举行。在这篇博文中，我们提供了高层次的介绍，同时还提供了培训材料的指导，以及我们在本教程中进行的一项调查的一些发现。第一部分：数据探索本教程的第一部分是关于SparkR的大数据探索。我们从介绍SparkR的演示开始本教程。这包括对SparkR体系结构的概述，并介绍了SparkR可能的三种机器学习类型：大数据，小学习隔板、骨料大规模机器学习实践练习首先简要概述Databricks工作区。我们在Databricks社区版中使用R笔记本来运行R和SparkR命令。这是一个免费服务，支持在Scala/Python和R中运行Spark。参与者首先将第一个笔记本导入他们的工作区。正如您在本笔记本中看到的，我们首先将100万首歌曲数据集作为Apache Spark数据帧进行阅读，并使用两种技术对其进行了可视化探索：总结和可视化采样和可视化这本笔记本通过实例介绍了这两种技巧，最后以一些练习结束。第二部分：高级分析在本教程的第二部分中，我们介绍了SparkR中可用的机器学习算法。其中包括SparkML算法，这些算法通过一个自然的R接口向R用户公开。例如，SparkR用户可以像使用现有glmnet包一样利用分布式GLM实现。我们还介绍了apachespark2.0中添加到SparkR中的两个新的功能强大的API。dapply用于并行地对Spark数据帧的所有分区应用R函数火花铺层用于在多台机器/工人中并行R函数第二个笔记本再次使用百万首歌曲数据集进行K均值聚类，并使用GLM建立了一个预测模型。和第一部分一样，它以一些练习结束，以便进一步练习。调查结果以下是调查结果的简短摘要。超过一半的与会者是数据科学家，大约20%是学生。当被问及R的用例时，每个人都把"数据清理和争论"列为一个用例。大多数人（约80%）还将"数据探索"和"预测分析"作为R的用途。大多数参与者表示，他们将数据从本地文件系统加载到R中。从RDBMS系统中加载是第二受欢迎的，占60%。大多数参与者是dplyr的用户，大约60%的人表示他们更喜欢hadleyverse进行数据清理和争论。当被问及他们是如何传达他们的发现时，最流行的方法是在幻灯片/文档中发布R图，紧接着是共享rMarkdown文件。超过一半的与会者从未使用过SparkR或MLLib，约25%的人积极考虑这两种方法。我们希望本教程对与会者有所帮助。下一步是什么？如果要试用这些笔记本，请执行以下操作：注册Databricks社区版将SparkR教程第1部分和第2部分导入Databricks Community Edition免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3434.html