云存储_建设外贸网站_排行榜

小七 2019年10月25日 21:23 141 0

Apache SparkR随需应变网络研讨会和常见问题解答

两个月前，我们举办了一个在线研讨会，利用apachespark和R对大数据进行探索性分析，以演示SparkR最重要的用例之一：对非常大的数据进行探索性分析。本次网络研讨会展示了Spark的特性和功能，如缓存分布式数据和集成的SQL执行，如何补充R的优秀工具，如可视化和在大数据的实际数据分析项目中的不同包。网络研讨会可以按需访问，其幻灯片和示例笔记本也可以作为网络研讨会的附件下载。试试那些可以免费访问数据库的笔记本。我们回答了以下网络研讨会观众提出的常见问题。如果您还有其他问题，请访问Databricks论坛。常见网络研讨会问答单击问题以查看答案：R可以驻留在我的本地电脑上，从AWS的Spark收集，对吗？有可能在R中使用RDD吗？例如，我想对一个巨大的数据集执行reduceByKey。有没有新的MLlib函数在2.0中公开给SparkR？或者只是kmeans（已经有glm了）。如何通过Scala/sparkshell访问R中创建的temp表？我的意思是如何在R和Scala中获得相同的Spark上下文？随附的笔记本参考了ETL笔记本，了解如何获得songsTable的说明。ETL笔记本有链接吗？免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3435.html