云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

消息队列_企业邮箱办理_评分榜

小七 141 0

我希望在使用Apache SparkR之前知道10件事

这是来自一家全球资产管理公司的高级数据科学经理尼尔·德瓦尔(Neil Dewar)的客座帖子。在这个博客中,尼尔分享了使用R和apachespark所学到的经验教训。如果你知道如何使用R,并且正在学习apachespark,那么这篇博客文章和笔记本中包含了一些关键的提示,可以帮助你铺平道路。在数据库里试试这个笔记本如笔记本所述:我是R用户。当然不是面向对象的程序员,也没有分布式计算的经验。当我的团队开始探索分布式处理大数据的方法时,我接受了评估SparkR的任务。经过大量的探索,我最终发现缺少的是为那些已经了解R的人提供的上下文建议,以帮助他们理解SparkR的不同之处,以及如何调整您的思维以充分利用它。这就是这个博客和笔记本的目的——记录"啊哈!"从R到SparkR的旅程中的瞬间。我希望我来之不易的发现能帮助你更快地到达那里!该笔记本列出了10个关键知识,并附有代码片段和解释,为R用户量身打造。这是一个简单的列表,看看笔记本了解更多!查看此笔记本Apache Spark构建块。Spark的高级概述描述了R用户可以使用什么。SparkContext、SQLContext和SparkSession。在spark1.x中,SparkContext和SQLContext允许您访问Spark。在Spark 2.x中,SparkSession成为主要方法。数据帧或数据帧?Spark的分布式数据帧与R的本地数据帧不同数据帧. 了解这些差异可以避免简单的错误。分布式处理101。了解大数据处理的机制有助于编写高效的代码,而不会破坏集群的主节点。函数屏蔽。像所有的R库一样,SparkR屏蔽了一些函数。指定行。对于bigdata和Spark,通常在数据帧中选择行与在local R中不同数据帧.取样。以正确的方式采样数据,并将其用作在大数据和小数据之间转换的工具。机器学习。SparkR拥有一个不断增长的分布式ML算法库。可视化。它可能很难想象大数据,但有一些技巧和工具可以帮助。了解错误消息。对于R用户,Spark错误消息可能令人望而生畏。了解如何解析它们可以帮助您找到相关的部分。免费试用Databricks。今天就开始吧