消息队列_企业邮箱办理_评分榜

小七 2019年10月25日 21:23 141 0

我希望在使用Apache SparkR之前知道10件事

这是来自一家全球资产管理公司的高级数据科学经理尼尔·德瓦尔（Neil Dewar）的客座帖子。在这个博客中，尼尔分享了使用R和apachespark所学到的经验教训。如果你知道如何使用R，并且正在学习apachespark，那么这篇博客文章和笔记本中包含了一些关键的提示，可以帮助你铺平道路。在数据库里试试这个笔记本如笔记本所述：我是R用户。当然不是面向对象的程序员，也没有分布式计算的经验。当我的团队开始探索分布式处理大数据的方法时，我接受了评估SparkR的任务。经过大量的探索，我最终发现缺少的是为那些已经了解R的人提供的上下文建议，以帮助他们理解SparkR的不同之处，以及如何调整您的思维以充分利用它。这就是这个博客和笔记本的目的——记录"啊哈！"从R到SparkR的旅程中的瞬间。我希望我来之不易的发现能帮助你更快地到达那里！该笔记本列出了10个关键知识，并附有代码片段和解释，为R用户量身打造。这是一个简单的列表，看看笔记本了解更多！查看此笔记本Apache Spark构建块。Spark的高级概述描述了R用户可以使用什么。SparkContext、SQLContext和SparkSession。在spark1.x中，SparkContext和SQLContext允许您访问Spark。在Spark 2.x中，SparkSession成为主要方法。数据帧或数据帧？Spark的分布式数据帧与R的本地数据帧不同数据帧. 了解这些差异可以避免简单的错误。分布式处理101。了解大数据处理的机制有助于编写高效的代码，而不会破坏集群的主节点。函数屏蔽。像所有的R库一样，SparkR屏蔽了一些函数。指定行。对于bigdata和Spark，通常在数据帧中选择行与在local R中不同数据帧.取样。以正确的方式采样数据，并将其用作在大数据和小数据之间转换的工具。机器学习。SparkR拥有一个不断增长的分布式ML算法库。可视化。它可能很难想象大数据，但有一些技巧和工具可以帮助。了解错误消息。对于R用户，Spark错误消息可能令人望而生畏。了解如何解析它们可以帮助您找到相关的部分。免费试用Databricks。今天就开始吧

本文地址： /zhuji/3356.html