在这篇博文中,中移物联网有限公司,我将介绍如何与SAP HANA Vora一起运行SparkR。
首先,您必须在安装Vora的每个节点上下载并安装。
以下内容应能使其与Vora和Redhat 7.2一起运行(需要管理员权限和访问Redhat存储库):
在每个节点上,do(在bash中):
成功安装R包后,政务大数据,需要安装随Vora一起交付的SparkRVora:
(安装中应该已经设置了环境变量Vora\u SPARK\u HOME–它指向安装Vora/SPARK包的目录)。例如,当使用ambari集群管理器时,它应该看起来像"var/lib/ambari-agent/cache/stacks/HDP/2.4/services/vora-manager/package/lib/vora-spark")
要与spark和vora一起运行R,您有以下选项:
1。直接运行SparkR
使用SparkR可执行文件类似于使用spark shell或pySpark。
以用户"vora"的身份执行(用vora安装的版本号替换1.X.YY,淘客公众号系统,例如1.3.88):
启动SparkR后,需要提供对R库和SparkRVora包的访问(在SparkR中):
2。在RStudio或普通R中运行SparkRVora
为了从R/RStudio中运行VoraSparkR,必须在SparkRVora(在R中)之前加载SparkR库:
现在您可以将SparkR与Vora一起使用。
例如,云服务器的,以下几行可以用来检查VORA数据库中的一个表:
作为另一个示例(见下面的屏幕截图),我们创建一个表并从HDFS中的一个文件加载它,并在"id"列上绘制"val"列。
,怎么查看大数据