云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云主机_秦皇岛网站建设_新用户

小七 141 0

云主机_秦皇岛网站建设_新用户

开源apachespark正迅速成为大数据处理和分析的事实标准。它是一个"内存"数据处理引擎,利用10个甚至1000个逻辑连接主机(集群)的分布式计算能力。它能够处理大量的结构化和非结构化数据。随着数据需求的增长,您可以轻松扩展集群。

除此之外,它还可以用作跨越传统数据库和其他流行大数据平台的数据联合层,如Hadoop HDFS、Hadoop Hbase、Cassandra、Amazon Redshift和S3等。

SAP Hana Vora,通过提供额外的业务功能,如层次结构支持、货币转换和高级SQL下推等,进一步扩展了Apache Spark。

在本博客中,我将演示通过Apache Spark直接使用Hana数据来启动和运行是多么容易,直到你准备好接受Vora提供的额外好处。

下面的屏幕截图显示了这个博客的最终结果,sparksql直接调用了一个HANA查询。这类似于Hana中使用虚拟表和智能数据访问(SDA)来实时查询其他数据库的方式。

注意:我使用了齐柏林飞艇笔记本来显示结果,不过许多流行的报表显示工具都可以调用Spark SQL,包括Lumira、Tableau、Spotfire、,等等

第一步是在Hana中创建一个包含一些测试数据的表,有哪些云服务器,下面的sql语句生成1000行测试数据,微信返利机器人,但是如果您希望增加更重的测试的数量,可以进行调整。

执行SQL。

结果如下。

接下来我们需要准备Apache Spark。

注意:我已经使用最新的SPS12版本的Hana JDBC驱动程序测试了Spark(ngdbc.jar文件)与SPS10和SPS12系统相比,两者似乎都起了作用很好。旧版本的驱动程序在Spark中会出现以下错误:'org.apache.spark网站.SparkException:由于阶段失败而中止作业:任务不可序列化:java.io.NotSerializableException异常: com.sap.db网站.jdbc.topology.Host主机"

更新:我收到反馈,这也适用于Azure HDInsight群集,数据分析,只需将jar文件位置添加到Ambari的"customspark defaults"属性中spark.executor.extraClassPath’ & ‘spark.driver.extraClassPath".

通过复制驱动程序并将Spark配置指向jar文件,您现在可以对HANA执行Spark命令。请确保您拥有HANA连接的详细信息。在Hana MDC环境中,如果有疑问,请执行'select*from sys\u databases.m\u services'。

注意:目前只能使用基本授权访问Hana(通过Spark)

在本例中,我使用follow Scala语法在Spark中创建了一个临时表(虚拟表),大淘客cms,链接到先前创建的Hana表。

的结果在Zeppelin中运行的是:

现在一个基本的Spark SQL可以在虚拟表上运行。

为了更好地提高性能(对于较大的数据集),还可以并行调用查询。

使用下面的Scala语法,我请求在Hana上将数据分为5个不同的子查询,在Spark中再次被合并之前。

当在Spark中查询更大的数据集时,您可以看到在Hana中调用了多个子查询。

在我接下来的两个博客中,我将探讨如何优化SQL到Hana的下推,查询逻辑在parralel中运行,用于更复杂的场景:

优化来自apachespark的HANA查询下推

我希望你已经发现这是有用的。如果它为你工作或你需要做任何其他调整,使其工作那么请添加评论。

谢谢,怎么做淘客推广,阿龙。

有趣的博客文章!

感谢您的反馈。