云主机_秦皇岛网站建设_新用户

小七 2019年10月25日 21:23 141 0

云主机_秦皇岛网站建设_新用户

开源apachespark正迅速成为大数据处理和分析的事实标准。它是一个"内存"数据处理引擎，利用10个甚至1000个逻辑连接主机（集群）的分布式计算能力。它能够处理大量的结构化和非结构化数据。随着数据需求的增长，您可以轻松扩展集群。

除此之外，它还可以用作跨越传统数据库和其他流行大数据平台的数据联合层，如Hadoop HDFS、Hadoop Hbase、Cassandra、Amazon Redshift和S3等。

SAP Hana Vora，通过提供额外的业务功能，如层次结构支持、货币转换和高级SQL下推等，进一步扩展了Apache Spark。

在本博客中，我将演示通过Apache Spark直接使用Hana数据来启动和运行是多么容易，直到你准备好接受Vora提供的额外好处。

下面的屏幕截图显示了这个博客的最终结果，sparksql直接调用了一个HANA查询。这类似于Hana中使用虚拟表和智能数据访问（SDA）来实时查询其他数据库的方式。

注意：我使用了齐柏林飞艇笔记本来显示结果，不过许多流行的报表显示工具都可以调用Spark SQL，包括Lumira、Tableau、Spotfire、，等等

第一步是在Hana中创建一个包含一些测试数据的表，有哪些云服务器，下面的sql语句生成1000行测试数据，微信返利机器人，但是如果您希望增加更重的测试的数量，可以进行调整。

执行SQL。

结果如下。

接下来我们需要准备Apache Spark。

注意：我已经使用最新的SPS12版本的Hana JDBC驱动程序测试了Spark(ngdbc.jar文件)与SPS10和SPS12系统相比，两者似乎都起了作用很好。旧版本的驱动程序在Spark中会出现以下错误：'org.apache.spark网站.SparkException:由于阶段失败而中止作业：任务不可序列化：java.io.NotSerializableException异常: com.sap.db网站.jdbc.topology.Host主机"

更新：我收到反馈，这也适用于Azure HDInsight群集，数据分析，只需将jar文件位置添加到Ambari的"customspark defaults"属性中spark.executor.extraClassPath’ & ‘spark.driver.extraClassPath".

通过复制驱动程序并将Spark配置指向jar文件，您现在可以对HANA执行Spark命令。请确保您拥有HANA连接的详细信息。在Hana MDC环境中，如果有疑问，请执行'select*from sys\u databases.m\u services'。

注意：目前只能使用基本授权访问Hana（通过Spark）

在本例中，我使用follow Scala语法在Spark中创建了一个临时表（虚拟表），大淘客cms，链接到先前创建的Hana表。

的结果在Zeppelin中运行的是：

现在一个基本的Spark SQL可以在虚拟表上运行。

为了更好地提高性能（对于较大的数据集），还可以并行调用查询。

使用下面的Scala语法，我请求在Hana上将数据分为5个不同的子查询，在Spark中再次被合并之前。

当在Spark中查询更大的数据集时，您可以看到在Hana中调用了多个子查询。

在我接下来的两个博客中，我将探讨如何优化SQL到Hana的下推，查询逻辑在parralel中运行，用于更复杂的场景：

优化来自apachespark的HANA查询下推

我希望你已经发现这是有用的。如果它为你工作或你需要做任何其他调整，使其工作那么请添加评论。