云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_国外代理服务器地址_哪个好

小七 141 0

数据湖分析已经成为现实。但挑战在于快速获取数据并提供有意义的见解。有几种技术可以更快地访问数据。在这个博客中,我们将看到如何将Hana与Hadoop集成,以快速获得对更大数据集的见解。

如果您的生态系统中同时包含Hana和Hadoop。SAP提供了使用HANA Spark controller集成HANA和Hadoop的选项。内存处理能力可用于实时洞察,而我们可以并行使用Hadoop能力来处理巨大的数据集。

利用运营业务数据和各种来源的大数据实时推动业务决策已成为竞争的必要条件。Hana Spark controller可用于集成Hana和Hadoop,其中Hana内存中的功能可用于实时分析,并与Hadoop以经济高效的方式处理大量数据的能力相结合。Hana Hadoop与Hana spark controller的集成使我们能够在Hana和hive元存储之间进行联合数据访问。在这个博客中,大数据,我们将通过一个简单的例子来了解这个功能。

基本的用例是使用Hadoop作为一个冷数据存储库来存储访问频率较低的数据。启用它的工具是数据生命周期管理器(DLM),它是SAP HANA数据仓库基金会的一个组成部分。数据分层使我们能够在HANA和Hadoop之间进行双向数据移动。

我们现在将看到如何从HANA建立到Hadoop群集的连接的概述,联网,然后我们将看到在HANA和Hadoop之间进行联合访问的示例。

集成步骤

在Hadoop上安装HANA spark controller集群。

几乎支持所有发行版(Hortonworks、Cloudera、Mapr)。

本安装支持HANA版本1.0 SP12和2.0。如果您想创建虚拟spark程序,大数据治理平台,那么您必须使用HANA 2.0。

下面的链接提供了安装的先决条件。

https://help.sap.com/viewer/6437091bdb1145d9be06aeec79f06363/2.0.3.1/en-US/239dba8b8a374092adb8823c661c2040.html

安装过程中指导安装步骤指南

https://help.sap.com/viewer/6437091bdb1145d9be06aeec79f06363/2.0.3.1/en-US/879215c8865d4007b912016fc7ccb13b.html

我将在下一篇博客中记录Spark controller在Hadoop集群上的安装步骤。

在Hana和Hadoop之间建立智能数据连接。

在Hadoop集群上安装Spark controller后已安装并启动。我们需要在HANA和Hadoop之间建立智能数据连接。

您可以验证创建的远程源连接。

我们可以看到连接成功建立。我们现在来看一个在Hana和Hadoop之间进行联合数据访问的示例。

Hana和Hadoop之间的联合数据访问

在这个示例中,数据和大数据的区别,我们将通过一个小示例来了解如何并行地从Hana和Hadoop获取数据。下面是实现这一点的步骤。

1)在Hana中创建样本表

我们在Hana中创建了下表并插入了少量记录。

2)在Hive中创建样本表

下面是我插入到表中的样本数据default.hana\u配置单元\u团队

3)在Hana中创建虚拟spark程序,从hive获取数据。

下面是用Hana编写的从配置单元表读取数据的虚拟过程的示例代码default.hana\u配置单元\u团队.

注意:我们没有创建任何虚拟表,大数据主要学什么,我们使用scala编程编写了spark sql。

有关scala编程参考,请单击此处。

下面是从HANA触发的虚拟spark过程的输出。第2步和第3步的输出相同。

4)创建另一个过程,将Hana数据结果与配置单元结果合并。

并行访问Hana和Hadoop,并使用联合显示合并结果。下面是示例程序。

程序输出结合hana和hive数据的结果。

完成。这就是我们如何使用Hana spark控制器并行访问Hana和Hadoop数据集的方法