云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

虚拟主机_mysql数据库分片_超低折扣

小七 141 0

虚拟主机_mysql数据库分片_超低折扣

本系列的第1部分重点介绍了新的SAP HANA Data Lifecycle Manager功能如何帮助利用自动化流程将数据从HANA分层到Hadoop。现在数据已在Hadoop中,超级返利,我们将了解如何开始使用SAP HANA Vora分析此数据。在开始之前,让我简要介绍一下SAP HANAVora…..

"对于希望从新数据源为业务决策注入有价值上下文的数字企业,SAP HANA Vora是一个内存中的查询引擎,可插入Apache Spark执行框架,对存储在Hadoop中的数据提供丰富的交互式分析。它可以让您以一种既简单又快速的方式将大数据与企业数据结合起来。"

Vora是SAP数字企业大数据战略的关键组成部分。作为数据平台的一部分,网云服务器,Vora有助于消除分析师、开发人员、DBA之间的数字鸿沟,大数据可视化,以及数据科学家。本博客将关注数据科学家。

Vora将通过Hadoop的内存计算引擎转换大数据分析。

将Hadoop和SAP HANA数据关联起来,以获得即时洞察力,从而推动情境感知决策。

现在您已经了解了什么是SAP HANA Vora,让我们开始吧。我们将看看数据科学家如何利用从HANA–>Hadoop分层的数据。

在第1部分中,我们将DLM目标指定为"Spark目标"。为了让我们能够处理数据,我们首先需要了解一些关于信息在Hadoop中存储的方式和位置的信息-网站.xml在下面的屏幕截图中,您可以看到这个系统在HDFS中的目标是/sap/hana/hanaes/warehouse.

在第1部分中,我们实际运行了DLM作业。因此,如果我们查看目标HDFS目标,我的云,我们可以看到DLM创建的以下文件。

这里要注意的是DLM在将数据重新定位到Hadoop时创建了拼花文件。什么是拼花?简而言之……

"Apache Parquet是Hadoop生态系统中任何项目都可以使用的柱状存储格式,无论选择何种数据处理框架,数据模型或编程语言。"(此处提供有关parquet的更多信息)。这与Hana非常匹配,因为parquet是一种列式存储格式。

有几个选项可以与Vora、Zeppelin、Spark shell或Beeline一起使用。冒着博客篇幅过长的风险,我试着给大家举一个例子。

齐柏林飞艇

什么是齐柏林飞艇?

"一款基于网络的笔记本,支持交互式数据分析。

您可以使用SQL生成漂亮的数据驱动、交互式和协作文档,Scala和更多。"(此处提供更多信息)

配置齐柏林飞艇以使用Vora解释器需要一些设置(如果有人感兴趣,我会将此保存到另一个博客中)。对于本博客,我将假设您已配置齐柏林飞艇并使用Vora解释器。

1–在浏览器中打开齐柏林飞艇

2–创建一个在create table语句中输入新的注释和类型。Vora解释器通过指定%Vora来使用。

3–现在已经创建了表,可以对其执行SQL语句。如果您还记得博客的第1部分,我们将100740条记录从Hana重新定位到Hadoop。我们可以对Vora表进行计数(*)以验证所有记录重新定位的记录已被记录。

4–此时,您可以自由地对Vora表运行任何查询。我做了一个简单的求和和分组,如下所示。

Spark Shell

如果您不需要以华而不实的方式可视化您正在进行的工作,那么您可以简单地使用Spark Shell运行并查看您的结果。

1–启动火花壳。您可以在Vora bin目录中找到它。

2–导入org.apache.spark网站.sql

3–创建Vora表。语法与我们使用的齐柏林飞艇

4相同–与齐柏林飞艇类似,我们可以使用标准SQL语法运行sum select.

select

SQUARE\u ID

,sum(cast(SMS\u IN as double))as SMS\u IN

,sum(cast(SMS\u OUT as double))as SMS\u OUT

,sum(cast(CALL\u IN as double))as CALL\u IN

,sum(cast(CALL\u OUT as double))as CALL\u OUT

,SUM(cast(INTERNET\u TRAFFIC as double))as INTERNET\u TRAFFIC

FROM

tmp\u cdr3

GROUP BY

SQUARE\u ID

order BY CALL\u IN desc

"."stripMargin

show

Result:

Beeline

我们使用Beeline,一个JDBC客户端,在Thrift服务器上注册SAP HANA Vora中创建的表。这种方法将允许SAP Lumira连接到Vora表。

1–Start beeline。它位于/vora/bin目录中。

2–提交create table语句;同样,此语法与我们在前两个示例中使用的语法完全相同。

3–为了连接Lumira,需要启动thrift服务器。这将启用从Lumira到vora表的连接。储蓄服务器位于vora bin目录中。

4–下一步我们转到Lumira。创建一个新的数据集。到Vora的数据集连接使用通用JDBC驱动程序完成,如下所示。

5–一旦选择了JDBC数据源,武汉大数据,我们需要设置JDBC URL和JDBC类。我们使用的类将是辛巴星火.jdbc4.Driver

6–一旦我们通过成功连接到Thrift服务器JDBC连接Vora表的列表应该可以查询。请参阅下面我们在beeline中创建的cdr\U详细Vora表。

7–现在可以针对Vora表创建标准的Lumira可视化和分析。

结论:这是我们第一次使用Vora分析Hadoop数据。您现在应该有一个了解Vora如何弥合数据科学家的数字鸿沟。