云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

专属服务器_华为云电脑pc客户端_哪个好

小七 141 0

专属服务器_华为云电脑pc客户端_哪个好

大家好,

Hadoop、Bigdata、SAP HANA都是数据管理/企业数据仓库领域的热门词汇。

SAP一直致力于确保SAP分析工具与Hadoop等大数据框架实现良好的集成。

对于POC,我们正在尝试利用SAP和Hadoop之间的各种集成选项,通过本文档,我想与您分享我们迄今为止看到的集成选项。

我们的开发和配置仍处于非常早期的阶段。所以,我主要是带你们看理论部分。实际的经验教训、真正的痛点、挑战和局限性——所有这些都将在以后的阶段尽可能地添加到文档中。

当然也希望听到您的意见,以防您设法找到更多的集成选项。

我是一个懒惰的人,因此希望在两者之间建立各种链接,这就解释了关于这个特定主题的更多信息。

那么,让我们来详细了解一下;

1)使用BODS(Business Objects Data services)

我们只需在开始时提供名称节点主机和名称节点端口的详细信息,怎么成为淘客,然后我们还需要提供根目录和文件名。

名称节点–>名称节点是HDFS文件系统的核心。它保存文件系统中所有文件的目录树,并跟踪文件数据在集群中的存放位置。它本身不存储这些文件的数据。

我们还有一些与Pig脚本相关的选项。

Pig是一种高级脚本语言,租用服务器,与Apache Hadoop一起使用。Pig使数据工作者能够在不了解Java的情况下编写复杂的数据转换。Pig的简单的类似SQL的脚本语言被称为Pig Latin,它吸引了已经熟悉脚本语言和SQL的开发人员。

示例用例:

在BODS中,我们可以基本上创建一个项目–>创建一个作业–>创建一个数据流–>拖入HDFS文件作为源–>添加一个查询转换–>创建一个HANA数据存储为目标。

2)SAP VORA

SAP HANA VORA是一个新的内存查询引擎,它利用并扩展了Apache Spark执行框架,在Hadoop上提供丰富的交互式分析。

John Appleby在下面给出了大量信息博客:

年9月/the-sap-hana-vora-faq

以下是VORA的关键特性。

SAP HANA VORA包括一组独特的特性和功能:

一个在Apache Spark执行框架上运行的内存查询引擎

编译的查询,用于跨应用程序加速处理Hadoop分布式文件系统(HDFS)节点

增强的Spark SQL语义,包括支持OLAP和深入分析的层次结构

增强的mashup应用程序编程接口(API),以便更轻松地访问用于机器学习工作负载的企业应用程序数据

支持所有Hadoop发行版

开放开发界面

从HANA学院视频中可以看到很多VORA主题:

https://www.youtube.com/playlist?list=plkzo92owknvyynrkoggloxycdtlqebyx

更多详情请参见本文档:

3)Universe IDT–>与Hadoop JDBC驱动程序的连接

下面是三个精彩的文档(尽管有点旧),它们解释了详图

\ a\ u universe\ on\ u Hadoop\ u Hive\ u Jan\ u 2014.pdf

以下Wiki,Jacqueline Rahn,已经非常广泛地解释了Hadoop Hive与IDT的联系

+Hadoop+Hive+Connection+With+Information+Design+工具

显然,如果我们能够达到宇宙级,那么我们可以进一步将其应用到各种BO报告工具/仪表板上。

4)使用SDA的Hadoop连接

SDA是SAP HANA访问存储在远程数据源中的数据的一种新方法。

*这里我们可以看到一个名为Hadoop(ODBC)

Leo的适配器,详细说明如下博客:

Debajit在下面的文档中详细解释了使用Hive/Hadoop访问SDA:

大量Hadoop/Hive/Spark/SDA主题可以从HANA学院的视频中看到:

https://www.youtube.com/playlist?list=PLkzo92owKnVx\u X9Qp-jonm3FCmo41Fkzm

5)使用Lumira的Hadoop连接

请在这里找到一些有用的链接:

下面的文档向我们展示了使用"用SQL打开"的连接方法

这些天我们可以观察到一个直接连接到Hadoop:

这是一个协作文档。我谦虚地要求你们大家在这份文件中增加更多的要点/选项。让我们共同努力,使之成为一个非常有用的存储库,与我们的SAP工具进行大数据Hadoop框架集成。

再次感谢您阅读我的文档。

问候,

Prabhith

一如既往,一篇非常有趣的文章。

这篇文章为我们提供了探索SAP Bigdata集成的基础知识。

非常感谢……

问候,

Lethika.

Hadoop相关工具

1。Hadoop

Apache的Hadoop项目几乎成了大数据的代名词。它已经发展成为一个完整的开放源码工具生态系统,用于高度可扩展的分布式计算。操作系统:Windows、Linux、OS X.

2。Ambari

作为Hadoop生态系统的一部分,这个Apache项目提供了一个基于Web的直观界面,大数据工具有哪些,用于供应、管理和监视Hadoop集群。它还为希望将Ambari的功能集成到自己的应用程序中的开发人员提供restfulapi。操作系统:Windows、Linux、OS X.

3。Avro

这个Apache项目提供了一个数据结构丰富、格式紧凑的数据序列化系统。模式是用JSON定义的,它很容易与动态语言集成。操作系统:独立于操作系统。

4。层叠

层叠是基于Hadoop的应用开发平台。提供商业支持和培训。操作系统:独立于操作系统。

5。Chukwa

基于Hadoop,Chukwa从大型分布式系统收集数据用于监控。它还包括用于分析和显示数据的工具。操作系统:Linux,OS X.

6。Flume