企业邮箱_wap手机网站建设_免费申请

小七 2019年10月25日 21:23 141 0

随着Hadoop被企业广泛用于大数据存储和处理，许多运行SAP-HANA的组织都在寻找有效的方法在其环境中利用（以及集成）Hadoop。在这种情况下，让我们看看这两种平台，并评估各种可用的集成选项。

Hadoop的好处

Hadoop运行在商品硬件上，能够存储大量数据。与SAP HANA相比，Hadoop中的数据存储更便宜，因为SAP HANA需要大量内存，云店，而使用这些内存，设备将变得非常昂贵。

Hadoop还可用作存档解决方案。用于存档的非常旧的数据存储在Hadoop中，以便在需要时可以重用。

随着时间的推移，在Hadoop上构建了许多框架，有助于处理存储在其中的数据。Apache Spark、Pig、Flume和Hive等库提供了对数据进行复杂处理的能力，包括大型map reduce或机器学习，诸如日志分析之类的操作在Hadoop中更易于存储和处理，因为它支持原始HDFS文件格式，这在SAP HANA中是一项昂贵的操作。

SAP HANA的优点

SAP HANA旨在高速运行复杂的分析和事务数据处理。作为一种内存设备，它可以比Hadoop更快地处理大量数据。

SAP HANA提供了一组丰富的特性建模特性，无需编写任何程序即可处理数据。它与SAP Business Warehouse（BW）和其他前端SAP工具集成良好。SAP HANA还兼作应用程序平台（XS）和设备，使其易于执行和部署应用程序以及数据，而不需要任何单独的应用程序服务器。所有这些都使SAP HANA成为一个完整的数据平台，不像Hadoop需要第三方工具和库来编写程序来处理数据。

SAP HANA来自一个单一的制造商—SAP，而Hadoop有不同的风格，并得到开源和一些企业提供商（如Cloudera）的支持，Horton works和MapR.

混合模型：两全其美

利用SAP HANA和Hadoop的混合模型如下所示。

Hadoop将使用HDFS收集和存储非结构化数据，并使用Spark等框架运行复杂流程，SAP HANA将用于构建内存分析和视图，以轻松使用这些数据用于集成（与操作数据）、报告和可视化（与其他SAP前端工具）的数据

集成Hadoop和SAP HANA的设计细节将取决于需求的性质，下面列出了一些集成场景和用例：

场景1：将数据从Hadoop移动到SAP HANA

如下图所示，可以使用SAP BODS等ETL工具连接月系统。

Hadoop中的非结构化数据通过Spark或其他库进行处理，然后存储为结构化数据作为源对于使用蜂巢适配器的BOD。然后将结构化数据加载到SAP HANA中。

优点：

可以将预先收集的数据带到SAP HANA中任何数据收集和重构都可以在Hadoop中完成ETL用于定期从Hadoop加载数据易于配置和设置，大数据数据采集，不需要在Hadoop中进行任何单独的配置

Cons

不能使用实时数据只对小尺寸的数据有用。加载大型结构化Hadoop数据集将导致内存负载，并使SAP HANA变得昂贵

场景2：使用智能数据访问/智能数据集成

SAP智能数据访问（SDA）允许SAP HANA远程连接和虚拟访问数据，而无需将数据移动到SAP HANA中。在我们的例子中，表作为虚拟表使用，SQL查询直接在Hadoop中运行。

SAP HANA Smart Data Integration（SDI）是SAP HANA的集成组件，它允许与外部系统（这里是Hadoop）无缝集成，而不需要源和SAP之间的任何独立、异构、非本机层哈娜。SAP HANA SPS09支持智能数据集成，广西大数据，SAP HANA SPS10进一步增强了智能数据集成，使其成为从外部系统获取实时数据的理想解决方案之一。在我们的例子中，SDI有助于将数据从Hadoop实时复制到SAP HANA。当Hadoop中的数据发生更改或更新时，它会自动推送到SAP HANA中。

从最新版本开始，大数据的现状，SAP HANA支持Hive连接器（使用JDBC）、HDFS（使用文件适配器）、Spark上的SQL（使用SAP HANA Spark控制器）和direct Hadoop（使用ODBC）。

请参阅SAP Note 1868209，1868702和2257657了解更多关于SDA与Hadoop集成的信息。

优点：

可以将预先收集的数据带入SAP HANA数据收集和建模可以在Hadoop中完成支持使用SDA实时数据；批量加载使用SDI

Cons

需要在Hadoop层安装单独的组件进行SDI比使用ETL复杂

场景3：使用SAP HANA VORA作为Hadoop的处理层

SAP VORA是一个内存查询引擎，它插入apache Hadoop框架以提供交互式分析。VORA使用sparksql库和SAP的计算引擎。SAP HANA VORA可以作为Hadoop节点上的独立组件工作。

SAP HANA VORA提供了以前无法实现的高级处理功能。它可以从SAP-HANA读取数据到Spark，并将数据写回SAP-HANA。由于它运行在spark上，它还提供了spark为数据处理提供的许多高级功能。

SAP VORA还通过视图和内存表将SAP HANA的SQL类功能置于Hadoop之上。

优点：

可以直接从SAP HANA读取数据并将处理后的数据写回（SAP HANA）它提供了在内存中构建视图的功能先进的数据处理可以在spark