云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

企业邮箱_wap手机网站建设_免费申请

小七 141 0

随着Hadoop被企业广泛用于大数据存储和处理,许多运行SAP-HANA的组织都在寻找有效的方法在其环境中利用(以及集成)Hadoop。在这种情况下,让我们看看这两种平台,并评估各种可用的集成选项。

Hadoop的好处

Hadoop运行在商品硬件上,能够存储大量数据。与SAP HANA相比,Hadoop中的数据存储更便宜,因为SAP HANA需要大量内存,云店,而使用这些内存,设备将变得非常昂贵。

Hadoop还可用作存档解决方案。用于存档的非常旧的数据存储在Hadoop中,以便在需要时可以重用。

随着时间的推移,在Hadoop上构建了许多框架,有助于处理存储在其中的数据。Apache Spark、Pig、Flume和Hive等库提供了对数据进行复杂处理的能力,包括大型map reduce或机器学习,诸如日志分析之类的操作在Hadoop中更易于存储和处理,因为它支持原始HDFS文件格式,这在SAP HANA中是一项昂贵的操作。

SAP HANA的优点

SAP HANA旨在高速运行复杂的分析和事务数据处理。作为一种内存设备,它可以比Hadoop更快地处理大量数据。

SAP HANA提供了一组丰富的特性建模特性,无需编写任何程序即可处理数据。它与SAP Business Warehouse(BW)和其他前端SAP工具集成良好。SAP HANA还兼作应用程序平台(XS)和设备,使其易于执行和部署应用程序以及数据,而不需要任何单独的应用程序服务器。所有这些都使SAP HANA成为一个完整的数据平台,不像Hadoop需要第三方工具和库来编写程序来处理数据。

SAP HANA来自一个单一的制造商—SAP,而Hadoop有不同的风格,并得到开源和一些企业提供商(如Cloudera)的支持,Horton works和MapR.

混合模型:两全其美

利用SAP HANA和Hadoop的混合模型如下所示。

Hadoop将使用HDFS收集和存储非结构化数据,并使用Spark等框架运行复杂流程,SAP HANA将用于构建内存分析和视图,以轻松使用这些数据用于集成(与操作数据)、报告和可视化(与其他SAP前端工具)的数据

集成Hadoop和SAP HANA的设计细节将取决于需求的性质,下面列出了一些集成场景和用例:

场景1:将数据从Hadoop移动到SAP HANA

如下图所示,可以使用SAP BODS等ETL工具连接月系统。

Hadoop中的非结构化数据通过Spark或其他库进行处理,然后存储为结构化数据作为源对于使用蜂巢适配器的BOD。然后将结构化数据加载到SAP HANA中。

优点:

可以将预先收集的数据带到SAP HANA中任何数据收集和重构都可以在Hadoop中完成ETL用于定期从Hadoop加载数据易于配置和设置,大数据数据采集,不需要在Hadoop中进行任何单独的配置

Cons

不能使用实时数据只对小尺寸的数据有用。加载大型结构化Hadoop数据集将导致内存负载,并使SAP HANA变得昂贵

场景2:使用智能数据访问/智能数据集成

SAP智能数据访问(SDA)允许SAP HANA远程连接和虚拟访问数据,而无需将数据移动到SAP HANA中。在我们的例子中,表作为虚拟表使用,SQL查询直接在Hadoop中运行。

SAP HANA Smart Data Integration(SDI)是SAP HANA的集成组件,它允许与外部系统(这里是Hadoop)无缝集成,而不需要源和SAP之间的任何独立、异构、非本机层哈娜。SAP HANA SPS09支持智能数据集成,广西大数据,SAP HANA SPS10进一步增强了智能数据集成,使其成为从外部系统获取实时数据的理想解决方案之一。在我们的例子中,SDI有助于将数据从Hadoop实时复制到SAP HANA。当Hadoop中的数据发生更改或更新时,它会自动推送到SAP HANA中。

从最新版本开始,大数据的现状,SAP HANA支持Hive连接器(使用JDBC)、HDFS(使用文件适配器)、Spark上的SQL(使用SAP HANA Spark控制器)和direct Hadoop(使用ODBC)。

请参阅SAP Note 1868209,1868702和2257657了解更多关于SDA与Hadoop集成的信息。

优点:

可以将预先收集的数据带入SAP HANA数据收集和建模可以在Hadoop中完成支持使用SDA实时数据;批量加载使用SDI

Cons

需要在Hadoop层安装单独的组件进行SDI比使用ETL复杂

场景3:使用SAP HANA VORA作为Hadoop的处理层

SAP VORA是一个内存查询引擎,它插入apache Hadoop框架以提供交互式分析。VORA使用sparksql库和SAP的计算引擎。SAP HANA VORA可以作为Hadoop节点上的独立组件工作。

SAP HANA VORA提供了以前无法实现的高级处理功能。它可以从SAP-HANA读取数据到Spark,并将数据写回SAP-HANA。由于它运行在spark上,它还提供了spark为数据处理提供的许多高级功能。

SAP VORA还通过视图和内存表将SAP HANA的SQL类功能置于Hadoop之上。

优点:

可以直接从SAP HANA读取数据并将处理后的数据写回(SAP HANA)它提供了在内存中构建视图的功能先进的数据处理可以在spark

的帮助下完成缺点:

需要额外设置需要一点编程知识才能有效地实现和操作

结论

如上所述,每个选项都有自己的优点和缺点,云店,并且适合特定类型的用例。