这是一个由3部分组成的博客系列,涵盖了SAP BW on HANA和Apache Hadoop作为近线存储解决方案的端到端集成场景。
对于第2部分:这里
对于第3部分:即将推出
简介:
Apache Hadoop已经成为大数据的招牌产品,这主要是由于其能够处理大型数据的高可扩展性分析平台大量的结构化和非结构化数据。另一方面,SAP HANA已成为领先的内存数据分析平台,它可以让您加快业务流程,以极快的速度提供可量化的商业智能。这两个数据库平台相互独立,什么叫大数据,各有优缺点,非常适合任何大型跨国公司的长期可持续高性能数据湖战略。
本博客旨在介绍如何将Apache Hadoop作为利用SAP的SAP HANA近线存储解决方案来实施火花控制器。为了这个博客,物联,我们将使用以下版本和软件产品:
SAP BW 7.5 SPS 5
SAP HANA 1.0 SPS 12和更高版本
核心Apache Hadoop版本2.7.1或更高版本(HDFS、MapReduce2、YARN)
Tez 0.7.0作为Hive的执行引擎(如果需要,可以代替MapReduce 2)
Spark 1.5.2或更高版本
SAP HANA Spark Controller 2.0 SP01Patch 1或更高版本
SAP建议将这些作为基线要求,但根据经验,云产品,我逐渐相信这些版本在互依性和互操作性方面能够很好地协同工作。Hortonworks(HDP)和Cloudera(CDH)都提供了提供上述版本的打包Apache平台。我个人没有和MapR一起工作,所以我不知道他们是否也这样做,大数据可视化平台,但我相信他们应该有一些可以与SAP一起工作的东西。
Hadoop集群架构和规模:
如果你正在考虑POC,我的建议是至少使用一个3节点的Hadoop集群,网站云服务器,其中有1个Namenode和2个datanode。这将使管理团队在设置和管理职责方面对生产集群有一个良好的感觉。apachehadoop是一个多组件解决方案,因此,微调和配置方面是相当多样化的,但又是相互依赖的。总体架构如下所示,在较高层次上。
Hadoop 3节点集群:
HANA、Spark Controller和Hadoop上的SAP BW:
近线存储:
请参阅供应商文档了解Hadoop大小。为了便于参考,下面是我用于概念验证的集群大小:
我们为POC使用了虚拟化集群。
Hadoop安装:
根据为POC选择的Hadoop风格,您可以通过Apache Ambari或Cloudera Manager安装Hadoop集群。详细的分步安装链接如下:
Apache Ambari
https://ambari.apache.org/1.2.1/installing-hadoop-using-ambari/content/ambari-chap1.html
Cloudera经理
即将推出:Apache Hadoop作为SAP的NLS解决方案HANA第2部分