对象存储_负载均衡和集群的区别_价格

小七 2019年10月25日 21:23 141 0

web应用程序、社交媒体和物联网的激增，再加上业务流程的大规模数字化，导致原始数据的生成呈爆炸式增长。各个行业的企业都开始将各种形式的数据视为一种战略资产，并越来越多地将其用于复杂的数据驱动业务决策。大数据解决方案正被用于实现企业"数据湖"，存储来自所有可用来源的已处理或原始数据，并为各种应用程序/用例提供动力。

在不久的将来，大数据解决方案还将成为预测分析和物联网部署企业解决方案的关键组成部分。SAP内部部署和按需解决方案，尤其是HANA平台需要与Hadoop生态系统更紧密地集成。

什么是"大数据"？

数据集的特点是体积、速度和多样性。大数据是指这些属性中有一个或多个显著高于传统数据集的数据类别。

大数据为数据处理解决方案的各个方面提出了独特的挑战，包括数据的采集、存储、处理、搜索、查询、更新、可视化、传输和安全。

Hadoop大数据数据解救方案！

Hadoop是一个开放源码的软件框架，用于使用大型机群分布式存储和处理大数据。

Hadoop的操作方法–>分而治之：将任务分解成小块-在多个节点上并行存储/处理-合并结果

Hadoop不是唯一可用的大数据解决方案。Hadoop的几个商业发行版/变体和其他可能的替代品在体系结构上非常不同。

将SAP HANA的高速内存处理功能与Hadoop经济高效地存储和处理大量结构化和非结构化数据的能力相结合具有无限的可能性对于业务解决方案，

Hadoop系统可以是任何SAP业务系统环境的一个非常多功能的补充，数据分析方法，同时作为

一个简单的数据库和/或低成本的存档来扩展SAP系统的存储容量，以保留大量的历史或不常使用的数据一个灵活的数据存储，可增强SAP系统持久层的功能，并为xml json文本图像等半结构化和非结构化数据提供高效的存储一个庞大的数据处理/分析引擎，用于扩展或替换SAP系统的分析/转换功能，包括SAP HANA

了解：Hadoop生态系统

Hadoop的核心是一个基于Java的软件库，它为分布式存储和跨集群的并行数据处理提供实用程序/模块服务器。但是，一般来说，云服务器服务商，术语"Hadoop"几乎总是指整个生态系统，云免费，其中包括基于核心软件库的各种apache开源和/或商业工具。

Hadoop目前可以作为一组开源软件包或通过多个企业级商业发行版提供。除了用于内部部署的传统产品之外，Hadoop解决方案还可以从多个供应商获得SaaS/PaaS云产品。

根据Gartner和Forrester Research的最新市场指南，突出的发行版/服务快照：

Apache Hadoop[开源]Cloudera Enterprise | Cloudera CDH[开源]Hortonworks数据平台HDP[开源]地图IBM Big Insights公司^^Amazon弹性MapReduce（EMR）Microsoft Azure HDInsight谷歌云数据处理Oracle大数据云服务SAP云平台大数据服务（以前是SAP高级数据云）（^ ^潜在的中止解决方案）。Hadoop核心组件是整个数据访问和处理解决方案的基础。一大簇节点。HDFS可以支持任何类型的数据，并通过跨多个节点复制文件来提供高度的容错性。Hadoop YARN和Hadoop Common为整个集群的资源管理提供了基础框架和实用程序

Hadoop MapReduce是一个用于开发和执行分布式数据处理应用程序的框架。Spark和Tez是基于数据流图的替代处理框架，被认为是MapReduce的下一代替代品，MapReduce是Hadoop分布式处理的底层执行引擎Reduce：收集和合并结果

各种数据访问/处理引擎可以与Hadoop MapReduce引擎一起运行，以处理HDFS数据集。Hadoop生态系统在不断发展，组件经常具有一些互补、重叠和/或类似的功能，但其底层架构或方法却截然不同。

Hadoop生态系统中流行的组件应用程序引擎工具（不是详尽的列表；一些更开放的源代码和特定于供应商的应用程序被企业用于特定的用例）

Pig-用于开发和执行Hadoop数据集上复杂ETL和数据分析作业的高级语言（Pig拉丁语）脚本的平台Hive—运行在Hadoop核心之上的只读关系数据库，支持对Hadoop数据集进行基于SQL的查询；由Hive Metastore支持Impala-用于实时分析的大规模并行处理（MPP）分析数据库和基于SQL的交互式查询引擎HBase-NoSQL（非关系型）数据库，在Hadoop中提供对数据集的实时随机读写访问；由HCatalog支持Spark—内存中的数据处理引擎，淘客api，既可以在Hadoop上运行，也可以作为Hadoop本身的替代品/后续产品独立运行Solr-搜索引擎/平台，支持强大的全文搜索和近实时索引用于连续计算和实时分析的Storm流数据处理引擎Mahout—在Hadoop上运行的统计、分析和机器学习软件库，可用于数据挖掘和分析基于MapReduce框架的Giraph迭代图形处理引擎Cassandra-具有极高可用性功能的分布式NoSQL（非关系）数据库Oozie-用于管理作业和工作流的调度引擎Sqoop—可扩展的应用程序，用于在Hadoop、结构化数据存储和关系数据库之间批量传输数据Flume—分布式服务，支持将大容量流数据摄取到HDFS中Kafka流处理和消息代理系统Ambari-用于供应、管理和监视Hadoop集群和各种本机数据访问引擎的基于Web的工具Zookeeper–集中化服务，维护Hadoop配置信息并支持分布式Hadoop进程之间的协调Ranger–集中化框架，用于跨Hadoop组件一致地定义、管理和管理细粒度访问控制和安全策略Knox–应用网关，充当反向代理，为Hadoop群集提供外围安全，并支持与SSO和IDM解决方案集成

桥接两个世界–Hadoop和SAP生态系统

SAP解决方案，特别是SAP HANA平台，北京大数据，可根据任何用例的具体要求，使用多种解决方案和方法与Hadoop生态系统"集成"。

应考虑集成的SAP解决方案包括：

本文地址： /zhuji/80584.html