?简介
今天,开发人员和数据专家能够从数量可观的公共数据集中选择各种用途:
Google BigQuery数据集微软研究开放数据AWS开放数据注册开放FDA
当然,这些数据集也是构建演示和原型的完美起点!
在本文中,我将描述一个基于公共数据集的分析演示,该演示由以下组件构建:
SAP Data Hub用于数据探索的元数据资源管理器数据接收管道持久性和SQL访问的VoraSAP HANA公司与业务数据集成的虚拟化层SAP分析云可视化
此演示使用的公共数据集是AWS S3(链接)提供的Deutsche Börse公共数据集。
从架构模式的角度来看,淘客大联盟,此公共数据集可以表示基于云对象存储的通用数据湖。
?演示视频
?演示说明:
演示的故事情节由以下主要构建块组成
SAP Data Hub Metadata Explorer将用于以图形方式浏览S3 bucket的内容。
用于从S3 bucket读取数据并将其保存在SAP Data Hub Vora中,将使用基本数据中心管道。
在演示中,HANA系统将包含业务数据,或更精确的,大数据解决,用于分析目的的附加主数据。
除了将来自S3的交易数据与业务数据相结合之外,在这种情况下,计算视图用于虚拟访问存储在Vora中的数据。
从架构的角度来看HANA可用于虚拟化层,将多个分布式大数据引擎与内存处理功能结合起来。
将SAP HANA视为虚拟化层的一个方面是,通过将现有SAP数据模型和授权生成为HANA视图,可以重用现有的SAP数据模型和授权。(链接)
在这种情况下,SAP BW主数据(InfoObject)和相应的分析授权可以从BW/4HANA导出,企业大数据分析,并使用HANA视图与S3的数据进行虚拟组合。
最后但并非最不重要的是,使用SAP Analytics Cloud
以及SAC HANA实时数据构建一些漂亮的可视化效果总是令人高兴的连接(Link)是这个演示的一个重要组成部分?实现
首先需要在DH连接管理中维护S3 bucket
相关参数为:
需要维护AWS访问和密钥。保持访问和密钥为空不适用于此演示。
在维护S3连接后,数据可供探索和首次发现:
每天一个文件夹
图片:文件夹结构S3 bucket
每个文件夹包含CSV文件:
图片:S3 bucket文件夹中的CSV文件
CSV的数据类型和内容
图片:包含交易数据的CSV文件的列和数据类型说明
图片:内容以及CSV文件中的数据分布。
在探索S3 bucket的内容之后,下一步是构建DH管道。
管道由以下主要元素组成:
S3 Consumer
此操作符用于访问S3实例以读取文件或定期轮询目录以获取其内容。
Java脚本操作符
JavaScript运算符允许在图形中执行JavaScript片段。
在本例中,java脚本迭代文件夹的内容,例如,将文件名传递给下一个S3使用者,
Vora Avro Ingestor
此运算符允许您根据传入的Avro或CSV和Json
图片中的其他文本消息,将数据动态地摄取到SAP Vora中。DH Pipeline S3到Vora Avro Ingestor
运行管道后,所选日期的交易数据保存在基于Vora磁盘的流表中。
SAP HANA Academy–Vora 2.0:概述
流表支持INSERT、UPDATE或DELETE等SQL语句。此外,流表将其内容保存在分布式日志(DLog)中。
这使得集群能够在重启或失败后恢复数据。
图片:交易数据保存在Vora流表中
除了将数据保存在基于磁盘的可更新表中,可以直接在S3存储桶上创建Vora表:
SAP HANA Academy–Vora 2.0:连接到S3存储桶
如前所述,在本演示中,HANA内存引擎提供了两个相关功能:
无需数据复制即可虚拟访问Vora表图片:Vora表连接到SAP HANA作为远程源图形化建模,将交易数据与业务数据或主数据相结合。
在本演示中,将添加有关上市公司的附加信息,以供以后的SAC可视化。
图片:基于远程数据的计算视图,合并了公司信息。
对于本演示,将显示11月15日的文件夹和交易数据文件加载并可视化。
第一个可视化是每分钟的基本时间序列或折线图:
图片:交易量折线图
下一个图表比较SAP份额每分钟的开始和结束价格:
和一个基本分析,以根据交易量和价格变化确定异常值:
上午11月15日国际零售控股公司在整体交易量中占有很大份额:
本博客和演示的目的是演示基于公共数据集的几个SAP分析体系结构组件之间的即插即用式集成是如何在实践中发挥作用的。
我的博客强调了什么透视:
无需下载或安装,好评返现,此演示仅使用web浏览器作为IDE构建除了Java脚本中的几行代码外,演示是以图形方式实现的,。DH管道是一个很好的工具,大数据网,可以可视化地建模数据流,这些数据流结合了Kafka、SAP或基于云的对象存储等技术Vora与saphana相结合,使得具有关系数据库或SQL背景的用户可以访问这些数据最后,使用SAP Analytics Cloud(SAC)向更多的读者提供相关信息