几周前,我描述了sapdatahub的安装过程。今天,我将展示一个示例用例—将SAP ERP数据提取到Azure data Lake存储,并使用Microsoft PowerBI将其可视化。我不认为需要更多的介绍-让我们直接跳到配置!
提供数据湖存储
Azure数据湖是用于大数据分析的高度可扩展且经济高效的存储解决方案。您可以使用它从各种源捕获数据,无论它们的结构如何。该存储是Azure平台即服务产品的一部分,具有高可用性,可以存储数PB的数据。与Microsoft PowerBI一起,他们为数据分析和探索创造了一个伟大的解决方案。
让我们从创建服务主体开始,这是一个特殊的安全标识,当流程没有被任何人执行时,用于服务对服务通信。sapdatahub将使用这些凭证将文件写入datalake存储。我准备了一个PowerShell脚本,它创建了服务主体并列出了连接配置期间需要的所有参数:
Azure Data Lake存储的配置过程非常简单。在Azure门户中,找到数据湖存储并选择所需的名称和资源组。就这些!
几分钟内,资源配置完毕,可以进行ACL配置。azuredatalake使用POSIX访问控制模型。存储器中的每个对象都有三个权限:读、写和执行。SAP Data Hub将使用先前创建的服务主体将数据写入存储,因此我们需要授予正确的权限。
打开Data Lake blade并转到Data Explorer。单击Access并选择Read/Write/Execute permissions。请放大以下图片以供参考:
Azure配置完成。您可以登录到SAP Data Hub租户。
在SAP Data Hub中创建连接
连接配置是一个简单的过程。首先,真正云服务器,打开连接管理磁贴。
我准备了两个连接:一个用于我的SAP NetWeaver系统,一个用于Azure Data Lake。
Data Lake Connection中的帐户名是您之前选择的Azure Data Lake名称。
保存条目后,执行连接测试。
构建管道
返回SAP Data Hub主屏幕并打开Modeler。单击+按钮创建一个新图形。我们的管道不会很复杂-我们只需要三个元素:
SAP ABAP ODP Object-连接到SAP并读取数据Flowagent文件生成器–将文件写入Azure Data Lake图形终止符–要完成任务
每个组件都需要配置。在sapabapodp对象中,选择应该使用的连接,并选择要从哪个对象获取数据。我使用的是EPM示例数据模型,我选择了SEPM\u IPRODUCT对象,它将为我提供有关产品目录中项目的详细信息。
在Flowagent设置中,选择ADL作为存储类型,并选择与Azure data Lake的连接。您还可以决定文件格式和保存位置。
您现在可以保存并执行图形。几秒钟后,状态变为正在运行。SAP Data Hub在Kubernetes集群中创建了一个新的pod来处理任务。
您可以在Kubernetes中看到pods的状态(您真的不必这样做,看云,我只是在您好奇的情况下发布它?):
执行图形不到5分钟。您可以使用存储资源管理器验证文件的存在:
在MICROSOFT POWERBI中分析数据
老实说,直接从CSV文件中读取数据不是最好的主意。你可以使用它,南昌大数据,如果文件很小,你知道你在找什么。但对于大型数据集来说,使用某种分析软件是一个更好的主意。我使用了一个免费的microsoftpowerbi版本,这是一个创建数据可视化表示的简单方法。今天,我将通过创建一个包含产品类别中产品数量的示例图表,中移物联网,向您展示PowerBI的一小部分功能。安装软件后,单击菜单中的获取数据按钮并选择Azure Data Lake:
在下一个窗口中输入Data Lake URL:
您将被要求登录(使用您的个人凭据,返利,而不是服务主体):
SAP Data Hub创建的文件将被自动检测,因此,我们只需单击"加载"按钮来确认:
现在只需单击几下即可格式化数据(是的,PowerBI会自动执行),并且我们可以看到文件内容:
在报表生成器中选择图表类型,这几乎就是我们所要做的。获取数据和创建可视化的整个过程只需几分钟–我认为这比Excel更容易(但图表看起来更好)
您可以保存报告,并在数据刷新后再次使用它!我将另外写一篇关于PowerBI功能的文章,所以如果您感兴趣,请不要忘记在SAP社区和LinkedIn上关注我,获取关于新文章的更新!