云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名解析_百度云服务平台_年度促销

小七 141 0

一个典型的数据科学故事从一个业务用例开始,在这个用例中,物联网学什么,专家们对如何改进他们的流程感兴趣,无论是增加利润、降低成本、早期发现、更好的系统可用性还是提高客户满意度。不管是什么原因,第一步是收集一些数据。

在现实世界中,数据集不能从Kaggle或其他网站下载数据.gov但这些信息是通过公司可以访问的不同筒仓收集的。这些数据通常保存在各种系统中,大数据平台,如SAP Hana、SAP Vora、ERP系统,以及各种文件系统中,如HDFS、S3、WASB等,并可能以不同的格式显示,如Parquet、ORC、Avro和CSV。对于将数据保存在本地、云中或两者兼而有之,公司有不同的看法。我认为数据科学家面临的挑战是如何将所有数据整合在一起,并无缝地跨数据工作。

另一个挑战是,真实的数据并不总是干净的,随时可以处理。据《福布斯》报道,数据科学家将60%的时间花在数据清理上。同样的研究报告显示,76%的数据科学家认为数据清理是他们工作中最不愉快的部分。数据的缺失、异常、规范化、采样、数据标准化、重复数据消除和丰富等都会耗费数据科学家的时间,在数据清理后,用户需要建立代表数据的数学模型,对数据进行聚类或寻找一些规则,并提出一个能够预测未来行为的系统,或者提出一些建议。

当然,如果模型足够好,我们应该考虑将其用于看不见的和新的数据集,并确保它符合其目的;无论是预测,早期发现或其他。如果模型的精度下降到某个阈值以下,平台能够代表我们监控质量,收到警报就太好了。一般来说,操作化在基于机器学习的开发和维护中起着重要的作用,包括但不限于控制访问策略、安全性、编排、管理和维护等主题,计划和管理。

数据科学流程

本博客的目的是分解与数据科学相关的任务,并演示SAP Data Hub如何在完成每项任务时发挥作用,并提供有助于实现这些任务的功能。

同时访问多个数据源:

SAP Data Hub提供数据科学家使用灵活的工具来接收、准备和处理数据。例如,在sapdatahub中,您可以使用Vora工具中的可视化工件从不同的系统中读取数据。Vora是sapdatahub的分布式执行引擎,它为最常见的"大数据"类型(如时间序列、JSON集合、图形、磁盘存储、流表和内存中的关系数据)提供了专门的存储和处理引擎。您还可以使用分区功能跨集群对数据进行分区。

在Vora Modeler中创建不同的表类型和视图

使用Vora Modeler从支持的文件系统和文件类型(如Avro、Parquet、,大数据概念,CSV和ORC

Pipeline modeler是SAP Data Hub产品组合中的另一个有用工具,它为一些运营商提供了与Vora和BW等不同来源的本地连接。您还可以连接到智能数据集成(SDI)和数据服务(DS),从多个服务进行读/写操作。请参阅DS产品可用性矩阵(幻灯片20-31)和SDI产品可用性矩阵(幻灯片11-18)以获取这些服务和兼容版本的列表。

一些预定义的数据接收操作员

数据发现、准备,充实

当你把所有的数据放在一个地方后,预处理阶段就开始了,在那里你必须清理、提炼、充实、采样或规范化你的数据。如果您需要搜索您的数据集,无论其来源如何,您都可以使用SAP Data Hub Cockpit中的元数据管理功能。

对于交互式数据清理,请使用SAP Agile Data Preparion。ADP为您提供"读取Hana计算视图"、"向列添加公式"、"聚合数据"、"替换空值"、"添加列"等功能。有关ADP的更多信息,请参阅此处。

SAP ADP:交互式数据操作和丰富

如果您的数据位于Vora中,请使用Vora Modeler进行数据丰富和探索。有关Vora modeler的更多信息,请点击此处(SAP Vora Tools and Data Modeling with SAP Vora chapters)。

即使您是喜欢编写脚本来清理数据的数据科学家之一,您也可以连接到Zeppelin笔记本,或者在管道中添加Java脚本、Python或R操作符来编写自己的代码。要了解如何操作,请关注此博客。

使用管道引擎对数据预处理进行编码

连接到齐柏林飞艇笔记本上玩数据

使用管道对图像进行预处理

数据可视化

数据可视化可以提高您对问题的理解和解决方案的有效性。它有助于比较不同的组、显示和发现连接、发现异常、发现趋势、突出显示某些数据与其他数据的对比等等。

使用data Hub Cockpit在data Discovery中可视化您的数据,以访问元数据、分析或预览数据或运行简单的筛选。使用Jupyter或Zeppelin笔记本导入matplot、ggplot2或任何您喜欢的库,以使用R或Python可视化您的数据。如果您的数据驻留在Vora中,请使用Vora modeler可视化时间序列、图形、集合或关系数据。

使用Vora工具可视化您的数据,Zeppelin或Jupyter笔记本

数据处理和建模

根据您试图解决的问题,您可以从数据中提取特征或运行机器学习算法,用于分类/回归、聚类、时间序列、推荐、降维等

在Data Hub中使用SAP Leonardo进行特征提取Pipeline