全站加速_哪家网站建设_9元

小七 2019年10月25日 21:23 141 0

使用DeepIQ DataStudio和Databricks进行工业物联网分析

贝恩公司（Bain&Company）最近的一项调查显示，超过30%的工业企业关注信息技术和运营技术（IT&OT）的整合。麦肯锡公司最近的另一份报告指出，70%的公司仍处于工业分析项目的"试验炼狱"模式，例如使用工业物联网（iiot）和工业物联网设备来降低成本和/或提高运营效率。显然，工业分析的实施不是一项简单的任务——无论是it&OT数据集成，还是为预测性维护或资产优化目的构建机器学习（ML）模型。DeepIQ DataStudio是一款面向工业用户和物联网应用的自助式分析工具，由Databricks提供支持，使在IT上构建分析管道变得简单。通过DataStudio在Databricks上本机运行，您可以：在几分钟内构建和部署复杂的分析管道，无需编程使用云的分布式计算能力，使用Databricks获得50倍的性能提升自动缩放存储和独立计算工业数据量：从KB到PB利用OT数据的丰富本地分析库来构建准确的预测模型使用内置连接器接收、处理和分析任何操作数据源，例如：历史学家和SCADA系统（例如DeepIQ ISV合作伙伴OSIsoft PI和Asset Framework）关系数据源（如AP工厂维护（PM）和SAP制造智能与集成（SAP MII）地理空间数据用户友好的拖放功能，再加上内置的复杂数学函数，使您能够轻松地管理数据—从数据清理到合并多个数据流，再到数据处理，再到构建有监督和无监督的机器学习（ML）模型。制造业用例：提高工业烘干机的使用寿命工业干衣机通常用于许多行业，包括化工、食品和饮料、纸张和纸浆、农业和塑料。与其他任何加工设备一样，需要对干燥器进行维护，以减轻可能导致重大损失的意外故障。预测性维护计划可帮助您根据干燥机各部件的实际情况维护设备，从而降低运营成本。工业干燥机常见的故障部件有耳轴轮和轴、滚筒轮胎、耳轴轴承和密封件。图1：典型的工业烘干机在这篇文章中，我们提出了耳轴轴承的预测维修使用ML模型丰富的传感器数据。我们开始以可扩展、可靠的Delta存储格式从osoft PI系统摄取历史时间序列传感器读数。然后，我们使用运行在数据块上的简单拖放管道，从SAP工厂维护系统中提取维护报告数据，丰富机器对机器的传感器读数。最后，我们对数据进行分析，识别异常，并建立预测性维护维护维护模型，以便在故障发生之前进行故障检测。步骤1：数据整合我们首先将Pi系统的Asset Framework（AF）服务器与DataStudio连接起来，然后将感兴趣的干衣机的所有时间序列标签摄取到Delta湖中。DataStudio的拖放界面使创建强大的数据接收和整合管道变得容易。图3:DataStudio工作流：SAP BAPI到Delta Lake传统的时间序列中存储大量历史数据的成本很高。Delta Lake是一种开放源代码存储格式，通过为流式和批量大数据源提供统一、符合ACID的、极快的存储位置，驻留并增强了云对象存储（例如Azure Data Lake或Amazon S3）的功能。它是针对时间序列数据摄取、处理和训练模型的推荐存储格式。使用DataStudio，查询OSIsoft piaf是一项简单的任务。一旦配置了AF服务器的详细信息，我们只需要指定资产的根元素、标记和感兴趣的时间范围–DataStudio处理剩余的复杂任务。让我们收集标签的数据，这些标签测量的是进入三角洲湖的干燥器的所有轴承的固体和液体速率、环境温度和湿度以及干燥器的旋转速率。由于轴承振动是在一赫兹频率，每个轴承将有超过1.5亿数值！我们的许多客户接收了成百上千的标签，产生了PB的数据。DataStudio通过在自动伸缩Databricks集群上本机运行来实现这种规模。类似地，让我们从sapm中提取干燥器故障日期。在DataStudio中，我们提供了要查询的sapbapi的参数，然后数据就可以使用了。第二步：数据处理使用DataStudio的数据可视化工具，我们注意到很少有意外的高值和低值以及可能丢失的读数，这些值是由SCADA系统自动填充的。这些异常值可以通过DataStudio中的MAD离群值算法过滤掉。（a）异常值移除前（b）剔除异常值后图4：异常值移除时间序列（a）之前和（b）之后我们现在注意到极高频率的噪音，混淆了传感器读数中的一些信号。让我们运行一个指数平滑算法来滤除频率噪声。图5：平滑数据我们现在可以将SAP的故障日期叠加在时间序列数据上，以查看是否有任何单变量信号具有故障的直接特征。第三步：数据分析我们使用自动生成神经网络将数据映射到低维，并再次查看故障日期与时间序列图。其中一个隐藏的维度看起来有很强的失败信号，因为它在失败前显示出显著的下降。图6：自动生成神经网络模型的编码特征图，覆盖故障日期通过在其他失败之前验证这种趋势的存在，我们了解真实的负利率。许多故障至少在灾难性故障发生前2天出现这种退化。为了改进我们的分析，让我们开发一个有监督的机器学习模型来预测故障。第四步：机器学习我们注意到，大约在失效前2天，编码液体速率的残差开始显著升高。为了检测提前期内的故障，我们将训练一个ML模型，以便在正常操作条件下使用其他标签作为特征来预测该标签的值。当我们的标签在未来2天的预测值超出正常操作条件时，我们可以发出预测故障的警报。图7：异常得分（残差）步骤5：模型部署和监控我们现在可以以批处理或流式模式执行ML模型，只需将其添加到DataStudio中的管道中即可生成智能警报。警报基于与当前操作条件的预期值的偏差。随着新数据的生成，分析工作流将继续使用我们定义的度量来监控模型性能。可以安排培训工作流定期重新培训模型，以确保模型使用最新的故障数据是最新的。最后，任何可视化软件，如Spotfire、Tableau或PowerBI都可以用于近乎实时地可视化可操作的见解。下一步：开始我们展示了在Databricks上使用DataStudio构建数据接收、清理、处理和分析管道的易用性。通过与Delta Lake的本地集成，DataStudio提供了PB级的数据管道和机器学习。期待即将到来的Databricks网络研讨会，我们将在这里展示DataStudio的实际应用！如果你想了解更多关于这篇博文的信息，或者想开始一个试点项目，请访问https://deepiq.com或伸出援手info@deepiq.com。你可以在LinkedIn上关注我们https://www.linkedin.com/company/deepiq16。免费试用Databricks。今天就开始吧

本文地址： /zhuji/2980.html