云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

文件存储_百度云有什么用_0元

小七 141 0

Azure上的现代工业物联网分析-第1部分

这篇文章和由三部分组成的关于工业物联网分析的系列文章是由Databricks和微软云解决方案架构团队的成员共同撰写的。我们要感谢Databricks解决方案架构师Samir Gupta和微软云解决方案架构师Lana Koprivica和Hubert Dua为本文和即将发表的两篇文章所做的贡献。工业物联网(IIoT)在过去几年中发展迅速,主要在石油和天然气行业进行试点,在制造业、化工、公用事业、运输和能源部门广泛采用和生产。传统的物联网系统如Scada、Historian甚至Hadoop都无法提供大多数组织所需的大数据分析功能,以预测性地优化其工业资产,原因如下。挑战所需能力数据量明显更大且更频繁能够从每天传输数TB数据的物联网设备可靠且经济高效地捕获和存储次秒级粒度读数数据处理需求更为复杂与ACID兼容的数据处理—基于时间的窗口、聚合、枢轴、回填、移位,能够轻松地重新处理旧数据更多的用户角色需要访问数据数据是一种开放的格式,可以方便地与操作工程师、数据分析师、数据工程师和数据科学家共享,而无需创建竖井决策需要可伸缩的ML能够快速、协作地训练基于粒度、历史数据的预测模型,以做出智能的资产优化决策降低成本的要求比以往任何时候都高低成本按需管理平台,可独立根据数据和工作负载进行扩展,无需大量前期资金组织正在转向云计算平台,如Microsoft Azure,以利用他们所提供的可扩展、支持IIoT的技术,这些技术使历史和SCADA系统等时间序列数据源的获取、处理、分析和服务变得容易。在第1部分中,我们将讨论端到端技术栈以及Azure Databricks在现代物联网分析的工业应用架构和设计中所扮演的角色。在第2部分中,我们将深入研究部署现代IIoT分析,将来自现场设备的实时IIoT机器对机器数据摄取到azuredatalake存储中,并直接在datalake上执行复杂的时间序列处理。在第3部分中,我们将研究机器学习和工业物联网数据分析。用例-风力涡轮机优化大多数IIoT分析项目旨在最大限度地提高工业资产的短期利用率,同时最小化其长期维护成本。在本文中,我们关注一个假设的能源供应商试图优化其风力涡轮机。最终目标是确定一组最佳涡轮机运行参数,使每个涡轮机的功率输出最大化,同时最小化其故障时间。本项目的最终成果是:一种自动的数据接收和处理管道,将数据流传输给所有最终用户在当前天气和运行条件下,估计每台涡轮机的功率输出的预测模型在当前天气和运行条件下估计每个涡轮机剩余寿命的预测模型一种优化模型,它确定最佳运行条件,以最大限度地提高功率输出,并使维护成本最小化,从而使总利润最大化为管理人员提供的实时分析仪表板,用于可视化其风电场的当前和未来状态,如下所示:架构-摄取、储存、准备、训练、服务、可视化下面的架构说明了一个现代的、同类最佳的平台,许多组织都使用它来利用Azure为IIoT分析提供的所有功能。这种架构的一个关键组件是azuredatalakestore(ADLS),它支持Azure中的一次写入、经常访问的分析模式。然而,仅数据湖并不能解决时间序列流数据带来的现实挑战。增量存储格式为存储在adl中的所有数据源提供了一层弹性和性能。对于时间序列数据,Delta比ADL上的其他存储格式具有以下优势:所需能力ADLS Gen 2上的其他格式ADL Gen 2上的增量格式统一批处理和流式处理datalakes通常与CosmosDB这样的流式存储结合使用,导致了一个复杂的体系结构与ACID兼容的事务使数据工程师能够在adl上的相同位置执行流式接收和历史上的批处理加载模式实施和演化datalakes并不强制实施模式,它要求将所有数据推送到关系数据库中以提高可靠性默认情况下,架构是强制的。随着新的物联网设备被添加到数据流中,模式可以被安全地演化,这样下游应用程序就不会失败有效的提升点数据湖不支持联机更新和合并,需要删除和插入整个分区来执行更新合并命令对于处理延迟的物联网读数、用于实时浓缩的修改维度表或需要重新处理数据的情况非常有效。文件压缩将时间序列数据流到数据湖中会生成成百上千个小文件。Delta中的自动压缩优化了文件大小,以提高吞吐量和并行性。多维聚类数据湖只在分区上提供下推过滤在时间戳或传感器ID等字段上的ZORDERing时间序列允许数据块在这些列上进行过滤和连接,速度比简单的分区技术快100倍。摘要在这篇文章中,我们回顾了传统IIoT系统面临的一些不同挑战。我们介绍了现代IIoT分析的用例和目标,共享了一个组织已经在大规模部署的可重复架构,并探讨了Delta格式对每个所需功能的好处。在下一篇文章中,我们将从现场设备摄取实时IIoT数据到Azure中,并直接在datalake上执行复杂的时间序列处理。把一切联系在一起的关键技术是三角洲湖。Delta-on-ADLS提供可靠的流式数据管道和高性能的数据科学和对大量时间序列数据的分析查询。最后,它使组织能够真正采用湖边模式,将同类最佳的Azure工具带到一次写入、经常访问的数据存储中。下一步是什么?通过这个由三部分组成的培训系列了解更多关于Azure数据库的信息,并通过参加本次网络研讨会了解如何创建现代数据体系结构。免费试用Databricks。今天就开始吧