亚马逊云_hgmd数据库_学生机

小七 2019年10月25日 21:23 141 0

欢迎来到PAi和S/4Hana博客系列的第四部分。从本系列之前的博客来看，您应该熟悉在S/4Hana中维护模型。尽管还有一个悬而未决的问题，但我如何处理自己的预测情景？

在本期中，我们将回答这个问题。我们将使用预测场景"材料过期-在途库存"作为参考，低价的云服务器，为各种任务提供示例和直觉。阅读后，您将了解，有能力和信心开始为您的预测情景创建和培训预测模型，进入令人兴奋的预测世界，使用PAi。

预测情景的生命周期可分为以下步骤，步骤2-5反复多次，直到产生合理的结果。

图1：预测场景生命周期

对于本期，我们将重点介绍步骤1、2和3。步骤4包含在前面的一期中，步骤5将在后面的部分中介绍。

预测场景定义

图2：预测场景定义

一旦定义了预测场景，您可能会知道预测场景是分类问题还是回归问题。这看起来很清楚，例如，在途库存预测场景是确定交货是否会延迟，给出使用分类算法的初步直觉。对这种直觉要谨慎，保留算法选择/解决方案方向，什么是大数据分析，直到我们对数据有更深入的了解。

数据探索

图3：数据探索和预处理

尽管可能存在解决预测场景的方法的直觉，要知道这种直觉是否合理，唯一的方法是探索和理解与预测情景相关的潜在历史数据，这一阶段称为数据探索。

在进行预测情景时，我们需要了解数据。这意味着研究潜在的数据结构，了解所有列的含义以及它们与预测情景的关系。根据表格的大小、它们之间的关系以及如何检索信息，这可能需要相当长的时间。

事实上，对于科学家来说，这是花费时间最多的地方。对模型训练所用的数据有很强的理解是至关重要的，确保它的质量。在这个领域你经常听到的一句话是"垃圾输入，垃圾输出"。

值得注意的是，如果数据表示多个联接的表，物联网技术与应用，并不一定意味着每个表中的所有列都将被包括在模型训练中。相反，数据的一个子集将被选择使用，这个子集通过与利益相关者讨论，可以加快选择的速度，根据他们的领域知识，可以突出几个潜在的重要和有意义的特征。这通常是一个很好的起点。

此外，随着我们的理解发展，这可能会导致重新评估我们对如何最好地解决问题的最初感觉。这样的重新评估可能会导致完全改变要预测的目标值，并从使用分类转换为回归算法。这并不少见，这也是为什么早期避免偏误自己很重要的原因事实上，目标的定义是用例中一个重要的部分，需要特别注意。在确定目标时，需要牢记底层的用例数据。这种方法的一个原因是确保历史数据中包含的信息能够被最好地用来解释目标关于定义目标变量的帖子将是下一篇文章的重点。

了解数据、确定的目标变量以及为预测场景选择的算法，我们现在可以开始从数据中提取额外的信息。这增加了模型学习规则对目标产生合理预测的能力，通常称为特征工程的过程。

特征工程

图4：特征工程

预测场景算法的成功通常取决于输入算法的基础数据的质量，这包括工程特征，特征工程包括两个部分，第一部分是对待解决任务性质的理解，第二部分是实验工作，在这里，你可以测试期望值，找出哪些有效，哪些无效。这是一个迭代过程，可以提高人们对问题和底层数据的理解。这种更深层次的理解通常会导致额外的实验，以及进一步的工程特性。我们将在改进模型的那一期中返回到这个迭代过程。

返回到在途库存预测场景，让我们考虑哪些特性将有助于生成合理的目标预测。请记住，这是一个旨在解释特性工程的过程和好处，它并不代表可能创建的特性的详尽列表。

从定义目标开始，目标变量定义为交货延迟天数–计划交货日期和实际交货日期之间的天数。在探索和理解历史数据时，我们发现存在以下特征：

订单创建日期–下订单日期计划包装日期–计划包装订单的日期实际包装日期–订单包装发生的实际日期计划发货日期–订单计划发货的数据实际包装日期–订单发货的实际日期计划交货日期–计划交货日期实际交货日期–实际交货日期

由于创建新记录时不知道实际日期，大数据存储技术，淘客猪，因此实际日期被丢弃。此外，通过与利益相关者的虚构讨论，计划包装日期被确定为可选日期，因此，我们避免将其用于任何功能工程。利用此信息，我们创建以下功能：

daysBetween订单创建计划发货：=daysBetween（订单创建日期，计划发货日期）daysBetween订单创建计划交付：=daysBetween（订单创建日期，计划交付日期）daysBetween计划发货计划发货：=daysBetween（计划发货日期，计划发货日期）

通过设计这些功能，我们已经完成了初始迭代，现在准备将数据拆分为培训、验证和测试数据集，以便培训和验证我们的模型。

本文地址： /shujuku/69900.html