微软云_给你种颗小草莓百度云_9元

小七 2019年10月25日 21:23 141 0

在SAP Analytics Cloud（SAC）Smart Predict中，您可以创建三种类型的预测场景：

时间序列回归分类

几个月前，我写了一篇博客，详细介绍了从时间序列数据创建预测模型的步骤。

通过这个博客，我现在将解释如何创建分类预测模型。分类用于根据事件发生的概率对总体进行排序。例如，我的客户中有谁会对我的营销活动做出积极的反应。

所有企业都会面临有关其客户、其工业资产或营销活动即将举行的活动的问题。商业生活由以下事件组成：客户流失/不流失、失败/不失败、销售/不销售、延迟/准时列出最常见的事件。分类就是这样做的：将一个事件发生的概率与人口中的每个实体联系起来。

预测一段时间内的价值是必不可少的，可以获得对商业价值演变的估计。但是它没有提供关于个人行为的信息（搅和者的情况如何？）。时间序列预测算法也可能无法生成预测。在这种情况下，分类可能是估计未来事件发生率的解决方案。

为了帮助您了解如何利用SAP Analytics Cloud Smart Predict中的分类预测模型，我将首先解释您可以解决的分类预测模型问题类型。然后，我将以一个用例来解释如何在Smart Predict中构建分类预测模型。最后，大数据与数据挖掘，我将通过不同的工具帮助您评估预测模型的准确性，并决定是否使用它。

智能预测分类有助于回答这种形式的问题：

"谁有可能下一个？"

以下是一些例子：

下周谁可能会买这个产品？明年谁有大概率造假？下个月谁肯定会搅局？

为了对一个群体进行排序，智能预测中的分类预测模型生成一个方程，预测事件发生的概率。它现在只能处理二进制情况。但是在深入研究分类的细节之前，先检查一下你的数据是否可以用来建立一个可靠的预测模型，数据的质量对于建立一个可靠的预测模型非常重要。在建立分类预测模型时，有必要准备最能代表您的应用领域和预测目标的历史数据。这意味着您必须：

选择一个数据源。选择最能描述您的用例的变量。也许有必要使用基于现有变量的公式创建新变量，或者将一些变量聚合在一起。由于您对应用程序领域的了解，您可以做到这一点。

这些变量在数据集中必须是唯一的。

在数据集准备过程中，可能需要过滤数据以丢弃那些对您的用例没有帮助的数据。例如，如果你想预测那些可能流失的客户，过滤那些已经流失的客户是必要的！如果保留这些变量，总体将是错误的，预测也将是错误的。

在数据集中可用的变量中，有一个变量具有特定的角色：目标变量，它表示要预测的事件。例如，在客户流失检测用例中，目标变量是客户流失或留下的决定。

让我们以一个典型的人力用例来说明下一部分的解释：人力资源经理希望改进他/她的公司的人力资源政策。目标是：

提高员工满意度，减少辞职，降低培训成本，增加新员工，以及雇佣更好的人才。

Smart预测的目标是：

培训数据集有8000行和43个变量来描述员工。有几种变量类型：

关于员工：员工ID、年龄、工作家庭、工作职位、地点、他/她是否是经理、薪水、…关于风险：这是一个关键的工作角色吗？损失的风险有多大？损失有什么影响？他/她是否被视为未来的领导者？…关于员工绩效，他/她的绩效评级，他/她是否被视为接班人…最后，最后一个变量表示员工是否有飞行风险。它的可能值为1表示将要流失的员工，0表示将留下的员工。

图1：飞行风险用例数据集

关于智能预测分类的理论解释

了解智能预测如何生成分类预测模型，以及汇报中给出的信息是什么，有必要进行一些理论上的解释。目的不是给你一个正式的课程，而是向你展示主要的原则。

智能预测的分类引擎基本上依赖于结构风险最小化（SRM）原则。你可以参考这个定义和本文得到数学解释。

SRM原理是找到并指出能够再现目标行为的最佳函数。

图2:SRM原理

找到这样的函数（或预测模型）是一回事。下一个问题是：什么是好的预测模型？

如果曲线"f"穿过所有点，则预测模型拟合过度，无法正确预测新病例。反之，如果预测模型过于简单，则拟合度不够。一个好的预测模型是两者之间的折衷。函数类的复杂性称为VC维。用于确定最佳预测模型。

图3：什么是好的模型？

简而言之，这是基于4个原则：

本文地址： /shujuku/29835.html