云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

微软云_给你种颗小草莓百度云_9元

小七 141 0

在SAP Analytics Cloud(SAC)Smart Predict中,您可以创建三种类型的预测场景:

时间序列回归分类

几个月前,我写了一篇博客,详细介绍了从时间序列数据创建预测模型的步骤。

通过这个博客,我现在将解释如何创建分类预测模型。分类用于根据事件发生的概率对总体进行排序。例如,我的客户中有谁会对我的营销活动做出积极的反应。

所有企业都会面临有关其客户、其工业资产或营销活动即将举行的活动的问题。商业生活由以下事件组成:客户流失/不流失、失败/不失败、销售/不销售、延迟/准时列出最常见的事件。分类就是这样做的:将一个事件发生的概率与人口中的每个实体联系起来。

预测一段时间内的价值是必不可少的,可以获得对商业价值演变的估计。但是它没有提供关于个人行为的信息(搅和者的情况如何?)。时间序列预测算法也可能无法生成预测。在这种情况下,分类可能是估计未来事件发生率的解决方案。

为了帮助您了解如何利用SAP Analytics Cloud Smart Predict中的分类预测模型,我将首先解释您可以解决的分类预测模型问题类型。然后,我将以一个用例来解释如何在Smart Predict中构建分类预测模型。最后,大数据与数据挖掘,我将通过不同的工具帮助您评估预测模型的准确性,并决定是否使用它。

智能预测分类有助于回答这种形式的问题:

"谁有可能下一个?"

以下是一些例子:

下周谁可能会买这个产品?明年谁有大概率造假?下个月谁肯定会搅局?

为了对一个群体进行排序,智能预测中的分类预测模型生成一个方程,预测事件发生的概率。它现在只能处理二进制情况。但是在深入研究分类的细节之前,先检查一下你的数据是否可以用来建立一个可靠的预测模型,数据的质量对于建立一个可靠的预测模型非常重要。在建立分类预测模型时,有必要准备最能代表您的应用领域和预测目标的历史数据。这意味着您必须:

选择一个数据源。选择最能描述您的用例的变量。也许有必要使用基于现有变量的公式创建新变量,或者将一些变量聚合在一起。由于您对应用程序领域的了解,您可以做到这一点。

这些变量在数据集中必须是唯一的。

在数据集准备过程中,可能需要过滤数据以丢弃那些对您的用例没有帮助的数据。例如,如果你想预测那些可能流失的客户,过滤那些已经流失的客户是必要的!如果保留这些变量,总体将是错误的,预测也将是错误的。

在数据集中可用的变量中,有一个变量具有特定的角色:目标变量,它表示要预测的事件。例如,在客户流失检测用例中,目标变量是客户流失或留下的决定。

让我们以一个典型的人力用例来说明下一部分的解释:人力资源经理希望改进他/她的公司的人力资源政策。目标是:

提高员工满意度,减少辞职,降低培训成本,增加新员工,以及雇佣更好的人才。

Smart预测的目标是:

培训数据集有8000行和43个变量来描述员工。有几种变量类型:

关于员工:员工ID、年龄、工作家庭、工作职位、地点、他/她是否是经理、薪水、…关于风险:这是一个关键的工作角色吗?损失的风险有多大?损失有什么影响?他/她是否被视为未来的领导者?…关于员工绩效,他/她的绩效评级,他/她是否被视为接班人…最后,最后一个变量表示员工是否有飞行风险。它的可能值为1表示将要流失的员工,0表示将留下的员工。

图1:飞行风险用例数据集

关于智能预测分类的理论解释

了解智能预测如何生成分类预测模型,以及汇报中给出的信息是什么,有必要进行一些理论上的解释。目的不是给你一个正式的课程,而是向你展示主要的原则。

智能预测的分类引擎基本上依赖于结构风险最小化(SRM)原则。你可以参考这个定义和本文得到数学解释。

SRM原理是找到并指出能够再现目标行为的最佳函数。

图2:SRM原理

找到这样的函数(或预测模型)是一回事。下一个问题是:什么是好的预测模型?

如果曲线"f"穿过所有点,则预测模型拟合过度,无法正确预测新病例。反之,如果预测模型过于简单,则拟合度不够。一个好的预测模型是两者之间的折衷。函数类的复杂性称为VC维。用于确定最佳预测模型。

图3:什么是好的模型?

简而言之,这是基于4个原则: