任何形式的统计分析都围绕着一个生命周期展开,这个生命周期从数据收集开始,朝着划分、清理、可视化、分析、执行假设检验的方向发展。在整个生命周期中,数据科学家将大部分时间用于清理数据。众所周知,用不正确的数据进行下游分析往往会导致错误的结果。在这个博客中,我解释了异常值校正方法,这是IBP需求计划中使用的数据清理技术的一种形式。
IBP-2011更新
在IBP中,有三种方法执行数据清理
,我将介绍异常值检测和校正部分,这是在执行下游分析之前要完成的预处理步骤之一。
"异常值"是历史数据中超出可接受值范围的值,云计算与大数据,也称为公差车道(超出上下限)。在包含数据输入错误的数据集中存在异常值可能有多种原因,由于社会经济因素等引起的突发峰值
IBP中异常值的处理技术
I.异常值检测方法:(普通)
异常值检测方法有助于从巨大的数据集中识别潜在的异常值,如果无法识别,可能会对预测数据产生剧烈的变化。以下是检测IBP中异常值的两种方法
四分位距检验(IQR)方差检验
四分位区间检验(IQR)
系统检查数据点是否在四分位区间内,即数据的第三个四分位和第一个四分位之间的差值。不在此范围内的值被识别为异常值。
通常,解释四分位间距的最佳方法是使用方框图技术。
在这种方法中,根据数据集中存在的值将数据分为四个四分位(Q1、Q2、Q3、Q4)。然后取第三个四分位数和第一个四分位数之间的差值得到四分位数区间(IQR)。(IQR=Q3–Q1)。
要使用四分位距法检测异常值,系统使用第一个(Q1)和第三个(Q3)四分位数计算下限和上限:
下限=Q1–乘数×IQR
上限=Q3+乘数×IQR
乘数通常根据业务需求定义在1.5-3.0之间。
IBP配置:
应用管理预测模型->预处理步骤->异常值校正
方差检验
方差通常被解释为数据集中值的扩散,这意味着一个数据点从平均值扩散了多少。
系统检查数据集中的数据点(历史数据)是否偏离平均值超过标准偏差乘以常数。偏离平均值较大的值被识别为异常值。
要使用方差检验方法检测异常值,系统使用历史数据的平均值和标准差(SD)计算下限和上限:
下限=平均值–乘数×SD
上限=平均值+乘数×SD
超出此公差范围的值被视为异常值。乘数影响异常值检测的灵敏度;使用较低的乘数值将倾向于将更多的历史值检测为异常值,物联网门锁,因此,根据业务需求再次选择正确的乘数起着重要作用。
异常值校正方法(普通)
使用上述方法,可以从数据集(历史值)中识别出潜在的异常值,现在有必要使用以下任何一种方法根据业务需求
IBP配置:
应用管理预测模型->预处理步骤->异常值修正
IBP中有六种异常值修正方法
剔除异常值平均修正
系统将异常值替换为历史期间所有关键数字值的平均值,不取异常值计算时要考虑异常值。这是默认的异常值校正方法。
平均值校正
系统用为历史期间计算的所有关键数字值的平均值替换异常值。
不含异常值的中间值校正
系统用为历史期间计算的所有关键数字值的中间值替换异常值计算时不考虑异常值。
用中值修正
系统用历史期间计算的所有关键数字值的中间值替换异常值。异常值被排除在计算之外。
带公差修正排除异常值
系统不考虑异常值而重新计算公差区间,并更改异常值,使其处于新公差区间的极限。
带公差修正
系统重新计算公差间隔并更改异常值,使其处于新公差间隔的极限。
无校正
这不是一种异常值校正方法,返利怎么使用,而只是一种仅用于信息目的的异常值检测。
场景1:带公差的IQR方法检测和校正
输入KF实际数量
输出KF-实际数量调整后
历史期间:11周
IQR法异常值检测计算:
实际数量调整KF异常值生成的输出
场景2:差异法检测和容差修正
输入KF-实际数量
输出KF-实际调整数量
历史期间:11周
运行11周历史法统计预测
二、 离群值修正方法(趋势和季节性)
1.无修正
此方法仅供参考。如果我们选择此方法,则不会校正任何异常值。
2.季节性和趋势调整
考虑到季节性和趋势模式,使用平滑窗口内数据计算的移动平均值校正异常值。该方法考虑了时间序列的季节性和趋势性,对异常值进行了修正。执行统计预测算法后,校正后的异常值将在"管理预测自动化配置文件"应用程序
3的所选关键图和更改点中更新。对季节性和趋势的调整具有公差
使用公差范围方法计算异常值。但这里唯一的区别是,在执行离群值校正之前,系统还考虑了所选数据内的趋势和季节性。
平滑窗口
它是离群值校正算法中使用的一个子集大小,用于确定必须确定数据集中移动平均数的时段数。