网站空间_享云服务器_好用

小七 2019年10月25日 21:23 141 0

准备数据可能是一项乏味而耗时的工作，而且有些分析师没有花足够的时间来做这项工作。常用的初始方法之一是检查数据的分布并检测异常值。根据要使用的算法类型，数据分布可能会影响模型的准确性，因此，如果使用R或SAP HANA Predictive Analytics Library（PAL），则必须考虑数据的"偏度"，并进行相应调整。在今天的博客中，我将回顾一下我所说的歪斜数据的含义，以及为什么转换它如此重要，主机，"偏度"是对数据分布的非对称性的一种度量，它基本上衡量了分布的"均衡程度"。

右偏数据

直方图a显示了一个"右偏"分布，它有一个长长的右尾。右偏分布也称为"正偏"分布。那是因为正方向有一条长尾。平均值也在峰值的右边。少数较大的值使平均值向上，但并不真正影响中位数。所以，当数据右倾时，平均值大于中位数。

右倾的常见例子包括：

人们的收入二手车销售里程房价保险客户的事故索赔数量家庭中的孩子数量

右偏比左偏更常见，云服务器特价，尤其是货币型变量。右偏导致平均值不能代表变量的典型值，这就是为什么经常使用中位数而不是平均值的原因。

左偏数据

直方图B显示了一个"左偏"分布，有一个长长的左尾。左偏分布也称为"负偏"分布。那是因为在负方向有一条长尾。平均值也在峰值的左边。少数较小的值使平均值下降，云零售，中位数的影响也很小（如果有的话）。当数据偏左时，平均值小于中位数。

现实世界中偏左的例子较少：

一是学生用来参加考试的时间（一些学生走得早，更多的学生留得晚，很多人留到最后）死亡年龄在发达国家呈负偏态

对称数据

图中直方图C显示了对称数据的一个例子。对于对称数据，平均值和中位数很接近。这可以用正态分布（"钟形"曲线）来表示，它是平衡的，没有倾斜。

倾斜数据的检测是一个非常重要的考虑因素，取决于您选择使用的算法类型。一些算法所作的假设之一是关于数据的正态分布，其中数据关于平均值是对称的。

例如，线性回归、k-近邻和k-均值算法对数据的偏斜非常敏感。这些算法假设变量具有正态分布，显著偏离这一假设会影响模型精度和模型解释。例如，当数据具有正偏斜时，分布的正尾将产生具有"偏差"的模型，其中回归系数和变量的影响比数据具有正态分布时对偏态分布的尾更敏感。

这可以用简单的线性回归来证明。此算法通过计算数据点和趋势线之间的误差平方来拟合最佳模型。

在上图中，您可以看到异常值为300的x轴值的误差为70个单位。记住回归模型计算误差的平方，所以这个值对模型有很大的影响

如果去掉这个偏斜的值，那么模型是完全不同的，这可以从直线的方程（如红圈所示）：

为了最小化误差的平方，回归模型试图使直线更接近绘图右端的数据点，这使得该数据点对直线斜率产生不成比例的影响。

除了线性回归之外，聚类方法（如K-Means和Kohonen）使用欧氏距离来计算数据之间的平方和点，云服务器厂商，因此倾斜具有相同的不成比例的效果。其他算法，如决策树，不受偏态的影响。

在建立模型之前转换偏态分布

这就是为什么数据科学家花费大量时间转换数据，什么是数据中台，使偏态分布在建立模型之前变得更像正态分布。理想情况下，对于大多数建模算法，歪斜校正的期望结果是正态分布变量的新版本。

对于正歪斜，常用的校正方法是对数变换、乘法逆和平方根。它们通过减少较大的值和减少较小的值来操作。对于负偏斜，通常使用幂变换（如平方、立方体或更高的幂）。

然而，试图用这些变换解释模型，并向客户解释为什么变量的对数比实际值更可取，可能会很棘手。

因此，如果您使用一些常用的算法，如线性回归、k-近邻和k-均值，则检测倾斜和转换倾斜数据是至关重要的。

因此，如果您使用SAP Predictive Analytics expert mode、SAP HANA PAL或R，则不要忘记分析分布并在必要时转换数据。同样值得记住的是，如果使用SAP Predictive Analytics自动化模式，则不需要创建转换。我将在以后的博客中更详细地介绍这一点。

本文地址： /cunchu/75586.html