云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

香港服务器_淄博网站建设设计_安全稳定

小七 141 0

统计学家中有一句话叫"相关性并不意味着因果关系"。这是一个警告,不要妄下结论:两个变量a和B之间的相关性证明一个变量导致另一个变量。事实上,当:

a直接或间接地引起B时,可以观察到相关性B直接或间接地引起AA和B涉及循环因果关系(例如,猎物数量和捕食者数量)A和B有一个共同的原因C(比如冰激凌消费量的增加和森林火灾,都是由夏季的高温引起的)A和B不相关

在后一种情况下,相关性只是巧合,可能在未来的观测中消失观察到的相关性没有预测能力

预测分析的目的是分析过去或现在输入变量X1,X2,…,Xn之间的相关性,另一方面是目标变量Y。核心假设是,过去的相关性将在未来重现,服务器云服务器,因此,在过去训练的模型可以在未来用于从输入变量预测目标的可能值。如果观察到的相关性是由于涉及已知甚至隐藏变量的因果关系,那么这个假设是非常安全的,信息大数据,如果潜在的过程足够稳定,服务器云服务,相同的原因将继续产生相同的影响

虚假相关性和预测模型

但是如果训练数据中观察到的一些相关性只是巧合呢?在缺乏潜在因果关系的情况下,这种相关性很可能在未来消失。在今天的博客中,我们将讨论在建立预测模型时伪相关的危险,淘客软件,并给出检测和避免它们的线索。在第2部分中,我们将展示如何使用SAP Predictive Analytics Data Manager等工具,通过特征工程提取更稳健的预测因子。

有一种众所周知的情况,即变量很可能仅仅通过巧合而相互关联。1926年,G.Udny Yule写道:

"众所周知,我们有时会在随时间变化的量(时间变量)之间获得相当高的相关性,我们无法将其视为任何物理意义,尽管在普通测试中,这种相关性肯定是"显著的",为了说明这个问题,Yule举了一个例子,一方面是英国教会婚姻的比例,另一方面是死亡率之间的无意义的相关性,在英格兰和威尔士超过45年。

在1926年的开创性论文中,Yule用经验证明了具有恒定漂移的随机游动可能是相关的,尽管它们没有因果关系。

不相关变量之间的相关性

更一般地说,在两个非平稳过程之间也普遍观察到相关性,例如两个不相关的时间序列遵循平稳的趋势。泰勒•维根²收集了一些有趣的例子。

在没有因果关系的情况下,过去的相关性对预测一个变量与另一个变量的未来值几乎没有帮助。从2010年开始,人造黄油的消费量可能会继续下降,而离婚率又会回到高水平。

超越虚假的相关性

因此,考虑到虚假相关性的危险性,我们如何确保我们的数据分析足够正确以提供预测能力?在第2部分中,我们将深入到一个与业务相关的示例中,并展示如何避免可疑变量,而使用使用sapdatamanager计算的工程特性

,大数据运维