云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

香港服务器_叛逆的鲁鲁修第二季百度云_怎么买

小七 141 0

理解辛普森悖论避免错误结论

博客每个人都想从他们的数据中获得更多,但如何做到这一点会让你挠头。我们的BI最佳实践揭开了分析世界的神秘面纱,并为您提供了可操作的操作指南。开始研究数据的最简单方法之一是按相关维度聚合您感兴趣的度量。例如,假设你想了解公司的收入,你可以按国家、产品、时间等进行分析。在大多数情况下,这种分析可以产生一些见解,这些见解可以随后转化为商业行动。然而,如果翻译得不好,也会产生错误的结果。这是怎么发生的?好的数据怎么会导致错误的结论?让我们从一个例子开始。你在一家冰淇淋公司工作,这家公司即将推出一种全新的特别版口味。经过多次会议和讨论,最终选定了两种口味的饼干:生姜和糖曲奇。只选择一种口味生产。你们部门做了一个调查,询问100个人是否喜欢姜汁冰淇淋,100个不同的人是否喜欢糖曲奇的味道。结果如下:喜欢小心翼翼的糖厨师62/100=62%54/100=54%根据你的第一次分析,很明显,姜是赢家(62%>54%)。然而,为了进一步研究数据,您决定将喜欢的分布细分为男性和女性:喜欢姜糖厨师12/37=32.4%45/90=50%女性50/63=80.6%9/10=90%奇怪的事情发生了!从性别的角度来看,我们可以发现男性和女性都喜欢甜饼口味而不是生姜。那么,在按性别细分数据时,我们如何得到完全不同的结果呢?这是Simpon悖论的一个例子,这是一种统计现象,当数据被分组时,趋势会逆转或消失,当数据被组合起来时。1951年,统计学家爱德华辛普森(edwardh.Simpson)首次提出了这一概念(尽管之前不同的人提到了类似的影响)。在我们的例子中,当数据被分成两组时,我们可以说两组都喜欢甜饼口味。但当数据结合起来,我们的结论就反过来了,似乎生姜更可取解释辛普森悖论是时候引入一个新的统计术语了。潜伏变量(也称为混杂变量)是在实验/分析过程中未考虑的额外变量,可能导致错误的结论。在我们的例子中,两种效应结合在一起形成了悖论:与女性相比,男性不太喜欢这两种口味。当被问及冰淇淋口味时,男性可能比女性更挑剔?我们不知道。然而,这是一个潜在的变量,因为我们在分析数据时没有考虑到这个因素,另外,我们可以看到被调查的男性和女性的分布是不平衡的。在姜味调查中,37%的回答者是男性,63%是女性;而在甜饼调查中,90%是男性,只有10%是女性在我们的例子中,这两种效应结合在一起形成了悖论。更好的分析,更好的决策哪种口味才是真正的赢家?在我们的例子中,当我们考虑到潜伏变量时,很明显甜饼口味应该是赢家,因为男人和女人都喜欢它而不是姜。一般来说,不可能给出何时对数据进行分区或组合的经验法则。这要视情况而定。作为一个例子,我将介绍一个例子,从朱迪亚·珀尔的《为什么》一书中。一种有望降低心脏病发作风险的新药被分为两组进行试验。第一组(对照组)的参与者不使用药物,而第二组(治疗组)的参与者使用药物。结果显示了心脏病发作的人群比例:心脏病发作比例对照组(非药物)治疗组(药物)男性12/40=30%8/20=40%Female1/20=5%3/40=7.5%13/60=21.67%11/60=18.3%再次,我们在结果中看到了辛普森的悖论。综合这些数据,药物似乎可以降低心脏病发作的风险。另一方面,当研究结果按性别分组时,我们可以观察到,无论是男性还是女性,服用药物后心脏病发作的风险都会增加。"这种药似乎对女人不好,对男人不好,但对人有好处!"当然,这种说法没有道理。这个悖论可以通过更好地理解数据来解决——探索数据是如何产生的,并识别潜在的变量。这不是一个随机对照试验(RCT)实验,而是一个观察性研究,让人们决定是否服用药物。在这项研究中,很明显,女性更倾向于服用药物(⅔女性服用药物),而男性则不喜欢(只有⅓男性服用药物)。此外,总体而言,男性患心脏病的风险更大。性别影响目标变量(心脏病发作)和服用药物的决定。在这种情况下,按性别分析数据是正确的。这种药实际上对女人不好,对男人不好,对人也不好现在,让我们检查一个稍微不同的情况,在这种情况下,分组数据会导致不正确的结果。继续前面的例子,假设血压是心脏病发作的原因,而试验药物的目的是降低血压。研究人员想检查这种药物是否也能降低心脏病发作的风险。他们测量了参与者的血压以及他们是否有心脏病发作。所有参与者开始时都有高血压。心脏病发作比例对照组(不用药)治疗组(药物)高血压12/40=30%8/20=40%低血压1/20=5%3/40=7.5%13/60=21.67%11/60=18.3%请注意,这些数字与上一个示例中的数字完全相同。然而,既然血压不影响服药的决定,那么关注综合数据是正确的。我们可以看到药物降低了治疗组参与者的血压。这也降低了他们心脏病发作的风险。为了更好地理解何时应该对数据进行分组,您应该熟悉因果推理。如果你没有时间读"为什么书",你可以参考数据科学辛普森悖论有多普遍?2009年,研究人员提出,辛普森悖论可能比人们通常认为的更经常发生。(参见"辛普森悖论的可能性有多大?")他们发现,在使用均匀分布随机数据模拟的案例中,1.67%的案例出现了悖论。另一项研究表明,通过实验研究,这种悖论可能会发生,而且人们往往很难认识到它。(见Kievit、Rogier等人)处理关联中的辛普森悖论当两个变量在一个方向(正/负)上有关联时,也会出现辛普森悖论,但当变量被维度打破时,方向相反。Jon Wayland的一篇博客文章展示了一个非常好的例子:教师调查了学生考前学习时间对考试成绩的影响。研究结果非常令人惊讶,表明学习时间和成绩之间呈极强的负相关(-0.7981)(学生学习越少,他们在考试中的得分就越高)。当数据被打破的过程,相关性逆转,我们可以看到,投入更多的时间学习是值得的努力! 在这种情况下,课程难度是一个潜在的变量——它影响考试结果和准备所需的小时数。未雨绸缪辛普森悖论,当它被忽视时,会导致错误的结论和错误的决定。在分析你的数据时,注意这个现象是很重要的。如果你想做出更明智的数据驱动决策,了解你的数据,理解它是如何生成的,以及处理混杂的变量都是至关重要的!Ayelet Arditi是Sisense人工智能研究团队的数据科学家,不断改进平台的数据和分析能力,使用户能够构建和使用人工智能应用程序,用于增强分析、自动数据准备和对话式数据探索。标签:混淆变量|数据探索|数据驱动决策|潜伏变量|数学|辛普森悖论