香港服务器_叛逆的鲁鲁修第二季百度云_怎么买

小七 2019年10月25日 21:23 141 0

理解辛普森悖论避免错误结论

博客每个人都想从他们的数据中获得更多，但如何做到这一点会让你挠头。我们的BI最佳实践揭开了分析世界的神秘面纱，并为您提供了可操作的操作指南。开始研究数据的最简单方法之一是按相关维度聚合您感兴趣的度量。例如，假设你想了解公司的收入，你可以按国家、产品、时间等进行分析。在大多数情况下，这种分析可以产生一些见解，这些见解可以随后转化为商业行动。然而，如果翻译得不好，也会产生错误的结果。这是怎么发生的？好的数据怎么会导致错误的结论？让我们从一个例子开始。你在一家冰淇淋公司工作，这家公司即将推出一种全新的特别版口味。经过多次会议和讨论，最终选定了两种口味的饼干：生姜和糖曲奇。只选择一种口味生产。你们部门做了一个调查，询问100个人是否喜欢姜汁冰淇淋，100个不同的人是否喜欢糖曲奇的味道。结果如下：喜欢小心翼翼的糖厨师62/100=62%54/100=54%根据你的第一次分析，很明显，姜是赢家（62%>54%）。然而，为了进一步研究数据，您决定将喜欢的分布细分为男性和女性：喜欢姜糖厨师12/37=32.4%45/90=50%女性50/63=80.6%9/10=90%奇怪的事情发生了！从性别的角度来看，我们可以发现男性和女性都喜欢甜饼口味而不是生姜。那么，在按性别细分数据时，我们如何得到完全不同的结果呢？这是Simpon悖论的一个例子，这是一种统计现象，当数据被分组时，趋势会逆转或消失，当数据被组合起来时。1951年，统计学家爱德华辛普森（edwardh.Simpson）首次提出了这一概念（尽管之前不同的人提到了类似的影响）。在我们的例子中，当数据被分成两组时，我们可以说两组都喜欢甜饼口味。但当数据结合起来，我们的结论就反过来了，似乎生姜更可取解释辛普森悖论是时候引入一个新的统计术语了。潜伏变量（也称为混杂变量）是在实验/分析过程中未考虑的额外变量，可能导致错误的结论。在我们的例子中，两种效应结合在一起形成了悖论：与女性相比，男性不太喜欢这两种口味。当被问及冰淇淋口味时，男性可能比女性更挑剔？我们不知道。然而，这是一个潜在的变量，因为我们在分析数据时没有考虑到这个因素，另外，我们可以看到被调查的男性和女性的分布是不平衡的。在姜味调查中，37%的回答者是男性，63%是女性；而在甜饼调查中，90%是男性，只有10%是女性在我们的例子中，这两种效应结合在一起形成了悖论。更好的分析，更好的决策哪种口味才是真正的赢家？在我们的例子中，当我们考虑到潜伏变量时，很明显甜饼口味应该是赢家，因为男人和女人都喜欢它而不是姜。一般来说，不可能给出何时对数据进行分区或组合的经验法则。这要视情况而定。作为一个例子，我将介绍一个例子，从朱迪亚·珀尔的《为什么》一书中。一种有望降低心脏病发作风险的新药被分为两组进行试验。第一组（对照组）的参与者不使用药物，而第二组（治疗组）的参与者使用药物。结果显示了心脏病发作的人群比例：心脏病发作比例对照组（非药物）治疗组（药物）男性12/40=30%8/20=40%Female1/20=5%3/40=7.5%13/60=21.67%11/60=18.3%再次，我们在结果中看到了辛普森的悖论。综合这些数据，药物似乎可以降低心脏病发作的风险。另一方面，当研究结果按性别分组时，我们可以观察到，无论是男性还是女性，服用药物后心脏病发作的风险都会增加。"这种药似乎对女人不好，对男人不好，但对人有好处！"当然，这种说法没有道理。这个悖论可以通过更好地理解数据来解决——探索数据是如何产生的，并识别潜在的变量。这不是一个随机对照试验（RCT）实验，而是一个观察性研究，让人们决定是否服用药物。在这项研究中，很明显，女性更倾向于服用药物（⅔女性服用药物），而男性则不喜欢（只有⅓男性服用药物）。此外，总体而言，男性患心脏病的风险更大。性别影响目标变量（心脏病发作）和服用药物的决定。在这种情况下，按性别分析数据是正确的。这种药实际上对女人不好，对男人不好，对人也不好现在，让我们检查一个稍微不同的情况，在这种情况下，分组数据会导致不正确的结果。继续前面的例子，假设血压是心脏病发作的原因，而试验药物的目的是降低血压。研究人员想检查这种药物是否也能降低心脏病发作的风险。他们测量了参与者的血压以及他们是否有心脏病发作。所有参与者开始时都有高血压。心脏病发作比例对照组（不用药）治疗组（药物）高血压12/40=30%8/20=40%低血压1/20=5%3/40=7.5%13/60=21.67%11/60=18.3%请注意，这些数字与上一个示例中的数字完全相同。然而，既然血压不影响服药的决定，那么关注综合数据是正确的。我们可以看到药物降低了治疗组参与者的血压。这也降低了他们心脏病发作的风险。为了更好地理解何时应该对数据进行分组，您应该熟悉因果推理。如果你没有时间读"为什么书"，你可以参考数据科学辛普森悖论有多普遍？2009年，研究人员提出，辛普森悖论可能比人们通常认为的更经常发生。（参见"辛普森悖论的可能性有多大？"）他们发现，在使用均匀分布随机数据模拟的案例中，1.67%的案例出现了悖论。另一项研究表明，通过实验研究，这种悖论可能会发生，而且人们往往很难认识到它。（见Kievit、Rogier等人）处理关联中的辛普森悖论当两个变量在一个方向（正/负）上有关联时，也会出现辛普森悖论，但当变量被维度打破时，方向相反。Jon Wayland的一篇博客文章展示了一个非常好的例子：教师调查了学生考前学习时间对考试成绩的影响。研究结果非常令人惊讶，表明学习时间和成绩之间呈极强的负相关（-0.7981）（学生学习越少，他们在考试中的得分就越高）。当数据被打破的过程，相关性逆转，我们可以看到，投入更多的时间学习是值得的努力！在这种情况下，课程难度是一个潜在的变量——它影响考试结果和准备所需的小时数。未雨绸缪辛普森悖论，当它被忽视时，会导致错误的结论和错误的决定。在分析你的数据时，注意这个现象是很重要的。如果你想做出更明智的数据驱动决策，了解你的数据，理解它是如何生成的，以及处理混杂的变量都是至关重要的！Ayelet Arditi是Sisense人工智能研究团队的数据科学家，不断改进平台的数据和分析能力，使用户能够构建和使用人工智能应用程序，用于增强分析、自动数据准备和对话式数据探索。标签：混淆变量|数据探索|数据驱动决策|潜伏变量|数学|辛普森悖论

本文地址： /zhuji/9804.html