查看: 1094|回复: 0

[悖论] 辛普森悖论

  • 打卡总天数:2

积分成就

用户组:管理员

书币:130215

推理币:776037

发表于 2019-6-26 14:30:32 | 显示全部楼层 |阅读模式
当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
请看下面的例子
一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。
现作如下统计:
法学院
1.png
商学院
2.png
根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:
3.png
在总评中,女生的录取比率反而比男生低。
女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生
借助一幅向量图可以更好的了解情况(下图)
4.jpg
(女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生)
这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。
有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人误认为这是由性别差异而造成的。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。

返回列表 发新主题 回复
小黑屋| 隐私政策| 侵权投诉| 数字千年版权法(DMCA)| 切换繁体 |捐助本站
copyright 2019-2023 推理罪 All Rights Reserved