辛普森悖論 數據中玄機

文/檸檬  |2024.03.26
154觀看次
字級
圖/yapei

文/檸檬 

「辛普森悖論」,這個名稱聽起來有點有趣又奇妙,不過這個悖論與卡通《辛普森家庭》可是一點關係也沒有。實際上,這是機率及統計中一個奇特的現象,是許多人常常掛在嘴邊的一句話:「數據會說話」,然而當我們仔細探討數據時,原本存在的趨勢可能會突然消失或反轉,這樣的狀況經常出現在社會科學與醫學統計中,也挑戰我們對數據解釋的認知。雖然這樣的現象在更早以前就出現過,但一直到1951年,統計學家愛德華‧H‧辛普森(Edward Hugh Simpson),他在自己的論文中首次描述與解釋了這樣的現象,也因此這個悖論便被命名為「辛普森悖論」。

我們可以利用簡單的範例來了解何為辛普森悖論?假設有兩家藥廠A與B,他們都研發了一種新藥,我們想知道哪家藥廠的藥對患者的治療效果更好,可先觀察整體患者的治療成功率,然後進一步將所有的患者分成兩群:分別為20〜40歲的甲群患者(200人)和41〜60歲的乙群患者(300人)。

樣本比率 影響數據









接下來,我們來看看不同年齡群體的情況,我們也將兩家藥廠的患者依照年齡區分,並且實際看看他們的治療成果。

甲群患者(200人):







在甲群患者中,藥廠A的成功率為90%,而藥廠B的成功率為88%。這樣的數據似乎顯示藥廠A表現更好,那麼我們再來看看乙群患者呢?

乙群患者(300人):







當我們將目光轉向乙群患者時,情況卻變得有趣。藥廠A的成功率為75%,而藥廠B的成功率為82%,咦?怎麼感覺哪裡怪怪的?把所有患者綜合討論和分開討論的結論居然不一樣,難道是實驗或是哪裡出了問題嗎?

如果我們從整體患者的人數來看,其中乙群患者的比例較多,占患者總人數的一大部分。而在乙群患者中,藥廠A的成功率相對較低,這也對整體數據產生了影響。即便甲群患者中藥廠A的成功率高,但因為甲群患者的比例較多,會導致整體數據顯示藥廠A的成功率低於藥廠B。

數據複雜 避免誤導



這就是一個相當典型的辛普森悖論範例,也告訴我們,當我們在看統計數據時,子群體的樣本數與比例,都是影響結論的關鍵因素,我們應該確保子群體之間的平衡,以避免被不均等的樣本數所誤導。

數據背後的狀況複雜度可能比我們想像得還要高,因此在數據分析中要保持警惕,不要被單一的統計數據所誤導,仔細觀察與討論數據,可以為我們提供更全面的觀點,幫助我們更容易地理解數據中的玄機。

熱門新聞
訂閱電子報
台北市 天氣預報   台灣一週天氣預報

《人間福報》是一份多元化的報紙,不單只有報導佛教新聞,乃以推動祥和社會、淨化人心為職志,以關懷人類福祉、追求世界和平為宗旨,堅持新聞的準度與速度、廣度與深度,關懷弱勢族群與公益;強調內容溫馨、健康、益智、環保,不八卦、不加料、不阿諛,希冀藉由優質的內涵,體貼大眾身心靈的需要、關懷地球永續經營、延續宇宙無窮慧命,是一份承擔社會責任的報紙。自許成為「社會的一道光明」的《人間福報》任重而道遠,在秉持創辦人星雲大師「傳播人間善因善緣」的理念之際,更將堅持為社會注入清流,讓福報的發行為人間帶來祥和歡喜,具體實現「人間有福報,福報滿人間」的目標。
人間福報社股份有限公司 統編:70470026

 
聯絡我們 隱私權條款

Copyright © 2000-2024 人間福報 www.merit-times.com.tw
All Rights Reserved.