辛普森悖論數據中玄機

文／檸檬　｜2024.03.26

語音朗讀

682觀看次

字級

大

中

小

圖／yapei

文／檸檬　

「辛普森悖論」，這個名稱聽起來有點有趣又奇妙，不過這個悖論與卡通《辛普森家庭》可是一點關係也沒有。實際上，這是機率及統計中一個奇特的現象，是許多人常常掛在嘴邊的一句話：「數據會說話」，然而當我們仔細探討數據時，原本存在的趨勢可能會突然消失或反轉，這樣的狀況經常出現在社會科學與醫學統計中，也挑戰我們對數據解釋的認知。雖然這樣的現象在更早以前就出現過，但一直到1951年，統計學家愛德華‧H‧辛普森（Edward Hugh Simpson），他在自己的論文中首次描述與解釋了這樣的現象，也因此這個悖論便被命名為「辛普森悖論」。

我們可以利用簡單的範例來了解何為辛普森悖論？假設有兩家藥廠A與B，他們都研發了一種新藥，我們想知道哪家藥廠的藥對患者的治療效果更好，可先觀察整體患者的治療成功率，然後進一步將所有的患者分成兩群：分別為20〜40歲的甲群患者（200人）和41〜60歲的乙群患者（300人）。

樣本比率影響數據

接下來，我們來看看不同年齡群體的情況，我們也將兩家藥廠的患者依照年齡區分，並且實際看看他們的治療成果。

甲群患者（200人）：

在甲群患者中，藥廠A的成功率為90%，而藥廠B的成功率為88%。這樣的數據似乎顯示藥廠A表現更好，那麼我們再來看看乙群患者呢？

乙群患者（300人）：

當我們將目光轉向乙群患者時，情況卻變得有趣。藥廠A的成功率為75%，而藥廠B的成功率為82%，咦？怎麼感覺哪裡怪怪的？把所有患者綜合討論和分開討論的結論居然不一樣，難道是實驗或是哪裡出了問題嗎？

如果我們從整體患者的人數來看，其中乙群患者的比例較多，占患者總人數的一大部分。而在乙群患者中，藥廠A的成功率相對較低，這也對整體數據產生了影響。即便甲群患者中藥廠A的成功率高，但因為甲群患者的比例較多，會導致整體數據顯示藥廠A的成功率低於藥廠B。

數據複雜避免誤導

這就是一個相當典型的辛普森悖論範例，也告訴我們，當我們在看統計數據時，子群體的樣本數與比例，都是影響結論的關鍵因素，我們應該確保子群體之間的平衡，以避免被不均等的樣本數所誤導。

數據背後的狀況複雜度可能比我們想像得還要高，因此在數據分析中要保持警惕，不要被單一的統計數據所誤導，仔細觀察與討論數據，可以為我們提供更全面的觀點，幫助我們更容易地理解數據中的玄機。