圖/yapei
文/檸檬
「辛普森悖論」,這個名稱聽起來有點有趣又奇妙,不過這個悖論與卡通《辛普森家庭》可是一點關係也沒有。實際上,這是機率及統計中一個奇特的現象,是許多人常常掛在嘴邊的一句話:「數據會說話」,然而當我們仔細探討數據時,原本存在的趨勢可能會突然消失或反轉,這樣的狀況經常出現在社會科學與醫學統計中,也挑戰我們對數據解釋的認知。雖然這樣的現象在更早以前就出現過,但一直到1951年,統計學家愛德華‧H‧辛普森(Edward Hugh Simpson),他在自己的論文中首次描述與解釋了這樣的現象,也因此這個悖論便被命名為「辛普森悖論」。
我們可以利用簡單的範例來了解何為辛普森悖論?假設有兩家藥廠A與B,他們都研發了一種新藥,我們想知道哪家藥廠的藥對患者的治療效果更好,可先觀察整體患者的治療成功率,然後進一步將所有的患者分成兩群:分別為20〜40歲的甲群患者(200人)和41〜60歲的乙群患者(300人)。
樣本比率 影響數據
接下來,我們來看看不同年齡群體的情況,我們也將兩家藥廠的患者依照年齡區分,並且實際看看他們的治療成果。
甲群患者(200人):
在甲群患者中,藥廠A的成功率為90%,而藥廠B的成功率為88%。這樣的數據似乎顯示藥廠A表現更好,那麼我們再來看看乙群患者呢?
乙群患者(300人):
當我們將目光轉向乙群患者時,情況卻變得有趣。藥廠A的成功率為75%,而藥廠B的成功率為82%,咦?怎麼感覺哪裡怪怪的?把所有患者綜合討論和分開討論的結論居然不一樣,難道是實驗或是哪裡出了問題嗎?
如果我們從整體患者的人數來看,其中乙群患者的比例較多,占患者總人數的一大部分。而在乙群患者中,藥廠A的成功率相對較低,這也對整體數據產生了影響。即便甲群患者中藥廠A的成功率高,但因為甲群患者的比例較多,會導致整體數據顯示藥廠A的成功率低於藥廠B。
數據複雜 避免誤導
這就是一個相當典型的辛普森悖論範例,也告訴我們,當我們在看統計數據時,子群體的樣本數與比例,都是影響結論的關鍵因素,我們應該確保子群體之間的平衡,以避免被不均等的樣本數所誤導。
數據背後的狀況複雜度可能比我們想像得還要高,因此在數據分析中要保持警惕,不要被單一的統計數據所誤導,仔細觀察與討論數據,可以為我們提供更全面的觀點,幫助我們更容易地理解數據中的玄機。