圖/樹下繪本
圖/樹下繪本
文/檸檬
幾年前,有些科技公司做過「臉部評價系統」。上傳個人照,AI就能告訴你「臉部對稱度94分」、「笑容自然度82分」……聽起來好像沒問題?其實,這些分數一點也不客觀,因為AI打分的依據,是它從人類世界得來的資料,而人類的資料庫,當然有偏見啦!
分層抽樣 均數不實
AI的工作其實很像數學課程裡的統計,它會看上千萬張照片,找出其中的共通規則。可是如果資料裡九成都是白人女性,它就會以為「白膚色」才是美;如果資料多半是年輕人,它就會學到「年輕」等於「好看」。這就是數學裡的抽樣偏差,當樣本不平均,結果就會偏一邊。
例如全班想知道平均身高,不用量全部的人,只要抽10個同學就好。可是如果只從籃球隊抽取,那平均身高就會特別高,這就是「樣本沒代表性」。AI蒐集資料時,也會犯同樣的錯。它看到的世界,如果本來就只有一小部分人,那它算出的「平均」只是某一群人的平均。
2018年,亞馬遜開發了一套用來篩選履歷的AI,本來是想讓面試更公正,結果卻出問題了。AI從過去10年的錄用紀錄裡學習,最後發現「被錄取的大多是男性」,於是它自動降低了女性的履歷分數。這在數學上,就是回歸分析的陷阱。AI嘗試畫出「最適合的趨勢線」,根據過去的數據預測未來。但如果過去本來就不公平,那條線就會把不公平變成標準答案。
在數學世界裡,「平均數」應該是中立的,但在AI世界裡,平均數可能是一種權力。AI會把資料轉成一堆向量(可以想成在空間裡的小點),再算出這些點的「中心」。愈靠近中心的樣本,愈被視為「正常」;離中心愈遠的,就成了「異常」。可是如果那個中心是由單一族群構成,那麼其他人(不同膚色、性別、文化),就會被貼上不正常的標籤。所以當AI說「這張臉只有7分」,它做的其實是在比較你離AI心中的「平均臉」有多遠。
當我們想讓數學變得更公平,不能只靠修正程式,而要回到數學的根本思考。真正的問題在於AI的抽樣,要讓模型更公正,資料必須能代表各種不同的年齡、性別與地區,這就是統計學裡說的「分層抽樣」:讓更多樣的聲音都被看見。
觀察實際 不斷驗證
當模型開始運作後,我們還得檢查它的表現。數學家會用「殘差分析」來觀察預測與現實之間的距離。如果某一群人的誤差特別大,代表AI對他們的理解出了問題,這時就要回頭重新調整。這不是在挑模型的毛病,而是在提醒我們:公正需要被不斷驗證。
最後,也是最重要的,公平從來不只是公式能決定的事。數學能計算,但不能判斷什麼是「對的」。因此,每一個AI背後,都應該有人參與、思考、質疑,因為算法能學會模式,卻學不會良心。