【從零開始了解AI 系列3】資料是AI的食物 但不是知識

文/朱玉昌 |2026.04.18
47觀看次
字級
圖/123RF
圖/123RF
圖/123RF
圖/123RF

文/朱玉昌

經過前文說明,相信大家已經明白,AI並不是被一行一行寫好的規則,它是透過大量例子學會如何降低錯誤,那麼,接下來的問題幾乎是無法迴避的:「這些例子究竟從哪裡來?」

表面上,答案很簡單,是從資料中得到的。但這個看似簡單的答案,實際上蘊含著極為關鍵的意義。因為它決定了:AI能「看見」什麼,從一開始就被資料的來源跟結構所決定。

AI資料庫非智慧巨人

在AI的世界裡,我們經常聽到「資料就是力量」這句話。乍聽之下,這句話似乎再合理不過,資料愈多,AI就愈聰明;資料愈龐大,系統就愈接近理解世界。

這種說法看起來像是一個自然法則,但它掩蓋了「資料」不一定是「知識」這個事實,好比食物不會思考,吃了再多的飯,也不會直接變得更有智慧,因此,當下的AI,給再多的資料,還不足以讓它像人類一樣理解世界。

由人定義知識的意義

資料本身,什麼也不知道。一張糖果照片,不會自動告訴你它是一把糖果;一段文字,不會自己表達憤怒或幽默;一疊病歷,不會自己決定患者的風險或希望。這些資料之所以「有意義」,全都是人類賦予的。

AI接觸的並不是世界本身,而是人類留下的紀錄、標註以及選擇的結果。它學到的不是事實,而是人們如何描述事實。這就是為什麼有經驗的AI研究者會說,AI更像是一面鏡子,而不是一扇窗。

AI偏見反映集體行為

換言之,AI並非直接呈現世界,而是反射出人類行為、語言和選擇的統計輪廓。如果某種語言用法在資料中反覆出現,AI就會將它視為正常;如果某些觀點被系統性忽略,AI也會永遠無法看見它們。

這並不是AI有意偏見,而是因為人們的偏見被放大、固化並自動化了。換句話說,AI所呈現的世界,往往是人類集體行為的放大,而不見得是事物本身的全貌。

偏頗資料易積非成是

直覺告訴我們,更多資料應該帶來更好的結果。在某些情況下,這確實成立。但前提是資料必須來源多元、結構完整且具代表性。如果我們不斷餵給AI重複、失衡或帶偏向的資料,得到的不是更全面的智慧,而是更自信的錯誤。

這也是為什麼一些AI系統在特定族群、人物、宗教、語境或文化中表現失準、敵意或負面描述,在此過程中,AI並非故意忽略什麼,而是從未真正接觸過另類(廣泛)觀點的資料。

既然資料不是知識,AI只是透過不斷嘗試和修正來學習,那麼下一個重要問題就浮現了,「錯誤」在AI學習中,究竟扮演什麼角色?

錯誤是修正學習起點

這個問題看似簡單,卻極其重要。錯誤並不是失敗,那是在AI的世界裡,唯一能教會它進步的老師。每一次偏差、每一次不準確,都是AI調整參數,改善模型的重要訊號。這也是為什麼我們會看到AI從一開始的不穩定、奇怪的輸出,到最終能生成精準、甚至驚人的結果。錯誤本身,就是AI不斷接近「更少錯誤」的指南針。

換言之,理解AI與資料的關係,是認識它能力與限制的關鍵。資料是AI的食物,但它從來不等於智慧,資料提供了模式,卻無法提供理解。只有當我們清楚地看見資料的角色,理解AI如何從例子中學習,如何從錯誤中調整,我們才能在這個由智慧型系統深度影響的世界裡,保持理性、保持清醒,並正確地使用這種強大的工具。



資料治理 決定AI最終能力

在AI訓練過程中,有一個環節極少出現在新聞標題裡,卻深深影響系統行為,那便是「標註」,也就是「labeling」。

簡單地說,每一個正確答案都是大量人類判斷的累積。什麼是有害內容?什麼是適當回應?什麼算是錯誤?判斷的標準並不存在於自然界,而是人類文化、價值觀與制度下的產物。

換言之,AI並不是在學習真理,而是在學習「被允許」的答案,並視其為「標準答案」。

我們可以想像AI就像一名勤奮的學生,它從無數次示範裡,記住哪些行為被認為正確,哪些被認作錯誤,但它並不真正理解背後的理由。

然而,資料永遠不可能完全中立,即便最小心、最善意的資料收集,也不可能完全公正無偏。因為,選擇本身就是一種立場,我們選擇收集哪些資料、忽略哪些資料、如何分類與整理,這些決定都會悄悄塑造AI的世界觀。

也因此,AI資料治理的重要性,從來不亞於模型架構本身。任何AI系統的能力,都無法超越它所接觸過的世界。它無法憑空創造價值,也無法理解未被呈現的經驗。當它看起來有創造力時,那只是因為它在龐大的資料空間中,重新組合了既有元素,並以統計上最可能的方式呈現出來。

理解資料的角色,不是為了否定AI,而是為了正確地定位它。AI尚不具通往真理的捷徑,它是一種極其強大的統計工具。它的力量來自我們提供的資料,它的盲點同樣來自我們的選擇。我們賦予它龐大資源,但也必須對這些資源負責,因為AI的每一個決策,最終都根植於資料的局限之中。



學習重點

資料本身並不包含意義。一張圖片不知道自己是什麼,一句話也不知道自己代表什麼情緒,所有的意義,都是人類後來加上去的。

AI在訓練時接觸的,從來不是世界本身,而是人類留下的紀錄。它學到的,不是事實,而是我們如何描述事實,如果某些觀點在資料中反覆出現,AI就會將它視為正常;如果某些經驗被忽略,AI也永遠看不見。

因此,資料永遠不可能完全中立。選擇蒐集什麼、忽略什麼,本身就是一種價值判斷。AI的偏誤,往往不是因為它有立場,而是因為它忠實反映了資料的結構。

更多的資料,未必會帶來更好的結果。如果資料失衡,AI只會更自信地犯錯,真正影響AI行為的,不只是資料量,還有資料是否多元、是否被妥善標註,以及是否能反映不同情境下的人類判斷。所以,資料品質,決定了AI能走多遠,也決定了它會在哪些地方停下來。



關鍵概念

˙資料不是知識,而是人類選擇與詮釋的結果

˙AI學到的是描述世界的方式,而非世界本身

˙AI反映的是資料的統計輪廓,而非客觀真實

˙資料的偏差會被模型放大並自動化

˙標註與判斷是AI行為背後的隱形核心

˙資料治理與品質,決定AI能力的上限與盲區

熱門新聞
訂閱電子報
台北市 天氣預報   台灣一週天氣預報

《人間福報》是一份多元化的報紙,不單只有報導佛教新聞,乃以推動祥和社會、淨化人心為職志,以關懷人類福祉、追求世界和平為宗旨,堅持新聞的準度與速度、廣度與深度,關懷弱勢族群與公益;強調內容溫馨、健康、益智、環保,不八卦、不加料、不阿諛,希冀藉由優質的內涵,體貼大眾身心靈的需要、關懷地球永續經營、延續宇宙無窮慧命,是一份承擔社會責任的報紙。自許成為「社會的一道光明」的《人間福報》任重而道遠,在秉持創辦人星雲大師「傳播人間善因善緣」的理念之際,更將堅持為社會注入清流,讓福報的發行為人間帶來祥和歡喜,具體實現「人間有福報,福報滿人間」的目標。
人間福報社股份有限公司 統編:70470026

 
聯絡我們 隱私權條款

Copyright © 2000-2024 人間福報 www.merit-times.com.tw
All Rights Reserved.