【從零開始了解AI 系列3】資料是AI的食物但不是知識

文／朱玉昌｜2026.04.18

語音朗讀

310觀看次

字級

大

中

小

圖／123RF

文／朱玉昌

經過前文說明，相信大家已經明白，AI並不是被一行一行寫好的規則，它是透過大量例子學會如何降低錯誤，那麼，接下來的問題幾乎是無法迴避的：「這些例子究竟從哪裡來？」

表面上，答案很簡單，是從資料中得到的。但這個看似簡單的答案，實際上蘊含著極為關鍵的意義。因為它決定了：AI能「看見」什麼，從一開始就被資料的來源跟結構所決定。

AI資料庫非智慧巨人

在AI的世界裡，我們經常聽到「資料就是力量」這句話。乍聽之下，這句話似乎再合理不過，資料愈多，AI就愈聰明；資料愈龐大，系統就愈接近理解世界。

這種說法看起來像是一個自然法則，但它掩蓋了「資料」不一定是「知識」這個事實，好比食物不會思考，吃了再多的飯，也不會直接變得更有智慧，因此，當下的AI，給再多的資料，還不足以讓它像人類一樣理解世界。

由人定義知識的意義

資料本身，什麼也不知道。一張糖果照片，不會自動告訴你它是一把糖果；一段文字，不會自己表達憤怒或幽默；一疊病歷，不會自己決定患者的風險或希望。這些資料之所以「有意義」，全都是人類賦予的。

AI接觸的並不是世界本身，而是人類留下的紀錄、標註以及選擇的結果。它學到的不是事實，而是人們如何描述事實。這就是為什麼有經驗的AI研究者會說，AI更像是一面鏡子，而不是一扇窗。

AI偏見反映集體行為

換言之，AI並非直接呈現世界，而是反射出人類行為、語言和選擇的統計輪廓。如果某種語言用法在資料中反覆出現，AI就會將它視為正常；如果某些觀點被系統性忽略，AI也會永遠無法看見它們。

這並不是AI有意偏見，而是因為人們的偏見被放大、固化並自動化了。換句話說，AI所呈現的世界，往往是人類集體行為的放大，而不見得是事物本身的全貌。

偏頗資料易積非成是

直覺告訴我們，更多資料應該帶來更好的結果。在某些情況下，這確實成立。但前提是資料必須來源多元、結構完整且具代表性。如果我們不斷餵給AI重複、失衡或帶偏向的資料，得到的不是更全面的智慧，而是更自信的錯誤。

這也是為什麼一些AI系統在特定族群、人物、宗教、語境或文化中表現失準、敵意或負面描述，在此過程中，AI並非故意忽略什麼，而是從未真正接觸過另類（廣泛）觀點的資料。

既然資料不是知識，AI只是透過不斷嘗試和修正來學習，那麼下一個重要問題就浮現了，「錯誤」在AI學習中，究竟扮演什麼角色？

錯誤是修正學習起點

這個問題看似簡單，卻極其重要。錯誤並不是失敗，那是在AI的世界裡，唯一能教會它進步的老師。每一次偏差、每一次不準確，都是AI調整參數，改善模型的重要訊號。這也是為什麼我們會看到AI從一開始的不穩定、奇怪的輸出，到最終能生成精準、甚至驚人的結果。錯誤本身，就是AI不斷接近「更少錯誤」的指南針。

換言之，理解AI與資料的關係，是認識它能力與限制的關鍵。資料是AI的食物，但它從來不等於智慧，資料提供了模式，卻無法提供理解。只有當我們清楚地看見資料的角色，理解AI如何從例子中學習，如何從錯誤中調整，我們才能在這個由智慧型系統深度影響的世界裡，保持理性、保持清醒，並正確地使用這種強大的工具。

資料治理決定AI最終能力

在AI訓練過程中，有一個環節極少出現在新聞標題裡，卻深深影響系統行為，那便是「標註」，也就是「labeling」。

簡單地說，每一個正確答案都是大量人類判斷的累積。什麼是有害內容？什麼是適當回應？什麼算是錯誤？判斷的標準並不存在於自然界，而是人類文化、價值觀與制度下的產物。

換言之，AI並不是在學習真理，而是在學習「被允許」的答案，並視其為「標準答案」。

我們可以想像AI就像一名勤奮的學生，它從無數次示範裡，記住哪些行為被認為正確，哪些被認作錯誤，但它並不真正理解背後的理由。

然而，資料永遠不可能完全中立，即便最小心、最善意的資料收集，也不可能完全公正無偏。因為，選擇本身就是一種立場，我們選擇收集哪些資料、忽略哪些資料、如何分類與整理，這些決定都會悄悄塑造AI的世界觀。

也因此，AI資料治理的重要性，從來不亞於模型架構本身。任何AI系統的能力，都無法超越它所接觸過的世界。它無法憑空創造價值，也無法理解未被呈現的經驗。當它看起來有創造力時，那只是因為它在龐大的資料空間中，重新組合了既有元素，並以統計上最可能的方式呈現出來。

理解資料的角色，不是為了否定AI，而是為了正確地定位它。AI尚不具通往真理的捷徑，它是一種極其強大的統計工具。它的力量來自我們提供的資料，它的盲點同樣來自我們的選擇。我們賦予它龐大資源，但也必須對這些資源負責，因為AI的每一個決策，最終都根植於資料的局限之中。

學習重點

資料本身並不包含意義。一張圖片不知道自己是什麼，一句話也不知道自己代表什麼情緒，所有的意義，都是人類後來加上去的。

AI在訓練時接觸的，從來不是世界本身，而是人類留下的紀錄。它學到的，不是事實，而是我們如何描述事實，如果某些觀點在資料中反覆出現，AI就會將它視為正常；如果某些經驗被忽略，AI也永遠看不見。

因此，資料永遠不可能完全中立。選擇蒐集什麼、忽略什麼，本身就是一種價值判斷。AI的偏誤，往往不是因為它有立場，而是因為它忠實反映了資料的結構。

更多的資料，未必會帶來更好的結果。如果資料失衡，AI只會更自信地犯錯，真正影響AI行為的，不只是資料量，還有資料是否多元、是否被妥善標註，以及是否能反映不同情境下的人類判斷。所以，資料品質，決定了AI能走多遠，也決定了它會在哪些地方停下來。

關鍵概念

˙資料不是知識，而是人類選擇與詮釋的結果

˙AI學到的是描述世界的方式，而非世界本身

˙AI反映的是資料的統計輪廓，而非客觀真實

˙資料的偏差會被模型放大並自動化

˙標註與判斷是AI行為背後的隱形核心

˙資料治理與品質，決定AI能力的上限與盲區