【從零開始了解AI 系列3】資料是AI的食物 但不是知識 文/朱玉昌 |2026.04.18 語音朗讀 47觀看次 字級 大 中 小 圖/123RF圖/123RF圖/123RF圖/123RF 文/朱玉昌經過前文說明,相信大家已經明白,AI並不是被一行一行寫好的規則,它是透過大量例子學會如何降低錯誤,那麼,接下來的問題幾乎是無法迴避的:「這些例子究竟從哪裡來?」表面上,答案很簡單,是從資料中得到的。但這個看似簡單的答案,實際上蘊含著極為關鍵的意義。因為它決定了:AI能「看見」什麼,從一開始就被資料的來源跟結構所決定。AI資料庫非智慧巨人在AI的世界裡,我們經常聽到「資料就是力量」這句話。乍聽之下,這句話似乎再合理不過,資料愈多,AI就愈聰明;資料愈龐大,系統就愈接近理解世界。這種說法看起來像是一個自然法則,但它掩蓋了「資料」不一定是「知識」這個事實,好比食物不會思考,吃了再多的飯,也不會直接變得更有智慧,因此,當下的AI,給再多的資料,還不足以讓它像人類一樣理解世界。由人定義知識的意義資料本身,什麼也不知道。一張糖果照片,不會自動告訴你它是一把糖果;一段文字,不會自己表達憤怒或幽默;一疊病歷,不會自己決定患者的風險或希望。這些資料之所以「有意義」,全都是人類賦予的。AI接觸的並不是世界本身,而是人類留下的紀錄、標註以及選擇的結果。它學到的不是事實,而是人們如何描述事實。這就是為什麼有經驗的AI研究者會說,AI更像是一面鏡子,而不是一扇窗。AI偏見反映集體行為換言之,AI並非直接呈現世界,而是反射出人類行為、語言和選擇的統計輪廓。如果某種語言用法在資料中反覆出現,AI就會將它視為正常;如果某些觀點被系統性忽略,AI也會永遠無法看見它們。這並不是AI有意偏見,而是因為人們的偏見被放大、固化並自動化了。換句話說,AI所呈現的世界,往往是人類集體行為的放大,而不見得是事物本身的全貌。偏頗資料易積非成是直覺告訴我們,更多資料應該帶來更好的結果。在某些情況下,這確實成立。但前提是資料必須來源多元、結構完整且具代表性。如果我們不斷餵給AI重複、失衡或帶偏向的資料,得到的不是更全面的智慧,而是更自信的錯誤。這也是為什麼一些AI系統在特定族群、人物、宗教、語境或文化中表現失準、敵意或負面描述,在此過程中,AI並非故意忽略什麼,而是從未真正接觸過另類(廣泛)觀點的資料。既然資料不是知識,AI只是透過不斷嘗試和修正來學習,那麼下一個重要問題就浮現了,「錯誤」在AI學習中,究竟扮演什麼角色?錯誤是修正學習起點這個問題看似簡單,卻極其重要。錯誤並不是失敗,那是在AI的世界裡,唯一能教會它進步的老師。每一次偏差、每一次不準確,都是AI調整參數,改善模型的重要訊號。這也是為什麼我們會看到AI從一開始的不穩定、奇怪的輸出,到最終能生成精準、甚至驚人的結果。錯誤本身,就是AI不斷接近「更少錯誤」的指南針。換言之,理解AI與資料的關係,是認識它能力與限制的關鍵。資料是AI的食物,但它從來不等於智慧,資料提供了模式,卻無法提供理解。只有當我們清楚地看見資料的角色,理解AI如何從例子中學習,如何從錯誤中調整,我們才能在這個由智慧型系統深度影響的世界裡,保持理性、保持清醒,並正確地使用這種強大的工具。資料治理 決定AI最終能力在AI訓練過程中,有一個環節極少出現在新聞標題裡,卻深深影響系統行為,那便是「標註」,也就是「labeling」。簡單地說,每一個正確答案都是大量人類判斷的累積。什麼是有害內容?什麼是適當回應?什麼算是錯誤?判斷的標準並不存在於自然界,而是人類文化、價值觀與制度下的產物。換言之,AI並不是在學習真理,而是在學習「被允許」的答案,並視其為「標準答案」。我們可以想像AI就像一名勤奮的學生,它從無數次示範裡,記住哪些行為被認為正確,哪些被認作錯誤,但它並不真正理解背後的理由。然而,資料永遠不可能完全中立,即便最小心、最善意的資料收集,也不可能完全公正無偏。因為,選擇本身就是一種立場,我們選擇收集哪些資料、忽略哪些資料、如何分類與整理,這些決定都會悄悄塑造AI的世界觀。也因此,AI資料治理的重要性,從來不亞於模型架構本身。任何AI系統的能力,都無法超越它所接觸過的世界。它無法憑空創造價值,也無法理解未被呈現的經驗。當它看起來有創造力時,那只是因為它在龐大的資料空間中,重新組合了既有元素,並以統計上最可能的方式呈現出來。理解資料的角色,不是為了否定AI,而是為了正確地定位它。AI尚不具通往真理的捷徑,它是一種極其強大的統計工具。它的力量來自我們提供的資料,它的盲點同樣來自我們的選擇。我們賦予它龐大資源,但也必須對這些資源負責,因為AI的每一個決策,最終都根植於資料的局限之中。學習重點資料本身並不包含意義。一張圖片不知道自己是什麼,一句話也不知道自己代表什麼情緒,所有的意義,都是人類後來加上去的。AI在訓練時接觸的,從來不是世界本身,而是人類留下的紀錄。它學到的,不是事實,而是我們如何描述事實,如果某些觀點在資料中反覆出現,AI就會將它視為正常;如果某些經驗被忽略,AI也永遠看不見。因此,資料永遠不可能完全中立。選擇蒐集什麼、忽略什麼,本身就是一種價值判斷。AI的偏誤,往往不是因為它有立場,而是因為它忠實反映了資料的結構。更多的資料,未必會帶來更好的結果。如果資料失衡,AI只會更自信地犯錯,真正影響AI行為的,不只是資料量,還有資料是否多元、是否被妥善標註,以及是否能反映不同情境下的人類判斷。所以,資料品質,決定了AI能走多遠,也決定了它會在哪些地方停下來。關鍵概念˙資料不是知識,而是人類選擇與詮釋的結果˙AI學到的是描述世界的方式,而非世界本身˙AI反映的是資料的統計輪廓,而非客觀真實˙資料的偏差會被模型放大並自動化˙標註與判斷是AI行為背後的隱形核心˙資料治理與品質,決定AI能力的上限與盲區 前一篇文章 AI時代的 學習現場與挑戰 下一篇文章 熱門新聞 01MLB太空人打敗洛磯 鄧愷威中繼成功2026.04.1602佛光大佛供奉法華塔與《法華經》信仰意涵2026.04.1203蔬食技巧 不吃肉也能補足蛋白質2026.04.1304澱粉食物 口感變化有祕訣2026.04.1305【深深思念】把悲傷 穿在身上2026.04.1406法全票通過 掠奪文物歸還中國2026.04.1707《浩瀚星雲》大阪海外首演 轟動滿座 2026.04.1408佛光山線上佛學院開學 逾百學員雲端共學2026.04.1509預備檀講師研習 傳播人間佛教正能量2026.04.1410高市國稅局長訪佛光山 認識人間佛教2026.04.13 訂閱電子報 台北市 天氣預報 台灣一週天氣預報 相關報導 AI時代的 學習現場與挑戰【從零開始了解AI 系列2】AI學習 是重覆試錯、修正的過程Bear ID熊臉辨識系統 不再把泰迪叫成維尼專注時間力 成AI世代決勝點AI不是機器人 而是一種學習方式大象老虎安啦! AI科技構建野生動物守護網 作者其他文章【院線片】《門對門 移動書店》閱讀裡悟出普世價值【從零開始了解AI 系列2】AI學習 是重覆試錯、修正的過程【院線片】《陽光女子合唱團》淚水與歌聲創造票房紀錄AI不是機器人 而是一種學習方式【院線片】不是神話誕生 是扭轉宿命《史普林斯汀 :走出虛無》