【從零開始了解AI 系列3】資料是AI的食物 但不是知識 文/朱玉昌 |2026.04.18 語音朗讀 310觀看次 字級 大 中 小 圖/123RF圖/123RF圖/123RF圖/123RF 文/朱玉昌經過前文說明,相信大家已經明白,AI並不是被一行一行寫好的規則,它是透過大量例子學會如何降低錯誤,那麼,接下來的問題幾乎是無法迴避的:「這些例子究竟從哪裡來?」表面上,答案很簡單,是從資料中得到的。但這個看似簡單的答案,實際上蘊含著極為關鍵的意義。因為它決定了:AI能「看見」什麼,從一開始就被資料的來源跟結構所決定。AI資料庫非智慧巨人在AI的世界裡,我們經常聽到「資料就是力量」這句話。乍聽之下,這句話似乎再合理不過,資料愈多,AI就愈聰明;資料愈龐大,系統就愈接近理解世界。這種說法看起來像是一個自然法則,但它掩蓋了「資料」不一定是「知識」這個事實,好比食物不會思考,吃了再多的飯,也不會直接變得更有智慧,因此,當下的AI,給再多的資料,還不足以讓它像人類一樣理解世界。由人定義知識的意義資料本身,什麼也不知道。一張糖果照片,不會自動告訴你它是一把糖果;一段文字,不會自己表達憤怒或幽默;一疊病歷,不會自己決定患者的風險或希望。這些資料之所以「有意義」,全都是人類賦予的。AI接觸的並不是世界本身,而是人類留下的紀錄、標註以及選擇的結果。它學到的不是事實,而是人們如何描述事實。這就是為什麼有經驗的AI研究者會說,AI更像是一面鏡子,而不是一扇窗。AI偏見反映集體行為換言之,AI並非直接呈現世界,而是反射出人類行為、語言和選擇的統計輪廓。如果某種語言用法在資料中反覆出現,AI就會將它視為正常;如果某些觀點被系統性忽略,AI也會永遠無法看見它們。這並不是AI有意偏見,而是因為人們的偏見被放大、固化並自動化了。換句話說,AI所呈現的世界,往往是人類集體行為的放大,而不見得是事物本身的全貌。偏頗資料易積非成是直覺告訴我們,更多資料應該帶來更好的結果。在某些情況下,這確實成立。但前提是資料必須來源多元、結構完整且具代表性。如果我們不斷餵給AI重複、失衡或帶偏向的資料,得到的不是更全面的智慧,而是更自信的錯誤。這也是為什麼一些AI系統在特定族群、人物、宗教、語境或文化中表現失準、敵意或負面描述,在此過程中,AI並非故意忽略什麼,而是從未真正接觸過另類(廣泛)觀點的資料。既然資料不是知識,AI只是透過不斷嘗試和修正來學習,那麼下一個重要問題就浮現了,「錯誤」在AI學習中,究竟扮演什麼角色?錯誤是修正學習起點這個問題看似簡單,卻極其重要。錯誤並不是失敗,那是在AI的世界裡,唯一能教會它進步的老師。每一次偏差、每一次不準確,都是AI調整參數,改善模型的重要訊號。這也是為什麼我們會看到AI從一開始的不穩定、奇怪的輸出,到最終能生成精準、甚至驚人的結果。錯誤本身,就是AI不斷接近「更少錯誤」的指南針。換言之,理解AI與資料的關係,是認識它能力與限制的關鍵。資料是AI的食物,但它從來不等於智慧,資料提供了模式,卻無法提供理解。只有當我們清楚地看見資料的角色,理解AI如何從例子中學習,如何從錯誤中調整,我們才能在這個由智慧型系統深度影響的世界裡,保持理性、保持清醒,並正確地使用這種強大的工具。資料治理 決定AI最終能力在AI訓練過程中,有一個環節極少出現在新聞標題裡,卻深深影響系統行為,那便是「標註」,也就是「labeling」。簡單地說,每一個正確答案都是大量人類判斷的累積。什麼是有害內容?什麼是適當回應?什麼算是錯誤?判斷的標準並不存在於自然界,而是人類文化、價值觀與制度下的產物。換言之,AI並不是在學習真理,而是在學習「被允許」的答案,並視其為「標準答案」。我們可以想像AI就像一名勤奮的學生,它從無數次示範裡,記住哪些行為被認為正確,哪些被認作錯誤,但它並不真正理解背後的理由。然而,資料永遠不可能完全中立,即便最小心、最善意的資料收集,也不可能完全公正無偏。因為,選擇本身就是一種立場,我們選擇收集哪些資料、忽略哪些資料、如何分類與整理,這些決定都會悄悄塑造AI的世界觀。也因此,AI資料治理的重要性,從來不亞於模型架構本身。任何AI系統的能力,都無法超越它所接觸過的世界。它無法憑空創造價值,也無法理解未被呈現的經驗。當它看起來有創造力時,那只是因為它在龐大的資料空間中,重新組合了既有元素,並以統計上最可能的方式呈現出來。理解資料的角色,不是為了否定AI,而是為了正確地定位它。AI尚不具通往真理的捷徑,它是一種極其強大的統計工具。它的力量來自我們提供的資料,它的盲點同樣來自我們的選擇。我們賦予它龐大資源,但也必須對這些資源負責,因為AI的每一個決策,最終都根植於資料的局限之中。學習重點資料本身並不包含意義。一張圖片不知道自己是什麼,一句話也不知道自己代表什麼情緒,所有的意義,都是人類後來加上去的。AI在訓練時接觸的,從來不是世界本身,而是人類留下的紀錄。它學到的,不是事實,而是我們如何描述事實,如果某些觀點在資料中反覆出現,AI就會將它視為正常;如果某些經驗被忽略,AI也永遠看不見。因此,資料永遠不可能完全中立。選擇蒐集什麼、忽略什麼,本身就是一種價值判斷。AI的偏誤,往往不是因為它有立場,而是因為它忠實反映了資料的結構。更多的資料,未必會帶來更好的結果。如果資料失衡,AI只會更自信地犯錯,真正影響AI行為的,不只是資料量,還有資料是否多元、是否被妥善標註,以及是否能反映不同情境下的人類判斷。所以,資料品質,決定了AI能走多遠,也決定了它會在哪些地方停下來。關鍵概念˙資料不是知識,而是人類選擇與詮釋的結果˙AI學到的是描述世界的方式,而非世界本身˙AI反映的是資料的統計輪廓,而非客觀真實˙資料的偏差會被模型放大並自動化˙標註與判斷是AI行為背後的隱形核心˙資料治理與品質,決定AI能力的上限與盲區 前一篇文章 AI時代的 學習現場與挑戰 下一篇文章 2026真實啟動工業革命3.0 熱門新聞 01曾在日本絕跡 人工繁殖8朱鷺野放2026.06.0302破淚2026.06.0303誠實麵包坊 烤出信任香氣2026.06.0404【遨遊藝事】巴黎波蔻布咖啡館(LE PROCOPE) 2026.06.0205【心有所感】 從榮獲全球華文文學星雲獎 談文學啟迪人心2026.05.3106佛光山印度沙彌學園佛學講座 尊重不同文化放眼世界2026.06.0107飛吧,熊鷹!是山林隱者 也是天空王者2026.05.3108橋下希望村 伴街友重啟人生 2026.05.3109曼城博物館慶佛誕 佛光人祈世界和平2026.06.0310【植感生活】黃金莓初相識2026.05.31 訂閱電子報 台北市 天氣預報 台灣一週天氣預報 相關報導 Claude Mythos 重寫網路安全規則【從零開始了解AI 系列4】聰明AI系統 始於犯錯和修正2026真實啟動工業革命3.0AI時代的 學習現場與挑戰【從零開始了解AI 系列2】AI學習 是重覆試錯、修正的過程Bear ID熊臉辨識系統 不再把泰迪叫成維尼 作者其他文章【從零開始了解AI 系列4】聰明AI系統 始於犯錯和修正【院線片】《你是不會當樹嗎》銀杏樹 靜靜陪伴三代人【院線片】《門對門 移動書店》閱讀裡悟出普世價值【從零開始了解AI 系列2】AI學習 是重覆試錯、修正的過程【院線片】《陽光女子合唱團》淚水與歌聲創造票房紀錄