AI的哈布斯堡效應　

文／程世嘉｜2025.12.06

語音朗讀

3310觀看次

字級

大

中

小

圖／123RF

文／程世嘉

好模型因何衰敗崩壞

經過N代「近親通婚」後，AI開始顯現出與哈布斯堡王朝驚人相似的衰敗症狀：

1. 特徵放大與平庸化：AI變得極度「無聊」且「可預測」。就像「哈布斯堡下巴」這個特徵在每一代都被強化，AI最「平均」、最「主流」的特徵也被無限放大。所有原創的、古怪的、有創意的「基因」（數據多樣性）都在這個「反覆影印」中被消磨殆盡。最終，AI只會生成那些最「四平八穩」、最「政治正確」，但也最沒有靈魂的內容。

2. 遺忘「尾部」（forgetting the "tails"）：真實的世界充滿了「長尾」數據，也就是那些大量罕見但真實的知識。AI在「取平均」的過程中，會最先丟棄這些「尾部」知識，因為它們不常出現。幾代之後，AI會徹底「遺忘」現實世界的多樣性。它會變得愈來愈「純粹」，但也愈來愈「無知」。

3. 錯誤放大（amplified bias）：如果AI （Gen1 犯了一個小錯誤（例如，它在1%的時間裡認為「鯊魚是哺乳動物」）。AI（Gen2）會把這個「1%的錯誤」當作「真實資料」來學習。幾代之後，這個小錯誤會被不斷放大，直到AI（GenN）堅定地認為「鯊魚絕對是哺乳動物」。

4. 王朝終結：研究證明這個崩潰的終點：如果完全依賴合成數據，模型最終會「忘記」語言和現實的基本結構，其輸出會退化成毫無意義、不斷重複的胡言亂語。

這或許可以稱作AI的「哈布斯堡詛咒」吧。而且，這個「詛咒」已不再是理論。它是OpenAI、Google和Anthropic這些頂尖AI公司都正在拼命解決的核心難題。現在AI撞上的這道「數據之牆」，其實就是其中一道阻礙擴展定律繼續發揮強大效用的牆。

哈布斯堡王朝（Habsburg dynasty）曾是歐洲不可一世的存在。長達數百年間，其血脈遍布西班牙、奧地利乃至半個歐洲。

哈布斯堡家族為了鞏固權力，確保龐大的領土和財富世世代代都牢牢鎖在家族內部，居然用了一個現在看起來令人不可思議、細思極恐的辦法：藉近親通婚保持「血統純正」。

他們確實成功地將權力和財富留在了家族中，但也開始將有害的遺傳隱性基因不斷累積和放大，導致這個歷史上赫赫有名的家族，最終變形成了遺傳詛咒──除了肥厚的下巴，更有高夭折率、癲癇、智力缺陷。西班牙哈布斯堡王朝末代國王卡洛斯二世，更身患多種遺傳疾病，終生殘疾，最後無法留下任何後代。

AI巨獸吞噬所有知識

沒想到，數百年後在AI領域，這個古老的詛咒似乎又重新上演了。

AI產業如今已經面臨一個嚴重的問題：快要用完所有「可用的公開資料」了。根據估計，2026～2028年間，AI公司就會把所有網路上的公開資料給爬完用完。

這聽起來有點不可思議，畢竟對人類來說，網路資料無限多，怎麼看也看不完，怎麼可能有用完的一天呢？但這完全是因為人類只有一個小小的腦袋，窮己一生也裝不了太多的資訊。

相反的，AI公司在訓練AI時，基本上都是讓AI把網路上的資料「反覆看過好幾遍」。這事沒有任何一個人類可以做到，AI卻因電腦儲存和運算能力持續增加，再難以想像的龐大公開資料，也能一次消化完畢，因此現在幾間大型的AI公司都面臨了資料短缺的問題。

迴圈式學習終將崩潰

或許有人會說，人類還會持續產生更多資料啊！沒有錯，但這些新產生的資料邊際效益並沒有這麼大，說得直白一點，人類產生出新知識的速度並沒有這麼快（實際上是非常慢），而且大多數新產生出來的資料，對於AI的進步已經沒有幫助了（想想你每天發的廢文吧）。再者，就算好不容易產生出來對訓練AI有用的新知識，也是一瞬間就被狼吞虎嚥的AI吃掉了。

當頂尖的AI模型「吃掉」了網路上幾乎所有唾手可得的高品質文字和圖像後，為了讓AI繼續進化、變得更強，大家被迫轉向一個看似合理、卻暗藏風險的解決方案：讓AI去學習「由AI自己生成的資料」。

這在AI領域，被稱為「合成數據」。這在哈布斯堡王朝，被稱為「近親通婚」。

過去兩年，有幾篇學術論文已經證實，一旦這樣子做後，經過幾次迭代之後，AI就會變得愈來愈糟糕，甚至到了完全不能用的地步。研究人員因此給了這個現象一個暱稱：「哈布斯堡效應」。或者更專業一點的學術名稱為「模型崩潰」。

去掉瑕疵少了多樣性

這個過程，就像你拿著一台影印機，去影印「上一次影印出來的影本」，每次都拿新印出來的文件再去影印，反覆這樣操作幾次之後，你會開始發現，愈印愈糊。

「原始的資料」其實像是一幅充滿了豐富細節、生動色彩，甚至帶有一些小小瑕疵的原創風景畫。當中這些「瑕疵」和「罕見筆觸」（例如冷門知識、幽默感、獨特的寫作風格等等）其實代表了非常重要的「基因多樣性」。

第一次影印（AI第1代）： AI學習了這幅畫，並生成了一份「影本」（合成數據）。這份影本非常出色，99.9%接近原版。但是，AI作為一個統計模型，在訓練的過程當中，它會不自覺地「取平均值」。它會稍微「平滑」掉那些它認為不重要的「瑕疵」（罕見知識），並稍微「強化」那些最常見的特徵（主流觀點）。

率先掌握AI基因工程

第二次影印（AI第2代）：接著，下一代AI拿著那份「第一次的影本」去學習。它會學到99.9%準確、但「稍微平滑過」的版本。然後，它會在這個基礎上「再次取平均值」。

第N次影印（AI第N代）：這個過程不斷重複。AI學習AI的輸出，再學習AI的AI的輸出……這就是我們所謂的「自我參照迴圈」。

事實上，AI公司現在別無選擇，必須想辦法使用「合成數據」來跨越數據之牆，讓AI的能力繼續進步。

因此，接下來的AI競賽，至少在數據層面上，關鍵已經不是誰能造出更大的模型，而是誰能率先掌握「AI基因工程」：

有必要一定程度混血

˙如何在合成數據時，保持最大的「基因多樣性」？

˙如何確保每一代訓練中，都混入一定比例「新鮮的、真實的人類血液」（新的人類資料），以避免「近親通婚」？

歷史早已給人類重要啟發：一個封閉的、只靠自我參照的系統，無論它一開始多麼厲害，最終都將走向僵化和衰敗。AI想要通往更廣闊的未來，就絕不能切斷與豐富、混亂、甚至充滿「瑕疵」的真實世界連結。

也許就跟人一樣，我們不能總是在我們的腦袋裡或是小圈圈裡想事情，還是要持續接觸外面的世界。因此我認為，人類在演化論累積下來的經驗和基礎，將會是下一代AI突破的重要關鍵。（作者現任iKala愛卡拉AI轉型解決方案公司CEO，2020年獲頒Tatler年度「明日領袖」獎）

熱門新聞

訂閱電子報

台北市天氣預報台灣一週天氣預報

相關報導

【從零開始了解AI 系列2】AI學習是重覆試錯、修正的過程

Bear ID熊臉辨識系統不再把泰迪叫成維尼

專注時間力成AI世代決勝點

AI不是機器人而是一種學習方式

大象老虎安啦！ AI科技構建野生動物守護網