台灣大學一位博士生在臉書社團分享繁體中文資料集(fineweb-zhtw),遭中央社提告。中央社指控該生使用的資料集包含自二○一一年至二○二一年間、十四萬筆中央社的新聞內容,而這些內容並未獲得授權,違反了中央社的著作權與智財權。
這是台灣第一件因人工智慧(AI)語言訓練大模型引發的司法案件,中央社是國家通訊社,因此該案在AI科技界引發關注;台灣法律科技領導品牌且有「法學版Google」之稱的七法公司,因抓取競爭對手的資料庫,除創辦人被判刑外,還須賠償一億多元,也是近日科技圈的重大事件。儘管台大生已於日前與中央社達成和解;而相關AI資料庫所涉的司法案件,已突顯台灣打造主權AI訓練語料庫的重要性及必要性。
近日許多人搜尋資料時可能都已發現,搜尋網站上首先跳出來的是「AI概覽」(AI Overview),根據Google的說明,AI概覽是Google推出的一種新功能,利用生成式AI技術,在傳統搜尋結果頁面上方提供一個由AI總結的答案,使用者可在不進入網站的情況下,直接快速獲取所需資訊。生成式AI正在改變人類知識生產的過程與方式,目前主流的AI模型,多以英文為主要訓練基礎,中文部分則以簡體中文為主流,數位語料庫中幾乎不見台灣語料。這種情況沒有改善甚至沒有改變,隨著AI模型的使用愈來愈普遍,台灣的語言、文化與價值觀在數位世界中逐漸被邊緣化。當人們透過AI搜尋資料、特別是與台灣、中文世界等相關資訊時,將難以找到來自台灣的資訊。
例如數發部經過二、三十種AI模型測試後發現,當詢問二次大戰在中國戰場的主力軍隊是「國軍」還是「共軍」時,不少模型會回答「共軍」,明顯與史實不符,然而,因為這些模型是經由簡體中文語料進行的訓練,因此呈現的是中共的觀點。如果各個領域都出現類似的情況,則台灣的觀點與價值,恐怕將會在世人的知識體系中缺席或被人忽略。
為了盡快解決這個困境,數發部正在進行兩項工作,一是研擬《促進資料創新利用發展條例草案》,二是打造台灣的主權AI訓練語料資料庫,預計今年第四季釋出可以上架到台灣主權AI語言資料庫,並開放民間與政府機關等申請使用。為了建構AI語料,需要大量訓練資料,而在使用這些資料時,又可能會違反著作權,如前述台大博士生等案例,因此數發部也決定研擬《台灣主權AI訓練語料授權條款》以備供需雙方參考,妥適消除AI訓練資料引發的爭議。
除了官方,民間也意識到問題的急迫性;資訊經理人協會(IMA)日前發起「台灣通用語料庫」(Taiwan Tongues)計畫,串連文學界、產業界與學術界,期望能夠建構一個自主、開放、高品質的語料庫,不只是要讓台灣擁有自己訓練的語言模型,更希望開放給全球大型語言模型進行訓練與學習,讓台灣的語言、文化與價值觀,能夠成為人類共同的資產,也讓台灣的聲音,不會在人類知識的大海中沉沒。
AI訓練不只要有GPU(圖型處理器)的超強算力,也需要大量訓練語料,可以說,誰提供的語料更多、更好用,誰就掌握未來的話語權;在AI時代,台灣要維繫文化主體性及與國際對話的能力,就必須積極建構台灣主權AI語料庫;現在各國正急速擴充AI語料,我政府的動作還要更加快些。