【本報台北訊】國科會昨天說明「TAIDE推動成果與未來展望」,並現場提供媒體實測,由TAIDE-13B試寫學測國文寫作題,進而撰寫具備起承轉合的文章;現場亦由媒體出題,由TAIDE撰寫邀訪信。國科會主委吳政忠表示,最快今年4月中釋出商用TAIDE-7B開放業者用於研發,屆時有望將TAIDE模型內建於電腦、手機等裝置內。
國際大型語言模型(LLM)時常產生偏誤或不符本土文化的回應,國科會於去年4月啟動TAIDE計畫,欲打造台灣專屬大型語言模型。目前已開發商用版本TAIDE-7B,以及學研用版本TAIDE-13B模型,具備多輪對話以及阻絕不恰當回應的能力。
本土語言模型 在地知識更豐富
國科會副執行祕書楊佳玲談到,近年LLM崛起,但國際上訓練LLM時中文仍以簡體資料庫為主,內容便容易偏離台灣文化及價值觀,為此台灣必須打造自己的大型語言模型。目前TAIDE-13B在撰寫文章、信件、摘要、中翻英及英翻中時,表現已和ChatGPT3.5相當,且擁有更豐富的在地知識。
國科會提供TAIDE-13B今年學測國寫第一大題試題兩篇文章,TAIDE能確實歸納兩文重點;第2輪實測則要求回答「標籤化」於人身上的正面與負面作用,TAIDE仍記得兩文內容,且能撰寫題目要求;第3輪實測,TAIDE亦能撰寫具起承轉合的文章,並確實寫出對標籤化的看法。
另外,中研院院長廖俊智昨赴立院業務報告,AI議題成為焦點之一。多名立委關注生成式AI的繁體中文資料庫少於簡體,恐讓繁體成文化弱勢,也關注台灣AI立法進度。廖俊智表示,台灣AI立法精神應該是「以人為本」, 為了豐富繁體中文版ChatGPT的資料庫,中研院也會努力排除法規限制,盡可能開放院內資料提供ChatGPT語言模型訓練。
歐洲議會近期通過「人工智慧(AI)法案」。立委洪孟楷詢問廖俊智,台灣應盡快進行AI立法,但應採取美日開放式或歐盟的限縮式?廖俊智回應,AI立法的基本精神應是「以人為本」,在考慮個人隱私、智慧財產權及公務機密等原則之下,對台灣社會做出貢獻。至於立法快慢和方向,每個國家的情況不同,他認為應衡量台灣的狀況再決定。
生成式AI資料庫 強化繁體中文
立委陳秀寶表示,生成式AI需要大量資料做訓練,但現階段繁體中文的資料庫遠少於簡體,加上台灣學子因大舉入侵的抖音、小紅書,接收大量簡體中文,擔憂繁體中文未來會淪為弱勢。她要求中研院協助整合繁體中文的語言資料。廖俊智回應,會在不違智財權法規的限制下,盡量開放中研院資料庫訓練AI。
為確保AI發展不落人後,日本政府日前宣布將採取「對AI全面開放」的大膽作法,不管是商業或非商業用途,允許AI使用任何資料庫進行訓練。立委葛如鈞詢問廖俊智對此一作法的看法,廖俊智表示,日本的做法相當前瞻,但台灣要跟進還必須研究利弊得失。
去年中研院開發的繁體中文語言模型AI測試版,被網友實測發現回覆「我的國籍是中國」,中研院立刻下架並承諾改進。但立委葉元之表示,他實測此一測試版時,又發現「布希」總統變大陸用語的「布什總統」,希望中研院改進。