台版ChatGPT「TAIDE」最快4月商用

｜2024.03.21

573觀看次

字級

大

中

小

【本報台北訊】國科會昨天說明「TAIDE推動成果與未來展望」，並現場提供媒體實測，由TAIDE-13B試寫學測國文寫作題，進而撰寫具備起承轉合的文章；現場亦由媒體出題，由TAIDE撰寫邀訪信。國科會主委吳政忠表示，最快今年4月中釋出商用TAIDE-7B開放業者用於研發，屆時有望將TAIDE模型內建於電腦、手機等裝置內。

國際大型語言模型（LLM）時常產生偏誤或不符本土文化的回應，國科會於去年4月啟動TAIDE計畫，欲打造台灣專屬大型語言模型。目前已開發商用版本TAIDE-7B，以及學研用版本TAIDE-13B模型，具備多輪對話以及阻絕不恰當回應的能力。

本土語言模型在地知識更豐富

國科會副執行祕書楊佳玲談到，近年LLM崛起，但國際上訓練LLM時中文仍以簡體資料庫為主，內容便容易偏離台灣文化及價值觀，為此台灣必須打造自己的大型語言模型。目前TAIDE-13B在撰寫文章、信件、摘要、中翻英及英翻中時，表現已和ChatGPT3.5相當，且擁有更豐富的在地知識。

國科會提供TAIDE-13B今年學測國寫第一大題試題兩篇文章，TAIDE能確實歸納兩文重點；第2輪實測則要求回答「標籤化」於人身上的正面與負面作用，TAIDE仍記得兩文內容，且能撰寫題目要求；第3輪實測，TAIDE亦能撰寫具起承轉合的文章，並確實寫出對標籤化的看法。

另外，中研院院長廖俊智昨赴立院業務報告，AI議題成為焦點之一。多名立委關注生成式AI的繁體中文資料庫少於簡體，恐讓繁體成文化弱勢，也關注台灣AI立法進度。廖俊智表示，台灣AI立法精神應該是「以人為本」，為了豐富繁體中文版ChatGPT的資料庫，中研院也會努力排除法規限制，盡可能開放院內資料提供ChatGPT語言模型訓練。

歐洲議會近期通過「人工智慧（AI）法案」。立委洪孟楷詢問廖俊智，台灣應盡快進行AI立法，但應採取美日開放式或歐盟的限縮式？廖俊智回應，AI立法的基本精神應是「以人為本」，在考慮個人隱私、智慧財產權及公務機密等原則之下，對台灣社會做出貢獻。至於立法快慢和方向，每個國家的情況不同，他認為應衡量台灣的狀況再決定。

生成式AI資料庫強化繁體中文

立委陳秀寶表示，生成式AI需要大量資料做訓練，但現階段繁體中文的資料庫遠少於簡體，加上台灣學子因大舉入侵的抖音、小紅書，接收大量簡體中文，擔憂繁體中文未來會淪為弱勢。她要求中研院協助整合繁體中文的語言資料。廖俊智回應，會在不違智財權法規的限制下，盡量開放中研院資料庫訓練AI。

為確保AI發展不落人後，日本政府日前宣布將採取「對AI全面開放」的大膽作法，不管是商業或非商業用途，允許AI使用任何資料庫進行訓練。立委葛如鈞詢問廖俊智對此一作法的看法，廖俊智表示，日本的做法相當前瞻，但台灣要跟進還必須研究利弊得失。

去年中研院開發的繁體中文語言模型AI測試版，被網友實測發現回覆「我的國籍是中國」，中研院立刻下架並承諾改進。但立委葉元之表示，他實測此一測試版時，又發現「布希」總統變大陸用語的「布什總統」，希望中研院改進。