圖/kimi
文/工研院
「醫生都不懂我的意思,小孩還在發燒,該怎麼辦?」你有過就醫時,醫護人員無法理解病情的狀況嗎?對於聾人來說,這類溝通障礙並非偶然,而是日常生活中長期存在的困境。不僅在醫療溝通上充滿挑戰,即使是單向接收日常氣象資訊或緊急災害訊息,也常受到限制,這些挑戰讓聾人有苦難言。
根據統計,在台灣一位手語翻譯員需服務200多位的聾人,顯示手語翻譯人力嚴重不足。為幫助這些聾人方便與外界連結,在面對緊急狀況,例如颱風、地震等天災時能夠即時掌握最新消息,公視與工研院共同合作開發全球首位「AI手語氣象主播」結合文字翻譯、骨架估測串接與手語影片生成,展現科技改善生活的無限可能。
真實需求 發現靈感
大型基礎模型的崛起,為AI應用帶來更多可能性。工研院的研發團隊原本專注於影像辨識技術研發,某次機緣下訪問苗栗聲暉協會,提及身為一位聾人家長帶孩子看醫生時,手語無法被醫生理解,而書寫速度又過於緩慢,無法快速清楚表達病情狀況的遭遇。這段真實經歷啟發研發團隊:若能將手語即時轉化為語言文字,是否就能解決這樣的溝通問題?於是,期望能將影像辨識技術延伸至手語翻譯,希望透過科技縮短聾人與聽人(聽力正常者)之間的溝通鴻溝。
三大技術 關鍵挑戰
打造AI手語主播是一個跨越多重技術領域的創舉,涉及文字翻譯、骨架估測與串接,以及影像生成三大核心技術。
1。手語翻譯:多樣化資料與AI學習
手語是一種融和語言結構與視覺表現的獨特溝通形式,並且因為地區、教育背景與生活經驗差異而呈現多樣化的表現。工研院團隊利用大型語言模型進行資料擴增,將同一詞彙延伸為多元中文文字表達,以提升模型在不同語句脈絡下的翻譯準確度;同時蒐集並整合不同手譯員的表達方式進行訓練,確保AI能將多樣化的中文文字內容,精準轉換翻譯為對應的手語文本,後續作為詞彙串接與手語影片生成之基礎。
2。骨架建模:高精細手語估測
另外,手語的精髓在手指的細微動作與角度變化,而這類高精細度的估測對AI來說是極具挑戰性的。團隊於研發初期採用人工方式,對手語影片進行骨架標註,再透過監督式深度學習技術建構骨架估測模型,隨著模型效能表現良好,再逐步建立能夠自動預標註骨架的系統。透過持續的資料預標註、人工校正及模型訓練,實現對手指細節的高精準與穩定的估測。後續再透過骨架串接技術,將多個詞彙動作序列平滑整合,確保整體骨架動作連貫一致,呈現自然流暢的視覺效果。
3。影像生成:確保連貫性與穩定度
AI模型依據骨架動作序列進行虛擬主播的影片生成,並同步結合臉部表情與身體姿態,使手語呈現更貼近聾人自然的語言表達風格。影片中之虛擬主播在髮型、服裝等關鍵外觀特徵上維持高度一致性,以確保視覺連貫性與辨識度。更關鍵的是強化手指關節動作的穩定控制與正確呈現,有效避免手指變形或錯誤姿態,確保每一個手語動作皆能清楚、準確地被理解。
氣象新聞 多元服務
目前,AI手語主播將應用於氣象資訊,讓聾人觀眾能夠輕鬆掌握天氣變化,未來不只是食衣住行,還有望進一步擴展至更多領域,包含:緊急災難事件、交通資訊、體育運動、教育等。還有希望進一步應用擴展至聾人手語辨識,幫助聾人與聽人之間的溝通,加深彼此的理解!
公視與工研院共同合作的AI手語氣象主播不僅是一項技術突破,更是對科技應用於社會公益的最佳詮釋。未來,我們期待這項技術能在更多場景中發揮價值,讓溝通無障礙的願景得以實現。