科技推陳出新語音辨識率日益提升

｜2014.06.14

語音朗讀

1289觀看次

字級

大

中

小

近幾年許多國家都積極發展聲控科技，甚至還出現了聲控機器人。圖／蔡永彬

語音辨識依應用特性層面不同，可分為下列幾種類別：

1. 按詞彙量大小分類。每個語音辨識系統都有一個詞彙表，系統只能識別詞彙表中所包含的詞句。一般詞彙量可分為小詞彙、中詞彙和巨量詞彙等三類，通常小詞彙包括10~100個詞句，中詞彙大約包括100~500個詞句，而巨量詞彙至少包含500個以上的詞句。一般情況下，語音辨識的正確率會隨著詞彙量的增加而下降。

2. 按發音方式分類。語音辨識可以分為單字（Isolated Word）辨識、連接字（Connected Word）辨識、連續語音（Continuous Speech）辨識以及關鍵詞檢出（Keyword Spotting）等。

3. 按語者分類。可分為特定語者（Speaker Dependent）和非特定語者（Speaker Independent）兩種。前者只能辨識特定人的聲音，其他人要想使用這樣的系統必須事先對系統進行訓練；而對於後者，機器能辨識任意人的發音。由於語音信號的可變性很大，這種系統要能從眾多不同人的發音樣本中學習到非特定語者的發音特徵參數，並歸納出其相似性來作為辨識標準。

4. 從語音辨識的方法分類。有模式匹配法、隨機模型法和機率語法分析法。這些方法都屬於統計模型辨識方法。其辨識過程大致如下：首先擷取語音信號的特徵來建構參考模式，然後用一個可以衡量未知模式和參考模式之間相似度的度量函數，選用一種最佳準則和專家知識做出辨識判定，給出識別結果。其中模式匹配法是將測試語音與參考模式的參數一一進行比較與匹配，判定的依據是失真最小準則。隨機模型法是一種使用隱藏式馬可夫模型（HMM）來對相似函數進行估計與判定，從而得到相應的辨識結果的方法。由於隱藏式馬可夫模型具有狀態函數，所以這個方法可以利用語音頻譜的內在變化（如說話速度、不同語者特性等）和它們的相關性。機率語法分析法適用於大範圍的連續語音識別，它可以利用連續語音中的語法約束來對相似函數進行估計和判定。其中，語法可以用參數形式或非參數形式來表示。

受惠於這幾年中央處理器（CPU）的效能大幅提升與雲端計算應用的日益普及，以往需要大型電腦才能執行的語音辨識功能已經可以在小型智慧型手機上完成，車用的語音聲控的基本程序可分成以下步驟：

1. 語音指令錄音：使用者按下在方向盤附近的『聲控』按鈕後，車內的麥克風便會開始錄製使用者下達的語音指令信號。

2. 語音信號前處理：由於車內環境並非完全靜音，前一步驟所錄製的語音信號可能有雜訊干擾，需要先進行雜訊消除的動作。

3. 語音特徵值擷取：將濾除雜訊後的語音信號擷取出資料量較小的語音特徵值，以便進行下一步驟的語音指令比對。

4. 語音指令辨識：將前一步驟取得的語音特徵值與資料庫的語音指令進行比對，此步驟可能會使用到自然語言理解與雲端計算功能，讓使用者所講的口語化指令可被順利辨識。

5. 車內設備執行對應的語音指令：例如語音聲控系統辨識出使用者想撥放FM 104.9的警廣電台後，便會將車上音響切換到使用者想聽的電台。整個過程使用者不需要動手設定音響，只需用嘴巴說出「FM 104.9」即可。