AI語音助理 幕後英雄

文/檸檬  |2024.12.16
279觀看次
字級
圖/米各

文/檸檬 

大家跟語音助理聊天過嗎?有沒有想過,為什麼Siri、Google助理,這些語音助理能夠用如此自然的聲音跟我們對話呢?這背後可有一位數學大咖在幫忙喔!它的名字叫「機率論」,顧名思義,就是研究事情發生可能性的學問。

使用機率 語音合成



想像一下,如果我說:「明天可能會下雨」,這裡的「可能」就跟機率有關。如果我更具體的說:「明天火車誤點的機率是70%」,這就是在用數字,也就是數學來表達火車誤點的可能性。在日常生活中,其實經常使用機率,例如:我估計考試及格的可能性是80%、這次公司尾牙抽獎中頭獎的機會是千分之一等。

那麼,機率是如何讓語音助理說話的呢?這個過程叫做「語音合成」,就是把文字變成聲音。如果你是一個語音助理,突然收到一則文字訊息:「今天天氣真好」,要怎麼把這則訊息變成聲音呢?

語音合成的過程大致如下:

分析文字:首先,機器會把這句話拆開,變成「今天」、「天氣」、「真好」這幾個詞。

選擇發音:對於每個詞,機器會從它的「語音庫」中選擇最合適的發音。

連接音素:機器需要把音素(發音最小單位)連結在一起,形成完整句子。

調整語調:最後,經由調整語調,讓句子聽起來自然流暢。

資料選擇 3種合成



我們來看個範例,如果語音助理要說出「我喜歡吃蘋果」這句話。對於「蘋果」這個詞,假設我們的語音庫中有3種不同的發音:

發音A:「我喜歡吃蘋果」——日常對話。

發音B:「蘋果公司發表了新產品」—— 新聞。

發音C:「蘋果樹開花了」——描述 植物。

語音助理該如何選擇呢?這時候,機率論就派上用場了,假設根據大量的語言資料分析:

在日常對話中使用發音A的機率是80%。

在談論科技新聞時使用發音B的機率是70%。

在描述植物時使用發音C的機率是90%。

對於「我喜歡吃蘋果」這句話,顯然是日常對話場景,所以語音助理會選擇發音A,因為這種場景的機率最高。在語音合成中,科學家們經常使用一種叫做「機率圖」的工具。想像一下,你正在玩一個迷宮遊戲,在迷宮的每個轉角,每個方向都有不同的機率讓你找到出口。

在語音合成的「迷宮」中,每個轉角代表一個音素,不同的路徑代表不同的發音方式,而機率則決定了應該選擇哪條路徑。語音助理的任務就是在「迷宮」中找到最可能的路徑,也就是聽起來最自然的發音方式。

你可能會問:「每次都會選擇機率最高的發音嗎?」聰明的問題!為了讓語音聽起來更自然,科學家們在語音合成中加入「隨機性」。偶爾選擇機率稍低的發音,反而讓整體語音聽起來更自然唷。

在語音助理的背後,機率論正在默默的發揮著神奇的力量。它幫助機器理解語言的規律,讓人工智慧可以用自然的方式與我們交流。所以,數學真的無所不在唷!

熱門新聞
訂閱電子報
台北市 天氣預報   台灣一週天氣預報

《人間福報》是一份多元化的報紙,不單只有報導佛教新聞,乃以推動祥和社會、淨化人心為職志,以關懷人類福祉、追求世界和平為宗旨,堅持新聞的準度與速度、廣度與深度,關懷弱勢族群與公益;強調內容溫馨、健康、益智、環保,不八卦、不加料、不阿諛,希冀藉由優質的內涵,體貼大眾身心靈的需要、關懷地球永續經營、延續宇宙無窮慧命,是一份承擔社會責任的報紙。自許成為「社會的一道光明」的《人間福報》任重而道遠,在秉持創辦人星雲大師「傳播人間善因善緣」的理念之際,更將堅持為社會注入清流,讓福報的發行為人間帶來祥和歡喜,具體實現「人間有福報,福報滿人間」的目標。
人間福報社股份有限公司 統編:70470026

 
聯絡我們 隱私權條款

Copyright © 2000-2024 人間福報 www.merit-times.com.tw
All Rights Reserved.