機器如何聽懂我們說的話？

文／高涌泉（國立台灣大學物理學系教授、台大科學教育｜2021.01.05

1361觀看次

字級

大

中

小

文／高涌泉（國立台灣大學物理學系教授、台大科學教育發展中心主任、《科學人》編輯委員總召）、李宏毅

其實，21世紀人工智慧的發展趨勢，已漸漸地滲透到人們的生活當中。比如現今我們常用的「嘿Siri」或「OK Google」這類手機語音助理，我們對這個「出一張嘴」的動作感到習以為常，只要輕鬆地動動嘴巴，就能讓手機言聽計從，完成我們交付的任務。這個「出一張嘴」的過程之所以能夠順利進行，背後得牽涉到許多語音處理，以及自然語言處理的技術。但是細想：機器是如何聽懂人說話的？AI又如何能分辨人類的語氣（像是「好棒」跟「啊不就好棒棒」這類語氣跟語意的差別？）

要讓機器聽懂人說的話，首先我們需要讓機器可以把聽到的一段聲音訊號變成文字，也就是所謂的語音辨識（speech recognition）。有了這些由聲音訊號辨識出來的文字，不代表機器就已經理解了，對於機器來說這些文字就像是一個沒有學過的語言，還需要透過學習才能夠理解文字的內容。

舉例來說，機器在閱讀新聞時看到「馬英九在520宣誓就職」和「蔡英文在520宣誓就職」這兩個條目，雖然沒有人告訴過機器「馬英九」與「蔡英文」是什麼意思，但是機器能以此推論出這兩個詞彙在某種程度上是相關的；又比如「貓」與「狗」在各類文章中出現的位置關聯比較相近，和「花草樹木」的位置關聯則較遠，機器可能會推論出「貓狗」是一類（動物）、「花草樹木」是另外一類（植物）。如果我們讓機器「讀」愈多的書，機器就愈能推敲不同詞彙之間的遠近關係，猜出它們代表的意思。

有了這樣子的技術之後，機器在詞彙理解之外，也能去進行一些較高層次的簡單推理，例如「A之於B等於C之於什麼？」這類推論。比如說，當被問到「魯夫之於《海賊王》等於鳴人之於什麼？」機器可以推論出答案是《火影忍者》，這種角色和作品的對應關係；對於「研究生之於期刊等於漫畫家之於什麼」，機器可以推論出答案是《少年Jump》，這種特定領域知識和發表平台的對應關係。

（待續）

本文摘自《智慧新世界──圖靈所沒有預料到的人工智慧》

前一篇文章