文/高涌泉(國立台灣大學物理學系教授、台大科學教育發展中心主任、《科學人》編輯委員總召)、李宏毅
其實,21世紀人工智慧的發展趨勢,已漸漸地滲透到人們的生活當中。比如現今我們常用的「嘿Siri」或「OK Google」這類手機語音助理,我們對這個「出一張嘴」的動作感到習以為常,只要輕鬆地動動嘴巴,就能讓手機言聽計從,完成我們交付的任務。這個「出一張嘴」的過程之所以能夠順利進行,背後得牽涉到許多語音處理,以及自然語言處理的技術。但是細想:機器是如何聽懂人說話的?AI又如何能分辨人類的語氣(像是「好棒」跟「啊不就好棒棒」這類語氣跟語意的差別?)
要讓機器聽懂人說的話,首先我們需要讓機器可以把聽到的一段聲音訊號變成文字,也就是所謂的語音辨識(speech recognition)。有了這些由聲音訊號辨識出來的文字,不代表機器就已經理解了,對於機器來說這些文字就像是一個沒有學過的語言,還需要透過學習才能夠理解文字的內容。
舉例來說,機器在閱讀新聞時看到「馬英九在520宣誓就職」和「蔡英文在520宣誓就職」這兩個條目,雖然沒有人告訴過機器「馬英九」與「蔡英文」是什麼意思,但是機器能以此推論出這兩個詞彙在某種程度上是相關的;又比如「貓」與「狗」在各類文章中出現的位置關聯比較相近,和「花草樹木」的位置關聯則較遠, 機器可能會推論出「貓狗」是一類(動物)、「花草樹木」是另外一類(植物)。如果我們讓機器「讀」愈多的書,機器就愈能推敲不同詞彙之間的遠近關係,猜出它們代表的意思。
有了這樣子的技術之後,機器在詞彙理解之外,也能去進行一些較高層次的簡單推理,例如「A之於B等於C之於什麼?」這類推論。比如說,當被問到「魯夫之於《海賊王》等於鳴人之於什麼?」機器可以推論出答案是《火影忍者》,這種角色和作品的對應關係;對於「研究生之於期刊等於漫畫家之於什麼」,機器可以推論出答案是《少年Jump》,這種特定領域知識和發表平台的對應關係。
(待續)
本文摘自《智慧新世界──圖靈所沒有預料到的人工智慧》