想要「網羅天下」,英文沒兩把刷子還真不行。不過,「蔡英文」都不擔心,你擔心什麼?
沒錯,用網路上的機器翻譯。「譯得很爛?也沒錯。」不過你也許不知道,一些網路上自動自發的翻譯社群,如中文維基百科、MIT開放式課程中文版,多少都借助機器提高效率。
美國國家標準與技術局11月公布2006年機器翻譯評鑑結果,Google名列前茅。去年它也拿下第一名。
Google為什麼厲害?
看過科幻片吧,科學家把成堆的書倒進機器人嘴裡…,Google的工程師歐赫(Franz Och)也這麼說:「把相當於100萬冊的文字輸入機器翻譯軟體,是提升軟體性能的關鍵。」
不過,Google未必多厲害。
美國電機電子工程師協會等科技界認為:「比賽採用新聞資料,對一般機器翻譯系統不利,因為它們不是針對新聞翻譯而發展,而比較適用於技術文件。光是人名、地名、機構、時間的翻譯,就容易出一大堆錯誤。」
Google採用統計式翻譯,蒐集大量雙語語料,估測目的語言的「組合機率」、「詞彙轉換機率」、「雙語詞序的可能對應機率」。此外,Google更自網路蒐集數以十億計已翻譯的網頁,進行大量統計;當可供比對的資料愈多,就能愈準確,愈接近人工翻譯。
當然,Google距離人工翻譯還很遠。也許它較擅長新聞翻譯,但「只是逐字翻譯,文句根本不通」的批評仍很多。
科學家仍在努力。「例句式翻譯系統」透過雙語語料,搜尋與來源語言最相似的翻譯例句,進行詞彙修正,找出最適當的語義。統計式翻譯也開始整合句子的語法結構,以片語取代單字做為翻譯基礎,並以「語法模型」評估文字重新排列的機率。
專家期待最終能發展「統計式」、「文法規則式」並存的翻譯系統,但在這之前,機器至少提供了單字翻譯、內容大意,減少翻字典的時間。當然,良心的建議是:務必對照原文(英文),否則讀「天書」會瘋掉。
Google翻譯:http://www.google.com/language_toolshl=en