2009年3月26日 星期四
人類再造巴別塔?以「誤讀」理論觀察Google Translate
我試圖將這段英文透過Google Translate的翻譯:
In the middle of the 20th century, a handful of scientists began a new approach to building intelligent machines, based on recent discoveries in neurology, a new mathematical theory of information, an understanding of control and stability called cybernetics, and above all, by the invention of the digital computer, a machine based on the abstract essence of mathematical reasoning.
得到的結果是:
「在本世紀中葉,少數科學家開始了新的辦法來建設智能機器的基礎上,最近發現在神經內科,一個新的數學理論的信息,了解所謂的控制和穩定控制,最重要的是,由發明數字電腦,一台機器的基礎上抽象的本質,數學推理。」
這段文字有幾處錯誤,其中「本世紀」指的是二十世紀,並非現在的二十一世紀;第二個錯誤是cybemetics指的是1948年由美國應用數學家諾伯特·維納(Norbert Wiener, 1894-1964)所發明的一個新字;第三個是,從文法上看,根本不知所云。
那麼Google翻譯到底可以幫什麼忙?這段翻譯固然是不知所云,但懂得英文者還可以幫忙修正,成為Google Translate的「文本資料庫」(Text Corpus),不過所謂「修正」,在中文的世界裡,有簡繁體之別,更有海峽兩岸三地不同的用法。
就好像一則笑話:電影Top Gun,在台灣,根本不照字面翻譯,片名叫「捍衛戰士」,但在中國則被譯成「好大一把槍」;「披頭四」(Beetles),在中國譯成了「甲蟲合唱團」,這名詞,在台灣樂迷心中,真有徒呼負負之歎。
然而,「好大一把槍」或者「甲蟲」都是Google 翻譯器的正解,反倒是「捍衛戰士」、「披頭四」卻是一種刻意的「誤讀」(misreading),誤讀本身並無貶意,指涉的是:文化傳播和涵化(acculturation) 中的一種普遍現象。不同文化在相互接觸時,會出現激烈的衝突和潛漸的涵化兩種狀況。文化涵化時,本土文化表現為以與自身相和諧的方式對外來文化加以詮釋、 消化和吸收。本土文化對外來文化的“翻譯”常常滲入了自身的理解,但恰恰是這些不準確的充斥著誤讀的譯本,適應了本土社會的需要和本土文化的習慣,消除了 人們對外來文化感通的阻隔而得以迅速傳播。正如同美國的文學批評家布魯姆(Harold Bloom, 1930-)通過延異的概念,認為閱讀是一種延異行為,文學文本的意義在閱讀過程當中,由於不斷的轉換、播撒、延異,最終其原始意義不復存在,而閱讀在某種意義上即是寫作,即是意義的創造(Bloom,1997)。
孟子和孟德斯鳩的思想南轅北轍。孟子學說以「民為貴,社稷次之,君為輕」,被解讀為中國民本思想的本源,其實只是維護統治階層的建言,以天聽自我民聽,建言皇帝傾聽人民的聲音,骨子裡並無民主思想的粹煉;孟德斯鳩則徹底推翻「君權神授」說,否定君主的專制權力,不過,以孟子之說強為孟德斯鳩註解,雖是「誤讀」,卻較為容易以他們中國人的角度,理解民主的思想。
以AI人工智慧去理解人類語言奧秘,從而重建一種暢行無阻的共同語言,可能是一條死胡同。Google Translate的企圖讓我想起聖經上「巴別塔」(Tower of Babel)的故事,創世記第11章1-9節記載:
那時、天下人的口音言語、都是一樣。他們往東邊遷移的時候、在示拿地遇見一片平原、就住在那裏。他們彼此商量說、來吧、我們要作磚、把磚燒透了。他們就拿 磚當石頭、又拿石漆當灰泥。他們說、來吧、我們要建造一座城、和一座塔、塔頂通天、為要傳揚我們的名、免得我們分散在全地上。耶和華降臨要看看世人所建造 的城和塔。耶和華說、看哪、他們成為一樣的人民、都是一樣的言語、如今既作起這事來、以後他們所要作的事、就沒有不成就的了。我們下去、在那裏變亂他們的 口音、使他們的言語、彼此不通。於是耶和華使他們從那裏分散在全地上。他們就停工、不造那城了。因為耶和華在那裏變亂天下人的言語、使眾人分散在全地上、 所以那城名叫巴別。〔就是變亂的意思〕
說著同一種語言的巴別塔很難被建立,因為「誤讀」仍然會自然的發生,其實耶和華不用親自降臨,就算是通行世上的英語,仍然有許多「變體英語」(varieties of English),諸如「新加坡英語」(Singlish)、非洲的迦納英語(Ghana)、加勒比海英語(Caribbean)以及其他「新英語」(New English)等(Crystal, 2002)。
Google Translate再大的文本資料庫都很難超越人類的語言本能(Language Instinct)。Google的人工智慧語言翻譯則必須跳開人類語言的文法規則,不然無法建立其文本資料庫,可是一旦跳開文法規則,就無法去符合人類語言的真髓,吊詭的是,其實「文法」也不一定符合人類的語言遊戲裡,人類語言的本能是:
一、「符號的武斷性」(arbitrainess of the sign):聲音和意義意的配對是武斷的、約定成俗的。用「狗」這個字來詮釋狗,音唸成ㄍㄡˇ,無論用北京話或台灣語,都和狗的旺旺聲乃至於其他的發聲都無關,但ㄍㄡˇ之發音,又是「狗」這個概念意義,著無庸議(我是以某種刻意「誤讀」的方式,來詮釋我的認知)。
二、語言的本能是以有限的中介,去做無限的應用(makes infinite use of finite media)。這個比較容易「誤讀」,比如「香港的香真香」,三個香字在咱們福佬話裡全是不同的意義,發音也全相異,這就是任何人工智慧至今無法解讀的罩門(Pinker, 1994)。
Google Translate以極大型的電子儲存和運算「複數語料庫」(plural corpora)或稱「文本資料庫」(text corpus),來進行統計分析和假檢驗,並經由全世界的網友共同的努力,糾正被誤讀的部份,即便如此,巴別塔仍不可能被建立起來,誤讀仍會繼續創造人類語言的多樣性。
References:
David Crystal, 2002, Language Death, Cambridge University Press.
David Crystal, 2003, English as a Global Language, Cambridge University Press.
Harold Bloom,1997, The anxiety of influence, 2, illustrated, Oxford University Press US.
Steven Pinker, 1994, The language instinct, W. Morrow and Co.
標籤:
網路新知