Machine Translation: General Overview

維基百科: 機器翻譯是一種透過電腦程序而達成的自動語言翻譯系統。

Abstract

這個章節介紹了機器翻譯的主要觀念和方法,內容涵括了自19501990相關的研究,主要介紹Rule-based system (direct, interlingua, transfer, knowledge based), 及主要的translation tools

 

Introduction

Machine Translation (MT) 的目的為機器對語言做轉譯的動作,需要/不需要翻譯人員的介入,其介定為Human-Aided MT (HAMT)Machine-aided human translation (MAHT)。為了讓機器翻譯能夠更精確,Translation tools提供各種支援包括線上字典,遠端專有名詞資料庫,傳送/接收文字,儲存,整合資源。以上統稱為Translator workstationTranslator workbenches。專有名詞Computer-aided translation (CAT)電腦輔助翻譯,在以後用來代表以電腦為基礎的翻譯系統。在這一章節,我們會說明MT主要的方法與問題,接下來介紹rule-based approaches,最後作一個總結。

 

Principal Approaches and Methodologies

儘管機器翻譯的理想為文章翻譯完成後,不需要再經過人為的校正,亦即機器翻譯能夠產生高水準的作品。但現實上仍然沒有人達成這個目標。除非將翻譯的內容做很大的限制,否則機器翻譯出來的文章,仍需要人做校對。為了減少post-edited,有人提出對於被翻譯的文章先行處理,先標出詞性,時態,子句等等,此動作稱為pre-edited。經過pre-edited處理過的文章,可以減少post-edited的時間。但這個成本太高了。另一種方法為限制翻譯的種類,如此也可以減少post-edited時間。

在整個系統設計上,有三種基本型態

Type 1 (direct translation)

機器翻譯系統被設計成單向翻譯,也就是說,針對一種語言翻譯成另一種語言。  翻譯系統設計成為某一種語言翻譯成另一種特定語言。

Type 2 (interlingua approach)

他能夠涵蓋source languagesemantico-syntactic,也就是說能夠處理多種語言。

Type 3 (transfer approach)

包含三步驟

1. 轉換SL textabstract SL-oriented representations

2. Coverts these into 等價TL-oriented representations

3. 產生最後的TL text

 

Rule-Based Systems

機器翻譯(即:MT)運用語言學規則,讓電腦模擬人腦的翻譯過程識別語法,實現自動翻譯。為了把一種語言翻譯成另一種語言,電腦必須對源語言進行分析,形成規則,再經過程式編譯,最後生成目標語言。但是由於語言的模糊性,要正確分析十分困難,MT的翻譯準確度一直不高。


自上世紀90年代以來,機器翻譯領域的方法基本上可以分為兩大類,即基於規則(Rule- based)的方法和基於語料庫(Corpus-based)的方法。基於規則的方法是傳統的方法,而基於語料庫的方法是80年代以後逐漸發展起來的方法。基於規則的機器翻譯(Machine Translation,MTMT又可以分為基於轉換的方法和基於中間語言(Interlingua-based)的方法,而基於語料庫的方法又可以分為基於統計(Statistic-based)和基於實例(Example-based)的方法。由於沒有哪種機器翻譯方法能夠取得令人滿意的效果,於是,多引擎的思想自然就成為一種提高機器品質的手段。而且這種方法也確實有效。現在,多引擎的方法在機器翻譯系統的開發中已得到廣泛採用。

基於規則的機器翻譯
基於規則的機器翻譯的技術是最成熟的,也是到目前為止應用最廣的,目前有影響的機器翻譯系統都是基於規則的。基於規則的機器翻譯系統就是對語言語句的詞法、語法、語義和句法進行分析、判斷和取捨,然後重新排列組合,生成等價的目標語言。

基於中間語言的方法是對源語言進行分析後產生一種成為中間語言的表示形式,然後直接由這種中間語言的表示形式生成目標語言。所謂中間語言就是自然語言的電腦表示形式的系統化,它試圖創造出一種獨立於各種自然語言,同時又能表示各種自然語言的人工語言。


基於規則的機器翻譯發展到今天,相對來說已比較成熟。雖然經過長期的努力,人們已經建立含有成千上萬個規則的規則庫,覆蓋了相當大的語言現象,但是從理論上講,這種過程仍然很有限。因為語言是一個民族經過幾千年的積累,是約定俗成而又動態發展的。隨著社會的不斷發展,新的詞彙和語言現象不斷出現。現有的機器翻譯系統的規則再多,也只是特定語言現象的概括和總結。因此,基於規則的機器翻譯方法借鑒了其他方法的優點,並產生很多變化,主要體現在以下幾個方面:
在規則的獲取方面,傳統的規則方法主要依靠語言學家總結規則進行調試,而現在更加重視從語料庫中獲取規則(如採用錯誤驅動的學習演算法)

傳統的規則方法往往偏重描述粗粒度的、全局化的大範圍語言學規則知識,而現在則更加重視描述細粒度的、局部的小範圍的語言學知識,呈現出小規則庫、大詞典的趨勢;


在知識表示方面,為了以更小的粒度、更加準確地對翻譯知識進行描述,一般要對單純的上下文無關規則做一些改進;
傳統的規則方法採用的往往是非此即彼的確定性原則,系統的魯棒性較差,而現在規則系統中一般都引入各種形式的概率或評分函數,系統的魯棒性有所提高。
基於語料庫的機器翻譯方法
基於統計的機器翻譯方法和基於實例的機器翻譯方法都是使用語料庫作為翻譯知識的來源。二者的區別在於:在基於統計的機器翻譯方法中,知識的表示是統計數據,而不是語料庫本身,翻譯知識的獲取是在翻譯之前完成,翻譯的過程中不再使用語料庫;而在基於實例的機器翻譯方法中,雙語語料庫本身就是翻譯知識的一種表現形式(不一定是惟一的),翻譯知識的獲取在翻譯之前沒有全部完成,在翻譯的過程中還要查詢並利用語料庫。
統計翻譯的數學模型是由IBM公司的Brown等人提出來的。統計機器翻譯的基本思想是,把機器翻譯看成是一個資訊傳輸的過程,用一種信道模型對機器翻譯進行解釋。假設一段源語言文本S,經過某一噪聲信道後變成目標語言T,也就是說,假設目標語言文本T是由一段源語言文本S經過某種奇怪的編碼得到的,那麼翻譯的目標就是要將T還原成S,這也就是一個解碼的過程。
統計機器翻譯問題被分解為三個問題:語言模型的參數估計;翻譯模型的參數估計;搜索問題,尋找最優的譯文。基於統計的方法需要大規模雙語語料,其翻譯模型、語言模型參數的準確性直接依賴於語料的多少,其翻譯品質主要取決於概率模型的好壞和語料庫的覆蓋能力。同時,翻譯模型、語言模型在簡化過程中也帶來一些缺陷,在簡化和可行之間存在一個權衡問題。基於統計的方法不需要對大量知識的依賴,直接靠統計結果進行歧義消解處理和譯文的選擇,避開了語言理解的諸多難題。但是,語料的選擇和處理不但工程量大,而且需要同實際處理問題相似。因此,通用領域的機器翻譯系統很少以統計方法為主。

 

基於實例的方法(EBMT
基於實例的機器翻譯(Example-Based Machine Translation)思想最早是由著名的日本機器翻譯專家長尾真(Nagao. M.)提出的。其基本設想是不通過深層的分析,而僅僅通過已有的經驗知識,通過類比原理進行翻譯。人類的翻譯過程是首先正確分解輸入句子,將句子分解為短語碎片,接著把這些短語碎片譯成其他語言短語,最後把這些短語合併成長句。每個短語碎片採取類比的原則進行翻譯。這一方法的基本原理歸納起來很簡單:系統的主要知識源是雙語對照的翻譯實例庫,每當輸入一個源語言句子S時,系統找出和S最為相似的句子S',並模倣S'的譯文T'構成S的譯文T然後輸出。這種方法需要一個很大的語料庫作為支撐,為構建語料庫需要投入巨大的人力和物力。
基於實例的機器翻譯方法具有以下一些優點:
系統維護容易系統中知識以翻譯實例和語義詞典等形式存在,可以很容易地利用增加實例和詞彙的方式擴充系統。
容易產生高品質的譯文尤其在利用了較大的翻譯實例庫,或者輸入能和實例精確匹配時更是如此,同時也可以避免一些傳統的基於規則機器翻譯必須進行的深層次語言學分析。
同語種相關的知識很少只要記憶庫中存在外形同輸入相似的句子,就可以進行匹配。而從語料庫中獲取的知識顆粒度比較小,對自然語言的刻畫更為細膩、真實和準確。
由於大規模獲取語言知識的代價非常大,對於詞法、語法和語義的規則的收集概括難以全面,機器翻譯系統的性能一直徘徊不前。利用已經存在的雙語語料庫資源為新的翻譯需求提供經驗,是目前提高機器翻譯系統譯文品質的重要途徑之一。EBMT對於相同或相似的文本的翻譯有非常顯著的效果,隨著例句庫的規模的增加,其作用也越來越顯著。對於實例庫中已有的文本,可以直接獲得高品質的翻譯結果。對於實例庫中存在的實例十分相似的文本,可以通過類比推理,並對翻譯結果進行少量的修改,構造近似的翻譯結果。
基於實例的翻譯具有眾多的優點,在具體實現上又是千差萬別,很多地方還有相當大的潛力,近年來一直是機器翻譯研究的熱點之一。但由於語料庫規模的限制,基於實例的機器翻譯很難達到很高的匹配率,因而,到目前為止還很少有機器翻譯系統採用純粹的基於實例的方法,一般都是把基於實例的機器翻譯作為多翻譯引擎中的一個,以提高翻譯的正確率。

對於機器翻譯(即:MT)產品,企業們都非常看重,因為它的市場前景很好,但卻是一個非常難做的產品。儘管該技術在國內已經非常成熟,但目前在理論上和技術上仍缺乏重大突破。其中一個重要原因在於語言翻譯是很複雜的事情,在電腦上進行邏輯運算很容易,而語言翻譯卻完全是另外一回事。

 

Brief Historical Sketch

綜上所述,未來翻譯技術的發展趨勢大致可以分為以下幾個方面:
1.
機器翻譯在理論上的提高
通過翻譯演算法深層次的研究、上下文相關技術的完善、新翻譯方法的不斷探索、知識庫量的增加導致質的飛躍,機器翻譯的實用性將會不斷提升。翻譯技術在互聯網、數據交換、個人應用等領域將有廣闊的發展空間。
2.
翻譯技術與其他技術的融合
翻譯技術可與通信、多媒體等技術實現跨學科的融合,形成高新技術產品。翻譯技術可融入專業翻譯領域的項目管理、資源管理,成為管理體系的組成部分。
3.
翻譯產品專業化
面向特定領域的翻譯技術,結合專業技術資源庫(包括詞典、語料、規則等數據),可使翻譯工具發揮更大的作用。