翻譯技巧Google I/O 大會(huì)公布最新翻譯技術(shù),還有各種機(jī)器翻
簡略說,統(tǒng)計(jì)機(jī)器翻譯首先建設(shè)統(tǒng)計(jì)模型,然后利用實(shí)例庫中的實(shí)例對(duì)統(tǒng)計(jì)模型停止訓(xùn)練,失去需求的言語模型和翻譯模型用于翻譯。
Nirenburg等(2004)指出,在基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)中,實(shí)例語料存在一個(gè)文字片段長度和相似度之間的一個(gè)矛盾。文字片段越長,越不易失去一個(gè)相似度高的婚配;文字片段越短,越能夠失去一個(gè)大致婚配,然而失去低品質(zhì)翻譯結(jié)果的危險(xiǎn)也越大。
這些理論基于Tim Berners-Lee提出的觀念“知識(shí)一旦經(jīng)定義和方式化后,便可能經(jīng)過恣意模式訪問”。萬維網(wǎng)最初的設(shè)計(jì)是宿愿它簡略,去核心化并且盡能夠的易于互動(dòng)。
于是人們末尾探求基于統(tǒng)計(jì)方法和其它翻譯方法的聯(lián)結(jié)運(yùn)用。如統(tǒng)計(jì)的和基于實(shí)例的機(jī)器翻譯系統(tǒng),統(tǒng)計(jì)的和基于規(guī)定的機(jī)器翻譯系統(tǒng),等等。
2.2.基于實(shí)例的機(jī)器翻譯(Example-Based Machine Translation,EBMT):
機(jī)器翻譯基本分類與任務(wù)原理
統(tǒng)計(jì)型機(jī)器翻譯,除了基于噪聲信道理論的系統(tǒng)以外,還有基于最大熵方法的系統(tǒng)。博格(A.L.Berger)在2006年提出人造言語解決中“最大熵方法”(Maximum Entropy Approach)。
基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)可能充分應(yīng)用已有的翻譯結(jié)果,然而實(shí)例庫的維護(hù)需求大量的人工和費(fèi)用;
Sato和Nagao研收回一個(gè)系統(tǒng),用“平面依賴關(guān)系樹”來示意源言語文字和指標(biāo)言語文字。這種關(guān)系樹型數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)高效辨認(rèn)的一種方式。
語音翻譯在翻譯之前添加了一個(gè)言語辨認(rèn)(Speech Recognition)進(jìn)程,構(gòu)成正確的文字內(nèi)容輸入,并且在翻譯進(jìn)程實(shí)現(xiàn)后添加了一個(gè)語音分解(Speech Synthesis)進(jìn)程,構(gòu)成一個(gè)正確的語音內(nèi)容輸出。其中語音辨認(rèn)技術(shù)和語音分解技術(shù)都有著專門鉆研,這里不再贅述。
基于這個(gè)假定的機(jī)器翻譯方法又可能分為三類:間接翻譯法(Direct Translation),中間言語法(Interlingual Approach),和轉(zhuǎn)換法(Transfer Approach)。
2.2.2.語料拆分的碎片化成績:
機(jī)器翻譯的各種原理
2.2多引擎機(jī)器翻譯系統(tǒng)(Multi-Engine MT):
隨著大量歷史翻譯結(jié)果的積攢,出現(xiàn)了基于實(shí)例的機(jī)器翻譯系統(tǒng),人們將這些已經(jīng)實(shí)現(xiàn)的翻譯結(jié)果作為資源庫,應(yīng)用到機(jī)器翻譯中來。
谷歌CEO皮查伊
IBM公司的Brown在2000年首先將統(tǒng)計(jì)模型用于法-英機(jī)器翻譯。其基本思維是:把機(jī)器翻譯成績看成是一個(gè)噪聲信道成績,然后用信道模型來停止解碼。翻譯進(jìn)程被看作是一個(gè)解碼的進(jìn)程,進(jìn)而變成尋求最優(yōu)翻譯結(jié)果的進(jìn)程。
但是利用全人工來制造這些規(guī)定十分昂貴、費(fèi)時(shí),而且易于出錯(cuò)。一個(gè)處理方法便是將以往的歷史翻譯結(jié)果作為資源庫,其中的源言語文字和它對(duì)應(yīng)的指標(biāo)言語譯文作為例子,從中嘗試提取出失當(dāng)?shù)囊?guī)定。方法之一是對(duì)源文字和指標(biāo)言語譯文作人工標(biāo)記以示關(guān)聯(lián)。
筆譯視頻
在許多基于規(guī)定的機(jī)器翻譯系統(tǒng)中,由言語學(xué)家輔助編寫一系列關(guān)于源言語和指標(biāo)言語的語法規(guī)定,以及將源言語數(shù)據(jù)轉(zhuǎn)換為指標(biāo)言語數(shù)據(jù)的轉(zhuǎn)換規(guī)定。
近幾年,機(jī)器翻譯Machine Translation越來越受人們關(guān)注
不利用中間言語,這些言語間的互譯則需求n(n-2)個(gè)模塊。當(dāng)n大于4時(shí),2n小于n(n-2)。咱們知道,世界上的人造言語種類遠(yuǎn)大于4,因此2n個(gè)模塊的數(shù)量遠(yuǎn)小于n(n-2)個(gè)模塊的數(shù)量。
這種中間言語是一種非人造言語,即不是任何國度地區(qū)人們利用的言語;而且它是一種沒有歧義的表達(dá)模式。此外,中間言語不是惟一的,不同的系統(tǒng)采用不同的中間言語。
這里是本次大會(huì)的
2.2.4轉(zhuǎn)換法(Transfer Approach):
2.2.基于規(guī)定的機(jī)器翻譯系統(tǒng)
實(shí)例語料的的范圍和品質(zhì)影響著基于實(shí)例的機(jī)器翻譯系統(tǒng)(EBMT)的翻譯品質(zhì)程度。在某特定畛域獲取高品質(zhì)語料可能大大提高機(jī)器翻譯在此畛域的翻譯品質(zhì),稱為語料(實(shí)例)庫的定制。
其基本任務(wù)原理基于一個(gè)假定,即言語無限的句子可能由有限的規(guī)定推導(dǎo)進(jìn)去。
2.基本類型的機(jī)器翻譯系統(tǒng):
統(tǒng)計(jì)型的機(jī)器翻譯(Statistical MT)可能緩解知識(shí)獲取的瓶頸成績,然而純數(shù)學(xué)的方法難于齊全處理言語中的簡單成績。
德國人奧赫(Franz Joseph Och)等發(fā)現(xiàn),把IBM公司的統(tǒng)計(jì)機(jī)器翻譯基本方程式中的翻譯模型轉(zhuǎn)變?yōu)榉聪蚍g模型,總體的翻譯正確率并沒有升高,由此,他們提出基于最大熵方法的機(jī)器翻譯模型。
2.綜合類型的機(jī)器翻譯系統(tǒng):
在機(jī)器翻譯鉆研中,人們?cè)絹碓桨l(fā)如今翻譯進(jìn)程中正確的理解、領(lǐng)會(huì)源言語的重要性。言語有著其簡單性。其中言語的含糊性是各種機(jī)器翻譯系統(tǒng)所面對(duì)的最固執(zhí)的難題。
Innovation in the Open
這種機(jī)器翻譯系統(tǒng)的基本思維是幾架機(jī)器翻譯引擎同時(shí)停止并行翻譯,并行翻譯的這幾架翻譯引擎分別基于不同的任務(wù)原理,給出多個(gè)翻譯結(jié)果,然后經(jīng)過某種機(jī)制或算法挑選并生成最優(yōu)翻譯結(jié)果停止輸出。
2.4.基于知識(shí)的機(jī)器翻譯系統(tǒng)(Knowledge-Based MT):