文章內(nèi)容

翻譯公司機(jī)器翻譯簡(jiǎn)史:八十多年來(lái) 人類(lèi)就是要再造一座

時(shí)間:2018-05-19 18:25來(lái)源:網(wǎng)絡(luò)整理 作者:珠海翻譯公司 點(diǎn)擊:

  基于轉(zhuǎn)換的機(jī)器翻譯

  這個(gè)發(fā)明超級(jí)簡(jiǎn)略由各種言語(yǔ)的卡片、打字機(jī)和老式膠片相機(jī)組成,用起來(lái)是這樣的:操作員對(duì)著一段文本中的第一個(gè)詞,找到相應(yīng)的卡片,拍張照,然后用打字機(jī)打出它的狀態(tài)特色,比如說(shuō)這是個(gè)復(fù)數(shù)屬格名詞。然后,將打字機(jī)帶子和相機(jī)膠片組合在一同,每個(gè)詞和它的屬性造成一幀。

  基于句法的SMT

  模型2思考了詞的對(duì)應(yīng),但沒(méi)有思考重新排序。比如說(shuō)描畫(huà)詞和名詞的地位常常變換,無(wú)論模型記憶詞的地位記得多好,都沒(méi)法輸出更好的結(jié)果。

  目前各家在這方面也有所進(jìn)展。例如Google推出了Pixel Buds,而在國(guó)際網(wǎng)易有道、科大訊飛、搜狗等公司也都先后推出了翻譯機(jī)類(lèi)產(chǎn)品。

  IBM隨后在舊事稿中如此形容他們的成就:

  言語(yǔ)不是基于一套固定規(guī)定發(fā)展的,規(guī)定的構(gòu)成遭到不同群體交換、融合的影響。怎樣向一臺(tái)機(jī)器來(lái)解釋這些歷史?

  

  《圣經(jīng)》中記錄,人類(lèi)曾經(jīng)聯(lián)結(jié)起來(lái)興建能通往地獄的高塔,為了阻止人類(lèi)的方案,上帝讓人類(lèi)說(shuō)不同的言語(yǔ),使人類(lèi)相互之間不能溝通,方案因此失敗,人類(lèi)自此各散貨色。

  假設(shè)不是2066年又有兩名蘇聯(lián)科學(xué)家發(fā)現(xiàn)了他的專(zhuān)利,世界上不會(huì)有人知道,曾經(jīng)有人設(shè)想過(guò)這樣一臺(tái)機(jī)器。

  為了改進(jìn)翻譯算法,科學(xué)家們甚至末尾不同言語(yǔ)的舊事網(wǎng)站。

  咱們的例句“Ich will keine Persimonen.”,在英文中應(yīng)該翻譯成“Idonot want Persimmons.”

  學(xué)習(xí)和掌握一門(mén)外語(yǔ),也是中國(guó)先生必須具有的才能。

  每個(gè)體都對(duì)“巴別魚(yú)”這個(gè)概念感到興奮。

  但是,得意洋洋的舊事稿隱藏了一些細(xì)節(jié),誰(shuí)也沒(méi)有提到,這些翻譯的例句通過(guò)了精心的篩選和測(cè)試,掃除了所有歧義。假設(shè)用到日常場(chǎng)景中,這個(gè)系統(tǒng)不會(huì)比一本單詞書(shū)強(qiáng)多少。

  這就是神經(jīng)機(jī)器翻譯。

  長(zhǎng)久以來(lái),人們不斷在尋覓不同言語(yǔ)之間的溝通方法。

  譯文好多了,但還是不太對(duì)。

  不過(guò)這一類(lèi)系統(tǒng)也并非齊全一樣,還可能再細(xì)分為各種子類(lèi)別。

  統(tǒng)計(jì)機(jī)器翻譯

  OpenNMT,另外一個(gè)庫(kù),用于神經(jīng)翻譯機(jī)器。

  假設(shè)有需求,還可能再給系統(tǒng)補(bǔ)充一些小性能,比如里稱(chēng)號(hào)列表、拼寫(xiě)糾錯(cuò)、音譯程序等。

  不思考語(yǔ)序是模型2的大毛病,在某些情況下還很關(guān)鍵。

  2084年,京都大學(xué)的長(zhǎng)尾真提出了一種新想法:間接用已經(jīng)預(yù)備好的短語(yǔ),不用反復(fù)翻譯。

  那是冷戰(zhàn)初期,2064年2月8日,Georgetown–IBM experiment在紐約的IBM總部末尾了,IBM 802計(jì)算機(jī)實(shí)現(xiàn)了史上首例機(jī)器翻譯,主動(dòng)將60個(gè)俄語(yǔ)句子翻譯成了英文。

  Europarl Corpora:[](*)

  這將徹底處理字對(duì)齊成績(jī)。

  但知曉外語(yǔ)一直不是一個(gè)簡(jiǎn)略的是。所以無(wú)論是事實(shí)中,還是科幻電影中,人們不斷宿愿能有一個(gè)機(jī)器,可以讓人不學(xué)外語(yǔ)也能暢快溝通。

  但如今,咱們有了深度學(xué)習(xí),找特色的事件它最善于。卷積神經(jīng)網(wǎng)絡(luò)CNN合適解決圖片,而在文本畛域,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN更合適。

  過(guò)后,前蘇聯(lián)科學(xué)家Peter Troyanskii向蘇聯(lián)科學(xué)院引見(jiàn)了一種能將一種言語(yǔ)翻譯成另一種言語(yǔ)的機(jī)器。

 A6守業(yè)名目秋季招商 好名目招代理無(wú)憂(yōu)

  模型4:引入新詞

  于是,模型4中又添加了兩個(gè)步驟:

  

  △IBM 802

  這種方法出現(xiàn)時(shí)并沒(méi)有立刻風(fēng)靡,但它走出了反動(dòng)的第一步,之后不到6年,就出現(xiàn)了統(tǒng)計(jì)機(jī)器翻譯。

  模型2:思考句中詞序

  一段視頻,解釋了如何構(gòu)建一個(gè)言語(yǔ)翻譯器。

  間接機(jī)器翻譯

  用現(xiàn)代的目光來(lái)看,一切RBMT分支都笨得可怕,所以,除了天氣預(yù)告等特定場(chǎng)景,已經(jīng)見(jiàn)不到這類(lèi)方法。l

  第一波基于規(guī)定的機(jī)器翻譯想法出如今80年代,科學(xué)家們鉆研著翻譯員的任務(wù),想讓輕便宏大的計(jì)算機(jī)來(lái)重現(xiàn)這些行為。

  然而,要?jiǎng)?chuàng)造一個(gè)現(xiàn)實(shí)的RBMT系統(tǒng),就算讓言語(yǔ)學(xué)家盡力窮盡所有拼寫(xiě)規(guī)定來(lái)增強(qiáng)它,也總會(huì)遇到例外。英文有不規(guī)定動(dòng)詞、德語(yǔ)有可分離前綴、俄語(yǔ)有不規(guī)定的后綴,在人們談話(huà)的時(shí)分又會(huì)有各自的特點(diǎn),別忘了有些詞根據(jù)高低文還會(huì)產(chǎn)生不同的意思。要思考一切纖細(xì)規(guī)定,要耗費(fèi)渺小的人力資源。

  

  IBM的第一個(gè)統(tǒng)計(jì)機(jī)器翻譯模型叫做模型2(Model 2)。優(yōu)雅吧?等你看到第二個(gè)模型叫什么就不感覺(jué)了。

  

  就算這樣,機(jī)器翻譯的軍備競(jìng)賽還是末尾了,加拿大、德國(guó)、法國(guó)、中日都投入其中。

  雙語(yǔ)詞典(例如俄英雙語(yǔ)詞典)

  RBMT系統(tǒng)中比較著名的包括PROMPT和Systran,去看看Aliexpress上那些英國(guó)商品名,就能感遭到這個(gè)黃金時(shí)代的氣息。

  用中介語(yǔ)完成間接機(jī)器翻譯顯然也行不通,但別著急,這種思維還會(huì)回歸。

  自行創(chuàng)建神經(jīng)翻譯器的文本指南,來(lái)自TensorFlow。

  比如說(shuō),咱們之前翻譯過(guò)“我要去劇院”這句話(huà),如今要翻譯一句類(lèi)似的話(huà):“我要去電影院”。那么,只需比較一下這兩句話(huà),找出其中的區(qū)別,然后翻譯不一樣的那個(gè)詞“電影院”就好了。已有的例子越多,翻譯結(jié)果就越好。

  但這篇很無(wú)心思的論文并未引發(fā)寬泛關(guān)注,除了Google——他們立刻末尾入手。兩年后的2026年0月,Google宣布了一個(gè)顛覆性的進(jìn)展。

  

  這個(gè)想法繁復(fù)優(yōu)雅。將兩種言語(yǔ)中同義的句子切分成詞停止婚配,然后去計(jì)算“Das Haus”這個(gè)詞有多少次對(duì)應(yīng)著“house”、“building”、“construction”等等。大局部時(shí)分,它是和house相對(duì)應(yīng)的,于是機(jī)器就用了這種譯法。

  基于句法翻譯的支持者以為,這個(gè)方法有能夠與基于規(guī)定的方法兼并。這個(gè)方法是對(duì)句子停止精確的句法剖析,確定主謂賓等,然后構(gòu)建一個(gè)句法樹(shù)。利用這種方法,機(jī)器學(xué)習(xí)在言語(yǔ)之間轉(zhuǎn)換句法單元,并經(jīng)過(guò)單詞或短語(yǔ)翻譯其他局部。

  這個(gè)模型中沒(méi)什么新貨色,它獲得了更多的學(xué)習(xí)參數(shù),處理了單詞地位沖突的成績(jī)。

  翻譯同理。假設(shè)可能找到一句話(huà)里的特色,也可能將一種言語(yǔ)的文字,翻譯成另外一種言語(yǔ)。成績(jī)?cè)谟?,怎樣找到這些特色?

  中介語(yǔ)機(jī)器翻譯

  故事末尾于2044年。

  基于詞的SMT

  這種方法會(huì)將源文本轉(zhuǎn)換為一種中間示意,這種示意法是全世界各種言語(yǔ)通用的,相當(dāng)于笛卡爾幻想“元言語(yǔ)”,遵照通用規(guī)定、能和各種言語(yǔ)互相轉(zhuǎn)換。

  神經(jīng)機(jī)器翻譯(NMT)

  用這種方法,建設(shè)三種言語(yǔ)和中介語(yǔ)之間的轉(zhuǎn)換規(guī)定,就可能實(shí)現(xiàn)這三種言語(yǔ)之間的互相翻譯,而假設(shè)用基于轉(zhuǎn)換的方法,就需求為這三種言語(yǔ)兩兩建設(shè)規(guī)定。

  在這個(gè)進(jìn)程中,沒(méi)有規(guī)定,沒(méi)有詞典,一切的論斷都是機(jī)器根據(jù)統(tǒng)計(jì)數(shù)據(jù)得出的。它背后的邏輯很簡(jiǎn)略,就是“假設(shè)人們都這么翻譯,我也這么翻”。

  三十年前,科學(xué)家們已經(jīng)在嘗試創(chuàng)建通用言語(yǔ)代碼,最后以失敗告終。

  兩年來(lái),神經(jīng)網(wǎng)絡(luò)超過(guò)了翻譯界過(guò)去幾十年的所有。神經(jīng)翻譯的單詞謬誤縮小了60%,詞匯謬誤縮小28%,語(yǔ)法謬誤縮小20%。