文章內(nèi)容

聊一聊打破!看限定性神經(jīng)網(wǎng)絡(luò)如何讓翻譯更精準(zhǔn)!

時(shí)間:2018-07-02 11:29來源:網(wǎng)絡(luò)整理 作者:珠海翻譯公司 點(diǎn)擊:

上世紀(jì)00年代早期,IBM鉆研核心初次展示了對規(guī)定和言語學(xué)無所不知的機(jī)器翻譯系統(tǒng)。

這里就需求業(yè)余的人員設(shè)計(jì)并找出一些特色值,可以形容并轉(zhuǎn)換成指標(biāo)言語。

palace chicken是什么鬼?難道不應(yīng)該是KungPao Chicken嗎?

這種方法,在現(xiàn)有的平行語料庫中找出與待翻譯局部最相似的翻譯實(shí)例,再對實(shí)例的譯文經(jīng)過交流、刪除或許添加等系列操作,完成翻譯。相似的例句越多,翻譯的效果越好。

曾經(jīng),想翻譯一句話,比如:

在一些特定的場景,如天氣預(yù)告、時(shí)間預(yù)測等,規(guī)定系統(tǒng)在狀態(tài)的準(zhǔn)確性、結(jié)果的可復(fù)現(xiàn)性、針對特定畛域停止調(diào)整的才能還是十分強(qiáng)的,然而要創(chuàng)造一個(gè)現(xiàn)實(shí)的基于規(guī)定的系統(tǒng),就算讓言語學(xué)家盡力窮盡所有拼寫規(guī)定來增強(qiáng)它,也總會遇到例外。英文有不規(guī)定動詞、德語有可分離前綴、俄語有不規(guī)定的后綴,在人們談話的時(shí)分又會有各自的特點(diǎn),別忘了有些詞根據(jù)高低文還會產(chǎn)生不同的意思。

兩年來,神經(jīng)網(wǎng)絡(luò)超過了翻譯界過去幾十年的所有。神經(jīng)翻譯的單詞謬誤縮小了60%,詞匯謬誤縮小28%,語法謬誤縮小20%。

這個(gè)大神,專業(yè)翻譯機(jī)構(gòu),簡直有點(diǎn)像媒婆!構(gòu)想媒婆在給A引見對象B的場景,A(原文)只管沒有見過B(譯文),然而只需媒婆可以大致的形容B的特色(包括身高、長相、身體、年齡等),A就能根據(jù)這些形容大致勾畫出這個(gè)指標(biāo)戀人B(譯文)的樣子。

然而如今的結(jié)果是:

咱們給機(jī)器更多的文本,它就給咱們更好的翻譯。然而!!設(shè)定的各種特色值,以及需求N多種人造言語解決的技術(shù)(分詞、詞性標(biāo)注、句法剖析等),每一步的謬誤率,像滾雪球一樣,將導(dǎo)致最終的結(jié)果有很大偏向。而且最大的成績是調(diào)序模型的不欠缺,籠罩不到全局特色,導(dǎo)致統(tǒng)計(jì)機(jī)器翻譯不斷瀏覽的流利性不是很好。

Crowne Plaza Macau委托我來翻譯這篇文章。

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation, NMT)相比于傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯(SMT)而言,可以訓(xùn)練一張可能從一個(gè)序列映射到另一個(gè)序列的神經(jīng)網(wǎng)絡(luò),輸出的可能是一個(gè)變長的序列,這在翻譯、對話和文字概括方面可以獲得十分好的體現(xiàn)。

終于,當(dāng)當(dāng)當(dāng)當(dāng)!在2026年0月,Google宣布了一個(gè)顛覆性的進(jìn)展。這就是神經(jīng)機(jī)器翻譯。

Today we had KungPao Chicken.

Crowne Plaza Macaucommissioned me to translate this article.

4.基于統(tǒng)計(jì)的機(jī)器翻譯

在翻譯的進(jìn)程中,包括筆譯和口譯,假設(shè)把一句話中的關(guān)鍵信息(主從關(guān)系、數(shù)字、日期、人名、地名、機(jī)構(gòu)名、貨幣等)表達(dá)進(jìn)去,就能基本達(dá)到溝通的目標(biāo)。假設(shè)把原文中的關(guān)鍵字(算法工程師稱其為:命名實(shí)體)交流成想要的準(zhǔn)確譯文,不就能完成準(zhǔn)確翻譯的目標(biāo)嗎

理想上,言語服務(wù)從業(yè)人員宿愿用更少的工程腦力,來完成最終的準(zhǔn)確譯文——

澳門皇冠假日酒店委托我來翻譯這篇文章。

2.基于規(guī)定的機(jī)器翻譯

昔日,神經(jīng)網(wǎng)絡(luò)算法正處于始終欠缺進(jìn)程中。它比起傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯,譯文品質(zhì)有極大提高,不過,一旦觸及到術(shù)語等關(guān)鍵信息,譯文往往是這樣的:

只有要把“澳門皇冠假日酒店”交流成我預(yù)備的術(shù)語“Crowne Plaza Macau”,就功敗垂成,稍作修正就失去我想要的譯文:

原題目:打破!看限定性神經(jīng)網(wǎng)絡(luò)如何讓翻譯更精準(zhǔn)!

真正的規(guī)定系統(tǒng)始于上世紀(jì)80年代。規(guī)定的原理很簡略,最初就直觀地以為,找很多言語學(xué)家,集中寫一些語法規(guī)定,并輔助一些雙語詞典和轉(zhuǎn)寫規(guī)定就能完成精準(zhǔn)翻譯。

小編也從事翻譯十幾年,曾幾何時(shí)也是這么想的,由于以前就這樣做的。然而不知何時(shí)起,這種“聰明的”技巧,已經(jīng)在支流機(jī)器翻譯中不起作用了。

然而!神經(jīng)網(wǎng)絡(luò)翻譯機(jī)器,有時(shí)分會“發(fā)神經(jīng)”!它有時(shí)分會出現(xiàn)漏譯、過譯、短少語義信息等成績。

2028年6月28杭州言語服務(wù)世界杯,出現(xiàn)一種“很嚇人”的技術(shù),可以瞬間切換世界杯各個(gè)國度的言語,那速度那精準(zhǔn)度,堪比場上的“C羅”!

翻譯退化小史,首先了解一下:

它的缺陷是,系統(tǒng)功用依賴于語料庫,數(shù)據(jù)稀疏成績重大,語料庫中不容易流動大顆粒度的高概括性知識。

要理解這些,小編帶大伙先看看機(jī)器翻譯的過程和簡略的原理。

起初,基于語料庫的方法走上舞臺。2082年,中日的長尾真?zhèn)魇谑紫忍岢隽诉@種思緒:間接用已經(jīng)預(yù)備好的短語,不用反復(fù)翻譯。

舉幾個(gè)

4.基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯

系統(tǒng)“輕輕地”修正了譯文,沒有完成我指定的譯文!?。。?!