9热这里只有精品国产,嫩草91香蕉国产观看免费

翻譯語(yǔ)種

熱門閱讀

文章內(nèi)容

翻譯工具如何用技術(shù)搞好英俄翻譯？

時(shí)間:2018-05-12 00:54來(lái)源:網(wǎng)絡(luò)整理作者:珠海翻譯公司點(diǎn)擊: 次

鉆研背景

試驗(yàn)

在NMT的解碼階段，每一個(gè)解碼步驟分別預(yù)測(cè)詞干和詞尾。詞干的生成和NMT原有的網(wǎng)絡(luò)結(jié)構(gòu)分歧。額外的，應(yīng)用以后step生成的詞干、以后decoder端的hidden state和源端的source context信息，經(jīng)過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò)(Feedforwardneural network)生成以后step的詞尾。網(wǎng)絡(luò)結(jié)構(gòu)如下圖：

測(cè)試集包括商品的題目(Title)、概況(Deion)和用戶評(píng)論(Comment)內(nèi)容，示例如下：

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯

咱們提出了一種簡(jiǎn)略、有效的方法來(lái)提高指標(biāo)端是狀態(tài)豐富言語(yǔ)（例如“英-俄”）的NMT系統(tǒng)的翻譯品質(zhì)。在解碼階段的每一個(gè)步驟中，首學(xué)生成詞干，然后生成詞尾。咱們?cè)趦煞NNMT模型(RNN-based NMT和Transformer)上，和基于子詞(subword)和字符(character)的方法停止了對(duì)比，證實(shí)了方法的有效性。咱們利用了大規(guī)模(640萬(wàn))和超大規(guī)模(6000萬(wàn))的語(yǔ)料，在舊事和電子商務(wù)兩個(gè)畛域上進(jìn)一步這種方法可能帶來(lái)鞏固的降職。在咱們的任務(wù)中，詞尾在NMT中初次被專門地建模。前往搜狐，查看更多

并且隨著詞表的增大，預(yù)測(cè)的難度也會(huì)相應(yīng)地添加?；谠~(word)的NMT系統(tǒng)常常會(huì)遭逢“未登錄詞”(Out of vocabulary, OOV)的成績(jī)，順便是指標(biāo)端是一個(gè)狀態(tài)豐富(Morphologically Rich)的言語(yǔ)時(shí)，這個(gè)成績(jī)會(huì)愈加重大。以“英-俄”翻譯為例，俄語(yǔ)是一種狀態(tài)十分豐富的言語(yǔ)，一個(gè)4-6萬(wàn)的詞表往往不能籠罩俄語(yǔ)端的一切詞，會(huì)有很多OOV產(chǎn)生。OOV的出現(xiàn)對(duì)翻譯品質(zhì)的影響是比較大的。

俄語(yǔ)的詞干和詞尾

經(jīng)過(guò)這種模式，數(shù)據(jù)稀疏成績(jī)會(huì)失去緩解，由于詞干的種類會(huì)分明小于詞的種類，而詞尾的種類只要幾百種。

一些翻譯結(jié)果的例子：

摘要

基于子詞(subword)的和基于字符(character)的這兩種方法，從調(diào)整翻譯粒度的角度出發(fā)來(lái)協(xié)助緩解指標(biāo)端狀態(tài)豐富言語(yǔ)的翻譯成績(jī)。一種基于子詞的方法應(yīng)用BPE(Byte Pari Encoding)算法來(lái)生成一個(gè)詞匯表。語(yǔ)料中常常出現(xiàn)的詞會(huì)被保留在詞匯表中，其余的不太常見(jiàn)的詞則會(huì)被拆分成一些子詞。因?yàn)槎鄶?shù)量的子詞就可能拼成全副不常見(jiàn)的詞，因此NMT的詞表中只保留常見(jiàn)詞和這些子詞就可能了。

對(duì)于俄語(yǔ)這種狀態(tài)豐富的言語(yǔ)，詞干(stem)的個(gè)數(shù)會(huì)比詞的個(gè)數(shù)少很多，因此很人造的，咱們會(huì)想到要對(duì)詞干和詞尾(suffix)分別停止建模。咱們?cè)O(shè)計(jì)完成了一種方法，在解碼時(shí)每一個(gè)解碼步驟(decoding step)中，分別預(yù)測(cè)詞干和詞尾。訓(xùn)練階段，指標(biāo)言語(yǔ)端會(huì)利用兩個(gè)序列，分別是詞干序列和詞尾序列。詞干序列和詞尾序列的生成進(jìn)程如下圖所示：

俄語(yǔ)是一種狀態(tài)豐富的言語(yǔ)，單復(fù)數(shù)(number)、格(case)、陰陽(yáng)性(gender)都會(huì)影響詞的狀態(tài)。以名詞“ball”為例，“ball”是一個(gè)中性詞，因此不會(huì)隨陰陽(yáng)性的變化而變化，但當(dāng)單復(fù)數(shù)、格變化時(shí)，會(huì)產(chǎn)生如下多種狀態(tài)：

阿里妹導(dǎo)讀：俄語(yǔ)站是AliExpress最大的國(guó)度分站，每天有大量的商品信息需求由英國(guó)翻譯成俄文，英俄翻譯的品質(zhì)間接影響俄羅斯本地買家的體驗(yàn)。俄語(yǔ)是一種狀態(tài)十分豐富的言語(yǔ)，同一個(gè)意思的俄文單詞根據(jù)其所在語(yǔ)境不同，往往會(huì)有十幾種狀態(tài)變化，這給英俄翻譯帶來(lái)了很大應(yīng)戰(zhàn)。阿里巴巴翻譯團(tuán)隊(duì)的任務(wù)將詞尾預(yù)測(cè)機(jī)制勝利運(yùn)用在基于神經(jīng)網(wǎng)絡(luò)的翻譯模型中，十分有效地緩解了這一成績(jī)。

針對(duì)這個(gè)成績(jī)，俄語(yǔ)翻譯，有很多方法嘗試處理。其中一些方法會(huì)從翻譯粒度的角度出發(fā)(translation granularity)，另外還有一些方法嘗試有效地?cái)U(kuò)充指標(biāo)端詞表大小。這些方法只管能有效地縮小OOV，然而這些方法并沒(méi)有對(duì)指標(biāo)端言語(yǔ)的狀態(tài)(morphology)停止專門的建模。

(“NeuralMachine Translation by Jointly Learning to Align and Translate”, Bahdanau etal., 2026)

一個(gè)俄語(yǔ)詞可能分為兩局部，即詞干和詞尾，詞尾的變化是俄語(yǔ)狀態(tài)變化的表現(xiàn)，詞尾可能表現(xiàn)俄語(yǔ)的單復(fù)數(shù)、格、陰陽(yáng)性等信息。應(yīng)用一個(gè)基于規(guī)定的俄語(yǔ)詞干獲取工具，可能失去一個(gè)俄語(yǔ)句子中每一個(gè)詞的詞干和詞尾。

(“AttentionIs All You Need”, Ashish Vaswani et al., 2028)

（詞干序列和詞尾序列的生成，“N”示意詞干和詞自身相反，即這個(gè)詞沒(méi)有詞尾）

最后，將生成的詞干和詞尾拼接在一同，就是以后step的譯文單詞。

總結(jié)

本文在兩種次要的神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)上驗(yàn)證了“基于詞尾預(yù)測(cè)”的方法的有效性，分別是基于遞歸神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯(Recurrent Neural Network Based, RNN-based)和谷歌在28年提出的最新的神經(jīng)網(wǎng)絡(luò)翻譯模型(Transformer)，具體引見(jiàn)可能查看相應(yīng)論文。RNN-based神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯如下圖：

咱們的任務(wù)提出了一種創(chuàng)新的方法，不只可以經(jīng)過(guò)管制翻譯粒度來(lái)縮小數(shù)據(jù)稀疏，進(jìn)而縮小“未登錄詞”，還可能經(jīng)過(guò)一個(gè)有效的詞尾預(yù)測(cè)機(jī)制，大大升高指標(biāo)端俄語(yǔ)譯文的狀態(tài)謬誤，提高英俄翻譯品質(zhì)。經(jīng)過(guò)和多個(gè)比較有影響力的已有任務(wù)（基于subword和character的方法）對(duì)比，在6000萬(wàn)量級(jí)的超大規(guī)模的數(shù)據(jù)集上，咱們的方法可能勝利地在基于RNN和Transformer兩種支流的神經(jīng)網(wǎng)絡(luò)翻譯模型上失去鞏固的降職。

已有的任務(wù)次要關(guān)注在如何調(diào)整翻譯粒度以及擴(kuò)充詞表大小兩個(gè)維度上，這些任務(wù)可能縮小“未登錄詞”的產(chǎn)生，然而言語(yǔ)自身的狀態(tài)成績(jī)并沒(méi)有被真正鉆研和專門處理過(guò)。

會(huì)議：AAAI-28

第一個(gè)例子中，標(biāo)號(hào)為2和2的俄語(yǔ)詞的狀態(tài)代表著這個(gè)詞是一個(gè)反身動(dòng)詞(reflexive verb)，反身動(dòng)詞的間接賓語(yǔ)和主語(yǔ)是同一個(gè)事物，換句話說(shuō)，反身動(dòng)詞的施事者和受事者是同一個(gè)事物。從源端句子中可能看出，“return”的施事者是購(gòu)置商品的人，受事者是某個(gè)要退還的商品，因此2和2的譯文詞是謬誤的。4的譯文詞是正確的，它的詞尾代表著它是一個(gè)不定式動(dòng)詞(infinitive verb)，這個(gè)不定式動(dòng)詞是可能有賓語(yǔ)的。在第二個(gè)例子中，標(biāo)號(hào)2和2代表復(fù)數(shù)方式，4代表單數(shù)。第三個(gè)例子中，4代表過(guò)去時(shí)，2和2代表如今時(shí)。上面的例子中，相比于基于子詞和基于字符的模型，咱們的模型可能產(chǎn)生更正確的俄語(yǔ)狀態(tài)。

還有一種基于字符的NMT系統(tǒng)，源端句子和指標(biāo)端句子都會(huì)示意為字符的序列，這種系統(tǒng)對(duì)源端狀態(tài)豐富的言語(yǔ)可能解決得比較好，并且經(jīng)過(guò)在源端引入卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)，遠(yuǎn)距離的依賴也可能被建模。上述兩種模式只管可能緩解數(shù)據(jù)稀疏，然而并沒(méi)有專門對(duì)言語(yǔ)的狀態(tài)停止建模，子詞和字符并不是一個(gè)殘缺的言語(yǔ)學(xué)單元(unit)。

翻譯工具如何用技術(shù)搞好英俄翻譯？

翻譯工具如何用技術(shù)搞好英俄翻譯？