翻譯語(yǔ)種
聊一聊Facebook翻譯謬誤導(dǎo)致一名建筑工人被抓,機(jī)器翻譯
或者經(jīng)過下面這個(gè)例子,可能更顯著地感遭到人類理解噪聲文本的才能與機(jī)器翻譯的才能有多大差別。
4)只要用Nat數(shù)據(jù)集來訓(xùn)練,能力提高Nat數(shù)據(jù)集測(cè)試的魯棒性。這個(gè)結(jié)果表明了計(jì)算模型和人類的體現(xiàn)之間的一個(gè)重要區(qū)別——在學(xué)習(xí)言語(yǔ)時(shí),人類并沒有明白地裸露在噪聲樣本中。
發(fā)現(xiàn):
三、數(shù)據(jù)數(shù)據(jù)集起源:作者選用了TED為IWSLT 2026預(yù)備的測(cè)試數(shù)據(jù)。
2、char2char。這是一個(gè)seq-2-seq的模型,它有一個(gè)簡(jiǎn)單的卷積編碼器、highway、循環(huán)層以及一個(gè)規(guī)范的循環(huán)解碼器。細(xì)節(jié)參見Lee等人(2028)的鉆研。這個(gè)模型在德-英、捷克-英之間的言語(yǔ)對(duì)翻譯上體現(xiàn)十分好。
2、人造噪聲因?yàn)樯厦娴臄?shù)據(jù)集沒有帶有人造噪聲的平行語(yǔ)料庫(kù),因此作者抉擇了其余的可用的語(yǔ)料庫(kù),例如:
BLEU為機(jī)器翻譯結(jié)果與人工翻譯結(jié)果對(duì)比值(縱坐標(biāo)應(yīng)為%,作者遺記標(biāo)注,下同)??赡芸吹诫S著文本中退出噪聲的比例添加,機(jī)器翻譯的結(jié)果快速降落。 從上面的結(jié)果咱們可能看到,三種NMT模型對(duì)單詞的結(jié)構(gòu)都很敏感。Char2char和charCNN模型在字符序列上都有卷積層用來捕獲字符n-gram;Nematus模型則基于由BPE獲得的sub-word單元。因此一切這些模型對(duì)字符亂置(Swap、Mid、Rand)產(chǎn)生的噪聲都會(huì)敏感。 4、charCNN。作者用詞示意訓(xùn)練了一個(gè)基于character卷積神經(jīng)網(wǎng)絡(luò)(CNN)的seq-2-seq的模型。這個(gè)模型保留了一個(gè)單詞的概念,可以學(xué)習(xí)一個(gè)依賴于字符的詞示意。由于它可能學(xué)習(xí)詞的狀態(tài)信息示意,所以這個(gè)模型在狀態(tài)豐富的言語(yǔ)上體現(xiàn)十分好。 法語(yǔ):Max&Wisniewski在2020年從Wikipedia的編輯歷史中搜集的“維基百科更正和解釋語(yǔ)料庫(kù)”(WiCoPaCo),在本文中僅僅提取了單詞更正的數(shù)據(jù)。 作者生成人工噪聲的方法有四種,分別為替換(Swap)、中間隨機(jī)(Middle Random)、齊全隨機(jī)(Fully Random)和字母謬誤(Key Typo)。 最簡(jiǎn)略的方法就是將一個(gè)單詞的embedding的平均值作為這個(gè)單詞的示意。作者將這種模型稱之為meanChar模型,也即先將單詞示意為一個(gè)平均embedding的單詞示意,然后在利用例如charCNN模型的字級(jí)編碼器。 原題目:Facebook翻譯謬誤導(dǎo)致一名建筑工人被抓,機(jī)器翻譯到底有多軟弱? 用Vanilla文本訓(xùn)練meanChar模型 ,然后用噪聲文本測(cè)試(因?yàn)樽址麃y置不影響結(jié)果,將Swap、Mid、Rand合為Scr)。結(jié)果如下表第一行所示,可能看出的是,meanChar模型用在法語(yǔ)和德語(yǔ)中對(duì)Scrambled文本體現(xiàn)提高了8個(gè)百分點(diǎn),但捷克語(yǔ)體現(xiàn)很糟糕,這能夠是因?yàn)槠溲哉Z(yǔ)簡(jiǎn)單的狀態(tài)。 另一方面,咱們還看到分解噪聲訓(xùn)練的模型沒有一個(gè)在Nat數(shù)據(jù)的測(cè)試中體現(xiàn)較好的。這表明人造噪聲分解噪聲有很大的不同。作者人工地檢測(cè)了德語(yǔ)的Nat數(shù)據(jù)集中大約40個(gè)樣本后,發(fā)如今Nat數(shù)據(jù)集中最常見的噪聲起源是言語(yǔ)中的語(yǔ)音或音韻謬誤(44%)和字母遺漏(42%)。這些在分解噪聲中并沒有,所以這表明要生成更好分解噪聲能夠需求更多關(guān)于音素以及相應(yīng)言語(yǔ)的知識(shí)。
五、兩種方法改進(jìn)模型
2、meanChar模型
但對(duì)機(jī)器翻譯(MT)系統(tǒng)來說,這些文本就幾乎是不可理喻的了。甚至!一不小心還會(huì)形成頑劣的影響。雷鋒網(wǎng)了解到,近日在以色列就有一個(gè)案例,由于機(jī)器翻譯的謬誤,一名建筑工人在他facebook上發(fā)了條形狀后,“勝利”進(jìn)了局子。
2)用Rand數(shù)據(jù)訓(xùn)練出的模型,對(duì)Swap和Mid文本測(cè)試結(jié)果都體現(xiàn)良好;而反之則不成立。這闡明在訓(xùn)練數(shù)據(jù)中更多的噪聲可以提高模型的魯棒性。
那么可能經(jīng)過對(duì)這樣的噪聲減少不變性來提高模型的魯棒性嗎?
“According to a study of Cambridge University, it doesn't matter which technology in a word is going to get the letters in a word that is the only important thing for the first and last letter.”
2、Nematus。這也是一個(gè)seq-2-seq的模型,在去年的WMT和IWSLT上是一種較為盛行的NMT工具包。
如作者所說:“咱們的目標(biāo)有二:
捷克語(yǔ):數(shù)據(jù)起源于非母語(yǔ)者手動(dòng)注釋的散文。
然而在訓(xùn)練數(shù)據(jù)集中引入噪聲或許不引入噪聲會(huì)帶來多大的影響呢?在不同的言語(yǔ)機(jī)器翻譯訓(xùn)練中引入噪聲結(jié)果能否分歧呢?似乎目前并沒有對(duì)這一成績(jī)嚴(yán)厲的鉆研。
2、黑箱對(duì)抗訓(xùn)練為了提高模型的魯棒性,作者采用了黑箱對(duì)抗訓(xùn)練的方法,也即用帶噪聲文本訓(xùn)練翻譯模型。
“Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae.”
這是最近幾年十分盛行的一個(gè)句子,試試看能不能讀懂——
2)雖然模型在不同的噪聲下仍然體現(xiàn)不一,但全體平均的體現(xiàn)有所降職。
七、總結(jié)二、模型
作者抉擇了三種不同的神經(jīng)機(jī)器翻譯(NMT)模型以做對(duì)比,分別為:
雷鋒網(wǎng)留意到,最近來自MIT的Yonatan Belinkov和來自華盛頓大學(xué)的Yonatan Bisk就此成績(jī)?cè)赼rXiv上發(fā)表了一篇無心思的論文。
以色列警方此刻正監(jiān)管網(wǎng)絡(luò)來找一群稱為“l(fā)one-wolf”的恐懼分子,所以立馬就留意到了這條形狀。
一、噪聲對(duì)機(jī)器翻譯影響有多大?在咱們的文本當(dāng)中,拼寫謬誤(或許稱為噪聲)是很常見的現(xiàn)象,而在人造言語(yǔ)解決的各種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)(包括翻譯系統(tǒng))中卻并沒有一個(gè)明白的計(jì)劃來處理這類成績(jī)。大家可以抱宿愿的模式就是,經(jīng)過在訓(xùn)練數(shù)據(jù)中引入噪聲來減小翻譯進(jìn)程中噪聲帶來的破壞。
首先用如上表,用噪聲文本訓(xùn)練在某些言語(yǔ)(例如法語(yǔ))上體現(xiàn)良好,然而其魯棒性并不具備鞏固的提高。這也很顯著,meanChar模型并不肯定能處理key或許Nat噪聲的成績(jī)。
齊全隨機(jī)(Rand):一切單詞的字母隨機(jī)陳列。
論文中,他們應(yīng)用多種噪聲探討了目前神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的軟弱性,并提出兩種增強(qiáng)翻譯系統(tǒng)魯棒性的方法:結(jié)構(gòu)不變?cè)~示意和基于噪聲文本的魯棒性訓(xùn)練。他們發(fā)現(xiàn)一種基于字母卷積神經(jīng)網(wǎng)絡(luò)的charCNN模型在多種噪聲中體現(xiàn)良好。