日韩内射激情视频在线播放免费,成人午夜精品无码区久久,中文字幕av激情不卡

翻譯語(yǔ)種

熱門閱讀

文章內(nèi)容

聊一聊Facebook翻譯謬誤導(dǎo)致一名建筑工人被抓，機(jī)器翻譯

時(shí)間:2018-05-30 09:15來源:網(wǎng)絡(luò)整理作者:珠海翻譯公司點(diǎn)擊: 次

或者經(jīng)過下面這個(gè)例子，可能更顯著地感遭到人類理解噪聲文本的才能與機(jī)器翻譯的才能有多大差別。

4）只要用Nat數(shù)據(jù)集來訓(xùn)練，能力提高Nat數(shù)據(jù)集測(cè)試的魯棒性。這個(gè)結(jié)果表明了計(jì)算模型和人類的體現(xiàn)之間的一個(gè)重要區(qū)別——在學(xué)習(xí)言語(yǔ)時(shí)，人類并沒有明白地裸露在噪聲樣本中。

發(fā)現(xiàn)：

三、數(shù)據(jù)

數(shù)據(jù)集起源：作者選用了TED為IWSLT 2026預(yù)備的測(cè)試數(shù)據(jù)。

2、char2char。這是一個(gè)seq-2-seq的模型，它有一個(gè)簡(jiǎn)單的卷積編碼器、highway、循環(huán)層以及一個(gè)規(guī)范的循環(huán)解碼器。細(xì)節(jié)參見Lee等人（2028）的鉆研。這個(gè)模型在德-英、捷克-英之間的言語(yǔ)對(duì)翻譯上體現(xiàn)十分好。

2、人造噪聲

因?yàn)樯厦娴臄?shù)據(jù)集沒有帶有人造噪聲的平行語(yǔ)料庫(kù)，因此作者抉擇了其余的可用的語(yǔ)料庫(kù)，例如：

BLEU為機(jī)器翻譯結(jié)果與人工翻譯結(jié)果對(duì)比值（縱坐標(biāo)應(yīng)為%，作者遺記標(biāo)注，下同）?？赡芸吹诫S著文本中退出噪聲的比例添加，機(jī)器翻譯的結(jié)果快速降落。
五、兩種方法改進(jìn)模型 2、meanChar模型

從上面的結(jié)果咱們可能看到，三種NMT模型對(duì)單詞的結(jié)構(gòu)都很敏感。Char2char和charCNN模型在字符序列上都有卷積層用來捕獲字符n-gram；Nematus模型則基于由BPE獲得的sub-word單元。因此一切這些模型對(duì)字符亂置（Swap、Mid、Rand）產(chǎn)生的噪聲都會(huì)敏感。

4、charCNN。作者用詞示意訓(xùn)練了一個(gè)基于character卷積神經(jīng)網(wǎng)絡(luò)（CNN）的seq-2-seq的模型。這個(gè)模型保留了一個(gè)單詞的概念，可以學(xué)習(xí)一個(gè)依賴于字符的詞示意。由于它可能學(xué)習(xí)詞的狀態(tài)信息示意，所以這個(gè)模型在狀態(tài)豐富的言語(yǔ)上體現(xiàn)十分好。

法語(yǔ)：Max&Wisniewski在2020年從Wikipedia的編輯歷史中搜集的“維基百科更正和解釋語(yǔ)料庫(kù)”（WiCoPaCo），在本文中僅僅提取了單詞更正的數(shù)據(jù)。

2、人工噪聲

作者生成人工噪聲的方法有四種，分別為替換（Swap）、中間隨機(jī)（Middle Random）、齊全隨機(jī)（Fully Random）和字母謬誤（Key Typo）。

最簡(jiǎn)略的方法就是將一個(gè)單詞的embedding的平均值作為這個(gè)單詞的示意。作者將這種模型稱之為meanChar模型，也即先將單詞示意為一個(gè)平均embedding的單詞示意，然后在利用例如charCNN模型的字級(jí)編碼器。

原題目：Facebook翻譯謬誤導(dǎo)致一名建筑工人被抓，機(jī)器翻譯到底有多軟弱？

用Vanilla文本訓(xùn)練meanChar模型，然后用噪聲文本測(cè)試（因?yàn)樽址麃y置不影響結(jié)果，將Swap、Mid、Rand合為Scr）。結(jié)果如下表第一行所示，可能看出的是，meanChar模型用在法語(yǔ)和德語(yǔ)中對(duì)Scrambled文本體現(xiàn)提高了8個(gè)百分點(diǎn)，但捷克語(yǔ)體現(xiàn)很糟糕，這能夠是因?yàn)槠溲哉Z(yǔ)簡(jiǎn)單的狀態(tài)。

另一方面，咱們還看到分解噪聲訓(xùn)練的模型沒有一個(gè)在Nat數(shù)據(jù)的測(cè)試中體現(xiàn)較好的。這表明人造噪聲分解噪聲有很大的不同。作者人工地檢測(cè)了德語(yǔ)的Nat數(shù)據(jù)集中大約40個(gè)樣本后，發(fā)如今Nat數(shù)據(jù)集中最常見的噪聲起源是言語(yǔ)中的語(yǔ)音或音韻謬誤（44%）和字母遺漏（42%）。這些在分解噪聲中并沒有，所以這表明要生成更好分解噪聲能夠需求更多關(guān)于音素以及相應(yīng)言語(yǔ)的知識(shí)。

但對(duì)機(jī)器翻譯（MT）系統(tǒng)來說，這些文本就幾乎是不可理喻的了。甚至！一不小心還會(huì)形成頑劣的影響。雷鋒網(wǎng)了解到，近日在以色列就有一個(gè)案例，由于機(jī)器翻譯的謬誤，一名建筑工人在他facebook上發(fā)了條形狀后，“勝利”進(jìn)了局子。

2）用Rand數(shù)據(jù)訓(xùn)練出的模型，對(duì)Swap和Mid文本測(cè)試結(jié)果都體現(xiàn)良好；而反之則不成立。這闡明在訓(xùn)練數(shù)據(jù)中更多的噪聲可以提高模型的魯棒性。

那么可能經(jīng)過對(duì)這樣的噪聲減少不變性來提高模型的魯棒性嗎？

“According to a study of Cambridge University, it doesn't matter which technology in a word is going to get the letters in a word that is the only important thing for the first and last letter.”

2、Nematus。這也是一個(gè)seq-2-seq的模型，在去年的WMT和IWSLT上是一種較為盛行的NMT工具包。

如作者所說：“咱們的目標(biāo)有二：

捷克語(yǔ)：數(shù)據(jù)起源于非母語(yǔ)者手動(dòng)注釋的散文。

然而在訓(xùn)練數(shù)據(jù)集中引入噪聲或許不引入噪聲會(huì)帶來多大的影響呢？在不同的言語(yǔ)機(jī)器翻譯訓(xùn)練中引入噪聲結(jié)果能否分歧呢？似乎目前并沒有對(duì)這一成績(jī)嚴(yán)厲的鉆研。

2、黑箱對(duì)抗訓(xùn)練

為了提高模型的魯棒性，作者采用了黑箱對(duì)抗訓(xùn)練的方法，也即用帶噪聲文本訓(xùn)練翻譯模型。

“Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn’t mttaer in waht oredr the ltteers in a wrod are, the olny iprmoetnt tihng is taht the frist and lsat ltteer be at the rghit pclae.”

這是最近幾年十分盛行的一個(gè)句子，試試看能不能讀懂——

2）雖然模型在不同的噪聲下仍然體現(xiàn)不一，但全體平均的體現(xiàn)有所降職。

七、總結(jié)

二、模型

作者抉擇了三種不同的神經(jīng)機(jī)器翻譯（NMT）模型以做對(duì)比，分別為：

雷鋒網(wǎng)留意到，最近來自MIT的Yonatan Belinkov和來自華盛頓大學(xué)的Yonatan Bisk就此成績(jī)?cè)赼rXiv上發(fā)表了一篇無心思的論文。

以色列警方此刻正監(jiān)管網(wǎng)絡(luò)來找一群稱為“l(fā)one-wolf”的恐懼分子，所以立馬就留意到了這條形狀。

一、噪聲對(duì)機(jī)器翻譯影響有多大？

在咱們的文本當(dāng)中，拼寫謬誤（或許稱為噪聲）是很常見的現(xiàn)象，而在人造言語(yǔ)解決的各種神經(jīng)網(wǎng)絡(luò)的訓(xùn)練系統(tǒng)（包括翻譯系統(tǒng)）中卻并沒有一個(gè)明白的計(jì)劃來處理這類成績(jī)。大家可以抱宿愿的模式就是，經(jīng)過在訓(xùn)練數(shù)據(jù)中引入噪聲來減小翻譯進(jìn)程中噪聲帶來的破壞。

首先用如上表，用噪聲文本訓(xùn)練在某些言語(yǔ)（例如法語(yǔ)）上體現(xiàn)良好，然而其魯棒性并不具備鞏固的提高。這也很顯著，meanChar模型并不肯定能處理key或許Nat噪聲的成績(jī)。

齊全隨機(jī)（Rand）：一切單詞的字母隨機(jī)陳列。

論文中，他們應(yīng)用多種噪聲探討了目前神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的軟弱性，并提出兩種增強(qiáng)翻譯系統(tǒng)魯棒性的方法：結(jié)構(gòu)不變?cè)~示意和基于噪聲文本的魯棒性訓(xùn)練。他們發(fā)現(xiàn)一種基于字母卷積神經(jīng)網(wǎng)絡(luò)的charCNN模型在多種噪聲中體現(xiàn)良好。

聊一聊Facebook翻譯謬誤導(dǎo)致一名建筑工人被抓，機(jī)器翻譯

聊一聊Facebook翻譯謬誤導(dǎo)致一名建筑工人被抓，機(jī)器翻譯