日本中文字幕免费高清视频,特黄特色顶级毛片免费看,久久精品最新免费国产成人

翻譯語種

熱門閱讀

文章內(nèi)容

為你解答斯坦福大學(xué)NLP組開放神經(jīng)機器翻譯代碼庫

時間:2018-05-26 19:27來源:網(wǎng)絡(luò)整理作者:珠海翻譯公司點擊: 146 次

0. 部分留意（預(yù)測）、concatenate、dropout：

vocab.20K.en：

2. 全局留意、點積、dropout：

2. Model 2：

4. 全局留意、雙線性方式、dropout：

vocab.2K.cs：

newstest2026.en：

newstest2024.de：

4. 部分留意（預(yù)測）、點積、dropout：

vocab.60K.en ()

對于剪枝NMT（pruning NMT），請引用以下論文（假設(shè)你對代碼有興味，請聯(lián)絡(luò)咱們）：

詞匯庫（最常見的6萬個詞）：

訓(xùn)練集（蘊含2680萬個句子對）

tst2024.en：

vocab.20K.en：

2. Model 2 ：

vocab.vi：

咱們放出了預(yù)訓(xùn)練好的模型，可能間接經(jīng)過咱們的Matlab代碼利用。

預(yù)訓(xùn)練的模型

newstest2026.cs：

詞匯庫（最常見的詞）：

Hieu Pham

IWSLT'26英文-越南語基于留意的模型（attention-based models）

對于混合NMT（hybrid NMT），請利用這個代碼庫并且引用：

8. 部分留意（預(yù)測）、雙線性方式：

vocab.2K.en：

對于通用的基于留意的NMT（general attention-based NMT），請引用以下論文：

越南語訓(xùn)練集（train.vi）：

newstest2026.de：

4. 部分留意（枯燥）、雙線性方式：

摘要：幾乎之前一切的神經(jīng)機器翻譯（NMT）利用的詞匯都受限，隨后能夠用一個方法來修補未知的單詞。本論文展示了一個全新的能完成開放詞匯神經(jīng)機器翻譯（open vocabulary NMT）的詞-字符處理方法。咱們建設(shè)了一個混合的系統(tǒng)，可以完成大局部的詞級（word level）翻譯，并可查閱稀有詞的字母組成。咱們字符級的循環(huán)神經(jīng)網(wǎng)絡(luò)能計算源詞的表征，并能在需求時恢復(fù)未知的指標(biāo)詞。這種混合的方法還有一個雙重優(yōu)點是，與基于字符的網(wǎng)絡(luò)相比，它更快且更容易訓(xùn)練；同時，它不像基于詞的模型那樣會產(chǎn)生未知的詞。在WMT' 26英文-捷克語的翻譯義務(wù)上，這種混合方法還完成了一個額外的+ 2.2 BLEU分的降職——超過已經(jīng)能解決未知單詞的模型22.4 BLEU分。咱們的最佳系統(tǒng)在這個義務(wù)上達到了新的最佳體現(xiàn)：20.8 BLEU分。咱們證實了咱們的字符模型不只能勝利地學(xué)習(xí)生成方式很好的捷克語詞（這是一種詞匯簡單高度屈折的言語），還能為英文源詞建設(shè)了正確的表征。

vocab.20K.cs：

vocab.en：

vocab.60K.cs：

訓(xùn)練集（蘊含460萬個句子對）

測試集：

newstest2024.cs：

訓(xùn)練集（蘊含24.4萬個句子對）

vocab.char.200.cs ()

代碼庫：https://github字符串/lmthang/nmt.hybrid

newstest2024.en：