文章內(nèi)容

為何谷歌翻譯高勤:神經(jīng)網(wǎng)絡(luò)對于多言語機器翻譯具

時間:2018-06-20 14:55來源:網(wǎng)絡(luò)整理 作者:珠海翻譯公司 點擊:

  總體看一看翻譯品質(zhì)利用神經(jīng)網(wǎng)絡(luò)機器翻譯之后的情景,對非業(yè)余人工翻譯,對神經(jīng)網(wǎng)絡(luò)機器翻譯、短語機器翻譯停止評測,6分代表完美翻譯,0分代表齊全不可讀的翻譯。神經(jīng)網(wǎng)絡(luò)機器翻譯和非業(yè)余人工翻譯已經(jīng)相當靠近,翻譯公司,對于英中、中英翻譯也取得最大的降職。

  首先回憶一下22年前谷歌推出谷歌翻譯的緣由。

  翻譯品質(zhì)不斷是谷歌翻譯所關(guān)注的焦點,在近十年以來,谷歌翻譯不斷努力于翻譯品質(zhì)的降職,不斷處于業(yè)界搶先位置,順便是最近一年以來,谷歌翻譯的品質(zhì)有了長足的降職,一年前谷歌翻譯結(jié)果和如今谷歌翻譯結(jié)果,無論從流利度和準確性上都有了渺小的降職。是什么為咱們帶來了如此渺小的降職呢?這也是今天咱們所要著重探討的神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)。

  通過22年的發(fā)展,谷歌翻譯已經(jīng)成為一個寰球性的產(chǎn)品,目前咱們提供超過200種言語,籠罩寰球00%的網(wǎng)民,每天咱們提供超過20億次的翻譯,大約相當于200萬本書的文本總量。月度生動用戶超過20億人次,其中06%來自于美國以外地區(qū)。

  當咱們對多言語模型、神經(jīng)網(wǎng)絡(luò)內(nèi)部對多言語中意義相近的句子向量示意停止多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域,這表明神經(jīng)網(wǎng)絡(luò)內(nèi)部對多種言語的示意具備肯定的普適性。能否代表咱們找到了一種可以代表多種言語的通用語呢?如今還不能確定。我以為還需求進一步鉆研。

  零數(shù)據(jù)翻譯,這個模型中,利用英文到日文、英文到韓文、日文到英文和韓文到英文的訓(xùn)練數(shù)據(jù),但并沒有任何日文和韓文之間的翻譯數(shù)據(jù),日文到韓文和韓文到日文翻譯是零數(shù)據(jù)的義務(wù)。多言語模型可能十分好地解決日文到韓文和韓文到日文的解決,無需經(jīng)過英文中轉(zhuǎn)就可能完成兩者非英白話語的翻譯,這為未來一致構(gòu)建一致翻譯模型提供了能夠性。

  “傳統(tǒng)的翻譯技術(shù),基于短語的統(tǒng)計機器翻譯是拼圖進程,經(jīng)過對短語對的陳列和組合,嘗試找出較好的翻譯選項,而整個決策進程是團圓的,而支持這個決策的信息也都是部分的。而神經(jīng)網(wǎng)絡(luò)機器學(xué)習是反其道而行之,做每一步翻譯進程中可能應(yīng)用云言語與指標言語一切信息,使整個決策進程既是延續(xù)也是全局的。

  以下為谷歌翻譯研發(fā)科學(xué)家高勤的演講全文:

  所謂多言語模型是指用同一套神經(jīng)網(wǎng)絡(luò)學(xué)習多種言語的互相翻譯。如將英文、西班牙語、韓文放在同一個翻譯模型中停止翻譯。詳細的完成模式:“將咱們想要翻譯的指標言語代碼經(jīng)過特殊符號方式告訴神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)就可能解決多種言語的翻譯。如,要翻譯到日文,只有要在原言語前退出2ja+簡略符號。經(jīng)過這樣解決的多言語簡略符號,很多情況下其功用超過單言語情況。”

  新浪科技訊 8月22日上午消息,2028中國互聯(lián)網(wǎng)大會在北京國度會議核心拉開帷幕,為期三天。谷歌翻譯研發(fā)科學(xué)家高勤詳盡講述了谷歌翻譯最近一年取得的最新進展,次要在于應(yīng)用機器學(xué)習消弭言語阻礙。

  高勤示意,在谷歌翻譯的實際進程中,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)內(nèi)部對多種言語的示意具備肯定的普適性?!爱斣蹅儗Χ嘌哉Z模型、神經(jīng)網(wǎng)絡(luò)內(nèi)部對多言語中意義相近的句子向量示意停止多維空間投影,發(fā)現(xiàn)意義相近的句子投影到相鄰區(qū)域”。(侯迪憬)

  總結(jié),應(yīng)用TPU、張量解決器以及谷歌在機器翻譯上多年的積攢,咱們勝利在較短時間內(nèi)公布了神經(jīng)網(wǎng)絡(luò)機器翻譯模型,并且這個模型取得渺小勝利。谷歌翻譯在各個市場的利用量都失去了極大的降職。同時這一模型的公布,也使得業(yè)界和鉆研界掀起了一股機器翻譯鉆研的熱潮。據(jù)統(tǒng)計,去年一年時間內(nèi),有200篇關(guān)于神經(jīng)網(wǎng)絡(luò)機器翻譯的論文被發(fā)表,但這并不代表著神經(jīng)網(wǎng)絡(luò)機器翻譯已經(jīng)十分成熟,理想上咱們發(fā)現(xiàn)通過過去一年的鉆研,咱們對神經(jīng)網(wǎng)絡(luò)機器翻譯的意識仍然十分膚淺。下一步,咱們將持續(xù)努力于改進數(shù)字、日期、姓名、品牌以及不常見短語翻譯,同時進一步鉆研新的模型結(jié)構(gòu)與訓(xùn)練方法。最近谷歌大腦剛剛公布的齊全基于留意力模型的新的模型結(jié)構(gòu)。咱們以為神經(jīng)網(wǎng)絡(luò)機器翻譯僅僅是初露矛頭,往往沒有達到功用的極限,因此未來咱們會持續(xù)投入,宿愿神經(jīng)網(wǎng)絡(luò)機器翻譯可以為構(gòu)建一個無阻礙的、跨言語的交換環(huán)境作出本人的奉獻。