亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種機(jī)器翻譯的方法及其設(shè)備的制造方法

文檔序號(hào):9375581閱讀:213來源:國(guó)知局
一種機(jī)器翻譯的方法及其設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器翻譯領(lǐng)域,尤其涉及到一種機(jī)器翻譯的方法及設(shè)備。
【背景技術(shù)】
[0002] 隨著經(jīng)濟(jì)全球化的發(fā)展,不同國(guó)家之間的信息交流和交換變得越來越頻繁。同時(shí), 蓬勃發(fā)展的互聯(lián)網(wǎng)為獲取諸如英語、漢語、法語、德語、日語等各種語言形式的信息提供了 極大的便利。公眾對(duì)于不同語言之間的翻譯需求也變得日益強(qiáng)烈。人工翻譯耗時(shí)較長(zhǎng),成 本較高,已經(jīng)滿足不了人們對(duì)多語言信息日益增長(zhǎng)的需求。機(jī)器翻譯能夠?qū)⒁环N自然語言 自動(dòng)地翻譯為另一種自然語言。利用機(jī)器翻譯快速獲取多語言的信息和資源已成為必然趨 勢(shì)。這使得能提供多語言、高質(zhì)量、易獲取的翻譯服務(wù)的機(jī)器翻譯系統(tǒng)和設(shè)備也變得越來越 重要。近年來在一些國(guó)際組織機(jī)構(gòu)(如歐洲聯(lián)盟)、新聞媒體、全球性的網(wǎng)絡(luò)平臺(tái)、跨國(guó)貿(mào)易 與旅游等政治、網(wǎng)絡(luò)、文化、教育以及商務(wù)環(huán)境中,機(jī)器翻譯已逐漸成為了一種獲取信息和 傳播信息的重要基礎(chǔ)手段。
[0003] 統(tǒng)計(jì)機(jī)器翻譯是目前主流的機(jī)器翻譯技術(shù)。它能夠根據(jù)數(shù)學(xué)模型和算法自動(dòng)地從 平行語料庫(kù)中學(xué)習(xí)到翻譯知識(shí)。統(tǒng)計(jì)機(jī)器翻譯并不需要相關(guān)的語言學(xué)家參與,并且與具體 的語言相對(duì)獨(dú)立。另外,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)開發(fā)部署周期較短,翻譯速度較快,翻譯質(zhì)量較 為魯棒。
[0004] 統(tǒng)計(jì)機(jī)器翻譯模型學(xué)習(xí)到的翻譯知識(shí)通常用規(guī)則表表示。規(guī)則表的質(zhì)量對(duì)翻譯質(zhì) 量起到了關(guān)鍵性的作用。根據(jù)規(guī)則的不同,統(tǒng)計(jì)機(jī)器翻譯模型通??梢苑譃槎陶Z模型、句法 模型、語義模型等。在實(shí)際應(yīng)用中,短語模型和層次短語模型較為成熟,被廣泛使用。一個(gè) 可實(shí)用的統(tǒng)計(jì)機(jī)器翻譯模型通常需要在千萬級(jí)別的雙語句對(duì)語料上訓(xùn)練。這使得經(jīng)由自動(dòng) 學(xué)習(xí)算法得到的規(guī)則表十分龐大。一方面,龐大的規(guī)則表會(huì)占用較多的資源,如存儲(chǔ)時(shí)需要 較大硬盤空間,加載時(shí)需要較多的內(nèi)存;另一方面過大的規(guī)則表也會(huì)增加翻譯解碼過程搜 索空間,降低翻譯速度。
[0005] 現(xiàn)有技術(shù)采用基于強(qiáng)制解碼的方法對(duì)規(guī)則表進(jìn)行過濾。強(qiáng)制解碼技術(shù)指的是將訓(xùn) 練預(yù)料中一個(gè)句對(duì)的源語言端f作為輸入提供給解碼器,用對(duì)應(yīng)的目標(biāo)語言端e硬性約束 翻譯解碼過程的推導(dǎo)d,其中要求d(f) = e。d(f)表示f的一個(gè)翻譯推導(dǎo)d對(duì)應(yīng)的目標(biāo)語 言輸出,滿足這樣條件的推導(dǎo)d,我們稱為標(biāo)準(zhǔn)推導(dǎo)。強(qiáng)制解碼采用期望最大化算法在壓縮 標(biāo)準(zhǔn)推導(dǎo)森林(standard derivative forest compression)中估計(jì)每個(gè)規(guī)則的概率,根據(jù) 設(shè)置的閾值過濾掉概率較低的規(guī)則,從而減少搜索空間。
[0006] 從上可知,由于規(guī)則表中規(guī)則數(shù)量龐大,強(qiáng)制解碼采用期望最大化算法在壓縮標(biāo) 準(zhǔn)推導(dǎo)森林中估計(jì)每個(gè)規(guī)則的概率會(huì)使得計(jì)算代價(jià)較大,并且降低用戶體驗(yàn)。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明實(shí)施例提供了一種機(jī)器翻譯的方法及設(shè)備,旨在解決如何過濾規(guī)則使得使 用過濾后的規(guī)則可以提高機(jī)器翻譯的質(zhì)量。
[0008] 第一方面,一種機(jī)器翻譯的方法,所述方法包括:
[0009] 確定待翻譯數(shù)據(jù)中的每個(gè)語句;
[0010] 獲取所述語句的第一標(biāo)準(zhǔn)推導(dǎo)集,所述第一標(biāo)準(zhǔn)推導(dǎo)集至少包括所述第一翻譯規(guī) 則的頻度信息,所述頻度信息為強(qiáng)制解碼所述語句時(shí)使用所述第一翻譯規(guī)則的次數(shù);
[0011] 根據(jù)所述第一翻譯規(guī)則的頻度信息對(duì)所述第一標(biāo)準(zhǔn)推導(dǎo)集進(jìn)行過濾,獲得第二標(biāo) 準(zhǔn)推導(dǎo)集;
[0012] 根據(jù)所述第二標(biāo)準(zhǔn)推導(dǎo)集和所述待翻譯數(shù)據(jù)獲取翻譯結(jié)果。
[0013] 結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,所述第二標(biāo)準(zhǔn)推導(dǎo)集包 括第二翻譯規(guī)則,所述獲得第二標(biāo)準(zhǔn)推導(dǎo)集之后,還包括:
[0014] 確定所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值;
[0015] 根據(jù)所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值對(duì)所述第二翻譯規(guī)則進(jìn)行壓縮,獲取第三 翻譯規(guī)則;
[0016] 所述根據(jù)所述第二標(biāo)準(zhǔn)推導(dǎo)集和所述待翻譯數(shù)據(jù)獲取翻譯結(jié)果包括:
[0017] 根據(jù)所述第三翻譯規(guī)則和所述語句獲得翻譯結(jié)果。
[0018] 結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式 中,所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值包括正向短語翻譯概率、反向短語翻譯概率、正向詞 匯翻譯概率和反向詞匯翻譯概率;
[0019] 所述根據(jù)所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值對(duì)所述第二翻譯規(guī)則進(jìn)行壓縮,獲取 第三翻譯規(guī)則包括:
[0020] 將所述第二翻譯規(guī)則對(duì)應(yīng)的正向短語翻譯概率、反向短語翻譯概率、正向詞匯翻 譯概率和反向詞匯翻譯概率分別和所述正向短語翻譯概率對(duì)應(yīng)的分?jǐn)?shù)、反向短語翻譯概率 對(duì)應(yīng)的分?jǐn)?shù)、正向詞匯翻譯概率對(duì)應(yīng)的分?jǐn)?shù)乘和反向詞匯翻譯概率對(duì)應(yīng)的分?jǐn)?shù)相乘,將相 乘獲得的積累加為第一概率值;
[0021] 根據(jù)所述第一概率值和預(yù)設(shè)的聚類方法獲取第一碼表,所述第一碼表包括但不限 于65536碼表;所述方法還包括:
[0022] 所述根據(jù)所述第三翻譯規(guī)則和所述語句獲得翻譯結(jié)果,包括:
[0023] 根據(jù)所述第一碼表和所述語句獲得翻譯結(jié)果。
[0024] 結(jié)合第一方面或者第一方面的第一種可能的實(shí)現(xiàn)方式或第一方面的第二種可能 的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式中,所述獲取所述語句的第一標(biāo)準(zhǔn)推導(dǎo) 集,包括:
[0025] 根據(jù)統(tǒng)計(jì)的機(jī)器翻譯的方法和所述語句獲取規(guī)則表Ta,所述規(guī)則表Ta包括各個(gè) 翻譯規(guī)則和所述翻譯規(guī)則的頻度信息;
[0026] 根據(jù)所述翻譯規(guī)則和所述翻譯規(guī)則的頻度信息對(duì)所述語句進(jìn)行強(qiáng)制解碼;
[0027] 將強(qiáng)制解碼所述語句時(shí)使用到的翻譯規(guī)則組合為第一標(biāo)準(zhǔn)推導(dǎo)集。
[0028] 結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式 中,所述根據(jù)所述翻譯規(guī)則和所述翻譯規(guī)則的頻度信息對(duì)所述語句進(jìn)行強(qiáng)制解碼之后,還 包括:
[0029] 獲取強(qiáng)制解碼的結(jié)果;
[0030] 當(dāng)強(qiáng)制解碼成功時(shí),根據(jù)所述強(qiáng)制解碼的結(jié)果獲取K個(gè)推導(dǎo)樹對(duì)應(yīng)的規(guī)則信息,K 為正整數(shù);
[0031] 所述將強(qiáng)制解碼所述語句時(shí)使用到的翻譯規(guī)則組合為第一標(biāo)準(zhǔn)推導(dǎo)集包括:
[0032] 將所述K個(gè)推導(dǎo)樹對(duì)應(yīng)的規(guī)則信息設(shè)置為第一標(biāo)準(zhǔn)推導(dǎo)集。
[0033] 結(jié)合第一方面的第四可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式中, 所述獲取強(qiáng)制解碼的結(jié)果后,還包括:
[0034] 當(dāng)強(qiáng)制解碼失敗時(shí),則獲取強(qiáng)制解碼失敗時(shí)生成的推導(dǎo)樹中的根節(jié)點(diǎn)到子節(jié)點(diǎn)的 規(guī)則信息;
[0035] 所述將強(qiáng)制解碼所述語句時(shí)使用到的翻譯規(guī)則組合為第一標(biāo)準(zhǔn)推導(dǎo)集包括:
[0036] 將所述根節(jié)點(diǎn)到子節(jié)點(diǎn)的規(guī)則信息設(shè)置為第一標(biāo)準(zhǔn)推導(dǎo)集。
[0037] 第二方面,一種機(jī)器翻譯的裝置,所述裝置包括:
[0038] 第一確定單元,用于確定待翻譯數(shù)據(jù)中的每個(gè)語句;
[0039] 第一獲取單元,用于獲取所述語句的第一標(biāo)準(zhǔn)推導(dǎo)集,所述第一標(biāo)準(zhǔn)推導(dǎo)集至少 包括所述第一翻譯規(guī)則的頻度信息,所述頻度信息為強(qiáng)制解碼所述語句時(shí)使用所述第一翻 譯規(guī)則的次數(shù);
[0040] 過濾單元,用于根據(jù)所述第一翻譯規(guī)則的頻度信息對(duì)所述第一標(biāo)準(zhǔn)推導(dǎo)集進(jìn)行過 濾,獲得第二標(biāo)準(zhǔn)推導(dǎo)集;
[0041] 第二獲取單元,用于根據(jù)所述第二標(biāo)準(zhǔn)推導(dǎo)集和所述待翻譯數(shù)據(jù)獲取翻譯結(jié)果。
[0042] 結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述第二標(biāo)準(zhǔn)推導(dǎo)集包 括第二翻譯規(guī)則,所述裝置還包括:
[0043] 第二確定單元,用于確定所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值;
[0044] 第三獲取單元,用于根據(jù)所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值對(duì)所述第二翻譯規(guī)則 進(jìn)行壓縮,獲取第三翻譯規(guī)則;
[0045] 所述第二獲取單元,具體用于:
[0046] 根據(jù)所述第三翻譯規(guī)則和所述語句獲得翻譯結(jié)果。
[0047] 結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式 中,所述第二翻譯規(guī)則對(duì)應(yīng)的概率數(shù)值包括正向短語翻譯概率、反向短語翻譯概率、正向詞 匯翻譯概率和反向詞匯翻譯概率;
[0048] 所述第三獲取單元具體用于:
[0049] 將所述第二翻譯規(guī)則對(duì)應(yīng)的正向短語翻譯概率、反向短語翻譯概率、正向詞匯翻 譯概率和反向詞匯翻譯概率分別和所述正向短語翻譯概率對(duì)應(yīng)的分?jǐn)?shù)、反向短語翻譯概率 對(duì)應(yīng)的分?jǐn)?shù)、正向詞匯翻譯概率對(duì)應(yīng)的分?jǐn)?shù)乘和反向詞匯翻譯概率對(duì)應(yīng)的分?jǐn)?shù)相乘,將相 乘獲得的積累加為第一概率值;
[0050] 根據(jù)所述第一概率值和預(yù)設(shè)的聚類方法獲取第一碼表,所述第一碼表包括但不限 于65536碼表;
[0051] 所述第二獲取單元具體用于:
[0052] 根據(jù)所述第一碼表和所述語句獲得翻譯結(jié)果。
[0053] 結(jié)合第二方面或者第二方面的第一種可能的實(shí)現(xiàn)方式或第二方面的第二種可能 的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式中,所述第一獲取單元,具體用于:
[0054] 根據(jù)統(tǒng)計(jì)的機(jī)器翻譯的方法和所述語句獲取規(guī)則表Ta,所述規(guī)則表Ta包括各個(gè) 翻譯規(guī)則和所述翻譯規(guī)則的頻度信息;
[0055] 根據(jù)所述翻譯規(guī)則和所述翻譯規(guī)則的頻度信息對(duì)所述語句進(jìn)行強(qiáng)制解碼;
[0056] 將強(qiáng)制解碼所述語句時(shí)使用到的翻譯規(guī)則組合為第一標(biāo)準(zhǔn)推導(dǎo)集。
[0057] 結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式,在第二方面的第四種可能的實(shí)現(xiàn)方式 中,所述裝置還包括第四獲取單元,
[0058] 所述第四獲取單元,用于獲取強(qiáng)制解碼的結(jié)果;當(dāng)強(qiáng)制解碼成功時(shí),根據(jù)所述強(qiáng)制 解碼的結(jié)果獲取K個(gè)推導(dǎo)樹對(duì)應(yīng)的規(guī)則信息,K為正整數(shù);
[0059] 所述將強(qiáng)制解碼所述語句時(shí)使用到的翻譯規(guī)則組合為第一標(biāo)準(zhǔn)推導(dǎo)集包括:
[0060] 將所述K個(gè)推導(dǎo)樹對(duì)應(yīng)的規(guī)則信息設(shè)置為第一標(biāo)準(zhǔn)推導(dǎo)集。
[0061] 結(jié)合第二方面的第四種可能的實(shí)現(xiàn)方式,在第二方面的第五種可能的實(shí)現(xiàn)方式 中,所述第四獲取單元還用于:
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1