一種用于英語翻譯的文本數(shù)據(jù)處理方法
【專利摘要】本發(fā)明提供了一種用于英語翻譯的文本數(shù)據(jù)處理方法,用戶通過帳號(hào)登錄客戶端訪問公共平臺(tái),上傳待翻譯文本,文件處理系統(tǒng)將待翻譯文本以句子為單位進(jìn)行分割,通過搜索系統(tǒng)在數(shù)據(jù)庫中搜索翻譯結(jié)果,對(duì)未搜索到結(jié)果的句子會(huì)被發(fā)布到公共平臺(tái)的任務(wù)發(fā)布系統(tǒng),供其他翻譯用戶領(lǐng)取任務(wù)進(jìn)行翻譯。人工翻譯的結(jié)果會(huì)被存儲(chǔ)到數(shù)據(jù)庫中,以使數(shù)據(jù)庫得到擴(kuò)充,用戶還會(huì)對(duì)翻譯結(jié)果進(jìn)行評(píng)分并一并存儲(chǔ)到數(shù)據(jù)庫中,評(píng)分低的譯文會(huì)被評(píng)分高的譯文所替換,使數(shù)據(jù)庫得到了優(yōu)化。本發(fā)明使機(jī)器翻譯與人工翻譯相結(jié)合,充分發(fā)揮了機(jī)器翻譯與人工翻譯各自的優(yōu)勢(shì),并且隨著數(shù)據(jù)庫的不斷擴(kuò)充及優(yōu)化,會(huì)逐漸減少人工翻譯的量,實(shí)現(xiàn)快捷、準(zhǔn)確、經(jīng)濟(jì)的翻譯方法。
【專利說明】-種用于英語翻語的文本數(shù)據(jù)處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于英語翻譯領(lǐng)域,特別設(shè)及一種用于英語翻譯的文本數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002] 隨著國(guó)際交流的不斷深入,對(duì)英語文件的翻譯需求也越來越大,促使了一大批英 語翻譯工具的出現(xiàn),該些英語翻譯工具通常分為在線版和本地版,而無論在線版還是本地 版都是在數(shù)據(jù)庫中捜索譯文進(jìn)行翻譯,該些翻譯工具的出現(xiàn)極大的滿足了用戶的翻譯需 求,對(duì)提高翻譯效率,推動(dòng)社會(huì)進(jìn)步作出了貢獻(xiàn)。
[0003] 而由于英語的語法、規(guī)則眾多,翻譯工具的數(shù)據(jù)庫中不一定能完全匹配到需要翻 譯的語句,基本上都是將待翻譯語句進(jìn)行一對(duì)一的單詞翻譯,時(shí)態(tài)和語序經(jīng)常會(huì)發(fā)生錯(cuò)誤, 并且翻譯生硬,達(dá)不到翻譯中常說的信、達(dá)、雅的要求,此時(shí)還需要有英語基礎(chǔ)的用戶進(jìn)行 逐句的校對(duì),理順語序,調(diào)整時(shí)態(tài),根據(jù)自己的語法知識(shí)重新組織語言,而對(duì)于英語基礎(chǔ)差 的人來說就無能為力了。
[0004] 請(qǐng)專業(yè)的翻譯人員進(jìn)行人工翻是另一種對(duì)資料翻譯的方法,只是目前請(qǐng)專業(yè)的翻 譯人員進(jìn)行翻譯還需要付昂貴的傭金,并且需等待較長(zhǎng)時(shí)間,翻譯人員的水平也參差不齊, 翻譯人員的主觀意識(shí)也會(huì)對(duì)翻譯結(jié)果產(chǎn)生影響。因此目前急需一種經(jīng)濟(jì)、快捷、又能保證準(zhǔn) 確定的英語翻譯方法。
【發(fā)明內(nèi)容】
[0005] 為了解決上述問題,本發(fā)明提供了一種用于英語翻譯的文本數(shù)據(jù)處理方法,該方 法提高了翻譯的準(zhǔn)確性,提高了翻譯效率。
[0006] 本發(fā)明解決其技術(shù)問題采用的技術(shù)方案是:提供一種用于英語翻譯的文本數(shù)據(jù)處 理方法,包括如下步驟:
[0007] 步驟一、對(duì)第一用戶上傳的文件進(jìn)行文字識(shí)別,獲得第一文本信息;
[000引步驟二、對(duì)所述第一文本信息進(jìn)行分割,識(shí)別所述第一文本信息中的標(biāo)點(diǎn),W句號(hào) 為分割位置,得到W句子為單位的第二文本信息;
[0009] 步驟=、根據(jù)所述第二文本信息進(jìn)行數(shù)據(jù)庫捜索,查找是否有對(duì)應(yīng)或類似的翻譯 目標(biāo)語句,若有則將該目標(biāo)語句作為第=文本信息進(jìn)行輸出,否則轉(zhuǎn)步驟四;
[0010] 步驟四、系統(tǒng)對(duì)第二文本信息每個(gè)句子按照翻譯難度進(jìn)行分類,第二用戶選擇擅 長(zhǎng)的領(lǐng)域及適當(dāng)?shù)碾y度,對(duì)所述第二文本信息進(jìn)行人工翻譯,翻譯文本作為第四文本信息 輸出,并且所述第四文本信息作為目標(biāo)語句存入所述數(shù)據(jù)庫。
[0011] 優(yōu)選的是,步驟四中所述第二用戶可W修改第=文本信息,并作為第五文本信息 進(jìn)行輸出,所述第五文本信息作為目標(biāo)語句存入所述數(shù)據(jù)庫中;
[0012] 優(yōu)選的是,第一用戶對(duì)所述第=文本信息、第四文本信息、第五文本信息W句子為 單位進(jìn)行目標(biāo)語句置信度評(píng)分,所述置信度評(píng)分信息連同目標(biāo)語句存入所述數(shù)據(jù)庫;
[0013] 優(yōu)選的是,所述第一用戶賬戶內(nèi)的一定積分轉(zhuǎn)移到所述第二用戶賬戶內(nèi),作為所 述第二用戶翻譯所述第二文本、第=文本的獎(jiǎng)勵(lì),第一用戶根據(jù)句子的難度調(diào)整獎(jiǎng)勵(lì)積分 的多少。
[0014] 優(yōu)選的是,根據(jù)權(quán)利要求3所述的用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在 于,所述第一用戶對(duì)所述第=文本的置信度評(píng)分,與該文本原始的置信度評(píng)分進(jìn)行加權(quán)計(jì) 算處理,并作為新的置信度評(píng)分信息存入所述數(shù)據(jù)庫,加權(quán)計(jì)算按照如下公式:
[0015] X.=而('.1) +。',巨_ 巧^,Xy + 巧^ i fey
[0016] 〇,'= - vey
[0017] 其中,i為評(píng)分的次數(shù),Xi為經(jīng)i次評(píng)分后的置信度評(píng)分,a i為第一用戶的評(píng)分,A 為置信度評(píng)分的滿分,0 i為偏置度,C為常數(shù),e為歐拉數(shù)。
[0018] 優(yōu)選的是,存儲(chǔ)于所述數(shù)據(jù)庫內(nèi)的同一語句的多個(gè)翻譯目標(biāo)文本,根據(jù)置信度評(píng) 分信息進(jìn)行排列,置信度評(píng)分高的翻譯目標(biāo)文本替換掉置信度評(píng)分低的翻譯目標(biāo)文本。
[0019] 本發(fā)明的有益效果在于;一種用于英語翻譯的文本數(shù)據(jù)處理方法將第一用戶上傳 的文件W句子為單位進(jìn)行分割,降低了后續(xù)捜索翻譯的難度,數(shù)據(jù)庫中捜索到對(duì)應(yīng)的目標(biāo) 文本會(huì)直接進(jìn)行輸出,從而得到翻譯結(jié)果,快速高效的實(shí)現(xiàn)文本的翻譯,節(jié)省了翻譯成本和 時(shí)間。未捜索到對(duì)應(yīng)目標(biāo)文本由第二用戶進(jìn)行人工翻譯,來保證翻譯的準(zhǔn)確性及語法的正 確性。第二用戶翻譯的結(jié)果會(huì)作為目標(biāo)語句存入數(shù)據(jù)庫中,使數(shù)據(jù)庫不斷得到擴(kuò)充,從而增 大了后續(xù)文本捜索的匹配度,減少第二用戶人工翻譯的量。第一用戶對(duì)輸出的目標(biāo)文本進(jìn) 行置信度評(píng)分,置信度評(píng)分信息隨目標(biāo)文本一并存入數(shù)據(jù)庫,相同語句的多種目標(biāo)文本間 會(huì)根據(jù)置信度評(píng)分信息進(jìn)行排序及替換,使數(shù)據(jù)庫得到優(yōu)化,提高了翻譯的準(zhǔn)確性。本發(fā)明 充分發(fā)揮了機(jī)器翻譯與人工翻譯各自的優(yōu)勢(shì),并且隨著數(shù)據(jù)庫的不斷擴(kuò)充及優(yōu)化,會(huì)逐漸 減少人工翻譯的量,實(shí)現(xiàn)快捷、準(zhǔn)確、經(jīng)濟(jì)的翻譯方法。
【專利附圖】
【附圖說明】
[0020] 圖1是本發(fā)明一種用于英語翻譯的文本數(shù)據(jù)處理方法流程圖。
【具體實(shí)施方式】
[0021] 下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案作具體闡述。
[0022] 本發(fā)明提供了一種用于英語翻譯的文本數(shù)據(jù)處理方法如圖1所示,分為W下四個(gè) 步驟:
[0023] 一、第一用戶通過客戶端上傳需要翻譯的文件,系統(tǒng)會(huì)對(duì)該文件進(jìn)行識(shí)別,W得 到計(jì)算機(jī)能夠處理文本信息,通過識(shí)別文件中的字母、空格、標(biāo)點(diǎn)等信息,得到第一文本信 息;
[0024] 二、系統(tǒng)將步驟一中得到的第一文本信息進(jìn)行分割,識(shí)別所述第一文本信息中的 標(biāo)點(diǎn),W句號(hào)為分割位置,將第一文本信息分割為一個(gè)個(gè)單獨(dú)的句子,作為第二文本信息;
[0025] =、系統(tǒng)中有一存儲(chǔ)有大量對(duì)應(yīng)翻譯目標(biāo)文本信息的數(shù)據(jù)庫,在該數(shù)據(jù)庫中根據(jù) 第二文本信息進(jìn)行捜索,查找對(duì)應(yīng)或類似的翻譯目標(biāo)語句,對(duì)于相似度很高的目標(biāo)語句,可 將該語句中區(qū)別的單詞進(jìn)行替換,w第二文本信息中該單詞的常用意替換該目標(biāo)語句中區(qū) 別單詞的語義,該目標(biāo)語句作為第=文本信息進(jìn)行輸出,若在數(shù)據(jù)庫中為捜索到目標(biāo)語句 則轉(zhuǎn)為步驟四;
[0026] 四、第二用戶對(duì)所述第二文本信息進(jìn)行人工翻譯,第二用戶可W參考第一文本的 上下文,和數(shù)據(jù)庫輸出的第=文本信息進(jìn)行翻譯,翻譯目標(biāo)文本作為第四文本信息輸出,并 且將該第四文本信息作為目標(biāo)語句存入數(shù)據(jù)庫中,使數(shù)據(jù)庫得到補(bǔ)充,為下次的數(shù)據(jù)庫捜 索提供便利。
[0027] 此外,在步驟四中第二用戶還可W根據(jù)自己的意愿修改由數(shù)據(jù)庫內(nèi)捜索并輸出的 第=文本信息,使翻譯結(jié)果更為準(zhǔn)確,該翻譯結(jié)果作為第五文本信息進(jìn)行輸出,并該第五文 本信息作為目標(biāo)語句存入所述數(shù)據(jù)庫中,使數(shù)據(jù)庫得到補(bǔ)充。
[002引在由數(shù)據(jù)庫捜索輸出第S文本信息、第二用戶翻譯輸出第四文本信息、和第二用 戶修改第=文本信息得到第五文本信息后,第一用戶對(duì)所述第=文本信息、第四文本信息、 第五文本信息W句子為單位進(jìn)行目標(biāo)語句置信度評(píng)分,第一用戶根據(jù)翻譯的準(zhǔn)確性、語言 的優(yōu)美性、語法的正確性等標(biāo)準(zhǔn),真實(shí)、客觀的評(píng)價(jià)目標(biāo)語句翻譯的好壞,此置信度評(píng)分信 息會(huì)連同該目標(biāo)語句一并存入數(shù)據(jù)庫內(nèi)。
[0029] 數(shù)據(jù)庫捜索輸出第=文本信息具有原始的置信度評(píng)分信息,第一用戶對(duì)其重新進(jìn) 行置信度評(píng)分后,該第一用戶的置信度評(píng)分會(huì)與該第=文本信息原始的置信度評(píng)分進(jìn)行加 權(quán)處理,從而得到第=文本信息新的置信度評(píng)分信息。加權(quán)計(jì)算按照如下公式:
[0030] 乂;=不-I。0 +。!, e [乂,I 乂,I +巧/4 i / Y
[0031] 巧=-
[003引其中,i為評(píng)分的次數(shù),X巧經(jīng)i次評(píng)分后的置信度評(píng)分,a i為第一用戶的評(píng)分,A 為置信度評(píng)分的滿分,為偏置度,C為常數(shù),e為歐拉數(shù)。即置信度評(píng)分是將每個(gè)用戶的 評(píng)分進(jìn)行加權(quán)后得到的,而每次用戶的評(píng)分要再一定的范圍內(nèi),初始時(shí)允許用戶評(píng)分的范 圍較大,隨著評(píng)分人數(shù)的增加,偏置度越來越小,即允許用戶在上次置信度加權(quán)評(píng)分?jǐn)?shù)兩側(cè) 較小的范圍內(nèi)評(píng)分。
[0033] 該新的置信度評(píng)分信息同該第=文本信息一同存入數(shù)據(jù)庫中,從而完成了第=文 本信息置信度評(píng)分的更新,通過眾多第一用戶多次的置信度評(píng)分并加權(quán)后,使該置信度評(píng) 分會(huì)更趨于客觀真實(shí)。
[0034] 另外,數(shù)據(jù)庫捜索輸出第=文本信息和第二用戶修改第=文本信息得到第五文本 信息是對(duì)同一語句的不同翻譯目標(biāo)文本,該些不同的翻譯目標(biāo)文本會(huì)連同它們的置信度評(píng) 分信息一同存入數(shù)據(jù)庫中,數(shù)據(jù)庫內(nèi)會(huì)將它們根據(jù)置信度評(píng)分進(jìn)行排列,在進(jìn)行數(shù)據(jù)庫捜 索時(shí),默認(rèn)輸出置信度評(píng)分最高的翻譯目標(biāo)文本,第一用戶和第二用戶可根據(jù)需要自行查 看其它翻譯目標(biāo)文本。在存入同一語句的不同翻譯目標(biāo)文本過多時(shí),數(shù)據(jù)庫會(huì)根據(jù)置信度 評(píng)分信息,刪除掉評(píng)分最低翻譯目標(biāo)文本,使數(shù)據(jù)庫信息得到更新優(yōu)化,數(shù)據(jù)庫內(nèi)容得到的 優(yōu)勝劣汰,使數(shù)據(jù)庫不致腕腫,又保存有優(yōu)質(zhì)的信息。
[0035] 另外,每個(gè)用戶的客戶端都設(shè)置有積分賬戶,第一用戶需將自己積分賬戶內(nèi)的一 定數(shù)量的積分拿出作為第二用戶人工翻譯的報(bào)酬,第二用戶通過積分獎(jiǎng)勵(lì)可增加翻譯積極 性,盡職盡責(zé)的為第一用戶翻譯,第二用戶可用賺取來的積分作為另一用戶翻譯第二用戶 上傳的待翻譯文件的報(bào)酬。用戶可W通過充值等方式為積分賬戶增加積分,系統(tǒng)還會(huì)定期 的獎(jiǎng)勵(lì)活躍用戶及貢獻(xiàn)較大的一定的積分,增加用戶的忠誠度。對(duì)于惡意進(jìn)行置信度評(píng)分 的第一用戶和惡意翻譯的第二用戶系統(tǒng)會(huì)對(duì)其進(jìn)行扣除積分的處罰,甚至注銷其客戶端信 息。
[0036] 通過W上實(shí)施方式,很好的實(shí)現(xiàn)了本發(fā)明的目的,本發(fā)明提供了一個(gè)良好的生態(tài) 系統(tǒng),用戶可W上傳文件請(qǐng)求翻譯也可翻譯其他用戶上傳的文件,實(shí)現(xiàn)雙贏,翻譯的信息 及置信度評(píng)分信息不斷擴(kuò)充到數(shù)據(jù)庫內(nèi),并且數(shù)據(jù)庫還會(huì)根據(jù)置信度評(píng)分信息自行優(yōu)化信 息,使數(shù)據(jù)庫內(nèi)信息容量越來越大,質(zhì)量越來越優(yōu),實(shí)現(xiàn)飛躍式的發(fā)展,為廣大用戶提供了 便利。在數(shù)據(jù)庫擴(kuò)充到一定程度后,第一用戶上傳的文件基本都可在數(shù)據(jù)庫內(nèi)捜索到,并且 具有極高的準(zhǔn)確性,盡量減少了人工翻譯,使翻譯過程更為便捷、快速。
[0037] 盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列 運(yùn)用,它完全可W被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地 實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限 于特定的細(xì)節(jié)和該里示出與描述的圖例。
【權(quán)利要求】
1. 一種用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在于,包括如下步驟: 步驟一、第一用戶通過登錄客戶端上傳待翻譯文件,并添加待翻譯文件涉及的領(lǐng)域等 信息,系統(tǒng)對(duì)第一用戶上傳的文件進(jìn)行文字識(shí)別,獲得第一文本信息; 步驟二、對(duì)所述第一文本信息進(jìn)行分割,識(shí)別所述第一文本信息中的標(biāo)點(diǎn),以句號(hào)為分 割位置,得到以句子為單位的第二文本信息; 步驟三、根據(jù)所述第二文本信息進(jìn)行數(shù)據(jù)庫搜索,查找是否有對(duì)應(yīng)或類似的翻譯目標(biāo) 語句,若有則將該目標(biāo)語句作為第三文本信息進(jìn)行輸出,否則轉(zhuǎn)步驟四; 步驟四、系統(tǒng)對(duì)第二文本信息每個(gè)句子按照翻譯難度進(jìn)行分類,第二用戶選擇擅長(zhǎng)的 領(lǐng)域及適當(dāng)?shù)碾y度,對(duì)所述第二文本信息進(jìn)行人工翻譯,翻譯文本作為第四文本信息輸出, 并且所述第四文本信息作為目標(biāo)語句存入所述數(shù)據(jù)庫。
2. 根據(jù)權(quán)利要求1所述的用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在于,步驟四中 所述第二用戶可以修改第三文本信息,并作為第五文本信息進(jìn)行輸出,所述第五文本信息 作為目標(biāo)語句存入所述數(shù)據(jù)庫中。
3. 根據(jù)權(quán)利要求2所述的用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在于,第一用戶 對(duì)所述第三文本信息、第四文本信息、第五文本信息以句子為單位進(jìn)行目標(biāo)語句置信度評(píng) 分,所述置信度評(píng)分信息連同目標(biāo)語句存入所述數(shù)據(jù)庫。
4. 根據(jù)權(quán)利要求1或2所述的用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在于,所述第 一用戶賬戶內(nèi)的一定積分轉(zhuǎn)移到所述第二用戶賬戶內(nèi),作為所述第二用戶翻譯所述第二文 本、第三文本的獎(jiǎng)勵(lì),第一用戶根據(jù)句子的難度調(diào)整獎(jiǎng)勵(lì)積分的多少。
5. 根據(jù)權(quán)利要求3所述的用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在于,所述第一 用戶對(duì)所述第三文本的置信度評(píng)分,與該文本原始的置信度評(píng)分進(jìn)行加權(quán)計(jì)算處理,并作 為新的置信度評(píng)分信息存入所述數(shù)據(jù)庫,加權(quán)計(jì)算按照如下公式:
其中,i為評(píng)分的次數(shù),Xi為經(jīng)i次評(píng)分后的置信度評(píng)分,ai為第一用戶當(dāng)前的評(píng)分,A為置信度評(píng)分的滿分,〇i為偏置度,c為常數(shù),e為歐拉數(shù)。
6. 根據(jù)權(quán)利要求5所述的用于英語翻譯的文本數(shù)據(jù)處理方法,其特征在于,存儲(chǔ)于所 述數(shù)據(jù)庫內(nèi)的同一語句的多個(gè)翻譯目標(biāo)文本,根據(jù)置信度評(píng)分信息進(jìn)行排列,置信度評(píng)分 高的翻譯目標(biāo)文本替換掉置信度評(píng)分低的翻譯目標(biāo)文本。
【文檔編號(hào)】G06F17/28GK104503960SQ201510006001
【公開日】2015年4月8日 申請(qǐng)日期:2015年1月7日 優(yōu)先權(quán)日:2015年1月7日
【發(fā)明者】姜華, 程迎新, 單暢, 叢巖, 李一飛, 胡帥, 項(xiàng)睿, 李峰華 申請(qǐng)人:渤海大學(xué)