本發(fā)明涉及英語翻譯技術(shù)領(lǐng)域,具體為一種用于英語翻譯的文本數(shù)據(jù)處理方法。
背景技術(shù):
隨著國(guó)際交流的不斷深入,對(duì)英語文件的翻譯需求也越來越大,促使了一大批英語翻譯的工具的出現(xiàn),這些英語翻譯工具通常分為在線版和本地版,而無論在線版和本地版都是在數(shù)據(jù)庫(kù)中搜索譯文進(jìn)行翻譯,這些翻譯工具的出現(xiàn)極大的滿足了用戶的翻譯需求,對(duì)提高翻譯效率,推動(dòng)社會(huì)進(jìn)步作出了貢獻(xiàn)。
而由于英語的語法、規(guī)則眾多,翻譯工具的數(shù)據(jù)庫(kù)中不一定能夠完全匹配到需要翻譯的語句,基本上都是將待翻譯的語句進(jìn)行一對(duì)一的單詞翻譯,時(shí)態(tài)和語序經(jīng)常發(fā)生錯(cuò)誤,并且翻譯生硬,達(dá)不到翻譯中常說的信、達(dá)、雅的翻譯要求。此時(shí)還需要有英語基礎(chǔ)的用戶進(jìn)行逐句的校對(duì),理順語序,調(diào)整時(shí)態(tài),根據(jù)自己的語法知識(shí)重新組織語言,這些對(duì)于英語基礎(chǔ)差的用戶來說就顯得無能無力了。
請(qǐng)專業(yè)的翻譯人員進(jìn)行人工翻譯是另一種對(duì)資料進(jìn)行翻譯的方法,只是目前請(qǐng)專業(yè)的翻譯人員進(jìn)行翻譯還需要支付昂貴的傭金,并且需等待較長(zhǎng)的時(shí)間,翻譯人員的水平也參差不齊,翻譯人員的主觀意識(shí)也會(huì)對(duì)翻譯結(jié)果產(chǎn)生影響,為此,我們提出了一種用于英語翻譯的文本數(shù)據(jù)處理方法投入使用,以解決上述問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種用于英語翻譯的文本數(shù)據(jù)處理方法,以解決上述背景技術(shù)中提出的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種用于英語翻譯的文本數(shù)據(jù)處理方法,該用于英語翻譯的文本數(shù)據(jù)處理方法的具體步驟如下:
s1:將待翻譯的原始文本提取特征項(xiàng),并建立布爾邏輯模型,使待翻譯的原始文本數(shù)據(jù)轉(zhuǎn)變?yōu)橛?jì)算機(jī)可識(shí)別的形式;
s2:對(duì)步驟s1中提取的特征項(xiàng)進(jìn)行分類,并將原始文本數(shù)據(jù)中除去特征項(xiàng)的語句存儲(chǔ)至數(shù)據(jù)庫(kù)中;
s3:在數(shù)據(jù)庫(kù)中將特征項(xiàng)連同非特征項(xiàng)的待翻譯的語句進(jìn)行翻譯后輸出。
優(yōu)選的,所述步驟s1中,布爾邏輯模型以原始文本數(shù)據(jù)中的特征項(xiàng)作為判斷標(biāo)準(zhǔn),文本中有該特征項(xiàng),則它的權(quán)重值為“1”,若無,則其權(quán)重值為“0”。
優(yōu)選的,所述特征項(xiàng)為較難翻譯及需要特定翻譯的英語語法。
優(yōu)選的,所述步驟s2中,數(shù)據(jù)庫(kù)預(yù)先存儲(chǔ)較難翻譯及需要特定翻譯的英語語法和中英詞語對(duì)照表。
優(yōu)選的,所述步驟s2中,在進(jìn)行特征項(xiàng)的分類時(shí),假設(shè)原始文本中有類別集合c={c1,c2,…,cn},待分類文本d={w1,w2,…,w3},實(shí)現(xiàn)對(duì)文本d的分類,轉(zhuǎn)化成對(duì)p(c1/d,c2/d,…,cn/d)的求解,若p(ck|d)=max{p(c1|d),p(c2|d),…,p(cn|d)},則d∈ck,其計(jì)算公式如下:
其中,
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明通過對(duì)文本模型的建立,實(shí)現(xiàn)對(duì)待翻譯的原始文本數(shù)據(jù)的處理,將待翻譯的原始文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的形式,同時(shí)在數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)需要特定翻譯的語法知識(shí),避免在翻譯過程中出現(xiàn)的時(shí)態(tài)和語序的錯(cuò)誤,本發(fā)明充分發(fā)揮了計(jì)算機(jī)翻譯上的優(yōu)勢(shì),大大減少了人工翻譯的工作量,減少在翻譯工作上的資金投入。
附圖說明
圖1為本發(fā)明工作流程圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1,本發(fā)明提供一種技術(shù)方案:一種用于英語翻譯的文本數(shù)據(jù)處理方法,該用于英語翻譯的文本數(shù)據(jù)處理方法的具體步驟如下:
s1:將待翻譯的原始文本提取特征項(xiàng),并建立布爾邏輯模型,使待翻譯的原始文本數(shù)據(jù)轉(zhuǎn)變?yōu)橛?jì)算機(jī)可識(shí)別的形式,布爾邏輯模型以原始文本數(shù)據(jù)中的特征項(xiàng)作為判斷標(biāo)準(zhǔn),文本中有該特征項(xiàng),則它的權(quán)重值為“1”,若無,則其權(quán)重值為“0”,特征項(xiàng)為較難翻譯及需要特定翻譯的英語語法;
s2:對(duì)步驟s1中提取的特征項(xiàng)進(jìn)行分類,并將原始文本數(shù)據(jù)中除去特征項(xiàng)的語句存儲(chǔ)至數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)預(yù)先存儲(chǔ)較難翻譯及需要特定翻譯的英語語法和中英詞語對(duì)照表,在進(jìn)行特征項(xiàng)的分類時(shí),假設(shè)原始文本中有類別集合c={c1,c2,…,cn},待分類文本d={w1,w2,…,w3},實(shí)現(xiàn)對(duì)文本d的分類,轉(zhuǎn)化成對(duì)p(c1/d,c2/d,…,cn/d)的求解,若p(ck|d)=max{p(c1|d),p(c2|d),…,p(cn|d)},則d∈ck,其計(jì)算公式如下:
其中,
s3:在數(shù)據(jù)庫(kù)中將特征項(xiàng)連同非特征項(xiàng)的待翻譯的語句進(jìn)行翻譯后輸出。
盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。