一種基于云計算的術(shù)語譯文挖掘方法
【專利摘要】本發(fā)明公開了一種基于云計算的術(shù)語譯文挖掘方法,包括:云計算硬件與軟件系統(tǒng)平臺的搭建和從所述云計算硬件與軟件系統(tǒng)平臺中抽取譯文的術(shù)語譯文挖掘技術(shù);所述術(shù)語譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動抽取和譯文的選擇;所述云計算硬件與軟件系統(tǒng)平臺的搭建包括搭建服務(wù)器群,建立并行計算系統(tǒng),構(gòu)建分布式數(shù)據(jù)庫系統(tǒng),以網(wǎng)絡(luò)的方式與客戶端交互,構(gòu)建云計算系統(tǒng)。通過上述方式,本發(fā)明能夠應(yīng)用到專業(yè)術(shù)語詞典的編撰、機器翻譯、信息檢索、問答系統(tǒng)、主題內(nèi)容分析等相關(guān)領(lǐng)域;能滿足人們快速獲取互聯(lián)網(wǎng)上某領(lǐng)域的專業(yè)術(shù)語的需要。
【專利說明】一種基于云計算的術(shù)語譯文挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機翻譯【技術(shù)領(lǐng)域】,特別是涉及一種基于云計算的術(shù)語譯文挖掘方法。
【背景技術(shù)】
[0002]隨著機器翻譯、跨語言信息檢索、Web挖掘研究的深入和互聯(lián)網(wǎng)資源的迅猛發(fā)展,跨語言知識和資源的Web挖掘研究領(lǐng)域掀起了新的高潮?;ヂ?lián)網(wǎng)上包含大量雙語對齊、雙語可比、或者雙語混合網(wǎng)頁,從這些網(wǎng)頁中挖掘?qū)W習(xí)各種細(xì)粒度的跨語言知識,如翻譯詞典、翻譯模板、雙語術(shù)語、雙語語料庫等,都能夠?qū)Ω倪M傳統(tǒng)的機器翻譯技術(shù)和跨語言信息檢索技術(shù)提供重要的基礎(chǔ)資源。
[0003]同時,隨著國際交流的日趨頻繁,如何消除人們的語言文字交流障礙成為最具影響力問題之一。大規(guī)??缯Z言資源庫的構(gòu)建及翻譯知識自動獲取技術(shù)對于推進機器翻譯、跨語言信息檢索等課題的實用化具有重要的意義。
[0004]隨著科學(xué)技術(shù)的發(fā)展,專有名詞和新詞不斷地涌現(xiàn),推動著自然語言不斷地發(fā)展。盡管存在機器可讀字典和在線字典,仍不能覆蓋新出現(xiàn)的各種譯文,更不能及時獲得各學(xué)科、各領(lǐng)域出現(xiàn)的新詞。建立和更新一部字典需要耗費大量的人力、物力和財力,而且耗時巨大,影響字典的使用價值。目前在基于網(wǎng)絡(luò)的術(shù)語譯文挖掘方法中還存在著一些不足,需要進一步的研究和探索。首先,從知識挖掘的深度和廣度上,現(xiàn)有研究只能獲取同一網(wǎng)站內(nèi)的雙語文本,不能獲取分布在不同網(wǎng)站內(nèi)的雙語文本和在混合網(wǎng)頁的雙語資源。其次,每次從搜索引擎輸入術(shù)語進行譯文挖掘后,所用的知識和結(jié)果沒有保存,下次即使輸入同樣的術(shù)語還要進行重復(fù)的工作。對于這些方面的深入研究無疑對基于Web的雙語資源自動獲取研究的實際應(yīng)用具有重要價值。
【發(fā)明內(nèi)容】
[0005]本發(fā)明主要解決的技術(shù)問題是提供一種基于云計算的術(shù)語譯文挖掘方法,可以應(yīng)用到專業(yè)術(shù)語詞典的編撰、機器翻譯、信息檢索、問答系統(tǒng)、主題內(nèi)容分析等相關(guān)領(lǐng)域;能滿足人們快速獲取互聯(lián)網(wǎng)上某領(lǐng)域的專業(yè)術(shù)語的需要,為研究人員閱讀專業(yè)資料提供翻譯信息,也為專業(yè)詞典的編撰和更新提供資源保障。同時,探索云計算在不同領(lǐng)域的應(yīng)用,為企業(yè)搭建內(nèi)部云,攻克云計算中的關(guān)鍵技術(shù),使企業(yè)向社會提供術(shù)語譯文翻譯服務(wù)成為可能。在保障企業(yè)經(jīng)濟利益的同時為社會提供了服務(wù)。
[0006]為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提供一種基于云計算的術(shù)語譯文挖掘方法,包括:云計算硬件與軟件系統(tǒng)平臺的搭建和從所述云計算硬件與軟件系統(tǒng)平臺中抽取譯文的術(shù)語譯文挖掘技術(shù);所述術(shù)語譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動抽取和譯文的選擇;所述云計算硬件與軟件系統(tǒng)平臺的搭建包括搭建服務(wù)器群,建立并行計算系統(tǒng),構(gòu)建分布式數(shù)據(jù)庫系統(tǒng),以網(wǎng)絡(luò)的方式與客戶端交互,構(gòu)建云計算系統(tǒng);所述云計算系統(tǒng)將多個服務(wù)器及磁盤陣列組成存儲和運算系統(tǒng),各服務(wù)器中安裝分布式數(shù)據(jù)庫,架設(shè)并行計算系統(tǒng)查找數(shù)據(jù)庫中的術(shù)語翻譯知識;將術(shù)語翻譯知識建立多級標(biāo)簽,先通過搜索算法在各級標(biāo)簽中查詢,找到后提供相應(yīng)的術(shù)語翻譯信息,滿足條件時從庫中把譯文返回給用戶,如果在內(nèi)部群中無法找到術(shù)語的譯文,通過內(nèi)部云與外部云的接口到外部云查找術(shù)語的譯文。
[0007]優(yōu)選的是,所述分布式數(shù)據(jù)庫系統(tǒng)由邏輯上統(tǒng)一、物理上分散于計算機網(wǎng)絡(luò)若干站點上的一組數(shù)據(jù)組成,采用SQL Server (—種關(guān)系數(shù)據(jù)庫管理系統(tǒng))以XML (—種可擴展標(biāo)記語言)作為中間媒介,實現(xiàn)分布式數(shù)據(jù)庫之間的數(shù)據(jù)協(xié)同查詢處理。
[0008]優(yōu)選的是,所述有效摘要資源的獲取利用一種基于共現(xiàn)信息的查詢擴展方法,首先將源查詢詞提交搜索引擎,獲取包含源查詢的源語言摘要信息,然后利用TF-1DF(—種資訊檢索與資訊探勘加權(quán)技術(shù))從獲得的源語言摘要信息抽取和源查詢共現(xiàn)的主題詞匯;獲得主題詞匯后,從雙語詞典中查找主題詞匯的譯文,把源查詢和這些主題詞匯的譯文進行跨語言擴展,將擴展后的查詢再次提交搜索引擎來獲取雙語摘要資源。
[0009]優(yōu)選的是,所述候選翻譯單元的自動抽取采用FCM聚類算法從獲得的雙語摘要資源中抽取候選翻譯單元,結(jié)合頻度變化度量和鄰接信息;FCM公式如下:
【權(quán)利要求】
1.一種基于云計算的術(shù)語譯文挖掘方法,其特征在于,包括:云計算硬件與軟件系統(tǒng)平臺的搭建和從所述云計算硬件與軟件系統(tǒng)平臺中抽取譯文的術(shù)語譯文挖掘技術(shù);所述術(shù)語譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動抽取和譯文的選擇;所述云計算硬件與軟件系統(tǒng)平臺的搭建包括搭建服務(wù)器群,建立并行計算系統(tǒng),構(gòu)建分布式數(shù)據(jù)庫系統(tǒng),以網(wǎng)絡(luò)的方式與客戶端交互,構(gòu)建云計算系統(tǒng);所述云計算系統(tǒng)將多個服務(wù)器及磁盤陣列組成存儲和運算系統(tǒng),各服務(wù)器中安裝分布式數(shù)據(jù)庫,架設(shè)并行計算系統(tǒng)查找數(shù)據(jù)庫中的術(shù)語翻譯知識;將術(shù)語翻譯知識建立多級標(biāo)簽,先通過搜索算法在各級標(biāo)簽中查詢,找到后提供相應(yīng)的術(shù)語翻譯信息,滿足條件時從庫中把譯文返回給用戶,如果在內(nèi)部群中無法找到術(shù)語的譯文,通過內(nèi)部云與外部云的接口到外部云查找術(shù)語的譯文。
2.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述分布式數(shù)據(jù)庫系統(tǒng)由邏輯上統(tǒng)一、物理上分散于計算機網(wǎng)絡(luò)若干站點上的一組數(shù)據(jù)組成,采用SQL Server以XML作為中間媒介,實現(xiàn)分布式數(shù)據(jù)庫之間的數(shù)據(jù)協(xié)同查詢處理。
3.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述有效摘要資源的獲取利用一種基于共現(xiàn)信息的查詢擴展方法,首先將源查詢詞提交搜索引擎,獲取包含源查詢的源語言摘要信息,然后利用TF-1DF從獲得的源語言摘要信息抽取和源查詢共現(xiàn)的主題詞匯;獲得主題詞匯后,從雙語詞典中查找主題詞匯的譯文,把源查詢和這些主題詞匯的譯文進行跨語言擴展,將擴展后的查詢再次提交搜索引擎來獲取雙語摘要資源。
4.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述候選翻譯單元的自動抽取采用FCM聚類算法從獲得的雙語摘要資源中抽取候選翻譯單元,結(jié)合頻度變化度量和鄰接信息;FCM公式如下:
其中,S是一中文字符串,f (S)是字符串S的頻度,Xi是3中每一個字符的頻度,?是S中所有字符的平均頻度。
5.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述譯文的選擇通過綜合采用頻度-距離模型、表層模板匹配和音譯模型從候選翻譯單元集合中抽取譯文。
6.根據(jù)權(quán)利要求5所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述頻度-距離模型的公式如下:
其中,S為源查詢,t為其中一個候選單元,J為所有摘要的總數(shù),K為在一個摘要中s,t共現(xiàn)的次數(shù),dk(s, t)為s,t在一個摘要中的第k次共現(xiàn)的距離,maxfre_dis為所有的候選單元中距離的倒數(shù)的最大值。
7.根據(jù)權(quán)利要求5所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述表層模板匹配的貢獻值采用如下公式計算:
腿x"躍 其中,S是源查詢,t為一候選單元,分子為S,t匹配的模板的總次數(shù),分母為所有候選中匹配次數(shù)的最大值。
8.根據(jù)權(quán)利要求5所述的一種基于云計算的術(shù)語譯文挖掘方法,其特征在于:所述音譯模型將源英語查詢拆分成英語音節(jié)序列,然后計算英語音節(jié)與候選漢語單元中漢字字符的匹配概率,進而計算源查詢和候選單元之間互為譯文的概率;所述音譯模型的得分通過以下公式計算:
其中分子是S,t共現(xiàn)的概率,分母為S和t中不同音節(jié)的數(shù)目,P (S,t)的定義如下:
其中,Y1為平滑系數(shù),prob(ei, Ci)為英語音節(jié)ei與漢字字符Ci匹配的概率,D(s,t)的定義為:D (s, t) = ε +1 m-n 其中,ε為衰減參數(shù),m為源查詢的英語音節(jié)總數(shù),η為一個候選單元中漢字字符的總數(shù)。
【文檔編號】H04L29/08GK104166644SQ201410323357
【公開日】2014年11月26日 申請日期:2014年7月9日 優(yōu)先權(quán)日:2014年7月9日
【發(fā)明者】梁穎紅, 姚建民, 洪宇, 鮮學(xué)豐, 葉良 申請人:蘇州市職業(yè)大學(xué)