一種基于云計算的術(shù)語譯文挖掘方法

文檔序號：7808457閱讀：263來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

一種基于云計算的術(shù)語譯文挖掘方法
【專利摘要】本發(fā)明公開了一種基于云計算的術(shù)語譯文挖掘方法，包括：云計算硬件與軟件系統(tǒng)平臺的搭建和從所述云計算硬件與軟件系統(tǒng)平臺中抽取譯文的術(shù)語譯文挖掘技術(shù)；所述術(shù)語譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動抽取和譯文的選擇；所述云計算硬件與軟件系統(tǒng)平臺的搭建包括搭建服務(wù)器群，建立并行計算系統(tǒng)，構(gòu)建分布式數(shù)據(jù)庫系統(tǒng)，以網(wǎng)絡(luò)的方式與客戶端交互，構(gòu)建云計算系統(tǒng)。通過上述方式，本發(fā)明能夠應(yīng)用到專業(yè)術(shù)語詞典的編撰、機器翻譯、信息檢索、問答系統(tǒng)、主題內(nèi)容分析等相關(guān)領(lǐng)域；能滿足人們快速獲取互聯(lián)網(wǎng)上某領(lǐng)域的專業(yè)術(shù)語的需要。
【專利說明】一種基于云計算的術(shù)語譯文挖掘方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機翻譯【技術(shù)領(lǐng)域】，特別是涉及一種基于云計算的術(shù)語譯文挖掘方法。

【背景技術(shù)】
[0002]隨著機器翻譯、跨語言信息檢索、Web挖掘研究的深入和互聯(lián)網(wǎng)資源的迅猛發(fā)展，跨語言知識和資源的Web挖掘研究領(lǐng)域掀起了新的高潮?；ヂ?lián)網(wǎng)上包含大量雙語對齊、雙語可比、或者雙語混合網(wǎng)頁，從這些網(wǎng)頁中挖掘?qū)W習(xí)各種細(xì)粒度的跨語言知識，如翻譯詞典、翻譯模板、雙語術(shù)語、雙語語料庫等，都能夠?qū)Ω倪M傳統(tǒng)的機器翻譯技術(shù)和跨語言信息檢索技術(shù)提供重要的基礎(chǔ)資源。
[0003]同時，隨著國際交流的日趨頻繁，如何消除人們的語言文字交流障礙成為最具影響力問題之一。大規(guī)?？缯Z言資源庫的構(gòu)建及翻譯知識自動獲取技術(shù)對于推進機器翻譯、跨語言信息檢索等課題的實用化具有重要的意義。
[0004]隨著科學(xué)技術(shù)的發(fā)展，專有名詞和新詞不斷地涌現(xiàn)，推動著自然語言不斷地發(fā)展。盡管存在機器可讀字典和在線字典，仍不能覆蓋新出現(xiàn)的各種譯文，更不能及時獲得各學(xué)科、各領(lǐng)域出現(xiàn)的新詞。建立和更新一部字典需要耗費大量的人力、物力和財力，而且耗時巨大，影響字典的使用價值。目前在基于網(wǎng)絡(luò)的術(shù)語譯文挖掘方法中還存在著一些不足，需要進一步的研究和探索。首先，從知識挖掘的深度和廣度上，現(xiàn)有研究只能獲取同一網(wǎng)站內(nèi)的雙語文本，不能獲取分布在不同網(wǎng)站內(nèi)的雙語文本和在混合網(wǎng)頁的雙語資源。其次，每次從搜索引擎輸入術(shù)語進行譯文挖掘后，所用的知識和結(jié)果沒有保存，下次即使輸入同樣的術(shù)語還要進行重復(fù)的工作。對于這些方面的深入研究無疑對基于Web的雙語資源自動獲取研究的實際應(yīng)用具有重要價值。

【發(fā)明內(nèi)容】

[0005]本發(fā)明主要解決的技術(shù)問題是提供一種基于云計算的術(shù)語譯文挖掘方法，可以應(yīng)用到專業(yè)術(shù)語詞典的編撰、機器翻譯、信息檢索、問答系統(tǒng)、主題內(nèi)容分析等相關(guān)領(lǐng)域；能滿足人們快速獲取互聯(lián)網(wǎng)上某領(lǐng)域的專業(yè)術(shù)語的需要，為研究人員閱讀專業(yè)資料提供翻譯信息，也為專業(yè)詞典的編撰和更新提供資源保障。同時，探索云計算在不同領(lǐng)域的應(yīng)用，為企業(yè)搭建內(nèi)部云，攻克云計算中的關(guān)鍵技術(shù)，使企業(yè)向社會提供術(shù)語譯文翻譯服務(wù)成為可能。在保障企業(yè)經(jīng)濟利益的同時為社會提供了服務(wù)。
[0006]為解決上述技術(shù)問題，本發(fā)明采用的一個技術(shù)方案是:提供一種基于云計算的術(shù)語譯文挖掘方法，包括:云計算硬件與軟件系統(tǒng)平臺的搭建和從所述云計算硬件與軟件系統(tǒng)平臺中抽取譯文的術(shù)語譯文挖掘技術(shù)；所述術(shù)語譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動抽取和譯文的選擇；所述云計算硬件與軟件系統(tǒng)平臺的搭建包括搭建服務(wù)器群，建立并行計算系統(tǒng)，構(gòu)建分布式數(shù)據(jù)庫系統(tǒng)，以網(wǎng)絡(luò)的方式與客戶端交互，構(gòu)建云計算系統(tǒng)；所述云計算系統(tǒng)將多個服務(wù)器及磁盤陣列組成存儲和運算系統(tǒng)，各服務(wù)器中安裝分布式數(shù)據(jù)庫，架設(shè)并行計算系統(tǒng)查找數(shù)據(jù)庫中的術(shù)語翻譯知識；將術(shù)語翻譯知識建立多級標(biāo)簽，先通過搜索算法在各級標(biāo)簽中查詢，找到后提供相應(yīng)的術(shù)語翻譯信息，滿足條件時從庫中把譯文返回給用戶，如果在內(nèi)部群中無法找到術(shù)語的譯文，通過內(nèi)部云與外部云的接口到外部云查找術(shù)語的譯文。
[0007]優(yōu)選的是，所述分布式數(shù)據(jù)庫系統(tǒng)由邏輯上統(tǒng)一、物理上分散于計算機網(wǎng)絡(luò)若干站點上的一組數(shù)據(jù)組成，采用SQL Server (—種關(guān)系數(shù)據(jù)庫管理系統(tǒng))以XML (—種可擴展標(biāo)記語言)作為中間媒介，實現(xiàn)分布式數(shù)據(jù)庫之間的數(shù)據(jù)協(xié)同查詢處理。
[0008]優(yōu)選的是，所述有效摘要資源的獲取利用一種基于共現(xiàn)信息的查詢擴展方法，首先將源查詢詞提交搜索引擎，獲取包含源查詢的源語言摘要信息，然后利用TF-1DF(—種資訊檢索與資訊探勘加權(quán)技術(shù))從獲得的源語言摘要信息抽取和源查詢共現(xiàn)的主題詞匯；獲得主題詞匯后，從雙語詞典中查找主題詞匯的譯文，把源查詢和這些主題詞匯的譯文進行跨語言擴展，將擴展后的查詢再次提交搜索引擎來獲取雙語摘要資源。
[0009]優(yōu)選的是，所述候選翻譯單元的自動抽取采用FCM聚類算法從獲得的雙語摘要資源中抽取候選翻譯單元，結(jié)合頻度變化度量和鄰接信息；FCM公式如下:

【權(quán)利要求】
1.一種基于云計算的術(shù)語譯文挖掘方法，其特征在于，包括:云計算硬件與軟件系統(tǒng)平臺的搭建和從所述云計算硬件與軟件系統(tǒng)平臺中抽取譯文的術(shù)語譯文挖掘技術(shù)；所述術(shù)語譯文挖掘技術(shù)包括有效摘要資源的獲取、候選翻譯單元的自動抽取和譯文的選擇；所述云計算硬件與軟件系統(tǒng)平臺的搭建包括搭建服務(wù)器群，建立并行計算系統(tǒng)，構(gòu)建分布式數(shù)據(jù)庫系統(tǒng)，以網(wǎng)絡(luò)的方式與客戶端交互，構(gòu)建云計算系統(tǒng)；所述云計算系統(tǒng)將多個服務(wù)器及磁盤陣列組成存儲和運算系統(tǒng)，各服務(wù)器中安裝分布式數(shù)據(jù)庫，架設(shè)并行計算系統(tǒng)查找數(shù)據(jù)庫中的術(shù)語翻譯知識；將術(shù)語翻譯知識建立多級標(biāo)簽，先通過搜索算法在各級標(biāo)簽中查詢，找到后提供相應(yīng)的術(shù)語翻譯信息，滿足條件時從庫中把譯文返回給用戶，如果在內(nèi)部群中無法找到術(shù)語的譯文，通過內(nèi)部云與外部云的接口到外部云查找術(shù)語的譯文。
2.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述分布式數(shù)據(jù)庫系統(tǒng)由邏輯上統(tǒng)一、物理上分散于計算機網(wǎng)絡(luò)若干站點上的一組數(shù)據(jù)組成，采用SQL Server以XML作為中間媒介，實現(xiàn)分布式數(shù)據(jù)庫之間的數(shù)據(jù)協(xié)同查詢處理。
3.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述有效摘要資源的獲取利用一種基于共現(xiàn)信息的查詢擴展方法，首先將源查詢詞提交搜索引擎，獲取包含源查詢的源語言摘要信息，然后利用TF-1DF從獲得的源語言摘要信息抽取和源查詢共現(xiàn)的主題詞匯；獲得主題詞匯后，從雙語詞典中查找主題詞匯的譯文，把源查詢和這些主題詞匯的譯文進行跨語言擴展，將擴展后的查詢再次提交搜索引擎來獲取雙語摘要資源。
4.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述候選翻譯單元的自動抽取采用FCM聚類算法從獲得的雙語摘要資源中抽取候選翻譯單元，結(jié)合頻度變化度量和鄰接信息；FCM公式如下:
其中，S是一中文字符串，f (S)是字符串S的頻度，Xi是3中每一個字符的頻度，?是S中所有字符的平均頻度。
5.根據(jù)權(quán)利要求1所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述譯文的選擇通過綜合采用頻度-距離模型、表層模板匹配和音譯模型從候選翻譯單元集合中抽取譯文。
6.根據(jù)權(quán)利要求5所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述頻度-距離模型的公式如下:
其中，S為源查詢，t為其中一個候選單元，J為所有摘要的總數(shù)，K為在一個摘要中s,t共現(xiàn)的次數(shù)，dk(s, t)為s，t在一個摘要中的第k次共現(xiàn)的距離，maxfre_dis為所有的候選單元中距離的倒數(shù)的最大值。
7.根據(jù)權(quán)利要求5所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述表層模板匹配的貢獻值采用如下公式計算:
腿x"躍其中，S是源查詢，t為一候選單元，分子為S，t匹配的模板的總次數(shù)，分母為所有候選中匹配次數(shù)的最大值。
8.根據(jù)權(quán)利要求5所述的一種基于云計算的術(shù)語譯文挖掘方法，其特征在于:所述音譯模型將源英語查詢拆分成英語音節(jié)序列，然后計算英語音節(jié)與候選漢語單元中漢字字符的匹配概率，進而計算源查詢和候選單元之間互為譯文的概率；所述音譯模型的得分通過以下公式計算:
其中分子是S，t共現(xiàn)的概率，分母為S和t中不同音節(jié)的數(shù)目，P (S，t)的定義如下:
其中，Y1為平滑系數(shù)，prob(ei, Ci)為英語音節(jié)ei與漢字字符Ci匹配的概率，D(s，t)的定義為:D (s, t) = ε +1 m-n 其中，ε為衰減參數(shù)，m為源查詢的英語音節(jié)總數(shù)，η為一個候選單元中漢字字符的總數(shù)。
【文檔編號】H04L29/08GK104166644SQ201410323357
【公開日】2014年11月26日申請日期:2014年7月9日優(yōu)先權(quán)日:2014年7月9日
【發(fā)明者】梁穎紅, 姚建民, 洪宇, 鮮學(xué)豐, 葉良申請人:蘇州市職業(yè)大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁穎紅;姚建民;洪宇;鮮學(xué)豐;葉良
技術(shù)所有人：蘇州市職業(yè)大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學(xué)與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于云計算的術(shù)語譯文挖掘方法