亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

翻譯中語料介入模塊及方法

文檔序號:10488929閱讀:556來源:國知局
翻譯中語料介入模塊及方法
【專利摘要】本發(fā)明公開了一種翻譯中語料介入模塊及方法,目的在于,實現語料檢索和對比,匹配上的語料可輕松介入到翻譯中,從而能夠縮減翻譯時間,并提高翻譯中表達一致性,所采用的技術方案為:利用語料讀取模塊選擇性讀取歷史語料庫和為翻譯活動備制的語料庫;利用翻譯材料讀取模塊打開需要翻譯的材料,并對需要翻譯的材料進行分句處理;語料和翻譯材料檢索匹配模塊對讀取并經過分句處理的需要翻譯的材料,逐句搜索最大語料匹配,最終得到匹配語料在文本中位置和語料釋義,并通過匹配語料顯示模塊將匹配的語料和語料的譯文區(qū)別顯示出來;最后通過匹配語料介入翻譯模塊對匹配的語料譯文進行復制,并在翻譯中選擇位置粘貼,從而實現對翻譯的介入。
【專利說明】
翻譯中語料介入模塊及方法
技術領域
[0001]本發(fā)明屬于計算語言學和翻譯技術領域,具體涉及一種翻譯中語料介入模塊及方法。
【背景技術】
[0002]語料庫來自拉丁詞corpus,原意為“匯總”、“文集”等,復數形式為corpora或corpuses。語料庫是“作品匯集,以及任何有關主題的文本總集”(OED)是“書面語或口語材料總集,為語言學分析提供基礎”(0ED)。語料庫是“按照明確的語言學標準選擇并排序的語言運用材料匯集,旨在用作語言的樣本”(Sinclair,1986:185-203)。語料庫是按照明確的設計標準,為某一具體目的而集成的大型文本庫(Atkins and Clear, 1992:1-16) oRenouf認為,語料庫是“由大量收集的書面語或口語構成,并通過計算機儲存和處理,用于語言學研究的文本庫”(Renouf,1987:1) ^eech指出,大量收集的可機讀的電子文本是概率研究方法中獲得“必需的頻率數據”的基礎,“為獲得必需的頻率數據,我們必須反洗足量的自然英語(或其他語言)文本,以便基于觀測頻率(observed frequency)進行合乎實際的預測。
[0003]因此,就需要可靠機讀的電子文本集,即可機讀的語料庫”(leech,1987:2)。綜上所述,語料庫具有以下基本特征:
[0004]I)語料庫的設計和建設是在系統的理論語言學原則下進行的,語料庫的開發(fā)具有明確而具體的研究目標。如二十世紀六十年代初的BROWN語料庫主要目的是對美國英語進行語法分析,而隨后的LOB語料庫基本按照BROWN語料庫的設計原則收集了同年代的英國英語,目的是進行美國英語和英國英語的對比分析和語法分析。
[0005]2)語料庫語料的構成和取樣是按照明確的語言學原則并采取隨機抽樣方法收集語料的,而不是簡單地堆積語料。所收集的語料必須是語言運用的自然語料(naturally-occurred data)。
[0000]3)語料庫作為自然語言運用的樣本,就必須具有代表性(代口^8611丨31:;^611688)。Chomsky曾經批評語料庫不過是試圖用很小的樣本代表巨量的甚至無限的實際語言材料,其結果必然存在偏差,缺乏代表性,“自然語料庫攢在如此嚴重的偏差,以至于對其所進行的描述將不過是一個詞表而已”(Chomsky,1962:159)。這種批評對任何以概率統計為基礎手段的研究都是有價值的(McEnery,1996:5)。
[0007]李文中認為:語料文本是一連續(xù)的文本或話語片段(runningtext orcontinuous stretches of discourse),而不是鼓勵的句子和詞匯。在語料庫研究中,對某一搜索詞的語法關系、用法、以及大批的觀察是通過分析提供的語境(context)進行的。
[0008]目前關于語料的研究更多為理論性的,為語料翻譯學的研究服務,未涉及具體的實際應用;語料庫的選擇為研究性語料庫,大多不是具體翻譯實踐中能夠直接采用的語料庫;具體翻譯實踐中,語料庫如何介入翻譯,或者說語料庫如何形成對翻譯的幫助,都沒有具體提及。目前在翻譯行業(yè)中,沒有一種比較成熟的術語介入工具,通常為人工參考,效率較低。

【發(fā)明內容】

[0009]為了解決現有技術中的問題,本發(fā)明提出一種翻譯時能夠實現語料檢索和對比,匹配上的語料可輕松介入到翻譯中,從而能夠縮減翻譯時間,并提高翻譯中表達一致性的翻譯中語料介入模塊及方法。
[0010]為了實現以上目的,本發(fā)明所采用的技術方案為:
[0011 ] —種翻譯中語料介入模塊,包括:
[0012]語料讀取模塊:用于選擇性讀取歷史語料庫和為翻譯活動備制的語料庫;
[0013]翻譯材料讀取模塊:用于打開需要翻譯的材料,讀取所述需要翻譯的材料,并對所述需要翻譯的材料進行分句處理;
[0014]語料和翻譯材料檢索匹配模塊:用于對讀取并經過分句處理的所述需要翻譯的材料,逐句從第一個單詞開始依次搜索最大語料匹配,最終得到匹配語料在文本中位置和語料釋義;
[0015]匹配語料顯示模塊:用于將匹配的語料和語料的譯文區(qū)別顯示出來;
[0016]匹配語料介入翻譯模塊:用于對匹配的語料譯文進行復制,并在翻譯中選擇位置粘貼,從而實現對翻譯的介入。
[0017]一種翻譯中語料介入方法,包括以下步驟:
[0018]I)翻譯材料讀取模塊打開需要翻譯的材料,讀取需要翻譯的材料,并對需要翻譯的材料進行分句處理,同時語料讀取模塊選擇性讀取歷史語料庫和為翻譯活動備制的語料庫;
[0019]2)語料和翻譯材料檢索匹配模塊對讀取并經過分句處理的需要翻譯的材料,逐句從第一個單詞開始依次搜索最大語料匹配,最終得到匹配語料在文本中位置和語料釋義;并通過匹配語料顯示模塊將匹配的語料和語料的譯文區(qū)別顯示出來;
[0020]3)匹配語料介入翻譯模塊對匹配的語料譯文進行復制,并在翻譯中選擇位置粘貝占,從而實現翻譯中的語料介入。
[0021]所述的步驟I)中翻譯材料讀取模塊對寫字板、Word文檔調用Word的Com接口獲取word中的文本;對excel文檔調用excel的Com接口獲取excel表格中的文本。
[0022]所述的步驟I)中翻譯材料讀取模塊根據標點符號規(guī)則,定義句子終止符,將需要翻譯的材料切分為句子,遇到終止符判斷為句尾。
[0023]所述的翻譯材料讀取模塊需要對英文句號判斷是否為縮略詞標點,詞庫中包含縮略詞,在詞庫中搜索句號及句號之前單詞,如能搜索到則為縮略詞標點,則忽略不作為句子終止符。
[0024]所述的步驟I)中語料讀取模塊對歷史語料庫和為翻譯活動備制的語料庫中讀取的語料以列表形式保存,并對語料按字母順序排序。
[0025]所述的步驟2)中語料和翻譯材料檢索匹配模塊對需要翻譯的材料的匹配的具體步驟包括:
[0026]2.1)取一個單詞到單詞組,語料列表搜索單詞組;
[0027]2.2)如果搜索到一個全匹配的語料,則保存語料的信息;繼續(xù)轉到步驟2.1)搜索更大的匹配;
[0028]2.3)如果搜索到一個子匹配,即單詞組是語料的一部分,則轉到步驟2.1)繼續(xù)搜索;
[0029]2.4)如未搜索到匹配,則清空單詞組,從最后一個匹配的單詞組后開始轉到步驟
2.1),直至所有的翻譯材料搜索完畢。
[0030]所述的步驟2)中匹配語料顯示模塊通過懸浮窗口或符號標注形式顯示標定的匹配語料的譯文,且該譯文能夠編輯。
[0031 ]與現有技術相比,本發(fā)明利用語料讀取模塊選擇性讀取歷史語料庫和為翻譯活動備制的語料庫;利用翻譯材料讀取模塊打開需要翻譯的材料,讀取需要翻譯的材料,并對需要翻譯的材料進行分句處理;語料和翻譯材料檢索匹配模塊對讀取并經過分句處理的需要翻譯的材料,逐句從第一個單詞開始依次搜索最大語料匹配,最終得到匹配語料在文本中位置和語料釋義,并通過匹配語料顯示模塊將匹配的語料和語料的譯文區(qū)別顯示出來;最后通過匹配語料介入翻譯模塊對匹配的語料譯文進行復制,并在翻譯中選擇位置粘貼,從而實現對翻譯的介入。翻譯時能夠實現語料檢索和對比,匹配上的語料可輕松介入到翻譯中,從而能夠縮減翻譯時間,并提高翻譯中表達一致性。
[0032]進一步,翻譯材料讀取模塊根據標點符號規(guī)則,定義句子終止符,將需要翻譯的材料切分為句子,遇到終止符判斷為句尾,對于英文句號需要判斷是否為縮略詞標點,詞庫中包含縮略詞,在詞庫中搜索句號及句號之前單詞,如能搜索到則為縮略詞標點,則忽略不作為句子終止符,進一步提高了翻譯材料讀取模塊對分句處理的準確性,提高了翻譯效率。
[0033]進一步,語料讀取模塊可選擇性讀取歷史語料庫和專為本次翻譯活動備制的語料庫,也可以讀取為本次翻譯活動備制的語料庫為主,將歷史語料庫作為輔助參考讀取,讀取的語料以列表保存,并對語料按字母順序排序,能夠語料匹配搜索時的效率,從而能夠縮減翻譯時間。
[0034]進一步,語料和翻譯材料檢索匹配模塊對需要翻譯的材料的匹配采用最大語料匹配的原則,能夠更好的對需要翻譯的材料盡心語料匹配,進一步提高本發(fā)明的效率。
【具體實施方式】
[0035]下面結合具體的實施例對本發(fā)明作進一步的解釋說明。
[0036]本發(fā)明由五個模塊構成:
[0037]模塊一:語料讀取模塊:可選擇性讀取歷史語料庫和專為本次翻譯活動備制的語料庫,也可以讀取為本次翻譯活動備制的語料庫為主,將歷史語料庫作為輔助參考讀取。讀取的語料以列表保存,并對語料按字母順序排序,提高語料匹配搜索時的效率;
[0038]模塊二:翻譯材料讀取模塊:打開需要翻譯的材料,打開材料的同時,對材料進行分句處理。根據標點符號和規(guī)則,將英語文本切分為一個個的句子,定義句子終止符,如英文的句號、感嘆號、問號等,遇到終止符判斷為句尾,英文句號還需要判斷是否縮略詞,詞庫中包含縮略詞,在詞庫中搜索句號及句號之前單詞,如能搜索到則為縮略詞標點,則忽略不作為句子終止符;
[0039]模塊三:語料和翻譯材料檢索匹配模塊:對讀取并經過分句處理的翻譯材料,逐句從第一個單詞開始依次搜索最大語料匹配,最終得到匹配語料在文本中位置和語料(語料+釋義);具體包括:(I)取一個單詞到單詞組,語料列表搜索單詞組;(2)如果搜索到一個全匹配的語料,則保存語料的信息(位置+語料+釋義),繼續(xù)轉到步驟(I)搜索更大的匹配;(3)如果搜索到一個子匹配(詞組是語料的一部分),則轉到步驟(I); (4)如果未搜索到匹配,則清空詞組,從最后一個配詞組后開始轉到步驟(I ),直到所有的翻譯材料搜索完畢;
[0040]模塊四:匹配語料顯示模塊:凡是標簽標注過的語料都是已經匹配上的語料,在翻譯該句的時候,有多種方式進行顯示:
[0041]I)顯示方式一:匹配上的語料顏色顯示(顏色可以設定,可設定兩種顏色,區(qū)分為本次翻譯活動備制的語料庫和歷史語料庫中的語料),鼠標放置到該語料上時,鼠標旁出現該語料的譯文的文本框,鼠標移動到該文本框上的時候,可選擇復制該譯文,鼠標離開該文本框,則該文本框退出;
[0042]2)顯示方法二:匹配上的語料顏色顯示(顏色可以設定,可設定兩種顏色,區(qū)分為本次翻譯活動備制的語料庫和歷史語料庫中的語料),該語料的譯文直接用設定符號標注直接顯示在該語料后面;
[0043]3)顯示方法三:匹配上的語料顏色顯示(顏色可以設定,可設定兩種顏色,區(qū)分為本次翻譯活動備制的語料庫和歷史語料庫中的語料),該語料的譯文懸浮顯示在該語料上方,數據移動到該譯文上的時候,可編輯該語料,例如可以復制改譯文內容;
[0044]模塊五:匹配語料介入翻譯模塊:不同顯示方式的語料譯文可以通過復制,然后在翻譯中選擇位置粘貼,從而實現對翻譯的介入。
[0045]本發(fā)明方法完整的步驟:
[0046]在工具界面打開需要翻譯的文本(格式可為WorcUExcel、記事本、寫字板等),文本文件直接用通用讀文件模塊獲取文本,寫字板、Word文檔調用Word的Com接口獲取word中的文本,exceI調用exceI的Com接口獲取exceI表格中的文本;然后點擊“語料介入”(語料為歷史語料或為本項目特制的語料),按照提示選擇語料(語料形式列表分兩欄顯示,左欄為語料、右欄為釋義)文件,調用語料和翻譯材料檢索匹配模塊獲得匹配的語料信息;
[0047]匹配顯示有兩種方式可選,I)為匹配上的語料直接用特殊符號,例如【】顯示釋義,根據語料和翻譯材料檢索匹配模塊得到匹配語料在翻譯文本中的位置,為了簡化插入對語料在文本位置的影響,翻譯文本從后往前插入匹配語料的釋義;
[0048]2)語料上懸浮顯示,鼠標移動到該語料上的時候,停留時間超過設定值(缺省是3秒),取到鼠標的位置,根據該位置取到句子,句子經過語料和翻譯材料檢索匹配模塊,得到改句子匹配的語料并在鼠標所在的位置彈出顯示的懸浮窗口顯示;
[0049]直接復制兩種方法顯示的釋義,粘貼到翻譯位置,完成語料在翻譯中的計入。
[0050]本發(fā)明翻譯時能夠實現語料檢索和對比,匹配上的語料可輕松介入到翻譯中,從而能夠縮減翻譯時間,并提高翻譯中表達一致性。
【主權項】
1.一種翻譯中語料介入模塊,其特征在于,包括: 語料讀取模塊:用于選擇性讀取歷史語料庫和為翻譯活動備制的語料庫; 翻譯材料讀取模塊:用于打開需要翻譯的材料,讀取所述需要翻譯的材料,并對所述需要翻譯的材料進行分句處理; 語料和翻譯材料檢索匹配模塊:用于對讀取并經過分句處理的所述需要翻譯的材料,逐句從第一個單詞開始依次搜索最大語料匹配,最終得到匹配語料在文本中位置和語料釋義; 匹配語料顯示模塊:用于將匹配的語料和語料的譯文區(qū)別顯示出來; 匹配語料介入翻譯模塊:用于對匹配的語料譯文進行復制,并在翻譯中選擇位置粘貼,從而實現對翻譯的介入。2.一種翻譯中語料介入方法,其特征在于,包括以下步驟: 1)翻譯材料讀取模塊打開需要翻譯的材料,讀取需要翻譯的材料,并對需要翻譯的材料進行分句處理,同時語料讀取模塊選擇性讀取歷史語料庫和為翻譯活動備制的語料庫; 2)語料和翻譯材料檢索匹配模塊對讀取并經過分句處理的需要翻譯的材料,逐句從第一個單詞開始依次搜索最大語料匹配,最終得到匹配語料在文本中位置和語料釋義;并通過匹配語料顯示模塊將匹配的語料和語料的譯文區(qū)別顯示出來; 3)匹配語料介入翻譯模塊對匹配的語料譯文進行復制,并在翻譯中選擇位置粘貼,從而實現翻譯中的語料介入。3.根據權利要求2所述的一種翻譯中語料介入方法,其特征在于,所述的步驟I)中翻譯材料讀取模塊對寫字板、Word文檔調用Word的Com接口獲取word中的文本;對excel文檔調用excel的Com接口獲取excel表格中的文本。4.根據權利要求3所述的一種翻譯中語料介入方法,其特征在于,所述的步驟I)中翻譯材料讀取模塊根據標點符號規(guī)則,定義句子終止符,將需要翻譯的材料切分為句子,遇到終止符判斷為句尾。5.根據權利要求4所述的一種翻譯中語料介入方法,其特征在于,所述的翻譯材料讀取模塊需要對英文句號判斷是否為縮略詞標點,詞庫中包含縮略詞,在詞庫中搜索句號及句號之前單詞,如能搜索到則為縮略詞標點,則忽略不作為句子終止符。6.根據權利要求2所述的一種翻譯中語料介入方法,其特征在于,所述的步驟I)中語料讀取模塊對歷史語料庫和為翻譯活動備制的語料庫中讀取的語料以列表形式保存,并對語料按字母順序排序。7.根據權利要求2所述的一種翻譯中語料介入方法,其特征在于,所述的步驟2)中語料和翻譯材料檢索匹配模塊對需要翻譯的材料的匹配的具體步驟包括: 2.1)取一個單詞到單詞組,語料列表搜索單詞組; 2.2)如果搜索到一個全匹配的語料,則保存語料的信息;繼續(xù)轉到步驟2.1)搜索更大的匹配; 2.3)如果搜索到一個子匹配,即單詞組是語料的一部分,則轉到步驟2.1)繼續(xù)搜索; 2.4)如未搜索到匹配,則清空單詞組,從最后一個匹配的單詞組后開始轉到步驟2.1),直至所有的翻譯材料搜索完畢。8.根據權利要求2所述的一種翻譯中語料介入方法,其特征在于,所述的步驟2)中匹配語料顯示模塊通過懸浮窗口或符號標注形式顯示標定的匹配語料的譯文,且該譯文能夠編輯。
【文檔編號】G06F17/30GK105843802SQ201610202189
【公開日】2016年8月10日
【申請日】2016年3月31日
【發(fā)明人】白曉文, 陳春緯, 劉慶
【申請人】長安大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1