專利名稱:基于大規(guī)模術(shù)語(yǔ)語(yǔ)料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文檔劃分領(lǐng)域,具體而言,涉及一種基于大規(guī)模術(shù)語(yǔ)語(yǔ)料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法。
背景技術(shù):
目前,現(xiàn)有技術(shù)中的語(yǔ)料庫(kù)的生產(chǎn)一般包括以下幾個(gè)過(guò)程:語(yǔ)料搜集:語(yǔ)料可以來(lái)自國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)及其他標(biāo)準(zhǔn)文獻(xiàn),也可以來(lái)自正式出版發(fā)行的辭典、百科全書、期刊、教材、報(bào)刊及其他工具書和權(quán)威性網(wǎng)站發(fā)布的相關(guān)文獻(xiàn);還可以通過(guò)與其他術(shù)語(yǔ)語(yǔ)料庫(kù)聯(lián)網(wǎng)、交換語(yǔ)料數(shù)據(jù)及記錄載體等方式獲得。規(guī)范化處理:按照已定的標(biāo)準(zhǔn)格式或規(guī)則,對(duì)從各種途徑獲取的語(yǔ)料進(jìn)行初加工。例如語(yǔ)料的查重、文件格式的統(tǒng)一轉(zhuǎn)換等。信息標(biāo)注:對(duì)規(guī)范化處理后的原始語(yǔ)料,結(jié)合項(xiàng)目研究的近遠(yuǎn)期目標(biāo)可采用里標(biāo)語(yǔ)言進(jìn)行篇章級(jí)、術(shù)語(yǔ)級(jí)等的信息標(biāo)注。術(shù)語(yǔ)語(yǔ)料庫(kù)是語(yǔ)料庫(kù)中的一種,其按照一定的格式和要求生成。術(shù)語(yǔ)語(yǔ)料庫(kù)的組織:為便于術(shù)語(yǔ)研究、語(yǔ)料交換和術(shù)語(yǔ)語(yǔ)料庫(kù)系統(tǒng)開發(fā),術(shù)語(yǔ)語(yǔ)料庫(kù)中語(yǔ)料的存儲(chǔ)和管理應(yīng)盡量采用通用的分類法進(jìn)行分類組織。通用的分類方法如:中國(guó)標(biāo)準(zhǔn)文獻(xiàn)分類法(ccs)、國(guó)際標(biāo)準(zhǔn)分類法(ICS)、GB/T13745學(xué)科分類與代碼等。由于大型語(yǔ)料庫(kù)的規(guī)模非常大,術(shù)語(yǔ)語(yǔ)料數(shù)一般在百萬(wàn)到千萬(wàn)級(jí)別,大的甚至可以達(dá)到億級(jí),以術(shù)語(yǔ)語(yǔ)料為關(guān)鍵詞在待譯文稿中進(jìn)行匹配要占用大量的存儲(chǔ)空間而且花費(fèi)的查詢時(shí)間也非常多,實(shí)際效果非常不理想。由于大型語(yǔ)料庫(kù)內(nèi)的語(yǔ)料數(shù)量巨大,而且待譯稿件是個(gè)無(wú)序的文本空間,不利于將語(yǔ)料庫(kù)中的術(shù)語(yǔ)作為關(guān)鍵詞在待譯稿件中進(jìn)行術(shù)語(yǔ)匹配,以確定待譯稿件的碎片化分類。
發(fā)明內(nèi)容
本發(fā)明旨在提供一種基于大規(guī)模術(shù)語(yǔ)語(yǔ)料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,以解決上述不利于譯稿碎片化分類方法的問(wèn)題。 在本發(fā)明的實(shí)施例中,提供了 一種基于大規(guī)模術(shù)語(yǔ)語(yǔ)料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,包括:提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語(yǔ)語(yǔ)料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語(yǔ)的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性;根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性;將最多的行業(yè)類別屬性對(duì)該段分類。優(yōu)選地,判斷所述譯稿內(nèi)的每段的詞數(shù);如果所述詞數(shù)小于閾值,則與相鄰的下一段合并作為新的一段;
直到所述新的一段的詞數(shù)大于閾值。優(yōu)選地,為每個(gè)段落建立ID ;建立屬于同一個(gè)行業(yè)類別屬性的多個(gè)段落的ID的集合,得到多個(gè)集合。優(yōu)選地,所述提取關(guān)鍵詞的過(guò)程包括:對(duì)譯稿進(jìn)行分詞處理,去除停用詞和不表示具體概念的詞語(yǔ),得到分詞后的關(guān)鍵詞集合。由于待譯文稿的詞語(yǔ)數(shù)要遠(yuǎn)小于術(shù)語(yǔ)語(yǔ)料庫(kù)的詞語(yǔ)數(shù);而且術(shù)語(yǔ)語(yǔ)料庫(kù)具備按字母順序查找的功能,在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法,可以極大的減少查詢時(shí)間??s短對(duì)譯稿分類的時(shí)間,提高分類效率。
此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1示出了實(shí)施例的流程圖;圖2示出了實(shí)施例的方法采用的系統(tǒng)框架結(jié)構(gòu)圖;圖3示出了實(shí)施例中合并段的流程圖。
具體實(shí)施例方式下面將參考附圖并結(jié)合實(shí)施例,來(lái)詳細(xì)說(shuō)明本發(fā)明。參見圖1,實(shí)施例的流程包括:Sll:提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;S12:將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語(yǔ)語(yǔ)料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語(yǔ)的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性;S13:根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性;S14:將最多的行業(yè)類別屬性對(duì)該段分類。由于待譯文稿的詞語(yǔ)數(shù)要遠(yuǎn)小于術(shù)語(yǔ)語(yǔ)料庫(kù)的詞語(yǔ)數(shù),經(jīng)過(guò)分詞處理后的詞語(yǔ)數(shù)量還要大為減少;而且術(shù)語(yǔ)語(yǔ)料庫(kù)具備按字母順序查找的功能,在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法,可以極大的減少查詢時(shí)間。縮短對(duì)譯稿分類的時(shí)間,提高分類效率。優(yōu)選地,參見圖2,由系統(tǒng)中的分詞處理模塊提取關(guān)鍵詞,包括:對(duì)譯稿進(jìn)行分詞處理,去除停用詞和不表示具體概念的詞語(yǔ),得到分詞后的關(guān)鍵詞集合。優(yōu)選地,在實(shí)施例中,計(jì)算每個(gè)詞語(yǔ)在文稿中的出現(xiàn)次數(shù)即詞頻,記錄每個(gè)詞語(yǔ)的段落屬性,即其所屬的段落號(hào);建立待譯文檔的關(guān)鍵詞列表,列表項(xiàng)包括:詞語(yǔ)、詞頻、詞語(yǔ)在段落屬性、列表如表I所示:表I
權(quán)利要求
1.一種基于大規(guī)模術(shù)語(yǔ)語(yǔ)料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,其特征在于,包括: 提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系; 將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語(yǔ)語(yǔ)料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語(yǔ)的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性; 根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性; 將最多的行業(yè)類別屬性對(duì)該段分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,判斷所述譯稿內(nèi)的每段的詞數(shù); 如果所述詞數(shù)小于閾值,則與相鄰的下一段合并作為新的一段; 直到所述新的一段的詞數(shù)大于閾值。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,為每個(gè)段落建立ID; 建立屬于同一個(gè)行業(yè)類別屬性的多個(gè)段落的ID的集合,得到多個(gè)集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取關(guān)鍵詞的過(guò)程包括: 對(duì)譯稿進(jìn)行分詞處理,去除停用詞和不表示具體概念的詞語(yǔ),得到分詞后的譯稿的關(guān)鍵詞集合。
全文摘要
本發(fā)明提供了一種基于大規(guī)模術(shù)語(yǔ)語(yǔ)料庫(kù)對(duì)譯稿自動(dòng)碎片化分類的方法,包括對(duì)譯稿進(jìn)行分詞處理,去除停用詞,獲得其關(guān)鍵詞集合,提取譯稿每段的各個(gè)關(guān)鍵詞,建立每個(gè)段落與其包含的各個(gè)關(guān)鍵詞的對(duì)應(yīng)關(guān)系;將所述譯稿的各個(gè)關(guān)鍵詞逐個(gè)在術(shù)語(yǔ)語(yǔ)料庫(kù)中匹配,將每個(gè)關(guān)鍵詞匹配的術(shù)語(yǔ)的行業(yè)類別屬性,作為該關(guān)鍵詞在其對(duì)應(yīng)的每個(gè)段所歸屬的行業(yè)類別屬性;根據(jù)所述對(duì)應(yīng)關(guān)系,確定每個(gè)段包含相同的最多的行業(yè)類別屬性;將最多的行業(yè)類別屬性對(duì)該段分類。由于譯稿的詞語(yǔ)數(shù)要遠(yuǎn)小于術(shù)語(yǔ)庫(kù)的詞語(yǔ)數(shù);且術(shù)語(yǔ)庫(kù)具備按字母順序查找的功能,在其中進(jìn)行關(guān)鍵詞匹配不需要采用模式匹配算法,可以極大的減少查詢時(shí)間??s短對(duì)譯稿碎片化的時(shí)間,提高碎片化效率。
文檔編號(hào)G06F17/30GK103106245SQ201210591759
公開日2013年5月15日 申請(qǐng)日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者江潮 申請(qǐng)人:武漢傳神信息技術(shù)有限公司