專(zhuān)利名稱(chēng)::漢語(yǔ)文本全分詞的一種遞歸方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種漢語(yǔ)文本的全切分技術(shù),屬于計(jì)算機(jī)應(yīng)用和中文信息處理領(lǐng)域。
背景技術(shù):
:中文文本沒(méi)有類(lèi)似英文空格之類(lèi)的顯式表標(biāo)示詞的邊界標(biāo)志。漢語(yǔ)自動(dòng)分詞的任務(wù),通俗地說(shuō),就是要由機(jī)器在中文文本中詞與詞之間自動(dòng)加上空格。中國(guó)正在向信息化社會(huì)迅速前進(jìn),其突出表征是Internet上中文網(wǎng)頁(yè)的急劇增加和中文電子出版物、中文數(shù)字圖書(shū)館的迅速普及。而漢語(yǔ)自動(dòng)分詞是任何中文自然語(yǔ)言處理系統(tǒng)都難以回避的第一道基本"工序",其作用十分重要。只有逾越這個(gè)障礙,中文處理系統(tǒng)才稱(chēng)得上初步打上了"智能"的印記,構(gòu)建于詞平面之上的各種后續(xù)語(yǔ)言分析手段才有展示身手的舞臺(tái)。否則,系統(tǒng)便只能被束縛在字平面上,成不了太大氣候。具體來(lái)說(shuō),自動(dòng)分詞在很多現(xiàn)實(shí)應(yīng)用領(lǐng)域(中文文本的自動(dòng)檢索、過(guò)濾、分類(lèi)及摘要,中文文本的自動(dòng)校對(duì),漢外機(jī)器翻譯,漢字識(shí)別與漢語(yǔ)語(yǔ)音識(shí)別的后處理,漢語(yǔ)語(yǔ)音合成,以句子為單位的漢字鍵盤(pán)輸入,漢字簡(jiǎn)繁體轉(zhuǎn)換等)中都扮演著極為重要的角色。中文分詞是把一個(gè)無(wú)間隔的漢字串映射到有間隔的漢字詞串的問(wèn)題。該問(wèn)題的難點(diǎn)在于歧義切分和未登錄詞問(wèn)題。目前通常的分詞方法有三大類(lèi)機(jī)械分詞、統(tǒng)計(jì)分詞和規(guī)則分詞,或者幾種方法的結(jié)合運(yùn)用。漢語(yǔ)分詞中的全切分問(wèn)題是指對(duì)于長(zhǎng)度為N的漢字字符串,在不考慮語(yǔ)義的情況下,找出其所有可能的切分形式。隨著字符串長(zhǎng)度N的增長(zhǎng),其全切分形式的數(shù)目呈指數(shù)級(jí)增長(zhǎng)。針對(duì)這個(gè)問(wèn)題,已經(jīng)提出了基于有限自動(dòng)機(jī)和無(wú)向圖的求解算法,但這些算法一般使用詞頻作為邊的權(quán)值或狀態(tài)轉(zhuǎn)移的重要依據(jù),因此,其得出的結(jié)果是依賴(lài)于詞頻或詞庫(kù)的切分結(jié)果,而不是理論上的所有可能的切分形式。從理論上說(shuō),漢字字符串的全切分是不依賴(lài)于任何詞典或詞頻的,其假設(shè)前提是任何有限個(gè)漢字可以切分為一個(gè)漢字詞或作為一個(gè)切分單位。因此,其全切分的形式在理論上有2W—'種。針對(duì)全切分問(wèn)題,本發(fā)明構(gòu)造性地給出了實(shí)現(xiàn)全切分的一種遞歸方法。該方法與基于有限自動(dòng)機(jī)或無(wú)向圖的全切分方法相比,更加簡(jiǎn)潔高效,可應(yīng)用于漢語(yǔ)文本分詞或漢語(yǔ)拼音分詞等。
發(fā)明內(nèi)容本發(fā)明是一種漢語(yǔ)文本的全切分技術(shù),用來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)文本的全切分,主要包括漢語(yǔ)文本的全切分方法、全切分的剪枝、基于全切分的歧義消除。1.長(zhǎng)度為N的漢字字符串的全切分方法CSA如下(本文下稱(chēng)CSA方法)(1)對(duì)于長(zhǎng)度為N的漢字字符串S^,取其第一個(gè)字符《,構(gòu)造Z/的全切分(只有一種,即自身)。為方便起見(jiàn),我們記漢字字符串&的子串s,=^i:2...i,(la《AT)(2)對(duì)于z'=2,…,W,Sw的子串t的全切分己經(jīng)得到,對(duì)于子串的每一種切分形式,按照定理1中的方法構(gòu)造出2種子串S,的切分形式。從而得到子串S,的2'-1種切分形式。(3)當(dāng)/=7^時(shí),我們得到漢字字符串^的所有2"—4巾切分形式。(4)列出漢字字符串&的所有2W-^中切分形式,結(jié)束。例如,我們已知長(zhǎng)度為3的漢字字符串全切分形式有4種:(l)(l)(l),(2)'(1)'(1)(2),(3),其中括號(hào)內(nèi)的數(shù)字表示一個(gè)切分單元里漢字字符的數(shù)目。那么,根據(jù)上述全切分方法,可以得到長(zhǎng)度為4的漢字字符串全切分形式有8種,分別為<table>tableseeoriginaldocumentpage4</column></row><table>2.全切分的剪枝全切分剪枝的目的是刪除不符合漢語(yǔ)語(yǔ)義的切分形式,降低計(jì)算量?;谠~典Lex剪枝的全切分方法如下(1)同CSA方法的(1)。(2)同CSA方法的(2)。(3)對(duì)于從上述步驟(2)得到的子串《的全切分形式,考察其中的每一種切分形式。假設(shè)在子串《的某一種切分形式S,'中存在某個(gè)切分單元^既不屬于詞典Lex,也不是詞典Lex中某個(gè)詞條的前綴,那么,刪除子串《的切分形式《,因此,在構(gòu)造子串S,+,的全切分時(shí),&的切分形式《不再被擴(kuò)展。當(dāng)刪除了所有這些不符合漢語(yǔ)語(yǔ)義的子串《的切分形式之后,余下的部分是符合漢語(yǔ)語(yǔ)義的切分形式,在構(gòu)造子串&+1的全切分時(shí)進(jìn)行擴(kuò)展。(4)同CSA方法的(3)。(5)同CSA方法的(4)。例如,對(duì)于漢字串"氧原子結(jié)合成分子",在對(duì)其長(zhǎng)度為2的子串"氧原"的全切分中,得到兩種切分形式(氧)(原)和(氧原)。在第一種切分形式中,切分單元(氧)和(原)都屬于詞典Lex(規(guī)定任何單字屬于詞典Lex),所以保留這種切分形式;在第一種切分形式中,切分單元(氧原)不屬于詞典Lex,但它是詞典Lex中的詞條"氧原子"的前綴,所以也保留這種切分形式。在對(duì)該漢字串長(zhǎng)度為4的子串"氧原子結(jié)"的全切分中,得到切分形式(氧原子結(jié)),而切分單元"氧原子結(jié)"既不屬于詞典Lex,也不是詞典Lex中某個(gè)詞條的前綴,故刪除之。根據(jù)我們的統(tǒng)計(jì)結(jié)果,上述剪枝方法大約可以刪除50%左右的全切分形式?;谌蟹纸Y(jié)果以及詞頻的統(tǒng)計(jì)知識(shí)等,可以給出漢語(yǔ)分詞過(guò)程中消除歧義的方法。假設(shè)在分詞過(guò)程中我們檢測(cè)到原漢字串中的一個(gè)子串存在歧義切分,該子串記為&=^;^...《(i&^ao。那么,首先對(duì)該子串進(jìn)行全切分,得到其所有全切分形式,然后,基于本文介紹的剪枝方法對(duì)全切分結(jié)果進(jìn)行剪枝,得到精簡(jiǎn)后的全切分結(jié)果。最后,利用詞頻的統(tǒng)計(jì)知識(shí)從精簡(jiǎn)后的全切分結(jié)果中選出概率最大的切分形式。考慮到漢語(yǔ)分詞中的最少分詞原則,在選擇概率最大的切分形式時(shí)應(yīng)該對(duì)分詞數(shù)目較少的切分形式賦予較大的權(quán)重,反之,則賦予較小的權(quán)重。經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn),將詞頻縮小iooo倍左右,再利用馬爾可夫鏈計(jì)算每個(gè)分詞形式的概率,可以得到滿(mǎn)意的結(jié)果。權(quán)利要求1.本發(fā)明涉及一種漢語(yǔ)文本的全切分技術(shù),用來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)文本的全切分,主要特征包括漢語(yǔ)文本的全切分方法、全切分的剪枝、基于全切分的歧義消除方法。2.根據(jù)權(quán)利要求l,漢語(yǔ)文本的全切分方法的技術(shù)特征是基于遞歸技術(shù),逐步將長(zhǎng)度為N的漢字字符串的全切分問(wèn)題轉(zhuǎn)化為長(zhǎng)度更短的漢字字符串的全切分問(wèn)題,直到轉(zhuǎn)化為長(zhǎng)度為1的漢字字符串的全切分問(wèn)題,然后再通過(guò)組合和添加兩種方式實(shí)現(xiàn)長(zhǎng)度為N的漢字字符串的全切分。3.根據(jù)權(quán)利要求1,全切分剪枝的技術(shù)特征是基于詞典以及子串S,的全切分形式,考察其中的每一種切分形式。如果在子串S,的某一種切分形式S,'中存在某個(gè)切分單元K既不屬于詞典,也不是詞典中某個(gè)詞條的前綴,那么,刪除子串《的切分形式《,在構(gòu)造子串&+]的全切分時(shí),&的切分形式《不再被擴(kuò)展。4.根據(jù)權(quán)利要求l,基于全切分的歧義消除方法的技術(shù)特征是首先對(duì)該子串進(jìn)行全切分,得到其所有全切分形式,然后,基于本文介紹的剪枝方法對(duì)全切分結(jié)果進(jìn)行剪枝,得到精簡(jiǎn)后的全切分結(jié)果。最后,利用詞頻的統(tǒng)計(jì)知識(shí)從精簡(jiǎn)后的全切分結(jié)果中選出概率最大的切分形式??紤]到漢語(yǔ)分詞中的最少分詞原則,在選擇概率最大的切分形式時(shí)應(yīng)該對(duì)分詞數(shù)目較少的切分形式賦予較大的權(quán)重,反之,則賦予較小的權(quán)重。經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn),將詞頻縮小1000倍左右,再利用馬爾可夫鏈計(jì)算每個(gè)分詞形式的概率,可以得到滿(mǎn)意的結(jié)果。全文摘要一種漢語(yǔ)文本的全切分技術(shù),用來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)文本的全切分,主要包括漢語(yǔ)文本的全切分方法、全切分的剪枝、基于全切分的歧義消除方法,其特點(diǎn)是基于遞歸技術(shù),逐步將長(zhǎng)度為N的漢字字符串的全切分問(wèn)題轉(zhuǎn)化為長(zhǎng)度更短的漢字字符串的全切分問(wèn)題,直到轉(zhuǎn)化為長(zhǎng)度為1的漢字字符串的全切分問(wèn)題,然后再通過(guò)組合和添加兩種方式實(shí)現(xiàn)長(zhǎng)度為N的漢字字符串的全切分。在本發(fā)明的全切分結(jié)果的基礎(chǔ)上,實(shí)現(xiàn)全切分的剪枝和歧義消除。該方法計(jì)算量小,容易實(shí)現(xiàn),比基于有限自動(dòng)機(jī)或無(wú)向圖方法的全切分技術(shù)有更高的效率。文檔編號(hào)G06F17/28GK101655841SQ20091017716公開(kāi)日2010年2月24日申請(qǐng)日期2009年9月28日優(yōu)先權(quán)日2009年9月28日發(fā)明者森章申請(qǐng)人:森章