漢語(yǔ)文本全分詞的一種遞歸方法

文檔序號(hào)：6375027閱讀：308來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：：漢語(yǔ)文本全分詞的一種遞歸方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及一種漢語(yǔ)文本的全切分技術(shù)，屬于計(jì)算機(jī)應(yīng)用和中文信息處理領(lǐng)域。
背景技術(shù)：
：中文文本沒(méi)有類(lèi)似英文空格之類(lèi)的顯式表標(biāo)示詞的邊界標(biāo)志。漢語(yǔ)自動(dòng)分詞的任務(wù)，通俗地說(shuō)，就是要由機(jī)器在中文文本中詞與詞之間自動(dòng)加上空格。中國(guó)正在向信息化社會(huì)迅速前進(jìn)，其突出表征是Internet上中文網(wǎng)頁(yè)的急劇增加和中文電子出版物、中文數(shù)字圖書(shū)館的迅速普及。而漢語(yǔ)自動(dòng)分詞是任何中文自然語(yǔ)言處理系統(tǒng)都難以回避的第一道基本"工序"，其作用十分重要。只有逾越這個(gè)障礙，中文處理系統(tǒng)才稱(chēng)得上初步打上了"智能"的印記，構(gòu)建于詞平面之上的各種后續(xù)語(yǔ)言分析手段才有展示身手的舞臺(tái)。否則，系統(tǒng)便只能被束縛在字平面上，成不了太大氣候。具體來(lái)說(shuō)，自動(dòng)分詞在很多現(xiàn)實(shí)應(yīng)用領(lǐng)域(中文文本的自動(dòng)檢索、過(guò)濾、分類(lèi)及摘要，中文文本的自動(dòng)校對(duì)，漢外機(jī)器翻譯，漢字識(shí)別與漢語(yǔ)語(yǔ)音識(shí)別的后處理，漢語(yǔ)語(yǔ)音合成，以句子為單位的漢字鍵盤(pán)輸入，漢字簡(jiǎn)繁體轉(zhuǎn)換等)中都扮演著極為重要的角色。中文分詞是把一個(gè)無(wú)間隔的漢字串映射到有間隔的漢字詞串的問(wèn)題。該問(wèn)題的難點(diǎn)在于歧義切分和未登錄詞問(wèn)題。目前通常的分詞方法有三大類(lèi)機(jī)械分詞、統(tǒng)計(jì)分詞和規(guī)則分詞，或者幾種方法的結(jié)合運(yùn)用。漢語(yǔ)分詞中的全切分問(wèn)題是指對(duì)于長(zhǎng)度為N的漢字字符串，在不考慮語(yǔ)義的情況下，找出其所有可能的切分形式。隨著字符串長(zhǎng)度N的增長(zhǎng)，其全切分形式的數(shù)目呈指數(shù)級(jí)增長(zhǎng)。針對(duì)這個(gè)問(wèn)題，已經(jīng)提出了基于有限自動(dòng)機(jī)和無(wú)向圖的求解算法，但這些算法一般使用詞頻作為邊的權(quán)值或狀態(tài)轉(zhuǎn)移的重要依據(jù)，因此，其得出的結(jié)果是依賴(lài)于詞頻或詞庫(kù)的切分結(jié)果，而不是理論上的所有可能的切分形式。從理論上說(shuō)，漢字字符串的全切分是不依賴(lài)于任何詞典或詞頻的，其假設(shè)前提是任何有限個(gè)漢字可以切分為一個(gè)漢字詞或作為一個(gè)切分單位。因此，其全切分的形式在理論上有2W—'種。針對(duì)全切分問(wèn)題，本發(fā)明構(gòu)造性地給出了實(shí)現(xiàn)全切分的一種遞歸方法。該方法與基于有限自動(dòng)機(jī)或無(wú)向圖的全切分方法相比，更加簡(jiǎn)潔高效，可應(yīng)用于漢語(yǔ)文本分詞或漢語(yǔ)拼音分詞等。
發(fā)明內(nèi)容本發(fā)明是一種漢語(yǔ)文本的全切分技術(shù)，用來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)文本的全切分，主要包括漢語(yǔ)文本的全切分方法、全切分的剪枝、基于全切分的歧義消除。1.長(zhǎng)度為N的漢字字符串的全切分方法CSA如下(本文下稱(chēng)CSA方法)(1)對(duì)于長(zhǎng)度為N的漢字字符串S^，取其第一個(gè)字符《，構(gòu)造Z/的全切分(只有一種，即自身)。為方便起見(jiàn)，我們記漢字字符串&的子串s,=^i:2...i,(la《AT)(2)對(duì)于z'=2，…,W，Sw的子串t的全切分己經(jīng)得到，對(duì)于子串的每一種切分形式，按照定理1中的方法構(gòu)造出2種子串S,的切分形式。從而得到子串S,的2'-1種切分形式。(3)當(dāng)/=7^時(shí)，我們得到漢字字符串^的所有2"—4巾切分形式。(4)列出漢字字符串&的所有2W-^中切分形式，結(jié)束。例如，我們已知長(zhǎng)度為3的漢字字符串全切分形式有4種:(l)(l)(l),(2)'(1)'(1)(2)，(3),其中括號(hào)內(nèi)的數(shù)字表示一個(gè)切分單元里漢字字符的數(shù)目。那么，根據(jù)上述全切分方法，可以得到長(zhǎng)度為4的漢字字符串全切分形式有8種，分別為<table>tableseeoriginaldocumentpage4</column></row><table>2.全切分的剪枝全切分剪枝的目的是刪除不符合漢語(yǔ)語(yǔ)義的切分形式，降低計(jì)算量?；谠~典Lex剪枝的全切分方法如下(1)同CSA方法的(1)。(2)同CSA方法的(2)。(3)對(duì)于從上述步驟(2)得到的子串《的全切分形式，考察其中的每一種切分形式。假設(shè)在子串《的某一種切分形式S,'中存在某個(gè)切分單元^既不屬于詞典Lex，也不是詞典Lex中某個(gè)詞條的前綴，那么，刪除子串《的切分形式《，因此，在構(gòu)造子串S,+,的全切分時(shí)，&的切分形式《不再被擴(kuò)展。當(dāng)刪除了所有這些不符合漢語(yǔ)語(yǔ)義的子串《的切分形式之后，余下的部分是符合漢語(yǔ)語(yǔ)義的切分形式，在構(gòu)造子串&+1的全切分時(shí)進(jìn)行擴(kuò)展。(4)同CSA方法的(3)。(5)同CSA方法的(4)。例如，對(duì)于漢字串"氧原子結(jié)合成分子"，在對(duì)其長(zhǎng)度為2的子串"氧原"的全切分中，得到兩種切分形式(氧)(原)和(氧原)。在第一種切分形式中，切分單元(氧)和(原)都屬于詞典Lex(規(guī)定任何單字屬于詞典Lex)，所以保留這種切分形式；在第一種切分形式中，切分單元(氧原)不屬于詞典Lex，但它是詞典Lex中的詞條"氧原子"的前綴，所以也保留這種切分形式。在對(duì)該漢字串長(zhǎng)度為4的子串"氧原子結(jié)"的全切分中，得到切分形式(氧原子結(jié))，而切分單元"氧原子結(jié)"既不屬于詞典Lex，也不是詞典Lex中某個(gè)詞條的前綴，故刪除之。根據(jù)我們的統(tǒng)計(jì)結(jié)果，上述剪枝方法大約可以刪除50%左右的全切分形式?；谌蟹纸Y(jié)果以及詞頻的統(tǒng)計(jì)知識(shí)等，可以給出漢語(yǔ)分詞過(guò)程中消除歧義的方法。假設(shè)在分詞過(guò)程中我們檢測(cè)到原漢字串中的一個(gè)子串存在歧義切分，該子串記為&=^;^...《(i&^ao。那么，首先對(duì)該子串進(jìn)行全切分，得到其所有全切分形式，然后，基于本文介紹的剪枝方法對(duì)全切分結(jié)果進(jìn)行剪枝，得到精簡(jiǎn)后的全切分結(jié)果。最后，利用詞頻的統(tǒng)計(jì)知識(shí)從精簡(jiǎn)后的全切分結(jié)果中選出概率最大的切分形式。考慮到漢語(yǔ)分詞中的最少分詞原則，在選擇概率最大的切分形式時(shí)應(yīng)該對(duì)分詞數(shù)目較少的切分形式賦予較大的權(quán)重，反之，則賦予較小的權(quán)重。經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)，將詞頻縮小iooo倍左右，再利用馬爾可夫鏈計(jì)算每個(gè)分詞形式的概率，可以得到滿(mǎn)意的結(jié)果。權(quán)利要求1.本發(fā)明涉及一種漢語(yǔ)文本的全切分技術(shù)，用來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)文本的全切分，主要特征包括漢語(yǔ)文本的全切分方法、全切分的剪枝、基于全切分的歧義消除方法。2.根據(jù)權(quán)利要求l，漢語(yǔ)文本的全切分方法的技術(shù)特征是基于遞歸技術(shù)，逐步將長(zhǎng)度為N的漢字字符串的全切分問(wèn)題轉(zhuǎn)化為長(zhǎng)度更短的漢字字符串的全切分問(wèn)題，直到轉(zhuǎn)化為長(zhǎng)度為1的漢字字符串的全切分問(wèn)題，然后再通過(guò)組合和添加兩種方式實(shí)現(xiàn)長(zhǎng)度為N的漢字字符串的全切分。3.根據(jù)權(quán)利要求1，全切分剪枝的技術(shù)特征是基于詞典以及子串S,的全切分形式，考察其中的每一種切分形式。如果在子串S,的某一種切分形式S,'中存在某個(gè)切分單元K既不屬于詞典，也不是詞典中某個(gè)詞條的前綴，那么，刪除子串《的切分形式《，在構(gòu)造子串&+]的全切分時(shí)，&的切分形式《不再被擴(kuò)展。4.根據(jù)權(quán)利要求l，基于全切分的歧義消除方法的技術(shù)特征是首先對(duì)該子串進(jìn)行全切分，得到其所有全切分形式，然后，基于本文介紹的剪枝方法對(duì)全切分結(jié)果進(jìn)行剪枝，得到精簡(jiǎn)后的全切分結(jié)果。最后，利用詞頻的統(tǒng)計(jì)知識(shí)從精簡(jiǎn)后的全切分結(jié)果中選出概率最大的切分形式?？紤]到漢語(yǔ)分詞中的最少分詞原則，在選擇概率最大的切分形式時(shí)應(yīng)該對(duì)分詞數(shù)目較少的切分形式賦予較大的權(quán)重，反之，則賦予較小的權(quán)重。經(jīng)過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)，將詞頻縮小1000倍左右，再利用馬爾可夫鏈計(jì)算每個(gè)分詞形式的概率，可以得到滿(mǎn)意的結(jié)果。全文摘要一種漢語(yǔ)文本的全切分技術(shù)，用來(lái)實(shí)現(xiàn)對(duì)漢語(yǔ)文本的全切分，主要包括漢語(yǔ)文本的全切分方法、全切分的剪枝、基于全切分的歧義消除方法，其特點(diǎn)是基于遞歸技術(shù)，逐步將長(zhǎng)度為N的漢字字符串的全切分問(wèn)題轉(zhuǎn)化為長(zhǎng)度更短的漢字字符串的全切分問(wèn)題，直到轉(zhuǎn)化為長(zhǎng)度為1的漢字字符串的全切分問(wèn)題，然后再通過(guò)組合和添加兩種方式實(shí)現(xiàn)長(zhǎng)度為N的漢字字符串的全切分。在本發(fā)明的全切分結(jié)果的基礎(chǔ)上，實(shí)現(xiàn)全切分的剪枝和歧義消除。該方法計(jì)算量小，容易實(shí)現(xiàn)，比基于有限自動(dòng)機(jī)或無(wú)向圖方法的全切分技術(shù)有更高的效率。文檔編號(hào)G06F17/28GK101655841SQ20091017716公開(kāi)日2010年2月24日申請(qǐng)日期2009年9月28日優(yōu)先權(quán)日2009年9月28日發(fā)明者森章申請(qǐng)人:森章

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：章森
技術(shù)所有人：章森
我是此專(zhuān)利的發(fā)明人

上一篇：一種工廠工藝流程的三維可視化方法
上一篇：一種中文人名識(shí)別的方法和裝置的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本分詞相關(guān)技術(shù)

中文文本分詞相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

漢語(yǔ)文本全分詞的一種遞歸方法