一種基于樹(shù)形詞庫(kù)的中文分詞方法

文檔序號(hào)：6464942閱讀：369來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：一種基于樹(shù)形詞庫(kù)的中文分詞方法
技術(shù)領(lǐng)域：
本發(fā)明涉及搜索引擎，數(shù)據(jù)庫(kù)，中文分詞領(lǐng)域，特別是涉及一種基于樹(shù)形詞庫(kù)的中文分詞方法。
背景技術(shù)：
中文分詞技術(shù)發(fā)展到今天已經(jīng)有許多不同的處理技術(shù)。這些技術(shù)概括起來(lái)可以歸為三類(lèi) 有基于匹配的分詞、基于統(tǒng)計(jì)的分詞和基于理解的分詞。
在中文分詞領(lǐng)域里，一般的分詞系統(tǒng)都是單純地運(yùn)用了基于匹配的分詞算法，而一些高級(jí)的或有特殊要求的就運(yùn)用了以匹配為主的混合形分詞算法，即在已有字典的基礎(chǔ)上加入對(duì) 新詞的統(tǒng)計(jì)，從而改善對(duì)未登錄詞的識(shí)別率，一般情況下，混合形算法會(huì)比單純的匹配算法的分詞準(zhǔn)確率有較大的改善，尤其是對(duì)于一些新生的專(zhuān)業(yè)詞或網(wǎng)絡(luò)語(yǔ)言等，而這往往是用戶(hù) 用于搜索的關(guān)鍵詞，因此加入統(tǒng)計(jì)思想對(duì)最終的分詞的實(shí)際效果將會(huì)有明顯的效果。
考慮到該算法應(yīng)用項(xiàng)目的特點(diǎn)——中醫(yī)藥領(lǐng)域的搜索系統(tǒng)，統(tǒng)計(jì)型算法將會(huì)對(duì)各種專(zhuān)業(yè)名次有更好的識(shí)別，而其效果會(huì)比通用型的搜索引擎要更為明顯。另外，考慮到語(yǔ)義相關(guān)的擴(kuò) 展搜索功能需要有一個(gè)能轉(zhuǎn)化為語(yǔ)義網(wǎng)絡(luò)的詞典，因此以匹配為主的混合形分詞算法將具有準(zhǔn)確高效的分詞效果與良好的擴(kuò)展性，更適合本項(xiàng)目利用。
對(duì)不同的使用目的和不同領(lǐng)域的査詢(xún)而言，單詞的意義和權(quán)重會(huì)有很大差別，所以針對(duì) 不同使用對(duì)詞庫(kù)做部分屏蔽或重新加載可以進(jìn)一步提高分詞的準(zhǔn)確性。在樹(shù)形結(jié)構(gòu)的分詞表中，越接近根的節(jié)點(diǎn)其涵蓋的語(yǔ)義越廣，因此可以通過(guò)標(biāo)記不同深度的節(jié)點(diǎn)來(lái)控制要屏蔽的語(yǔ)義的范圍，同樣也可以將某一領(lǐng)域需要的新詞加入到樹(shù)形結(jié)構(gòu)中的合適位置，實(shí)現(xiàn)對(duì)詞庫(kù) 語(yǔ)義范圍的修改。從而在原有算法的基礎(chǔ)上提高分詞效率和準(zhǔn)確度。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)的缺陷，而提供一種基于樹(shù)形詞庫(kù)的中文分詞方法，基于樹(shù)形詞庫(kù)并支持新詞加載和詞語(yǔ)屏蔽的中文分詞技術(shù)。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的。這種基于樹(shù)形結(jié)構(gòu)的中文分詞方法，包括以下步驟
1)以單個(gè)漢字為結(jié)點(diǎn)，以具體的分詞作為結(jié)構(gòu)信息來(lái)建立樹(shù)形中文分詞表；2) 通過(guò)對(duì)樹(shù)型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞，利用樹(shù)形詞庫(kù)的結(jié)構(gòu)信息來(lái)存儲(chǔ)分詞信息，利用全分支檢索來(lái)實(shí)現(xiàn)歧義包容；
3) 通過(guò)統(tǒng)計(jì)用戶(hù)輸入新詞的頻度來(lái)動(dòng)態(tài)改變?cè)~庫(kù)結(jié)構(gòu)，從而實(shí)現(xiàn)新詞的自動(dòng)識(shí)別。本發(fā)明中步驟l)樹(shù)形詞庫(kù)有一個(gè)公共的根節(jié)點(diǎn)，每個(gè)分詞的首字都掛在根節(jié)點(diǎn)之下，第
二個(gè)字再掛在首字之下，以此類(lèi)推，通過(guò)結(jié)點(diǎn)中的標(biāo)志位來(lái)判斷是否為終結(jié)詞。
本發(fā)明中步驟2)中對(duì)于要進(jìn)行分詞的字符串，將其與分詞樹(shù)進(jìn)行匹配，到遇到一個(gè)終結(jié)
符時(shí)就表示匹配到一個(gè)分詞，將其加入已匹配到的詞中，接下來(lái)在繼續(xù)現(xiàn)有匹配的同時(shí)，將
下一個(gè)字作為新詞的首字重新進(jìn)行匹配，以此來(lái)實(shí)現(xiàn)分支包容。
本發(fā)明中步驟3)中將無(wú)法識(shí)別的詞和其出現(xiàn)頻次儲(chǔ)存在一個(gè)單獨(dú)的表中，當(dāng)其出現(xiàn)頻度
超過(guò)系統(tǒng)設(shè)定的閥值時(shí)，就將該詞在詞庫(kù)中遍歷，將缺少的部分插入詞庫(kù)中，并將其最后一
個(gè)字中的終結(jié)符置為"true"。
本發(fā)明中通過(guò)在樹(shù)形詞庫(kù)節(jié)點(diǎn)上加入屏蔽位來(lái)實(shí)現(xiàn)對(duì)詞庫(kù)的屏蔽和動(dòng)態(tài)加載，樹(shù)型結(jié)構(gòu) 上的所有結(jié)點(diǎn)都包含一個(gè)布爾變量用來(lái)標(biāo)示該結(jié)點(diǎn)是否被屏蔽，系統(tǒng)讀入需要屏蔽分詞，將其在詞庫(kù)中進(jìn)行匹配，并將匹配項(xiàng)終止結(jié)點(diǎn)上的屏蔽位置為"true";當(dāng)分詞算法運(yùn)行時(shí)，如果發(fā)現(xiàn)匹配項(xiàng)的屏蔽位被置為"true",就忽略當(dāng)前匹配；當(dāng)進(jìn)行詞庫(kù)的動(dòng)態(tài)加載時(shí)，系統(tǒng)接受需屏蔽的詞，將其在詞庫(kù)中遍歷，如果該項(xiàng)己存在，就將屏蔽位置為"false",反之則將其插入詞庫(kù)。
本發(fā)明的有益效果與常用的基于數(shù)據(jù)表的詞庫(kù)相比，樹(shù)形詞庫(kù)在匹配效率和匹配長(zhǎng)度
上有了很大的提高。本發(fā)明在已有的樹(shù)形分詞詞庫(kù)算法進(jìn)行了擴(kuò)展，實(shí)現(xiàn)了新詞的自動(dòng)識(shí)別
以及分支屏蔽等功能。本技術(shù)在兼顧分詞效率和分詞效果的同時(shí)，增強(qiáng)了原有算法的靈活性
和擴(kuò)展性，使其可以更好的適應(yīng)動(dòng)態(tài)數(shù)據(jù)環(huán)境的要求。

圖1本發(fā)明中樹(shù)形詞表結(jié)構(gòu)圖；圖2本發(fā)明中分詞屏蔽示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述
本發(fā)明是一種基于樹(shù)形結(jié)構(gòu)的中文分詞方法，并實(shí)現(xiàn)了基于樹(shù)形結(jié)構(gòu)的新詞添加和分支屏蔽功能，主要按以下步驟進(jìn)行-1. 建立基于樹(shù)形結(jié)構(gòu)的分詞詞庫(kù)首先，建立一個(gè)根節(jié)點(diǎn)，再把詞庫(kù)中所有的首字都取出作為根節(jié)點(diǎn)的子節(jié)點(diǎn)，而第二個(gè)字則作為其子節(jié)點(diǎn)，以此類(lèi)推，節(jié)點(diǎn)以ArrayedHashM邵的形式儲(chǔ)存在內(nèi)存中，父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的關(guān)聯(lián)用HashMap中的映射來(lái)表示。
詞庫(kù)的具體形式見(jiàn)圖l,其中方型結(jié)點(diǎn)表示中間詞，是無(wú)法組成分詞的，而菱型結(jié)點(diǎn)表示終結(jié)詞，是一個(gè)完整的分詞的結(jié)尾。這樣，就可以在一條分支中包含多個(gè)分詞，最左邊高度為5的分支"中醫(yī)研究中"就包含"中醫(yī)"與"中醫(yī)研究"兩個(gè)分詞。
2. 在建立好詞庫(kù)后，分詞的匹配時(shí)通過(guò)對(duì)樹(shù)形詞庫(kù)的遍歷來(lái)實(shí)現(xiàn)的，分支處理時(shí)這里的核心內(nèi)容。該算法在遇到分支時(shí)會(huì)自動(dòng)分為兩條執(zhí)行路徑，一條按原路匹配，另一路將下個(gè) 漢字作為新詞的首字進(jìn)行重新匹配。這樣就實(shí)現(xiàn)了對(duì)所有可能分詞的匹配。
例如我們要在圖1的詞庫(kù)中查詢(xún)"中醫(yī)研究"，首先，用"中"字在根節(jié)點(diǎn)中匹配，找到匹配入口，然后逐字匹配，當(dāng)匹配到"醫(yī)"時(shí)，發(fā)現(xiàn)其為終結(jié)詞，就將"中醫(yī)"加入分詞結(jié) 果中。接下來(lái)就分為兩路，一路繼續(xù)匹配，最終得到另一個(gè)分詞"中醫(yī)研究"，另一路將"研" 字在根節(jié)點(diǎn)匹配，由于詞表中沒(méi)有以"研"開(kāi)頭的分詞，因此該路匹配終止。
3. 新詞的添加當(dāng)分詞時(shí)遇到無(wú)法匹配的新詞時(shí)(沒(méi)有的首字，無(wú)法分割的字段)，就將其內(nèi)容和出現(xiàn)次數(shù)儲(chǔ)存在一個(gè)數(shù)據(jù)表中。當(dāng)其出現(xiàn)頻度超過(guò)預(yù)設(shè)闊值時(shí)，就將其作為一個(gè) 新詞加入分詞詞表。
4. 基于樹(shù)形結(jié)構(gòu)的分支屏蔽與加載。樹(shù)型結(jié)構(gòu)上的所有結(jié)點(diǎn)都包含一個(gè)布爾變量用來(lái)標(biāo) 示該結(jié)點(diǎn)是否被屏蔽。當(dāng)需要進(jìn)行分詞屏蔽時(shí)，系統(tǒng)讀入要屏蔽的詞，將其在詞庫(kù)中遍歷，將匹配到的項(xiàng)的最后結(jié)點(diǎn)上屏蔽位置為"tme"。
需要加入新詞時(shí)，系統(tǒng)讀入需加入的詞，將其在詞庫(kù)中遍歷，如果該項(xiàng)存在，就將屏蔽位置為"false",否則就將其插入詞庫(kù)。
在進(jìn)行分詞算法運(yùn)行時(shí)，如果發(fā)現(xiàn)匹配項(xiàng)的屏蔽位被置為"true",就忽略當(dāng)前匹配。從而與上述過(guò)程一起實(shí)現(xiàn)了分支屏蔽與加載。
圖2中表示的是圖1的分詞表在被屏蔽了 "中醫(yī)研究"和"中草藥"這兩個(gè)詞后的結(jié)果，其中圓形的結(jié)點(diǎn)表示被屏蔽位已置位。
上述實(shí)施例用來(lái)解釋說(shuō)明本發(fā)明，而不是對(duì)本發(fā)明進(jìn)行限制，在本發(fā)明的精神和權(quán)利要求的保護(hù)范圍內(nèi)，對(duì)本發(fā)明作出的任何修改和改變，都落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1. 一種基于樹(shù)形結(jié)構(gòu)的中文分詞方法，其特征在于包括以下步驟1)以單個(gè)漢字為結(jié)點(diǎn)，以具體的分詞作為結(jié)構(gòu)信息來(lái)建立樹(shù)形中文分詞表；2)通過(guò)對(duì)樹(shù)型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞，利用樹(shù)形詞庫(kù)的結(jié)構(gòu)信息來(lái)存儲(chǔ)分詞信息，利用全分支檢索來(lái)實(shí)現(xiàn)歧義包容；3)通過(guò)統(tǒng)計(jì)用戶(hù)輸入新詞的頻度來(lái)動(dòng)態(tài)改變?cè)~庫(kù)結(jié)構(gòu)，從而實(shí)現(xiàn)新詞的自動(dòng)識(shí)別。
2. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法，其特征在于步驟l)樹(shù)形詞庫(kù)有一個(gè)公共的根節(jié)點(diǎn)，每個(gè)分詞的首字都掛在根節(jié)點(diǎn)之下，第二個(gè)字再掛在首字之下，以此類(lèi)推，通過(guò)結(jié)點(diǎn)中的標(biāo)志位來(lái)判斷是否為終結(jié)詞。
3. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法，其特征在于步驟2)中對(duì)于要進(jìn)行分詞的字符串，將其與分詞樹(shù)進(jìn)行匹配，到遇到一個(gè)終結(jié)符時(shí)就表示匹配到一個(gè)分詞，將其加入已匹配到的詞中，接下來(lái)在繼續(xù)現(xiàn)有匹配的同時(shí)，將下一個(gè)字作為新詞的首字重新進(jìn)行匹配，以此來(lái)實(shí)現(xiàn)分支包容。
4. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法，其特征在于步驟3)中將無(wú) 法識(shí)別的詞和其出現(xiàn)頻次儲(chǔ)存在一個(gè)單獨(dú)的表中，當(dāng)其出現(xiàn)頻度超過(guò)系統(tǒng)設(shè)定的閥值時(shí)，就將該詞在詞庫(kù)中遍歷，將缺少的部分插入詞庫(kù)中，并將其最后一個(gè)字中的終結(jié)符置為"true"。
5. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法，其特征在于通過(guò)在樹(shù)形詞庫(kù)節(jié)點(diǎn)上加入屏蔽位來(lái)實(shí)現(xiàn)對(duì)詞庫(kù)的屏蔽和動(dòng)態(tài)加載，樹(shù)型結(jié)構(gòu)上的所有結(jié)點(diǎn)都包含一個(gè)布爾變量用來(lái)標(biāo)示該結(jié)點(diǎn)是否被屏蔽，系統(tǒng)讀入需要屏蔽分詞，將其在詞庫(kù)中進(jìn)行匹配，并將匹配項(xiàng)終止結(jié)點(diǎn)上的屏蔽位置為"true";當(dāng)分詞算法運(yùn)行時(shí)，如果發(fā)現(xiàn)匹配項(xiàng)的屏蔽位被置為"true",就忽略當(dāng)前匹配；當(dāng)進(jìn)行詞庫(kù)的動(dòng)態(tài)加載時(shí)，系統(tǒng)接受需屏蔽的詞，將其在詞庫(kù)中遍歷，如果該項(xiàng)已存在，就將屏蔽位置為"false",反之則將其插入詞庫(kù)。
全文摘要
本發(fā)明涉及一種基于樹(shù)形結(jié)構(gòu)的中文分詞方法，包括以下步驟1)以單個(gè)漢字為結(jié)點(diǎn)，以具體的分詞作為結(jié)構(gòu)信息來(lái)建立樹(shù)形中文分詞表；2)通過(guò)對(duì)樹(shù)型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞，利用樹(shù)形詞庫(kù)的結(jié)構(gòu)信息來(lái)存儲(chǔ)分詞信息，利用全分支檢索來(lái)實(shí)現(xiàn)歧義包容；3)通過(guò)統(tǒng)計(jì)用戶(hù)輸入新詞的頻度來(lái)動(dòng)態(tài)改變?cè)~庫(kù)結(jié)構(gòu)，從而實(shí)現(xiàn)新詞的自動(dòng)識(shí)別。本發(fā)明的有益效果樹(shù)形詞庫(kù)在匹配效率和匹配長(zhǎng)度上有了很大的提高。本發(fā)明在已有的樹(shù)形分詞詞庫(kù)算法進(jìn)行了擴(kuò)展，實(shí)現(xiàn)了新詞的自動(dòng)識(shí)別以及分支屏蔽等功能。本技術(shù)在兼顧分詞效率和分詞效果的同時(shí)，增強(qiáng)了原有算法的靈活性和擴(kuò)展性，使其可以更好的適應(yīng)動(dòng)態(tài)數(shù)據(jù)環(huán)境的要求。
文檔編號(hào)G06F17/30GK101458694SQ200810121368
公開(kāi)日2009年6月17日申請(qǐng)日期2008年10月9日優(yōu)先權(quán)日2008年10月9日
發(fā)明者吳朝暉, 姜曉紅, 張小剛申請(qǐng)人:浙江大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳朝暉;張小剛;姜曉紅
技術(shù)所有人：浙江大學(xué)
我是此專(zhuān)利的發(fā)明人

上一篇：一種識(shí)別和檢測(cè)隧道火災(zāi)火焰的方法
上一篇：一種基于語(yǔ)義的數(shù)據(jù)服務(wù)糅合方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文分詞方法相關(guān)技術(shù)

中文分詞的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于樹(shù)形詞庫(kù)的中文分詞方法