亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于樹(shù)形詞庫(kù)的中文分詞方法

文檔序號(hào):6464942閱讀:369來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種基于樹(shù)形詞庫(kù)的中文分詞方法
技術(shù)領(lǐng)域
本發(fā)明涉及搜索引擎,數(shù)據(jù)庫(kù),中文分詞領(lǐng)域,特別是涉及一種基于樹(shù)形詞庫(kù)的中文分 詞方法。
背景技術(shù)
中文分詞技術(shù)發(fā)展到今天已經(jīng)有許多不同的處理技術(shù)。這些技術(shù)概括起來(lái)可以歸為三類(lèi) 有基于匹配的分詞、基于統(tǒng)計(jì)的分詞和基于理解的分詞。
在中文分詞領(lǐng)域里, 一般的分詞系統(tǒng)都是單純地運(yùn)用了基于匹配的分詞算法,而一些高 級(jí)的或有特殊要求的就運(yùn)用了以匹配為主的混合形分詞算法,即在已有字典的基礎(chǔ)上加入對(duì) 新詞的統(tǒng)計(jì),從而改善對(duì)未登錄詞的識(shí)別率, 一般情況下,混合形算法會(huì)比單純的匹配算法 的分詞準(zhǔn)確率有較大的改善,尤其是對(duì)于一些新生的專(zhuān)業(yè)詞或網(wǎng)絡(luò)語(yǔ)言等,而這往往是用戶(hù) 用于搜索的關(guān)鍵詞,因此加入統(tǒng)計(jì)思想對(duì)最終的分詞的實(shí)際效果將會(huì)有明顯的效果。
考慮到該算法應(yīng)用項(xiàng)目的特點(diǎn)——中醫(yī)藥領(lǐng)域的搜索系統(tǒng),統(tǒng)計(jì)型算法將會(huì)對(duì)各種專(zhuān)業(yè)名 次有更好的識(shí)別,而其效果會(huì)比通用型的搜索引擎要更為明顯。另外,考慮到語(yǔ)義相關(guān)的擴(kuò) 展搜索功能需要有一個(gè)能轉(zhuǎn)化為語(yǔ)義網(wǎng)絡(luò)的詞典,因此以匹配為主的混合形分詞算法將具有 準(zhǔn)確高效的分詞效果與良好的擴(kuò)展性,更適合本項(xiàng)目利用。
對(duì)不同的使用目的和不同領(lǐng)域的査詢(xún)而言,單詞的意義和權(quán)重會(huì)有很大差別,所以針對(duì) 不同使用對(duì)詞庫(kù)做部分屏蔽或重新加載可以進(jìn)一步提高分詞的準(zhǔn)確性。在樹(shù)形結(jié)構(gòu)的分詞表 中,越接近根的節(jié)點(diǎn)其涵蓋的語(yǔ)義越廣,因此可以通過(guò)標(biāo)記不同深度的節(jié)點(diǎn)來(lái)控制要屏蔽的 語(yǔ)義的范圍,同樣也可以將某一領(lǐng)域需要的新詞加入到樹(shù)形結(jié)構(gòu)中的合適位置,實(shí)現(xiàn)對(duì)詞庫(kù) 語(yǔ)義范圍的修改。從而在原有算法的基礎(chǔ)上提高分詞效率和準(zhǔn)確度。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)的缺陷,而提供一種基于樹(shù)形詞庫(kù)的中文分詞方法,基 于樹(shù)形詞庫(kù)并支持新詞加載和詞語(yǔ)屏蔽的中文分詞技術(shù)。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的。這種基于樹(shù)形結(jié)構(gòu)的中文分詞方法,包括 以下步驟
1)以單個(gè)漢字為結(jié)點(diǎn),以具體的分詞作為結(jié)構(gòu)信息來(lái)建立樹(shù)形中文分詞表;2) 通過(guò)對(duì)樹(shù)型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞,利用樹(shù)形詞庫(kù)的結(jié)構(gòu)信息來(lái)存儲(chǔ)分詞信息,利 用全分支檢索來(lái)實(shí)現(xiàn)歧義包容;
3) 通過(guò)統(tǒng)計(jì)用戶(hù)輸入新詞的頻度來(lái)動(dòng)態(tài)改變?cè)~庫(kù)結(jié)構(gòu),從而實(shí)現(xiàn)新詞的自動(dòng)識(shí)別。 本發(fā)明中步驟l)樹(shù)形詞庫(kù)有一個(gè)公共的根節(jié)點(diǎn),每個(gè)分詞的首字都掛在根節(jié)點(diǎn)之下,第
二個(gè)字再掛在首字之下,以此類(lèi)推,通過(guò)結(jié)點(diǎn)中的標(biāo)志位來(lái)判斷是否為終結(jié)詞。
本發(fā)明中步驟2)中對(duì)于要進(jìn)行分詞的字符串,將其與分詞樹(shù)進(jìn)行匹配,到遇到一個(gè)終結(jié)
符時(shí)就表示匹配到一個(gè)分詞,將其加入已匹配到的詞中,接下來(lái)在繼續(xù)現(xiàn)有匹配的同時(shí),將
下一個(gè)字作為新詞的首字重新進(jìn)行匹配,以此來(lái)實(shí)現(xiàn)分支包容。
本發(fā)明中步驟3)中將無(wú)法識(shí)別的詞和其出現(xiàn)頻次儲(chǔ)存在一個(gè)單獨(dú)的表中,當(dāng)其出現(xiàn)頻度
超過(guò)系統(tǒng)設(shè)定的閥值時(shí),就將該詞在詞庫(kù)中遍歷,將缺少的部分插入詞庫(kù)中,并將其最后一
個(gè)字中的終結(jié)符置為"true"。
本發(fā)明中通過(guò)在樹(shù)形詞庫(kù)節(jié)點(diǎn)上加入屏蔽位來(lái)實(shí)現(xiàn)對(duì)詞庫(kù)的屏蔽和動(dòng)態(tài)加載,樹(shù)型結(jié)構(gòu) 上的所有結(jié)點(diǎn)都包含一個(gè)布爾變量用來(lái)標(biāo)示該結(jié)點(diǎn)是否被屏蔽,系統(tǒng)讀入需要屏蔽分詞,將 其在詞庫(kù)中進(jìn)行匹配,并將匹配項(xiàng)終止結(jié)點(diǎn)上的屏蔽位置為"true";當(dāng)分詞算法運(yùn)行時(shí),如 果發(fā)現(xiàn)匹配項(xiàng)的屏蔽位被置為"true",就忽略當(dāng)前匹配;當(dāng)進(jìn)行詞庫(kù)的動(dòng)態(tài)加載時(shí),系統(tǒng)接 受需屏蔽的詞,將其在詞庫(kù)中遍歷,如果該項(xiàng)己存在,就將屏蔽位置為"false",反之則將 其插入詞庫(kù)。
本發(fā)明的有益效果與常用的基于數(shù)據(jù)表的詞庫(kù)相比,樹(shù)形詞庫(kù)在匹配效率和匹配長(zhǎng)度
上有了很大的提高。本發(fā)明在已有的樹(shù)形分詞詞庫(kù)算法進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了新詞的自動(dòng)識(shí)別
以及分支屏蔽等功能。本技術(shù)在兼顧分詞效率和分詞效果的同時(shí),增強(qiáng)了原有算法的靈活性
和擴(kuò)展性,使其可以更好的適應(yīng)動(dòng)態(tài)數(shù)據(jù)環(huán)境的要求。


圖1本發(fā)明中樹(shù)形詞表結(jié)構(gòu)圖; 圖2本發(fā)明中分詞屏蔽示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作 進(jìn)一步地詳細(xì)描述
本發(fā)明是一種基于樹(shù)形結(jié)構(gòu)的中文分詞方法,并實(shí)現(xiàn)了基于樹(shù)形結(jié)構(gòu)的新詞添加和分支 屏蔽功能,主要按以下步驟進(jìn)行-1. 建立基于樹(shù)形結(jié)構(gòu)的分詞詞庫(kù)首先,建立一個(gè)根節(jié)點(diǎn),再把詞庫(kù)中所有的首字都取 出作為根節(jié)點(diǎn)的子節(jié)點(diǎn),而第二個(gè)字則作為其子節(jié)點(diǎn),以此類(lèi)推,節(jié)點(diǎn)以ArrayedHashM邵 的形式儲(chǔ)存在內(nèi)存中,父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的關(guān)聯(lián)用HashMap中的映射來(lái)表示。
詞庫(kù)的具體形式見(jiàn)圖l,其中方型結(jié)點(diǎn)表示中間詞,是無(wú)法組成分詞的,而菱型結(jié)點(diǎn)表示 終結(jié)詞,是一個(gè)完整的分詞的結(jié)尾。這樣,就可以在一條分支中包含多個(gè)分詞,最左邊高度 為5的分支"中醫(yī)研究中"就包含"中醫(yī)"與"中醫(yī)研究"兩個(gè)分詞。
2. 在建立好詞庫(kù)后,分詞的匹配時(shí)通過(guò)對(duì)樹(shù)形詞庫(kù)的遍歷來(lái)實(shí)現(xiàn)的,分支處理時(shí)這里的 核心內(nèi)容。該算法在遇到分支時(shí)會(huì)自動(dòng)分為兩條執(zhí)行路徑, 一條按原路匹配,另一路將下個(gè) 漢字作為新詞的首字進(jìn)行重新匹配。這樣就實(shí)現(xiàn)了對(duì)所有可能分詞的匹配。
例如我們要在圖1的詞庫(kù)中查詢(xún)"中醫(yī)研究",首先,用"中"字在根節(jié)點(diǎn)中匹配,找到 匹配入口,然后逐字匹配,當(dāng)匹配到"醫(yī)"時(shí),發(fā)現(xiàn)其為終結(jié)詞,就將"中醫(yī)"加入分詞結(jié) 果中。接下來(lái)就分為兩路, 一路繼續(xù)匹配,最終得到另一個(gè)分詞"中醫(yī)研究",另一路將"研" 字在根節(jié)點(diǎn)匹配,由于詞表中沒(méi)有以"研"開(kāi)頭的分詞,因此該路匹配終止。
3. 新詞的添加當(dāng)分詞時(shí)遇到無(wú)法匹配的新詞時(shí)(沒(méi)有的首字,無(wú)法分割的字段),就 將其內(nèi)容和出現(xiàn)次數(shù)儲(chǔ)存在一個(gè)數(shù)據(jù)表中。當(dāng)其出現(xiàn)頻度超過(guò)預(yù)設(shè)闊值時(shí),就將其作為一個(gè) 新詞加入分詞詞表。
4. 基于樹(shù)形結(jié)構(gòu)的分支屏蔽與加載。樹(shù)型結(jié)構(gòu)上的所有結(jié)點(diǎn)都包含一個(gè)布爾變量用來(lái)標(biāo) 示該結(jié)點(diǎn)是否被屏蔽。當(dāng)需要進(jìn)行分詞屏蔽時(shí),系統(tǒng)讀入要屏蔽的詞,將其在詞庫(kù)中遍歷, 將匹配到的項(xiàng)的最后結(jié)點(diǎn)上屏蔽位置為"tme"。
需要加入新詞時(shí),系統(tǒng)讀入需加入的詞,將其在詞庫(kù)中遍歷,如果該項(xiàng)存在,就將屏蔽 位置為"false",否則就將其插入詞庫(kù)。
在進(jìn)行分詞算法運(yùn)行時(shí),如果發(fā)現(xiàn)匹配項(xiàng)的屏蔽位被置為"true",就忽略當(dāng)前匹配。從 而與上述過(guò)程一起實(shí)現(xiàn)了分支屏蔽與加載。
圖2中表示的是圖1的分詞表在被屏蔽了 "中醫(yī)研究"和"中草藥"這兩個(gè)詞后的結(jié)果, 其中圓形的結(jié)點(diǎn)表示被屏蔽位已置位。
上述實(shí)施例用來(lái)解釋說(shuō)明本發(fā)明,而不是對(duì)本發(fā)明進(jìn)行限制,在本發(fā)明的精神和權(quán)利要 求的保護(hù)范圍內(nèi),對(duì)本發(fā)明作出的任何修改和改變,都落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1. 一種基于樹(shù)形結(jié)構(gòu)的中文分詞方法,其特征在于包括以下步驟1)以單個(gè)漢字為結(jié)點(diǎn),以具體的分詞作為結(jié)構(gòu)信息來(lái)建立樹(shù)形中文分詞表;2)通過(guò)對(duì)樹(shù)型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞,利用樹(shù)形詞庫(kù)的結(jié)構(gòu)信息來(lái)存儲(chǔ)分詞信息,利用全分支檢索來(lái)實(shí)現(xiàn)歧義包容;3)通過(guò)統(tǒng)計(jì)用戶(hù)輸入新詞的頻度來(lái)動(dòng)態(tài)改變?cè)~庫(kù)結(jié)構(gòu),從而實(shí)現(xiàn)新詞的自動(dòng)識(shí)別。
2. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法,其特征在于步驟l)樹(shù)形詞 庫(kù)有一個(gè)公共的根節(jié)點(diǎn),每個(gè)分詞的首字都掛在根節(jié)點(diǎn)之下,第二個(gè)字再掛在首字之下,以 此類(lèi)推,通過(guò)結(jié)點(diǎn)中的標(biāo)志位來(lái)判斷是否為終結(jié)詞。
3. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法,其特征在于步驟2)中對(duì)于 要進(jìn)行分詞的字符串,將其與分詞樹(shù)進(jìn)行匹配,到遇到一個(gè)終結(jié)符時(shí)就表示匹配到一個(gè)分詞, 將其加入已匹配到的詞中,接下來(lái)在繼續(xù)現(xiàn)有匹配的同時(shí),將下一個(gè)字作為新詞的首字重新 進(jìn)行匹配,以此來(lái)實(shí)現(xiàn)分支包容。
4. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法,其特征在于步驟3)中將無(wú) 法識(shí)別的詞和其出現(xiàn)頻次儲(chǔ)存在一個(gè)單獨(dú)的表中,當(dāng)其出現(xiàn)頻度超過(guò)系統(tǒng)設(shè)定的閥值時(shí),就 將該詞在詞庫(kù)中遍歷,將缺少的部分插入詞庫(kù)中,并將其最后一個(gè)字中的終結(jié)符置為"true"。
5. 根據(jù)權(quán)利要求1所述的基于樹(shù)形結(jié)構(gòu)的中文分詞方法,其特征在于通過(guò)在樹(shù)形詞庫(kù)節(jié)點(diǎn)上加入屏蔽位來(lái)實(shí)現(xiàn)對(duì)詞庫(kù)的屏蔽和動(dòng)態(tài)加載,樹(shù)型結(jié)構(gòu)上的所有結(jié)點(diǎn)都包含一個(gè)布 爾變量用來(lái)標(biāo)示該結(jié)點(diǎn)是否被屏蔽,系統(tǒng)讀入需要屏蔽分詞,將其在詞庫(kù)中進(jìn)行匹配,并將匹配項(xiàng)終止結(jié)點(diǎn)上的屏蔽位置為"true";當(dāng)分詞算法運(yùn)行時(shí),如果發(fā)現(xiàn)匹配項(xiàng)的屏蔽位被 置為"true",就忽略當(dāng)前匹配;當(dāng)進(jìn)行詞庫(kù)的動(dòng)態(tài)加載時(shí),系統(tǒng)接受需屏蔽的詞,將其在 詞庫(kù)中遍歷,如果該項(xiàng)已存在,就將屏蔽位置為"false",反之則將其插入詞庫(kù)。
全文摘要
本發(fā)明涉及一種基于樹(shù)形結(jié)構(gòu)的中文分詞方法,包括以下步驟1)以單個(gè)漢字為結(jié)點(diǎn),以具體的分詞作為結(jié)構(gòu)信息來(lái)建立樹(shù)形中文分詞表;2)通過(guò)對(duì)樹(shù)型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞,利用樹(shù)形詞庫(kù)的結(jié)構(gòu)信息來(lái)存儲(chǔ)分詞信息,利用全分支檢索來(lái)實(shí)現(xiàn)歧義包容;3)通過(guò)統(tǒng)計(jì)用戶(hù)輸入新詞的頻度來(lái)動(dòng)態(tài)改變?cè)~庫(kù)結(jié)構(gòu),從而實(shí)現(xiàn)新詞的自動(dòng)識(shí)別。本發(fā)明的有益效果樹(shù)形詞庫(kù)在匹配效率和匹配長(zhǎng)度上有了很大的提高。本發(fā)明在已有的樹(shù)形分詞詞庫(kù)算法進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了新詞的自動(dòng)識(shí)別以及分支屏蔽等功能。本技術(shù)在兼顧分詞效率和分詞效果的同時(shí),增強(qiáng)了原有算法的靈活性和擴(kuò)展性,使其可以更好的適應(yīng)動(dòng)態(tài)數(shù)據(jù)環(huán)境的要求。
文檔編號(hào)G06F17/30GK101458694SQ200810121368
公開(kāi)日2009年6月17日 申請(qǐng)日期2008年10月9日 優(yōu)先權(quán)日2008年10月9日
發(fā)明者吳朝暉, 姜曉紅, 張小剛 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1