亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種適用于專業(yè)搜索引擎的分詞方法

文檔序號:6491815閱讀:347來源:國知局
一種適用于專業(yè)搜索引擎的分詞方法
【專利摘要】本發(fā)明公開了一種適用于專業(yè)搜索引擎的分詞方法,包括以下步驟:根據(jù)專業(yè)主詞典表和同義詞詞典表首先建立首字索引視圖和首字詞條視圖;用數(shù)組將整個字典的兩個視圖數(shù)據(jù)裝入內存;循環(huán)查找和匹配過程。做為專業(yè)搜索引擎其搜索對象通常是專業(yè)領域的技術文檔,這些文檔的特征項都基于專業(yè)詞典,與通用詞典相比專業(yè)詞典包含的詞匯量很少,因此只需匹配專業(yè)詞條即可,無需像綜合搜索引擎那樣對句子中所有詞條進行全部切分,因此本發(fā)明受首字哈希結構的啟發(fā),設計了一種可以提高專業(yè)分詞的效率,避免傳統(tǒng)最大匹配分詞中頻繁查詞典的缺陷,以及首字哈希浪費存儲空間的弊端的簡單實用的分詞方法。
【專利說明】一種適用于專業(yè)搜索引擎的分詞方法
【技術領域】
[0001]本發(fā)明涉及一種中文的自動分詞技術,特別是一種適用于專業(yè)搜索引擎的分詞方法。
【背景技術】
[0002]在國內自80年代以來,已陸續(xù)開發(fā)出一些分詞系統(tǒng),使用的分詞方法也有多種。但歸納起來不外乎兩類:一類是理解式分詞法,即利用漢語的語法知識和語義知識以及心理學知識試圖模仿人類的閱讀過程來進行分詞。這種分詞需要建立分詞數(shù)據(jù)庫、知識庫和推理機,主要包括專家系統(tǒng)分詞法、基于語法和規(guī)則的分詞法、基于神經(jīng)網(wǎng)絡的分詞法等;另一類是機械式分詞法,這種分詞法一般以分詞詞典為依據(jù),通過文檔中的漢字串和詞表中的詞逐一匹配來完成詞的切分。其中分詞詞典中不涉及太多的詞法、語義、句法知識等關于語言自身的信息,主要是個詞表。詞典中詞條的數(shù)目、詞條的選擇直接影響到最后的分詞效果。它主要包括正向、逆向最大匹配法、最佳匹配法、逐詞遍歷法、詞頻統(tǒng)計法等。相比而言,第一類分詞方案的算法復雜度高,其有效性于可行性尚需在實際工作中得到進一步地驗證。因為漢語畢竟是缺乏詞的標志和嚴格的構詞規(guī)則。語言界現(xiàn)有的詞法、句法及組合規(guī)則仍然是十分籠統(tǒng)的和復雜的,能否有效的、系統(tǒng)地轉換成為計算機采用的形式恐怕難以定論。因此這種分詞方法僅是處于研究階段,距離實用化還有很大差距,一般不宜采用。第二類分詞方法實現(xiàn)簡單,比起第一類來較具體、實用,而且也可以達到較高的準確度。
[0003]搜索引擎中常用的分詞技術是一種基于分詞詞典的機械分詞法,即正逆向最大匹配法。它不能根據(jù)文檔上下文的語義特征來切分詞語,對詞典的依賴性較大,所以在實際使用時,難免會造成一些分詞錯誤。為了提高系統(tǒng)分詞的準確度,在搜索引擎的實際應用中通常采用正向最大匹配法和逆向最大匹配法相結合的分詞方案。先根據(jù)標點對文檔進行粗切分,把文檔分解成若干個子段,然后再對這些子段用正向最大匹配法和逆向最大匹配法進行掃描切分。如果兩種分詞方法得到的匹配結果相同,則認為分詞正確,否則,按同時包含兩部分的最小長度處理。
[0004]目前搜索引擎中用到的正逆向最大匹配相結合的分詞算法和首字哈希的詞典組織結構都是建立在通用詞典的基礎上的,它要求對詞條全部切分直到單字為止。但做為專業(yè)搜索引擎其搜索對象通常是專業(yè)領域的技術文檔,這些文檔的特征項都基于專業(yè)詞典,與通用詞典相比專業(yè)詞典包含的詞匯量很少,因此只需匹配專業(yè)詞條即可,無需像綜合搜索引擎那樣對句子中所有詞條進行全部切分。

【發(fā)明內容】

[0005]為解決現(xiàn)有技術存在的上述問題,本發(fā)明受首字哈希結構的啟發(fā),設計了一種可以提高專業(yè)分詞的效率,避免傳統(tǒng)最大匹配分詞中頻繁查詞典的缺陷,以及首字哈希浪費存儲空間的弊端的簡單實用的分詞方法。
[0006]為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:一種適用于專業(yè)搜索引擎的分詞方法:包括以下步驟:
[0007]A、根據(jù)專業(yè)主詞典表和同義詞詞典表首先建立首字索引視圖和首字詞條視圖;
[0008]B、初始化時用數(shù)組將整個字典的兩個視圖數(shù)據(jù)裝入內存;
[0009]C、根據(jù)標點進行粗切分,然后從句子中按順序取出一個漢字在首字索引視圖中用二分法進行查找,若未找到則進入下次循環(huán);
[0010]D、否則轉到首字詞條視圖中分別按其中同的“詞條長度”截取句子相應長度的字符串;
[0011]E、按首字詞條視圖中的詞條順序取出所有以該字開頭的詞條名并與相應長度的截取串進行比較,比較次數(shù)由首字索引視圖中首字詞數(shù)目決定;
[0012]若再匹配成功則對相應詞條統(tǒng)計計數(shù),如果詞條來源于主詞典直接給該詞計數(shù),如果詞條來源于同義詞典則應對該詞所對應的主詞典詞計數(shù);
[0013]同時跳過該詞條包含的漢字進入下一次循環(huán);否則直接進入下次循環(huán);
[0014]F、重復步驟A-E直到文章結束為止。
[0015]與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
[0016]1.保持了傳統(tǒng)最大匹配優(yōu)先的特點,同時也適合于中英文混合詞條(如“甲A”,“Java實例”等)的分詞統(tǒng)計。
[0017]2.改變傳統(tǒng)最大匹配中截取字串匹配詞典詞條的做法,而采用了詞典詞條匹配相應長度截取字串的匹配方法。保證了所有的匹配都是有效匹配,避免了傳統(tǒng)最大匹配法順序查字典中大量的無效匹配判斷,提高了分詞的效率。
[0018]3.根據(jù)專業(yè)詞典建立首字索引,避免了傳統(tǒng)首字哈希索引方法在專業(yè)搜索引擎中浪費存儲空間的弊端。
[0019]4.方法簡單易于實現(xiàn)。無需建立新的索引結構表,僅利用現(xiàn)有的庫表結構即可實現(xiàn),降低了建立索引的復雜度,能有效的適用于專業(yè)搜索引擎的使用。
【專利附圖】

【附圖說明】
[0020]本發(fā)明共有附圖1張,其中:
[0021]圖1是本發(fā)明中適合專業(yè)搜索引擎的分詞法流結構示意圖。
【具體實施方式】
[0022]下面結合附圖對本發(fā)明進行進一步地描述。本發(fā)明的工作流程如圖1,根據(jù)專業(yè)主詞典表和同義詞詞典表首先建立首字索引視圖和首字詞條視圖兩個視圖。然后初始化時用數(shù)組將整個字典的兩個視圖數(shù)據(jù)裝入內存。在分詞時先根據(jù)標點進行粗切分,接著從句子中按順序取出一個漢字在首字索引視圖的“詞條首字”中用二分法進行查找,若未找到則進入下次循環(huán),否則轉到首字詞條視圖中分別按首字詞條視圖中不同的“詞條長度”截取句子相應長度的字符串,然后按首字詞條視圖中的詞條順序取出所有以該字開頭的詞條名并與相應長度的截取串進行比較(比較次數(shù)由首字索引視圖中“首字詞數(shù)目”決定),若再匹配成功則對相應詞條統(tǒng)計計數(shù)(如果詞條來源于主詞典直接給該詞計數(shù),如果詞條來源于同義詞典則應對該詞所對應的主詞典詞計數(shù)),同時跳過該詞條包含的漢字進入下一次循環(huán)。否則直接進入下次循環(huán)。如此反復匹配直到文章結束為止。
【權利要求】
1.一種適用于專業(yè)搜索引擎的分詞方法,其特征在于:包括以下步驟: A、根據(jù)專業(yè)主詞典表和同義詞詞典表首先建立首字索引視圖和首字詞條視圖; B、初始化時用數(shù)組將整個字典的兩個視圖數(shù)據(jù)裝入內存; C、根據(jù)標點進行粗切分,然后從句子中按順序取出一個漢字在首字索引視圖中用二分法進行查找,若未找到則進入下次循環(huán); D、否則轉到首字詞條視圖中分別按其中同的“詞條長度”截取句子相應長度的字符串; E、按首字詞條視圖中的詞條順序取出所有以該字開頭的詞條名并與相應長度的截取串進行比較,比較次數(shù)由首字索引視圖中首字詞數(shù)目決定; 若再匹配成功則對相應詞條統(tǒng)計計數(shù),如果詞條來源于主詞典直接給該詞計數(shù),如果詞條來源于同義詞典則應對該詞所對應的主詞典詞計數(shù); 同時跳過該詞條包含的漢字進入下一次循環(huán);否則直接進入下次循環(huán); F、重復步驟A-E直到文章結束為止。
【文檔編號】G06F17/30GK103838794SQ201210491416
【公開日】2014年6月4日 申請日期:2012年11月27日 優(yōu)先權日:2012年11月27日
【發(fā)明者】鄭世明 申請人:大連靈動科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1