亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于詞典的正向逐次加一字最大匹配中文分詞方法

文檔序號(hào):9417347閱讀:358來源:國(guó)知局
一種基于詞典的正向逐次加一字最大匹配中文分詞方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于詞典的正向逐次加一字最大匹配中文分詞方法,屬于計(jì)算機(jī) 中文文本處理技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著科技的發(fā)展,人類社會(huì)已經(jīng)進(jìn)入了信息時(shí)代。讓計(jì)算機(jī)"讀懂"人類的自然語(yǔ) 言,實(shí)現(xiàn)自由的人機(jī)交互已成為美好的愿景。對(duì)于人類語(yǔ)言來說,詞是最小的、能獨(dú)立活動(dòng) 的、有意義的語(yǔ)言單位。中文和英語(yǔ)、法語(yǔ)等西方語(yǔ)言存在著很大差異,西文的字和字之間 有明顯的空格作為分隔符,計(jì)算機(jī)很容易根據(jù)這些空格而理解一句話的含義;而中文句子 中詞和詞緊密排在一起,計(jì)算機(jī)理解起來就要困難的多。中文分詞是漢語(yǔ)信息處理的關(guān)鍵 和前提,只有處理好中文分詞,才能讓計(jì)算機(jī)理解中文、進(jìn)行后續(xù)的中文信息處理,并從海 量的信息中提取有用信息為人類提供服務(wù),實(shí)現(xiàn)計(jì)算機(jī)智能化。隨著中文信息處理的發(fā)展, 中文分詞技術(shù)得到了廣泛的應(yīng)用,大體上主要在下面三個(gè)領(lǐng)域中深入應(yīng)用,起著關(guān)鍵的作 用。1)計(jì)算機(jī)和人工智能領(lǐng)域:利用中文分詞成果從事自然語(yǔ)言理解和處理研究,如語(yǔ)義 分析,自動(dòng)摘要,知識(shí)工程,機(jī)器翻譯,專家系統(tǒng)和智能計(jì)算機(jī)等;2)情報(bào)信息領(lǐng)域:在研究 中文分詞與自動(dòng)標(biāo)引、中文分詞與情報(bào)檢索和搜索引擎等技術(shù)的結(jié)合上,取得了許多可喜 的成績(jī)。3)漢語(yǔ)語(yǔ)言學(xué)研究領(lǐng)域:利用中文分詞來促進(jìn)漢語(yǔ)言文字研究,如研究漢語(yǔ)言的 特點(diǎn),與其它語(yǔ)言的比較,漢語(yǔ)言的規(guī)范等。
[0003] 中文分詞是中文信息處理的基礎(chǔ)環(huán)節(jié),也是制約其發(fā)展的一個(gè)嚴(yán)重"瓶頸"。近年 來,中文分詞技術(shù)引起了社會(huì)各界尤其是公司和高校的重視和研究,出現(xiàn)了各種各樣的分 詞方法:雙向最大匹配法、逐詞遍歷法、設(shè)立切分標(biāo)志法、詞頻統(tǒng)計(jì)法、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)法、雙 向Markov鏈法、模糊聚類法、專家系統(tǒng)法、最少分詞法、神經(jīng)元網(wǎng)絡(luò)法等多種分詞方法。不 同分詞方法模擬了人類分詞行為的不同側(cè)面,服務(wù)于不同用途的中文信息處理系統(tǒng)??偟?來說,這些方法都是三個(gè)基本方法的擴(kuò)展、延伸和改進(jìn)。這三個(gè)基本方法分別是:基于詞典 的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于理解的分詞方法,它們分別代表了目前分詞方法 的三大發(fā)展方向。
[0004] 正向最大匹配法(Forward Maximum Matching Method),所謂"最大"是指該算法 總是把以某一漢字開頭的盡可能長(zhǎng)的字串看作是一個(gè)詞語(yǔ),即體現(xiàn)出"長(zhǎng)詞優(yōu)先"。當(dāng)在詞 典中找不到該字串時(shí)(即匹配不成功時(shí)),再去掉最后一個(gè)漢字繼續(xù)查找匹配。該方法一般 簡(jiǎn)稱為FMM法。其算法思想為:設(shè)D為詞典,L表示D中的最大詞長(zhǎng),S為待切分的字串。每 次從S中取出長(zhǎng)度為L(zhǎng)的子串M與D中的詞進(jìn)行匹配。若匹配成功,則將該子串M作為一 個(gè)詞切分出來,同時(shí)指針后移L個(gè)字符繼續(xù)匹配;否則將子串M的最后一個(gè)字去掉,再按相 同的方法進(jìn)行匹配,直到切分出所有的詞。傳統(tǒng)正向和逆向最大匹配分詞算法,需要事先設(shè) 定一個(gè)匹配長(zhǎng)度M,一般以分詞詞典中的最大詞長(zhǎng)作為匹配長(zhǎng)度進(jìn)行分詞。它強(qiáng)調(diào)的是"長(zhǎng) 詞優(yōu)先",每次都要從M個(gè)字符開始匹配。若M過長(zhǎng),要查找多次才能切分出一個(gè)詞,造成不 必要的時(shí)間浪費(fèi),分詞速度不高。而M過短,有一些詞長(zhǎng)超過M的長(zhǎng)詞就不能被正確的切分 出來,無法保證分詞的準(zhǔn)確率。
[0005] 為了解決上述傳統(tǒng)正向匹配算法出現(xiàn)的不足,本文基于正向匹配算法提出了正向 逐次加一字最大匹配算法,較好地完善了傳統(tǒng)算法的不足。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明提供了一種基于詞典的正向逐次加一字最大匹配中文分詞方法,以用于解 決傳統(tǒng)正向最大匹配分詞方法造成的分詞速度慢,分詞結(jié)果不精確等問題,本方法不需要 預(yù)先設(shè)定最大匹配詞長(zhǎng),避免了傳統(tǒng)的最大匹配法因設(shè)定的最大匹配詞長(zhǎng)過長(zhǎng),而進(jìn)行多 次無用匹配,分詞速度較慢;最大匹配詞長(zhǎng)過短,又無法正確切分的情況。
[0007] 本發(fā)明的技術(shù)方案是:一種基于詞典的正向逐次加一字最大匹配中文分詞方法的 具體步驟如下:
[0008] StepU讀入待切分文本,根據(jù)標(biāo)點(diǎn)、數(shù)字、西文、圖表等明顯的分隔符將輸入的文 本進(jìn)行粗切分,分割成一個(gè)個(gè)短文本;
[0009] Step2、將粗切分的短文本作為進(jìn)一步切分對(duì)象,設(shè)定進(jìn)一步分詞查找長(zhǎng)度L,其中 L取小于詞典里最大詞長(zhǎng)的長(zhǎng)度;
[0010] Step3、取粗切分后的一個(gè)短文本的起始兩個(gè)字,在詞典里查找匹配;
[0011] 若不存在當(dāng)前輸入的兩個(gè)字,則表示第一個(gè)字是單字,將其切分出去;
[0012] 若存在當(dāng)前輸入的兩個(gè)字,則將查找文本的長(zhǎng)度指針往后增加一個(gè)字,增加到三 個(gè)字,繼續(xù)在詞典里進(jìn)行匹配;
[0013] 若此三字詞不存在,則表明前兩個(gè)字是一個(gè)詞,將其切分出去,作為一次切分的結(jié) 果;接著分詞查找指針后移,取后面兩個(gè)詞進(jìn)行新一輪的查找匹配;
[0014] 若此三字詞存在,則繼續(xù)往后增加一個(gè)字,構(gòu)成四字詞,查找此四字詞是否存在于 詞典里,以此類推,進(jìn)行匹配查找,從而進(jìn)行分詞;
[0015] Step4、當(dāng)查找到查找長(zhǎng)度為L(zhǎng)時(shí),從L的下一個(gè)字符開始,重新按照步驟Step3中 以此類推的方法進(jìn)行查找匹配以及分詞,直到所有短文本分詞結(jié)束。
[0016] 本發(fā)明的有益效果是:
[0017] 1、本方法基于詞典的匹配查找機(jī)制,對(duì)輸入的待切分文本進(jìn)行查找匹配,來確定 分詞結(jié)果。分詞時(shí)不預(yù)先設(shè)定最大匹配詞長(zhǎng),而是根據(jù)詞典里最大詞條長(zhǎng)度來設(shè)定一個(gè)略 小于最大詞長(zhǎng)的相應(yīng)的查找長(zhǎng)度L,避免了傳統(tǒng)的最大匹配法因設(shè)定的最大匹配詞長(zhǎng)過長(zhǎng), 而進(jìn)行多次無用匹配,分詞速度較慢;最大匹配詞長(zhǎng)過短,又無法正確切分的情況;
[0018] 2、本方法在分詞響應(yīng)時(shí)間以及分詞準(zhǔn)確性方面得到很好的改進(jìn)。對(duì)于測(cè)試文本, 利用本發(fā)明的正向逐次加一字匹配分詞方法與傳統(tǒng)的基于詞典的正向最大匹配分詞,以及 逆向最大匹配分詞方法在分詞性能方面進(jìn)行了比較,無論是準(zhǔn)確度還是分詞時(shí)間都得展現(xiàn) 出了很好的優(yōu)勢(shì)。
【附圖說明】
[0019] 圖1為本發(fā)明的流程圖;
[0020] 圖2為本發(fā)明中實(shí)施例1正向逐次加一字匹配分詞方法流程圖;
[0021] 圖3為本發(fā)明中基于詞典的正向逐次加一字匹配分詞方法與傳統(tǒng)基于詞典的分 詞方法的精確度對(duì)比圖。
【具體實(shí)施方式】
[0022] 實(shí)施例1 :如圖1-3所示,一種基于詞典的正向逐次加一字最大匹配中文分詞方 法,所述方法的步驟為:
[0023] 步驟一、粗切分;對(duì)待切分的文本進(jìn)行剔除標(biāo)點(diǎn)符號(hào)、空格、日期、數(shù)字、英文字母 等標(biāo)記,將待處理的文本設(shè)為A,分成N個(gè)短文本序列S 1的集合(0 < i < N),即切分為S i 個(gè)短文本,A = (S1, S2, S3, · · · SN};
[0024] 步驟二、如圖2所示,依次按順序讀入一個(gè)個(gè)粗切分后的短文本,記為S1,設(shè)每個(gè)句 子序列 S# m 個(gè)字 W ^ (0 < j 彡 m)組成,即 S1= <W uWl2Wl3. . . Wini> ;
[0025] 步驟三、將粗切分后的文本行分詞。如圖2所示,將文本進(jìn)行分詞處理。
[0026] 1)設(shè)定一個(gè)略小于詞典里最大詞長(zhǎng)的分詞查找長(zhǎng)度L,L 一般略小于詞典里最大 詞長(zhǎng);
[0027] 2)在短文本S1中順序取起始前兩個(gè)相鄰的字符W J1 ?+1),初始時(shí)為W11W12,在詞典 中查找匹配,若當(dāng)前輸入的兩個(gè)字不是詞典中的詞,則轉(zhuǎn)(3);否則,轉(zhuǎn)(4);
[0028] 3)若當(dāng)前輸入的兩個(gè)字WljW1^n在詞典中不存在,則表明前兩個(gè)字中的第一個(gè)字 是一個(gè)詞,將W 1,從句子S i中切分出去。判斷是否到S i句尾,若是,則S i分詞結(jié)束;否則j =j+1,再轉(zhuǎn)⑵;
[0029] 4)若存在當(dāng)前輸入的兩個(gè)字WljWmm,則將查找文本的長(zhǎng)度指針往后增加一個(gè)字, 即W ljW1 ?+1)后加一字,增加到三個(gè)字,得到Sk= Wl jWiu^Wlk(C) < k彡L),繼續(xù)在詞典里進(jìn)行 匹配,判斷新讀入的詞是否存在于詞典中。若存在,則轉(zhuǎn)(5),否則,轉(zhuǎn)(6);
[0030] 5)若此三字詞Sk = W J1 ?+1) Wlk存在,若此三字詞存在,則繼續(xù)將指針往S k = WljW1 (.j+1)Wlk后增加一個(gè)字,構(gòu)成四字詞S k+1 = W i具(j+1) · · · WlkW1 (k+1),查找此
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1