專利名稱:分詞處理方法及全文檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及全文才全索,更具體地涉及在全文才企索中的分詞方法 及其在全文才全索中的應(yīng)用。
背景技術(shù):
現(xiàn)有基于數(shù)據(jù)庫(kù)的全文檢索系統(tǒng)多利用 一元分詞、二元分詞或 預(yù)置詞表分詞后的分詞結(jié)果進(jìn)行凄t據(jù)庫(kù)全文^企索。
比如,查詢?cè)~"數(shù)據(jù)庫(kù)軟件",經(jīng)過一元分詞處理后為"數(shù)、 據(jù)、庫(kù)、軟、件,,,之后系統(tǒng)以該分詞結(jié)果作為查詢?cè)~組合進(jìn)行數(shù) 據(jù)庫(kù)全文檢索。但是,這樣的檢索結(jié)果并不十分準(zhǔn)確。僅因?yàn)?軟" 這個(gè)一元分詞結(jié)果在其中出現(xiàn),就使得包含"可口可樂發(fā)布了一款 新的軟飲料"的文本也會(huì)出現(xiàn)在4企索結(jié)果中。
使用二元分詞結(jié)果"數(shù)據(jù)、據(jù)庫(kù)、庫(kù)軟、軟件"作為查詢?cè)~, 上述文本不會(huì)^皮4企索出來, 一定程度上4是高了才企索結(jié)果的準(zhǔn)確性, 但是像"這款軟件采用了異步數(shù)據(jù)處理方式"這種包含二元分詞結(jié) 果但又與查詢無關(guān)的文本還是會(huì)被4企索到,也不能完全避免 一元分 詞中出現(xiàn)的同樣問題。
使用預(yù)置詞表分詞可以更準(zhǔn)確地提高分詞的準(zhǔn)確性,但其前提 是預(yù)置詞表的詞匯量足夠大,如果預(yù)置詞表中包含"數(shù)據(jù)庫(kù)、軟件", 查詢?cè)~會(huì)被準(zhǔn)確的分割為"數(shù)據(jù)庫(kù)、軟件"從而改善檢索結(jié)果。如
5果"軟件、數(shù)據(jù)"在預(yù)置詞表中而"數(shù)據(jù)庫(kù)"不在其中,分詞結(jié)果 將為"數(shù)據(jù)、庫(kù)、軟件",這同樣不能避免一元或二元分詞所出現(xiàn) 的確告誤;險(xiǎn)索結(jié)果。并且因?yàn)轭A(yù)置詞表的詞匯相對(duì)固定,而新的詞匯 層出不窮,所以對(duì)使用預(yù)置表進(jìn)行分詞的準(zhǔn)確性都能產(chǎn)生影響。
如今,在企業(yè)數(shù)據(jù)庫(kù)中,結(jié)構(gòu)化數(shù)據(jù)多以元數(shù)據(jù)的形式存儲(chǔ)于 數(shù)據(jù)庫(kù)表的字段中,半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)多以全文本形式被存 儲(chǔ)。但是結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)多為企業(yè)的領(lǐng)域相關(guān) 內(nèi)容,彼此之間存在著相當(dāng)程度上的關(guān)聯(lián)。全文沖企索中分詞的作用 是將非結(jié)構(gòu)化的查詢?cè)~結(jié)構(gòu)化,然后4企索非結(jié)構(gòu)化的文本。因此, 適當(dāng)?shù)剡x取企業(yè)數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化特征項(xiàng)作為分詞的依據(jù),有助于 更加準(zhǔn)確i也判定查詢?cè)~與 一皮4企索文本的相關(guān)禾呈度,乂人而達(dá)到優(yōu)^匕全 文才企索的歲支果。
因此,為了解決上述現(xiàn)有分詞方法中不能解決的技術(shù)問題,針
對(duì)企業(yè)翁:才居庫(kù),_提出了一種分詞方法及應(yīng)用該分詞方法的全文4全索 方法。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題至少之一 ,本發(fā)明提供了 一種分詞處理 方法,其特征在于,包括創(chuàng)建基于數(shù)據(jù)庫(kù)特征項(xiàng)的新分詞系統(tǒng), 并將所述數(shù)據(jù)庫(kù)特征項(xiàng)添加到所述新分詞系統(tǒng)中;以及將用戶4是交 的查詢?cè)~以所述新分詞系統(tǒng)中的所述數(shù)據(jù)庫(kù)特征項(xiàng)作為詞表進(jìn)行 分詞,以生成分詞結(jié)果集。
在上述才支術(shù)方案中,還可以包4舌基于所述凄t據(jù)庫(kù)特4正項(xiàng),將 所生成的所述分詞結(jié)果集分成包含所述數(shù)據(jù)庫(kù)特征項(xiàng)的第 一分詞 結(jié)果子集和不包含所述數(shù)據(jù)庫(kù)特征項(xiàng)的第二分詞結(jié)果子集;對(duì)所述 第二分詞結(jié)果子集^f吏用不同于所述新分詞系統(tǒng)的其j也分詞系統(tǒng)進(jìn)4亍分詞處理以生成第三分詞結(jié)果子集;以及將所述第 一分詞結(jié)果子 集與所述第三分詞結(jié)果子集合并得到新分詞結(jié)果集。
其中,其他分詞系統(tǒng)包括 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預(yù) 置詞表分詞系統(tǒng)。數(shù)據(jù)庫(kù)特征項(xiàng)包括數(shù)據(jù)庫(kù)中的表和字段。
根據(jù)本發(fā)明的另 一方面,本發(fā)明還提供了 一種全文檢索方法, 用于在企業(yè)數(shù)據(jù)庫(kù)中進(jìn)行全文4企索,其特征在于,包括創(chuàng)建基于 凄史據(jù)庫(kù)特4正項(xiàng)的新分詞系統(tǒng),并將所述lt據(jù)庫(kù)特4正項(xiàng)添加到所述新 分詞系統(tǒng)中;將用戶提交的查詢?cè)~以所述新分詞系統(tǒng)中的所述數(shù)據(jù) 庫(kù)特征項(xiàng)作為詞表進(jìn)行分詞,以生成分詞結(jié)果集;基于所述數(shù)據(jù)庫(kù) 特征項(xiàng),將所生成的所述分詞結(jié)果集分成包含所述#:據(jù)庫(kù)特4正項(xiàng)的 第 一分詞結(jié)果子集和不包含所述數(shù)據(jù)庫(kù)特征項(xiàng)的第二分詞結(jié)果子 集;對(duì)所述第二分詞結(jié)果子集^f吏用不同于所述新分詞系統(tǒng)的其他分 詞系統(tǒng)進(jìn)行分詞處理以生成第三分詞結(jié)果子集;將所述第 一分詞結(jié) 果子集與所述第三分詞結(jié)果子集合并得到新分詞結(jié)果集;以及以所 述新分詞結(jié)果集作為查詢?cè)~集合進(jìn)行全文檢索,獲取檢索結(jié)果文本 集。
在上述4支術(shù)方案中,還可以包括對(duì)所述4企索結(jié)果文本集和所 述新分詞結(jié)果集進(jìn)行相關(guān)度計(jì)算;以及按照計(jì)算出的所述相關(guān)度對(duì) 所述4企索結(jié)果文本集進(jìn)4于排序,并作為查詢結(jié)果返回。
在上述技術(shù)方案中,在返回所述查詢結(jié)果之前,還包括為所 述相關(guān)度設(shè)定相關(guān)度閾值,排除相關(guān)度過低的無效結(jié)果。
在上述技術(shù)方案中,相關(guān)度是通過以下7>式計(jì)算的
Z / (《呵,.) i fowery ,TeW ) = ~^-^- (公式i)
7<formula>formula see original document page 8</formula>
其中,z'為所述新分詞結(jié)果中的分詞項(xiàng)的數(shù)目,以及gweo^為 第Z個(gè)分詞項(xiàng),以及Text為^r索文本。
在上述技術(shù)方案中,其他分詞系統(tǒng)包括 一元分詞系統(tǒng)、二元 分詞系統(tǒng)或預(yù)置詞表分詞系統(tǒng)。數(shù)據(jù)庫(kù)特征項(xiàng)包括數(shù)據(jù)庫(kù)中的表 和字段。
沖艮據(jù)本發(fā)明的分詞處理方法和全文檢索方法,提出了一種結(jié)合 數(shù)據(jù)庫(kù)特征項(xiàng)的分詞處理方法,及其在企業(yè)數(shù)據(jù)庫(kù)全文才全索系統(tǒng)中 的斗全索方法。其通過適當(dāng)?shù)剡x耳又企業(yè)凄t據(jù)庫(kù)中的結(jié)構(gòu)化4爭(zhēng)征項(xiàng)作為 分詞的依據(jù),有助于更加準(zhǔn)確地判定查詢?cè)~與,皮才企索文本的相關(guān)程 度,以及改善'
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
圖1是根據(jù)本發(fā)明的分詞處理方法的流程圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的分詞處理方法的流程圖3是根據(jù)本發(fā)明的全文檢索方法的流程圖;以及
圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的全文檢索方法的流程圖。
具體實(shí)施例方式
下面將詳細(xì)參考本發(fā)明的優(yōu)選實(shí)施例,根據(jù)附圖來描述優(yōu)選實(shí) 施例的示例。
圖l是根據(jù)本發(fā)明的分詞處理方法的流程圖。如圖l所示,根
據(jù)本發(fā)明的分詞方法包4舌以下步驟步驟S102,創(chuàng)建基于lt才居庫(kù)特 征項(xiàng)的新分詞系統(tǒng),并將凄t據(jù)庫(kù)特4正項(xiàng)添加到新分詞系統(tǒng)中;以及 步驟S104,將用戶提交的查詢?cè)~以該新分詞系統(tǒng)中的數(shù)據(jù)庫(kù)特征項(xiàng) 作為詞表進(jìn)行分詞,以生成分詞結(jié)果集。在才艮據(jù)本發(fā)明的分詞處理 方法中,其4也分詞系統(tǒng)可以是一元分詞系統(tǒng)、二元分詞系統(tǒng)或予貞置 詞表分詞系統(tǒng)。而數(shù)據(jù)庫(kù)特征項(xiàng)可以是數(shù)據(jù)庫(kù)中的表或字段。
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的分詞處理系統(tǒng)。在圖2所示 的根據(jù)本發(fā)明的一個(gè)實(shí)施例的分詞處理系統(tǒng)中,在使用基于數(shù)據(jù)庫(kù) 特4正項(xiàng)的分詞系統(tǒng)進(jìn)4亍分詞之后,還包括 使用其他分詞系統(tǒng)進(jìn)4亍分 詞。如圖2所示,該分詞處理系統(tǒng)包括S202,創(chuàng)建基于數(shù)據(jù)庫(kù)特 征項(xiàng)的新分詞系統(tǒng),并將凄t據(jù)庫(kù)特4正項(xiàng)添力口到新分詞系統(tǒng)中;S204, 將用戶提交的查詢?cè)~以該新分詞系統(tǒng)中的數(shù)據(jù)庫(kù)特征項(xiàng)作為詞表 進(jìn)行分詞,以生成分詞結(jié)果集;S206,基于數(shù)據(jù)庫(kù)特征項(xiàng),將所生 成的分詞結(jié)果集分成包含lt據(jù)庫(kù)特4正項(xiàng)的第 一分詞結(jié)果子集和不 包含H據(jù)庫(kù)特征項(xiàng)的第二分詞結(jié)果子集;S208,對(duì)第二分詞結(jié)果子 集l吏用不同于新分詞系統(tǒng)的其4也分詞系統(tǒng)進(jìn)4亍分詞處理以生成第 三分詞結(jié)果子集;以及S210,將第一分詞結(jié)果子集與所述第三分詞 結(jié)果子集合并得到新分詞結(jié)果集。
在上述根據(jù)本發(fā)明的分詞處理方法中,其他分詞系統(tǒng)可以是^f旦 不限于, 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預(yù)置詞表分詞系統(tǒng)。而凝: 據(jù)庫(kù)特征項(xiàng)可以是數(shù)據(jù)庫(kù)中的表或字段。才艮據(jù)本發(fā)明的分詞處理方法中,解決了現(xiàn)有4支術(shù)中分詞不準(zhǔn)確 導(dǎo)致錯(cuò)誤檢索結(jié)果的問題,其根據(jù)數(shù)據(jù)庫(kù)特征項(xiàng)進(jìn)行分詞而能更加 準(zhǔn)確地進(jìn)行分詞。
圖3是根據(jù)本發(fā)明的全文檢索方法的流程圖。如圖3所示,根 據(jù)本發(fā)明的全文4全索方法包括S302,創(chuàng)建基于凄t據(jù)庫(kù)特4正項(xiàng)的新 分詞系統(tǒng),并將所述數(shù)據(jù)庫(kù)特征項(xiàng)添加到新分詞系統(tǒng)中;S304,將 用戶4是交的查詢?cè)~以該新分詞系統(tǒng)中的凄t據(jù)庫(kù)特4正項(xiàng)作為詞表進(jìn) 4亍分詞,以生成分詞結(jié)果集;S306,基于凄t據(jù)庫(kù)特4正項(xiàng),將所生成 的分詞結(jié)果集分成包含數(shù)據(jù)庫(kù)特征項(xiàng)的第 一分詞結(jié)果子集和不包 含數(shù)據(jù)庫(kù)特征項(xiàng)的第二分詞結(jié)果子集;S308,對(duì)第二分詞結(jié)果子集 使用不同于新分詞系統(tǒng)的其他分詞系統(tǒng)進(jìn)行分詞處理以生成第三 分詞結(jié)果子集;S310,將第一分詞結(jié)果子集與第三分詞結(jié)果子集合 并得到新分詞結(jié)果集;以及S312,以新分詞結(jié)果集作為查詢?cè)~集合 進(jìn)行全文4企索,獲取4企索結(jié)果文本集。
在上述才支術(shù)方案中,還可以包4舌乂于;險(xiǎn)索結(jié)果文本集和新分詞 結(jié)果集進(jìn)行相關(guān)度計(jì)算;以及按照計(jì)算出的相關(guān)度對(duì)檢索結(jié)果文本 集進(jìn)行排序,并作為查詢結(jié)果返回。
在上述技術(shù)方案中,在返回查詢結(jié)果之前,還包括為相關(guān)度 設(shè)定相關(guān)度閾值,排除相關(guān)度過低的無效結(jié)果。
在上述技術(shù)方案中,相關(guān)度是通過以下/>式計(jì)算的
i (G"e" ,Tot ) = ~^-^- (公式i)<formula>formula see original document page 11</formula>(公式2 )
其中,f為新分詞結(jié)果中的分詞項(xiàng)的數(shù)目,以及^weo^為第/ 個(gè)分詞項(xiàng),以及Text為4全索文本。
在上述技術(shù)方案中,本領(lǐng)域的技術(shù)人員應(yīng)該理解,其他分詞系 統(tǒng)可以包括但不限于 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預(yù)置詞表分 詞系統(tǒng)。數(shù)據(jù)庫(kù)特征項(xiàng)可以包括數(shù)據(jù)庫(kù)中的表和字段。
圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的全文才企索方法的流程圖。如 圖4所示,首先,步驟S402,選定數(shù)據(jù)庫(kù)中表和字段作為特征項(xiàng); 其次,步驟S404,將特征項(xiàng)加入到基于數(shù)據(jù)庫(kù)特征項(xiàng)的分詞系統(tǒng), 使用基于數(shù)據(jù)庫(kù)特征項(xiàng)的分詞系統(tǒng)對(duì)用戶提交的查詢?cè)~進(jìn)行分詞 以生成分詞結(jié)果集再次,步-驟S406,在/^5w/f中篩選出包 含數(shù)據(jù)庫(kù)特征項(xiàng)中詞條的集合m^/o,以及步驟S408,非數(shù)據(jù)庫(kù)特 征項(xiàng)中詞條的集合resw/f2;然后,步-驟S410,對(duì)resw^中詞條4吏用 其他分詞系統(tǒng)進(jìn)行分詞,步驟S412,生成分詞結(jié)果集合mst^2,; 然后,步艱《S414, ^l尋m^/^與/^w/b,合并為r^w/r;然后,步專聚 S416,以msw/r作為查詢?cè)~集合進(jìn)行全文才全索,步驟S418,獲得抬二 索結(jié)果文本集fexf;然后,步4聚S420,在文本相關(guān)度計(jì)算系鄉(xiāng)充中只于 和msM/f,進(jìn)行相關(guān)度計(jì)算;最后,步驟S422,按相關(guān)度乂人高至 低對(duì)排序,并作為查詢結(jié)果返回。
在該實(shí)施例中,相關(guān)度是通過以下7>式計(jì)算的
<formula>formula see original document page 11</formula>(公式1)J= (公式2)
其中,為新分詞結(jié)果中的分詞項(xiàng)的數(shù)目,以及q"eo^為第
個(gè)分詞項(xiàng),以及Text為4全索文本。
下面列出了根據(jù)現(xiàn)有的分詞方法,以及采用本發(fā)明提供的分詞 方法進(jìn)^f亍分詞并進(jìn)4亍全文^r索的比4交示例。在該比4交示例中,有ti殳
查詢?cè)~^t據(jù)庫(kù)庫(kù)欠件
預(yù)置詞表凄t據(jù)、l欠件
數(shù)據(jù)庫(kù)特征項(xiàng)凄t據(jù)庫(kù)、中間件、瀏覽器、終端才幾、... 文本
7kxO:可口可樂發(fā)布了一涼欠新的壽欠々大料。
:rexf2:這款軟件的動(dòng)態(tài)鏈接庫(kù)采用了異步數(shù)據(jù)處理方式。
rexf3:大多數(shù)服務(wù)器軟件的運(yùn)行都需要借助于數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)。
由上面的々支i殳,下面列出了采用不同分詞方法得到的分詞結(jié)
果
(1)采用一元分詞
查詢?cè)~分詞結(jié)果數(shù)、據(jù)、庫(kù)、軟、件沖金索結(jié)果取并集7fcc~、 rexf2、 7fec。
(2) 采用二元分詞
查詢?cè)~分詞結(jié)果^據(jù)、據(jù)庫(kù)、庫(kù)軟、4欠件
才t索結(jié)果取并集reW2、 7fex^
(3) 釆用預(yù)置詞表分詞 查詢?cè)~分詞結(jié)果數(shù)據(jù)、庫(kù)、軟件 斗全索結(jié)果耳又并集rexf2、 Ifejcf3
(4) 采用數(shù)據(jù)庫(kù)記錄項(xiàng)分詞+ —元分詞 分詞結(jié)果數(shù)據(jù)庫(kù)、軟、件 才金索結(jié)果耳又并集7fec〃、 7fexf2、 7fexb
(5) 采用數(shù)據(jù)庫(kù)記錄項(xiàng)分詞+ 二元分詞 分詞結(jié)果數(shù)據(jù)庫(kù)、軟件 沖企索結(jié)果耳又并集Texb
(6) 采用凄t據(jù)庫(kù)記錄項(xiàng)分詞+預(yù)置詞表分詞
分詞結(jié)果數(shù)據(jù)庫(kù)、軟件
才企索結(jié)果耳又并集7fe^。
根據(jù)公式1和公式2計(jì)算出的相關(guān)度如下
13(1)采用一元分詞 分詞結(jié)果數(shù)、據(jù)、庫(kù)、軟、件
4企索結(jié)果耳又并集 W(G"e",:TexO = 0.2 、 i (QMery,rexf2) = 1
(2) 采用二元分詞
分詞結(jié)果數(shù)據(jù)、據(jù)庫(kù)、庫(kù)軟、軟件
斗企索結(jié)果耳又并集K(G"ery,re^2) = 0.5 、 i (G"eo%re"3) = 0.75;
(3) 采用預(yù)置詞表分詞 分詞結(jié)果數(shù)據(jù)、庫(kù)、軟件
檢索結(jié)果W(G"",r叫)=l 、 i (G"eo^, rew3) = 1.
(4) 采用數(shù)據(jù)庫(kù)記錄項(xiàng)分詞+ —元分詞 分詞結(jié)果數(shù)據(jù)庫(kù)、軟、件
檢索結(jié)果A(G"ery,r加》0.3333 、7 (0"^,7^2) = 0.6667
(5) 采用凄史據(jù)庫(kù)記錄項(xiàng)分詞+ 二元分詞 分詞結(jié)果數(shù)據(jù)庫(kù)、軟件
檢索結(jié)果尺(2呵,—)=1;(6)釆用tt據(jù)庫(kù)記錄項(xiàng)分詞+預(yù)置詞表分詞 分詞結(jié)果數(shù)據(jù)庫(kù)、軟件 檢索結(jié)果W(2呵,—)=1 。
通過上述對(duì)根據(jù)本發(fā)明的實(shí)施例的描述,本發(fā)明提出的方法基 于數(shù)據(jù)庫(kù)的全文才企索,檢索范圍局限于數(shù)據(jù)庫(kù)內(nèi)的文本。根據(jù)本發(fā)
明提出的方法選定數(shù)據(jù)庫(kù)中字段作為特征項(xiàng)進(jìn)行分詞,利用了數(shù)據(jù) 庫(kù)特征項(xiàng)與數(shù)據(jù)庫(kù)內(nèi)文本的關(guān)聯(lián)關(guān)系,有效地改善了一元、二元、
預(yù)置詞表等傳統(tǒng)分詞方法的分詞準(zhǔn)確度。同時(shí),還沖是出了一種新的 結(jié)合數(shù)據(jù)庫(kù)特征項(xiàng)分詞結(jié)果的相關(guān)度計(jì)算方法,該方法的計(jì)算結(jié)果 為檢索結(jié)果的輸出提供了排序的依據(jù),從而將與查詢?cè)~相關(guān)度最高 的文本靠前地輸出給用戶,并可以設(shè)定相關(guān)度閾值,排除相關(guān)度過 4氐的無效結(jié)果。
盡管已經(jīng)參照多個(gè)示范性實(shí)施方式描述了實(shí)施例,本領(lǐng)域技術(shù) 人員應(yīng)當(dāng)j里解,可以i殳i十出多個(gè)其它^f務(wù) 文和實(shí)施例,落入本i兌明書
的4青神和原理范圍。更具體i也,在本"i兌明書、附圖及所附的—又利要 求書的范圍內(nèi)的本組合布置的組成部分和/或布置中的各種變化和 ^修改是可能的。除了《且成部分和/或布置中的變4匕和-修改之外, 4吏用對(duì)于本領(lǐng)域4支術(shù)人員而言是顯然的。
權(quán)利要求
1.一種分詞處理方法,其特征在于,包括創(chuàng)建基于數(shù)據(jù)庫(kù)特征項(xiàng)的新分詞系統(tǒng),并將所述數(shù)據(jù)庫(kù)特征項(xiàng)添加到所述新分詞系統(tǒng)中;以及將用戶提交的查詢?cè)~以所述新分詞系統(tǒng)中的所述數(shù)據(jù)庫(kù)特征項(xiàng)作為詞表進(jìn)行分詞處理,以生成分詞結(jié)果集。
2. 根據(jù)權(quán)利要求1所述的分詞處理方法,其特征在于,還包括基于所述數(shù)據(jù)庫(kù)特征項(xiàng),將所生成的所述分詞結(jié)果集分 成包含所述數(shù)據(jù)庫(kù)特征項(xiàng)的第一分詞結(jié)果子集和不包含所述 數(shù)據(jù)庫(kù)特征項(xiàng)的第二分詞結(jié)果子集;對(duì)所述第二分詞結(jié)果子集^f吏用不同于所述新分詞系統(tǒng)的 其他分詞系統(tǒng)進(jìn)4亍分詞處理以生成第三分詞結(jié)果子集;以及將所述第一分詞結(jié)果子集與所述第三分詞結(jié)果子集合并 得到新分詞結(jié)果集。
3. 根據(jù)權(quán)利要求2所述的分詞處理方法,其特征在于,所述其他 分詞系統(tǒng)包括 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預(yù)置詞表分詞 系統(tǒng)。
4. 根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的分詞處理方法,其特征在 于,所述凄t據(jù)庫(kù)特4i項(xiàng)包4舌凄t據(jù)庫(kù)中的表和字,殳。
5. —種全文檢索方法,用于在企業(yè)彩::梧庫(kù)中進(jìn)4亍全文斥企索,其特 ;f正在于,包4舌創(chuàng)建基于翁:據(jù)庫(kù)特4i項(xiàng)的新分詞系統(tǒng),并將所述凄t才居庫(kù) 特;f正項(xiàng)添力cr到所述新分詞系統(tǒng)中;將用戶提交的查詢?cè)~以所述新分詞系統(tǒng)中的所述數(shù)據(jù)庫(kù) 特征項(xiàng)作為詞表進(jìn)4于分詞處理,以生成分詞結(jié)果集;基于所述數(shù)據(jù)庫(kù)特征項(xiàng),將所生成的所述分詞結(jié)果集分 成包含所述凄t據(jù)庫(kù)特;f正項(xiàng)的第 一分詞結(jié)果子集和不包含所述 數(shù)據(jù)庫(kù)特征項(xiàng)的第二分詞結(jié)果子集;對(duì)所述第二分詞結(jié)果子集^f吏用不同于所述新分詞系統(tǒng)的 其他分詞系統(tǒng)進(jìn)4亍分詞處理以生成第三分詞結(jié)果子集;將所述第 一分詞結(jié)果子集與所述第三分詞結(jié)果子集合并 得到新分詞結(jié)果集;以及以所述新分詞結(jié)果集作為查詢?cè)~集合進(jìn)一于全文一企索,獲 取才企索結(jié)果文本集。
6. 根據(jù)權(quán)利要求5所述的全文檢索方法,其特征在于,還包括對(duì)所述4企索結(jié)果文本集和所述新分詞結(jié)果集進(jìn)4于相關(guān)度 計(jì)算;以及按照計(jì)算出的所述相關(guān)度對(duì)所述4企索結(jié)果文本集進(jìn)行排 序,并4乍為查詢結(jié)果返回。
7. 根據(jù)權(quán)利要求6所述的全文4全索方法,其特征在于,在返回所 述查詢結(jié)果之前,還包括為所述相關(guān)度設(shè)定相關(guān)度閾值,排 除相關(guān)度過低的無效結(jié)果。
8. 根據(jù)權(quán)利要求7所述的全文檢索方法,其特征在于,根據(jù)以下 公式進(jìn)行相關(guān)度計(jì)算<formula>formula see original document page 4</formula>其中,i'為所述新分詞結(jié)果中的分詞項(xiàng)的數(shù)目,以及gwe^y ;為第/個(gè)分詞項(xiàng),以及Text為4企索文本。
9. 根據(jù)權(quán)利要求5所述的全文4僉索方法,其特征在于,所述其他 分詞系統(tǒng)包4舌 一元分詞系統(tǒng)、二元分詞系統(tǒng)或預(yù)置詞表分詞 系統(tǒng)。
10. 根據(jù)權(quán)利要求5至9中任一項(xiàng)所述的全文檢索方法,其特征在 于,所述凄t據(jù)庫(kù)特4i項(xiàng)包括凄t據(jù)庫(kù)中的表和字^:。
全文摘要
本發(fā)明提供了一種分詞處理方法及其在數(shù)據(jù)庫(kù)全文檢索中的一種應(yīng)用,包括創(chuàng)建基于數(shù)據(jù)庫(kù)特征項(xiàng)的新分詞系統(tǒng),并將所述數(shù)據(jù)庫(kù)特征項(xiàng)添加到所述新分詞系統(tǒng)中;以及將用戶提交的查詢?cè)~以所述數(shù)據(jù)庫(kù)特征項(xiàng)作為詞表進(jìn)行分詞處理以生成分詞結(jié)果集。根據(jù)本發(fā)明提出的方法選定數(shù)據(jù)庫(kù)中字段作為特征項(xiàng)進(jìn)行分詞,利用了數(shù)據(jù)庫(kù)特征項(xiàng)與數(shù)據(jù)庫(kù)內(nèi)文本的關(guān)聯(lián)關(guān)系,有效地改善了一元、二元、預(yù)置詞表等傳統(tǒng)分詞方法的分詞準(zhǔn)確度。
文檔編號(hào)G06F17/30GK101561818SQ20091008377
公開日2009年10月21日 申請(qǐng)日期2009年5月13日 優(yōu)先權(quán)日2009年5月13日
發(fā)明者哲 劉 申請(qǐng)人:北京用友移動(dòng)商務(wù)科技有限公司