一種支持用戶自定義歸類規(guī)則的信息歸類方法
【技術領域】
[0001] 本發(fā)明屬于數(shù)據(jù)庫應用領域,具體涉及一種支持用戶自定義歸類規(guī)則的數(shù)據(jù)庫 中信息歸類的方法。
【背景技術】
[0002] 信息歸類是指為了某種目的,以一定的歸類原則和方法為指導,按照信息內(nèi)容、性 質以及相關的需求,將數(shù)據(jù)庫信息按一定的結構體系分門別類地組織起來。
[0003] 信息歸類的工作原理是:第一,將信息存入數(shù)據(jù)庫,同時提取出信息的關鍵內(nèi)容, 作為歸類的依據(jù);第二,按照相關需求來定義歸類規(guī)則;第三,根據(jù)歸類規(guī)則,將數(shù)據(jù)庫中 內(nèi)容相似或相近的信息放在一起。
[0004] 與"信息歸類"相關的技術是信息檢索技術,針對數(shù)據(jù)庫,檢索一般是根據(jù)用戶輸 入的檢索關鍵詞進行精確查找或者模糊查找,得到與檢索內(nèi)容相匹配的信息,并將此信息 返回給用戶。
[0005] 目前,不論是對數(shù)據(jù)庫進行精確檢索還是進行模糊檢索,采用的都是基于關鍵詞 的檢索技術,這樣的檢索無法得到與檢索內(nèi)容相近、相似的相關信息內(nèi)容,也無法得到與檢 索內(nèi)容存在潛在關系的相關信息內(nèi)容。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的就是為了克服上述現(xiàn)有技術中的不足之處,提供一種支持用戶自定 義歸類規(guī)則的信息歸類方法,支持面向語句的數(shù)據(jù)庫檢索,從而實現(xiàn)對相關或相近或具有 潛在關系的信息歸類。
[0007] 本發(fā)明是一種支持用戶自定義歸類規(guī)則的信息歸類方法,以用戶定制的歸類規(guī)則 為基礎,支持數(shù)據(jù)庫進行語句檢索,得到與檢索語句相近或相似的信息內(nèi)容,包括以下步 驟: (1) 信息歸類規(guī)則建模,將用于信息歸類時的相關規(guī)則用一張圖來描述,圖中的每個節(jié) 點代表一個關鍵詞信息,包括關鍵詞內(nèi)容和關鍵詞權重,圖中的每條邊代表兩個關鍵詞之 間的關系信息,包括關系內(nèi)容和關系權重,具體操作中,用一個三元組,即主語、謂語、賓語 信息來表示圖中的一條邊,即主語和賓語兩個節(jié)點之間的關系是謂語,用戶通過定制上述 規(guī)則關系圖來定制用于信息歸類時的相關規(guī)則; (2) 基于規(guī)則的檢索語句分詞,通過遍歷用戶定制的規(guī)則關系圖,得到此規(guī)則中的所有 關鍵詞,組成關鍵詞集,在用戶輸入檢索語句之后,在關鍵詞集中找出匹配的關鍵詞,得到 分詞結果; (3) 基于規(guī)則的檢索關鍵詞擴展,以經(jīng)過步驟(2)分詞處理后得到的分詞結果中的每一 個關鍵詞分別作為核心關鍵詞加以處理,在用戶定制的搜索層數(shù)的控制下,得到與之相近 或相關的關鍵詞以及相關權重,最后得到擴展關鍵詞集。此外,考慮到規(guī)則中關鍵詞之間的 關聯(lián)關系是圖狀拓撲結構形式,因此為了提高推理效率,需要限定關鍵詞的擴展層數(shù),即用 戶定制的搜索層數(shù); (4)利用擴展得到的關鍵詞集,在數(shù)據(jù)庫中進行精確檢索或者模糊檢索得到相應的內(nèi) 容。依據(jù)規(guī)則關系圖,可以擴展出與正在處理的核心關鍵詞相關或相近的關鍵詞,這樣再 利用這些關鍵詞進行進一步檢索時,就可以得到與本次檢索語句相關或相近的信息內(nèi)容。 同理,依據(jù)規(guī)則關系圖,可以擴展出與正在處理的核心關鍵詞具有潛在語義關系的關鍵詞, 利用這些關鍵詞進行進一步檢索時,就可得到與本次檢索語句具有潛在語義關系的信息內(nèi) 容。
[0008] 本發(fā)明適用于各類有信息歸類需求的用戶,支持用戶按需定制相關的信息歸類規(guī) 貝1J,這樣用戶能夠隨時修改相關規(guī)則或者制定新的歸類規(guī)則。本發(fā)明的主要步驟均是以用 戶定制的歸類規(guī)則為基礎,一方面依據(jù)定制歸類規(guī)則的不同,檢索分詞操作和關鍵詞擴展 操作將得到的不同結果,這使得信息歸類的效果隨著規(guī)則的定制而發(fā)生變化,另一方面,用 戶可根據(jù)信息歸類的效果不斷完善歸類規(guī)則。利用本發(fā)明進行信息歸類,所得到的歸類結 果除了得到與初始檢索語句直接關聯(lián)的結果外,還會得到與初始檢索語句相關或相似或具 有潛在關系的結果,這樣將幫助用戶獲取到更加全面的信息。
【附圖說明】
[0009] 圖1為本發(fā)明基于規(guī)則的檢索語句分詞算法流程圖。
[0010] 圖2為本發(fā)明基于規(guī)則的關鍵詞擴展算法流程圖。
【具體實施方式】
[0011] 本發(fā)明方法實施時,通過步驟1構造相關規(guī)則關系圖,并將其存入數(shù)據(jù)庫中。以下 以在開發(fā)機上用Java語言在eclipse開發(fā)環(huán)境下實現(xiàn)本發(fā)明方法的應用程序為例,詳細說 明本發(fā)明技術方案。
[0012] 步驟1 :信息歸類規(guī)則的建模。
[0013] 選擇適當規(guī)則建模工具,按照用戶需求建立以圖的形式描述的規(guī)則。將用于信息 歸類時的相關規(guī)則用一張圖來描述,圖中的每個節(jié)點代表一個關鍵詞信息,包括關鍵詞內(nèi) 容和關鍵詞權重,圖中的每條邊代表兩個關鍵詞之間的關系信息,包括關系內(nèi)容和關系權 重,具體操作中,用一個三元組,即主語、謂語、賓語信息來表示圖中的一條邊,即主語和賓 語兩個節(jié)點之間的關系是謂語,用戶通過定制上述規(guī)則關系圖來定制用于信息歸類時的相 關規(guī)則。
[0014] 本實施例定義了一個Web界面,供用戶上傳規(guī)則文件,通過解析該規(guī)則文件,將得 到的三元組信息存入數(shù)據(jù)庫,方便后繼步驟使用。在將解析得到的三元組信息存入數(shù)據(jù)庫, 同時,通過遍歷這些三元組,可得到一個用于后續(xù)步驟的的關鍵詞集。
[0015] 步驟2 :基于規(guī)則的檢索語句分詞。
[0016] 與傳統(tǒng)的分詞程序不同之處在于,本發(fā)明的分詞操作是基于用戶定制的規(guī)則的, 因此在不同的規(guī)則上,同一個檢索語句的分詞結果可能會不一樣。
[0017] 如圖1所示,基于規(guī)則的檢索語句分詞算法如下: 步驟一,設定當前考慮的字符串是從下標i開始的,i = 0 ; 步驟二,從i開始,截取一個長度為MaxLen的字符串CutWord ;MaxLen為規(guī)則關鍵 詞集中關鍵詞的最長長度; 步驟三,判斷CutWord.是否是規(guī)則關鍵詞集中的詞語,如果是,將CiitWord.加入到分 詞結果集,跳轉至步驟五,否則轉至步驟四; 步驟四,如果CutWord的長度為0,則轉到步驟五,否則刪除CiitWord的最后一個字 符,然后轉到步驟三; 步驟五,刪除匹配的部分,i值加1,如果i已經(jīng)超過檢索字符串長度,則程序停止,返回 分詞結果集,否則轉到步驟二。
[0018] 上述基于規(guī)則的檢索語句分詞算法中的相關變量含義如表1。
[0019] 表1.基于規(guī)則的檢索語句分詞算法中的變量
步驟3 :基于規(guī)則的檢索關鍵詞擴展。
[0020] 此步通過從數(shù)據(jù)庫中讀取三元組信息,并組成規(guī)則關系圖,然后以每一個關鍵詞 為中心,搜索出與之相關或相近的其他關鍵詞,以及通過解析得到二者之間的關系權重和 相關的其他關鍵詞的權重,最后將所有得到的關鍵詞按綜合權重進行排序。
[0021]如圖2所示,基于規(guī)則的檢索關鍵詞擴展算法如下: 步驟一,如果分詞結果集為空,則跳轉至步驟九,否則,從中取出一個關鍵詞Word,并 刪除,跳轉至步驟二; 步驟^,清空待擴展關鍵詞集d,把Wont丨目息加入emfd和擴展結果集 ,設置當前搜索層數(shù)j=2,轉置步驟三; 步驟三,如果j超過定制的搜索層數(shù),則跳轉至步驟一,否