則j加上1,跳轉(zhuǎn)至步驟四; 步驟四,如果集合為空,則跳轉(zhuǎn)至步驟七,否則從5exfs"fd中選出一個關(guān)鍵詞 Key,并刪除它,跳轉(zhuǎn)至步驟五; 步驟五,以Key?為中心,在規(guī)則中搜索得到與之相關(guān)的三元組信息集合,跳至步 驟六; 步驟六,如果為空,則跳轉(zhuǎn)至步驟四,否則從中選出一條三元組信息Temp,并刪 除它。通過解析Temp,得到與Key相關(guān)的一個關(guān)鍵詞w,以及通過解析關(guān)系權(quán)重和W 權(quán)重綜合得到的權(quán)重weight,將w的信息,包括綜合權(quán)重weight存入一個擴(kuò)展中間集合 ^tsmp>跳至步驟六; 步驟七,去掉中的重復(fù)元素,如果stemp為空則跳至步驟三,否則從中選出一個 關(guān)鍵詞,跳轉(zhuǎn)至步驟八; 步驟八,把加入,并且判斷是否已經(jīng)被擴(kuò)展過,如果沒有,則 把加入,跳轉(zhuǎn)至步驟七; 步驟九,去掉中的重復(fù)元素,按權(quán)重降序排序后,返回結(jié)果,程序停止。
[0022] 上述基于規(guī)則的關(guān)鍵詞擴(kuò)展算法中的相關(guān)變量定義如表2。
[0023] 表2.基于規(guī)則的關(guān)鍵詞擴(kuò)展算法中的變量 變量名 變童類型 含義 Set<String> 待擴(kuò)展的關(guān)鍵詞集合 Set<Atom¥ord> 關(guān)鍵詞擴(kuò)展的結(jié)果集合 Wwd String 檢索語句分訶結(jié)果集中的關(guān)鍵詞 j int 當(dāng)前的擴(kuò)展盾數(shù) String 當(dāng)前正在進(jìn)行擴(kuò)展的關(guān)鍵詞 s Set<TrIpe> 通過關(guān)鍵訶擴(kuò)展得到的三元組集合 Te,np Tripe 三元組集合中的一組三元組 w String 相關(guān)關(guān)鍵詢的內(nèi)容 double 相關(guān)吳鍵詞的權(quán)重 ^ Set<Atom¥ord>過程集合,收集下次替要擴(kuò)展_關(guān)鍵詞 String 一個擴(kuò)展關(guān)鍵詞 注:表2中的AtomWord表示關(guān)鍵詞信息,包括關(guān)鍵詞的內(nèi)容和權(quán)重。
[0024] 表2中的Tripe表示三元組信息,g卩(主語、謂語、賓語)。
[0025] 在得到關(guān)鍵詞擴(kuò)展結(jié)果之后,利用這些關(guān)鍵詞在數(shù)據(jù)庫中進(jìn)行精確檢索或者模糊 檢索,即可以得到檢索結(jié)果,最后將檢索結(jié)果按照關(guān)鍵詞的相關(guān)權(quán)重排序即可。在本發(fā)明的 實施中,用戶可以按需定制相關(guān)的信息歸類規(guī)則,包括新建規(guī)則和修改規(guī)則,并且在檢索的 時候,用戶可以直接檢索一個語句,而不僅限于檢索單個的關(guān)鍵詞,本發(fā)明可以以用戶定制 的歸類規(guī)則為基礎(chǔ),對檢索語句進(jìn)行分詞操作,提取出與歸類規(guī)則有關(guān)的檢索關(guān)鍵詞。對于 分詞得到的每一個關(guān)鍵詞,本發(fā)明可以通過在用戶定制的規(guī)則中進(jìn)行關(guān)鍵詞擴(kuò)展,得到相 關(guān)或相近的其他關(guān)鍵詞,通過對這些關(guān)鍵詞進(jìn)行數(shù)據(jù)庫檢索,得到了與用戶初始檢索內(nèi)容 相關(guān)相近的內(nèi)容。同理也可以得到規(guī)則中與檢索關(guān)鍵詞具有潛在語義關(guān)聯(lián)的其他關(guān)鍵詞, 因此也得到了與用戶初始檢索內(nèi)容具有潛在聯(lián)系的內(nèi)容。
【主權(quán)項】
1. 一種支持用戶自定義歸類規(guī)則的信息歸類方法,其特征在于該方法包括以下步驟: (1) 信息歸類規(guī)則建模,將用于信息歸類時的相關(guān)規(guī)則用一張圖來描述,圖中的每個節(jié) 點(diǎn)代表一個關(guān)鍵詞信息,包括關(guān)鍵詞內(nèi)容和關(guān)鍵詞權(quán)重,圖中的每條邊代表兩個關(guān)鍵詞之 間的關(guān)系信息,包括關(guān)系內(nèi)容和關(guān)系權(quán)重,具體操作中,用一個三元組,即主語、謂語、賓語 信息來表示圖中的一條邊,即主語和賓語兩個節(jié)點(diǎn)之間的關(guān)系是謂語,用戶通過定制上述 規(guī)則關(guān)系圖來定制用于信息歸類時的相關(guān)規(guī)則; (2) 基于規(guī)則的檢索語句分詞,通過遍歷用戶定制的規(guī)則關(guān)系圖,得到此規(guī)則中的所有 關(guān)鍵詞,組成關(guān)鍵詞集,在用戶輸入檢索語句之后,在關(guān)鍵詞集中找出匹配的關(guān)鍵詞,得到 分詞結(jié)果; (3) 基于規(guī)則的檢索關(guān)鍵詞擴(kuò)展,以經(jīng)過步驟(2)分詞處理后得到的分詞結(jié)果中的每一 個關(guān)鍵詞分別作為核心關(guān)鍵詞加以處理,在用戶定制的搜索層數(shù)的控制下,得到與之相近 或相關(guān)的關(guān)鍵詞以及相關(guān)權(quán)重,最后得到擴(kuò)展關(guān)鍵詞集; (4) 利用擴(kuò)展得到的關(guān)鍵詞集,在數(shù)據(jù)庫中進(jìn)行精確檢索或者模糊檢索得到相應(yīng)的內(nèi) 容。2. 根據(jù)權(quán)利要求1所述的支持用戶自定義歸類規(guī)則的信息歸類方法,其特征在于:步 驟(1)中所述的信息歸類規(guī)則建模過程,包括新建或者修改信息歸類規(guī)則,即用戶可以通過 新建一張圖或者在原有圖的基礎(chǔ)上進(jìn)行修改。3. 根據(jù)權(quán)利要求1所述的支持用戶自定義歸類規(guī)則的信息歸類方法,其特征在于步驟 (2) 中所述的基于規(guī)則的檢索語句分詞過程如下: 第一步,設(shè)定當(dāng)前考慮的字符串是從下標(biāo)i開始的,i = O ; 第二步,從i開始,截取一個長度為MaxLen的字符串CutWord,其中,MaxLen為規(guī)則 關(guān)鍵詞集中關(guān)鍵詞的最長長度; 第三步,判斷CutWord是否是規(guī)則關(guān)鍵詞集中的詞語,如果是,將CutWord加入到分 詞結(jié)果集,轉(zhuǎn)到第五步,否則轉(zhuǎn)到第四步; 第四步,如果CutWord的長度為0,則轉(zhuǎn)到第五步,否則刪除CutWord的最后一個字 符,然后轉(zhuǎn)到第三步; 第五步,刪除匹配的部分,i值加1,如果?已經(jīng)超過檢索字符串長度,則程序停止,返回 分詞結(jié)果集,否則轉(zhuǎn)到第二步。4. 根據(jù)權(quán)利要求1所述的支持用戶自定義歸類規(guī)則的信息歸類方法,其特征在于步驟 (3) 中基于規(guī)則的檢索關(guān)鍵詞擴(kuò)展過程如下: 第一步,如果分詞結(jié)果集為空,則轉(zhuǎn)到第九步,否則,從中取出一個關(guān)鍵詞Word,并刪 除,轉(zhuǎn)到第二步; 弟^?步,清空待擴(kuò)展關(guān)鍵詞集,把WoTcI丨目息加和擴(kuò)展結(jié)果集 Amii,設(shè)置當(dāng)前搜索層數(shù)j=2,轉(zhuǎn)到第三步; 第三步,如果j超過定制的搜索層數(shù),則轉(zhuǎn)到第一步,否則j加上1,轉(zhuǎn)到第四步; 第四步,如果集合為空,則轉(zhuǎn)到第七步,否則從sexie"id中選出一個關(guān)鍵詞 Key,并刪除它,轉(zhuǎn)到第五步; 第五步,以Key為中心,在規(guī)則中搜索得到與之相關(guān)的三元組信息集合&啡,轉(zhuǎn)到第 六步; 第六步,如果&pSi為空,則轉(zhuǎn)到第四步,否則從中選出一條三元組信息Temp,并刪除 它,通過解析Temp,得到與Key相關(guān)的一個關(guān)鍵詞W,以及通過解析關(guān)系權(quán)重和W權(quán) 重綜合得到的權(quán)重weight,將胃的信息,包括綜合權(quán)重'weiSht存入一個擴(kuò)展中間集合 轉(zhuǎn)到第七步; 第七步,去掉Sigmp中的重復(fù)元素,如果Stemp為空則轉(zhuǎn)到第三步,否則從中選出一個 關(guān)鍵詞A^viemp,轉(zhuǎn)到第八步; 第八步,把加入Sqsuii,并且判斷如知胃是否已經(jīng)被擴(kuò)展過,如果沒有,則 把Areyf抓p加入Sex.細(xì),轉(zhuǎn)到第七步; 第九步,去掉Samit中的重復(fù)元素,按權(quán)重降序排序后,返回結(jié)果,程序停止。
【專利摘要】本發(fā)明屬于數(shù)據(jù)庫應(yīng)用領(lǐng)域,具體涉及一種支持用戶自定義歸類規(guī)則的數(shù)據(jù)庫中信息歸類的方法,以用戶定制的歸類規(guī)則為基礎(chǔ),支持?jǐn)?shù)據(jù)庫進(jìn)行語句檢索,得到與檢索語句相近或相似的信息內(nèi)容,或具有潛在關(guān)系的信息內(nèi)容,本發(fā)明方法將幫助用戶獲取到更加全面的信息。
【IPC分類】G06F17/30
【公開號】CN104899262
【申請?zhí)枴緾N201510262625
【發(fā)明人】葉俊民, 祝黃建, 葉竹君, 陳曙
【申請人】華中師范大學(xué)
【公開日】2015年9月9日
【申請日】2015年5月22日