信息檢索系統(tǒng)及方法
【專利摘要】一種信息檢索系統(tǒng),包括:切分模塊,用于將文件數(shù)據(jù)庫中的文件切分成多個文件區(qū)塊;接收模塊,用于接收輸入信息,并確定該輸入信息所在的文件區(qū)塊;確定模塊,用于確定所述文件數(shù)據(jù)庫的所有文件中與所述確定的文件區(qū)塊相同的文件區(qū)塊為待檢索區(qū)塊;檢索模塊,用于在所述文件數(shù)據(jù)庫中的待檢索區(qū)塊中檢索該輸入信息,并獲取多個檢索到的文件;計算模塊,用于確定每個檢索到的文件的權(quán)值;及輸出模塊,用于根據(jù)所計算的權(quán)值的高低對檢索到的文件進(jìn)行排序。本發(fā)明還提供一種信息檢索方法。利用本發(fā)明可對文件進(jìn)行分區(qū)塊檢索。
【專利說明】信息檢索系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及檢索技術(shù),尤其涉及一種信息檢索系統(tǒng)及方法。
【背景技術(shù)】
[0002] 搜素技術(shù)可以幫助用戶從龐大的信息量中尋找自己需要的信息,然而,隨著檢索 技術(shù)的發(fā)展,檢索得到的相關(guān)信息的數(shù)量也越來越多。雖然目前的檢索技術(shù)能夠根據(jù)用戶 輸入的檢索關(guān)鍵字反饋相關(guān)的信息,然而卻欠缺針對特定文件(例如,專利文件)的多個指 定文件區(qū)塊(例如,專利文件中的多個組成部分,說明書、權(quán)利要求書等文件區(qū)塊)內(nèi)進(jìn)行相 關(guān)信息的檢索。也就是說,用戶無法快速在所需的特定文件區(qū)塊內(nèi)進(jìn)行所需信息的檢索。
[0003] 進(jìn)一步地,現(xiàn)有的檢索技術(shù)未能與編輯軟件相結(jié)合,無法在用戶輸入信息時自動 對該輸入信息進(jìn)行檢索并提示用戶檢索結(jié)果。
[0004] 此外,部分特定文件具有多個關(guān)聯(lián)的文件也是可供用戶進(jìn)行檢索參考的,現(xiàn)有檢 索技術(shù)僅能對用戶輸入的關(guān)鍵字進(jìn)行檢索,但無法提供檢索到的文件的關(guān)聯(lián)文件。例如前 述的專利文件會對應(yīng)多個官方意見書(例如,國家知識產(chǎn)權(quán)局所發(fā)出的審查意見通知書)及 相關(guān)的對比文件,若利用現(xiàn)有檢索技術(shù),用戶無法通過檢索到的專利文件快速獲取相關(guān)的 官方意見書及所引用的對比文件。
【發(fā)明內(nèi)容】
[0005] 鑒于以上內(nèi)容,有必要提供一種信息檢索系統(tǒng)及方法,可根據(jù)用戶的檢索需求在 文件數(shù)據(jù)庫中文件的多個文件區(qū)塊進(jìn)行指定檢索。
[0006] 進(jìn)一步地,還有必要提供一種信息檢索系統(tǒng)及方法,可將文字編輯軟件與檢索技 術(shù)進(jìn)行結(jié)合,以根據(jù)接收的輸入信息進(jìn)行即時檢索。
[0007] 此外,還有必要提供一種信息檢索系統(tǒng)及方法,可提供檢索到文件的關(guān)聯(lián)文件供 用戶進(jìn)行參考。
[0008] -種信息檢索方法,應(yīng)用于服務(wù)器,所述服務(wù)器包括存儲裝置,所述存儲裝置包括 存儲多個文件的文件數(shù)據(jù)庫,該方法包括:根據(jù)預(yù)設(shè)切分參數(shù)將所述文件數(shù)據(jù)庫中的文件 切分成多個文件區(qū)塊;接收輸入信息,并確定該輸入信息所在的文件區(qū)塊;確定所述文件 數(shù)據(jù)庫的所有文件中與所述確定的文件區(qū)塊相同的文件區(qū)塊為待檢索區(qū)塊;利用預(yù)設(shè)的檢 索方法在所述文件數(shù)據(jù)庫中的待檢索區(qū)塊中檢索該輸入信息;獲取多個檢索到的文件;確 定每個檢索到的文件的權(quán)值;及根據(jù)所計算的權(quán)值的高低對檢索到的文件進(jìn)行排序。
[0009] -種信息檢索系統(tǒng),應(yīng)用于服務(wù)器,所述服務(wù)器包括存儲裝置,所述存儲裝置包括 存儲多個文件的文件數(shù)據(jù)庫,該系統(tǒng)包括:切分模塊,用于根據(jù)預(yù)設(shè)切分參數(shù)將所述文件數(shù) 據(jù)庫中的文件切分成多個文件區(qū)塊;接收模塊,用于接收輸入信息,并確定該輸入信息所在 的文件區(qū)塊;確定模塊,用于確定所述文件數(shù)據(jù)庫的所有文件中與所述確定的文件區(qū)塊相 同的文件區(qū)塊為待檢索區(qū)塊;檢索模塊,用于利用預(yù)設(shè)的檢索方法在所述文件數(shù)據(jù)庫中的 待檢索區(qū)塊中檢索該輸入信息,并獲取多個檢索到的文件;計算模塊,用于確定每個檢索到 的文件的權(quán)值;及輸出模塊,用于根據(jù)所計算的權(quán)值的高低對檢索到的文件進(jìn)行排序。 [0010] 相較于現(xiàn)有技術(shù),所述的信息檢索系統(tǒng)及方法,可實現(xiàn)對文件進(jìn)行分區(qū)塊檢索。所 述的信息檢索系統(tǒng)及方法根據(jù)用戶的檢索需求在文件數(shù)據(jù)庫中文件的多個文件區(qū)塊進(jìn)行 指定檢索,還可將文字編輯軟件與檢索技術(shù)進(jìn)行結(jié)合,以根據(jù)接收的輸入信息進(jìn)行即時檢 索,以及提供檢索到文件的關(guān)聯(lián)文件供用戶進(jìn)行參考。
【專利附圖】
【附圖說明】
[0011]圖1是本發(fā)明信息檢索系統(tǒng)的較佳實施方式的運(yùn)行環(huán)境圖。
[0012] 圖2是本發(fā)明信息檢索系統(tǒng)的較佳實施方式的硬件架構(gòu)圖。
[0013] 圖3是本發(fā)明信息檢索系統(tǒng)的較佳實施方式的功能模塊圖。
[0014] 圖4是本發(fā)明信息檢索系統(tǒng)的權(quán)值計算第一示意圖。
[0015] 圖5是本發(fā)明信息檢索系統(tǒng)的權(quán)值計算第二示意圖。
[0016] 圖6是本發(fā)明信息檢索系統(tǒng)的文件權(quán)值表示意圖。
[0017] 圖7是本發(fā)明信息檢索系統(tǒng)的關(guān)聯(lián)信息示意圖。
[0018]圖8是本發(fā)明信息檢索系統(tǒng)的檢索清單示意圖。
[0019] 圖9是本發(fā)明信息檢索方法的較佳實施方式的流程圖。
[0020] 圖10是本發(fā)明信息檢索方法的較佳實施方式的流程圖中步驟S8的細(xì)化流程圖。
[0021] 圖11是本發(fā)明信息檢索方法的較佳實施方式的流程圖中步驟S12的細(xì)化流程圖。
[0022] 主要元件符號說明
【權(quán)利要求】
1. 一種信息檢索方法,應(yīng)用于服務(wù)器,所述服務(wù)器包括存儲裝置,其特征在于,所述存 儲裝置包括存儲多個文件的文件數(shù)據(jù)庫,該方法包括: 根據(jù)預(yù)設(shè)切分參數(shù)將所述文件數(shù)據(jù)庫中的文件切分成多個文件區(qū)塊; 接收輸入信息,并確定該輸入信息所在的文件區(qū)塊; 確定所述文件數(shù)據(jù)庫的所有文件中與所述確定的文件區(qū)塊相同的文件區(qū)塊為待檢索 區(qū)塊; 利用預(yù)設(shè)的檢索方法在所述文件數(shù)據(jù)庫中的待檢索區(qū)塊中檢索該輸入信息; 獲取多個檢索到的文件; 確定每個檢索到的文件的權(quán)值;及 根據(jù)所計算的權(quán)值的高低對檢索到的文件進(jìn)行排序。
2. 如權(quán)利要求1所述的信息檢索方法,其特征在于,該方法還包括: 提供一個文字編輯器以接收所述輸入信息并輸出所述檢索到的文件的信息,所述文字 編輯器提供包括多個文件區(qū)塊的顯示界面。
3. 如權(quán)利要求1所述的信息檢索方法,其特征在于,所述預(yù)設(shè)切分參數(shù)包括依預(yù)設(shè)關(guān) 鍵字切分、依模板切分、依段落切分、依選擇內(nèi)容切分。
4. 如權(quán)利要求1所述的信息檢索方法,其特征在于,該方法還包括: 將所述多個文件區(qū)塊進(jìn)行等級劃分; 確定所述輸入信息所在文件區(qū)塊的所處等級; 確定所述文件數(shù)據(jù)庫的所有文件中處于所確定的等級的一個或多個文件區(qū)塊為待檢 索區(qū)塊;及 利用預(yù)設(shè)的檢索方法在所述文件數(shù)據(jù)庫中的待檢索區(qū)塊中檢索該輸入信息。
5. 如權(quán)利要求1所述的信息檢索方法,其特征在于,所述預(yù)設(shè)的檢索方法是字符串匹 配法、同義詞擴(kuò)展法、專業(yè)術(shù)語提取法中的一種或多種方法的結(jié)合,及所述的字符串匹配法 包括正向最大匹配法、逆向最大匹配法、雙向最大匹配法。
6. 如權(quán)利要求1或5所述的信息檢索方法,其特征在于,所述的利用預(yù)設(shè)的檢索方法在 所述文件數(shù)據(jù)庫中與所述確定的文件區(qū)塊相同的文件區(qū)塊中檢索該輸入信息的步驟包括 如下一個或者多個步驟: 利用所述存儲裝置中的專業(yè)術(shù)語詞庫,提取該輸入信息中的關(guān)鍵詞; 利用所述存儲裝置中的同義詞詞庫對該提取的關(guān)鍵詞進(jìn)行同義詞擴(kuò)展并得到擴(kuò)展后 的關(guān)鍵詞; 利用所述存儲裝置中的過濾詞庫對該擴(kuò)展后的關(guān)鍵詞進(jìn)行過濾;及 利用字符串匹配法在所述待檢索區(qū)塊中檢索該過濾后的關(guān)鍵詞。
7. 如權(quán)利要求6所述的信息檢索方法,其特征在于,所述的利用字符串匹配法在所述 待檢索區(qū)塊中檢索該過濾后的關(guān)鍵詞的步驟包括: 利用字符串匹配法從該過濾后的關(guān)鍵詞中確定一個或多個最大字符串;及 將每個最大字符串分別作為檢索關(guān)鍵字在所述待檢索區(qū)塊中進(jìn)行檢索,并獲取每個最 大字符串相應(yīng)的檢索到的文件。
8. 如權(quán)利要求7所述的信息檢索方法,其特征在于,所述的確定每個檢索到的文件的 權(quán)值的步驟包括: 將每個檢索到的文件中與所述最大字符串中的相同字符作為匹配值,并確定該匹配值 的字符數(shù); 在該過濾后的關(guān)鍵詞中包括一個最大字符串時,根據(jù)每個檢索到的文件的匹配值的字 符數(shù)確定每個檢索到的文件的權(quán)值;或 在該過濾后的關(guān)鍵詞中包括多個最大字符串時,判斷該多個最大字符串是否對應(yīng)有相 同的檢索到的文件,在該多個最大字符串沒有對應(yīng)相同的檢索到的文件時,根據(jù)每個檢索 到的文件的匹配值的字符數(shù)確定每個檢索到的文件的權(quán)值。
9. 如權(quán)利要求8所述的信息檢索方法,其特征在于,所述的確定每個檢索到的文件的 權(quán)值的步驟還包括: 在該多個最大字符串對應(yīng)有相同的檢索到的文件時,判斷該相同的檢索到的文件對應(yīng) 的不同最大字符串的匹配值是否相同; 在該相同的檢索到的文件對應(yīng)的不同最大字符串的匹配值相同時,確定該匹配值的字 符數(shù)作為該相同的檢索到的文件的權(quán)值;或 在該相同的檢索到的文件對應(yīng)的不同最大字符串的匹配值不相同時,將該不相同的多 個匹配值的字符數(shù)進(jìn)行加總,并將該加總后的值的字符數(shù)作為該相同的檢索到的文件的權(quán) 值。
10. 如權(quán)利要求1或8所述的信息檢索方法,其特征在于,該方法包括: 在每個文件區(qū)塊內(nèi)進(jìn)一步劃分子區(qū)塊,并設(shè)置每個子區(qū)塊的等級。
11. 如權(quán)利要求10所述的信息檢索方法,其特征在于,所述的根據(jù)所計算的權(quán)值的高 低對檢索到的文件進(jìn)行排序的步驟包括: 當(dāng)權(quán)值相同時,依據(jù)所述匹配值所處區(qū)塊及/或子區(qū)塊的等級確定該檢索到的文件的 排序。
12. 如權(quán)利要求1至5及7至11中任一項所述的信息檢索方法,其特征在于,所述文件 數(shù)據(jù)庫中存儲的文件是專利文件,所述的多個文件區(qū)塊包括摘要、權(quán)利要求書、說明書、說 明書附圖。
13. 如權(quán)利要求12所述的信息檢索方法,其特征在于,所述的存儲裝置還包括參考數(shù) 據(jù)庫,所述參考數(shù)據(jù)庫用于存儲與所述文件數(shù)據(jù)庫中的文件的相關(guān)聯(lián)的參考文件。
14. 如權(quán)利要求13所述的信息檢索方法,其特征在于,所述的參考文件包括專利文件 的官方意見書及對比文件,該方法還包括: 從多個檢索到的文件中選擇至少一個文件; 在所述參考數(shù)據(jù)庫中檢索該選擇的文件對應(yīng)的官方意見書及對比文件; 從所述官方意見書中提取被駁權(quán)利要求的項數(shù)、被駁的法律條款以及對比文件;及 確定該選擇的文件的駁回信息,該駁回信息包括被駁權(quán)利要求的項數(shù)、被駁的法律條 款及/或?qū)Ρ任募?br>
15. -種信息檢索系統(tǒng),應(yīng)用于服務(wù)器,所述服務(wù)器包括存儲裝置,其特征在于,所述存 儲裝置包括存儲多個文件的文件數(shù)據(jù)庫,該系統(tǒng)包括: 切分模塊,用于根據(jù)預(yù)設(shè)切分參數(shù)將所述文件數(shù)據(jù)庫中的文件切分成多個文件區(qū)塊; 接收模塊,用于接收輸入信息,并確定該輸入信息所在的文件區(qū)塊; 確定模塊,用于確定所述文件數(shù)據(jù)庫的所有文件中與所述確定的文件區(qū)塊相同的文件 區(qū)塊為待檢索區(qū)塊; 檢索模塊,用于利用預(yù)設(shè)的檢索方法在所述文件數(shù)據(jù)庫中的待檢索區(qū)塊中檢索該輸入 信息,并獲取多個檢索到的文件; 計算模塊,用于確定每個檢索到的文件的權(quán)值;及 輸出模塊,用于根據(jù)所計算的權(quán)值的高低對檢索到的文件進(jìn)行排序。
16. 如權(quán)利要求15所述的信息檢索系統(tǒng),其特征在于,該系統(tǒng)還包括: 文字編輯器,用于接收所述輸入信息并輸出所述檢索到的文件的信息,所述文字編輯 器提供包括多個文件區(qū)塊的顯示界面。
17. 如權(quán)利要求15所述的信息檢索系統(tǒng),其特征在于,所述的檢索模塊通過如下的一 種或多種方式的結(jié)合對輸入信息進(jìn)行檢索: 利用所述存儲裝置中的專業(yè)術(shù)語詞庫,提取該輸入信息中的關(guān)鍵詞; 利用所述存儲裝置中的同義詞詞庫對該提取的關(guān)鍵詞進(jìn)行同義詞擴(kuò)展并得到擴(kuò)展后 的關(guān)鍵詞; 利用所述存儲裝置中的過濾詞庫對該擴(kuò)展后的關(guān)鍵詞進(jìn)行過濾;及 利用字符串匹配法在所述待檢索區(qū)塊中檢索該過濾后的關(guān)鍵詞。
18. 如權(quán)利要求17所述的信息檢索系統(tǒng),其特征在于,所述的檢索模塊還用于利用字 符串匹配法從該過濾后的關(guān)鍵詞中確定一個或多個最大字符串,及將每個最大字符串分別 作為檢索關(guān)鍵字在所述待檢索區(qū)塊中進(jìn)行檢索,并獲取每個最大字符串相應(yīng)的檢索到的文 件。
19. 如權(quán)利要求18所述的信息檢索系統(tǒng),其特征在于,所述的計算模塊通過如下方式 確定每個檢索到的文件的權(quán)值: 將每個檢索到的文件中與所述最大字符串中的相同字符作為匹配值,并確定該匹配值 的字符數(shù); 在該過濾后的關(guān)鍵詞中包括一個最大字符串時,根據(jù)每個檢索到的文件的匹配值的字 符數(shù)確定每個檢索到的文件的權(quán)值;或 在該過濾后的關(guān)鍵詞中包括多個最大字符串時,判斷該多個最大字符串是否對應(yīng)有相 同的檢索到的文件,在該多個最大字符串沒有對應(yīng)相同的檢索到的文件時,根據(jù)每個檢索 到的文件的匹配值的字符數(shù)確定每個檢索到的文件的權(quán)值。
20. 如權(quán)利要求19所述的信息檢索系統(tǒng),其特征在于,所述的計算模塊還用于: 在該多個最大字符串對應(yīng)有相同的檢索到的文件時,判斷該相同的檢索到的文件對應(yīng) 的不同最大字符串的匹配值是否相同; 在該相同的檢索到的文件對應(yīng)的不同最大字符串的匹配值相同時,確定該匹配值的字 符數(shù)作為該相同的檢索到的文件的權(quán)值;或 在該相同的檢索到的文件對應(yīng)的不同最大字符串的匹配值不相同時,將該不相同的多 個匹配值的字符數(shù)進(jìn)行加總,并將該加總后的值的字符數(shù)作為該相同的檢索到的文件的權(quán) 值。
21. 如權(quán)利要求20所述的信息檢索系統(tǒng),其特征在于,所述的計算模塊還用于在該相 同的檢索到的文件對應(yīng)的不同最大字符串的匹配值不相同時,判斷相同的檢索到的文件所 對應(yīng)的匹配值是否相似,若相似則選擇保留其中字符數(shù)較多的匹配值,將該保留匹配值的 字符數(shù)作為該檢索到的文件的權(quán)值,并舍棄其中字符數(shù)較少的匹配值。
【文檔編號】G06F17/30GK104090875SQ201310110573
【公開日】2014年10月8日 申請日期:2013年4月1日 優(yōu)先權(quán)日:2013年4月1日
【發(fā)明者】李忠一, 謝德意, 陶帥軍, 易志強(qiáng), 姚俊超 申請人:鴻富錦精密工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司