專利名稱:搜索引擎的智能化搜索方法
技術(shù)領(lǐng)域:
本發(fā)明由3項子發(fā)明構(gòu)成,發(fā)明1是按照用戶點擊次數(shù)對網(wǎng)頁及網(wǎng)站地址和文獻目錄進行排序的方法,發(fā)明2是與文本內(nèi)容匹配的基于檢索詞的知識庫的建立和應(yīng)用的方法,發(fā)明3是搜索引擎檢出文獻目錄的方法,三種方法均涉及計算機網(wǎng)絡(luò)技術(shù)中對具有自然語言特征的文本和文獻目錄的搜索方法,具體地說,涉及到搜索引擎的智能化搜索方法。
計算機網(wǎng)絡(luò)中的搜索引擎是搜索網(wǎng)頁及網(wǎng)站的工具?,F(xiàn)存的搜索引擎的基本原理是通過網(wǎng)頁及網(wǎng)站的搜集軟件,從互聯(lián)網(wǎng)上自動收集網(wǎng)頁地址及其文本,將搜集所得的網(wǎng)頁文本交給索引和檢索系統(tǒng),由計算機程序通過掃描文本中的每一個詞,建立以詞為單位的倒排文件,檢索程序根據(jù)用戶給出的檢索詞在文本中出現(xiàn)的頻率和概率,對包含這些檢索詞的文本進行排序,最后輸出網(wǎng)頁及網(wǎng)站的排序的結(jié)果。這種搜索方法存在以下缺陷第一,無用的(對于檢索詞不相關(guān)的或相關(guān)度低的)搜索結(jié)果過多。這是因為單一的檢索詞在文本中出現(xiàn)的頻率和概率并不完全代表檢索詞與文本內(nèi)容的相關(guān)性的值。即目前的搜索方法不能識別與檢索詞相關(guān)的文本內(nèi)容。第二,它只能搜索可鏈接于因特網(wǎng)的網(wǎng)頁及網(wǎng)站地址,不能以文獻目錄為搜索單位,即不能檢出文獻目錄。例如,現(xiàn)有的搜索引擎不能找到某一檢索詞對應(yīng)下的專利號、國家標準號以及某一圖書館中的書號。
本發(fā)明能夠彌補這兩個缺陷。其中,發(fā)明1和發(fā)明2能夠彌補第一個缺陷,發(fā)明3能夠彌補第二個缺陷,這就是本發(fā)明的目的和動機所在。
發(fā)明1的要點是對于搜索網(wǎng)址的工作,在現(xiàn)有的搜索引擎系統(tǒng)中加入服務(wù)器日志或用戶點擊計數(shù)器統(tǒng)計分析系統(tǒng),該日志或系統(tǒng)完成以下工作1.記錄不同用戶對輸入同一檢索詞后搜索引擎按照檢索詞在網(wǎng)頁或網(wǎng)站的文本中出現(xiàn)的頻率和概率的多少進行排序的網(wǎng)頁的點擊次數(shù)和下載次數(shù)。2.對一定時間內(nèi)記錄的多個用戶輸入的同一檢索詞中對應(yīng)的網(wǎng)頁或網(wǎng)站的用戶選擇結(jié)果(不同網(wǎng)頁或網(wǎng)站的點擊次數(shù))進行排序,排序的規(guī)則是同一檢索詞對應(yīng)的網(wǎng)頁或網(wǎng)站點擊次數(shù)多,則排前列作為以后輸入該詞的用戶優(yōu)先給出的搜索結(jié)果;某檢索詞對應(yīng)的網(wǎng)頁或網(wǎng)站下載記錄次數(shù)作為排序的權(quán)值。這兩步工作的目的是記錄按照人(用戶)的智力對目前的搜索引擎對網(wǎng)頁或網(wǎng)站的搜索結(jié)果與索引詞的相關(guān)性的判斷。亦即在加入本發(fā)明以前,搜索引擎對網(wǎng)頁或網(wǎng)站的搜索是計算機系統(tǒng)依據(jù)檢索詞在網(wǎng)頁或網(wǎng)站的文本中出現(xiàn)的頻率和概率排序(現(xiàn)有的搜索方法);而加入本發(fā)明后,將在此現(xiàn)存的搜索方法搜索的結(jié)果后增補一個步驟,該步驟由新增的計算機軟件系統(tǒng)記錄了人(用戶)的智力對現(xiàn)存的搜索方法條件下的搜索結(jié)果在檢索詞與網(wǎng)頁或網(wǎng)站的內(nèi)容的相關(guān)程度上的判斷和選擇,以此作為對下一個輸入同一詞的用戶提供搜索結(jié)果的排序依據(jù)。
實現(xiàn)上述要點,主要通過以下步驟實現(xiàn),每個步驟均由一個軟件模塊按順序執(zhí)行1.對現(xiàn)存的搜索引擎系統(tǒng)中網(wǎng)頁或網(wǎng)站的數(shù)據(jù)庫進行更新,其方法是定期抽取服務(wù)器日志或其它網(wǎng)頁點擊計數(shù)器中與用戶輸入檢索詞對應(yīng)的網(wǎng)址的點擊次數(shù),形成新的數(shù)據(jù)庫,本過程所發(fā)揮的功能定義為建立與檢索詞對應(yīng)情況下網(wǎng)頁或網(wǎng)站的點擊次數(shù)的數(shù)據(jù)庫模塊。該數(shù)據(jù)庫的基本特征是三個參數(shù)(屬性值)的組合,即(1)用戶輸入的檢索詞與(2)現(xiàn)存的搜索系統(tǒng)中通過檢索詞文本掃描后匹配的對應(yīng)的網(wǎng)址以及(3)用戶在輸入此檢索詞后對該詞對應(yīng)的網(wǎng)址的點擊次數(shù)(訪問次數(shù))的組合,從而反映出在一定時間內(nèi)不同用戶輸入同一檢索詞后用戶在現(xiàn)存的搜索引擎給出的搜索結(jié)果(多個網(wǎng)頁或網(wǎng)站)中選擇了哪(些)個。對現(xiàn)有的搜索引擎系統(tǒng)中網(wǎng)頁或網(wǎng)站的數(shù)據(jù)庫進行更新后建立的數(shù)據(jù)庫其結(jié)構(gòu)可有多種設(shè)計,可以選擇IP地址或檢索詞作主元。
圖1是與檢索詞對應(yīng)情況下網(wǎng)頁或網(wǎng)站的點擊次數(shù)的數(shù)據(jù)庫(更新后的數(shù)據(jù)庫)結(jié)構(gòu)示意圖。
2.通過查詢與檢索詞對應(yīng)情況下網(wǎng)頁或網(wǎng)站的點擊次數(shù)的數(shù)據(jù)庫對與檢索詞對應(yīng)的網(wǎng)頁或網(wǎng)站按照點擊次數(shù)進行排序,對于有下載記錄的網(wǎng)址,將每一次下載和每一次點擊賦予不同權(quán)重進行排序。即本模塊定義為與檢索詞對應(yīng)的網(wǎng)頁或網(wǎng)站按照點擊次數(shù)和下載次數(shù)排序模塊。在排序后與檢索詞對應(yīng)的網(wǎng)頁或網(wǎng)站的網(wǎng)址序列作為下一個用戶輸入同一詞時的網(wǎng)址搜索結(jié)果序列。當用戶輸入的查詢詞被外部系統(tǒng)給出內(nèi)容相關(guān)的一組詞時,本模塊可按該組詞的給定的相關(guān)度對該組詞的每一個詞對應(yīng)的搜索到的網(wǎng)址序列進行加權(quán),從而給出不同權(quán)重的多組對應(yīng)的的網(wǎng)址序列,再在此多組網(wǎng)址序列中按不同權(quán)重重新排為一個序列提供給用戶。
上述步驟與現(xiàn)存的搜索引擎相結(jié)合,實現(xiàn)了將現(xiàn)存的搜索引擎的搜索結(jié)果由檢索詞在文本中出現(xiàn)頻率和概率大小作為排序依據(jù)轉(zhuǎn)變?yōu)橛捎脩?人的智力)對檢索詞與文本在內(nèi)容的關(guān)聯(lián)性的大小的判別(對應(yīng)檢索詞的網(wǎng)頁或網(wǎng)站的訪問次數(shù),即點擊率)為排序依據(jù)。
對于搜索文獻目錄的工作,發(fā)明1在現(xiàn)有的搜索引擎系統(tǒng)中加入服務(wù)器日志或用戶點擊計數(shù)器統(tǒng)計分析系統(tǒng),將對檢索詞(組)對應(yīng)的文獻目錄數(shù)據(jù)庫的目錄的點擊數(shù)和點擊次序進行記錄。此后對目錄按點擊數(shù)和點擊次序進行排序,點擊次序被賦予權(quán)重加入點擊數(shù)排序之中,形成一個排序序列。
搜索引擎搜索目錄的方法見發(fā)明3。
搜索引擎在加入發(fā)明1之后與計算機目錄檢索系統(tǒng)(如現(xiàn)存的圖書館的圖書計算機檢索系統(tǒng)、專利、國家標準計算機檢索系統(tǒng))的差別在于1.在發(fā)明1應(yīng)用以前,計算機目錄檢索系統(tǒng)在輸入檢索詞之后由系統(tǒng)對目錄的搜索是計算機系統(tǒng)依據(jù)檢索詞在目錄中出現(xiàn)的頻率和概率排序;而加入本發(fā)明后,將在此傳統(tǒng)的計算機檢索的結(jié)果后增補一個步驟,該步驟由新增的計算機系統(tǒng)記錄了人(用戶)的智力對傳統(tǒng)的計算機檢索的結(jié)果在檢索詞與網(wǎng)頁或網(wǎng)站的內(nèi)容的一致程度(相關(guān)性)上的判斷和選擇,以此作為下一個輸入同一詞的用戶提供搜索結(jié)果的排序依據(jù)。2.在發(fā)明1應(yīng)用以前,搜索引擎的數(shù)據(jù)庫不包含文獻目錄檢索系統(tǒng)而只包含文本所在的網(wǎng)頁或網(wǎng)址的檢索系統(tǒng),當用戶需要檢索文獻目錄時,現(xiàn)存的搜索引擎只能鏈接文獻目錄的網(wǎng)址,再由用戶使用文獻目錄的檢索系統(tǒng)檢索。加入發(fā)明1后,搜索引擎的數(shù)據(jù)庫將包含文獻目錄檢索系統(tǒng),用戶對檢索詞對應(yīng)的搜索單位將含蓋網(wǎng)址和文獻目錄,使用戶不必訪問文獻目錄所在網(wǎng)頁,而由搜索引擎一次完成網(wǎng)址和文獻目錄的搜索。
實現(xiàn)上述要點,主要通過以下步驟實現(xiàn),每個步驟均由一個軟件模塊按順序執(zhí)行1.對現(xiàn)有的被檢索的目錄數(shù)據(jù)庫進行更新,其方法是定期抽取服務(wù)器日志或點擊計數(shù)器中與用戶輸入檢索詞對應(yīng)的目錄的點擊次數(shù),形成新的數(shù)據(jù)庫。此模塊定義為記錄與檢索詞對應(yīng)的目錄的點擊次數(shù)模塊。該數(shù)據(jù)庫的基本特征是三個參數(shù)(屬性值)的組合,即(1)用戶輸入的檢索詞與(2)現(xiàn)存的搜索系統(tǒng)中通過檢索詞匹配的目錄以及(3)用戶在輸入此檢索詞后對該詞對應(yīng)的目錄的點擊次數(shù)(訪問次數(shù))的組合,從而反映出在一定時間內(nèi)不同用戶輸入同一檢索詞后用戶在現(xiàn)存的搜索引擎給出的搜索結(jié)果(目錄)中選擇了哪(些)個。對現(xiàn)有的用于計算機目錄檢索的目錄數(shù)據(jù)庫進行更新后建立的數(shù)據(jù)庫其結(jié)構(gòu)可有多種設(shè)計,可以選擇目錄或檢索詞作主元。圖2是與檢索詞對應(yīng)情況下目錄的點擊次數(shù)的數(shù)據(jù)庫(更新后的數(shù)據(jù)庫)結(jié)構(gòu)示意圖。
2.通過查詢與檢索詞對應(yīng)情況下目錄的點擊次數(shù)的數(shù)據(jù)庫,對與檢索詞對應(yīng)的目錄按照點擊次序和次數(shù)進行排序(將次序折算成權(quán)值加入點擊次數(shù)排序)。本模塊定義為與檢索詞對應(yīng)的目錄按照點擊次數(shù)排序模塊。在排序后與檢索詞對應(yīng)的目錄序列作為下一個用戶輸入同一詞時的目錄搜索結(jié)果序列。當用戶輸入的查詢詞被外部系統(tǒng)給出內(nèi)容相關(guān)的一組詞時,本模塊可按該組詞的給定的相關(guān)度對該組詞的每一個詞對應(yīng)的按照點擊次數(shù)進行排序的目錄序列進行加權(quán),從而給出不同權(quán)重的多組對應(yīng)的的目錄序列,再在此多組網(wǎng)址序列中按不同權(quán)重重新排為一個序列提供給用戶。
上述步驟與現(xiàn)存的搜索引擎相結(jié)合,實現(xiàn)了將現(xiàn)存的搜索引擎的搜索結(jié)果由檢索詞在目錄中出現(xiàn)頻率和概率大小作為排序依據(jù)轉(zhuǎn)變?yōu)橛捎脩?人的智力)對檢索詞與文本在內(nèi)容的關(guān)聯(lián)性的大小的判別(對應(yīng)檢索詞的目錄的訪問次數(shù),即點擊率)為排序依據(jù)。
使用本發(fā)明流程見圖3。
圖3的用語說明如下
知識庫記錄詞匯之間的意義(內(nèi)容)相關(guān)性的軟件系統(tǒng),其功能在于在用戶輸入檢索詞后按該檢索詞的意義的相關(guān)性給出一組檢索詞。
源數(shù)據(jù)庫現(xiàn)存的搜索引擎的數(shù)據(jù)庫,用于存儲網(wǎng)址或文獻目錄的和按照檢索詞在文本或目錄中出現(xiàn)頻率和概率大小作為排序依據(jù)排序的與檢索詞對應(yīng)的網(wǎng)址或文獻目錄數(shù)據(jù)庫。
更新后的數(shù)據(jù)庫對源數(shù)據(jù)庫按照被搜索對象(網(wǎng)址或文獻目錄)在對應(yīng)檢索詞的情況下用戶的點擊率多少進行重新排序的數(shù)據(jù)庫。
檢索詞用戶輸入的符合自然語言的語法規(guī)則的詞匯、詞組,以及非句子的連續(xù)的詞匯的集合,即在用戶界面中要求用戶輸入的搜索的“關(guān)鍵詞”。
從圖3的左端開始,在用戶提出了檢索詞的查詢請求之后,通過瀏覽器界面,網(wǎng)絡(luò)服務(wù)器端得到用戶的請求,啟動查詢代理進行響應(yīng)。查詢代理搜索知識庫,從中找出是否存在與用戶查詢的檢索詞匹配或是相關(guān)的檢索詞組。判斷是否相關(guān)的依據(jù)是專家事先對知識的分類的知識點間的相關(guān)性或定量化的相關(guān)系數(shù)。如果存在,則生成一個相關(guān)的“檢索詞組”。如果系統(tǒng)設(shè)計成與用戶交互式,即由用戶對他們感興趣的由知識庫給出的與檢索詞相關(guān)的檢索詞組進行選擇,則通過網(wǎng)絡(luò)服務(wù)器提供給用戶。通過提交表單,得到用戶的選擇。用戶選擇后由查詢代理經(jīng)由網(wǎng)絡(luò)服務(wù)器交給搜索引擎檢索。如果系統(tǒng)不設(shè)計成與用戶交互式,則知識庫生成的相關(guān)的“檢索詞組”直接交給搜索引擎檢索。如果用戶輸入的索引詞在知識庫不存在,該檢索詞沒有相關(guān)詞匹配,直接(單一地)交給搜索引擎檢索。
這樣,搜索引擎檢索系統(tǒng)可能接受三種中的一種要求檢索的檢索詞的集合檢索詞(用戶最初輸入的單一的檢索詞),或由知識庫按相關(guān)性對檢索詞進行匹配的一組檢索詞,該詞組不經(jīng)過用戶選擇(檢索詞組),或由知識庫按相關(guān)性對檢索詞進行匹配的一組檢索詞,該詞組經(jīng)過用戶選擇(交互后的檢索詞組)。無論三種中的哪一種檢索詞的集合,只要檢索詞的集合分別交給現(xiàn)存的搜索引擎,現(xiàn)存的搜索引擎都會在源數(shù)據(jù)庫的文本或目錄中掃描該檢索詞并按該詞在文本或目錄中出現(xiàn)的頻率和概率的大小將文本的網(wǎng)址或目錄排序。本發(fā)明加入后,將記錄用戶輸入的檢索詞(無論是單一的還是一組,無論該組詞是與用戶交互過的還是未交互過的)和用戶對按該詞在文本或目錄中出現(xiàn)的頻率和概率的大小將文本的網(wǎng)址或目錄進行排序的搜索結(jié)果(對現(xiàn)存的搜索引擎而言的搜索結(jié)果)的選擇,即將記錄用戶輸入的檢索詞和對應(yīng)該檢索詞的網(wǎng)頁或網(wǎng)站的點擊率或目錄的點擊率。此后,發(fā)明1再根據(jù)點擊率大小重新排序,當檢索詞為多個時,則對檢索詞對應(yīng)的網(wǎng)頁或網(wǎng)站或目錄進行加權(quán)排序。排序后的結(jié)果作為應(yīng)用了本發(fā)明的搜索引擎的對應(yīng)該詞的查詢結(jié)果。
發(fā)明2的背景是現(xiàn)存的計算機網(wǎng)絡(luò)搜索引擎和計算機文獻目錄檢索系統(tǒng)用用戶輸入的檢索詞搜索或檢索網(wǎng)址或目錄的基本原理是由計算機程序通過掃描文本或目錄中的每一個詞,檢索程序根據(jù)用戶給出的檢索詞在文本中出現(xiàn)的頻率和概率,對包含這些檢索詞的文本或目錄進行排序,最后輸出網(wǎng)頁及網(wǎng)站的排序的結(jié)果。這種方法的缺陷之一是搜索或檢索結(jié)果不很全面、不很準確。其進一步的原因之一是因為檢索詞在文本或目錄中出現(xiàn)的頻率和概率并不代表檢索詞與文本或目錄內(nèi)容的相關(guān)性的值。即目前的搜索方法不能識別與檢索詞相關(guān)的文本內(nèi)容。
例如,當用戶輸入“高等數(shù)學”檢索詞時,現(xiàn)存的計算機網(wǎng)絡(luò)搜索引擎和計算機文獻目錄檢索系統(tǒng)會把含有“高等數(shù)學”這一詞匯出現(xiàn)頻率高的文本網(wǎng)頁或網(wǎng)站的地址或目錄搜索或檢索到,但是,許多以“微積分”作為主題詞或標引詞但沒有或較少出現(xiàn)“高等數(shù)學”詞匯的文本網(wǎng)頁或網(wǎng)站的地址或目錄則被丟棄或派在后位,盡管它可能比含有“高等數(shù)學”這一詞匯出現(xiàn)頻率高的文本網(wǎng)頁或網(wǎng)站的地址或目錄在內(nèi)容上更接近高等數(shù)學。
發(fā)明2的目的和動機是彌補現(xiàn)存的計算機網(wǎng)絡(luò)搜索引擎和計算機文獻目錄檢索系統(tǒng)用用戶輸入的檢索詞搜索或檢索網(wǎng)址或目錄的缺乏內(nèi)容的關(guān)聯(lián)性的缺陷。
它的基本要點是按照詞匯的語義的內(nèi)容關(guān)聯(lián)關(guān)系,建立詞匯間的關(guān)聯(lián)關(guān)系,并儲存于計算機。在計算機內(nèi)存中駐留一個小的進程,偵聽用戶的請求,用戶輸入的檢索詞被截獲后轉(zhuǎn)給搜索知識庫。知識庫把與檢索詞相關(guān)的一組詞提供給用戶選擇,或直接提供給搜索引擎檢索系統(tǒng),進入現(xiàn)存的搜索引擎工作程序。這樣,搜索引擎就由現(xiàn)存的對用戶的一次的一個檢索詞的搜索變?yōu)橐唤M詞的搜索,該組詞上是由專家確定為內(nèi)容相關(guān)的,可以增設(shè)用相關(guān)度衡量的功能,相關(guān)度為0-1之間,該相關(guān)度作為該組詞的不同相關(guān)詞匯對應(yīng)搜索結(jié)果(即不同詞匯對應(yīng)的網(wǎng)址或目錄序列)的權(quán)值,當需要將權(quán)值進行調(diào)整時,可以依據(jù)專家進行人為設(shè)定,也可通過與用戶的交互進行,如果通過用戶的交互進行調(diào)整,則通過設(shè)置服務(wù)器日志或用戶點擊計數(shù)器統(tǒng)計分析系統(tǒng)統(tǒng)計用戶對檢索詞的關(guān)聯(lián)詞的點擊率,再將點擊率作為權(quán)值調(diào)整相關(guān)度。
實現(xiàn)的步驟是1.建立知識庫。按照知識分類,將詞匯建立內(nèi)容關(guān)聯(lián)關(guān)系。關(guān)聯(lián)關(guān)系分為6級(1)第一上屬關(guān)系,(2)第二上屬關(guān)系,(3)同義詞關(guān)系,(4)相關(guān)關(guān)系(如因果關(guān)系、原料-產(chǎn)品關(guān)系、服務(wù)-被服務(wù)關(guān)系),(5)第一下屬關(guān)系,(6)第二下屬關(guān)系。
例如酒(檢索詞)釀造工業(yè)(第二上屬關(guān)系)釀酒工業(yè)(第一上屬關(guān)系)釀酒微生物(相關(guān)關(guān)系),糧食(相關(guān)關(guān)系),酒精(相關(guān)關(guān)系)......
白酒(第一下屬關(guān)系)低度白酒(第二下屬關(guān)系)例如“腦血管意外”檢索詞,可以得到圖4的關(guān)系結(jié)構(gòu)。從圖中可以看到“腦血管疾病”和“神經(jīng)疾病”是它的上屬級別,“中風”、“高血壓”和“偏癱”是同級的(“中風”是同義詞,“高血壓”和“偏癱”是相關(guān)關(guān)系),其余的四個詞則是它的下屬關(guān)系的詞。
圖4是知識庫關(guān)系的邏輯示意圖。
2.建立的知識庫的結(jié)構(gòu)如圖5、6所示。
在圖5中對于知識體系建立大的幾個類,在大類的底下可以再分成一些子類,對于每一個知識大類的關(guān)鍵詞進行統(tǒng)一編號。例如,用10位十進制的阿拉伯數(shù)字表示一個關(guān)鍵詞。如“0101000001”。其中,前兩位“01”表示的是“大類編號”,緊跟著的兩位是大類下的子類的編號,后面6位數(shù)字表示的是“類內(nèi)編號”。用這種方法就可以唯一確定一個關(guān)鍵詞,并且通過分級的方法可以提高檢索的效率。對以后的查詢只要對關(guān)鍵詞進行檢索。在統(tǒng)一定義了關(guān)鍵詞的編號后,以后的數(shù)據(jù)庫中凡是出現(xiàn)關(guān)鍵詞的地方都是用編號進行記錄,從而減少了存儲量,提高了效率。
在圖6中,緊接在每個檢索詞之后的c是該檢索詞與該行首列檢索詞之間的相關(guān)系數(shù)。在專家打分給出初始的相關(guān)系數(shù)值之后,通過用戶的使用,應(yīng)用發(fā)明1中的用戶對檢索詞輸入后給出的一組相關(guān)的檢索詞的選擇。用戶對同一檢索詞的關(guān)聯(lián)詞的對應(yīng)的網(wǎng)址或目錄的點擊次數(shù)可作為對同一檢索詞的關(guān)聯(lián)詞的選擇次數(shù),根據(jù)此次對檢索詞之間的系數(shù)進行更新。這樣,就得到了一張如表6所示的“檢索詞關(guān)系表”。
3.知識庫的關(guān)聯(lián)度的調(diào)整可以依據(jù)專家進行人為設(shè)定,也可通過與用戶的交互進行,如果通過用戶的交互進行調(diào)整,則通過設(shè)置服務(wù)器日志或用戶點擊計數(shù)器統(tǒng)計分析系統(tǒng)統(tǒng)計用戶對檢索詞的關(guān)聯(lián)詞的點擊率,再將點擊率作為權(quán)值調(diào)整相關(guān)度。這一過程見圖3中的虛線。
因此,加入發(fā)明2之后,搜索引擎對搜索對象的排序標準就由按照單一檢索詞在文本或目錄中出現(xiàn)的概率大小次序排序變?yōu)榘凑諆?nèi)容相關(guān)的一組詞在文本或目錄中出現(xiàn)的概率大小次序排序,從而使用戶輸入的檢索詞在內(nèi)容上更加接近文本或目錄。
發(fā)明3的背景是現(xiàn)存的搜索引擎的存在以下缺陷它只能搜索可鏈接于因特網(wǎng)的網(wǎng)頁及網(wǎng)站地址,不能直接搜索鏈接于因特網(wǎng)上的網(wǎng)頁及網(wǎng)站中的文獻目錄,即不能按照檢索詞檢出文獻目錄,而只能檢出網(wǎng)址(網(wǎng)址目錄)。如果用戶要求在網(wǎng)絡(luò)環(huán)境下搜索網(wǎng)頁內(nèi)的文獻目錄,如某一檢索詞對應(yīng)下的專利號、國家標準號以及某一圖書館中的書號,則用戶只能按照搜索引擎提供的或自己知道的網(wǎng)址分別訪問不同具有文獻檢索系統(tǒng)的網(wǎng)站,分別使用該文獻檢索系統(tǒng)檢索文獻目錄,在此例中,用戶需分別訪問專利、國家標準以及某一圖書館的專門網(wǎng)站,使用該網(wǎng)站的專業(yè)檢索系統(tǒng),分別獲得同一檢索詞對應(yīng)的文獻目錄。這一過程的進一步的缺陷在于用戶的多次搜索和檢索會增加許多造成失敗的不確定性,如用戶可能不知道文獻目錄所在的網(wǎng)址,或者增加網(wǎng)絡(luò)搜索和文獻目錄檢索時間網(wǎng)絡(luò)的運行可能出現(xiàn)擁塞,用戶操作復(fù)雜,等等。
發(fā)明3的應(yīng)用將克服只能搜索可鏈接于因特網(wǎng)的網(wǎng)頁及網(wǎng)站地址,不能直接搜索鏈接于因特網(wǎng)上的網(wǎng)頁及網(wǎng)站中的文獻目錄的這一缺陷及其隨之而來的進一步的缺陷。這是發(fā)明3的目的和動機。
發(fā)明3的要點和實現(xiàn)過程是在搜索引擎系統(tǒng)內(nèi)建立文獻目錄數(shù)據(jù)庫和文獻目錄檢索系統(tǒng)。通過與用戶交互選擇文獻目錄種類或文獻目錄系統(tǒng),即由用戶決定是否需要專利、標準、圖書館文獻目錄,哪一個圖書館。當用戶輸入檢索詞時,增設(shè)的知識庫將給出與檢索詞意義相關(guān)的一組詞,即將一個檢索詞變成檢索詞組,轉(zhuǎn)變方法方法見發(fā)明2。檢索詞組進入文獻目錄檢索系統(tǒng)。檢索系統(tǒng)通過掃描文獻目錄的類別的名稱(描述)中的詞匯與檢索詞組的匹配程度(頻率和概率),確定目錄的類別,再根據(jù)目錄類別對應(yīng)文獻目錄的號碼,檢出文獻目錄。文獻目錄檢索系統(tǒng)分為專利、標準、圖書館的圖書檢索系統(tǒng)以及專業(yè)數(shù)據(jù)庫等多個種類。
專利檢索系統(tǒng)中建立《國際專利分類表》,將檢索詞組在《國際專利分類表》的部、大類、小類、組的目錄中進行掃描和匹配,根據(jù)檢索詞組部、大類、小類、組的目錄中出現(xiàn)的頻率和概率檢出部、大類、小類、組的目錄;通過部、大類、小類、組的目錄的類號檢出文獻,再將檢索詞組在檢出的文獻文本中進行全文掃描和匹配,根據(jù)檢索詞組在檢出的文獻文本中出現(xiàn)的頻率和概率將文獻目錄排序,該序列作為搜索引擎在專利文獻檢索系統(tǒng)中的搜索結(jié)果。
標準檢索系統(tǒng)中建立《中國標準文獻分類法》,將檢索詞組在《中國標準文獻分類法》的類目(兩級類目)中進行掃描和匹配,根據(jù)檢索詞組類目中出現(xiàn)的頻率和概率檢出類目;通過類目標識號檢出文獻,再將檢索詞組在檢出的文獻文本中進行全文掃描和匹配,根據(jù)檢索詞組在檢出的文獻文本中出現(xiàn)的頻率和概率將文獻目錄排序,該序列作為搜索引擎在標準文獻檢索系統(tǒng)中的搜索結(jié)果。
圖書館的圖書檢索系統(tǒng)中,將檢索詞組在《(中國圖書館圖書分類法》的類目中進行掃描和匹配,根據(jù)檢索詞組類目中出現(xiàn)的頻率和概率檢出類目;通過類目分類標引號檢出文獻標題,再將檢索詞組在檢出的文獻標題中進行掃描和匹配,根據(jù)檢索詞組在檢出的文獻題目中出現(xiàn)的頻率和概率將圖書目錄排序,該序列作為搜索引擎在標準文獻檢索系統(tǒng)中的搜索結(jié)果。如果建立的圖書檢索系統(tǒng)中附于圖書題目還有關(guān)鍵詞、主題詞、標引詞、內(nèi)容簡介等涉及圖書內(nèi)容等文字,則檢索詞組在檢出的文獻標題中進行掃描和匹配時可同時掃描這些文字,并以檢索詞組在這些文字中出現(xiàn)的頻率和概率作為圖書目錄排序的依據(jù)。
這種過程的應(yīng)用,用戶在使用計算機搜索引擎時直接搜索到專利、標準、圖書館的圖書以及專業(yè)數(shù)據(jù)庫等多個種類文獻目錄,而不必先搜索到該檢索系統(tǒng)的網(wǎng)站,再用該網(wǎng)站的搜索系統(tǒng)檢索,檢索的方法也由將索引詞直接掃描文獻目錄變?yōu)橛蓹z索詞生成意義相關(guān)的檢索詞組,再確定目錄類別,然后在該類別下進行掃描文獻目錄,提高了文獻目錄檢索的效率和準確性。
權(quán)利要求
本發(fā)明由3項子發(fā)明構(gòu)成,發(fā)明1是按照用戶點擊次數(shù)對網(wǎng)頁及網(wǎng)站地址和文獻目錄進行排序的方法,發(fā)明2是與文本內(nèi)容匹配的基于檢索詞的知識庫的建立和應(yīng)用的方法,發(fā)明3是搜索引擎檢出文獻目錄的方法。發(fā)明1權(quán)利要求書1一種按照用戶點擊次數(shù)對網(wǎng)頁及網(wǎng)站地址和文獻目錄進行排序的方法,其特征在于,通過計算機程序記錄用戶對輸入檢索詞后搜索引擎給出的對應(yīng)該檢索詞的網(wǎng)址和目錄的的點擊次數(shù)和下載次數(shù),按照一定時間內(nèi)記錄的多個用戶輸入的同一檢索詞對應(yīng)的網(wǎng)址和目錄的用戶點擊次數(shù)進行排序,排序的規(guī)則是同一檢索詞對應(yīng)的網(wǎng)址或目錄擊次數(shù)多,則排前列,為以后輸入該詞的用戶優(yōu)先給出;某檢索詞對應(yīng)的某些網(wǎng)頁或網(wǎng)站下載記錄次數(shù)作為排序的權(quán)值。
2如權(quán)利1所述的方法,記錄對輸入檢索詞后搜索引擎給出的對應(yīng)該檢索詞的網(wǎng)址和目錄的點擊次數(shù)或下載次數(shù),
3如權(quán)利1所述的方法,記錄對輸入檢索詞后搜索引擎給出的對應(yīng)該檢索詞的網(wǎng)址和目錄的點擊次數(shù)或下載次數(shù)的系統(tǒng)是服務(wù)器日志,
4如權(quán)利1所述的方法,記錄對輸入檢索詞后搜索引擎給出的對應(yīng)該檢索詞的網(wǎng)址和目錄的點擊次數(shù)和下載次數(shù)的系統(tǒng)是用戶點擊計數(shù)器統(tǒng)計分析系統(tǒng)軟件,
5如權(quán)利1所述的方法,按照對輸入檢索詞后搜索引擎給出的對應(yīng)該檢索詞的網(wǎng)址和目錄的用戶的點擊次數(shù)對網(wǎng)址和目錄進行排序,
6如權(quán)利1所述的方法,按照對輸入檢索詞后搜索引擎給出的對應(yīng)該檢索詞的網(wǎng)址和目錄的用戶的點擊次數(shù)對網(wǎng)址和目錄進行排序,當對應(yīng)某檢索詞的網(wǎng)址有下載記錄時,下載記錄作為點擊次數(shù)的權(quán)重進行排序,
7如權(quán)利1所述的方法,對現(xiàn)存的搜索引擎的存放檢索詞和網(wǎng)址的數(shù)據(jù)庫進行更新,更新后的數(shù)據(jù)庫中檢索詞、網(wǎng)址和點擊次數(shù)是對應(yīng)的,多個用戶輸入的同一檢索詞對應(yīng)被記錄的輸入該檢索詞后由現(xiàn)存的搜索引擎搜索到的網(wǎng)址,形成檢索詞和網(wǎng)址的關(guān)系,該網(wǎng)址對應(yīng)用戶輸入該檢索詞后由現(xiàn)存的搜索引擎搜索到的網(wǎng)址的點擊次數(shù),形成檢索詞和網(wǎng)址和點擊率的關(guān)系,
8如權(quán)利1所述的方法,對現(xiàn)存的搜索引擎的存放檢索詞和文獻目錄的數(shù)據(jù)庫進行更新,更新后的數(shù)據(jù)庫中檢索詞、目錄和點擊次數(shù)是對應(yīng)的,多個用戶輸入的同一檢索詞對應(yīng)被記錄的輸入該檢索詞后由搜索引擎搜索到的目錄,形成檢索詞和目錄的關(guān)系,該目錄對應(yīng)用戶輸入該檢索詞后目錄的點擊次數(shù),形成檢索詞和目錄和點擊率的關(guān)系,
9如權(quán)利1所述的方法,對現(xiàn)存的搜索引擎的存放檢索詞和網(wǎng)址的數(shù)據(jù)庫進行更新,更新后的數(shù)據(jù)結(jié)構(gòu)的主元是網(wǎng)址,對應(yīng)的關(guān)系是檢索詞和點擊次數(shù),
10如權(quán)利1所述的方法,對現(xiàn)存的搜索引擎的存放檢索詞和網(wǎng)址的數(shù)據(jù)庫進行更新,更新后的數(shù)據(jù)結(jié)構(gòu)的主元是檢索詞,對應(yīng)的關(guān)系是網(wǎng)址和點擊次數(shù),
11如權(quán)利1所述的方法,對現(xiàn)存的計算機文獻檢索系統(tǒng)中的存放檢索詞或目錄的數(shù)據(jù)庫進行更新,更新后的數(shù)據(jù)結(jié)構(gòu)的主元是目錄,對應(yīng)的關(guān)系是檢索詞和點擊次數(shù),
12如權(quán)利1所述的方法,對現(xiàn)存的計算機文獻檢索系統(tǒng)中的存放檢索詞或目錄的數(shù)據(jù)庫進行更新,更新后的數(shù)據(jù)結(jié)構(gòu)的主元是檢索詞,對應(yīng)的關(guān)系是目錄和點擊次數(shù),
13如權(quán)利8所述的方法,對文獻目錄的數(shù)據(jù)庫進行更新,文獻目錄包括專利文獻檢索系統(tǒng)、國家標準檢索系統(tǒng)、圖書檢索系統(tǒng),但不對這些檢索系統(tǒng)本身提出權(quán)利要求。
14如權(quán)利7所述的方法,更新后的數(shù)據(jù)庫中檢索詞、網(wǎng)址和點擊次數(shù)被編號,每一個檢索詞的編號都是唯一的,每一個網(wǎng)址的編號都是唯一的。
15如權(quán)利8所述的方法,更新后的數(shù)據(jù)庫中檢索詞、目錄和點擊次數(shù)被編號,每一個檢索詞的編號都是唯一的,每一個目錄的編號都是唯一的。
16如權(quán)利1所述的方法,網(wǎng)址是IP地址或ARP轉(zhuǎn)換的地址。發(fā)明2權(quán)力要求書
17一種與文本內(nèi)容匹配的基于檢索詞的知識庫的建立和應(yīng)用的方法,其特征在于,對實詞按照內(nèi)容的關(guān)聯(lián)性建立聯(lián)系,對每一個詞匯進行唯一的編號,按照數(shù)據(jù)庫格式和語言將實詞及其關(guān)聯(lián)性關(guān)系進行存儲和管理,成為知識庫,嵌入搜索引擎,當用戶輸入檢索詞后,搜索引擎首先將該檢索詞在知識庫元組中搜索,如果搜索到該檢索詞,則知識庫給出與檢索詞對應(yīng)的一組關(guān)聯(lián)詞,再將檢索詞與關(guān)聯(lián)詞都輸入搜索引擎進行搜索;知識庫給出的檢索詞及與之對應(yīng)的關(guān)聯(lián)詞,可以與用戶交互,由用戶選擇其中的詞匯,也可以不與用戶交互;如果在知識庫中沒有搜索到該檢索詞,則搜索引擎將該檢索詞進行搜索。
18如權(quán)利17所述的方法,對自然語言的實詞按照內(nèi)容的關(guān)聯(lián)性建立聯(lián)系,分為6級(1)第一上屬關(guān)系,(2)第二上屬關(guān)系,(3)同義詞關(guān)系,(4)相關(guān)關(guān)系(因果關(guān)系、原料-產(chǎn)品關(guān)系、服務(wù)-被服務(wù)關(guān)系),(5)第一下屬關(guān)系,(6)第二下屬關(guān)系。
19如權(quán)利18所述的方法,知識庫的格式和語言是數(shù)據(jù)庫的,檢索詞與關(guān)聯(lián)性的詞匯構(gòu)成數(shù)據(jù)庫的對應(yīng)的關(guān)系。
20如權(quán)利18所述的方法,知識庫的格式和語言是數(shù)據(jù)庫的,其主元是檢索詞。
21如權(quán)利17所述的方法,檢索詞及其關(guān)系可以增設(shè)用相關(guān)度衡量的功能,相關(guān)度為可以轉(zhuǎn)化為0~1之間的數(shù)值,該相關(guān)度可以作為該組詞的各個詞匯對應(yīng)搜索結(jié)果(即不同詞匯對應(yīng)的網(wǎng)址或目錄序列)排序的權(quán)值。
22如權(quán)利21所述的方法,相關(guān)度可以被用戶所交互,按照用戶對關(guān)聯(lián)詞的點擊率折算成權(quán)值進行修改。發(fā)明3權(quán)利要求書
23一種用搜索引擎檢出文獻目錄的方法,其特征在于搜索引擎系統(tǒng)內(nèi)建立并使用文獻目錄數(shù)據(jù)庫和文獻目錄檢索系統(tǒng),通過與用戶交互由用戶決定是否需要專利、標準、圖書館文獻目錄,哪一個圖書館的目錄,當用戶輸入檢索詞時,增設(shè)的知識庫將給出與檢索詞意義相關(guān)的一組詞,即將一個檢索詞變成檢索詞組,轉(zhuǎn)變方法方法見發(fā)明2,檢索詞組進入文獻目錄檢索系統(tǒng)后檢索系統(tǒng)通過掃描文獻目錄的類別的名稱的詞匯或摘要與檢索詞組的匹配程度(頻率和概率),確定目錄的類別,再根據(jù)目錄類別對應(yīng)的文獻目錄的號碼,檢出文獻目錄,該目錄以被用戶點擊的記錄的大小作為排序的依據(jù)。
全文摘要
本發(fā)明由3項子發(fā)明構(gòu)成,涉及到計算機網(wǎng)絡(luò)技術(shù)中對具有自然語言特征的文本和文獻目錄的搜索方法,特別涉及到搜索引擎的智能化搜索方法。發(fā)明1是按照用戶點擊次數(shù)對網(wǎng)頁及網(wǎng)站地址和文獻目錄進行排序的方法,通過服務(wù)器日志或計數(shù)器統(tǒng)計用戶輸入檢索詞后用戶對對應(yīng)檢索詞的網(wǎng)址和目錄的點擊率,按擊率大小對網(wǎng)址和目錄排序。發(fā)明2是與文本內(nèi)容匹配的基于檢索詞的知識庫的建立和應(yīng)用的方法,它按照建立數(shù)據(jù)庫的方法把實詞的關(guān)聯(lián)詞集合起來,使得用戶輸入一個檢索詞時系統(tǒng)給出其關(guān)聯(lián)詞。發(fā)明3是搜索引擎檢出文獻目錄的方法,它使得搜索引擎不只能搜索文本的地址,還能搜索文獻目錄。
文檔編號G06F17/30GK1389811SQ0210048
公開日2003年1月8日 申請日期2002年2月6日 優(yōu)先權(quán)日2002年2月6日
發(fā)明者韓立巖, 王強, 張寅生, 周密 申請人:北京造極人工智能技術(shù)有限公司