專利名稱:判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別是中英文Web搜索引擎系統(tǒng)的信息檢索技術(shù)。
為了提高搜索引擎的服務(wù)質(zhì)量,通常搜索引擎系統(tǒng)在輸出結(jié)果時(shí)都要考慮查詢項(xiàng)所包含的關(guān)鍵字(詞)在被檢索網(wǎng)頁(yè)中的位置相關(guān)性。例如,如果判斷出這些關(guān)鍵字(詞)在網(wǎng)頁(yè)中是連在一起的,即網(wǎng)頁(yè)中包含與查詢項(xiàng)關(guān)鍵字(詞)排列順序相同的信息,則在查詢結(jié)果輸出時(shí)把這樣的網(wǎng)頁(yè)放在前面;有的搜索引擎系統(tǒng)則更干脆地只輸出完全匹配用戶查詢項(xiàng)的網(wǎng)頁(yè)。為了判斷這些關(guān)鍵字(詞)在網(wǎng)頁(yè)中的位置是否連在一起,通常有兩種辦法1、完全字符串匹配;2、網(wǎng)頁(yè)分析時(shí)記錄下各個(gè)關(guān)鍵字(詞)在網(wǎng)頁(yè)中出現(xiàn)的位置,然后根據(jù)位置信息判斷位置相關(guān)性。
第一種方法簡(jiǎn)單,但需要保存整個(gè)網(wǎng)頁(yè)內(nèi)容。這不但會(huì)浪費(fèi)太多的存儲(chǔ)空間,且效率太低,由于WWW上存放了超過(guò)10億個(gè)網(wǎng)頁(yè),若對(duì)這近10億個(gè)網(wǎng)頁(yè)都進(jìn)行查詢項(xiàng)字符串匹配,則查詢速度會(huì)慢得讓用戶無(wú)法忍受。而目前公開(kāi)了查詢項(xiàng)位置相關(guān)性分析技術(shù)的搜索引擎系統(tǒng)是美國(guó)的Google系統(tǒng)(參見(jiàn)S.Brin和L.Page所發(fā)表的論文The Anatomy of a Large-Scale Hypertextual Web Search Engine,In proceedings of 7th World Wide Web Conference,1998)。Google維護(hù)了世界上最大的Web信息數(shù)據(jù)庫(kù),目前也是世界上最知名的搜索引擎之一。Google為了判斷查詢項(xiàng)中各個(gè)關(guān)鍵字(詞)之間的位置相關(guān)性采用了第二種方法。
Google系統(tǒng)由網(wǎng)頁(yè)搜集器、索引器以及檢索器3部分組成。搜集器負(fù)責(zé)搜集網(wǎng)頁(yè)并對(duì)之進(jìn)行分析處理。在分析一個(gè)網(wǎng)頁(yè)時(shí),需要記錄有哪些關(guān)鍵字(詞)在文章中出現(xiàn),這些字(詞)在網(wǎng)頁(yè)中出現(xiàn)了多少次,以及每次出現(xiàn)時(shí)該字(詞)在文章中的位置。這樣就得到了如圖1所示的前向索引表。索引器根據(jù)前向索引表又可以生成倒排索引表,如圖2所示。當(dāng)用戶提交一個(gè)查詢項(xiàng)時(shí),Google的檢索器首先把該查詢項(xiàng)分解為若干個(gè)關(guān)鍵字或詞(除非該查詢項(xiàng)本身就是一個(gè)關(guān)鍵詞),并且根據(jù)倒排索引表找出包含了所有這些關(guān)鍵字或詞的網(wǎng)頁(yè);然后計(jì)算這些網(wǎng)頁(yè)的權(quán)值,并根據(jù)這些權(quán)值進(jìn)行排序輸出。在計(jì)算權(quán)值時(shí),也要根據(jù)倒排索引表中記錄的各個(gè)關(guān)鍵字(詞)在網(wǎng)頁(yè)中的位置來(lái)計(jì)算其位置相關(guān)性,相關(guān)性越高,附加權(quán)值也就越高,相應(yīng)的網(wǎng)頁(yè)排在前面的可能性也就越大。
而Google所采用的第二種方法,也存在空間復(fù)雜度和時(shí)間復(fù)雜度太高的缺點(diǎn)。首先,在該方法下,需要記錄每個(gè)關(guān)鍵字在網(wǎng)頁(yè)中出現(xiàn)的每個(gè)位置,空間復(fù)雜度很高;其次,檢索器在依據(jù)這些關(guān)鍵字在網(wǎng)頁(yè)中的位置判斷查詢項(xiàng)中各個(gè)關(guān)鍵字(詞)的位置是否挨在一起時(shí),需要進(jìn)行大量的比較操作,時(shí)間復(fù)雜度也很高,會(huì)影響系統(tǒng)性能。事實(shí)上,Google為了降低空間復(fù)雜度和時(shí)間復(fù)雜度,它對(duì)記錄的位置信息進(jìn)行了限制,即它只考慮了每篇網(wǎng)頁(yè)的前4K個(gè)關(guān)鍵字(詞)的位置信息。即使是這樣處理后,它的空間復(fù)雜度和時(shí)間復(fù)雜度仍然很高,且?guī)?lái)另外的缺點(diǎn),即無(wú)法判斷網(wǎng)頁(yè)中第4K個(gè)關(guān)鍵字(詞)之后出現(xiàn)的關(guān)鍵字(詞)的位置相關(guān)性,這將影響檢索質(zhì)量。我們所要解決的問(wèn)題就是在對(duì)判斷位置相關(guān)性的準(zhǔn)確率影響不大的基礎(chǔ)上,存儲(chǔ)盡可能少的信息以降低空間復(fù)雜度,同時(shí)這些信息又能夠有利于在極短的時(shí)間內(nèi)對(duì)位置相關(guān)性做出判斷,即具有較低的時(shí)間復(fù)雜度。
為了避免Google系統(tǒng)為判斷位置相關(guān)性所導(dǎo)致的較大的時(shí)間復(fù)雜度和空間復(fù)雜度,我們?cè)O(shè)計(jì)了另外一種判斷一組查詢關(guān)鍵字(詞)在網(wǎng)頁(yè)中位置相關(guān)性的方法。
本發(fā)明的內(nèi)容與技術(shù)方案如下在搜索引擎系統(tǒng)分析網(wǎng)頁(yè)時(shí),首先要提取關(guān)鍵詞和關(guān)鍵字。在我們的方法中,不再記錄這些高頻字(詞)在網(wǎng)頁(yè)中每次出現(xiàn)的位置,代替地,我們?yōu)槊總€(gè)關(guān)鍵字(詞)只確定出其前面一個(gè)相鄰字(或詞)和后面一個(gè)相鄰字(或詞)。當(dāng)用戶提交查詢請(qǐng)求時(shí),檢索器可以根據(jù)搜集網(wǎng)頁(yè)時(shí)記錄的位置信息判斷在用戶查詢?cè)~中相鄰的字(詞)在網(wǎng)頁(yè)中是否也相鄰。如果相鄰,則將網(wǎng)頁(yè)的權(quán)值適當(dāng)提高。這樣在查詢結(jié)果中,保持用戶查詢?cè)~中相鄰關(guān)系的網(wǎng)頁(yè)將會(huì)排在前面。
確定一個(gè)網(wǎng)頁(yè)中某關(guān)鍵字(詞)的前向相鄰字(詞)和后向相鄰字(詞)的主要依據(jù)是頻率。雖然位于一個(gè)關(guān)鍵字或詞之前且與該關(guān)鍵字(詞)相鄰的關(guān)鍵字詞很多,但通常有一個(gè)與該關(guān)鍵字(詞)相鄰次數(shù)最多,我們把它作為關(guān)鍵字(詞)的前向相鄰字(詞)。類似地,我們可以計(jì)算出一個(gè)關(guān)鍵字(詞)的后向相鄰字(詞)。
具體地確定某關(guān)鍵字(詞)的前向相鄰字(詞)和后向相鄰字(詞)的步驟是搜集器首先從頭至尾地掃描網(wǎng)頁(yè),對(duì)出現(xiàn)的句子做詞語(yǔ)切分處理,得到一組在網(wǎng)頁(yè)中出現(xiàn)的關(guān)鍵字/詞,對(duì)每一個(gè)進(jìn)行編號(hào);記錄每個(gè)字/詞在網(wǎng)頁(yè)中首次出現(xiàn)的次序,并且記錄相鄰的字/詞之間的位置相鄰信息,即前向相鄰字(詞)以及后向相鄰字(詞)的編號(hào);搜集器的掃描過(guò)程結(jié)束時(shí),對(duì)每個(gè)關(guān)鍵字/詞,根據(jù)記錄下的其前/后向相鄰字/詞以及它們各自出現(xiàn)了多少次,以出現(xiàn)次數(shù)最多的前/后向相鄰字/詞作為其最終的前/后向相鄰字/詞。搜集器以最終的前/后向相鄰字/詞的信息來(lái)構(gòu)造帶位置相關(guān)性信息的前向索引表(圖3)。索引器根據(jù)帶位置相關(guān)性信息的前向索引表生成帶位置相關(guān)性信息的倒排索引表(圖4)。在今后檢索時(shí),檢索器就通過(guò)索引器生成的帶位置相關(guān)性信息的倒排索引表中某關(guān)鍵字(詞)的前/后向相鄰字/詞信息判斷所查詢關(guān)鍵字(詞)在網(wǎng)頁(yè)中的位置相關(guān)性。
說(shuō)明書(shū)
圖1、Google搜索引擎系統(tǒng)的前向索引表圖2、Google搜索引擎系統(tǒng)的倒排索引表在圖1和圖2中docid是網(wǎng)頁(yè)標(biāo)識(shí)符;wordid是關(guān)鍵字(詞)的標(biāo)識(shí)符;hit是wordid對(duì)應(yīng)的關(guān)鍵字(詞)在docid對(duì)應(yīng)的網(wǎng)頁(yè)中的位置(占2個(gè)字節(jié));nbits是wordid對(duì)應(yīng)的關(guān)鍵字(詞)在docid對(duì)應(yīng)的網(wǎng)頁(yè)中出現(xiàn)的次數(shù)(即用來(lái)表明有多少個(gè)hit);ndocs是包含了wordid對(duì)應(yīng)的關(guān)鍵字(詞)的網(wǎng)頁(yè)數(shù)。
圖3、帶位置相關(guān)性的前向索引表圖4、帶位置相關(guān)性的倒排索引表在圖3和圖4中,docid代表相應(yīng)的網(wǎng)頁(yè)編號(hào),wordid代表某個(gè)關(guān)鍵字(詞)在詞典中的編號(hào),my_no表示一個(gè)關(guān)鍵字(詞)(其在詞典中的編號(hào)為wordid)在網(wǎng)頁(yè)中的編號(hào);prev_no表示該關(guān)鍵字(詞)前向相鄰字(詞)在網(wǎng)頁(yè)中的編號(hào),next_no表示該關(guān)鍵字(詞)后向相鄰字(詞)在網(wǎng)頁(yè)中的編號(hào)。
圖5應(yīng)用本方法的通用Web搜索引擎系統(tǒng)結(jié)構(gòu)中第(1)個(gè)模塊表示網(wǎng)頁(yè)的搜集器,第(2)個(gè)模塊表示原始數(shù)據(jù)庫(kù),第(3)個(gè)模塊表示索引器,第(4)個(gè)模塊表示索引數(shù)據(jù)庫(kù),第(5)個(gè)模塊表示檢索器,第(6)個(gè)模塊表示用戶接口。
圖6、帶位置相關(guān)性的前向索引表示例下面結(jié)合實(shí)施例進(jìn)行進(jìn)一步地說(shuō)明。
假設(shè)下面一段文字是某個(gè)網(wǎng)頁(yè)的內(nèi)容。
“天網(wǎng)”搜索引擎新課題組成員領(lǐng)域負(fù)責(zé)人李曉明項(xiàng)目負(fù)責(zé)人李曉明王建勇項(xiàng)目開(kāi)發(fā)人員單松巍謝正茂趙江華閆宏飛陳 華羅 昶郭 琳龔筆宏搜集器(圖5中的第1個(gè)模塊)的切詞處理后得到一個(gè)關(guān)鍵字(詞)序列{天網(wǎng)、搜索引擎、新、課題、組、成員、領(lǐng)域、負(fù)責(zé)、人、李、曉、明、項(xiàng)目、負(fù)責(zé)、人、李、曉、明、王、建、勇、項(xiàng)目、開(kāi)發(fā)、人、員、單、松、巍、謝、正、茂、趙、江、華、閆、宏、飛、陳、華、羅、昶、郭、琳、龔、筆、宏},其中不同的關(guān)鍵字(詞)及其編號(hào)序列為{天網(wǎng)(1)、搜索引擎(2)、新(3)、課題(4)、組(5)、成員(6)、領(lǐng)域(7)、負(fù)責(zé)(8)、人(9)、李(10)、曉(11)、明(12)、項(xiàng)目(13)、王(14)、建(15)、勇(16)、開(kāi)發(fā)(17)、員(18)、單(19)、松(20)、巍(21)、謝(22)、正(23)、茂(24)、趙(25)、江(26)、華(27)、閆(28)、宏(29)、飛(30)、陳(31)、羅(32)、昶(33)、郭(34)、琳(35)、龔(36)、筆(37)}。進(jìn)而搜集器可以依據(jù)上述信息構(gòu)造出該網(wǎng)頁(yè)的前向索引表(圖6),并將之存于圖5中的第2個(gè)模塊,即原始數(shù)據(jù)庫(kù)中。有了如圖6所示的前向索引表后,索引器(圖5的第3個(gè)模塊)可以很簡(jiǎn)單地生成倒排索引表,并存放于圖5的第4模塊,即索引數(shù)據(jù)庫(kù)中。當(dāng)用戶提交一個(gè)查詢請(qǐng)求后,用戶接口(圖5的第6個(gè)模塊)截獲該請(qǐng)求,并轉(zhuǎn)發(fā)給檢索器(圖5中的第5模塊),由它根據(jù)位置相關(guān)性信息判斷該查詢項(xiàng)所分解的若干個(gè)關(guān)鍵字(詞)在網(wǎng)頁(yè)中的位置是否相鄰,繼而根據(jù)位置相關(guān)程度來(lái)影響該網(wǎng)頁(yè)在輸出結(jié)果中的排序。
下面舉幾個(gè)例子來(lái)說(shuō)明檢索器是如何判斷位置相關(guān)性的。若用戶查“陳華”,由于“陳”字的后向相鄰字的編號(hào)為27可以判斷“陳“與“華”是相鄰的(“華”的編號(hào)為27);當(dāng)查“龔筆宏”時(shí),可知“筆”字的前向相鄰字編號(hào)為36(即“龔”的編號(hào)),后向相鄰字的編號(hào)為29(即“宏”的編號(hào)),可以推斷出“龔”“筆”“宏”3個(gè)字是完全位置相關(guān)的。
本發(fā)明的優(yōu)點(diǎn)與積極效果在于同現(xiàn)有的判斷位置相關(guān)性的方法相比,我們所提出的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法具有如下優(yōu)點(diǎn)與積極效果1.有較低的空間復(fù)雜度,能夠節(jié)省存儲(chǔ)空間。在該方法下,針對(duì)某個(gè)網(wǎng)頁(yè)的每個(gè)被提取的關(guān)鍵字(詞),只需記錄3個(gè)與位置相關(guān)性有關(guān)的信息。而在Google的方法中,它需要記錄一個(gè)關(guān)鍵字(詞)在網(wǎng)頁(yè)中所有出現(xiàn)的位置。通常來(lái)講被選出的關(guān)鍵字(詞)在網(wǎng)頁(yè)中可能出現(xiàn)的頻率很高,有的甚至出現(xiàn)上百次或上千次,而為記錄一個(gè)關(guān)鍵字(詞)的每一次出現(xiàn)的位置需要大于13bits的存儲(chǔ)(Google用了16bits),可見(jiàn)Google的方法所需的空間開(kāi)銷要遠(yuǎn)大于本方法。
2.具有較低的時(shí)間復(fù)雜度,能夠提高查詢響應(yīng)速度。在本方法中,可以根據(jù)網(wǎng)頁(yè)中出現(xiàn)的每個(gè)關(guān)鍵字(詞)的前向相鄰字(詞)和后向相鄰字(詞)非常快捷地判斷兩個(gè)查詢關(guān)鍵字(詞)是否相鄰。而在Google的方法下,需要取出相應(yīng)的兩個(gè)查詢關(guān)鍵字(詞)在網(wǎng)頁(yè)中的所有位置信息,再根據(jù)這些位置信息判斷位置相關(guān)性,需要大量的比較操作,會(huì)影響查詢速度。
3.易于處理少數(shù)高頻字(詞)所引起的大索引問(wèn)題。不管是中文還是英文網(wǎng)頁(yè)中都包含一些高頻字(或詞),如“的”、“中”等,這些高頻字(詞)在網(wǎng)頁(yè)中出現(xiàn)的幾率非常大。據(jù)統(tǒng)計(jì),每300萬(wàn)個(gè)網(wǎng)頁(yè)中有多于200萬(wàn)個(gè)網(wǎng)頁(yè)包含了“的”字。換句話講,在圖2中“的”字對(duì)應(yīng)的索引項(xiàng)的數(shù)目大于200萬(wàn)(即其ndocs>200萬(wàn)),一旦用戶查詢一個(gè)這樣的關(guān)鍵字(詞),所消耗的時(shí)間將會(huì)感到無(wú)法忍受。一種解決辦法是把這些少量的關(guān)鍵字(詞)配置為忽略字(詞)這樣做有其合理的一方面,因?yàn)橛脩艉苌賳为?dú)查詢這類高頻字(詞)。但簡(jiǎn)單地這樣處理,則會(huì)引起新的問(wèn)題。比如,如果用戶查“金大中”,由于“中”字被忽略,搜索引擎會(huì)把所有出現(xiàn)“金大”的網(wǎng)頁(yè)返回,而且會(huì)造成其它的人名如“金大洋”排在輸出結(jié)果的前面,使查詢的準(zhǔn)確度大大降低。然而我們可以利用位置相關(guān)性很好地解決這一問(wèn)題即雖然我們忽略了“中”字,但我們可以根據(jù)“大”字的后向相鄰字(詞)Qafter來(lái)判斷出“大”字后面是“中”字,進(jìn)而提高網(wǎng)頁(yè)權(quán)值,使該網(wǎng)頁(yè)位置提前,提高查詢準(zhǔn)確度。而對(duì)于Google的方法若把“中”字等高頻字配置為忽略字,則由于沒(méi)有“中”字的位置信息,將無(wú)法判斷“金大中”的完全位置相關(guān)性,其查詢準(zhǔn)確度將會(huì)降低。
4.準(zhǔn)確率較高。本方法是依據(jù)統(tǒng)計(jì)規(guī)律分析得出的,能夠把絕大多數(shù)的查詢字(詞)的位置相關(guān)性表示出來(lái)。而Google為了節(jié)省空間,只記錄了一個(gè)網(wǎng)頁(yè)中前4096個(gè)關(guān)鍵字(詞)的位置信息,因而當(dāng)用戶查詢的關(guān)鍵字(詞)落在網(wǎng)頁(yè)的前4096個(gè)關(guān)鍵字(詞)之后時(shí),將無(wú)法準(zhǔn)確的判斷位置相關(guān)性。
為了測(cè)試我們的方法的效果,我們把部分驗(yàn)證報(bào)告(取自2000年12月18日北京大學(xué)“天網(wǎng)”搜索引擎的測(cè)試結(jié)果)列于表1中。可以看出,查“金大中”時(shí),共檢索出106607篇文章,其中前1777篇文章為位置完全相關(guān)的文章;查“莫斯科郊外的晚上”,共查出66篇文章,其中前57篇為位置完全相關(guān)的文章;查“曙光1000”,共返回248篇文章,其中前32篇為位置完全相關(guān)的文章;而查“五道口”,共查出4075篇文章,其中只有前758篇是位置完全相關(guān)的文章。我們這里舉的查詢項(xiàng)例子分別為人名、歌曲名、產(chǎn)品名以及地名,用戶總是希望這些查詢項(xiàng)在網(wǎng)頁(yè)中是連在一起出現(xiàn)的,否則將毫無(wú)意義。利用我們的方法能夠把位置完全相關(guān)的文章找出來(lái),并放于輸出結(jié)果的最前面,提高了查詢結(jié)果輸出的合理性。
表1、位置相關(guān)性的部分測(cè)試結(jié)果
權(quán)利要求
1.一種判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,應(yīng)用該方法的相應(yīng)的搜索引擎系統(tǒng)主要包括網(wǎng)頁(yè)搜集器、索引器以及檢索器3個(gè)部分,其特征在于為每個(gè)關(guān)鍵字或關(guān)鍵詞計(jì)算出其前面一個(gè)相鄰字/詞和后面一個(gè)相鄰字/詞;當(dāng)用戶提交查詢請(qǐng)求時(shí),檢索器判斷在用戶查詢關(guān)鍵字/詞中相鄰的字/詞在網(wǎng)頁(yè)中是否也相鄰;如果完全相鄰,則將網(wǎng)頁(yè)的權(quán)值適當(dāng)提高,根據(jù)權(quán)值輸出查詢結(jié)果。
2.根據(jù)權(quán)利要求1所述的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于依據(jù)頻率確定關(guān)鍵字或關(guān)鍵詞的前向相鄰字/詞和后向相鄰字/詞。
3.根據(jù)權(quán)利要求1或2所述的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于搜集器首先從頭至尾地掃描網(wǎng)頁(yè),對(duì)出現(xiàn)的句子做詞語(yǔ)切分處理,得到一組在網(wǎng)頁(yè)中出現(xiàn)的關(guān)鍵字/詞,記錄每個(gè)字/詞在網(wǎng)頁(yè)中首次出現(xiàn)的次序,并且記錄相鄰的字/詞之間的位置相鄰信息。
4.根據(jù)權(quán)利要求3所述的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于搜集器的掃描過(guò)程結(jié)束時(shí),對(duì)每個(gè)關(guān)鍵字/詞,根據(jù)記錄下的其前/后向相鄰字/詞以及它們各自出現(xiàn)了多少次,以出現(xiàn)次數(shù)最多的前/后向相鄰字/詞作為其最終的前/后向相鄰字/詞。
5.根據(jù)權(quán)利要求4所述的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于搜集器以最終的前/后向相鄰字/詞的信息來(lái)構(gòu)造帶位置相關(guān)性信息的前向索引表。
6.根據(jù)權(quán)利要求5所述的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于索引器根據(jù)帶位置相關(guān)性信息的前向索引表生成帶位置相關(guān)性信息的倒排索引表。
7.根據(jù)權(quán)利要求6所述的判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于當(dāng)用戶提交一個(gè)查詢項(xiàng)時(shí),檢索器首先把該查詢項(xiàng)分解為若干個(gè)關(guān)鍵字或詞,然后根據(jù)索引器生成的帶位置相關(guān)性信息的倒排索引表找出包含了所有這些關(guān)鍵字/詞的網(wǎng)頁(yè),計(jì)算這些網(wǎng)頁(yè)的權(quán)值;并且根據(jù)帶位置相關(guān)性信息的倒排索引表中的位置相關(guān)性信息判斷這些查詢字/詞在這些網(wǎng)頁(yè)中是否位置完全相鄰,若相鄰則把相應(yīng)網(wǎng)頁(yè)的權(quán)值提高,最后把查詢結(jié)果排序輸出。
全文摘要
一種判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁(yè)中位置相關(guān)性的方法,其特征在于:搜索引擎系統(tǒng)為每個(gè)關(guān)鍵字或詞計(jì)算出其在網(wǎng)頁(yè)中的前向相鄰字/詞和后向相鄰字/詞;依據(jù)上述信息判斷在用戶查詢項(xiàng)中相鄰的字/詞是否在網(wǎng)頁(yè)中也相鄰;如果完全相鄰,則將網(wǎng)頁(yè)的權(quán)值適當(dāng)提高,根據(jù)權(quán)值輸出查詢結(jié)果。該方法具有較低的時(shí)間、空間復(fù)雜度,易于處理少數(shù)高頻字/詞所引起的大索引問(wèn)題,并具有較高的查詢準(zhǔn)確率。
文檔編號(hào)G06F17/30GK1306258SQ0110913
公開(kāi)日2001年8月1日 申請(qǐng)日期2001年3月9日 優(yōu)先權(quán)日2001年3月9日
發(fā)明者王建勇, 李曉明, 謝正茂, 單松巍, 趙江華 申請(qǐng)人:北京大學(xué)