專利名稱:分布式搜索方法和系統(tǒng)的制作方法
技術(shù)領域:
本發(fā)明涉及信息檢索領域,更具體地,涉及一種分布式搜索方法和系統(tǒng)。
背景技術(shù):
近年來,隨著社會性網(wǎng)絡服務(Social Networking Services,SNS)、博客等網(wǎng)站的盛行,大眾對此類網(wǎng)站信息越來越感興趣,而同時,網(wǎng)站出于宣傳和盈利的目的,也非常愿意將信息及時地提供出去。這樣就在搜索服務提供商(例如,googlhbaidu等)和SNS、 博客類網(wǎng)站之間形成了一種可信的合作關(guān)系,共同為用戶提供及時的有價值的信息。但是,由于目前的搜索技術(shù)多是利用爬蟲將互聯(lián)網(wǎng)上的信息抓取之后,在搜索平臺上進行信息分類并建立關(guān)系索引,最后入數(shù)據(jù)庫供使用者查詢搜索,所以這種方法存在如下幾個問題(1)在信息抓取過程中,諸如信息分類、建立索引、入庫等主要工作均在搜索平臺上進行,極大地影響了搜索引擎的效率;(2)在信息抓取過程中,爬蟲需要將所抓取的信息送回搜索引擎,以便引擎對信息進行分類、甄別、保留有用信息以及剔除無用信息。在這個過程中,需要進行全文搜索,同樣地影響到搜索引擎的效率。
發(fā)明內(nèi)容
本發(fā)明要解決的一個技術(shù)問題是提供一種分布式搜索方法,能夠顯著提高搜索引擎的效率。本發(fā)明提供了一種分布式搜索方法,包括網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的通用資源定位器(Universal Resource Locator, URL)的索引;將索引返回給搜索平臺。根據(jù)本發(fā)明方法的一個實施例,該方法還包括網(wǎng)站定期或不定期地從搜索平臺獲取關(guān)鍵詞。根據(jù)本發(fā)明方法的另一實施例,該方法還包括判斷網(wǎng)站中的內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立索弓I。根據(jù)本發(fā)明方法的又一實施例,該方法還包括搜索平臺利用排序規(guī)則對返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。根據(jù)本發(fā)明方法的再一實施例,通過下述方式將索引返回給搜索平臺爬蟲主動抓取的方式;或網(wǎng)站主動上報的方式。本發(fā)明的分布式搜索方法,由內(nèi)容源來自建索引,這樣一方面將建立索引的工作移至內(nèi)容源,另一方面內(nèi)容源無需再返回內(nèi)容源的完整信息給搜索平臺,只需返回關(guān)鍵詞同內(nèi)容源的URL的索引關(guān)系,從而大大提升了搜索引擎的效率,并減少了對被搜索網(wǎng)站的過度干擾。本發(fā)明要解決的另一技術(shù)問題是提供一種分布式搜索系統(tǒng),能夠顯著提高搜索引擎的效率。
本發(fā)明提供了一種分布式搜索系統(tǒng),包括索引建立裝置,用于建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;索引發(fā)送裝置,與索引建立裝置相連,用于將索引返回給搜
糸卞口 ο根據(jù)本發(fā)明系統(tǒng)的一個實施例,該系統(tǒng)還包括關(guān)鍵詞獲取裝置,與索引建立裝置相連,用于定期或不定期地從搜索平臺獲取關(guān)鍵詞。根據(jù)本發(fā)明系統(tǒng)的另一實施例,該系統(tǒng)還包括判斷裝置,與索引建立裝置相連, 用于判斷內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立索引。根據(jù)本發(fā)明系統(tǒng)的又一實施例,該系統(tǒng)還包括搜索平臺,與索引發(fā)送裝置相連, 用于利用排序規(guī)則對返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。根據(jù)本發(fā)明系統(tǒng)的再一實施例,索引發(fā)送裝置通過下述方式將索引返回給搜索平臺爬蟲主動抓取的方式;或網(wǎng)站主動上報的方式。本發(fā)明的分布式搜索系統(tǒng),由內(nèi)容源來自建索引,這樣一方面將建立索引的工作移至內(nèi)容源,另一方面內(nèi)容源無需再返回內(nèi)容源的完整信息給搜索平臺,只需返回關(guān)鍵詞同內(nèi)容源的URL的索引關(guān)系,從而大大提升了搜索引擎的效率,并減少了對被搜索網(wǎng)站的過度干擾。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分。在附圖中圖1是本發(fā)明方法的第一實施例的流程示意圖。圖2是本發(fā)明方法的第二實施例的流程示意圖。圖3是本發(fā)明方法的第三實施例的流程示意圖。圖4是本發(fā)明方法的第四實施例的流程示意圖。圖5是本發(fā)明方法的第五實施例的流程示意圖。圖6是本發(fā)明方法的第七實施例的流程示意圖。圖7是本發(fā)明系統(tǒng)的第一實施例的結(jié)構(gòu)示意圖。圖8是本發(fā)明系統(tǒng)的第二實施例的結(jié)構(gòu)示意圖。圖9是本發(fā)明系統(tǒng)的第三實施例的結(jié)構(gòu)示意圖。圖10是本發(fā)明系統(tǒng)的第四實施例的結(jié)構(gòu)示意圖。圖11是本發(fā)明系統(tǒng)的第五實施例的結(jié)果示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述,其中說明本發(fā)明的示例性實施例。本發(fā)明的示例性實施例及其說明用于解釋本發(fā)明,但并不構(gòu)成對本發(fā)明的不當限定。為了提高搜索引擎的效率,本發(fā)明針對可信任的網(wǎng)站信息,提出了一種基于內(nèi)容源自建索引的分布式搜索方法和系統(tǒng)。其將建立索引的工作交由可信任的內(nèi)容源,由內(nèi)容源利用從搜索平臺獲取的關(guān)鍵詞建立索引后,把關(guān)鍵詞同內(nèi)容源的URL索引返回給搜索平臺,從而建立了分布式的搜索架構(gòu)。圖1是本發(fā)明方法的第一實施例的流程示意圖。
如圖1所示,該實施例可以包括以下步驟S102,網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引,其中,該關(guān)鍵詞可以來自搜索平臺的關(guān)鍵詞詞庫;S104,將索引返回給搜索平臺??蛇x地,該索引中還可以包括網(wǎng)頁的標題、網(wǎng)頁最后更新的時間、網(wǎng)頁的類型、主要內(nèi)容的長度以及網(wǎng)頁的主要內(nèi)容。該實施例由內(nèi)容源來自建索引,這樣一方面將建立索引的工作移至內(nèi)容源,另一方面內(nèi)容源無需再返回內(nèi)容源的完整信息給搜索平臺,只需返回關(guān)鍵詞同內(nèi)容源的URL的索引關(guān)系,從而大大提升了搜索引擎的效率。另外,傳統(tǒng)意義上的搜索一般是利用爬蟲對被搜索網(wǎng)站內(nèi)容進行全文抓取,而不管所抓取的內(nèi)容是否是搜索平臺所關(guān)心的信息。而本發(fā)明只要求可信任網(wǎng)站根據(jù)協(xié)議要求提供滿足條件的關(guān)鍵詞到內(nèi)容源的URL的索引,只是部分內(nèi)容的有條件訪問,所以可以減少對被搜索網(wǎng)站的過度干擾。圖2是本發(fā)明方法的第二實施例的流程示意圖。如圖2所示,該實施例可以包括以下步驟S202,網(wǎng)站定期或不定期地從搜索平臺獲取關(guān)鍵詞,其中,該網(wǎng)站是可信任的網(wǎng)站,其同搜索平臺建立了互信關(guān)系,該類網(wǎng)站一方面可以被動地接受搜索平臺的搜索請求, 另一方面也可以主動地將相關(guān)信息上傳至搜索平臺;S204,網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;S206,將索引返回給搜索平臺。該實施例可以根據(jù)搜索平臺提供的關(guān)鍵詞來匹配內(nèi)容源,建立關(guān)鍵詞到內(nèi)容源的 URL的索引,從而可以滿足搜索平臺利用可信任網(wǎng)站建立關(guān)鍵詞到內(nèi)容源的索引的需求。圖3是本發(fā)明方法的第三實施例的流程示意圖。如圖3所示,該實施例可以包括以下步驟S302,判斷網(wǎng)站中的內(nèi)容源是否有內(nèi)容更新(增加了新內(nèi)容或刪除了內(nèi)容),如果有,則準備建立索引,例如,可以采用一個散列表存儲一個URL對應的一個網(wǎng)頁內(nèi)容經(jīng)過 MD5算法之后的一個網(wǎng)頁指紋,S卩,<url, md5 (content) >,然后,可以通過對md5 (content) 是否發(fā)生變化來判斷該網(wǎng)頁內(nèi)容是否有改變,如果有改變,則用一個列表保存一組二元序列〈(indexl,lengthl),(index2, length2). . · · >,其中 indexl 為發(fā)生改變的位置,length 為發(fā)生改變的內(nèi)容長度,這樣可以來提取其中更新的內(nèi)容;S304,網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;S306,將索引返回給搜索平臺。該實施例可以在內(nèi)容源有更新時建立索引,從而在很大程度上降低網(wǎng)站的索引工作量。圖4是本發(fā)明方法的第四實施例的流程示意圖。如圖4所示,該實施例可以包括以下步驟S402,網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;S404,將索引返回給搜索平臺;S406,搜索平臺利用排序規(guī)則對返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。其中,排序規(guī)則可以是關(guān)鍵詞在URL中的匹配度。例如,可以通過關(guān)鍵詞在內(nèi)容源中的出現(xiàn)頻率來表示該關(guān)鍵詞在URL中的匹配度。在該實施例中,搜索平臺對返回的索引進行排序后,有效提高了搜索平臺未來檢索的效率。圖5是本發(fā)明方法的第五實施例的流程示意圖。如圖5所示,該實施例可以包括以下步驟S502,網(wǎng)站定期或不定期地從搜索平臺獲取關(guān)鍵詞;S504,判斷網(wǎng)站中的內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立索引;S506,網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;S508,將索引返回給搜索平臺;S510,搜索平臺利用排序規(guī)則對返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。在本發(fā)明方法的第六實施例中,可以通過下述方式將索引返回給搜索平臺爬蟲主動抓取的方式;或網(wǎng)站主動上報的方式。不管采用哪種方式,最終到達搜索平臺的信息均為關(guān)鍵詞到內(nèi)容源URL的索引,而不是具體的內(nèi)容源全文。這樣,返回給搜索平臺的信息無需內(nèi)容源的全文即可滿足檢索的需要。該實施例可以通過多種方式從可信任網(wǎng)站獲取索引,提高了獲取索引的靈活性。圖6是本發(fā)明方法的第七實施例的流程示意圖。如圖6所示,基于內(nèi)容源自建索引的分布式搜索框架主要包括信息分析、建立索引、信息處理和入庫四大部分,以及關(guān)鍵詞詞庫、排序規(guī)則庫和信息庫等三大數(shù)據(jù)庫。內(nèi)容源經(jīng)信息整理和分類等信息分析過程后,利用搜索平臺的關(guān)鍵詞詞庫建立關(guān)鍵詞到內(nèi)容源 URL的索引表,在搜索平臺中,對索引表經(jīng)排序等信息處理后入庫并存儲在信息庫中供用戶檢索使用。接下來,詳細闡述一下各部分的功能(1)信息分析 內(nèi)容源發(fā)現(xiàn)有更新內(nèi)容,分析比對后,提取其中新增的內(nèi)容。(2)建立索引此部分工作在可信任網(wǎng)站內(nèi)進行,可信任網(wǎng)站從搜索平臺獲取關(guān)鍵詞,對信息分析后的內(nèi)容源建立關(guān)鍵詞到內(nèi)容源URL的索引。(3)信息處理搜索平臺獲取可信內(nèi)容源的途徑有兩個一種是利用爬蟲主動去抓取,另一種是可信任網(wǎng)站主動上報給搜索平臺。不管哪種方式,最終到達搜索平臺的信息均為關(guān)鍵詞到內(nèi)容源URL的索引,而不是具體的內(nèi)容源全文。關(guān)鍵詞到內(nèi)容源URL的索引依照關(guān)鍵詞在URL中的匹配度來排序處理。(4)入庫將經(jīng)過排序處理后的索引入信息庫以供檢索使用。該實施例有效地提高了搜索引擎的效率,并減少了對被搜索網(wǎng)站的過度干擾。其中,索引建立的過程在被搜索網(wǎng)站內(nèi)進行,被搜索網(wǎng)站從搜索平臺獲取關(guān)鍵詞,與自身的內(nèi)容源進行匹配處理,形成關(guān)鍵詞到內(nèi)容源URL的索引,并返回給搜索平臺。這樣,返回給搜索平臺的信息無需內(nèi)容源的全文即可滿足檢索的需要。該實施例可以廣泛地應用于對可信任網(wǎng)站的信息搜索系統(tǒng)的建設中。圖7是本發(fā)明系統(tǒng)的第一實施例的結(jié)構(gòu)示意圖。如圖7所示,該實施例的系統(tǒng)包括索弓I建立裝置11,用于建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引,其中,該關(guān)鍵詞可以來自搜索平臺的關(guān)鍵詞詞庫;索引發(fā)送裝置12,與索引建立裝置11相連,用于將索引返回給搜索平臺??蛇x地,該索引中還可以包括網(wǎng)頁的標題、網(wǎng)頁最后更新的時間、網(wǎng)頁的類型、主要內(nèi)容的長度以及網(wǎng)頁的主要內(nèi)容。在該實施例中,內(nèi)容源獲取關(guān)鍵詞,把建立索引的任務在內(nèi)容源側(cè)完成,再把關(guān)鍵詞同內(nèi)容源的鏈接URL關(guān)系返回給搜索平臺,從而實現(xiàn)了分步式的搜索,此訪求可降低搜索引擎及被搜索網(wǎng)站的負荷,提高了搜索效率。此外,該實施例提出的信息獲取方法不是獲取內(nèi)容源的全文,而是獲取關(guān)鍵詞同內(nèi)容源的鏈接URL關(guān)系,并且在搜索平臺中無需再建索引,經(jīng)過簡單信息處理后即可入庫供用戶檢索使用。這樣一方面可以提升搜索引擎的效率,另一方面也避免了對被搜索網(wǎng)站的過度干擾。圖8是本發(fā)明系統(tǒng)的第二實施例的結(jié)構(gòu)示意圖。如圖8所示,與圖7中的實施例相比,該實施例的系統(tǒng)還包括關(guān)鍵詞獲取裝置21,與索引建立裝置11相連,用于定期或不定期地從搜索平臺獲取關(guān)鍵詞。該實施例可以根據(jù)搜索平臺提供的關(guān)鍵詞來匹配內(nèi)容源,建立關(guān)鍵詞到內(nèi)容源的 URL的索引,從而可以滿足搜索平臺利用可信任網(wǎng)站建立關(guān)鍵詞到內(nèi)容源的索引的需求。圖9是本發(fā)明系統(tǒng)的第三實施例的結(jié)構(gòu)示意圖。如圖9所示,與圖7中的實施例相比,該實施例的系統(tǒng)還包括判斷裝置31,與索引建立裝置11相連,用于判斷內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立索引。例如,可以采用一個散列表存儲一個URL對應的一個網(wǎng)頁內(nèi)容經(jīng)過MD5算法之后的一個網(wǎng)頁指紋,S卩,<url, md5 (content) >,然后,可以通過對 md5 (content)是否發(fā)生變化來判斷該網(wǎng)頁內(nèi)容是否有改變,如果有改變,則用一個列表保存一組二元序列〈(indexl,lengthl),(index2,length2) · · · · >,其中 indexl 為發(fā)生改變的位置,length為發(fā)生改變的內(nèi)容長度,這樣可以來提取其中更新的內(nèi)容。該實施例可以在內(nèi)容源有更新時建立索引,從而在很大程度上降低網(wǎng)站的索引工作量。圖10是本發(fā)明系統(tǒng)的第四實施例的結(jié)構(gòu)示意圖。如圖10所示,與圖7中的實施例相比,該實施例的系統(tǒng)還包括搜索平臺41,與索引發(fā)送裝置12相連,用于利用排序規(guī)則對返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。其中,排序規(guī)則可以是關(guān)鍵詞在URL中的匹配度。例如,可以通過關(guān)鍵詞在內(nèi)容源中的出現(xiàn)頻率來表示該關(guān)鍵詞在URL中的匹配度。該實施例對返回的索引進行排序后,有效提高了搜索平臺未來檢索的效率。圖11是本發(fā)明系統(tǒng)的第五實施例的結(jié)果示意圖。如圖11所示,該實施例的系統(tǒng)包括索引建立裝置11,用于建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;
索引發(fā)送裝置12,與索引建立裝置11相連,用于將索引返回給搜索平臺。關(guān)鍵詞獲取裝置21,與索引建立裝置11相連,用于定期或不定期地從搜索平臺獲取關(guān)鍵詞。判斷裝置31,與索引建立裝置11相連,用于判斷內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立索引。搜索平臺41,與索引發(fā)送裝置12相連,用于利用排序規(guī)則對返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。在本發(fā)明系統(tǒng)的第六實施例中,索引發(fā)送裝置可以通過下述方式將索引返回給搜索平臺爬蟲主動抓取的方式;或網(wǎng)站主動上報的方式。下面以中國電信內(nèi)容監(jiān)管系統(tǒng)為例進一步詳細描述本發(fā)明。中國電信內(nèi)容監(jiān)管系統(tǒng)是對中國電信眾多的門戶網(wǎng)站和SNS、微博等用戶原創(chuàng)內(nèi)容類網(wǎng)站進行信息監(jiān)管的系統(tǒng)。系統(tǒng)需分析相關(guān)網(wǎng)站的內(nèi)容,并給出相應管制指令。在內(nèi)容監(jiān)管系統(tǒng)的關(guān)鍵詞詞庫中,保存了大量的不良信息關(guān)鍵詞以及輿情相關(guān)詞,各門戶網(wǎng)站或用戶原創(chuàng)內(nèi)容類網(wǎng)站定期或不定期地獲取這些關(guān)鍵詞,來匹配自身的內(nèi)容源。每當本網(wǎng)站有內(nèi)容更新時,即進行匹配操作。當存在匹配內(nèi)容時,被監(jiān)管網(wǎng)站就定時或不定時地把關(guān)鍵詞與相應內(nèi)容URL返回給內(nèi)容監(jiān)管系統(tǒng),內(nèi)容監(jiān)管系統(tǒng)將根據(jù)內(nèi)容源的危害程度下達不同的監(jiān)管指令。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領域的普通技術(shù)人員而言是顯而易見的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應用,并且使本領域的普通技術(shù)人員能夠理解本發(fā)明從而設計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種分布式搜索方法,其特征在于,所述方法包括網(wǎng)站建立關(guān)鍵詞到包含所述關(guān)鍵詞的內(nèi)容源的URL的索引; 將所述索引返回給搜索平臺。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括 所述網(wǎng)站定期或不定期地從所述搜索平臺獲取所述關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括判斷所述網(wǎng)站中的內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立所述索引。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括所述搜索平臺利用排序規(guī)則對所述返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,通過下述方式將所述索引返回給搜索平臺爬蟲主動抓取的方式;或所述網(wǎng)站主動上報的方式。
6.一種分布式搜索系統(tǒng),其特征在于,所述系統(tǒng)包括索引建立裝置,用于建立關(guān)鍵詞到包含所述關(guān)鍵詞的內(nèi)容源的URL的索引; 索引發(fā)送裝置,與所述索引建立裝置相連,用于將所述索引返回給搜索平臺。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括關(guān)鍵詞獲取裝置,與所述索引建立裝置相連,用于定期或不定期地從所述搜索平臺獲取所述關(guān)鍵詞。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括判斷裝置,與所述索引建立裝置相連,用于判斷內(nèi)容源是否有內(nèi)容更新,如果有內(nèi)容更新,則準備建立所述索引。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述系統(tǒng)還包括所述搜索平臺,與所述索引發(fā)送裝置相連,用于利用排序規(guī)則對所述返回的索引進行排序,并將排序后的結(jié)果存入數(shù)據(jù)庫以供檢索使用。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述索引發(fā)送裝置通過下述方式將所述索引返回給搜索平臺爬蟲主動抓取的方式;或所述網(wǎng)站主動上報的方式。
全文摘要
本發(fā)明公開了一種分布式搜索方法和系統(tǒng)。其中,該方法包括網(wǎng)站建立關(guān)鍵詞到包含關(guān)鍵詞的內(nèi)容源的URL的索引;將索引返回給搜索平臺。本發(fā)明由內(nèi)容源來自建索引,這樣一方面將建立索引的工作移至內(nèi)容源,另一方面內(nèi)容源無需再返回內(nèi)容源的完整信息給搜索平臺,只需返回關(guān)鍵詞同內(nèi)容源的URL的索引關(guān)系,從而大大提升了搜索引擎的效率,并減少了對被搜索網(wǎng)站的過度干擾。
文檔編號G06F17/30GK102339292SQ20101023781
公開日2012年2月1日 申請日期2010年7月27日 優(yōu)先權(quán)日2010年7月27日
發(fā)明者張濤, 李屹, 楊德利, 王愛寶 申請人:中國電信股份有限公司