專利名稱:內(nèi)容-索引搜索系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索系統(tǒng),更具體地,本發(fā)明涉及內(nèi)容-索引檢索系統(tǒng)和方法,它提供的檢索結(jié)果符合內(nèi)容過濾及在封鎖引擎中實(shí)施的封鎖策略。
隨著因特網(wǎng)及其它數(shù)據(jù)網(wǎng)和系統(tǒng)中使用的文本和多媒體內(nèi)容的迅速增加,最終用戶越來越多地依靠基于文本和關(guān)鍵詞的搜索工具去搜索需要的信息。一般地,最終用戶將所需要查找的信息文件的關(guān)鍵詞輸入搜索工具或引擎。搜索工具或引擎在已有索引數(shù)據(jù)庫中搜索之后,返回所需文件指針清單,并帶有文件標(biāo)題,以及通常還有一些從文件正文中摘錄下來的描述性文字。然后,最終用戶就可以進(jìn)行瀏覽部分或全部返回指針,檢索或?yàn)g覽全部或部分實(shí)際文件或在線內(nèi)容。搜索引擎索引數(shù)據(jù)庫一般是通過激活自動(dòng)程序在內(nèi)容源(比如因特網(wǎng)萬維站點(diǎn))自動(dòng)或半自動(dòng)地建立起來的,可以自動(dòng)搜索根內(nèi)容源以及鏈接到內(nèi)容樹(經(jīng)常進(jìn)行到其它站點(diǎn)),在對(duì)信息數(shù)據(jù)庫中進(jìn)行索引供以后搜索。對(duì)大型內(nèi)容源,比如因特網(wǎng)上的萬維網(wǎng)站點(diǎn),自動(dòng)搜索和索引是創(chuàng)建索引數(shù)據(jù)庫的唯一可行方法。
隨著在線系統(tǒng)和網(wǎng)絡(luò)上各種信息的增加,公司、個(gè)人、組織和網(wǎng)絡(luò)服務(wù)供應(yīng)商(NSPs)越來越多地實(shí)施策略和控制,以過濾或限制最終用戶被認(rèn)為不適當(dāng)和不期望的內(nèi)容。這些內(nèi)容訪問的控制策略一般是,阻止最終用戶獲取在線服務(wù)或網(wǎng)絡(luò)中不期望的全部或部分內(nèi)容。內(nèi)容封鎖一般設(shè)置在內(nèi)容代理網(wǎng)關(guān)、數(shù)據(jù)網(wǎng)絡(luò)防火墻、或置于最終用戶與最終內(nèi)容之間的其它裝置。內(nèi)容過濾常作為內(nèi)容高速緩存引擎的一部分,在這里,只有所希望的內(nèi)容保留在高速緩存器中提供給用戶,而不期望的內(nèi)容禁止進(jìn)入高速緩存器。所有用戶只有通過高速緩存器,才能訪問網(wǎng)絡(luò)內(nèi)容。內(nèi)容被封鎖一般是為了免受攻擊,或不面對(duì)某用戶群或商業(yè)應(yīng)用,或不能在某特別時(shí)段瀏覽或其它類似原因。網(wǎng)絡(luò)服務(wù)供應(yīng)商和公司經(jīng)常依靠評(píng)級(jí)系統(tǒng)或服務(wù)比如因特網(wǎng)內(nèi)容選擇平臺(tái)(PICS)來決定一個(gè)內(nèi)容站點(diǎn)是否適合或文檔是否提供給某特定人群。最終用戶也可以在一些系統(tǒng)中選擇自己的封鎖策略。
自動(dòng)搜索引擎需要通過自動(dòng)索引大量內(nèi)容,而封鎖引擎需要阻止最終用戶獲取某些內(nèi)容,二者之間的沖突是網(wǎng)絡(luò)服務(wù)商和數(shù)據(jù)傳送商要解決的一個(gè)典型問題。尤其是,具有過濾器的搜索引擎和封鎖策略引擎之間缺乏集成性和一致性。有幾個(gè)原因?qū)е氯狈尚?,包?a)很多機(jī)構(gòu)在他們的站點(diǎn)或服務(wù)上部署和實(shí)施內(nèi)容過濾封鎖策略,這依賴于網(wǎng)絡(luò)上應(yīng)用的,不屬他們控制的搜索引擎。
(b)設(shè)計(jì)的搜索引擎必須查找和索引盡可能多的內(nèi)容,并盡力搜尋所有內(nèi)容。另一方面,設(shè)計(jì)的過濾和封鎖引擎試圖在存儲(chǔ)于高速緩存器的文檔中選擇而提供給最終用戶。
要求高性能和高效率的搜索引擎與封鎖引擎之間任務(wù)的本質(zhì)區(qū)別,妨礙了這兩種信息檢索功能的集成性和一致性。
以下問題是顯而易見的即最終用戶利用搜索引擎服務(wù)得到包含內(nèi)容/文檔標(biāo)題及內(nèi)容文件描述搜索結(jié)果,但基于過濾/封鎖策略不能最終得到它們。另外,最終用戶在方便和一致性方面受到干擾,搜索引擎返回的內(nèi)容/文檔標(biāo)題和簡(jiǎn)短描述本身可能是嚴(yán)重侵害性的或是不期望的。
因此,存在這樣一種需要信息檢索系統(tǒng)與封鎖策略的搜索結(jié)果一致,而且是幾乎對(duì)協(xié)議和性能無影響的。
涉及內(nèi)容-索引搜索和封鎖系統(tǒng)的現(xiàn)有技術(shù),包括美國專利5701469,1997年10月23日公告(Brandli等人),公開內(nèi)容索引搜索系統(tǒng),它激活一個(gè)例程,通過排除不應(yīng)被包括的和添加不應(yīng)被排除的結(jié)果來修正搜索結(jié)果。在這種方式下,響應(yīng)用戶查詢而生成的搜索結(jié)果精確地滿足用戶要求,雖然生成初步查詢結(jié)果的內(nèi)容-索引不是最新的。
美國專利5835722,1996年6月2日7提交,1998年11月10日公告(Bradshaw等人),公開一種終端,它通過全面監(jiān)控計(jì)算機(jī)創(chuàng)建或傳送搜索不適當(dāng)資料的操作,封鎖使用和傳送不適當(dāng)資料,按其要求,終端被封鎖后,只有通過監(jiān)控干預(yù)才能解鎖。
美國專利5706507,1995年7月2日提交,1998年1月6日公告(Schloss),公開一種咨詢服務(wù)器,它通過對(duì)進(jìn)行評(píng)級(jí)的第三方進(jìn)行操作以封鎖或探測(cè)不期望的資料。。
美國專利5619648,1997年4月8日公告(Canale等人),公開一種電子郵件過濾器,它根據(jù)用戶信件模式來決定是否將電子郵件提供給用戶。
沒有一項(xiàng)現(xiàn)有技術(shù)公開一種內(nèi)容-索引搜索系統(tǒng),它提供的搜索結(jié)果符合在封鎖引擎中實(shí)施的封鎖策略,從而,只有封鎖策略允許的內(nèi)容才作為內(nèi)容搜索的結(jié)果提供給最終用戶,使其結(jié)果符合阻策略。
本發(fā)明的一個(gè)目的是改進(jìn)信息檢索系統(tǒng)和方法,為搜索引擎結(jié)果與內(nèi)容封鎖策略一致。
本發(fā)明的另一個(gè)目的是改進(jìn)內(nèi)容-索引搜索系統(tǒng)和方法,提供符合封鎖策略的搜索結(jié)果。
本發(fā)明的另一個(gè)目的是改進(jìn)內(nèi)容索引搜索系統(tǒng),它在高速緩存和過濾引擎中實(shí)施封鎖策略。
本發(fā)明的另一個(gè)目的是改進(jìn)內(nèi)容-索引搜索系統(tǒng),它在內(nèi)容索引階段實(shí)施封鎖策略。
本發(fā)明的另一個(gè)目的是改進(jìn)內(nèi)容-索引搜索系統(tǒng)和方法,它在最終用戶搜索結(jié)果顯示階段實(shí)施封鎖策略。
本發(fā)明的另一個(gè)目的是改進(jìn)內(nèi)容-索引搜索系統(tǒng)和方法,它搜索本地高速緩存器和封鎖引擎,而不是搜索和索引最終內(nèi)容站點(diǎn)及內(nèi)容服務(wù)器。
本發(fā)明的另一個(gè)目的是改進(jìn)內(nèi)容-索引搜索系統(tǒng)和方法,它配置成搜索高速緩存器和過濾引擎獲取目標(biāo)內(nèi)容。
這些以及其它目的、特點(diǎn)和優(yōu)點(diǎn),可以在具有數(shù)據(jù)庫的內(nèi)容-索引搜索引擎和連接最終用戶及搜索引擎的高速緩存引擎的信息檢索網(wǎng)絡(luò)中實(shí)現(xiàn),它通過實(shí)施控制策略,一般是,封鎖不期望的內(nèi)容,以使結(jié)果符合不同實(shí)施例中實(shí)施的最終用戶的過濾及封鎖策略。
在第一個(gè)實(shí)施方案中,只有封鎖策略允許的內(nèi)容才可添加到搜索引擎索引數(shù)據(jù)庫。在第二個(gè)實(shí)施方案中,改進(jìn)搜索引擎的搜索和顯示過程,在搜索和提交結(jié)果過程中實(shí)施封鎖策略。第三個(gè)實(shí)施方案中,搜索引擎瀏覽和自動(dòng)索引過程的目標(biāo)通過搜索高速緩存引擎的內(nèi)容被修改,以建立索引數(shù)據(jù)庫。在第四個(gè)實(shí)施方案中,搜索引擎的瀏覽和自動(dòng)索引被配置成與最終用戶瀏覽器的的方式一樣,也就是,搜索高速緩存和過濾引擎獲取目標(biāo)內(nèi)容。
結(jié)合附圖的詳細(xì)描述,可以進(jìn)一步地理解本發(fā)明,其中
圖1是信息檢索系統(tǒng)框圖,包括具有數(shù)據(jù)庫的內(nèi)容服務(wù)器、實(shí)施封鎖策略的高速緩存器、外部搜索引擎,搜索引擎連接最終用戶和內(nèi)容服務(wù)器并采用本發(fā)明規(guī)則。
圖2是在圖1中實(shí)施的具有代表性的內(nèi)容封鎖規(guī)則表。
圖3是一個(gè)流程圖,示出第一實(shí)施方案,它在內(nèi)容搜索索引階段實(shí)施封鎖策略操作。
圖4是一個(gè)流程圖,示出圖1的第二實(shí)施方案,它在用戶顯示搜索結(jié)果階段實(shí)施封鎖策略。
圖5是一個(gè)流程圖,示出圖1的第三實(shí)施方案,改進(jìn)搜索引擎以通過搜索高速緩存引擎內(nèi)容建立索引數(shù)據(jù)庫。
圖6是一個(gè)流程圖,示出圖1的第四實(shí)施方案,改進(jìn)搜索引擎以通過搜索高速緩存引擎建立索引數(shù)據(jù)庫。
圖1中,一個(gè)信息檢索系統(tǒng)100包括多用戶裝置102、104,通過內(nèi)部的或受控網(wǎng)絡(luò)107連接到外部信息系統(tǒng)106,比如因特網(wǎng)或其它分布式數(shù)據(jù)網(wǎng)。典型的客戶是一臺(tái)PC機(jī),具有顯示器110、鍵盤111、CPU112、內(nèi)存113以及網(wǎng)絡(luò)輸入/輸出接口裝置115。這些客戶和網(wǎng)絡(luò)的實(shí)例包括連接到內(nèi)部公司網(wǎng)的PC機(jī)商業(yè)用戶和連接到服務(wù)供應(yīng)商的PC機(jī)家庭用戶,二者最后都連接到大型因特網(wǎng)。瀏覽器116,諸如那些在Netscape Communicator、IBM Web Explorer等注冊(cè)銷售的,與標(biāo)準(zhǔn)操作系統(tǒng)117和應(yīng)用程序118一起安裝在內(nèi)存113。瀏覽器116在用戶裝置102,104中運(yùn)行,從連接到因特網(wǎng)106的內(nèi)容服務(wù)器120下載或上載內(nèi)容。每一內(nèi)容服務(wù)器包括數(shù)據(jù)庫122,用來存儲(chǔ)數(shù)據(jù)以響應(yīng)用戶102,104等需求的內(nèi)容。其中一種形式是數(shù)據(jù)作為包含文本和其它多媒體內(nèi)容的HTML文檔的匯集被存儲(chǔ)。
網(wǎng)關(guān)124,如所示,常用來將多于一個(gè)的客戶或內(nèi)部網(wǎng)段107連接到因特網(wǎng)106。典型地,代理服務(wù)器包括高速緩存器和內(nèi)容過濾引擎126安插在內(nèi)部網(wǎng)絡(luò)107到因特網(wǎng)106之路徑上,通過實(shí)施封鎖策略提高性能,加強(qiáng)控制。高速緩存和封鎖代理服務(wù)器可以連接到網(wǎng)關(guān),也可并行連接到內(nèi)部網(wǎng)107或外部網(wǎng)106。
運(yùn)行萬維網(wǎng)瀏覽器116的客戶系統(tǒng)102,104使用超文本傳輸協(xié)議(HTTP)請(qǐng)求內(nèi)容服務(wù)器120的內(nèi)容,以及接收HTTP響應(yīng)的內(nèi)容。HTTP請(qǐng)求和響應(yīng)發(fā)生在TCP/IP插座,插座連接客戶和內(nèi)容服務(wù)器之間的通信。用戶可以通過明確要求存儲(chǔ)到內(nèi)容服務(wù)器的內(nèi)容或使用指向存儲(chǔ)在內(nèi)容服務(wù)器上的內(nèi)容的超鏈錨來生成內(nèi)容請(qǐng)求。接收后,瀏覽器使用HTTP對(duì)話裝入內(nèi)容。HTTP更詳細(xì)的描述可以查閱Berners-Lee等人的“超文本傳輸協(xié)義-HTTP/1.0草稿IEFTHTTP-V10-Spec_0.0文本.”1995年(3月8日)因特網(wǎng)草案,其全部內(nèi)容在此作為參考。HTML更詳細(xì)的描述可以查閱Berners-Lee,“超文本鏈接標(biāo)示語言(HTML)”草案IEFT.IIIR-HTML-01,1993年6月(過期工作圖),其全部內(nèi)容在此作為參考。TCP/IP插座和因特網(wǎng)通信的詳細(xì)描述可以查閱W.Richard Stevens,“TCP/IP圖示,Vol.1-協(xié)議”,Addison-West take,1994,頁碼從1-20,229-262,其全部內(nèi)容在此作為參考。
客戶系統(tǒng)的用戶使用萬維網(wǎng)瀏覽器116經(jīng)常分別訪問常規(guī)搜索引擎服務(wù)器130,135和數(shù)據(jù)庫131,136通過關(guān)鍵詞搜索的方式定位網(wǎng)絡(luò)內(nèi)容。這些安全搜索引擎對(duì)于受控網(wǎng)絡(luò)107可以是外部的130或內(nèi)部的135。當(dāng)他們執(zhí)行相同的基本功能時(shí),內(nèi)部附加的搜索引擎服務(wù)器135可以被內(nèi)部網(wǎng)絡(luò)操作員獨(dú)立控制,因而作為優(yōu)選方案。本發(fā)明的方法,一般是通過內(nèi)部附加的和受控的搜索引擎135或外部搜索引擎130來完成,外部搜索引擎作為一種服務(wù)提供給機(jī)構(gòu)并符合機(jī)構(gòu)的內(nèi)容封鎖策略。作為關(guān)鍵詞在搜索引擎服務(wù)器130或135直接搜索的結(jié)果,最終用戶可從瀏覽器116看到匹配的統(tǒng)一資源位置(URLs)和摘自超級(jí)鏈接錨定的最終內(nèi)容的文本的清單。然后,用戶可以配合使用萬維網(wǎng)瀏覽器116選擇或跟隨鏈接一項(xiàng)或多項(xiàng)內(nèi)容。
圖2中,樣本內(nèi)容過濾/封鎖配置表200,由客戶或網(wǎng)絡(luò)/服務(wù)管理人員生成,安裝在代理服務(wù)器126,用來過濾或限制認(rèn)為不適當(dāng)?shù)幕虿黄谕麅?nèi)容的利用。這些內(nèi)容訪問控制策略,一般是在所提供的在線服務(wù)或網(wǎng)絡(luò)中,封鎖不期望的內(nèi)容到達(dá)全部或部分用戶。該表安裝在高速緩存器和過濾引擎126,一般存儲(chǔ)在數(shù)據(jù)庫127。其中一種形式是該表包含行201,為每個(gè)用戶或用戶組包括如下的一項(xiàng)或多項(xiàng)內(nèi)容身份203;需封鎖的關(guān)鍵詞表205;因特網(wǎng)內(nèi)容選擇平臺(tái)(PICS)規(guī)則207;不能連接的URLs黑名單209;只能連接的URLs的白名單211。URLs的描述可以查找Berners-lee等人,“統(tǒng)一資源位置(URL)”,RFC1738,1994年10月,其全部內(nèi)容在此作為參考。PICS分級(jí)從PICS規(guī)則獲得,它允許或阻止訪問URLs基于在文件中描述的URLs的PICS標(biāo)記。PICS規(guī)則的描述可見因特網(wǎng)站http//www.w3.org/TR/REC-PICSRules-971299,由WC3,-,-.出版。更具體地,PICS規(guī)則是一種表示過濾規(guī)則(樣板)的語言,它允許或封鎖訪問URLs基于那些描述URLs的PICS標(biāo)記。使用軟件工具創(chuàng)造標(biāo)記,軟件工具符合從因特網(wǎng),http//www.W#.Org/PICS/得到的PICS技術(shù)規(guī)范-1.1。軟件工具用于在描述特定URLs的文檔中創(chuàng)建標(biāo)記。另一方面,獨(dú)立讀者通過稱為“標(biāo)記局”的獨(dú)立服務(wù)器分配標(biāo)記,而不是將標(biāo)記粘貼到文檔中。過濾軟件知道檢查“標(biāo)記局”發(fā)現(xiàn)標(biāo)記,就如同消費(fèi)者為瀏覽汽車或工具懂得去讀特定的雜志。標(biāo)記一旦建立,標(biāo)記就作為特別標(biāo)頭插入HTTP標(biāo)頭流,優(yōu)先將其內(nèi)容送到萬維網(wǎng)瀏覽器。另一方面,標(biāo)記也以用元標(biāo)記嵌入HTML文檔。用這種方法,標(biāo)記只能用HTML文檔而不能用圖像、視頻或其它別的形式傳送。PICS兼容的內(nèi)容服務(wù)器可以從國際商業(yè)機(jī)器公司,Armonk,Ny得到。
封鎖表安裝到高速緩存器和封鎖引擎122后,可選擇使用幾種方法連接內(nèi)容搜索和內(nèi)容封鎖引擎,以使只有封鎖策略最終允許的內(nèi)容才可以作為內(nèi)容搜索結(jié)果返回給用戶。盡管對(duì)每一單個(gè)用戶使用不同規(guī)則是可能的,但若有一套適用于所有用戶的規(guī)則,或?qū)⒂脩舴殖山M,每個(gè)組有適用于自己的規(guī)則,則更利于管理。單個(gè)用戶或組,一經(jīng)定義,可以通過幾種方法鑒別,包括用戶/組身份標(biāo)記映射的用戶系統(tǒng)IP地址,在瀏覽初始階段使用HTTP基本鑒別方法,使用HTTP萬維網(wǎng)“網(wǎng)上數(shù)據(jù)塊”(“cookie”)跟蹤用戶身份。
圖3中,過程300在內(nèi)容索引階段實(shí)施封鎖策略。在步驟302,搜索引擎135的內(nèi)容掃描和索引自動(dòng)過程被改進(jìn)。在步驟304,來自內(nèi)容和過濾引擎126的內(nèi)容過濾規(guī)則進(jìn)入搜索引擎服務(wù)器135,通過應(yīng)用程序接口(APIs)或以定期時(shí)間間隔或當(dāng)檢測(cè)到變化時(shí)發(fā)送規(guī)則定義文件。在步驟306,根據(jù)需要?jiǎng)?chuàng)建多個(gè)數(shù)據(jù)庫樹,每樹對(duì)應(yīng)內(nèi)容過濾規(guī)則限定的用戶組。比如,一個(gè)有嚴(yán)格PICs過濾規(guī)則的索引數(shù)據(jù)庫樹是提供給小孩的,而另一個(gè)數(shù)據(jù)庫樹具有更寬松的過濾規(guī)則是提供給成人的。
在步驟308,考慮內(nèi)容封鎖規(guī)則后,搜索引擎自動(dòng)開始掃描和索引來自目標(biāo)服務(wù)器清單的內(nèi)容。
在步驟310,如果提供了白名單,搜索引擎只搜索那些有明確允許的站點(diǎn)/URL清單或白名單上的萬維網(wǎng)站點(diǎn)或根內(nèi)容源。
在步驟312,如果生成規(guī)則時(shí)需排除URLs黑名單,任何對(duì)應(yīng)黑名單形式的萬維網(wǎng)站點(diǎn)URL都將排除。
在步驟314,適用于索引數(shù)據(jù)庫樹服務(wù)的用戶組的PICS規(guī)則作用于被處理的站點(diǎn)/內(nèi)容/文檔,結(jié)果使文檔被排除或保留。
在步驟316,如果指定了需排除的關(guān)鍵詞清單,掃描文檔文本,并且如果含有一個(gè)或多個(gè)清單中的關(guān)鍵詞,文檔文體被排除。
在步驟318,只有當(dāng)組過濾規(guī)則允許時(shí),文檔才能添加相應(yīng)的索引數(shù)據(jù)庫樹。
圖3所示過程的優(yōu)點(diǎn)是,所有添加(排除)處理都在數(shù)據(jù)庫索引階段進(jìn)行。這樣用戶搜索過程和顯示結(jié)果階段就沒有其它步驟了??梢灶A(yù)計(jì)到,搜索引擎壽命周期內(nèi),即使因?yàn)榭赡艿淖兓匦聮呙瑁阉鞑僮饕脖人饕僮鞲l繁。
圖4中,另一過程400,在最終用戶顯示搜索結(jié)果階段實(shí)施封鎖策略。在步驟402,搜索引擎掃描和索引自動(dòng)過程不改變,單一索引數(shù)據(jù)庫樹被保留。在步驟404,搜索引擎搜索和顯示結(jié)果過程改進(jìn)以適用封鎖策略。
在步驟406,來自高速緩存引擎的內(nèi)容過濾規(guī)則(通過APIs或以定期時(shí)間間隔或當(dāng)檢測(cè)到變化時(shí)發(fā)送規(guī)則定義文件。
在步驟407,用戶創(chuàng)建的對(duì)索引數(shù)據(jù)庫進(jìn)行搜索的請(qǐng)求過程開始。
在步驟408,所有滿足用戶要求的文檔清單被建立,準(zhǔn)備應(yīng)用封鎖規(guī)則。
在步驟410,如果規(guī)則中指定了明確允許的URLs白名單,所有不包含在白名單中的文檔被排除。
在步驟412,排除具有排除形式清單(黑名單)的任何萬維網(wǎng)站點(diǎn),URL或文檔。
在步驟414,如果提定了PICS規(guī)則,任何不符合PICS規(guī)則的URL將被排除。
在步驟416,如果規(guī)則中指定了關(guān)鍵詞清單,任何包含一個(gè)或多個(gè)關(guān)鍵詞的文本的URL被排除。
在步驟418,余下部分的滿足用戶要求、符合封鎖規(guī)則的URL指針返回顯示給用戶。
圖4所示過程的主要優(yōu)點(diǎn)是,可將最新的策略作用于每一次搜索而無重建索引數(shù)據(jù)庫的影響。一個(gè)數(shù)據(jù)庫可以被所有用戶使用。該過程允許定義不同的過濾組,分別控制而沒有沖突。
圖5中,過程500改進(jìn)搜索引擎,搜索內(nèi)容高速緩存引擎的內(nèi)容建立自己的索引數(shù)據(jù)庫。在步驟501,改進(jìn)了搜索引擎掃描和索引自動(dòng)過程。該過程不是搜索和索引最終內(nèi)容源站點(diǎn)和內(nèi)容服務(wù)器,而是搜索高速緩存和封鎖引擎的本地存儲(chǔ)器的內(nèi)容。在步驟503,搜索引擎的掃描目標(biāo)改變?yōu)橐粋€(gè)適當(dāng)?shù)膬?nèi)容高速緩存器,而不是站點(diǎn)/URL清單。在步驟505,高速緩存和封鎖引擎中URL/內(nèi)容/文檔樹,通過APIs,數(shù)據(jù)庫操作或共享文件系統(tǒng)操作而被遍歷。在步驟507,將高速緩存器中查到的滿足本地站點(diǎn)的一個(gè)或多個(gè)用戶組封鎖過濾策略的所有文檔被添加到索引數(shù)據(jù)庫。
圖5所示過程的主要優(yōu)點(diǎn)是,過濾和封鎖規(guī)則只被引擎設(shè)計(jì),即高速緩存和封鎖引擎使用一次,掃描和索引操作,不是在眾多的因特網(wǎng)內(nèi)容站點(diǎn),而是在目標(biāo)內(nèi)容的本地(高性能)復(fù)制品中進(jìn)行。
圖6中,過程600改進(jìn)了搜索引擎,搜索高速緩存和過濾引擎建立其索引數(shù)據(jù)庫。在步驟601,搜索引擎掃描和索引自動(dòng)過程改進(jìn)了,配置為用與最終用戶瀏覽器同樣的方法,即,使用HTTP代理搜索高速緩存和過濾引擎獲取目標(biāo)內(nèi)容。在步驟603,搜索引擎配置成使用用于適當(dāng)?shù)母咚倬彺婧瓦^濾引擎的HTTP代理。在步驟605,掃描和索引內(nèi)容時(shí),搜索引擎模擬屬于用戶組之一的最終用戶,因此,用戶收到的站點(diǎn)/內(nèi)容/文檔只是用戶組策略允許的那部分。
圖6所示過程的主要優(yōu)點(diǎn)是,搜索引擎的實(shí)質(zhì)沒有改變。內(nèi)容封鎖和過濾是通過設(shè)計(jì)和優(yōu)化的高速緩存封鎖引擎執(zhí)行。只有封鎖策略允許的內(nèi)容才能被搜索引擎索引。由于一些需掃描和索引的站點(diǎn)/內(nèi)容可在本地高速緩存器中查到,搜索引擎的效率和性能得到提高。
總之,內(nèi)容搜索和內(nèi)容封鎖引擎只連接那些封鎖策略允許的內(nèi)容指針,作為搜索結(jié)果返回給最終用戶。描述了連接內(nèi)容搜索和內(nèi)容封鎖引擎的多種方式。就此而言,本發(fā)明提供的結(jié)果符合最終用戶內(nèi)容搜索與獨(dú)立組織的內(nèi)容過濾和封鎖策略。本發(fā)明可以立即在現(xiàn)有因特網(wǎng)和其它網(wǎng)絡(luò)上應(yīng)用,而不需要改進(jìn)數(shù)據(jù)協(xié)議和標(biāo)準(zhǔn)。
盡管本發(fā)明是在因特網(wǎng)(HTTP/Web)環(huán)境中描述的,它同樣的適用于大多數(shù)數(shù)據(jù)和網(wǎng)絡(luò)環(huán)境,這里,用戶搜索數(shù)據(jù),配備合理的清單提供給用戶,如果訪問或內(nèi)容控制策略允許,用戶可以依次使用/瀏覽數(shù)據(jù)。在不背離本發(fā)明之實(shí)質(zhì)和范圍的情況下,可以作出改變,附后的權(quán)利要求中定義了本發(fā)明。
權(quán)利要求
1.一種內(nèi)容-索引搜索系統(tǒng),提供的搜索結(jié)果符合內(nèi)容過濾和封鎖限制,包括包括數(shù)據(jù)庫的內(nèi)容-索引引擎;包括高速緩存器的內(nèi)容高速緩存和封鎖代理服務(wù)器;連接到內(nèi)容-索引搜索引擎的信息網(wǎng)絡(luò);向內(nèi)容-索引搜索引擎提出搜索請(qǐng)求和從高速緩存器接收搜索結(jié)果的裝置;連接到內(nèi)容-索引搜索引擎和實(shí)施內(nèi)容過濾及封鎖策略的封鎖引擎;和改進(jìn)內(nèi)容引擎搜索引擎,實(shí)現(xiàn)與封鎖引擎一樣的內(nèi)容-封鎖策略的裝置。
2.如權(quán)利要求1的系統(tǒng)還包括,內(nèi)容-索引階段在內(nèi)容-索引搜索引擎中實(shí)施封鎖策略的裝置。
3.如權(quán)利要求1的系統(tǒng)還包括,顯示給最終用戶搜索結(jié)果時(shí)實(shí)施封鎖策略的裝置。
4.如權(quán)利要求1的系統(tǒng)還包括,改進(jìn)內(nèi)容引擎搜索引擎,通過搜索高速緩存器內(nèi)容建立索引數(shù)據(jù)庫。
5.如權(quán)利要求1的系統(tǒng)還包括,改進(jìn)內(nèi)容-索引搜索引擎的裝置,使其在內(nèi)容-索引搜索引擎建立索引數(shù)據(jù)庫時(shí),結(jié)合高速緩存器和封鎖引擎的結(jié)果。
6.在內(nèi)容-索引搜索系統(tǒng)中,包括連接到數(shù)據(jù)庫和高速緩存器的內(nèi)容-索引搜索引擎;連接到內(nèi)容-索引搜索引擎的信息網(wǎng)絡(luò);和通過高速緩存器提供給最終用戶搜索結(jié)果時(shí)實(shí)施內(nèi)容過濾及封鎖限制的封鎖引擎,一種提供的結(jié)果符合內(nèi)容過濾和封鎖規(guī)則的方法,包括步驟(a)修改內(nèi)容-索引搜索引擎過程,略去那些有排除模式的信息站點(diǎn)URL;(b)修改內(nèi)容-索引搜索引擎過程,只搜索那些被URL清單明確允許的站點(diǎn)或路由內(nèi)容源;(c)在內(nèi)容-索引搜索引擎中實(shí)施過濾策略;內(nèi)容-索引搜索引擎在高速緩存器和封鎖引擎中定義,通過(i)以定期時(shí)間間隔或當(dāng)檢測(cè)到變化時(shí)從高速緩存和過濾引擎輸入內(nèi)容過濾規(guī)則;(ii)創(chuàng)建多個(gè)索引數(shù)據(jù)庫樹,并將每一樹對(duì)應(yīng)內(nèi)容過濾規(guī)則定義的一個(gè)用戶組;(iii)避免將有排除模式的任何信息站點(diǎn)、URL或文檔顯示給用戶;(iv)只顯示被URL清單明確允許的內(nèi)容源的文檔/內(nèi)容指針;和(v)只將符合過濾過程的信息網(wǎng)絡(luò)/內(nèi)容/文檔顯示給用戶,過濾過程在高速緩存和封鎖引擎中定義,通過(aa)以定期時(shí)間間隔或當(dāng)檢測(cè)到變化時(shí)從高速緩存和過濾引擎輸入內(nèi)容過濾規(guī)則;和(bb)只將個(gè)人或用戶組過濾規(guī)則允許的搜索結(jié)果提供給用戶。
7.如權(quán)利要求6的方法,還包括步驟;(d)修改內(nèi)容引擎,掃描目標(biāo)是內(nèi)容高速緩存器,而不是信息站點(diǎn)/URL清單;和(e)通過APIs,數(shù)據(jù)庫操作和分享文件操作遍歷在高速緩存和封鎖引擎中的URL/內(nèi)容/文檔樹。
8.如權(quán)利要求6的方法,還包括步驟(f)修改搜索引擎內(nèi)容掃描和索引過程,使其配置成與最終用戶瀏覽器一樣。
9.如權(quán)利要求6的方法,還包括步驟(g)修改內(nèi)容-索引搜索引擎,搜索高速緩存器,建立索引數(shù)據(jù)庫。
10.如權(quán)利要求6的方法,還包括步驟(h)修改內(nèi)容搜索引擎,通過搜索高速緩存器建立索引數(shù)據(jù)庫。
11.如權(quán)利要求6的方法,還包括步驟(i)將內(nèi)容-索引搜索引擎連接到內(nèi)部網(wǎng)絡(luò);和(j)通過內(nèi)部網(wǎng)絡(luò)操作,連接內(nèi)容-索引搜索引擎。
12.如權(quán)利要求6的方法,還包括步驟將內(nèi)容-索引搜索引擎連接到外部網(wǎng)絡(luò)以提供符合機(jī)構(gòu)內(nèi)容封鎖策略的結(jié)果。
全文摘要
內(nèi)容-索引搜索系統(tǒng)和方法,提供的結(jié)果符合內(nèi)容過濾和阻塞策略。該搜索系統(tǒng)包括:包括連接信息網(wǎng)絡(luò)的數(shù)據(jù)庫的內(nèi)容-索引搜索引擎。實(shí)施例1,改進(jìn)搜索引擎,與高速緩存和過濾引擎一樣實(shí)施內(nèi)容阻塞策略。實(shí)施例2,改進(jìn)搜索引擎,通過搜索高速緩存和引擎內(nèi)容建立索引數(shù)據(jù)庫。實(shí)施例3,改進(jìn)搜索引擎,搜索高速緩存器和過濾引擎,搜索引擎建立其索引數(shù)據(jù)庫。實(shí)施例4,改進(jìn)搜索引擎,搜索高速緩存和過濾引擎,建立索引數(shù)據(jù)庫。
文檔編號(hào)G06F17/30GK1272656SQ0010676
公開日2000年11月8日 申請(qǐng)日期2000年4月13日 優(yōu)先權(quán)日1999年4月30日
發(fā)明者L·C·馬薩拉尼 申請(qǐng)人:國際商業(yè)機(jī)器公司