專利名稱:文檔收集系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在網(wǎng)站上收集文檔的系統(tǒng)和方法,更詳細(xì)地講,涉及一種在作為搜索對象的文檔中收集發(fā)生更新的文檔的文檔收集系統(tǒng)和方法。
背景技術(shù):
一般來講,搜索服務(wù)商利用網(wǎng)絡(luò)機器人(web robot)在存在于互聯(lián)網(wǎng)上的多個網(wǎng)站中收集文檔的內(nèi)容。此時,網(wǎng)絡(luò)機器人利用隨機訪問方法(random access method)的爬行(crawling)技術(shù)來收集包含于文檔中的內(nèi)容。具體來講,搜索服務(wù)商隨機地提取種子網(wǎng)址(Seed URL),基于提取的ked URL通過網(wǎng)絡(luò)機器人收集文檔。因此,與文檔各自的獨有 URL無關(guān)地收集文檔。當(dāng)以上述的方式收集文檔時,存在這種問題,S卩,由于網(wǎng)絡(luò)機器人的隨機訪問,網(wǎng)絡(luò)網(wǎng)站發(fā)生大的負(fù)荷。另外,由于網(wǎng)絡(luò)機器人的隨機收集,搜索服務(wù)商將與搜索請求無關(guān)的文檔作為搜索結(jié)果來提供。即,因沒有歸一化的URL和文檔內(nèi)容,搜索服務(wù)商難以分析文檔收集結(jié)果。因此,需要避免給網(wǎng)絡(luò)網(wǎng)站加重負(fù)荷的同時,能夠收集正確的網(wǎng)絡(luò)文檔的系統(tǒng)和方法。
發(fā)明內(nèi)容
本發(fā)明提供了一種通過識別信息來收集發(fā)生更新的文檔,從而能夠減少隨機爬行引起的網(wǎng)站負(fù)荷的系統(tǒng)和方法。本發(fā)明提供了一種內(nèi)容提供者將與文檔的更新關(guān)聯(lián)的識別信息傳遞給搜索商,從而在搜索結(jié)果中僅能夠反映內(nèi)容提供者所期望的文檔的系統(tǒng)和方法。本發(fā)明提供了一種以XML形式收集發(fā)生更新的文檔,從而標(biāo)題、內(nèi)容、標(biāo)簽(tag) 等文檔的結(jié)構(gòu)能夠正確地反映到搜索結(jié)果的系統(tǒng)和方法。根據(jù)本發(fā)明的一實施例的一種文檔收集系統(tǒng)包括識別信息接收部,從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息;收集請求傳遞部,根據(jù)所述識別信息,向所述網(wǎng)站傳遞所述文檔的收集請求;以及,更新信息收集部,收集響應(yīng)于所述文檔的收集請求從所述網(wǎng)站傳送的文檔的更新信息。根據(jù)本發(fā)明的一實施例的一種文檔收集方法包括步驟從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息;根據(jù)所述識別信息向所述網(wǎng)站傳遞所述文檔的收集請求;收集響應(yīng)于所述文檔的收集請求從所述網(wǎng)站傳送的文檔的更新信息。根據(jù)本發(fā)明的一實施例,通過識別信息來收集發(fā)生更新的文檔,所以能夠減少隨機爬行引起的網(wǎng)站的負(fù)荷。根據(jù)本發(fā)明的一實施例,內(nèi)容提供者將與文檔的更新關(guān)聯(lián)的識別信息傳遞給搜索商,所以僅內(nèi)容提供者希望的文檔能夠被反映到搜索結(jié)果。根據(jù)本發(fā)明的一實施例,以XML形式收集發(fā)生更新的文檔,所以標(biāo)題、內(nèi)容、標(biāo)簽等文檔的結(jié)果能夠正確地反映到搜索結(jié)果。
圖1是用于說明根據(jù)本發(fā)明的一實施例的收集文檔的過程的示圖;圖2是示出根據(jù)本發(fā)明的一實施例的文檔收集系統(tǒng)的詳細(xì)結(jié)構(gòu)的框圖;圖3是示出本發(fā)明中使用的資源(resource)的結(jié)構(gòu)的示圖;圖4是示出根據(jù)本發(fā)明的一實施例的文檔收集方法的流程圖;圖5是根據(jù)本發(fā)明的另一實施例對收集的文檔進行搜索的系統(tǒng)的一示例。主要符號的說明210為識別信息接收部,220為收集請求傳遞部,230為更新信息接收部,240為搜
索結(jié)果提供部。
具體實施例方式以下,將參照附圖詳細(xì)描述本發(fā)明的實施例。根據(jù)本發(fā)明的一實施例的文檔收集方法可由文檔收集系統(tǒng)執(zhí)行。圖1是用于說明根據(jù)本發(fā)明的一實施例的收集文檔的過程的示圖。參照圖1,當(dāng)發(fā)生更新時,網(wǎng)站110將諸如因特網(wǎng)包搜索器(Ping,packet internet grope)協(xié)議的識別信息傳送給文檔收集系統(tǒng)120。例如,文檔的更新表示包含于文檔中的內(nèi)容發(fā)生注冊/修改/刪除等。還有,Ping表示文檔發(fā)生更新的一種信號。據(jù)此,響應(yīng)于所接收識別信息,文檔收集系統(tǒng)120向網(wǎng)站110請求發(fā)生更新的文檔。此時,文檔收集系統(tǒng)120請求滿足“Atom Syndication Format”的聯(lián)合(syndication) 文檔。響應(yīng)于文檔收集系統(tǒng)120的請求,網(wǎng)站110可將發(fā)生更新的文檔傳遞給文檔收集系統(tǒng)120。具體地講,文檔收集系統(tǒng)120可從網(wǎng)站110收集以XML結(jié)構(gòu)構(gòu)成的聯(lián)合文檔。此時,網(wǎng)站110將與希望搜索到的文檔關(guān)聯(lián)的識別信息傳送給文檔收集系統(tǒng)120, 從而可以防止不需要的文檔被文檔收集系統(tǒng)120收集。此時,當(dāng)在希望搜索到的文檔發(fā)生內(nèi)容的注冊、刪除、修改等的更新時,網(wǎng)站110將諸如Ping的識別信息傳送給文檔收集系統(tǒng) 120,從而可以減少隨機爬行引起的負(fù)荷。圖2是示出根據(jù)本發(fā)明的一實施例的文檔收集系統(tǒng)的詳細(xì)結(jié)構(gòu)的框圖。參照圖2,文檔收集系統(tǒng)120可包括識別信息接收部210、收集請求傳遞部220、更新信息收集部230和搜索結(jié)果提供部M0。識別信息接收部210可從網(wǎng)站110接收發(fā)生更新的文檔的識別信息。在此,識別信息可包括與發(fā)生諸如內(nèi)容的注冊/修改/刪除的更新的文檔關(guān)聯(lián)的Ping協(xié)議。此時,識別信息接收部210可接收包括與發(fā)生更新的文檔關(guān)聯(lián)的鏈接信息的識別信息。在此,鏈接信息可包括表示發(fā)生更新的文檔在網(wǎng)站110上的位置的URL。S卩,網(wǎng)站110 通過包括鏈接信息的識別信息將希望收集到的文檔發(fā)送給文檔收集系統(tǒng)120。收集請求傳遞部220可根據(jù)識別信息將文檔的收集請求傳遞給網(wǎng)站110。具體地講,收集請求傳遞部220使用包括在識別信息中的鏈接信息所指定的路徑,向網(wǎng)站110傳遞收集請求。作為一示例,收集請求傳遞部220利用鏈接信息向網(wǎng)站110請求以XML形式構(gòu)成的聯(lián)合文檔。包括在作為識別信息的Ping協(xié)議中的鏈接信息可如下構(gòu)成。http // [DOMAIN] /atom, cgi ? id = [RES0URCE_ID] &type = [RESOURCE. TYPE]&&st£irt_time = [START_TIME] &end_time = [END_TIME] &max-entry = [MAX. ENTRY]&page = [PAGE]作為一示例,可根據(jù)如下表1定義包括在鏈接信息中的參數(shù)。[表 1]
權(quán)利要求
1.一種文檔收集系統(tǒng),其特征在于,包括識別信息接收部,從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息; 收集請求傳遞部,根據(jù)所述識別信息向所述至少一個網(wǎng)站傳遞所述文檔的收集請求; 更新信息收集部,收集響應(yīng)于所述文檔的收集請求從所述至少一個網(wǎng)站傳送的文檔的更新信息;搜索結(jié)果提供部,響應(yīng)于從網(wǎng)站接收的搜索請求,將從所述文檔的更新信息中提取的搜索結(jié)果提供給所述網(wǎng)站。
2.如權(quán)利要求1所述的文檔收集系統(tǒng),其特征在于,所述識別信息接收部接收包括與所述文檔關(guān)聯(lián)的鏈接信息的識別信息。
3.如權(quán)利要求1所述的文檔收集系統(tǒng),其特征在于,所述更新信息接收部從所述至少一個網(wǎng)站以包括至少一個元素的XML形式收集所述文檔的更新信息。
4.如權(quán)利要求3所述的文檔收集系統(tǒng),其特征在于,當(dāng)所述元素為多個時,所述更新信息收集部將多個元素設(shè)置為元素組來進行收集。
5.如權(quán)利要求3所述的文檔收集系統(tǒng),其特征在于,所述更新信息收集部基于所述識別信息所包括的分配期間收集所述文檔的更新信息。
6.如權(quán)利要求1所述的文檔收集系統(tǒng),其特征在于,所述至少一個網(wǎng)站根據(jù)網(wǎng)站接口對所述搜索結(jié)果進行渲染并進行顯示。
7.一種搜索服務(wù)器,其特征在于,包括文檔系統(tǒng)發(fā)送部,從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息,并向根據(jù)所述識別信息收集文檔的更新信息的文檔收集系統(tǒng)傳送從網(wǎng)站接收的搜索請求;文檔系統(tǒng)接收部,從所述文檔收集系統(tǒng)接收與所述搜索請求對應(yīng)的搜索結(jié)果; 網(wǎng)站發(fā)送部,將所述搜索結(jié)果提供給所述至少一個網(wǎng)站。
8.如權(quán)利要求7所述的搜索服務(wù)器,其特征在于,所述至少一個網(wǎng)站根據(jù)網(wǎng)站接口對所述搜索結(jié)果進行渲染并顯示。
9.如權(quán)利要求7所述的搜索服務(wù)器,其特征在于,所述文檔收集系統(tǒng)從所述至少一個網(wǎng)站以包括至少一個元素的XML文檔形式收集所述文檔的更新信息。
10.如權(quán)利要求7所述的搜索服務(wù)器,其特征在于所述文檔收集系統(tǒng)基于所述識別信息所包括的分配期間收集所述文檔的更新信息。
11.一種文檔收集方法,其特征在于,包括步驟 從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息;根據(jù)所述識別信息向所述至少一個網(wǎng)站傳遞所述文檔的收集請求; 收集響應(yīng)于所述文檔的收集請求從所述至少一個網(wǎng)站傳送的文檔的更新信息;以及對應(yīng)于從所述至少一個網(wǎng)站接收的搜索請求,將從所述文檔的更新信息提取的搜索結(jié)果提供給所述至少一個網(wǎng)站。
12.如權(quán)利要求11所述的文檔收集方法,其特征在于,所述接收識別信息的步驟是接收包括與所述文檔關(guān)聯(lián)的鏈接信息的識別信息。
13.如權(quán)利要求11所述的文檔收集方法,其特征在于,所述收集更新信息的步驟是從所述至少一個網(wǎng)站以包括至少一個元素的XML文檔形式收集所述文檔的更新信息。
14.如權(quán)利要求13所述的文檔收集方法,其特征在于,所述收集更新信息的步驟是當(dāng)所述元素為多個時,將多個元素設(shè)置為元素組來進行收集。
15.如權(quán)利要求13所述的文檔收集方法,其特征在于,所述收集更新信息的步驟是基于所述識別信息所包括的分配期間收集所述文檔的更新信息。
16.如權(quán)利要求11所述的文檔收集方法,其特征在于,還包括步驟所述至少一個網(wǎng)站根據(jù)網(wǎng)站接口對所述搜索結(jié)果進行渲染并顯示。
17.一種搜索方法,其特征在于,包括如下步驟從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息并向根據(jù)所述識別信息收集文檔的更新信息的文檔收集系統(tǒng)傳送從網(wǎng)站接收的搜索請求;從所述文檔收集系統(tǒng)接收與所述搜索請求對應(yīng)的搜索結(jié)果;將所述搜索結(jié)果提供給所述至少一個網(wǎng)站。
18.如權(quán)利要求17所述的搜索方法,其特征在于,所述至少一個網(wǎng)站根據(jù)所述網(wǎng)站接口對所述搜索結(jié)果進行渲染并顯示。
19.如權(quán)利要求17所述的搜索方法,其特征在于,所述文檔收集系統(tǒng)從所述至少一個網(wǎng)站以包括至少一個元素的XML文檔形式收集所述文檔的更新信息。
20.如權(quán)利要求17所述的搜索方法,其特征在于,基于所述識別信息所包括的分配期間收集所述文檔的更新信息。
全文摘要
本發(fā)明公開了一種文檔收集系統(tǒng)和方法。文檔收集系統(tǒng)包括識別信息接收部,從至少一個網(wǎng)站接收發(fā)生更新的文檔的識別信息;收集請求傳遞部,根據(jù)所述識別信息向所述網(wǎng)站傳遞所述文檔的收集請求;更新信息收集部,收集響應(yīng)于所述文檔的收集請求從所述至少一個網(wǎng)站傳送的文檔的更新信息;搜索結(jié)果提供部,響應(yīng)于從網(wǎng)站接收的搜索請求將從所述文檔的更新信息提取的搜索結(jié)果提供給所述至少一個網(wǎng)站。根據(jù)文檔收集系統(tǒng),能夠減少網(wǎng)絡(luò)網(wǎng)站的負(fù)荷的同時提高收集的文檔的準(zhǔn)確度。
文檔編號G06F17/30GK102298609SQ20111016889
公開日2011年12月28日 申請日期2011年6月17日 優(yōu)先權(quán)日2010年6月24日
發(fā)明者徐禎佑, 韓承燁, 高永受 申請人:Nhn株式會社