亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在多個文檔之間建立鏈接結(jié)構(gòu)的方法和裝置的制作方法

文檔序號:6633927閱讀:282來源:國知局
專利名稱:在多個文檔之間建立鏈接結(jié)構(gòu)的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文檔信息管理的技術(shù),尤其涉及在在多個文檔之間建立鏈接結(jié)構(gòu)的方法和裝置。
背景技術(shù)
在很多情況下,信息之間是相互關(guān)聯(lián)的。信息之間可以通過鏈接相互關(guān)聯(lián)而形成一定的鏈接拓?fù)浣Y(jié)構(gòu),而該鏈接拓?fù)浣Y(jié)構(gòu)可以作為信息分析的重要資源。WWW系統(tǒng)是信息之間相互鏈接的一種典型的系統(tǒng)。WWW系統(tǒng)包括超鏈接的集合。除了網(wǎng)頁的文本內(nèi)容本身外,類似WWW系統(tǒng)的鏈接結(jié)構(gòu),可以作為重要信息用于幫助用戶搜索所需信息。例如,網(wǎng)頁p上由p指向q的鏈接,該鏈接建議網(wǎng)頁p的讀者跟隨該鏈接訪問q。
利用鏈接分析算法,可以根據(jù)鏈接結(jié)構(gòu)獲取有用的信息并改進(jìn)搜索引擎的性能。利用萬維網(wǎng)的鏈接結(jié)構(gòu),可以為每個網(wǎng)頁在網(wǎng)絡(luò)信息中的重要性賦予一個排序值(rank)。
然而,很多企業(yè)的文檔之間缺乏鏈接,或者沒有鏈接。這使得企業(yè)內(nèi)部的信息搜索變得困難。

發(fā)明內(nèi)容
鑒于已有技術(shù)的不足,本發(fā)明所要解決的問題之一是提供一種在多個文檔之間建立鏈接結(jié)構(gòu)的方法,尤其是在非HTML文檔之間建立鏈接結(jié)構(gòu)的方法。
本發(fā)明的另一個目的是提供一種文檔搜索方法,其中在多個文檔之間建立鏈接結(jié)構(gòu),然后利用該鏈接結(jié)構(gòu)進(jìn)行文檔搜索。這樣,搜索引擎的等級排序可以得到有效的改善。
本發(fā)明提供了一種在多個文檔之間建立鏈接結(jié)構(gòu)的方法,包括a)在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0;b)針對所述多個文檔的至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;c)根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;d)將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,以迭代的方式執(zhí)行上述步驟b)-c),直至修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于一預(yù)定的閾值或上述迭代的次數(shù)達(dá)到預(yù)定的次數(shù);e)輸出修改后的鏈接結(jié)構(gòu)G1。
本發(fā)明還提供了一種修改多個文檔之間的鏈接結(jié)構(gòu)的方法,其中所述多個文檔之間具有包括多個鏈接的初始鏈接結(jié)構(gòu)G0,所述方法包括a)針對所述多個文檔的至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;b)根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;c)將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,以迭代的方式執(zhí)行上述步驟a)-b),直至修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于一預(yù)定的閾值或上述迭代的次數(shù)達(dá)到預(yù)定的次數(shù);d)輸出修改后的鏈接結(jié)構(gòu)G1。
本發(fā)明還提供了一種用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置,包括初始鏈接建立裝置,用于在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0;搜索引擎,配置為針對所述多個文檔的至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;鏈接結(jié)構(gòu)修改裝置,配置為根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;判斷裝置,用于判斷修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別是否小于一預(yù)定的閾值或修改所述鏈接結(jié)構(gòu)的次數(shù)達(dá)到預(yù)定的次數(shù),如果否,則將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,重新利用搜索引擎和鏈接結(jié)構(gòu)修改裝置來修改鏈接結(jié)構(gòu),如果是,則利用一輸出裝置輸出修改后的鏈接結(jié)構(gòu)G1。
本領(lǐng)域的技術(shù)人員容易理解,在本發(fā)明的上述方法或裝置中,針對所述多個文檔(例如文檔1、2、3、4、5、6、7、8、9、10、11和12)的至少部分文檔(例如文檔1、2、3、4和12)中的每個文檔d(文檔d為文檔1、2、3、4或12),根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔(如當(dāng)文檔d為文檔4時,所述多個文檔中的其它文檔為文檔1、2、3、5、6、7、8、9、10、11和12)進(jìn)行等級排序,以獲得等級排序結(jié)果,可以包括但不限于下述技術(shù)方案中的一個或多種針對所述多個文檔的至少部分文檔中的每個文檔,根據(jù)其每個檢索詞利用一搜索引擎分別對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。
針對所述多個文檔的至少部分文檔中的每個文檔,在每一次等級排序中,根據(jù)其多個檢索詞利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。
對于所述每個文檔,根據(jù)其多個檢索詞可以分別根據(jù)其多個檢索詞進(jìn)行等級排序或同時根據(jù)其多個檢索詞進(jìn)行等級排序。
針對所述多個文檔的至少部分文檔中的每個文檔,在每一次等級排序中,對于有的文檔根據(jù)其多個檢索詞利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;而對于有的文檔僅根據(jù)其一個檢索詞利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。
本發(fā)明提供了一種迭代方法,用于將多個已有文檔,尤其是將多個非HTML文檔鏈接起來。根據(jù)該方法,可以在企業(yè)的文檔之間建立類似于萬維網(wǎng)中的鏈接結(jié)構(gòu)。使用該鏈接結(jié)構(gòu)進(jìn)行搜索,可以提高搜索的效能。
根據(jù)本發(fā)明,對于每個非HTML文檔A,查找一些與其相關(guān)的文檔,生成文檔A與這些相關(guān)的文檔之間的鏈接。這樣,就在企業(yè)的文檔之間建立了類似于萬維網(wǎng)中的鏈接結(jié)構(gòu)?;谠撴溄咏Y(jié)構(gòu),可以利用一搜索引擎對具有鏈接結(jié)構(gòu)的多個文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。然后根據(jù)等級排序結(jié)果,修改該鏈接結(jié)構(gòu)。重復(fù)進(jìn)行上兩個步驟就可以改進(jìn)該鏈接結(jié)構(gòu)。該改進(jìn)的鏈接結(jié)構(gòu),更有利于文檔搜索。
根據(jù)本發(fā)明的方法,可以在非HTML文檔之間建立虛擬網(wǎng)絡(luò),該虛擬網(wǎng)絡(luò)的結(jié)構(gòu)類似于萬維網(wǎng)的結(jié)構(gòu)。根據(jù)本發(fā)明建立的鏈接結(jié)構(gòu)還可用于搜索引擎,來改進(jìn)搜索的準(zhǔn)確度(recall and precision)。根據(jù)本發(fā)明的企業(yè)搜索引擎還可以幫助企業(yè)文檔的用戶找到其所需要的信息。


圖1示出了根據(jù)本發(fā)明一實(shí)施例的方法的流程圖。
圖2是根據(jù)本發(fā)明的一實(shí)施例的裝置的框圖。
具體實(shí)施例方式
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式
進(jìn)行詳細(xì)說明。
圖1示出了根據(jù)本發(fā)明一實(shí)施例的方法的流程圖。該流程圖示出了一種在多個文檔之間建立鏈接結(jié)構(gòu)的方法。其中,該多個文檔之間可以完全沒有鏈接,也可以有部分鏈接。該已有的部分鏈接可以作為下文所述的初始鏈接的一部分。
本領(lǐng)域的技術(shù)人員容易理解,該方法還可用于修改多個文檔之間已經(jīng)建立的鏈接結(jié)構(gòu)。
在圖1中的步驟S110,首先在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0。在所述多個文檔之間建立多個初始鏈接可以通過多種已有的方式來進(jìn)行。如可以根據(jù)一篇文檔中的檢索詞(如關(guān)鍵詞、主題詞或根據(jù)文檔的文檔片段得到的其它檢索詞)與其它文檔的相關(guān)程度關(guān)系,來建立初始鏈接;還可以根據(jù)一篇文檔對其它文檔的引用來建立初始鏈接,也可以根據(jù)文檔之間的存儲目錄關(guān)系等等來建立初始鏈接。
在步驟S120,針對具有一個或多個檢索詞的、所述多個文檔的至少部分或全部文檔中的每個文檔d,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。也可以針對所述多個文檔的每個文檔,在同一次等級排序中,根據(jù)其多個檢索詞利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。
其中,檢索詞可以包括關(guān)鍵詞或主題詞,或者根據(jù)文檔內(nèi)容獲得的其它檢索詞。對網(wǎng)頁進(jìn)行等級排序,是本領(lǐng)域中的一項眾所周知的技術(shù),如目前著名的搜索網(wǎng)站http:∥www.google.com所采用的網(wǎng)頁等級排序。在本發(fā)明中,把一個文檔作為一個網(wǎng)頁來看待進(jìn)行文檔等級排序。
在步驟S130,根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1。修改可以但不限于通過以下方式進(jìn)行。對于每篇文檔的每個檢索詞,利用一搜索引擎分別對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔進(jìn)行文檔等級排序后,選擇所述其它文檔在所述等級排序結(jié)果中的前N個文檔。保持或創(chuàng)建所述文檔d到該前N個文檔的鏈接,并刪除所述文檔d到未選定的文檔的鏈接,其中N是自然數(shù)。也可以針對文檔等級排序結(jié)果,通過加權(quán)選擇的方法選擇其中的文檔和/或鏈接。
在步驟S140,比較修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別。該差別可以用相應(yīng)的差別鏈接的數(shù)量來表述,也可以用其它鏈接結(jié)構(gòu)差別的表述方法。差別鏈接的數(shù)量,例如,修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間不同的鏈接的數(shù)量為K,即修改鏈接結(jié)構(gòu)G0的K個鏈接可以得到鏈接結(jié)構(gòu)G1。如果修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別大于給定的閾值,則在步驟S150將G1作為G0,并返回到步驟S120。
重復(fù)執(zhí)行步驟S120-S140,直到修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于給定的閾值,或迭代次數(shù)達(dá)到給定的次數(shù)M。然后,在步驟S160將最終得到的修改后的鏈接結(jié)構(gòu)G1輸出,作為所述多個文檔之間的鏈接結(jié)構(gòu)。
多年以來,企業(yè)已逐漸善于從數(shù)據(jù)庫中提取信息。不幸的是,盡管企業(yè)的大量信息存儲在備忘錄、文章和電子郵件中,直到最近企業(yè)才開始發(fā)掘其所擁有的非結(jié)構(gòu)性數(shù)據(jù)。而從這些非結(jié)構(gòu)性數(shù)據(jù)中提取信息,效率遠(yuǎn)遠(yuǎn)低于從數(shù)據(jù)庫中提取信息。關(guān)鍵詞可以被用于搜索信息,但是無法得知與關(guān)鍵詞匹配的多個文檔之中,哪一個是最重要的。這種在搜索時受挫敗的結(jié)果,現(xiàn)在逐漸成為了企業(yè)所遇到的一種危機(jī)—因為企業(yè)繼續(xù)提高其效率,就需要重新組織他們已經(jīng)擁有的信息,而不能將這些信息忽略。因此,企業(yè)需要一種有效的搜索引擎來在企業(yè)內(nèi)部進(jìn)行信息搜索。
在上文所述的迭代方法中,將已有的非HTML文檔鏈接起來,可以采用下述方法。
在非HTML文檔之中創(chuàng)建與萬維網(wǎng)類似的初始鏈接結(jié)構(gòu)G0。
該方法的基本思想是為每個文檔找到一些與其建立鏈接的候選文檔。例如,可以通過如下方法找到這些候選文檔。
1)如果一篇文檔明確地引用了另一篇文檔,則被引用的文檔就可作為候選文檔。
2)根據(jù)該文檔中的專有命名實(shí)體(named entities)創(chuàng)建鏈接,該鏈接可以是超鏈接或虛擬超鏈接(virtual hyperlinks)。
例如,如果給定文檔A的一個或多個段落描述的核心是一特定的專有命名實(shí)體,而該專有命名實(shí)體是另一文檔B的代表性專有命名實(shí)體(representative named entity),則創(chuàng)建從文檔A到文檔B的鏈接。
3)通過檢索詞(query)創(chuàng)建鏈接在該方法中,從一給定的文檔A中提取一些檢索詞。利用每個檢索詞,使用當(dāng)前的搜索引擎從企業(yè)的其它文檔中找出相關(guān)的文檔。然后,從這些相關(guān)的文檔中選擇一些候選文檔,以便創(chuàng)建與這些候選文檔的鏈接。
在該方法中,可以通過以下方法來生成檢索詞。首先,將文檔分成幾個文本片段。然后為每個文本片段生成一個檢索詞。
可以使用以下本領(lǐng)域已有的歷史算法(history algorithm)來生成所要處理的文本片段;并進(jìn)而利用當(dāng)前文本片段前面的文本片段來輔助生成當(dāng)前文本片段的檢索詞。對于生成文本片段,還可以通過簡單地將文檔劃分為幾段來得到,如將文檔的自然段作為文本片段,或者將文檔中與某一主題相關(guān)的段落作為一文本片段。
歷史算法主要使用以下文檔特性引導(dǎo)到當(dāng)前文本片段的上下文可能包含用于為當(dāng)前文本片段生成檢索詞有用的術(shù)語。
目前,在信息處理方向上,文本的表示主要采用向量空間模型。向量空間模型的基本思想是以向量來表示文本(W1,W2,W3.....Wn),其中Wi為第i個特征項的權(quán)重。一般選擇字、詞或詞組作為特征項。一般地,選取詞作為特征項優(yōu)于字和詞組。因此,要將文本表示為向量空間中的一個向量,就首先要將文本分詞,由這些詞作為向量的維數(shù)來表示文本,最初的向量表示完全是0、1形式,即,如果文本中出現(xiàn)了該詞,那么文本向量的該維為1,否則為0。這種方法無法體現(xiàn)這個詞在文本中的作用程度,所以逐漸0、1被更精確的詞頻代替,詞頻分為絕對詞頻和相對詞頻,絕對詞頻,即使用詞在文本中出現(xiàn)的頻率表示文本,相對詞頻為歸一化的詞頻,其計算方法主要運(yùn)用tf-idf公式。
在歷史算法中,選擇用于生成查詢的一個文本片段(或文本流)。在本發(fā)明的電子文檔的處理方法中,可以從文檔中選擇一部分作為一個文本片段,也可以根據(jù)文檔利用算法自動生成一個文本片段。其中,對文檔首先進(jìn)行預(yù)處理,根據(jù)現(xiàn)有技術(shù)的對文檔的處理方式,所述的預(yù)處理包括從文檔中提取文本片段的操作,以及對提取出的文本片段去除停用詞(stopword)的操作。如果是自動生成文本片段,則可以通過歷史算法來生成一個與文檔內(nèi)容相關(guān)的、待處理的文本片段。該方法主要是基于這一性質(zhì)與當(dāng)前文本片段相連接的先前的文本片段內(nèi)容與當(dāng)前待處理的文本片段的內(nèi)容有可能相關(guān),其對當(dāng)前文本片段查詢信息的生成仍然有所幫助。此處,歷史算法使用先前相關(guān)聯(lián)的文本片段中的詞來輔助生成關(guān)于當(dāng)前文本片段的查詢,即利用當(dāng)前文本片段之前的文本片段S的向量表示(舊文本片段,可用向量v1表示)與當(dāng)前文本片段的向量表示的相關(guān)程度來決定相應(yīng)文本片段的合并,進(jìn)而生成文本片段,即,歷史算法是將以前相關(guān)聯(lián)的文本片段與新的文本片段合并來生成需要處理的文本片段。具體來說,對文本片段來說,其向量表示保存了文本片段中除停用詞之外的每一個詞在文本片段中的重要性(權(quán)重)。所述方法包括i)計算先前相關(guān)聯(lián)的文本片段中每個詞(不包括停用詞)的重要性(權(quán)重),例如使用tf-idf方法,如公式(1)wj=tf*idf(1)在公式1中,tf是該詞在文本片段S中出現(xiàn)的頻率(次數(shù)),idf=all_segments/term_segments;其中,all_segments是整個文檔中獨(dú)立文本片段的數(shù)量,term_segments是其中包含該詞的獨(dú)立文本片段的數(shù)量。此處,獨(dú)立文本片段是用來生成查詢的相關(guān)聯(lián)的若干文本片段構(gòu)成??芍?,在現(xiàn)有搜索技術(shù)中,一個查詢對應(yīng)的是一些關(guān)鍵詞、或是關(guān)鍵詞詞語串,或是一些簡單的問題。
ii)根據(jù)每個詞在文本片段中的重要性,計算當(dāng)前文本片段與在前的多個文本片段S之間的相似程度。具體地,當(dāng)接收到一個新的文本片段T后,使用tf-idf方法來構(gòu)造該新的文本片段的向量表示v2。計算新文本片段T的向量表示v2與舊文本片段S的向量表示v1之間的相似性得分來檢查文本片段T與舊文本片段S之間的相似程度。
iii)將當(dāng)前文本片段T與先前相關(guān)聯(lián)的文本片段S之間的相似性程度與一個給定的閾值進(jìn)行比較。如果相似性得分高出給定的閾值,則可以得出,當(dāng)前文本片段T與之前的文本相似;否則,T與之前的文本不相似。
如果T與位于其之前的文本相似,則將向量v1的每個分量乘以衰減因子α(0<α<1),然后合并向量v1和v2得到向量v3,用v3替代v1。合并S和T得到候選文本片段ST,并用ST替代T,繼續(xù)接受新的文本片段。如果T與之前的文本不相似,文本片段T就是當(dāng)前所要處理的候選文本片段。此外,用向量v2代替向量v1,S代替T,為下一個文本片段的生成作好準(zhǔn)。
在下文中,將為文本片段T、S或ST生成檢索詞。下一步,為這些文本片段生成檢索詞。對于本領(lǐng)域的技術(shù)人員來說,對于一個給定的文本片段,有多種方法來生成檢索詞。首先,文檔的作者可以輸入其所認(rèn)為的與文本片段最相近的檢索詞。第二,可以利用已有的多種算法來生成檢索詞。例如,可以利用tf-idf算法來從給定的文本片段選擇關(guān)鍵詞。在此,可以根據(jù)合并的術(shù)語向量來選擇關(guān)鍵詞。
最后,將檢索詞提交給當(dāng)前的搜索引擎。從搜索結(jié)果中選擇最相關(guān)的文檔,作為給定文檔的候選文檔。在此可以利用搜索引擎,對文檔進(jìn)行等級排序方法,然后選擇前幾個文檔作為候選文檔。也可以通過以下方法選定最相關(guān)的文檔。在搜索結(jié)果中選擇前100篇文檔作為文檔集合D。然后計算文檔集合的向量表示VD。例如,可以通過計算一個詞匯在文檔集合中出現(xiàn)的次數(shù)來創(chuàng)建向量VD。每個集合中的文檔j也以一向量Vdj來表示。然后,利用Sim(D,dj)=cos(VD,Vdj)計算每個文檔與文檔集合之間的相似性。具有最大相似性值的文檔作為候選文檔。
在上述步驟創(chuàng)建的多個初始鏈接形成初始鏈接結(jié)構(gòu)G0。針對至少部分或全部文檔中的每個文檔d,使用為其產(chǎn)生的每一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔進(jìn)行等級排序,以獲得等級排序結(jié)果。在此,將每個文檔作為一個網(wǎng)頁來進(jìn)行因特網(wǎng)等級排序。然后,根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1。例如,對于進(jìn)行等級排序后的多個文檔,取前N個(N為一自然數(shù))文檔,保留或創(chuàng)建上述文檔d到該N個文檔的鏈接。刪除上述文檔d到其它文檔的鏈接。
作為另一種選擇,對于給定的上述文檔d,也可以利用上文步驟中的方法,從等級排序后的文檔中選擇多個候選文檔,例如3個、4個、5個或6個。然后,保留或創(chuàng)建上述文檔d到多個候選文檔的鏈接。而刪除上述文檔d到其它文檔的鏈接。
將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,以迭代的方式執(zhí)行上述修改鏈接結(jié)構(gòu)的步驟,直至修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于一預(yù)定的閾值或上述迭代的次數(shù)達(dá)到預(yù)定的次數(shù)M。
在上述迭代次數(shù)達(dá)到預(yù)定的次數(shù)M的情況下,最多有M個萬維網(wǎng)狀鏈接結(jié)構(gòu),在此表示為G1,G2,...,Gi,...,GM。最終的鏈接結(jié)構(gòu)G可以通過下述方法得到最終的鏈接結(jié)構(gòu)G的節(jié)點(diǎn)是在每個鏈接結(jié)構(gòu)Gi中都包括的那些節(jié)點(diǎn),最終的鏈接結(jié)構(gòu)G的頁節(jié)點(diǎn)(edge)是在多個鏈接結(jié)構(gòu)Gi中包括的那些頁節(jié)點(diǎn)。例如,如果頁節(jié)點(diǎn)eij在M個Gi中至少M(fèi)/3個Gi中的頁節(jié)點(diǎn),則將頁節(jié)點(diǎn)eij包括在最終的鏈接結(jié)構(gòu)中。
圖2示出了根據(jù)本發(fā)明另一實(shí)施例的用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置200。該用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置200用于執(zhí)行本發(fā)明的上述方法,其包括初始鏈接建立裝置210,用于在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0;搜索引擎220,配置為針對至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;鏈接結(jié)構(gòu)修改裝置230,配置為根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;判斷裝置240,用于判斷修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別是否小于一預(yù)定的閾值或修改所述鏈接結(jié)構(gòu)的次數(shù)達(dá)到預(yù)定的次數(shù),如果否,則將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,重新利用搜索引擎和鏈接結(jié)構(gòu)修改裝置來修改鏈接結(jié)構(gòu),如果是,則利用一輸出裝置250輸出修改后的鏈接結(jié)構(gòu)G1。
本發(fā)明還提供了一種搜索方法,包括根據(jù)本發(fā)明的上述的方法,在多個文檔之間建立鏈接結(jié)構(gòu);以及利用該鏈接結(jié)構(gòu)在所述文檔中進(jìn)行搜索。該搜索可以根據(jù)關(guān)鍵詞、文件的類型或時間等進(jìn)行。
本發(fā)明還提供了一種存儲介質(zhì)或信號載體,其中包括用于執(zhí)行根據(jù)本發(fā)明的方法的指令。
以上結(jié)合優(yōu)選法方案對本發(fā)明進(jìn)行了詳細(xì)的描述,但是可以理解,以上實(shí)施例僅用于說明而非限定本發(fā)明。本領(lǐng)域的技術(shù)人員可以對本發(fā)明的所示方案進(jìn)行修改而不脫離本發(fā)明精神。
權(quán)利要求
1.一種在多個文檔之間建立鏈接結(jié)構(gòu)的方法,包括a)在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0;b)針對所述多個文檔中的至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;c)根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;d)將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,以迭代的方式執(zhí)行上述步驟b)-c),直至修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于一預(yù)定的閾值或上述迭代的次數(shù)達(dá)到預(yù)定的次數(shù);e)輸出修改后的鏈接結(jié)構(gòu)G1。
2.根據(jù)權(quán)利要求1所述的在多個文檔之間建立鏈接結(jié)構(gòu)的方法,其中在步驟b)中所述的檢索詞包括文檔的關(guān)鍵詞、主題詞或根據(jù)文檔的文檔片段得到的其它檢索詞。
3.根據(jù)權(quán)利要求1所述的在多個文檔之間建立鏈接結(jié)構(gòu)的方法,其中在步驟c)中進(jìn)一步包括選擇所述其它文檔在所述等級排序結(jié)果中的前N個文檔,保持或創(chuàng)建所述文檔d到該前N個文檔的鏈接,并刪除所述文檔d到未選定的文檔的鏈接,其中N是自然數(shù)。
4.根據(jù)權(quán)利要求1所述的在多個文檔之間建立鏈接結(jié)構(gòu)的方法,其中在步驟a)中進(jìn)一步包括根據(jù)所述多個文檔中每個文檔的檢索詞,從其它文檔中選擇候選文檔,創(chuàng)建每個文檔與候選文檔的初始鏈接。
5.根據(jù)權(quán)利要求1所述的在多個文檔之間建立鏈接結(jié)構(gòu)的方法,其中所述的初始鏈接結(jié)構(gòu)和修改后的鏈接結(jié)構(gòu)是網(wǎng)狀的鏈接結(jié)構(gòu)。
6.一種修改多個文檔之間的鏈接結(jié)構(gòu)的方法,其中所述多個文檔之間具有包括多個鏈接的初始鏈接結(jié)構(gòu)G0,所述方法包括a)針對所述多個文檔的至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;b)根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;c)將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,以迭代的方式執(zhí)行上述步驟a)-b),直至修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于一預(yù)定的閾值或上述迭代的次數(shù)達(dá)到預(yù)定的次數(shù);d)輸出修改后的鏈接結(jié)構(gòu)G1。
7.一種用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置,包括初始鏈接建立裝置,用于在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0;搜索引擎,配置為針對所述多個文檔的至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;鏈接結(jié)構(gòu)修改裝置,配置為根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;判斷裝置,用于判斷修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別是否小于一預(yù)定的閾值或修改所述鏈接結(jié)構(gòu)的次數(shù)達(dá)到預(yù)定的次數(shù),如果否,則將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,重新利用搜索引擎和鏈接結(jié)構(gòu)修改裝置來修改鏈接結(jié)構(gòu),如果是,則利用一輸出裝置輸出修改后的鏈接結(jié)構(gòu)G1。
8.根據(jù)權(quán)利要求7所述的用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置,其中所述的檢索詞包括文檔的關(guān)鍵詞、主題詞或根據(jù)文檔的文檔片段得到的其它檢索詞。
9.根據(jù)權(quán)利要求7所述的用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置,其中所述鏈接結(jié)構(gòu)修改裝置進(jìn)一步配置為選擇所述其它文檔在所述等級排序結(jié)果中的前N個文檔,保持或創(chuàng)建所述文檔d到該前N個文檔的鏈接,并刪除所述文檔d到未選定的文檔的鏈接,其中N是自然數(shù)。
10.根據(jù)權(quán)利要求7所述的用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置,其中所述初始鏈接建立裝置進(jìn)一步配置為根據(jù)所述多個文檔中每個文檔的檢索詞,從其它文檔中選擇候選文檔,創(chuàng)建每個文檔與候選文檔的初始鏈接。
11.根據(jù)權(quán)利要求7所述的用于在多個文檔之間建立鏈接結(jié)構(gòu)的裝置,其中所述的初始鏈接結(jié)構(gòu)和修改后的鏈接結(jié)構(gòu)是網(wǎng)狀的鏈接結(jié)構(gòu)。
12.一種搜索方法,包括根據(jù)權(quán)利要求1-6中的任一種方法,在多個文檔之間建立鏈接結(jié)構(gòu);以及利用該鏈接結(jié)構(gòu)在所述文檔中進(jìn)行搜索。
13.一種存儲介質(zhì)或信號載體,其中包括用于執(zhí)行根據(jù)權(quán)利要求1-6所述方法的指令。
全文摘要
本發(fā)明提供了一種在多個文檔之間建立鏈接結(jié)構(gòu)的方法,包括在所述多個文檔之間建立多個初始鏈接,以形成所述多個文檔之間的初始鏈接結(jié)構(gòu)G0;針對至少部分文檔中的每個文檔d,根據(jù)其一個或多個檢索詞,利用一搜索引擎對具有初始鏈接結(jié)構(gòu)G0的所述多個文檔中的其它文檔進(jìn)行等級排序,以獲得等級排序結(jié)果;根據(jù)所述等級排序結(jié)果修改所述初始鏈接結(jié)構(gòu)G0,以獲得修改后的鏈接結(jié)構(gòu)G1;將修改后的鏈接結(jié)構(gòu)G1作為初始鏈接結(jié)構(gòu)G0,以迭代的方式執(zhí)行上述步驟b)-c),直至修改后的鏈接結(jié)構(gòu)G1與初始鏈接結(jié)構(gòu)G0之間的差別小于一預(yù)定的閾值或上述迭代的次數(shù)達(dá)到預(yù)定的次數(shù);輸出修改后的鏈接結(jié)構(gòu)G1。
文檔編號G06F17/30GK1904886SQ20051008882
公開日2007年1月31日 申請日期2005年7月29日 優(yōu)先權(quán)日2005年7月29日
發(fā)明者劉世霞, 楊力平, 張俐 申請人:國際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1