專利名稱:自動(dòng)生成詞條層次的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及詞典分析,更具體地涉及自動(dòng)生成詞條層次。
技術(shù)背景數(shù)據(jù)語料庫(corpus)可保存大量信息,然而找到相關(guān)的信息可能很 難??梢詣?chuàng)建詞條層次來方便搜索相關(guān)信息。然而,在某些場(chǎng)合下,生 成詞條層次的已知技術(shù)在某些場(chǎng)合下效率不高。
圖1圖示了自動(dòng)生成表示詞條層次的層次圖的系統(tǒng)的一個(gè)實(shí)施方式; 圖2圖示了可用于圖1的系統(tǒng)的相關(guān)度(affinity)模塊的一個(gè)實(shí)施方式;圖3圖示了記錄基本相關(guān)度的相關(guān)度矩陣的示例; 圖4圖示了記錄有向相關(guān)度的相關(guān)度矩陣的示例; 圖5圖示了記錄平均相關(guān)度的相關(guān)度矩陣的示例; 圖6圖示了相關(guān)度圖的示例;圖7圖示了可用于圖1的系統(tǒng)的聚類模塊的一個(gè)實(shí)施方式; 圖8圖示了可用于圖1的系統(tǒng)的本體(ontology)特征模塊的一個(gè)實(shí) 施方式;圖9圖示了可用于圖1的系統(tǒng)的層次模塊的一個(gè)實(shí)施方式; 圖IO圖示了層次圖的示例;而圖IIA和11B圖示了可從中移除冗余父子關(guān)系的節(jié)點(diǎn)。特定實(shí)施方式 概述在某些實(shí)施方式中,生成詞條層次包括訪問包括多個(gè)詞條的語料庫。 對(duì)一個(gè)或多個(gè)詞條執(zhí)行下述步驟以生成父子關(guān)系根據(jù)有向相關(guān)度來標(biāo) 識(shí)詞條的一個(gè)或多個(gè)父詞條;以及根據(jù)這些父詞條和每個(gè)詞條來建立一個(gè)或多個(gè)父子關(guān)系。根據(jù)這些父子關(guān)系而自動(dòng)生成層次圖。 示例實(shí)施方式在具體實(shí)施方式
中,創(chuàng)建和查詢域本體可包括下述步驟1. 收集域中的文檔。在具體實(shí)施方式
中,文檔是詞條的集合。文檔 可包括例如《新約圣經(jīng)》書的可讀文本。文檔不必包括敘述形式的文本, 例如,文檔可包括一組用戶輸入的、單獨(dú)和共同描述圖像內(nèi)容的標(biāo)簽。 文檔的集合可被稱為"域語料庫"。2. 標(biāo)識(shí)域中感興趣的詞條("詞典詞條")。詞條的示例包括詞(如 "樹(tree)")、短語(如"圖形算法(graph algorithm)")、命名實(shí)體(如 "紐約(New York)")等。詞條(或概念)可以有不同的形式。在某些情況下,不同的詞用于相同的概念,例如,"腎結(jié)石(kidney stones)"和 "腎石病(kidney calculi)"指相同的概念,"腎結(jié)石"。在其他情況下, 詞干可以有許多詞形變化,例如,詞干"tree"具有詞形變化"tree"和 "trees"。在具體實(shí)施方式
中,相同詞條的各形式可被認(rèn)為是映射到相同 的詞條。詞典詞條的任何適當(dāng)形式都可能在文檔中出現(xiàn),但是具體詞典 詞條不必在任何文檔中出現(xiàn)。用于標(biāo)識(shí)詞典詞條的示例包括使用對(duì)于特定域的人類生成的詞典, 例如醫(yī)學(xué)詞典。在具體實(shí)施方式
中,可以根據(jù)語料庫中的一組文本串向 動(dòng)生成詞典詞條的列表。這些串可按頻率來索引和分類,并且可選擇頻 率在閾值之上的串??梢允褂闷渌m當(dāng)?shù)慕y(tǒng)計(jì)方法來確定詞條。在具體 實(shí)施方式中,"詞"可與"詞條"和"詞典詞條"互換。3. 計(jì)算在給定共現(xiàn)(co-occurrence)上下文中詞典詞條的共現(xiàn)數(shù)量。 如果兩個(gè)詞條在相同的共現(xiàn)上下文中都至少出現(xiàn)一次,則它們共現(xiàn)。共 現(xiàn)上下文的示例包括文檔和段落。4. 創(chuàng)建包括域本體的有向加權(quán)圖。有向加權(quán)圖包括作為節(jié)點(diǎn)的詞典 詞條和作為邊緣權(quán)重的相關(guān)度。"有向加權(quán)圖"可用作可由任何適當(dāng)數(shù)據(jù)結(jié)構(gòu)表示的相同信息的實(shí)際表示,例如矩陣、二進(jìn)制判決圖或二進(jìn)制判 決圖的集合。5.應(yīng)用查詢有向加權(quán)圖的過程。給定一個(gè)或多個(gè)詞典詞條作為輸 入,該過程輸出了與輸入詞典詞條有關(guān)的一個(gè)或多個(gè)詞典詞條。例如, 該過程可輸出對(duì)一個(gè)或多個(gè)輸入詞條具有最高差分有向相關(guān)度(下面進(jìn) 行描述)的一個(gè)或多個(gè)詞條的分類列表。在此情況下,輸出包括與本體 所尋址的域相關(guān)的、與輸入詞條更緊密相關(guān)的詞條??墒褂萌魏芜m當(dāng)?shù)南嚓P(guān)度定義。在具體實(shí)施方式
中,可使用下述定義1. 基本相關(guān)度a. 詞條A與B之間的基本相關(guān)度(A)可定義為包括詞條A和B 兩者的共現(xiàn)上下文的數(shù)量與包括詞條A或B的共現(xiàn)上下文的數(shù)量之比A(A,B) = |AB|/|A or B|b. 詞條A與B之間的基本相關(guān)度(A)還可定義為包括詞條A和B 兩者的共現(xiàn)上下文的數(shù)量與包括A的共現(xiàn)上下文的數(shù)量和包括B的共現(xiàn) 上下文的數(shù)量中的最大值之比A(A,B) = |AB|/max(|A|,|B|)2. 有向相關(guān)度詞條A與B之間的有向相關(guān)度(DAff)可定義為假定在共現(xiàn)上下文 中觀察到A的情況下觀察到B的條件概率 DAff(A, B) = |AB| / |A|艮口,有向相關(guān)度可以是在包括詞條A和B兩者的共現(xiàn)上下文的數(shù)量 與包括詞條A的共現(xiàn)上下文的數(shù)量之比。通常,DAff(A,B)與DAff(B,A) 不同。3. 差分有向相關(guān)度詞條A與B之間的差分有向相關(guān)度(DiffDAff)可定義為詞條A與 B之間的有向相關(guān)度減去考慮到詞條B在語料庫中的共性的因子。詞條B 在語料庫中的共性可以是詞條B對(duì)語料庫中的其他詞條的基本相關(guān)度或 有向相關(guān)度值的統(tǒng)計(jì)值。在具體實(shí)施方式
中,詞條B在語料庫中的共性可以是詞條B的平均相關(guān)度(AA),這得出了下面的差分有向相關(guān)度的 定義-DiffDAff(A,B) = DA(A,B) - AA(B)詞條B的平均相關(guān)度(AA)或平均有向相關(guān)度可定義為 AA(B) = AVERAGE—x DAff(x, B)艮口,平均相關(guān)度可以是詞條B對(duì)共現(xiàn)上下文中的其他詞條的有向相 關(guān)度的平均。圖1圖示了自動(dòng)生成表示詞條的層次的層次圖的系統(tǒng)10的一個(gè)實(shí)施 方式。在具體實(shí)施方式
中,系統(tǒng)10訪問包括多個(gè)文檔(或頁面)的語料 庫。系統(tǒng)10根據(jù)有向相關(guān)度來標(biāo)識(shí)語料庫的詞條的父詞條,并且建立各 詞條之間的父子關(guān)系。系統(tǒng)IO然后根據(jù)父子關(guān)系來自動(dòng)生成層次圖。在某些實(shí)施方式中,可對(duì)詞典D和詞的給定子集的特定反向索引II計(jì)算有向相關(guān)度,其中索引II例如包括詞Wj和Wj的條目I(Wj)和。通常而言,反向索引是一種存儲(chǔ)了從詞條到其位置(即,詞條出現(xiàn)的共 現(xiàn)上下文)的映射的索引數(shù)據(jù)結(jié)構(gòu)。對(duì)于D中的每對(duì)詞Wi和w」,可將 II中的條目I(Wj)和I(Wj)的合取(conjunction)的值除以I(Wi)中的值的數(shù) 量定義為DA(i,j)。通常,DA(i,j)不必等于DA(j,i)。結(jié)果可按照例如逐行 的任何適當(dāng)方式進(jìn)行存儲(chǔ),在逐行方式中,先存儲(chǔ)D(l,i),然后存儲(chǔ)D(2,j)等等。對(duì)于每行i,可以存儲(chǔ)II(Wj)l,然后存儲(chǔ)與Wj合取的基數(shù)。在某些實(shí)施方式中,有向相關(guān)度可以按三個(gè)階段來計(jì)算。在這些實(shí) 施方式中,為每個(gè)詞典詞條分配了唯一的整數(shù)標(biāo)識(shí)符。反向索引的條目 對(duì)應(yīng)于這些整數(shù)標(biāo)識(shí)符。在階段0,讀取對(duì)應(yīng)于D的II條目。對(duì)于參數(shù) (s,o),僅保留具有ks+o的形式的元素標(biāo)識(shí)符。值ks+o定義限定了要檢査 的II條目的子集。這樣,就可以并行地計(jì)算有向相關(guān)度。舉例來說,來 自參數(shù)s,o(l,0)的結(jié)果等于對(duì)參數(shù)(3,0)、 (3,1)和(3,2)的計(jì)算進(jìn)行合并而 得到的結(jié)果。該步驟使得能夠針對(duì)非常大的反向索引來計(jì)算DA表。在階段l,僅針對(duì)DA(i,j)逐行計(jì)算合取。在階段2,讀取計(jì)算出的上 三角UTDA陣列。據(jù)此獲得了作為UT的轉(zhuǎn)置的下三角部分。在某些實(shí) 施方式中,相同維數(shù)的多個(gè)DA陣列可以合并為單個(gè)陣列。大II上的DA陣列可以按帶參數(shù)(s,i)的sumn)..(s-DDA來計(jì)算??膳c計(jì)算出的合取一起存 儲(chǔ)附加信息,使得能夠計(jì)算有向相關(guān)度。在某些情況下,可以存儲(chǔ)II條 目的基數(shù)。在某些實(shí)施方式中,可逐行存儲(chǔ)DA,因此AA條目的計(jì)算可以與 DA條目的計(jì)算并行進(jìn)行。具體來講,AA可通過在從盤上讀取DA時(shí)對(duì) 它們的各行求和而生成,最后用詞典條目的數(shù)量進(jìn)行歸一化。在圖示的實(shí)施方式中,系統(tǒng)10包括客戶機(jī)20、服務(wù)器22以及存儲(chǔ) 器24。客戶機(jī)20允許用戶與服務(wù)器22進(jìn)行通信以生成語言的本體???戶機(jī)20可將用戶輸入發(fā)送到服務(wù)器22,并且可以向用戶提供(例如,顯 示或打印)服務(wù)器輸出。服務(wù)器系統(tǒng)24對(duì)用于生成語言的本體的應(yīng)用進(jìn) 行管理。存儲(chǔ)器24存儲(chǔ)了服務(wù)器系統(tǒng)24所使用的數(shù)據(jù)。在圖示的實(shí)施方式中,存儲(chǔ)器24存儲(chǔ)了頁面50和記錄54。頁面50 (或文檔或共現(xiàn)上下文)可指詞的集合。頁面50的示例包括文檔的一個(gè) 或多個(gè)頁面、 一個(gè)或多個(gè)文檔、 一本或多本書、 一個(gè)或多個(gè)web頁面、 信件(例如電子郵件或即時(shí)消息)和/或詞的其他詞的集合。頁面50可以 由頁面標(biāo)識(shí)符來標(biāo)識(shí)。頁面50可以電子地存儲(chǔ)在一個(gè)或多個(gè)有形計(jì)算機(jī) 可讀介質(zhì)中。頁面50可以與例如文本(如字符、詞和/或數(shù)字)、圖像(如 圖片、照片或視頻)、音頻(如錄音或計(jì)算機(jī)生成的聲音)和/或軟件程序 的任何適當(dāng)?shù)膬?nèi)容相關(guān)聯(lián)。在某些實(shí)施方式中, 一組頁面50可屬于語料 庫。語料庫可與特定的主題、社區(qū)、組織或其他實(shí)體相關(guān)聯(lián)。記錄54用于描述頁面50。在實(shí)施方式中,記錄54包括索引58、反 向索引62、本體66和聚類(duster) 67。索引58包括索引列表,其中 頁面50的索引列表指示了頁面50的詞。反向索引62包括反向索引列表, 其中詞(或一組詞)的反向索引列表指示了包括該詞(或該組詞)的頁 面50。在一個(gè)示例中,列表Wj包括包含詞Wj的頁面50的頁面標(biāo)識(shí)符。 列表Wj和Wj包括包含詞Wi和Wj二者的合取頁面50的頁面標(biāo)識(shí)符。列 表Wj+Wj包括包含詞Wj或Wj的析取頁面50的頁面標(biāo)識(shí)符。P(Wj)是Wj 的頁面50的數(shù)量,S卩,包括詞Wj的頁面50的數(shù)量。在一個(gè)實(shí)施方式中,列表(如,索引列表或反向索引列表)可被存儲(chǔ)為二進(jìn)制判決圖(BDD)。在一個(gè)示例中,集合Wi的二進(jìn)制判決圖 BDD(Wi)表示包含詞Wj的頁面50。 BDD(Wi)的滿足指定計(jì)數(shù) Satisf(BDD(Wi))得到了包含詞Wi的頁面50的數(shù)量P(Wj): P(Wi) = Satisf(BDD(Wi))相應(yīng)地,P(Wi & Wj) = Satisf(BDD(WO AND BDD(Wj)) P(Wj + Wj) = Satisf(BDD(Wi) OR BDD(W》)本體66表示語言的詞以及詞間的關(guān)系。在一個(gè)實(shí)施方式中,本體 66表示詞間的相關(guān)度。在圖示的示例中,本體66包括相關(guān)度矩陣和相關(guān) 度圖。相關(guān)度矩陣的示例將參照?qǐng)D3到圖5來描述。相關(guān)度圖的示例將 參照?qǐng)D6來描述。聚類67記錄了彼此相關(guān)的詞的聚類。聚類將參照?qǐng)D7 來更詳細(xì)地描述。在圖示的實(shí)施方式中,服務(wù)器22包括相關(guān)度模塊30、聚類模塊31、 本體特征模塊32和層次模塊37。相關(guān)度模塊30可計(jì)算詞對(duì)的相關(guān)度、 將相關(guān)度記錄在相關(guān)度矩陣中,和/或報(bào)告相關(guān)度矩陣。相關(guān)度模塊30 還可生成相關(guān)度圖。相關(guān)度模塊30將參照?qǐng)D2來更詳細(xì)地描述。在特定實(shí)施方式中,聚類模塊31可通過標(biāo)識(shí)數(shù)據(jù)集合中相關(guān)元素的 聚類來發(fā)現(xiàn)數(shù)據(jù)集合中的模式。在特定實(shí)施方式中,聚類模塊31可標(biāo)識(shí) 一組詞的聚類(例如,語言或一組頁面50)。通常而言,聚類的詞是彼此 高度相關(guān)的,但是與聚類外的詞卻并非如此。 一聚類詞可指定一組詞的 主題(或話題)。在特定實(shí)施方式中,聚類模塊31根據(jù)詞間的相關(guān)度來 標(biāo)識(shí)相關(guān)詞的聚類。在這些實(shí)施方式中,聚類的詞彼此高度相關(guān),但與 聚類外的詞卻并非如此。聚類模塊31將參照?qǐng)D7來更詳細(xì)地描述。在特定實(shí)施方式中,本體特征模塊32可確定一個(gè)或多個(gè)詞(例如, 特定詞或包括多詞的文檔)的集合的一個(gè)或多個(gè)本體特征,然后可在各 種情況下應(yīng)用本體特征。本體特征是可將詞組放置在語言的本體空間中 的詞組的特征。本體特征的示例包括深度和具體性(specificity)。在特定 實(shí)施方式中,深度可表示詞組的字面復(fù)雜度。較深的詞組可以是更技術(shù) 性和更專業(yè)性的,而較淺的詞組可以是更普通的。在特定實(shí)施方式中,詞組的具體性與詞組的主題數(shù)量相關(guān)。較具體的詞組可以有較少的主題, 而較不具體的詞組可以有較多的主題。本體特征模塊32可在任何適當(dāng)?shù)膱?chǎng)合應(yīng)用本體特征。適當(dāng)場(chǎng)合的示 例包括根據(jù)本體特征來搜索、分類或選擇文檔;報(bào)告文檔的本體特征; 以及確定一個(gè)或多個(gè)用戶的文檔的本體特征。本體特征模塊32將參照?qǐng)D 8來更詳細(xì)地描述。在特定實(shí)施方式中,層次模塊37自動(dòng)生成表示詞條的層次的層次 圖。在這些實(shí)施方式中,層次模塊37訪問包括多個(gè)文檔(或頁面)的語 料庫。層次模塊37根據(jù)有向相關(guān)度來標(biāo)識(shí)語料庫的詞條的父詞條,并且 建立詞條間的父子關(guān)系。層次模塊37隨后根據(jù)父子關(guān)系來自動(dòng)生成層次 圖。層次模塊37將參照?qǐng)D9來更詳細(xì)地描述。系統(tǒng)10的組件可包括接口、邏輯、存儲(chǔ)器和/或其他適當(dāng)?shù)脑?接口接收輸入、發(fā)送輸出、處理輸入和/或輸出,和/或執(zhí)行其他適當(dāng)?shù)牟?作。接口可包括硬件和/或軟件。邏輯執(zhí)行組件的操作,例如執(zhí)行根據(jù)輸入來生成輸出的指令。邏輯 可包括硬件、軟件和/或其他邏輯。邏輯可編碼在一個(gè)或多個(gè)有形介質(zhì)中, 并且在被計(jì)算機(jī)執(zhí)行時(shí)可執(zhí)行操作。諸如處理器的某些邏輯可管理組件 的操作。處理器的示例包括一個(gè)或多個(gè)計(jì)算機(jī)、 一個(gè)或多個(gè)微處理器、 一個(gè)或多個(gè)應(yīng)用和/或其他邏輯。存儲(chǔ)器存儲(chǔ)有信息。存儲(chǔ)器可包括一個(gè)或多個(gè)有形的計(jì)算機(jī)可讀和/ 或計(jì)算機(jī)可執(zhí)行存儲(chǔ)介質(zhì)。存儲(chǔ)器的示例包括計(jì)算機(jī)存儲(chǔ)器(例如,隨 機(jī)存取存儲(chǔ)器(RAM)或只讀存儲(chǔ)器(ROM))、大容量存儲(chǔ)介質(zhì)(例如, 硬盤)、可移除存儲(chǔ)介質(zhì)(例如,致密盤(CD)或數(shù)字視頻盤(DVD))、 數(shù)據(jù)庫和/或網(wǎng)絡(luò)存儲(chǔ)(例如,服務(wù)器)和/或其他計(jì)算機(jī)可讀介質(zhì)??梢詫?duì)系統(tǒng)10進(jìn)行修改、添加或省略而不會(huì)偏離本發(fā)明的范圍。系 統(tǒng)10的組件可以是集成的或分立的。此外,系統(tǒng)10的操作可由更多、 更少或其他組件來執(zhí)行。例如,生成器42和46的操作可由一個(gè)組件來 執(zhí)行,或者相關(guān)度計(jì)算器34的操作可由多于一個(gè)組件來執(zhí)行。此外,系 統(tǒng)10的操作可使用包括軟件、硬件和/或其他邏輯的任何適當(dāng)邏輯來執(zhí)行。在本文中使用時(shí),"每個(gè)"是指集合的每個(gè)成員或集合的子集的每個(gè) 成員。可對(duì)矩陣的示例進(jìn)行修改、添加或省略而不會(huì)偏離本發(fā)明的范圍。 矩陣可包括更多、更少或其他值。此外,矩陣的值可按任何適當(dāng)?shù)捻樞?排列。圖2圖示了可用于圖1的系統(tǒng)10的相關(guān)度模塊30的一個(gè)實(shí)施方式。 相關(guān)度模塊30可計(jì)算詞對(duì)的相關(guān)度、將相關(guān)度記錄到相關(guān)度矩陣中和/ 或報(bào)告相關(guān)度矩陣。相關(guān)度模塊30還可生成相關(guān)度圖。在圖示的實(shí)施方式中,相關(guān)度模塊30包括相關(guān)度計(jì)算器34、本體 生成器38和詞推薦器48。相關(guān)度計(jì)算器34計(jì)算詞Wi或包括第-一詞Wi 和第二詞Wj的詞對(duì)的任何適當(dāng)類型的相關(guān)度。相關(guān)度的示例包括基本、 有向、平均、差分和/或其他相關(guān)度。在一個(gè)實(shí)施方式中,詞推薦器48接收種詞(seedword),并且標(biāo)識(shí) 與種詞的相關(guān)度大于閾值相關(guān)度的詞。閾值相關(guān)度可以為任何適當(dāng)?shù)闹担?如大于等于0.25、 0.5、 0.75或0.95。閾值相關(guān)度可預(yù)編程或由用戶指定?;鞠嚓P(guān)度可根據(jù)包括詞Wi和/或Wj的頁面50的量(例如,數(shù)量) 來計(jì)算。合取頁面量表示了包括詞Wj和詞Wj兩者的頁面50的量,而析 取頁面量表示了包括詞Wj或詞Wj的頁面50的量?;鞠嚓P(guān)度可通過合 取頁面量除以析取頁面量來給出。在一個(gè)示例中,合取頁面的數(shù)量表示 了包括詞Wi和詞Wj的頁面的數(shù)量,而析取頁面的數(shù)量表示了包括詞Wi 或詞Wj的頁面的數(shù)量?;鞠嚓P(guān)度可通過合取頁面的數(shù)量除以析取頁面 的數(shù)量來給出Affinity (wi5 w》=P(Wi & Wj) / P(Wj + Wj)圖3圖示了記錄基本相關(guān)度的相關(guān)度矩陣110的示例。在圖示的示 例中,相關(guān)度矩陣IIO記錄了詞Wlv.. ,W5的逐對(duì)相關(guān)度。根據(jù)相關(guān)度矩 陣110,詞w。和Wi之間的相關(guān)度是0.003,詞wo和W2之間的相關(guān)度是 0.005,等等。回來參照?qǐng)D1,相關(guān)度組包括彼此具有高相關(guān)度的詞對(duì),并且可用于捕獲詞W,和W2之間相對(duì)于頁面內(nèi)容的關(guān)系。高相關(guān)度可以被指定為高于相關(guān)度組閾值的相關(guān)度。閾值可設(shè)置為任何適當(dāng)?shù)闹担绱笥诘扔?.50、 0.60、 0.75、 0.90或0.95。詞可屬于多于一個(gè)的相關(guān)度組。在一個(gè) 實(shí)施方式中,相關(guān)度組可表示為BDD。 BDD的指針可與該組的每個(gè)詞一 起存儲(chǔ)在反向索引62中。有向相關(guān)度可用于測(cè)量詞Wi相對(duì)于詞Wj的重要性。相關(guān)度計(jì)算器 34根據(jù)包括詞Wi和Wj的頁面50的量(例如,數(shù)量)來計(jì)算在給定詞Wj 的情況下詞Wj的有向相關(guān)度。詞Wj頁面量表示了包括詞Wj的頁面50的量。給定詞Wj的情況下詞Wj的有向相關(guān)度可由合取頁面量除以詞Wj頁面量來給出。例如,詞Wj頁面的數(shù)量表示了包括詞Wj的頁面50的數(shù)量。 給定詞wj的情況下詞Wi的有向相關(guān)度可由合取頁面50的數(shù)量除以詞Wi 頁面50的數(shù)量來給出<formula>formula see original document page 15</formula>
DAffinity(Wi, w》與DAffinity(Wj , Wj)不同。詞w;和Wj之間的高有向 相關(guān)度DA伍nity(Wi, w》表示在頁面50包括詞Wj的情況下頁面50包括詞 Wi的較高概率。在一個(gè)示例中,頁面[1 2 3 4 5 6]包括詞Wj,而頁面[4 2〗包括詞Wj。包括詞Wj的頁面也包括詞Wj,因此從詞Wj的角度來看,詞 Wi是非常重要的。僅三分之一包括Wi的頁面也包括詞Wj,因此從詞Wi的角度來看,詞Wj是不重要的。圖4圖示了記錄了詞wo, ,.., w5的有向相關(guān)度的相關(guān)度矩陣120的示 例。在該示例中,詞124是A詞,而詞128是B詞。矩陣120的各行記 錄了在給定A詞的情況下B詞的相關(guān)度,并且相關(guān)度矩陣120的各列記 錄了在給定B詞的情況下A詞的相關(guān)度。回來參照?qǐng)Dl,詞Wj的平均相關(guān)度是針對(duì)其他詞Wj而計(jì)算的。在一 個(gè)實(shí)施方式中,平均相關(guān)度可以是詞Wi和每個(gè)其他詞Wj之間的相關(guān)度的 平均。詞Wi對(duì)N個(gè)詞的平均相關(guān)度可如下給出<formula>formula see original document page 15</formula>圖5圖示了記錄了平均相關(guān)度的相關(guān)度矩陣140的示例。行142記 錄了詞1到詞50, 000的基本相關(guān)度。行144記錄了詞1到詞50,000的 平均相關(guān)度。回來參照?qǐng)D1,詞的平均相關(guān)度可表示詞的深度。具有較低平均相 關(guān)度的詞可被認(rèn)為是較深詞,而具有較高平均相關(guān)度的詞可被認(rèn)為是較 淺詞。較深詞趨于更技術(shù)性、具體和精確。具有較高百分比的較深詞的頁面50可被認(rèn)為是較深頁面,而具有較低百分比的較深詞的頁面50可 被認(rèn)為是較淺頁面。在一個(gè)實(shí)施方式中,用戶可指定要檢索的詞和/或頁 面50的深度。頁面50的較深詞可形成較高相關(guān)詞的一個(gè)或多個(gè)聚類。聚類可表示 共同的想法或主題。頁面50的主題數(shù)量可以表示頁面50的具體性。具 有較少主題的頁面50可被認(rèn)為更具體,而具有較多主題的頁面50可被 認(rèn)為較不具4本。詞Wi相對(duì)于詞Wj的差分相關(guān)度是詞Wj與詞Wj之間的有向相關(guān)度減 去詞Wj對(duì)于所有其他詞的平均相關(guān)度。差分相關(guān)度可以表達(dá)為DiffAff(Wj, Wj) = DAffinity(Wi, Wj) — AveAff(w》差分相關(guān)度移除了由詞Wj在頁面50中的出現(xiàn)的一般傾向引起的偏置。在特定環(huán)境中,差分相關(guān)度可提供在頁面包括詞Wj的情況下該頁面包括詞Wi的概率的更精確表示。差分相關(guān)度可用在各種應(yīng)用中。在一個(gè)示例中,可以使用人名之間 的差分相關(guān)度來研究社會(huì)關(guān)系網(wǎng)。在另一示例中,可以使用語言元素之 間的差分相關(guān)度來研究自然語言處理。在另一示例中,可以使用產(chǎn)品之 間的差分相關(guān)度來研究市場(chǎng)。相關(guān)度計(jì)算器34可使用任何適當(dāng)?shù)募夹g(shù)來搜索反向索引列表以計(jì) 算相關(guān)度。例如,為了標(biāo)識(shí)包括詞Wi和Wj兩者的頁面,相關(guān)度計(jì)算器34 可在詞Wi的列表Wi和詞Wj的列表W」中搜索共同元素,即,共同頁面標(biāo) 識(shí)符。在特定實(shí)施方式中,本體生成器38生成語言的本體66,如相關(guān)度 矩陣或相關(guān)度圖。本體可從諸如基本、有向、平均、差分和/或其他相關(guān) 度中的任何適當(dāng)相關(guān)度生成。本體66可從以任何適當(dāng)方式從語言中選擇 的詞來生成。例如,可以選擇來自與一個(gè)或多個(gè)特定主題相關(guān)的詞或語 言的共同使用部分的詞。在圖示的實(shí)施方式中,本體生成器38包括相關(guān)度矩陣生成器42和 相關(guān)度圖生成器46。相關(guān)度矩陣生成器42生成記錄了詞之間的相關(guān)度的 相關(guān)度矩陣。相關(guān)度圖生成器46生成表示詞之間的相關(guān)度的相關(guān)度圖。 在相關(guān)度圖中,節(jié)點(diǎn)表示詞,而各節(jié)點(diǎn)之間的有向邊緣的權(quán)重表示各節(jié) 點(diǎn)所表示的詞之間的相關(guān)度。相關(guān)度圖可以有任何適當(dāng)?shù)木S數(shù)。圖6圖示了相關(guān)度圖150的示例。相關(guān)度圖150包括節(jié)點(diǎn)154和鏈 接158。節(jié)點(diǎn)154表示詞。在該示例中,節(jié)點(diǎn)154a表示詞"二進(jìn)制"。各 節(jié)點(diǎn)154之間的有向邊緣的權(quán)重表示各節(jié)點(diǎn)154所表示的詞之間的相關(guān) 度。例如,較大的權(quán)重表示較大的相關(guān)度。節(jié)點(diǎn)之間的鏈接158表示節(jié) 點(diǎn)154所表示的詞之間的相關(guān)度大于相關(guān)度閾值。相關(guān)度閾值可以為任 何適當(dāng)?shù)闹?,例如大于等?.25、 0.5、 0.75或0.95。圖7圖示了可用于圖1的系統(tǒng)10的聚類模塊31的一個(gè)實(shí)施方式。 在特定實(shí)施方式中,聚類模塊31通過標(biāo)識(shí)數(shù)據(jù)集合中相關(guān)元素的聚類來 發(fā)現(xiàn)數(shù)據(jù)集中的模式。在特定實(shí)施方式中,聚類模塊31可標(biāo)識(shí)詞的集合 的聚類(例如,頁面50或語言的集合)。通常,聚類的詞彼此高度相關(guān), 但是與聚類外的詞卻并非如此。 一聚類詞可指定詞的集合的主題(或話 題)。在特定實(shí)施方式中,聚類模塊31根據(jù)詞之間的相關(guān)度來標(biāo)識(shí)相關(guān)詞 的聚類。在該實(shí)施方式中,聚類的詞彼此高度相關(guān),但是與聚類外的詞 卻并非如此。在一個(gè)實(shí)施方式中,如果詞足夠相關(guān),則它們可以被認(rèn)為 是高度相關(guān)的。如果它們滿足一個(gè)或多個(gè)相關(guān)度準(zhǔn)則(如閾值),則它們 可以是足夠相關(guān)的,其示例在下面給出。任何適當(dāng)?shù)南嚓P(guān)度都可用于標(biāo)識(shí)聚類。在特定實(shí)施方式中,聚類模 塊31使用了有向相關(guān)度。詞相對(duì)于其他詞的有向相關(guān)度表征了詞的共現(xiàn)。聚類包括具有相似共現(xiàn)的詞。在某些實(shí)施方式中,聚類模塊31使用了差 分相關(guān)度。差分相關(guān)度趨于移除由詞在頁面50中出現(xiàn)的一般傾向造成的 偏置。在圖示的實(shí)施方式中,聚類模塊31包括聚類引擎210和聚類分析器 214。聚類引擎210根據(jù)相關(guān)度來標(biāo)識(shí)詞的聚類,而聚類分析器214應(yīng)用相關(guān)度聚類以分析各種情況。聚類引擎210可按任何適當(dāng)方式根據(jù)相關(guān)度來標(biāo)識(shí)詞的聚類。標(biāo)識(shí) 聚類的方法的三個(gè)示例給出如下根據(jù)詞的集合來構(gòu)建聚類,將詞排序 為聚類,以及比較詞的相關(guān)度矢量。在一個(gè)實(shí)施方式中,聚類引擎210 根據(jù)詞的集合來構(gòu)建聚類。在一個(gè)示例中,聚類引擎210根據(jù)相關(guān)度為 fAff(Wi,Wj)的詞(wJ的集合W構(gòu)建出聚類S。相關(guān)度值+Aff(Wi,Wj)表示詞 Wi相對(duì)于詞Wj的任何適當(dāng)類型的相關(guān)度,例如有向相關(guān)度DAffmity(Wi,Wj) 或差分相關(guān)度DiffAff(Wi,Wj)。這里提供的相關(guān)度值的某些示例可以被認(rèn)為是歸一值。在該示例中,Afff。r(Wi,Wj)表示前向相關(guān)度,而Affback(Wj,Wi)表示后向禾目關(guān)度o在該示例中,聚類S以種詞Wq開始。當(dāng)前詞Wx表示聚類S的在當(dāng)前迭代中與來自集合W的詞進(jìn)行比較的詞。 一開始,當(dāng)前詞wj皮設(shè)置為禾中詞Wq。在迭代過程中,當(dāng)前詞Wx被設(shè)置為聚類S的詞。根據(jù)集合W的詞 W與當(dāng)前詞wx的前向相關(guān)度Afff。^Vi,wJ對(duì)它們進(jìn)行排序。以排序過的集 合W的起點(diǎn)開始,標(biāo)識(shí)滿足相關(guān)度準(zhǔn)則的候選詞w。。相關(guān)度準(zhǔn)則可包括與當(dāng)前詞Wx準(zhǔn)則的前向相關(guān)度 Afff0l.(wc, wx) > Thcf 和與種詞wq準(zhǔn)則的后向相關(guān)度 Affback(Wq, wc) 〉 Thcb其中Thcf表示候選詞的前向閾值,而Thcb表示候選詞的后向閾值。 候選詞(w^的有序集合的第一個(gè)詞被添加到聚類S,添加的詞的數(shù)量由參數(shù)SizeJ合定。閾值Thef和Theb可以是范圍從最小值到最大值的任何適當(dāng) 值的浮點(diǎn)參數(shù)。在某些示例中,Thef和Theb的適當(dāng)值可以根據(jù)實(shí)際相關(guān) 度的有序列表來確定。例如,可使用該列表中的第200個(gè)值。參數(shù)Size。 可以是任意適當(dāng)值的整數(shù)參數(shù)。適當(dāng)值的示例包括1、 2、 3或4的缺省 值。在特定實(shí)施方式中,參數(shù)可以在某些迭代時(shí)發(fā)生變化。可執(zhí)行任何適當(dāng)次數(shù)的迭代。在一個(gè)示例中,可在方法開始之前指 定迭代的次數(shù)。在另一示例中,可以在執(zhí)行方法期間計(jì)算次數(shù)。例如,可以根據(jù)聚類s的大小的增長(zhǎng)率來計(jì)算次數(shù)。在另一實(shí)施方式中,聚類引擎210通過將詞的集合中的詞排序?yàn)榫?類來標(biāo)識(shí)聚類。在一個(gè)示例中,根據(jù)相關(guān)度申Aff(Wj,Wj),例如差分或有 向相關(guān)度,對(duì)集合W的詞(wJ進(jìn)行排序。在另一示例中,根據(jù)詞Wi與不 同的詞的集合Q的每個(gè)成員的相關(guān)度的合計(jì)功能(如求和)來對(duì)詞(wj 進(jìn)行排序。集合W可按任何適當(dāng)方式來選擇。例如,集合W可以是與 査詢最相關(guān)的X個(gè)詞,其中X可以是任何適當(dāng)?shù)闹担绶秶鷱?0到100、 100到200,或者200或更大的值。在該示例中,聚類初始是空的。集合W中的第一個(gè)詞wi被放置在 聚類中。在每次迭代時(shí),從集合W中選擇當(dāng)前詞wx。如果fAff(Wx,Wf)滿 足由相關(guān)度閾值Th給定的相關(guān)度準(zhǔn)則,則將當(dāng)前詞Wx放置到聚類中, 其中Wf表示放置在聚類中的第一個(gè)詞。閾值Th可以為任何適當(dāng)?shù)闹担?例如0.1到0.5范圍內(nèi)的值,其最小值為O.O,最大值為1.0。如果fAff(Wx,Wf) 不滿足閾值Th,則將當(dāng)前詞Wx放置到空聚類中。對(duì)集合W的每個(gè)詞重 復(fù)迭代。在處理了集合W的各詞后,可消除小的聚類。例如,可消除少于Y 個(gè)詞的聚類。Y可以為任何適當(dāng)?shù)闹?,?到5、 5到10、 10到25、 25 到50,或者50或更大的范圍內(nèi)的值。如果聚類的數(shù)量不在令人滿意的范圍內(nèi),則可用對(duì)放置在聚類中產(chǎn) 生更嚴(yán)格或更松散的準(zhǔn)則的閾值Th的不同值來重復(fù)該處理。令人滿意的 范圍可由具有任何適當(dāng)值的聚類號(hào)最小值和聚類號(hào)最大值來給定。適當(dāng) 值的示例包括對(duì)于最小值而言的1到5、 5到10,或者10或更大范圍內(nèi) 的值,以及對(duì)于最大值而言的10到15、 15到20,或者20或更大范圍內(nèi) 的值。可增大閾值Th的值以增大聚類的數(shù)量,并且可減小閾值TH的值 以減小聚類的數(shù)量。在另一實(shí)施方式中,聚類引擎210通過比較詞的相關(guān)度矢量來標(biāo)識(shí)聚類。在某些實(shí)施方式中,相關(guān)度矩陣的行和列可產(chǎn)生相關(guān)度矢量〈Wi,*Aff(Wi, Wi),…,*Aff(Wi, Wj),…,*Aff(Wi, wn)>,其表示詞Wi相對(duì)于詞Wj的 相關(guān)度,j^,…,n。相關(guān)度值*八纟《 ^》表示詞Wi相對(duì)于詞Wj的任何適當(dāng)類型的相關(guān)度,例如,有向相關(guān)度或差分相關(guān)度。在特定實(shí)施方式中,具有相似相關(guān)度值的相關(guān)度矢量可表示一聚類。 僅出于描述目的,可以認(rèn)為相關(guān)度矢量是相關(guān)度空間中詞的相關(guān)度的坐標(biāo)。即,每個(gè)相關(guān)度值fAff(Wi,Wj)都可被認(rèn)為是特定維的坐標(biāo)。具有相似 相關(guān)度值的相關(guān)度矢量表示矢量與其相關(guān)聯(lián)的詞在相關(guān)度空間中彼此接 近。g卩,矢量表示詞與其他詞具有相似相關(guān)度關(guān)系,因此可適用于相同 聚類中的成員關(guān)系。如果一個(gè)相關(guān)度矢量鄰近由適當(dāng)距離函數(shù)確定的另一相關(guān)度矢量, 則相關(guān)度矢量可能是類似的。距離函數(shù)可以在相關(guān)度矢量上被定義為例 如給定大小的矢量的標(biāo)準(zhǔn)歐幾里得距離,或被定義為給定大小的矢量的 余弦。距離函數(shù)可以由聚類引擎210或用戶來指定。在特定實(shí)施方式中,聚類引擎210應(yīng)用聚類算法來標(biāo)識(shí)值彼此接近 的相關(guān)度矢量。聚類算法的示例包括直接、重復(fù)對(duì)分(bisection)、聚集、 偏置聚集和/或其他適當(dāng)算法。在一個(gè)示例中,聚類引擎210可包括如 CLUTO的聚類軟件。聚類分析器214可使用相關(guān)度聚類在任何適當(dāng)應(yīng)用中進(jìn)行分析。在 一個(gè)實(shí)施方式中,聚類分析器214可使用相關(guān)度聚類來歸類頁面50。類 別可與聚類標(biāo)識(shí)符或聚類的一個(gè)或多個(gè)成員相關(guān)聯(lián)。在一個(gè)示例中,可 標(biāo)識(shí)頁面50的聚類,然后可根據(jù)這些聚類來對(duì)頁面50進(jìn)行歸類。在另 一示例中,可選擇頁面50的重要詞,然后可定位包括該詞的聚類。然后 可以根據(jù)所定位的聚類對(duì)頁面50進(jìn)行歸類。在一個(gè)實(shí)施方式中,聚類分析器214可使用相關(guān)度聚類來分析頁面 50的語料庫。語料庫可與特定主題、 一個(gè)或多個(gè)個(gè)體的社區(qū)、組織或其 他實(shí)體相關(guān)聯(lián)。在一個(gè)示例中,聚類分析器214可標(biāo)識(shí)語料庫的聚類, 并根據(jù)這些聚類來確定語料庫的語料庫特性。語料庫特性可表示涉及與 語料庫相關(guān)聯(lián)的實(shí)體的詞。如果一個(gè)或多個(gè)頁面50具有語料庫特性的聚 類,則該頁面50可能與該實(shí)體相關(guān)。在一個(gè)實(shí)施方式中,聚類分析器214可使用相關(guān)度聚類來搜索查詢 解疑和擴(kuò)展。在該實(shí)施方式中,聚類分析器214標(biāo)識(shí)包括給定搜索查詢的搜索詞條的聚類。聚類提供了與給定搜索查詢相關(guān)的詞和/或分類。在 一個(gè)示例中,可以將聚類中的詞報(bào)告給搜索人以幫助下一次搜索査詢。在另一示例中,聚類分析器214可從這些聚類中選擇詞,并且自動(dòng)形成 一個(gè)或多個(gè)新的搜索査詢。聚類分析器214可串行或并行地運(yùn)行新的查詢。在一個(gè)實(shí)施方式中,聚類分析器214可使用相關(guān)度聚類來研究社會(huì) 網(wǎng)絡(luò)。在一個(gè)示例中,頁面50可提供對(duì)社會(huì)網(wǎng)絡(luò)的了解。這種頁面的示 例包括通訊(如信件、電子郵件以及即時(shí)消息)、備忘錄、文章和會(huì)議記 錄。這些頁面50可包括包含社會(huì)網(wǎng)絡(luò)的人的用戶標(biāo)識(shí)符(如姓名)的詞。 可以標(biāo)識(shí)姓名的聚類以分析網(wǎng)絡(luò)的人之間的關(guān)系。在一個(gè)示例中,可使 用差分相關(guān)度聚類來濾出頁面50中出現(xiàn)最多的姓名,而不提供諸如系統(tǒng) 管理者姓名的信息。在特定實(shí)施方式中,聚類分析器214可通過組合和/或比較數(shù)據(jù)集的 聚類來分析數(shù)據(jù)集。在一個(gè)實(shí)施方式中,對(duì)重疊數(shù)據(jù)集的聚類進(jìn)行比較。 可以將一個(gè)數(shù)據(jù)集的聚類映射到另一數(shù)據(jù)集的聚類,這可以提供對(duì)數(shù)據(jù) 集之間的關(guān)系的了解。例如,數(shù)據(jù)集可來自對(duì)同事組的文檔的分析和來 自對(duì)該組的社會(huì)關(guān)系網(wǎng)的研究。社會(huì)網(wǎng)絡(luò)聚類可被映射到文檔主題聚類 以分析社會(huì)網(wǎng)絡(luò)與主題之間的關(guān)系。圖8圖示了本體特征模塊32的一個(gè)實(shí)施方式。本體特征模塊32可 確定一個(gè)或多個(gè)詞的集合的一個(gè)或多個(gè)本體特征(例如,特定詞或包括 多個(gè)詞的文檔),然后可在多種情況下的任何情況下應(yīng)用本體特征。--個(gè) 或多個(gè)詞的集合可包括文檔的必要詞條。如果與詞條t相關(guān)的前k個(gè)詞中 的至少一個(gè)在文檔中也存在,則詞條t可能是必要詞條。否則,該詞條對(duì) 文檔可能是非必要的。本體特征是在語義含義上而言,沿可將文檔與給定區(qū)域中的其他文 檔相區(qū)分的一個(gè)或多個(gè)特征軸來表征文檔的可計(jì)量的測(cè)量結(jié)果。例如, 文檔的深度可針對(duì)其可理解度來區(qū)分文檔,文檔的具體性可針對(duì)其關(guān)注 度來區(qū)分文檔,而文檔的主題可針對(duì)其主題的可尋址范圍來區(qū)分文檔。 本體特征可按任何適當(dāng)方式來定義。例如,計(jì)算語言中的獨(dú)立算法可用來表征文檔的可讀性或深度。在圖示的實(shí)施方式中,本體特征模塊32包括深度引擎230、主題引 擎240、具體性引擎244以及本體特征(OF)應(yīng)用引擎250。深度引擎 230可確定一個(gè)或多個(gè)詞(例如,特定詞或包括多個(gè)詞的文檔)的深度。 通常,深度可表示詞的字面復(fù)雜度。較深的詞可能是較技術(shù)和專業(yè)化的, 而較淺的詞可能是較普通的。在特定實(shí)施方式中,深度模塊32可計(jì)算文 檔的詞的深度,然后根據(jù)詞的深度來計(jì)算文檔的深度。在特定實(shí)施方式 中,深度引擎230可將深度值和/或深度等級(jí)分配給文檔和/或詞。較深的 文檔或詞可被分配較高的深度值或等級(jí),而較淺的文檔或詞可被分配較 淺的深度值或等級(jí)。深度引擎230可按任何適當(dāng)方式來計(jì)算詞深度。在特定實(shí)施方式中, 深度引擎230根據(jù)平均相關(guān)度來計(jì)算詞深度。在這些實(shí)施方式中,詞的 深度是該詞的平均相關(guān)度的函數(shù)。較深的詞可具有較低的平均相關(guān)度, 而較淺的詞可具有較高的平均相關(guān)度。在特定示例中,深度引擎230可 通過根據(jù)多個(gè)詞的平均相關(guān)度對(duì)它們進(jìn)行排序來計(jì)算這些詞的深度。具 有較低平均相關(guān)度的詞可被賦予較高的深度等級(jí),而具有較高平均相關(guān) 度的詞可被賦予較低的深度等級(jí)。在特定實(shí)施方式中,深度引擎230可使用聚類分析來計(jì)算詞深度。 在這些實(shí)施方式中,聚類的詞彼此高度相關(guān),但與聚類外的詞卻并非如 此。聚類空間中的距離可根據(jù)作為深度的指示符的相關(guān)度來測(cè)量。在特 定實(shí)施方式中,屬于較少的聚類或較小的和/或距其他聚類較遠(yuǎn)的聚類的 詞可被認(rèn)為較深,而屬于較多的聚類或較大和/或距其他聚類較近的聚類 的詞可被認(rèn)為較淺。在其他特定實(shí)施方式中,深度引擎230可通過向相關(guān)度圖150應(yīng)用 鏈接分析來計(jì)算詞深度。鏈接分析可通過例如PAGERANK的任何適當(dāng)?shù)?鏈接分析算法來執(zhí)行。僅出于描述目的,可使用圖6的相關(guān)度圖150來 計(jì)算詞深度。相關(guān)度圖150包括節(jié)點(diǎn)154和鏈接158。節(jié)點(diǎn)154表示詞。 節(jié)點(diǎn)154之間的鏈接158表示節(jié)點(diǎn)154所表示的詞之間的相關(guān)度在相關(guān) 度閾值之上,即,這些詞令人滿意地相關(guān)。在特定實(shí)施方式中,深度引擎230計(jì)算節(jié)點(diǎn)154的流行度。較流行 的節(jié)點(diǎn)154可表示較淺的詞,而較不流行的節(jié)點(diǎn)154可表示較深的詞。 從第一節(jié)點(diǎn)154到第二節(jié)點(diǎn)154的鏈接136被認(rèn)為是第一節(jié)點(diǎn)154對(duì)第 二節(jié)點(diǎn)154的流行度表決(vote)。此外,來自較流行節(jié)點(diǎn)154的表決可 比來自較不流行節(jié)點(diǎn)154的表決具有更高的權(quán)重。此外,第一節(jié)點(diǎn)154 對(duì)第二節(jié)點(diǎn)154的相關(guān)度加權(quán)了該表決。深度引擎230根據(jù)節(jié)點(diǎn)154的 加權(quán)表決來計(jì)算節(jié)點(diǎn)154的流行度。較不流行的詞可被認(rèn)為較深,而較 流行的詞可被認(rèn)為較淺。深度引擎230可按任何適當(dāng)方式來計(jì)算文檔深度。在特定實(shí)施方式 中,深度引擎230根據(jù)文檔的至少一個(gè)、 一些或全部詞的深度來計(jì)算文 檔的深度。在某些實(shí)施方式中,詞深度由平均相關(guān)度給出,因此文檔深 度可根據(jù)文檔的詞的平均相關(guān)度來計(jì)算。例如,文檔的淺度可以是文檔 的詞的平均相關(guān)度的平均,即,文檔中每個(gè)詞的平均相關(guān)度的和除以文 檔中詞的總數(shù)。文檔的深度則可以按文檔的淺度的倒數(shù)來計(jì)算得出。在特定實(shí)施方式中,深度可根據(jù)文檔的所選詞的集合來計(jì)算平均深 度。所選集合可包括文檔的必要的詞,如前(最深的)X嘰的詞,其中X 可以小于10,在10至U 20、 20至lj 30、 30至U 40、 40至廿50、 50至U 60、 60 到70之間或大于10。所選集合可排除PM的標(biāo)準(zhǔn)語法詞和/或(5%的無用 詞,其中P和Q為任何適當(dāng)?shù)闹担缧∮贗O,在10到20、 20到30、 30 至!j 40、 40至U 50、 50至U 60、 60至lj 70之間或大于10。在特定實(shí)施方式中,深度引擎230根據(jù)文檔中詞深度的分布來計(jì)算 文檔的深度。在特定實(shí)施方式中,較深的文檔可具有較高百分比的較深 詞。在特定實(shí)施方式中,深度引擎230根據(jù)文檔相關(guān)度來計(jì)算文檔的深 度。文檔之間的相關(guān)度描述了文檔之間的關(guān)系。在某些實(shí)施方式中,平 均文檔相關(guān)度可以類似于平均詞相關(guān)度如何表示詞深度的方式來表示文 檔深度。文檔相關(guān)度可按任何適當(dāng)方式來定義。在一個(gè)示例中,共同詞 P(D,&D。的數(shù)量表示了文檔D,和D2中都有的詞的數(shù)量,而獨(dú)特詞 P(D,+D2)的數(shù)量表示了文檔D,或D2中的詞的數(shù)量。文檔D,和D2之間的文檔相關(guān)度DocAff可定義為DocAff (D,, D2) = P(D, & D2) / P(D, + D2)深度引擎230可按類似于計(jì)算平均詞相關(guān)度的方式來計(jì)算平均文檔 相關(guān)度。具有較低平均相關(guān)度的文檔可被認(rèn)為較深,而具有較高平均相 關(guān)度的文檔可被認(rèn)為較淺。在某些實(shí)施方式中,深度引擎230可通過將鏈接分析應(yīng)用到文檔相 關(guān)度圖來計(jì)算文檔深度。除了文檔相關(guān)度圖的節(jié)點(diǎn)表示文檔而不是詞以 外,文檔相關(guān)度圖可類似于相關(guān)度圖150。深度引擎230用在給定第一文 檔的情況下的第二文檔的文檔相關(guān)度,來對(duì)從表示第一文檔的第一節(jié)點(diǎn) 到表示第二文檔的第二節(jié)點(diǎn)的鏈接進(jìn)行加權(quán)。然后可以對(duì)得到的鏈接的 權(quán)重進(jìn)行歸一化。在某些實(shí)施方式中,深度圖可顯示在用戶界面上以示出文檔的深度。 還可以顯示可用于選擇深度級(jí)別的深度滑塊。在某些實(shí)施方式中,如果 文檔包括較大文檔的一些部分,則深度圖可表示這些部分的深度。;在某些實(shí)施方式中,深度引擎230可按任何其他適當(dāng)方式計(jì)算文檔 深度,如處理文檔的相關(guān)度的直方圖和/或基于深度來刪減獨(dú)特的詞的百 分比然后處理直方圖。其他方法包括Gunning-Fog、 Flesch或Fry方法。在某些實(shí)施方式中,深度引擎230可通過將深度值映射到特定深度 級(jí)別來校準(zhǔn)深度。在某些實(shí)施方式中,范圍Ri中的深度值可被映射到級(jí) 別Li。例如,R(^(ro:ro〈Co)可被映射到級(jí)別Lo, R, = {r1: c。 < n < Cl}可 被映射到級(jí)別Lp…,而Rn-(rn:Cn〈ivJ被映射到級(jí)別U。范圍可包括 任何適當(dāng)?shù)纳疃戎?,并且不必為相同大小。可存在任何適當(dāng)數(shù)量的級(jí)別, 如小于5、 5至U7、 7或8、 8至Ul0、 10至U20、 20至U 50、 50至lj 100,或大 于100。主題引擎240可確定文檔的主題(或主題)。在某些實(shí)施方式中,主 題引擎240根據(jù)文檔中詞的聚類來確定主題,這些聚類可通過聚類模塊 31來標(biāo)識(shí)。如上所述, 一聚類詞可指示詞的集合的主題(或主題)。文檔 的主題可提供關(guān)于文檔的內(nèi)容的有用信息。例如,包括聚類{腎臟,腎, 蛋白質(zhì),問題}的文檔可能關(guān)于由于腎臟功能弱化而從腎導(dǎo)致的蛋白質(zhì)的問題,而不是云豆的蛋白質(zhì)含量。在某些實(shí)施方式中,主題引擎240根據(jù)主題地圖來確定主題。在這 些實(shí)施方式中,使用例如詞條頻率反向文檔頻率(TF-IDF)技術(shù)的任何 適當(dāng)技術(shù)從文檔中提取關(guān)鍵詞。使用關(guān)鍵詞從主題地圖中選擇候選主題。 將候選主題與文檔進(jìn)行比較以確定主題與文檔有多匹配。在某些示例中, 可以將候選主題的直方圖與文檔的直方圖進(jìn)行比較。如果候選主題與文 檔匹配,則這些主題可提供該文檔的主題的類型和數(shù)量的估計(jì)。具體性引擎240可計(jì)算文檔的具體性。在特定實(shí)施方式中,具體性 引擎240可為文檔分配具體性值和/或具體性等級(jí)。較具體的文檔可被分 配較高的具體性值或等級(jí),而較不具體的文檔可被分配較低的具體性值 或等級(jí)。在特定實(shí)施方式中,具體性引擎240根據(jù)文檔的主題的數(shù)量來計(jì)算 具體性。在某些示例中,較具體的文檔可以有較少的主題,而較不具體 的文檔可以有較多的主題。在特定實(shí)施方式中,具體性引擎240根據(jù)文 檔的主題的數(shù)量和主題之間的相關(guān)度來計(jì)算具體性。在某些示例中,較 具體的文檔可以有較少的主題,且各主題之間具有較高的相關(guān)度,而較 不具體的文檔可以有較多的主題,且各主題之間具有較低的相關(guān)度。在特定實(shí)施方式中,主題的數(shù)量可依賴于深度(或級(jí)別)。例如,處 于較淺深度的單獨(dú)主題可表示處于較大深度的多個(gè)主題。在某些實(shí)施方 式中,深度可由用戶使用深度滑塊來選擇或可以是預(yù)定的。在某些實(shí)施 方式中,級(jí)別可由用戶選擇或可以是預(yù)定的。例如,可定義任何適當(dāng)數(shù) 量的級(jí)別,并且可相對(duì)于級(jí)別來計(jì)算深度。例如,級(jí)別可以是基于領(lǐng)域 的(例如,工程、醫(yī)療、新聞、體育或財(cái)經(jīng)領(lǐng)域);基于專業(yè)的(例如, 心臟病學(xué)、眼科學(xué)或腎臟學(xué)專業(yè));基于主題的(例如,高血壓、膽固醇、 支路手術(shù)或動(dòng)脈阻塞主題);基于細(xì)節(jié)的(例如,姿態(tài)血壓過低、慢性高 血壓或急性高血壓細(xì)節(jié));基于解決方案的(例如,老年病因?qū)W、醫(yī)療或 通用解決方案);基于個(gè)人的(例如,用戶査詢級(jí)別)。本體特征應(yīng)用引擎250可應(yīng)用本體特征(如,深度、主題或具體性) 在任何適當(dāng)場(chǎng)合下執(zhí)行本體特征分析。適當(dāng)場(chǎng)合的示例包括根據(jù)本體特征搜索、排序、推薦或選擇文檔;報(bào)告文檔的本體特征;以及確定一 個(gè)或多個(gè)用戶的文檔(或文檔的集合)的本體特征。在特定實(shí)施方式中, 本體特征應(yīng)用引擎250可使用包括關(guān)于本體特征的信息的索引。在一個(gè) 示例中,本體特征應(yīng)用引擎250使用根據(jù)深度排序而生成和/或維持的文 檔深度(DD)反向索引62。 DD反向索引62包括DD反向索引列表,其 中詞的DD反向索引列表列出了包括該詞的文檔(或頁面50)的文檔標(biāo) 識(shí)符。文檔的文檔標(biāo)識(shí)符可表示文檔的深度。例如,用于編碼文檔標(biāo)識(shí) 符的二進(jìn)制編碼可表示深度。在一些情況下,DD反向索引列表可僅列出 深度令人滿意的文檔。在另一示例中,本體特征應(yīng)用引擎250除了反向 索引62外還使用排序表和深度表。深度表可表示文檔的深度。在特定實(shí)施方式中,本體特征應(yīng)用引擎250在文檔中搜索本體特征 的特定值,如文檔深度或具體性的特定值。特定值可以由用戶預(yù)定、計(jì) 算或選擇。在特定實(shí)施方式中,可使用深度滑塊和/或具體性滑塊來選擇 這些值。在特定實(shí)施方式中,本體特征應(yīng)用引擎250可使用本體特征作為排 序準(zhǔn)則來排序文檔。例如,本體特征應(yīng)用引擎250可根據(jù)關(guān)于主題的文 檔深度和/或具體性以及其他排序準(zhǔn)則來排序文檔。在某些示例中,本體 特征應(yīng)用引擎250搜索DD反向索引62以獲得根據(jù)文檔深度而排序過的 文檔。在一些示例中,本體特征應(yīng)用引擎250使用非DD反向索引62來 搜索文檔,然后根據(jù)深度來排序文檔。在特定實(shí)施方式中,本體特征應(yīng)用引擎250可將本體特征的值圖形 顯示給客戶機(jī)20??蓪?duì)一些或全部文檔,例如搜索結(jié)果的前X。/。的文檔, 提供圖形顯示。本體特征值可按任何適當(dāng)方式呈現(xiàn)。在一些示例中,如 數(shù)字、詞或圖標(biāo)的圖形指示符可表示值。圖形指示符可放置得鄰近于例 如搜索結(jié)果的列表中的項(xiàng)目、在線新聞的主題或文檔圖標(biāo)。在一些示例 中,現(xiàn)有插圖的修改可表示值。例如,文本的大小、字體、樣式、顏色 或圖形指示符可表示值。在另一示例中,圖形可表示值。本體特征直方 圖可包括文檔量軸和本體特征軸,并且可表示特定本體特征值的文檔的 量。例如,包括文檔量軸和文檔深度軸的文檔深度直方圖可表示特定文檔深度的文檔量。在特定實(shí)施方式中,本體特征應(yīng)用引擎250可允許用戶請(qǐng)求搜索具有特定本體特征值的文檔。用戶可被允許為不同詞的查詢指定值。在某些示例中,本體特征引擎250可為用戶提供選擇深度的選項(xiàng),然后用戶 可輸入所選深度。選項(xiàng)可按任何適當(dāng)方式呈現(xiàn),如(i)絕對(duì)詞條(例如, 表示深度的數(shù)字或數(shù)字范圍);(ii)相對(duì)詞條(例如,搜索結(jié)果關(guān)于深度 的一部分,如"最深的X。/。"); (iii)語義詞條(例如,"介紹性的"、"淺"、 "深"、"非常深"禾tl/或"技術(shù)含量高");(iv)圖形詞條(例如,滑塊、 按鈕和/或其他圖形元素);或(v)詞條的任何適當(dāng)組合(例如,具有語 義標(biāo)簽的滑塊)。在-一些情況下,滑塊可包括淺端和深端。用戶可將滑塊 朝一端或另一端移動(dòng)以表示所選深度。在提供搜索結(jié)果時(shí),文檔深度直 方圖可通過滑塊來表現(xiàn),并且可使用滑塊作為文檔深度軸。在特定實(shí)施方式中,本體特征應(yīng)用引擎250可計(jì)算一個(gè)或多個(gè)用戶 的集合的本體特征特性。本體特征特性可包括主題的上下文中的用戶深 度和用戶具體性。本體特征特性描述了與用戶集合相關(guān)聯(lián)的文檔的本體 特征。例如,科學(xué)家可使用比三年級(jí)學(xué)生將使用的文檔更深的文檔。本 體特征特性可關(guān)于一個(gè)或多個(gè)主題而給定。例如,遺傳學(xué)者在遺傳學(xué)領(lǐng) 域可使用比他在詩歌領(lǐng)域中使用的更深的文檔。本體特征特性可用于確 定用戶的專門技能,自動(dòng)建立用戶的簡(jiǎn)歷,并分析用戶的社會(huì)網(wǎng)絡(luò)。與用戶關(guān)聯(lián)的任何適當(dāng)文檔都可被分析以估計(jì)本體特征特性,例如, 通訊(如,電子郵件和即時(shí)消息)、web頁面以及搜索歷史(如,搜索査 詢和選擇的頁面)。在特定實(shí)施方式中,本體特征應(yīng)用引擎250可隨時(shí)間 跟蹤本體特征特性,并且可使用過去的特性來預(yù)測(cè)未來的特性。在某些 示例中,本體特征應(yīng)用引擎250可假定用戶深度和/或具體性通常隨時(shí)間 和/或該領(lǐng)域的活動(dòng)而增加。在特定實(shí)施方式中,本體特征應(yīng)用引擎250可組合某些操作。例如, 本體特征應(yīng)用引擎250可監(jiān)視用戶的深度,然后根據(jù)該用戶深度來搜索 文檔。在一個(gè)示例中,對(duì)用戶深度進(jìn)行監(jiān)視,并根據(jù)深度向用戶提供新 聞。對(duì)未來的用戶深度進(jìn)行預(yù)測(cè),并且提供符合預(yù)測(cè)的用戶深度的新聞。圖9圖示了可用于圖1的系統(tǒng)10的層次模塊37的一個(gè)實(shí)施方式。 在特定實(shí)施方式中,層次模塊37生成表示詞條的層次的層次圖。在這些 實(shí)施方式中,層次模塊37訪問諸如頁面50 (或文檔)的語料圖。層次模 塊37根據(jù)有向相關(guān)度來標(biāo)識(shí)語料庫的詞條的父詞條,并且建立父子關(guān)系。 層次模塊37然后根據(jù)這些父子關(guān)系來自動(dòng)生成層次圖。在圖示的實(shí)施方 式中,層次模塊37包括圖引擎320和層次應(yīng)用模塊322。圖引擎320生 成層次圖350。層次圖的示例參照?qǐng)DIO來描述。圖10圖示了層次圖350的示例。在特定實(shí)施方式中,層次圖350表 示了詞條的層次。在這些實(shí)施方式中,層次圖350包括表示詞條的節(jié)點(diǎn) 354和表示從父詞條到子詞條的父子關(guān)系的弧358。在特定實(shí)施方式中, 在父子關(guān)系中,父詞條和子詞條通過諸如有向相關(guān)度的相關(guān)度而相關(guān)。 父詞條可以比子詞條更一般,相反,子詞條可能比父詞條更具體。在特定實(shí)施方式中,祖父詞條(或曾祖父詞條等)與子詞條之間的 關(guān)系也可被稱為父子關(guān)系。即,父子關(guān)系可從父詞條開始,經(jīng)過零、一 或更多父/子詞條(充當(dāng)關(guān)系中的父詞條和子詞條),并且以子詞條結(jié)束。 換句話說,父子關(guān)系可以有任何適當(dāng)?shù)拇鷶?shù)?;貋韰⒄?qǐng)D9,在圖示的實(shí)施方式中,圖引擎320包括父子標(biāo)識(shí)符 324和圖縮減器(graph reducer) 328。在特定實(shí)施方式中,父子標(biāo)識(shí)符 324標(biāo)識(shí)了詞條之間的父子關(guān)系,而圖縮減器328縮減層次圖350。在特定示例中,圖引擎320為語料庫C的文檔的集合S生成層次圖 350。文檔可包括一個(gè)或多個(gè)詞條。頁面(X,C)表示集合S的包括至少 有詞條X的一個(gè)共現(xiàn)的文檔的子集。頁面(X+Y,C)表示包括集合S的 至少有詞條X的一個(gè)共現(xiàn)和詞條Y的至少一個(gè)共現(xiàn)的文檔的子集。 DocFreq(X,C)表示包括詞條X的至少一個(gè)共現(xiàn)的文檔的數(shù)量,并可根據(jù) 下式來計(jì)算DocFr叫(X, C) = IPages(X, C)|如上所述,有向相關(guān)度可用于測(cè)量給定詞條對(duì)另一詞條有多重要。 在特定實(shí)施方式中,假定文檔有第一詞條,有向相關(guān)度表示了文檔有第 二詞條的概率。如果概率高,則存在高有向相關(guān)度,而如果概率低,則存在低有向相關(guān)度。例如,淋巴瘤是一類癌癥。包括"淋巴瘤"的文檔 還可能包括"癌癥"。因此,從淋巴瘤到癌癥存在高有向相關(guān)度。然而, 反過來就未必如此。存在若干種類的癌癥,所以包括"癌癥"的許多文 檔可能并不包括"淋巴瘤"。因此,從癌癥到淋巴瘤存在低有向相關(guān)度。 有向相關(guān)度可按任何適當(dāng)方式(例如使用上述表達(dá))來表達(dá)。在其他實(shí)施方式中,DAff(X,Y,C)表示在語料庫C中給定X的情況下Y的有向 相關(guān)度,并且可根據(jù)下式來計(jì)算DAff(X, Y, C) = DocFr叫(X + Y, C) / DocFreq(X, C)在特定實(shí)施方式中,父子標(biāo)識(shí)符324通過對(duì)于給定詞條X確定候選 父詞條Yi的集合來標(biāo)識(shí)父子關(guān)系。在這些實(shí)施方式中,從給定詞條X到 父詞條Yj存在高有向相關(guān)度,而父詞條Yi出現(xiàn)在沒有給出詞條X的文檔 中比出現(xiàn)在有詞條X的文檔中更多,這表示詞條X與父詞條Yi相關(guān),但 并非對(duì)父詞條Yj必不可少。在特定實(shí)施方式中,從給定詞條X到父詞條Yj存在高有向相關(guān)度的 條件可表達(dá)為DAff(X, Yi, S) 2 Thhigh其中Thhigh代表表示較高有向相關(guān)度的較高有向相關(guān)度閾值。較高的 有向相關(guān)度閾值可以為任何適當(dāng)?shù)闹?,?.5或更大、0.6或更大、0.7或 更大的范圍內(nèi)的值。在特定實(shí)施方式中,父詞條Yi出現(xiàn)在沒有給出詞條X的文檔中比出 現(xiàn)在有詞條X的文檔中更多的條件且詞條X與父詞條Yi相關(guān)但并非對(duì)父 詞條Yj必不可少的條件可表達(dá)為-DAff(Yj, X, S) ^ ThlowDAff(Yi, X, S) 2 Thmin其中Th^代表表示較低有向相關(guān)度的較低有向相關(guān)度閾值,而Thmin 代表最小有向相關(guān)度閾值。較低有向相關(guān)度閾值可以為任何適當(dāng)?shù)闹担?如0.5或更低、0.4或更低、或O.l或更低的范圍內(nèi)的值。最小有向相關(guān) 度閾值可以為任何適當(dāng)?shù)闹?,?.1或更低、0.01或更低、或0.001或更 低的范圍內(nèi)的值。滿足給定詞條的上述條件的候選父詞條Yi可被認(rèn)為是給定詞條的父詞條,該給定詞條可被認(rèn)為是子詞條??筛鶕?jù)父子關(guān)系將表示詞條的節(jié)點(diǎn)354組織為層次圖350。在特定 實(shí)施方式中,圖縮減器328通過移除冗余父子關(guān)系來縮減層次圖350。參 照?qǐng)DIIA和IIB來描述移除冗余父子關(guān)系的示例。圖11A和11B圖示了可從中移除冗余父子關(guān)系的節(jié)點(diǎn)。冗余父子關(guān) 系可以是與給定父子關(guān)系冗余的父子關(guān)系。冗余父子關(guān)系可提供比給定 父子關(guān)系所提供的相同或更少的信息。例如,給定父子關(guān)系可具有父詞 條、零個(gè)、 一個(gè)或多個(gè)父/子詞條以及子詞條。冗余父子關(guān)系可具有相同 父詞條、相同父/子詞條的子集以及相同子詞條,而沒有其他詞條。換句 話說,子詞條有彼此鏈接的兩個(gè)父詞條。在圖示的示例中,給定父子關(guān)系有父詞條"健康"、父/子詞條"疾 病"以及子詞條"糖尿病"。冗余父子關(guān)系有父詞條"疾病"與子詞條"糖 尿病"。圖縮減器328可移除該冗余父子關(guān)系?;貋韰⒄?qǐng)D9,在特定實(shí)施方式中,層次應(yīng)用模塊322應(yīng)用層次圖 350。層次模塊37可根據(jù)任何適當(dāng)?shù)恼Z料庫來生成任何適當(dāng)?shù)膶哟螆D, 層次應(yīng)用模塊322可按任何適當(dāng)方式來應(yīng)用該語料庫。在特定實(shí)施方式中,語料庫包括包含詞條的文檔,并且層次圖350 充當(dāng)可用于搜索文檔的文檔的類別。在實(shí)施方式的特定示例中,層次應(yīng) 用模塊322將層次圖350的父詞條發(fā)送給客戶機(jī)。用戶可從父詞條中選 擇作為搜索詞條的詞條。層次應(yīng)用模塊322接收父詞條的選擇,并將所 選父詞條的子詞條發(fā)送給客戶機(jī)。用戶可從這些詞條中進(jìn)行選擇,并且 可重復(fù)這種處理,直到達(dá)到層次圖350的終點(diǎn)或用戶已經(jīng)指示了最終選 擇為止。在實(shí)施方式的其他示例中,層次應(yīng)用模塊322接收包括層次圖的父 詞條的搜索查詢。層次應(yīng)用模塊322標(biāo)識(shí)父詞條的子詞條,并使用父詞 條和子詞條來搜索語料庫。在實(shí)施方式的另一示例中,層次圖350的每 個(gè)圖詞條都可與包括該圖詞條的文檔相關(guān)聯(lián)。層次應(yīng)用模塊322接收包 括層次圖350的父詞條的搜索查詢。層次應(yīng)用模塊322隨后檢索一個(gè)或 多個(gè)與該父詞條或該父詞條的子詞條相關(guān)聯(lián)的文檔。在特定實(shí)施方式中,語料庫包括搜索結(jié)果,并且層次圖350根據(jù)搜 索結(jié)果的父子關(guān)系來組織搜索結(jié)果。層次圖350的詞條可表示搜索結(jié)果 或者搜索結(jié)果所出現(xiàn)的聚類的主題。層次應(yīng)用模塊322可將層次圖350 和/或組織好的搜索結(jié)果呈現(xiàn)給用戶??蓪?duì)該方法進(jìn)行修改、添加或省略而不偏離本發(fā)明的范圍。該方法 可包括更多、更少或其他的步驟。此外,各步驟可按任何適當(dāng)順序來執(zhí) 行。本發(fā)明的某些實(shí)施方式可提供一個(gè)或更多技術(shù)優(yōu)點(diǎn)。 一個(gè)實(shí)施方式 的技術(shù)優(yōu)點(diǎn)可能在于,表示詞條層次的層次圖是對(duì)文檔的語料庫自動(dòng)生 成的。層次圖描述了詞條之間的父子關(guān)系并且可用于對(duì)語料庫的文檔進(jìn) 行歸類。另一實(shí)施方式的技術(shù)優(yōu)點(diǎn)可能在于對(duì)搜索結(jié)果自動(dòng)生成層次圖。 層次圖可用于組織搜索結(jié)果。盡管就某些實(shí)施方式描述了本發(fā)明,但是本領(lǐng)域技術(shù)人員可以想到 這些實(shí)施方式的更改和替換。因此,上述實(shí)施方式的描述并不限制本公 開。其他改變、替代和更改都是可能的,而不會(huì)偏離由權(quán)利要求書定義 的本公開的精神和范圍。本申請(qǐng)?jiān)?5 U.S.C. § 119 (e)下要求David Marvit等人于2007年 10月5曰提交的題為"Automatic Generation of a Hierarchy of Terms"的 美國臨時(shí)申請(qǐng)第60/977,840號(hào)(律所案號(hào)073338.0551)的優(yōu)先權(quán)。
權(quán)利要求
1、一種方法,該方法包括以下步驟訪問存儲(chǔ)在一個(gè)或多個(gè)有形介質(zhì)中的語料庫,該語料庫包括多個(gè)詞條;對(duì)所述多個(gè)詞條的一個(gè)或多個(gè)詞條中的每個(gè)詞條執(zhí)行下述步驟以產(chǎn)生多個(gè)父子關(guān)系根據(jù)有向相關(guān)度來標(biāo)識(shí)這每個(gè)詞條中的一個(gè)或多個(gè)父詞條,所述多個(gè)詞條包括這一個(gè)或多個(gè)父詞條;以及根據(jù)這一個(gè)或多個(gè)父詞條和這每個(gè)詞條來建立一個(gè)或多個(gè)父子關(guān)系;以及根據(jù)這多個(gè)父子關(guān)系來自動(dòng)生成層次圖。
2、 根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)有向相關(guān)度來標(biāo)識(shí)這每 個(gè)詞條中的一個(gè)或多個(gè)父詞條的步驟還包括以下步驟確定從這每個(gè)詞條到候選父詞條存在高有向相關(guān)度; 確定從該候選父詞條到這每個(gè)詞條存在低非零有向相關(guān)度;以及 將該候選父詞條標(biāo)識(shí)為這每個(gè)詞條的父詞條。
3、 根據(jù)權(quán)利要求1所述的方法,其中,根據(jù)有向相關(guān)度來標(biāo)識(shí)這每 個(gè)詞條中的一個(gè)或多個(gè)父詞條的步驟還包括以下步驟確定從這每個(gè)詞條到候選父詞條的有向相關(guān)度大于0.6;確定從該候選父詞條到這每個(gè)詞條的有向相關(guān)度小于0.4且大于0.1;以及將該候選父詞條標(biāo)識(shí)為這每個(gè)詞條的父詞條。
4、 根據(jù)權(quán)利要求1所述的方法,其中根據(jù)這多個(gè)父子關(guān)系來自動(dòng)生成層次圖的步驟還包括通過以下步驟來縮減層次圖 標(biāo)識(shí)該層次圖的父子關(guān)系和冗余父子關(guān)系;以及 從該層次圖中移除該冗余父子關(guān)系。
5、 根據(jù)權(quán)利要求1所述的方法,其中該語料庫包括多個(gè)文檔,這多個(gè)文檔包括所述多個(gè)詞條;并且該層次圖表示了這多個(gè)文檔的類別。
6、 根據(jù)權(quán)利要求1所述的方法,其中 該語料庫包括多個(gè)搜索結(jié)果;所述一個(gè)或多個(gè)詞條的詞條表示了搜索結(jié)果的話題;并且 該層次圖描述了這多個(gè)搜索結(jié)果的多個(gè)父子關(guān)系。
7、 根據(jù)權(quán)利要求1所述的方法,其中 該語料庫包括被組織為多個(gè)聚類的多個(gè)搜索結(jié)果; 所述一個(gè)或多個(gè)詞條的詞條表示了聚類的話題;并且 該層次圖描述了這多個(gè)搜索結(jié)果的多個(gè)父子關(guān)系。
8、 根據(jù)權(quán)利要求1所述的方法,該方法還包括以下步驟 將該層次圖的多個(gè)父詞條發(fā)送給客戶機(jī); 接收父詞條的選擇,所選父詞條具有多個(gè)子詞條;以及 將這多個(gè)子詞條發(fā)送給該客戶機(jī)。
9、 根據(jù)權(quán)利要求1所述的方法,該方法還包括以下步驟 接收包括該層次圖的父詞條的搜索査詢; 標(biāo)識(shí)該父詞條的一個(gè)或多個(gè)子詞條;以及 使用該父詞條和這一個(gè)或多個(gè)子詞條來搜索該語料庫。
10、 根據(jù)權(quán)利要求1所述的方法,其中該語料庫包括多個(gè)文檔,這多個(gè)文檔包括所述多個(gè)詞條;并且該方法還包括以下步驟將該層次圖的每個(gè)圖詞條與包括這每個(gè)圖詞條的文檔相關(guān)聯(lián); 接收包括父詞條的搜索查詢;以及 接收與該父詞條的子詞條相關(guān)聯(lián)的一個(gè)或多個(gè)文檔。
11、 一個(gè)或多個(gè)編碼有軟件的計(jì)算機(jī)可讀有形介質(zhì),該軟件在被執(zhí) 行時(shí)可以訪問存儲(chǔ)在一個(gè)或多個(gè)有形介質(zhì)中的語料庫,該語料庫包括多個(gè)詞條;對(duì)所述多個(gè)詞條的一個(gè)或多個(gè)詞條中的每個(gè)詞條執(zhí)行下述步驟以產(chǎn) 生多個(gè)父子關(guān)系根據(jù)有向相關(guān)度來標(biāo)識(shí)這每個(gè)詞條中的一個(gè)或多個(gè)父詞條,所述多個(gè)詞條包括這一個(gè)或多個(gè)父詞條;以及根據(jù)這一個(gè)或多個(gè)父詞條和這每個(gè)詞條來建立一個(gè)或多個(gè)父 子關(guān)系;以及根據(jù)這多個(gè)父子關(guān)系來自動(dòng)生成層次圖。
12、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),其中該軟件還可 以通過下述步驟根據(jù)有向相關(guān)度來標(biāo)識(shí)這每個(gè)詞條的一個(gè)或多個(gè)父詞 條確定從這每個(gè)詞條到候選父詞條存在高有向相關(guān)度; 確定從該候選父詞條到這每個(gè)詞條存在低非零有向相關(guān)度; 確定從該候選父詞條到這每個(gè)條目的有向相關(guān)度高于最小閾值;以及將該候選父詞條標(biāo)識(shí)為這每個(gè)詞條的父詞條。
13、 根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀有形介質(zhì),其中該軟件還可 以通過以下步驟根據(jù)有向相關(guān)度來標(biāo)識(shí)這每個(gè)詞條的--個(gè)或多個(gè)父詞 條確定從這每個(gè)詞條到候選父詞條的有向相關(guān)度大于0.6; 確定從該候選父詞條到這每個(gè)詞條的有向相關(guān)度小于0.4且大于 0.1;以及將該候選父詞條標(biāo)識(shí)為這每個(gè)詞條的父詞條。
14、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),該軟件還可以通 過以下步驟通過縮減該層次圖而根據(jù)這多個(gè)父子關(guān)系來自動(dòng)生成該層次 圖標(biāo)識(shí)該層次圖的父子關(guān)系和冗余父子關(guān)系以及 從該層次圖中移除該冗余父子關(guān)系。
15、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),其中 該語料庫包括多個(gè)文檔,這多個(gè)文檔包括所述多個(gè)詞條;并且 該層次圖表示了這多個(gè)文檔的類別。
16、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),其中該語料庫包括多個(gè)搜索結(jié)果;所述一個(gè)或多個(gè)詞條的詞條表示了搜索結(jié)果的話題;并且 該層次圖描述了這多個(gè)搜索結(jié)果的多個(gè)父子關(guān)系。
17、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),其中 該語料庫包括被組織為多個(gè)聚類的多個(gè)搜索結(jié)果; 所述一個(gè)或多個(gè)詞條的詞條表示了聚類的話題;并且 該層次圖描述了這多個(gè)搜索結(jié)果的多個(gè)父子關(guān)系。
18、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),該軟件還可以 將該層次圖的多個(gè)父詞條發(fā)送給客戶機(jī); 接收父詞條的選擇,所選父詞條具有多個(gè)子詞條;以及 將這多個(gè)子詞條發(fā)送給該客戶機(jī)。
19、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),該軟件還可以 接收包括該層次圖的父詞條的搜索查詢; 標(biāo)識(shí)該父詞條的一個(gè)或多個(gè)子詞條;以及 使用該父詞條和這一個(gè)或多個(gè)子詞條來搜索該語料庫。
20、 根據(jù)權(quán)利要求ll所述的計(jì)算機(jī)可讀有形介質(zhì),其中 該語料庫包括多個(gè)文檔,這多個(gè)文檔包括所述多個(gè)詞條;并且 該軟件還可以將該層次圖的每個(gè)圖詞條與包括這每個(gè)圖詞條的文檔相關(guān)聯(lián); 接收包括父詞條的搜索查詢;以及 接收與該父詞條的子詞條相關(guān)聯(lián)的一個(gè)或多個(gè)文檔。
21、 一種系統(tǒng),該系統(tǒng)包括用于訪問存儲(chǔ)在一個(gè)或多個(gè)有形介質(zhì)中的語料庫的裝置,該語料庫 包括多個(gè)詞條;用于對(duì)所述多個(gè)詞條的一個(gè)或多個(gè)詞條中的每個(gè)詞條執(zhí)行下述步驟 以產(chǎn)生多個(gè)父子關(guān)系的裝置根據(jù)有向相關(guān)度來標(biāo)識(shí)這每個(gè)詞條中的一個(gè)或多個(gè)父詞條,所 述多個(gè)詞條包括這一個(gè)或多個(gè)父詞條;以及根據(jù)這一個(gè)或多個(gè)父詞條和這每個(gè)詞條來建立一個(gè)或多個(gè)父子關(guān)系;以及用于根據(jù)這多個(gè)父子關(guān)系來自動(dòng)生成層次圖的裝置。
全文摘要
本發(fā)明涉及自動(dòng)生成詞條層次。在某些實(shí)施方式中,生成詞條的層次包括訪問包括多個(gè)詞條的語料庫。對(duì)一個(gè)或多個(gè)詞條執(zhí)行以下步驟以產(chǎn)生父子關(guān)系根據(jù)有向相關(guān)度來標(biāo)識(shí)詞條的一個(gè)或多個(gè)父詞條;以及根據(jù)該父詞條和每個(gè)詞條來建立一個(gè)或多個(gè)父子關(guān)系。根據(jù)這些父子關(guān)系而自動(dòng)生成層次圖。
文檔編號(hào)G06F17/30GK101404015SQ20081016617
公開日2009年4月8日 申請(qǐng)日期2008年10月6日 優(yōu)先權(quán)日2007年10月5日
發(fā)明者B·托馬斯·阿德勒, 亞歷克斯·吉爾曼, 大衛(wèi)·馬爾維特, 斯特吉奧斯·斯特吉奧, 賈瓦哈拉·賈殷 申請(qǐng)人:富士通株式會(huì)社