專利名稱:用于量化文本表達相似性的自動的、基于計算機的相似性計算系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種自動的、基于計算機的相似性計算系統(tǒng)以;M目對應(yīng)的 相似性計算方法,使用該系統(tǒng)和方法,能夠成對檢查源自以數(shù)字形式存儲
的一個或多個文本文檔的文本表達(text expression )(下面筒稱為表達) 的語義相似性。
本發(fā)明因此可以用于自動的、基于計算機的信息結(jié)構(gòu)化領(lǐng)域,特別是 自動的、基于計算機的詞表(thesaurus)構(gòu)建和/或本體構(gòu)建(ontology construction)領(lǐng)域。
背景技術(shù):
下面,首先介紹隨后使用的概念的若干概念定義。如果需要,在l^ 說明中對應(yīng)的位置介紹更多的概念定義。
因此,首先,概念"表達"(與其同義使用的是項或概念)或"文 本表達"應(yīng)被理解為總共包括一個詞(word)或多個詞(由文本構(gòu)成的單詞 表達或多詞表達)的單字符序列。在此,詞是兩端由空格或標點符號限定 的字符序列。可以確定一對或兩個這樣的表達的相似性(similarity)。這里, 相似性被理解為給定的語義關(guān)系(語義自然語言文本的含義)。兩個概 念或表達之間的這樣的相似性可以用統(tǒng)計的方法來量化(兩個表達之間的 相似性的計算)。因此,相似性在下面也被理解為描述語義關(guān)系的統(tǒng)計度 量數(shù)字(statistical dimension figure ),其在下面也被稱為相似性權(quán)重值。 以下被稱為相似性權(quán)重值的量在文獻中也稱為相似性度量(similarity measure).概念"表達之間的關(guān)系或(關(guān)聯(lián))關(guān)系"也被與概念"相似性" 同義地4吏用。
以下,"詞表,,被理解為表達或者項的集合連同在這些表達之間的關(guān) 系或相似性的集合。在此,存在手動生成和自動生成的詞表。自動生成詞 表是可能的,其方式是在大的文集或匯集(匯集單獨文本文檔的集合)
中,根據(jù)各文本文檔中或文檔內(nèi)各節(jié)、句子或句子部分中的詞的共同出現(xiàn) 來導(dǎo)出上述關(guān)系或關(guān)聯(lián)關(guān)系。被檢查各個項的出現(xiàn)的文本部分或節(jié)在下面 也被稱為文本片段。因此,這樣的文本片段例如可以是整個文本文檔、來 自文檔的節(jié)或包括規(guī)定數(shù)目的連續(xù)單詞的詞窗口。這樣的詞表也可以被當 作本體(即結(jié)構(gòu)化的知識庫)的(簡單)描述。
自動詞表構(gòu)建的過程可以分為3個階段
1. 詞匯的構(gòu)建或表達的選擇。
2. 所選擇詞匯的表達對之間的統(tǒng)計相似性的計算。
3. 詞匯的組織或結(jié)構(gòu)化(聚類(clustering))。
在此,本發(fā)明涉及第2點,即,項對之間的統(tǒng)計相似性的計算。
特別是對于詞匯的選擇,以M于文本片段內(nèi)表達出現(xiàn)或不出現(xiàn)的評 估,有意義的是對匯集的各文本文檔進行預(yù)處理(歸一化)在此,表達 的歸一化主要包括兩部分,即噪聲詞去除和基本形式縮減。通過噪聲詞去 除,基本上從文本文檔去除以下表達形容詞和副詞,介詞和冠詞,數(shù)字 和4艮常用的詞(例如"和"或者"或")。如果需要,也可以去除特有名稱。 在詞根縮減的情況下,各表達或詞被縮減到其詞才艮。由此,派生(從原始
在下面,概念"詞才艮縮減"與概念"基本形式縮減"即"去除詞形變化字 尾"同義使用(因此,不采取或考慮不同派生的縮減)。
相應(yīng)兩個表達或表達對之間的統(tǒng)計相似性確定是詞表的自動生成的 要點。因此,對應(yīng)的方法在現(xiàn)有技術(shù)中已存在。第一組方法(以下也被稱 為基于出現(xiàn)的方法)(出現(xiàn)英文巡urrence)在此基于文本片段中表達 出現(xiàn)的頻率。然而,由此基于一個表M的兩個表i^文本片段中的共同 出現(xiàn)的方法不考慮該表M在其中出現(xiàn)的上下文的實際內(nèi)容。概念"上下 文",即圍繞語言單元或表達的文本(由此也即其中出現(xiàn)表達的上下文), 在下面與概念"文本片段"(即其中對表達或表M的出現(xiàn)或存在進行檢 查的預(yù)定文本節(jié))同義^f吏用。
因此,更新的方法嘗試同時考慮表達所處上下文的實際內(nèi)容。在下面, 表達的內(nèi)容(content)或內(nèi)容環(huán)境(content surroundings)被理解為在一個 文本片段內(nèi)或"^"文本片段的集合內(nèi)與特定表達一起出現(xiàn)的表達的集合或 數(shù)目。現(xiàn)有技術(shù)的基于內(nèi)容的方法的缺點在于這些方法不能區(qū)分重要或 實質(zhì)的內(nèi)容和干擾性或非實質(zhì)的內(nèi)容。在隨后的說明中,更詳細地討論現(xiàn)
有技術(shù)的這些缺點。
現(xiàn)有技術(shù)的上述缺點導(dǎo)致直到現(xiàn)在仍只以不令人滿意的方式確定表
達對的統(tǒng)計相似性關(guān)系(即計算對應(yīng)的相似性權(quán)重值)因此,在相當多 的情況下,對于其間存在語義相似性的一對表達,仍然錯誤地分配^^目似 性權(quán)重值,并且反之亦然,對于其間僅有極小的或根本沒有語義相似性存 在的表達對,錯誤地分配了太高的相似性權(quán)重值。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是實現(xiàn)一種設(shè)備和方法,利用該i殳備和方法,能 夠以改進的方式實現(xiàn)對表達對的相似性權(quán)重值的計算,并且利用該設(shè)備和 方法,針對表達對統(tǒng)計確定的相似性權(quán)重值因而更好地反映表達對的兩個 表達的含義的實際相似性。
該目的通過根據(jù)權(quán)利要求1所述的相似性計算系統(tǒng)以及根據(jù)權(quán)利要 求31所述的相似性計算方法來實現(xiàn)。在相應(yīng)的從屬權(quán)利要求中說明了根 據(jù)本發(fā)明的相似性計算系統(tǒng)和對應(yīng)的計算方法的有利的實施例。
根據(jù)本發(fā)明的目的如下實現(xiàn):提,對兩個表達t和t2(表達對(^,t2)) 的相似性的改進的相似性度量occ一con(^,t2),上述改進的相似性度量 occ—con(tht2)考慮到這兩個表^文i片段內(nèi)的共同出現(xiàn),以及文本片段 中不同上下iL^達的數(shù)目(上下文表達是與t 一起出現(xiàn)在至少一個文本片
段中且與t2—起出現(xiàn)在至少另一個文本片段中的表達,但該表達既不與 ^也不與t2對應(yīng)或相等)。根據(jù)本發(fā)明的、組合了出現(xiàn)上下文和內(nèi)容上下 文(occ代表出現(xiàn),con代表內(nèi)容)的相似性度量occ_con于是用于計算 表達對的相似性權(quán)重值agw(t,t2)。
如l^更加詳細說明的那樣,根據(jù)本發(fā)明的相似性度量可以用于根據(jù) 現(xiàn)有技術(shù)已知的相似性加權(quán),例如余弦相似性加權(quán)或PMI相似性加權(quán)。 然而,本發(fā)明的實質(zhì)方面也在于根據(jù)本發(fā)明提供新的、借助才艮據(jù)本發(fā)明的 相似性度量計算的相似性權(quán)重或相似性權(quán)重值,特別是隨后更詳細說明 的、基于若干單獨權(quán)重的乘積的權(quán)重rel一comb。這在隨后的實施例說明 中更詳細描述。
根據(jù)本發(fā)明的相似性度量和根據(jù)本發(fā)明的相似性權(quán)重值、或根據(jù)本發(fā) 明的相似性計算系統(tǒng)/方法相對于現(xiàn)有技術(shù)具有明顯的優(yōu)勢實驗顯示, 與現(xiàn)有技術(shù)的基于文檔的出現(xiàn)方法相比較,利用根據(jù)本發(fā)明的相似性度量 計算的根據(jù)本發(fā)明的相似性權(quán)重值中最好的相似性權(quán)重值的結(jié)果在F度 量方面改進了 70%。
自動的、基于計算機的相似性計算系統(tǒng)或?qū)?yīng)的相似性計算方法可以 如在隨后的例子中詳細說明的那樣實現(xiàn)或使用。
附圖中,
圖1示出了同樣可以使用根據(jù)本發(fā)明的相似性度量計算的若干已知 相似性權(quán)重。
圖2以比較的方式示出了能夠以常規(guī)方式計算的和利用根據(jù)本發(fā)明 的相似性度量計算的已知相似性權(quán)重PMI。
圖3示出了基于根據(jù)本發(fā)明的相似性度量計算的根據(jù)本發(fā)明的一些 相似性權(quán)重互相之間的比較,以及與沒有根據(jù)本發(fā)明的相似性度量計算的 相似性權(quán)重的比較。
圖4示意性示出才艮據(jù)本發(fā)明的相似性計算系統(tǒng)的結(jié)構(gòu)。
具體實施例方式
隨后的實施例說明大體分為兩個部分。首先,說明了根據(jù)現(xiàn)有技術(shù)的 基本方法和根據(jù)現(xiàn)有技術(shù)已知的相似性加權(quán),以及與其相關(guān)的缺點。在隨 后的第二部分中,說明如何計算根據(jù)本發(fā)明的相似性度量occ一con(ti,t2), 以及如何由此計算根據(jù)本發(fā)明的相似性權(quán)重值或相似性權(quán)重agw(仏t2)。
基于文本匯集的統(tǒng)計分析的、對表達之間的相似性或關(guān)系的確定對很 多應(yīng)用是重要的,特別是在自動詞表構(gòu)建領(lǐng)域中或在信息檢索(IR, information retrieval)領(lǐng)域中。所有這些方法都基于表達的共同上下文的 特定想法(或特定思想),該共同上下文借助相似性權(quán)重值而被量化,其 中該想法將表達的各別上下文與它們的共同上下文(即,其在文本片段中 單獨的出現(xiàn)與共同的出現(xiàn))相比較。高相似性權(quán)重值表示在一個表達對 (t^2)的兩個表達t" 12之間存在語義關(guān)系。所有已知的相似性權(quán)重值只能 夠有利地用于特定任務(wù),而它們不適合或較不適合其它任務(wù)。本發(fā)明特別 涉及針對自動詞表生成而優(yōu)化的相似性度量的推導(dǎo),和針對該任務(wù)而優(yōu)化 的根據(jù)相似性度量對相似性權(quán)重值的計算。
在此,主JH^設(shè)已識別出對于給定文本匯集的主要表達;因此,本發(fā) 明特別用于由表達的預(yù)先給定的集合(以下也稱為候選表達ti的集合)來 優(yōu)化地確定表達對的相似性權(quán)重值。在此,這些候選表達的集合的編排可 以通過候選表i^擇單元來實現(xiàn),該候選表i^擇單元例如基于以下提到
的出版物中提出的選擇算法L. Chen, U. Thiel, M. L,Abbate, "Automatic Thesaurus Production and Query Expansion in an E-commerce Application", Proceedings 8th International Symposium for Information Technology, 2002, pp. 181-199 (以下為參考文獻1 )。
接著,現(xiàn)在首先給出根據(jù)現(xiàn)有技術(shù)的相似性加權(quán)的概述。接下來是對 根據(jù)現(xiàn)有技術(shù)已知的共同上下文的兩個主要概念的討論。1^是對相關(guān)概 率形式的共同上下文的這兩個已知概念的說明;后者特別用于準^^基于祁^ 據(jù)本發(fā)明的相似性度量occ一con(tb W的、根據(jù)本發(fā)明的有利相似性權(quán)重值 agw(tb t。的推導(dǎo)。后者的g導(dǎo)在隨后部分中詳細描述,所述隨后部分首 先介紹直接導(dǎo)致根據(jù)本發(fā)明的相似性度量的共同上下文的根據(jù)本發(fā)明的 新概念,以便說明隨后的根據(jù)本發(fā)明的相似性加權(quán),尤其以組合相似性加 權(quán)的形式進行相似性加權(quán)。接下來,最后是揭示根據(jù)本發(fā)明的組合相似性 加權(quán)與現(xiàn)有技術(shù)的相似性加^M目比的優(yōu)點的部分。后者通過將自動確定的 關(guān)系或相似性加權(quán)與黃金標準詞表(gold standard thesaurus)相比較來 進行。
根據(jù)現(xiàn)有技術(shù)的統(tǒng)計的相似性量化 a)相似性加權(quán)
兩個表達或概念之間的語義相似性關(guān)系通?;诟拍畹墓餐匦?。相 似性關(guān)系的統(tǒng)計量化使用該原則,其方式是上下文(即表達的周圍文本或 表M文本匯集內(nèi)或文本主體內(nèi)出現(xiàn)的聯(lián)系)被視為特性。(單個)表達 的上下文可以定義為該表達單獨出現(xiàn)的4^P文本片段(或者其數(shù)目)的集 合。于是,兩個表達的共同上下文可以定義為這兩個表達一起出現(xiàn)(即, 在一個Jbf目同的文本片段內(nèi))的全部文本片段(或其數(shù)目)的集合。前面
那些現(xiàn)有技術(shù)的方法。在此,不考慮各文本片段的內(nèi)容。、與此相反,如已 經(jīng)說明的那樣,現(xiàn)有技術(shù)的基于內(nèi)容的方法使用在文本片段內(nèi)要檢查的表 達周圍出現(xiàn)的內(nèi)容(即,文本片段內(nèi)的其它表達)。關(guān)于后面的方法,共 同上下文由表達的交集(或由該交集內(nèi)對應(yīng)數(shù)目的表達)來提供,其中這 些表達(相對于要檢查的文本片段的集合)不但至少一次與表達對(t, t2)
的第一表達^一起在一個文本片段內(nèi)出現(xiàn),而且至少一次和與表i^]"的第
二表達t2—起在一個文本片段中出現(xiàn)。隨后,上下文的第一定義被稱為出
現(xiàn)上下文,而上下文的第二定義被稱為內(nèi)容上下文。
從現(xiàn)有技術(shù)中,已知用于量化表達對的相似性的一些相似性加權(quán),例
如余弦系數(shù)COS、所謂的"dice"系數(shù)DICE (L.R. Dice "Measures of the Amount of Ecologic Association between Species", J. of Ecology, 26, pp. 297-302 ), JACCARD系數(shù)JAC (參見例如Van Rijsbergen "Information Retrieval",第2版,1979年)或點式共同信息(點式互信息)PMI (參 見K. Church等人的"Word Association Norms, Mutual Information and Lexicography", Computational Linguistics, 16.1, 22-29, 1990 )。針對表達
對(t, t2)的全部這些相似性權(quán)重值在形式上都可以通過四個可能的組合來
表示,其通常以列聯(lián)表示出,如圖1A中所示。在此,ti和"ti描述在一個 上下文中存在或不存在表達ti (i = l, 2)。 fu,t2表示一起出現(xiàn)表達t、 t2
兩者的上下文或文本片段的頻率。f,tl,t2~ fu,,t2表示出現(xiàn)兩個表達之一但
另一個不出現(xiàn)的上下文或文本片段的頻率。最后,f,tl,,描述兩個表達中
沒有一個出現(xiàn)的上下文或文本片段的頻率。N表示被考慮的文本片段的總 數(shù)目(N = ftl+f,tl=ft2+f,t2 )。例如,如果將完整的句子選作文本片段,且所 考慮的文檔匯集包含105個不同的句子,則針對概念t^ "cat"的值fa =10意味著概念"cat"出現(xiàn)在105個句子中的10個文本片段或句子中。 則f,tl是99卯。加之t2 = "dog" , ft2 = 20 ,則例如ftl,t2 = 3意味著表達對(^,^)= ("cat", "dog")的^和t2在這l()5個句子中的三個句子中一起出現(xiàn)在相 應(yīng)的句子內(nèi)。
現(xiàn)在,圖IB示出如何根據(jù)這些頻率計算出COS系數(shù),DICE系數(shù), JAC系數(shù)和PMI系數(shù)。當然,描述兩個表i^一個JL^目同的文本片段內(nèi)
共同出現(xiàn)的頻率fu,t2生成所表示的相似性加權(quán)的最重要分量。
圖IB中示出的相似性加權(quán)的前三個(即,COS, DICE, JAC)也 可以就所使用的頻率f而被歸納為這些頻率不僅描述出現(xiàn)表達的文本片 段的純粹數(shù)目,而JJ t于每個文本片段,還描^達出現(xiàn)在該文本片段內(nèi) 的頻率。因此,例如COS系數(shù)可以被歸納如下
<formula>formula see original document page 20</formula>
這里,ti表示^或t2。就出現(xiàn)上下文而言,f柳,t",ti描述在^和t2的共同文 本片段C中即C(tl,t2) (^和t2的共同文本片段是出現(xiàn)t和t2兩者的文本 片段)中項ti的頻率,而f柳,ti描述項ti的文本片段C中,即C(tj) (ti的 文本片段C是出現(xiàn)ti的文本片段)中項ti的頻率。
就內(nèi)容上下文而言,C(tl,t2)描述與t 一起出現(xiàn)在至少一個文本片段中 且還與t2—起出現(xiàn)在至少一個(另外的)文本片段中的表達C。 f柳,t2),ti描
述在c(tl,t2)和ti的全部共同文本片段中表達c(tl,t2)的總頻率。c(ti)表示與
tj一起出現(xiàn)在至少一個文本片段中的表達C。 f柳,ti描述在C(ti)和ti的4^ 共同文本片段中的表達C(ti)的總頻率。
由此,COS—ALLG(tl,t2)以歸納的形式描述兩個表達^和t2之間的余 弦多巨離。
b)糾概率模型
以下說明條件概率模型,條件概率模型可以被應(yīng)用于單獨上下文和共 同上下文(根據(jù)現(xiàn)有技術(shù)的出現(xiàn)上下文和內(nèi)容上下文,以及根據(jù)本發(fā)明的、 隨后還要描述的組合上下文)的不同概念。
該方法背后的想法是兩個表達之間的關(guān)系的強度取決于一個表ii^ 多強地依賴于另一個表達,或者更一般地說,表達對的表達t的單獨的上 下文有多大可能依賴于共同上下文(即,出現(xiàn)該對的表達k和t2兩者)。 這可以通過條件概率P(t^2)來確定,條件概率P(t^2)即在表達t2的a 下(即,在表達12已經(jīng)在所考慮的文本片段中出現(xiàn)的條件下)表達^出現(xiàn) 的概率。該條件概率P(t化)通??梢酝ㄟ^^和t2的共同上下文的概率
P(tbt2)(即,t和t2—起出現(xiàn)在一個文本片段中的概率)以及具有或不具 有^的情況下t2的上下文的概率P(t2)(即,t2出現(xiàn)在所考慮的文本片段
內(nèi))來計算
<formula>formula see original document page 21</formula>
為了確定一個表達對(ti,t2)的兩個表達互相依賴的程度,可以將條件 概率沿兩個方向或針對這兩個表達的每一個表勤目乘在一起,其結(jié)果是,
得到共同條件概率如下<formula>formula see original document page 21</formula>
c)現(xiàn)有技術(shù)的出現(xiàn)上下文
出現(xiàn)上下文是最熟知以被4吏用的上下文類型之一。(目標)表達t的 出現(xiàn)上下文被定義為含表達t的文本片段的集合(或數(shù)目)(在此,不考 慮另外仍包含在文本片段中的內(nèi)容或表達)。如已在先前所述的,例如整 個文檔或者是文檔的一部分可以用作文本片段。在后一情況下,例如,段 落、整個句子或者具有固定窗口寬度的文本窗(即,含有精確限定的數(shù)目 的表達的文本片段)也可以用作文本片段。iOo大的文本片段(特別是 整個文檔)是相對不特定的、 一般不能為關(guān)于表達之間的關(guān)系的決定提供 可靠1^的上下文。因此,反而使用小的文本片段有利。
有利地,這里區(qū)分兩種類型的窗或文本片段 一個目標項或目標表達 t的窗(以下也稱為文本片段lte文本片段)以及兩個目標項t" t2的 窗(以下也稱為文本片段lt" t2E文本片段)。于是,距離的單位或者 這樣的文本窗的位置總是如上定義的能夠包括一個詞或者甚至是若干個 詞的單個表達。
在本實施例中,使用了包括以目標表達開始向左和向右的規(guī)定數(shù)目的 表達的文本片段。這里,規(guī)定的數(shù)目有利地設(shè)置為大約20,使得以準確 的20個表達的值,總共產(chǎn)生41個表達的窗口寬度。在上述針對目標表達 t的窗口中,因此有目標表達t的窗口總是與該目標表達t在文檔中的 位置有關(guān),并且在特定位置的t的窗口包括該位置向左的n個表達和向右 的n個表達(這里,應(yīng)該注意文檔界限不超出兩側(cè)或兩個窗口末端)。
現(xiàn)在,將表達t的出現(xiàn)上下文定義如下
occ(O = {文本片段I f e文本片段}
因此,occ(t)描述適合以下4Hf的所有文本片段的集合表達t出現(xiàn)在各 考慮的文本片段中(更準確地說,occ(t)描述這些文本片段的數(shù)目)。表達 t出現(xiàn)在一個文本片段中的概率因此可以根據(jù)這樣的文本片段的相對數(shù)目 來估計
這里,N描述文本匯集中所有文本片段的數(shù)目。針對量occ(t), locc(t)l
描述其基數(shù)目或基數(shù),即,該集合的元素的數(shù)目。隨后,對于該數(shù)目或基
數(shù)目,使用表達I occ(t) I和簡化了的表達occ(t)兩者(這也適用于其它基數(shù), 例如locc—con(^,t2)1 )。從而根據(jù)相應(yīng)的意義關(guān)聯(lián)(sense context),得出 例如occ(t)是否意指集合自身或簡化表示其基數(shù)目。
兩個表達^和t2的共同上下文可以相應(yīng)地定義為一起出現(xiàn)t和t2二
者的文本片段的集合(更準確地說是數(shù)目)
OCC", 2) = {文本片段I e文本片段} 這里,用于兩個目標表達^和t2的窗總是與兩個目標項的位置pOS(tO和
pos(t2)有關(guān),這兩個目標項的距離至多是n個項或表達,即,適用I pos(tj -pos(t2)l<n。因此,如果不限制一般性,假設(shè)pos(t2)〉 pos(t0,則用于 兩個項^和t2的窗從pos(t。向左擴展n個表達,且從pos(tj向右擴展n 個項。
上述兩種類型的窗(用于一個目標項的窗和用于兩個目標項的窗)都 是動態(tài)的,或能夠以滑動的方式在文檔上移動,因此也能夠交疊。
同樣,表達^和t2兩者一起出現(xiàn)在一個文4^1內(nèi)或共同上下文內(nèi)(這 在隨后也描述和縮寫為、與t2")的概率可以根據(jù)共同文本片段的相對 數(shù)目來估計
于是,共同M概率(即,兩個表達互相依賴的概率)通過下式得到
這里,i...i同樣表示對應(yīng)的集合的基數(shù)。
與上述余弦加;M目對應(yīng),純粹基于出現(xiàn)頻率的相似性加權(quán)可以祁4t如 下獲得<formula>formula see original document page 23</formula>
d)才艮據(jù)現(xiàn)有技術(shù)的內(nèi)容上下文
如在c)部分中詳細說明的那樣,基于出現(xiàn)的方法的主要缺點是它們 沒有考慮內(nèi)容(即,文本片段內(nèi)與被研究的表達t和t2 —起出現(xiàn)的表達)。 這首先導(dǎo)致被檢查表達t和t2在相同的內(nèi)容關(guān)聯(lián)(例如,分別出現(xiàn)^和 t2的兩個相同的句子)中的多次共同出現(xiàn)4m地^4達對(ti,t2)的相似性加 權(quán)增加太大的問題。用于避免該問題的一個方法是在考慮時將上下文中與 ^和/或t2 —起實際出現(xiàn)的表達一同包含在內(nèi)。
這通過如下內(nèi)容上下文的定義來實現(xiàn)
這里,"tc。n與t"表示表達tc。n與表達t一起出現(xiàn)在相同的文本片段中。因
此,con(t)描述所有如下表達Un的集合(更準確地說是其數(shù)目)這些表
達在這些所考慮的文本片段的集合中與一個文本片段內(nèi)的t 一起分別出 現(xiàn)。
因此,兩個表達^和t2的共同內(nèi)容上下文可以通過概念^和t2的兩 個(單獨的)上下文的交集來定義<formula>formula see original document page 24</formula>
可以再次使用單獨內(nèi)容上下文的和共同內(nèi)容上下文的以上兩個定義,
以便定義共同條件概率
在該定義中,如果同時考慮上下文的內(nèi)容,則如果該對的兩個項t和t2 沒有一起出現(xiàn)在一個文本片段內(nèi),而是分別單獨與相同的上下文表達一起
出現(xiàn),也可以確定項^和t2之間的關(guān)系或相似性。因此,例如在所考慮的
文本片段的集合中,如果出現(xiàn)文本片段"a cat runs down a hill"和文本 片段"a dog runs down a hill",即4錄達"cat"和"dog"沒有一起出現(xiàn) 在一個文本片段內(nèi),也可以得到表達t- "cat"和12= "dog"之間的關(guān) 系或相似性。可見,本部分d)中所述的純粹基于內(nèi)容的方法在特別是自 動詞表構(gòu)建領(lǐng)域中相對較差地工作。這大概是因為上位概念(即,就內(nèi)容 而言具有較寬的范圍的概念)與大量的表達tc。n —起出現(xiàn)在被研究的文本
片段內(nèi),然而,這些概念tc。n不能指示這樣的上位概念的任何具體方面
如果^和t2是這樣的上位概念,則也提供與第一上位概念b—起在一個 文本片段內(nèi)出現(xiàn)至少一次、并且與第二上位概念t2 —M另 一個文本片段
內(nèi)出現(xiàn)至少一次的大量的表達tc。n,即,從COIl(tht2)或?qū)?yīng)的交集檢測到 大量的表達te。n。然而在這種情況下,從COH(tht2)沒有得到關(guān)于內(nèi)容的有
意義的關(guān)系。在上面提到的例子中,文本片段"a boy runs down a hill" 會同樣導(dǎo)致"dog"和"boy"之間的關(guān)系(或者也導(dǎo)致"cat"和"boy" 之間的關(guān)系或相似性),即使il^概念的語義相似性的確非常低。因此, 這里的問^A內(nèi)容表達tc。n "runs down a hill"與大量的運動對象結(jié)合出 現(xiàn),因此沒有描述"boy"和"cat"之間(或"boy"和"dog"之間)明 顯的共同方面。
根據(jù)本發(fā)明的相似性加權(quán)
為了解決現(xiàn)有技術(shù)的上述問題,根據(jù)本發(fā)明,提出將出現(xiàn)上下文和內(nèi)
容上下文組合在基于共同出現(xiàn)生共同內(nèi)容的共同上下文的一個概念中,
即,形成相似性度量occ一con(tht2),其既考慮到表達對的兩個表達t和t2 兩者在文本片段內(nèi)共同出現(xiàn)的總頻率,又考慮到這些文本片段的集合中不 同的上下文表達的總數(shù)。這里,上下文表達是與表達^一起出現(xiàn)在這些上
下文片段的集合中的至少一個上下文片段中、并且與表達t2—起出現(xiàn)在這
些上下文片段的集合中的至少另一個文本片段中的表達,但是,不與t
或t2相對應(yīng)(即,與^或t2都不相同)。
特別有利的是,根據(jù)本發(fā)明如下計算這樣的相似性度量
<formula>formula see original document page 25</formula>
因此,這樣定義的相似性度量oc匚con(tbt2)(或者以可替選的基數(shù)目表示 的形式為Iocc—con(t,t2)I )對應(yīng)于適用以下內(nèi)容的所有上下文表達tc。n 的集合(更準確地說是其數(shù)目)這些上下文表達t咖與^^J2—起出現(xiàn) 在一個ibf目同的文本片段中。從內(nèi)容的角度來看,根據(jù)本發(fā)明的所提出的 有利的相似性度量occjon(tht2)描述了把t和t2 —起出現(xiàn)于其中的文本片 段的內(nèi)容考慮在內(nèi)的內(nèi)容上下文,同時,從出現(xiàn)的角度來看,所提出的度
量值需要這兩個被研究的表達t和t2也分別一起出現(xiàn)在同一個的文本片 段中。與前面所說的純粹的基于出現(xiàn)的共同上下文相比,根據(jù)本發(fā)明的基
于出現(xiàn)和內(nèi)容的有利的相似性度量因此給予與^或t2—起出現(xiàn)在相同文 本片段中的所有不同的上下文表達tc。n相同的重要性,而不管^和t2實際 與特定tc。n的這樣的共同出現(xiàn)有多頻繁。因此,表達t1和t2—^4相同內(nèi)
容環(huán)境中的多次共同出現(xiàn)并不影響相似性度量occ一con(t1,t2)(因此,祁^據(jù) 其計算的根據(jù)本發(fā)明的相似性加權(quán)agw(tbt2)也不受影響,參見下文)。與
前面說明的純粹的基于內(nèi)容的共有上下文相比較,根據(jù)本發(fā)明的有利的相 似性度量僅僅考慮到與t tt2 —起出現(xiàn)在一個文本片段內(nèi)的上下a達
tc。n;因此,這兩個表達t和t2的共同方面的意義,即,語義相似性的實
際存在,通過該相似性度量被更好,測出。
現(xiàn)在,本實施例中使用的共同上下文的有利概念(即,前面所說的相
似性度量occ—con(t1,t2))可以如在下文說明的那樣使用,以便計算兩種類
型的條件概率(于是,這些*概率自身可以直接使用,或者被結(jié)合使用,
以便針對表達對計算根據(jù)本發(fā)明的相似性權(quán)重值agw(t"2)):
a) 第一條件概率,其利用出現(xiàn)上下文來歸一化上述相似性度量 ocC-Con(t^,t2), 以及
b) 第二條件概率,其利用共同內(nèi)容上下文來歸一化上述相似性度量 occcon(ti,t2)。
a)第一條件概率
第一M概率度量第一表達t在文本片段中的存在有多頻繁地導(dǎo)致
第二表達t2與共同上下文表達tc。n —起出現(xiàn)在相同文本片段中,以及相反的情況。
<formula>formula see original document page 26</formula>
因此,該共同條件概率考慮了上述^和t2在相同(或相似)的內(nèi)容
關(guān)聯(lián)內(nèi)的多次共同出現(xiàn)的問題。為了與根據(jù)現(xiàn)有技術(shù)已知的余弦相似性加 權(quán)cos的更好的可比性,因此,可以如下直接獲得根據(jù)本發(fā)明的第一相
似性權(quán)重值agw(t"2)(關(guān)于occ(ti)的定義,參見前面的現(xiàn)有技術(shù)的部分
<formula>formula see original document page 26</formula>
b)第二條件概率
如果滿足M:兩個表達t和12分別與共同上下文項t咖一起出現(xiàn)
(即,^與tc。n—起在第一文本片段中出現(xiàn),且t2與tc。n—起在第二文本 片段中出現(xiàn)),則該第二a概率記錄這兩個表達ti和t2—起共同出現(xiàn)的 概率。第二條件概率如下定義
<formula>formula see original document page 26</formula>
且能夠直接以該形式用作根據(jù)本發(fā)明的相似性權(quán)重值agw(t^t2)(值 con(^,t2)的定義,參見前面的現(xiàn)有技術(shù)的部分d))。這樣計算出的相似性 權(quán)重值agw(^,t2)還被稱為M^橫比aspect—ratio(ti,t2)。
這樣根據(jù)F2)計算的條件概率考慮了通過度量值coii(tbt2)而不是通 過度量值occ—con(t,t2)檢測的共同上下文表達tc。n的問題。這樣計算出的 相似性權(quán)重值(縱橫比)實現(xiàn)消除上位概念(例如"月亮"或"星星") 之間的表面關(guān)系,其中這些表面關(guān)系傾向于具有4艮多共同上下i^達(這 導(dǎo)致con(tht2)變大)。這里,有利的是,縱橫比沒有消除上位概念和相關(guān) 的很特定的概念(例如"望遠鏡"和"Ritchey-Chretien望遠鏡")之間實 際存在的關(guān)系。后者可以歸因于特定表達與任何其它表達的共同內(nèi)容上 下文通常相對較少。
關(guān)于相似性度量occ—con(^,t2)的歸一化如上所述, 一方面occ—con 是出現(xiàn)上下文一其中考慮了兩個表達^和t2的共同出現(xiàn)的總頻率;另一方 面是內(nèi)容上下文一其中考慮了不同上下i^達的總數(shù)。因此,從不同的方 面,occ—con(t^2)可以被不同地歸一化
1. 從出現(xiàn)上下文的方面,occ一con通過各出現(xiàn)上下文,即occ (tO和 occ(t2),被歸一化<formula>formula see original document page 27</formula>
2. 從內(nèi)容上下文的方面,原則上存在兩個另外的歸一化可能性 2.1通過各內(nèi)容上下文,即con(t0和con(t2),歸一化occ—con:
<formula>formula see original document page 27</formula>2.2通過^和t2的共同內(nèi)容上下文,即通過con(h,t2),歸一化occ一con, 在這種情況下,生成縱橫比<formula>formula see original document page 27</formula>
如在實驗中所證明的那樣,l.和2.1對關(guān)聯(lián)計算表現(xiàn)得非常相似,1. 比2.1相交略好。出現(xiàn)上下文occ的大問題在于在^和t2多次共同出現(xiàn) 在相同或相似的內(nèi)容環(huán)境中的情況下,^和t2之間的關(guān)聯(lián)被錯誤地估計得 太大。在這種情況下,因為共同出現(xiàn)的頻率相對較大,所以locc(tOI和 1occ(t2)l的值可能相對較大,而且,因為各內(nèi)容環(huán)境相似,所以locc—con(tb t2)|、 |con(t0|、 lcon(t2)l的值相對較小。因此,最后三個集合或基數(shù)只包含 少量不同的上下文表達。因此,具有小分子和小分母的2.1可能導(dǎo)致相對 較大的相對數(shù),這是錯誤的。與其相反,具有小分子和大分母的l.中的相 對數(shù)將總是小的,這是對的。事實上,2.2.總是與2.1.具有相同的問題, 但是如前所述,2.2.使用與1.及2.1.不同的用于關(guān)聯(lián)計算的相關(guān)性。因此, 在本發(fā)明中,使用或結(jié)合1.和2.2.。
根據(jù)前面的說明,從而得出下面的相似性權(quán)重值<formula>formula see original document page 28</formula>
這些相似性權(quán)重值基于不同的統(tǒng)計方法或使用不同的統(tǒng)計證明,以便指出 在概念^和t2之間存在語義關(guān)系。
根據(jù)本發(fā)明,現(xiàn)在,首先提出利用相似性權(quán)重值F1或相似性權(quán)重值 F2來實現(xiàn)兩個表達h和t2的相似性的量化。然而,根據(jù)本發(fā)明,更有利 的是將下面的乘積組合中的一個用作相似性權(quán)重值agw(t, t2): F1*F2、 FPF3或F2AF3。然而,根據(jù)本發(fā)明,尤其有利的是使用4^ 3個所提出 的相似性權(quán)重值的乘積組合F1*F2*F3,即
<formula>formula see original document page 28</formula> 該三乘積組合rel一comb(tb t2)的優(yōu)點的產(chǎn)生特別是因為對于在概念t和
t2之間存在語義關(guān)系的各指示器中的每一個,針對關(guān)系確定,將不同的統(tǒng)
計信息考慮在內(nèi)。
根據(jù)本發(fā)明的相似性量化與根據(jù)現(xiàn)有技術(shù)的相似性量化的比較
根據(jù)本發(fā)明的相似性計算系統(tǒng)(其在隨后參考圖4關(guān)于各個部件更準 確地說明)有利地具有目標表i^t選擇單元,該系統(tǒng)的基本部件已在上文 中指出。利用該目標表i^t選擇單元,基于所計算的相似性權(quán)重值agw(tu, ti2),可以選出可限定數(shù)目m(m 屬于自然數(shù),且n大于或者等于2)個候i^狄(tu,ti2), 其中i-l,...,m。這里,優(yōu)選地如下進行選擇使得選擇具有最大的計算 的相似性權(quán)重值的m個候選表iiX于。這m個所選候i^達對在下面也被 稱為目標表達對。
通過這樣的m個目標表達對的所選集合,可以實現(xiàn)根據(jù)本發(fā)明的相 似性加權(quán)的評估。
為此,首先對于要比較的不同的相似性加權(quán)方法,分別針對每個方法, 計算每個可能的候選表達對的相似性權(quán)重值。于是,選擇m個目標表達
對可以被視為設(shè)置閾值,該閾值去除其相似性權(quán)重值低于指定量值的那些 候選表狄。
因為沒有完美的相似性加權(quán)方法,所以m個目標表達的集合將不可
避免地包含噪聲,即,實際上沒有關(guān)系但被錯誤地提供了高的相似性權(quán)重
值的表達對。隨后所述評估的原則是基于以下情況與差的方法相比,好 的相似性加權(quán)方法將為實際存在或關(guān)心的語義關(guān)系提供更高的相似性權(quán) 重值,使得與差的相似性加權(quán)方法的情^4目比,在m個選擇的目標表達 對內(nèi)出現(xiàn)更多的具有實際出現(xiàn)的語義關(guān)系(以下也被稱為"所關(guān)心的關(guān) 系")的表M。
在指定的表達對(ta, k)之間是否實際存在所關(guān)心的關(guān)系是通過與針 對所考慮的文檔匯集手動生成的詞表進行自動比較來評估的如果目標表 達對關(guān)系已經(jīng)在手動生成的詞表(黃金標準)內(nèi)被定義為關(guān)心的關(guān)系,則 該目標表達對關(guān)系已經(jīng)通過所考慮的方法被正確地歸類為是所關(guān)心的。
相似性加權(quán)方法的有效性可以被如下評估相似性加權(quán)方法的精度 PR(m)以及其命中率R(m)被根據(jù)所選擇的目標表狄的數(shù)目m參考給定 的黃金標準來計算。如果L是被定義為存在于黃金標準中的成對關(guān)系的 總數(shù),即,所關(guān)心的關(guān)系的總數(shù),m是參考相似性權(quán)重值由所述方法選擇
的目標表達對的數(shù)目(在此僅僅計算文檔中的如下對的權(quán)重值該對的兩 個表達也存在于黃金標準中),且如果y(m)是m個所選出的目標表達對中 的、在黃金標準意義上具有所關(guān)心的關(guān)系的那些目標表達對的數(shù)目,則精 度和命中率可以定義如下
PR(m)=y(m)/m
R(m)=y(m)/L
利用F度量(參見Van Rijsbergen: " Information Retrieval", 1979 ), 這兩個測量值可以被結(jié)合記錄為單個測量值
<formula>formula see original document page 30</formula>
現(xiàn)在,如果針對目標表達對的每個所選數(shù)目m,將相關(guān)的F度量F(m) 繪制在縱坐標上,則可以借助不同相似性加權(quán)的不同F(xiàn)(m)曲線來比較不 同的相似性加權(quán)。 一種相似性加權(quán)方法,其針對m的指定值的F(m)曲線 在另一個相似性加權(quán)方法的F(m)曲線之上,因此,該相似性加權(quán)方法是 關(guān)于該m值的更好的方法。
以下提出的比較結(jié)果是如下獲得的
使用來自天文學領(lǐng)域的大約8000個文本文檔作為文本匯集。這些文 本文檔被如上所述那樣進行預(yù)處理。
將包含大約2卯0個單個概念的手動生成的天文學詞表用作黃金標 準。
不是按照自動詞表構(gòu)建中通常的那樣,在第一步驟中借助合適的表達 選擇方法(如同例如在參考文獻1中所描述的)通過為每個表達分配 合適的權(quán)重值來選出候選表達ti的集合,隨后為這些候選表達成對計 算出相似性權(quán)重值agw(t, t2),而是簡化地確定那些黃金標準表達對, 對于該方式, 一個對中的兩個表達t和t2分別一起出現(xiàn)在文本匯集的 至少三個文檔中。這生成了大約40, OOO個候選表達對。所關(guān)心的關(guān) 系被分配給黃金標準詞表中這些候選表達對的743個候選表達對(L
=743)。因此,通過m個選擇的、最高權(quán)重的目標表M(tih仏)中 有多少屬于黃金標準中被分配以所關(guān)心的關(guān)系的那y個對,可以描述 要比較的相似性加權(quán)方法的目標(因此,m可以在1至40, 000的范 圍中變化)。用于提取所關(guān)心的黃金標準關(guān)系的不同的相似性加權(quán)方 法的結(jié)果在下面在各部分中進行闡述。
現(xiàn)在,圖2示出根據(jù)現(xiàn)有技術(shù)已知的PMI相似性加權(quán)方法的不同方 法類型的結(jié)果。不同類型的不同之處在于它們針對各頻率f的計算方式不 同。因此,例如在圖2A所示的方法類型的第一行中,利用才艮據(jù)本發(fā)明的 相似性度量occ—con(t^ t。計算頻率ftl,t2,同時利用上述occ(ti)度量(i = 1, 2)計算項t或t2的單獨上下文的頻率。在第二行中表示的方法類型的情
況下,與其不同的是,例如利用現(xiàn)有技術(shù)的OCC(ti,t2)度量值計算共同上下
文(單獨上下文以第一行中所表示的方法類型來計算)。圖2A的前三行 中所述的那些方法類型中,文本片段的大小被設(shè)置為41 (分別從中央目 標表達向左和向右20個表達)。
相反,在第4行中只選擇了一種方法類型(PMI一occ一doc ),其中, 基于完整文本文檔形式的文本片段計算對應(yīng)的頻率度量值occ(t0或
OCC(t,t2)(因此,其度量值或大小被稱為OCC-dOC(ti)或OCC—dOC(ti,t2))。現(xiàn)
在,圖2B示出根據(jù)現(xiàn)有技術(shù)已知的PMI相似性加權(quán)的圖2A中表示的不 同方法類型的特性。這里,如上所述,這些不同的方法類型由于分別^_用 的單獨上下文的概念和共同上下文的概念而不同。
如圖2B所示,基于完整文本文檔形式的文本片段而計算的方法類型 示出最小的F量度,因此代表四個所示相似性加權(quán)方法中最差的方法。如 預(yù)期的那樣,基于使用較小文本片段的方法類型示出更好的結(jié)果。然而, 純粹基于內(nèi)容上下文的方法類型PMI_con相交僅僅略好。純粹基于出現(xiàn) 上下文的方法類型PMI一occ已經(jīng)比純粹基于內(nèi)容上下文的方法類型 PMI一con相交好很多。在最佳情況下,如果PMI相似性加權(quán)的方法類型 (在此也以相對小的凸起)相交,其共同上下文也基于根據(jù)本發(fā)明的相似 性量度occ—con(th t2)計算PMI_ occ con。因jt匕,戶斤表示的例子示出已經(jīng)
通過將根據(jù)本發(fā)明的相似性量度occ一con(t1,t2)包括在根據(jù)現(xiàn)有技術(shù)已知 的相似性加權(quán)(例如PMI相似性加權(quán))中,與使用純粹基于內(nèi)容或純粹 基于出現(xiàn)的共同上下文時相比,可以實現(xiàn)更好的結(jié)果。
如圖3所示,根據(jù)本發(fā)明的相似性度量occ一con(t1, t2)的全部優(yōu)點只在 該相似性度量也被用于前面所述的根據(jù)本發(fā)明的相似性加權(quán)中時才被充 分利用。圖3將這些相似性加權(quán)與現(xiàn)有技術(shù)中經(jīng)常使用的、純粹基于出現(xiàn) 的余弦相似性加權(quán)COS_occ—doc_ALLG相比較,該余弦相似性加權(quán)基于 完整文本文檔形式的文本片段(然而,如前面所述的,根據(jù)一般化的度量 值COS—ALLG計算COS量度)。為了比較,純粹基于出現(xiàn)的相似性加權(quán) F3,即rel—occ(t1, t2),也被示出(參見上文)。如所預(yù)期的那樣,基于文 檔的相似性加權(quán)COS一occ一doc一ALLG以明顯的距離最差地相交。僅僅基于一個部分因數(shù)Fl或F2的根據(jù)本發(fā)明的相似性加權(quán)rel_occ—con(t1, t2) 或aspect-ratio(t1,t2)相交已經(jīng)明顯更好。甚至純粹基于出現(xiàn)頻率的相似性 加權(quán)reLocc(t1, t2)在這里也相交較好。然而,因為三個單獨因數(shù)F1、 F2 和F3 (參見上文)中的每一個基于存在關(guān)系的不同證明,所以,進入相似性加權(quán)中用作乘積組合的各因數(shù)越多,則關(guān)于實際關(guān)心的關(guān)系的識別, 根據(jù)本發(fā)明的相似性加權(quán)agw(t1, t2)的能力越好。因此,二進制乘積組合 F2*F3或F1*F3 (aspect_ratio*rel_occ或rel—occ—con*rel—occ)已再次示 出了明顯改進的F量度(第三二進制組合F1*F2或rel_occ_con*aspect —ratio在這里沒有示出,因為結(jié)果與其它兩個二進制組合非常相近)。然 而,通過根據(jù)本發(fā)明的相似性加權(quán)reLcomb(t1, t2)示出了無疑是最好的結(jié) 果,該相似性加權(quán)reLcomb(t1, t2)基于全部3個單獨因數(shù)Fl、 F2和F3 的乘積組合計算
這里,最大的F量度是0.2407,其與相似性加權(quán)COS—occ_doc_ALLG (F-max = 0.1424 )相比較,對應(yīng)于大約70%的改進。因此, COS—occ—doc_ALLG在這里也被用作比較相似性加權(quán),原因是目前該計 算方法在自動詞表構(gòu)建領(lǐng)域中代表應(yīng)用最頻繁的方法。
最后,圖4示出根據(jù)本發(fā)明的、自動的、基于計算機的相似性計算系 統(tǒng)的具體結(jié)構(gòu)。在本情況下,通過個人計算機PC (R)形式的計算機系 統(tǒng)構(gòu)建該系統(tǒng)。該系統(tǒng)首先包括文檔存儲器單元或文檔數(shù)據(jù)庫單元(1)。 其用于以電子形式存儲文本文檔。存儲器單元(1)在輸入側(cè)連接到 CD/DVD讀取器形式的適配器單元(10)。在本情況下,要存儲在文檔數(shù) 據(jù)庫單元(1)中的文本文檔的集合可以首先被作為文本文檔集(la)存 儲在光盤CD (9)上。隨后,可以通過適配器(10)從光盤讀取各文本 文檔,且可以存儲在文檔數(shù)據(jù)庫單元(1)中。
在輸出側(cè)上,文4*據(jù)庫單元(1 )被連接到文本文檔預(yù)處理單元(5 )。 在文本文檔預(yù)處理單元中,各文本文檔可以被如前所述那樣進行預(yù)處理; 這里,可以從各文本文檔中去除例如控制詞,如html控制命令,或者也 去除噪聲詞。同樣地,可以進行詞根縮減。這里,文本文檔預(yù)處理單元(5) 具有可以存儲預(yù)處理過的文本文檔的存儲器。>^預(yù)處理過的文本文檔中, 隨后可以利用候選表i^擇單元(4)選擇所考慮的文檔集合特有的一些 單獨的表達,即候選表達ti。從本領(lǐng)域的現(xiàn)有技術(shù)已知如何進行從文本文 檔中選擇這樣的候選表達,因此在這里不進行更詳細的說明。僅僅舉例來 說,可以利用方差分析選擇指定文本種類(例如,就內(nèi)容而言涉及天文學 主題領(lǐng)域的文本文檔)的種類特定的表達,如同例如在參考文獻1中所述 的那樣。于是,這些選擇的候i^達ti的集合可以被存儲在連接到候i^ i^擇單元(4)的候選表達存儲器單元(2)中。
所示相似性計算系統(tǒng)的核心是相似性權(quán)重值計算單元(3 ),其在輸入 側(cè)連接到文檔預(yù)處理單元(5)和候選表達存儲器單元(2)兩者。相似性 權(quán)重值計算單元(3)從存儲器單元(2)中選擇候i^達對(th t2),如已 經(jīng)詳細說明的那樣,檢查表達對中的單獨表達或表達對中的兩個表達在存 儲在單元(5)中的文本文檔的文本片段中的出現(xiàn),并如前面說明的那樣, 執(zhí)行所有其他必要步驟,用于根據(jù)本發(fā)明計算各個對的相似性權(quán)重值 agw(仏t2)。同樣地,計算單元(3)具有可以存儲所計算的相似性權(quán)重值 agw的存儲器單元。
在輸出側(cè),相似性權(quán)重值計算單元(3 )被連接到目標表iixt選擇單 元(6)。目標表i^選擇單元(6)可以基于已由計算單元(3)計算出的 相似性權(quán)重值agw (tu, ti2)來選捧限定數(shù)目m (i-l,…m )個候選表達 對(tu, ti2)。優(yōu)選地,目標表i^t選擇單元(6)進行操作,使得從計算 了權(quán)重值的這些候選表達對的集合中,選擇具有最高的、計算出的相似性 權(quán)重值 agw (tu, tu) (i= 1,…m)的那m個候選表^^J"。 目標表ii^J"選棒 單元(6)可以被實現(xiàn)為硬件電路,或者也可以作為對應(yīng)的程序代碼被存 儲在存儲器單元內(nèi)。對于所述預(yù)處理單元(5)和所述候i^達選擇單元 (4)以及I51^說明的結(jié)構(gòu)化單元(8)也是類似。部分以硬件電路形式且 部分以程序代碼形式進行的實現(xiàn)也是可能的。為了可以選中具有最高相似 性權(quán)重值的m個候i^達對,這里,目標表iixt選擇單元(6)具有目標 表達對分類單元(7),利用該單元(7),候*達對可以根據(jù)其權(quán)重值被 分類。
在輸出側(cè),選擇單元(6)被連接到目標表iiXt結(jié)構(gòu)化單元(8)。利 用該目標表達對結(jié)構(gòu)化單元,可以基于目標表達對的m個相關(guān)的相似性 權(quán)重值將m個選擇的目標表達對的各表達通過適當?shù)姆椒ㄒ苑謱咏Y(jié)構(gòu)設(shè) 置。此外,現(xiàn)有技術(shù)已^>開這樣的結(jié)構(gòu)化單元或?qū)?yīng)的結(jié)構(gòu)化方法,所以, 其在這里不再進行說明。例如,這里可以使用利用來自參考文獻1的層-種子方法(layer-seed method)的分層結(jié)構(gòu)4t。
于是,在結(jié)構(gòu)化單元(8)中確定的分層結(jié)構(gòu),或者以及m個選擇的 目標表達對可以被顯示在監(jiān)視器(11)上。
權(quán)利要求
1.一種自動的、基于計算機的相似性計算系統(tǒng),用于計算表達對的相似性權(quán)重值,其中相似性權(quán)重值將表達對的兩個表達的相似性量化,所述系統(tǒng)包括文檔數(shù)據(jù)庫單元(1),其中或在其上能夠以數(shù)字化的形式存儲和/或存儲有包括至少一個文本文檔的文本文檔匯集,候選表達存儲單元(2),其中能夠存儲和/或存儲有包括若干表達的候選表達ti的集合,其中每個表達ti出現(xiàn)在所述匯集的至少一個文本文檔中,以及相似性權(quán)重值計算單元(3),利用所述相似性權(quán)重值計算單元(3),能從所述候選表達的集合中選擇至少一對候選表達t1和t2,并且利用所述相似性權(quán)重值計算單元(3),能針對所述至少一對選擇的表達計算相似性權(quán)重值agw(t1,t2),其特征在于,所述相似性權(quán)重值agw(t1,t2)能基于相似性度量|occ_con(t1,t2)|計算,相似性度量|occ_con(t1,t2)|考慮到所述表達對的兩個表達t1和t2在能從所述文本文檔的匯集中選擇出的或者已選擇出的文本片段的集合中在同一個文本片段內(nèi)共同出現(xiàn)的總頻率,以及該文本片段的集合中不同上下文表達的總數(shù),其中上下文表達是在該文本片段的集合中與表達t1一起出現(xiàn)在至少一個文本片段中并且與表達t2一起出現(xiàn)在至少一個文本片段中的表達,且上下文表達既不與t1對應(yīng),也不與t2對應(yīng)。
2. 根據(jù)上述權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,上下文表達僅僅是在所述文本片段的集合中與兩個表達t和t2 —起 出現(xiàn)在至少一個文本片段中的那些表達。
3. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,所i^目似性度量occjon(tht2)是在所述文本片段的集合中與表達^和t2兩者一起出現(xiàn)在至少一個文本片段中、且與^和12都不對應(yīng)或相等 的所有那些上下文表達的總數(shù),其中在多于一個的文本片段中以相同形式 出現(xiàn)的上下i^達只被計數(shù)一次,使得只有不同上下文表達的數(shù)目被考慮 在內(nèi)。
4. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,能夠基于在一個第一表達或多個第一表達在一個文本片段內(nèi)出現(xiàn)的 條件下關(guān)于一個第二表達或多個第二表M該文本片段內(nèi)的出現(xiàn)的至少 一個條件概率,或者基于這樣的條件概率的近似值,計算所述相似性權(quán)重 值agw(^,t2)。
5. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,所述條件概率是兩個條件概率的乘積,或這兩個^ff概率的兩個近似 值的乘積。
6. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,所述兩個M概率中的 一個將^在文本片段內(nèi)出現(xiàn)作為給定M ,且另一個M概率將t2在文本片段內(nèi)出現(xiàn)作為給定*。
7. 根據(jù)上述權(quán)利要求中的任一項所述的并根據(jù)權(quán)利要求3所述的相 似性計算系統(tǒng),其特征在于,能夠基于歸一化的相似性度量occ—con(tht2)計算所述相似性權(quán)重值 agw(t^t2),其中occ—con(tht2)的歸一化通過所述文本片段的集合中出現(xiàn)^ 的文本片段的總數(shù)^所述文本片段的集合中出現(xiàn)t2的文本片段的總數(shù)的 乘積來實現(xiàn)。
8. 根據(jù)上述權(quán)利要求中的任一項所述的并根據(jù)權(quán)利要求3所述的相 似性計算系統(tǒng),其特征在于,能夠根據(jù)下面的兩個公式表達中的一個計算所述相似性權(quán)重值 agw(t^2): <formula>formula see original document page 4</formula>其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 ,2,<formula>formula see original document page 4</formula>其中l(wèi)con(ti,t2)l是在所述文本片段的集合中與表達t 一起出現(xiàn)在至少 一個文本片段中、且與表達t2—起出現(xiàn)在至少一個文本片段中、并且與 t和t2都不對應(yīng)的不同的上下文表達的總數(shù)。
9.根據(jù)上述權(quán)利要求中的任一項所述的并根據(jù)權(quán)利要求3所述的相 似性計算系統(tǒng),其特征在于,相似性權(quán)重值agw(^,t2)能夠計算為根據(jù)前面的權(quán)利要求所述的公式 表達Fl和7>式表達F2的乘積<formula>formula see original document page 4</formula>
10.根據(jù)上述權(quán)利要求中的任一項所述的并根據(jù)權(quán)利要求3所述的相似性計算系統(tǒng), 其特征在于,相似性權(quán)重值agw(tht2)能夠計算為根據(jù)權(quán)利要求8的公式表達Fl或 F2其中一個與公式表達reLocc(tht2)的乘積,其中<formula>formula see original document page 4</formula>其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 i = l, 2,并且其中l(wèi)occ(tht2)l是所述文本片段的集合中一起出現(xiàn)^和t2的 文本片段的總數(shù)。
11.根據(jù)上述權(quán)利要求中的任一項所述的并根據(jù)權(quán)利要求3所述的相似性計算系統(tǒng),其特征在于,相似性權(quán)重值agw(t"t2)能夠作為根據(jù)權(quán)利要求8的公式表達Fl和 F2以及根據(jù)前面的權(quán)利要求的公式表達F3的乘積,因此有<formula>formula see original document page 5</formula>
12. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng),其特征在于,所述文本片段的集合中的至少 一個文本片段是完整的文本文檔。
13. 才艮據(jù)上述權(quán)利要求中的任一項所述的所述的相似性計算系統(tǒng),其特征在于,所述文本片段的集合中的至少 一個文本片段是文本文檔的 一部分。
14. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng),其特征在于,所述部分是章、分章、文本險落、句子或句子的在兩個標點符號之間 的部分,或者所述部分對應(yīng)于文本文檔的單獨的、由空格分隔的、相繼的表達或詞的確定數(shù)目n (具有窗口寬度n的文本窗)。
15. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng),其特征在于,適用3《n《101,優(yōu)選是ll《n幼l,優(yōu)選是21《n《61,優(yōu)選是31《n^51, 特別優(yōu)選是11 = 41。
16. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于, 所述文本片段的集合中的至少兩個文本片段互相交疊,即具有至少一 個共同的片段部分。
17. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,候選表^擇單元(4),利用所述候選表^i^擇單元(4),能夠從所 述匯集的文本文檔中選擇候選表達ti,并能夠?qū)⑺龊騣^達ti發(fā)送到所 述候選表達存儲器單元(2 )。
18. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,文本文檔預(yù)處理單元(5),利用所述文本文檔預(yù)處理單元(5 ),能夠 在選擇候選表達ti和將候選表達ti發(fā)送到候i^達存儲器單元(2 )之前 對所述匯集的文本文檔進行預(yù)處理。
19. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,所述文本文檔預(yù)處理單元(5)包括 控制詞去除單元,特別是HTML控制命令去除單元,利用所 述控制詞去除單元,能夠從文本文檔中減去它們中包含的控 制詞,和/或 噪聲詞去除單元,利用所述噪聲詞去除單元,能夠從文本文 檔中減去它們中包含的噪聲詞,和/或 詞根縮減單元,利用所述詞根縮減單元,包含在文本文檔中 的詞能夠被縮減為相應(yīng)的詞才艮,因此文本文檔能夠被縮減為 詞根的集合。
20. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,目標表i^J"選擇單元(6),利用所述目標表iixt選擇單元(6 ),能夠 基于計算的相似性權(quán)重值agw (tu, ti2)選擇可限定的數(shù)目m(i = l,…, m)個候選表達對tu和ti2 (m是自然數(shù)且m》2 )。
21. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,所述目標表ii^選擇單元(6)具有目標表達對分類單元(7 ),利用 所述目標表達對分類單元(7),能夠根據(jù)候i^達對的相應(yīng)相似性權(quán)重值 的大小以遞增或遞減的方式將候選表達對分類,并且,利用目標表達對選 擇單元(6),能夠選出具有最高的計算的相似性權(quán)重值的那m個候i^ 狄。
22. 根據(jù)前兩項權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,目標表達對結(jié)構(gòu)化單元(8),利用所述目標表達對結(jié)構(gòu)化單元(8), m個所選擇的目標表達對的各個表達能夠基于所述目標表達對的m個相 似性權(quán)重值布置在分層結(jié)構(gòu)中。
23. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,能夠不考慮大寫/小寫符號的不同、關(guān)于存在或不存在連字符和/或各 相繼的詞之間的空格的數(shù)目的差異,確定表ii^文本片段中的出現(xiàn)。
24. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,計算機系統(tǒng)(R),特別是個人計算機PC,其中能夠構(gòu)建和/或構(gòu)建有 文檔數(shù)據(jù)庫單元(1 )、候i^達存儲器單元(2 )和/或相似性權(quán)重值計算 單元(3)。
25. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,文檔數(shù)據(jù)庫單元(1 )、候i^達存儲器單元(2 )和/或相似性權(quán)重值 計算單元(3 )能夠被和/或被至少部分地通過計算機系統(tǒng)(Rl)的物理主 存儲器或通過其一部分來構(gòu)建。
26. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng), 其特征在于,至少一個優(yōu)選為可移動的存儲器設(shè)備(9 ),其中或在其上能夠至少部 分地構(gòu)建和/或至少部分地構(gòu)建有文檔數(shù)據(jù)庫單元(1 )。
27. 根據(jù)上一權(quán)利要求所述的相似性計算系統(tǒng), 其特征在于,存儲器設(shè)備(9)是光盤、特別是CD或DVD,或者是便攜式硬盤。
28. 根據(jù)前兩項權(quán)利要求中的任一項并根據(jù)權(quán)利要求24所述的相似 性計算系統(tǒng),其特征在于,計算機系統(tǒng)(R)具有至少一個數(shù)據(jù)傳送設(shè)備(10),特別是光學讀 取器或硬盤適配器,用于與存儲器設(shè)備(9)進行數(shù)據(jù)傳輸,特別是用于 以數(shù)字化的形式進行文本文檔的傳輸。
29. —種自動的、基于計算機的相似性計算方法,用于計算表達對的 相似性權(quán)重值,其中相似性權(quán)重值量化一對表達的兩個表達的相似性,其中包括至少 一個文本文檔的文本文檔匯集被以數(shù)字化的形式存儲,其中包括若干表達的候選表達ti的集合被存儲,其中每個表達tj出現(xiàn) 在所述匯集的文本文檔的至少一個文本文檔中,以及其中從所述候選表達的集合中選擇至少一對候選表達t和t2,并且針 對所述至少一個所選擇的表達對計算相似性權(quán)重值agw(ti,t2),其特征在于基于相似性度量occ—con(^,t2)計算相似性權(quán)重值agw(tht2),相似性度 量occ—con(tht2)考慮到表達對中的兩個表達^和t2在從文本文檔的匯集中 能選^的或選擇出的多個文本片段的集合中的同一個文本片段內(nèi)共同出現(xiàn)的總頻率,以;Mt該文本片段的集合中的不同的上下文表達的總數(shù),其中上下文表達為在該文本片段的集合中與表達h —起出現(xiàn)在至少 一個文本片段中并與表達t2 —起出現(xiàn)在至少一個文本片段中的表達,且所述上下文表達既不與^對應(yīng),也不與t2對應(yīng)。
30. 根據(jù)上一權(quán)利要求所述的相似性計算方法, 其特征在于,使用根據(jù)權(quán)利要求1至28中的任一項所述的相似性計算系統(tǒng)。
31. 根據(jù)前兩項權(quán)利要求中的任一項所述的相似性計算方法, 其特征在于,作為上下文表達,只考慮在所述文本片段的集合中與兩個表達^和t2—起出現(xiàn)在至少一個文本片段中的那些表達。
32. 根據(jù)前三項權(quán)利要求中的任一項所述的相似性計算方法, 其特征在于,作為相似性度量0CC—con(^,t2),使用在所述文本片段的集合中與表達 ^和表達t2兩者一起出現(xiàn)在至少一個文本片段中、且與t和t2都不對應(yīng)或 相等的所有上下文表達的總數(shù),其中在多于一個的文本片段中以相同的形 式出現(xiàn)的上下文表達只被計數(shù)一次,使得僅考慮不同上下文表達的數(shù)目。
33. 根據(jù)權(quán)利要求29至32中的任一項所述的相似性計算方法, 其特征在于,基于在一個第一表達或多個第一表達在一個文本片段內(nèi)出現(xiàn)的* 下關(guān)于一個第二表達或多個第二表達在該文本片段內(nèi)出現(xiàn)的至少一個條 件概率,或基于這樣的條件概率的近似值,計算相似性權(quán)重值agw(t^2)。
34. 根據(jù)上一權(quán)利要求所述的相似性計算方法, 其特征在于,所述條件概率是兩個條件概率的乘積,或這兩個條件概率的兩個近似 值的乘積。
35. 根據(jù)上一權(quán)利要求所述的相似性計算方法, 其特征在于,所述兩個條件概率中的一個將t1在一個文本片段內(nèi)的出現(xiàn)作為給定條件,另一個條件概率將t2在一個文本片段內(nèi)的出現(xiàn)作為給定條件。
36. 根據(jù)權(quán)利要求29至35中的任一項以及根據(jù)權(quán)利要求32所述的 相似性計算方法,其特征在于,基于歸 一 化的相似性度量occ—con(t,t2)計算所述相似性權(quán)重值 agw(t1,t2),其中occ—con(tht2)的歸一化借助所述文本片段的集合中出現(xiàn)t 的文本片段的總數(shù)和所述文本片段的集合中出現(xiàn)t2的文本片段的總數(shù)的 乘積來實現(xiàn)。
37. 根據(jù)權(quán)利要求29至36中的任一項以及根據(jù)權(quán)利要求32所述的 相似性計算方法,其特征在于,根據(jù)下面的兩個公式表達中的一個計算相似性權(quán)重值agw(t1,t2):<formula>formula see original document page 10</formula>其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 1, 2,其中l(wèi)0CC(tht2)l是在所述文本片段的集合中與表達& 一起出現(xiàn)在至少 一個文本片段中、并與表達t2—起出現(xiàn)在至少一個文本片段中、且與t1和t2都不對應(yīng)的不周的上下文表達的總數(shù)。
38.根據(jù)權(quán)利要求29至37中的任一項以及根據(jù)權(quán)利要求32所述的 相似性計算方法,其特征在于,相似性權(quán)重值agw(ti,t2)被計算為根據(jù)前面的權(quán)利要求的公式表達Fl 和公式表達F2的乘積
39.根據(jù)權(quán)利要求29至38中的任一項以及根據(jù)權(quán)利要求32所述的 相似性計算方法,其特征在于, 相似性權(quán)重值agw(ti,t2)被計算為根據(jù)權(quán)利要求37的公式表達Fl或 F2之一與公式表達rel—occ(tht2)的乘積,其中其中l(wèi)occ(ti)l是所述文本片段的集合中出現(xiàn)ti的文本片段的總數(shù),其中 i = l, 2,并且其中l(wèi)occ(tht2)l是文本片段的集合中一起出現(xiàn)^和t2的文本 片段的總數(shù)。
40.根據(jù)權(quán)利要求29至39中的任一項以及根據(jù)權(quán)利要求32所述的 相似性計算方法,其特征在于,相似性權(quán)重值agw(tht2)被計算為根據(jù)權(quán)利要求37的公式表達Fl和 F2以及根據(jù)前一權(quán)利要求的公式表達F3的乘積,因此有<formula>formula see original document page 11</formula>
41.根據(jù)權(quán)利要求29至40中的任一項所述的相似性計算方法, 其特征在于,所述文本片段的集合中的至少 一個文本片段是完整的文本文檔。
42. 根據(jù)權(quán)利要求29至41中的任一項所述的相似性計算方法, 其特征在于,所述文本片段的集合中的至少 一個文本片段是文本文檔的 一部分。
43. 根據(jù)上一權(quán)利要求所述的相似性計算方法, 其特征在于,所述部分是章、分章、文本險落、句子或句子的在兩個標點符號之間 的部分,或者所述部分對應(yīng)于文本文檔的單獨的、由空^隔的、相繼的 表達或詞的確定數(shù)目n (具有窗口寬度n的文本窗)。
44. 根據(jù)上一權(quán)利要求所述的相似性計算方法, 其特征在于,適用3《n《101,優(yōu)選是ll《n《81,優(yōu)選是21《n《61,優(yōu)選是31《n《51, 特別優(yōu)選是n-41。
45. 根據(jù)前兩項權(quán)利要求中的任一項所述的相似性計算方法, 其特征在于,所述文本片段的集合中的至少兩個文本片段互相交疊,即,具有至少 一個共同片段部分。
46. 根據(jù)權(quán)利要求29至45中的任一項所述的相似性計算方法, 其特征在于,不考慮大寫/小寫符號的不同、關(guān)于存在或不存在連字符和/或各相繼 的詞之間的空格的數(shù)目的差異,確定表ii^文本片段中的出現(xiàn)。
47. 根據(jù)上述權(quán)利要求中的任一項所述的相似性計算系統(tǒng)或相似性 計算方法的用途,用于自動地、基于計算機地從文本片段的集合中選擇信 息、表iiil概念,并且/或者將信息、表達或概念結(jié)構(gòu)化。
48. 根據(jù)權(quán)利要求1至46中的任一項所述的相似性計算系統(tǒng)或相似 性計算方法在自動的、基于計算機的詞表構(gòu)建和/或本體構(gòu)建領(lǐng)域的用途。
49. 根據(jù)上一權(quán)利要求的、在詞表和/或本體的概念之間的語義關(guān)系的 構(gòu)建領(lǐng)域的用途。
50. 根據(jù)權(quán)利要求1至46中的任一項所述的相似性計算系統(tǒng)或相似 性計算方法在自動的、基于計算機的文本文檔分類領(lǐng)域的用途。
51. 根據(jù)權(quán)利要求1至46中的任一項所述的相似性計算系統(tǒng)或相似 性計算方法在因特網(wǎng)搜索引擎和/或數(shù)據(jù)庫搜索引擎中關(guān)于自動的、基于 計算機的查詢擴展和/或查詢改進領(lǐng)域、特別是全自動和/或部分自動的交互式查詢擴展和/或查詢改ii領(lǐng)域的用途。
52. 根據(jù)權(quán)利要求1至46中的任一項所述的相似性計算系統(tǒng)或相似 性計算方法在自動地、基于計算M構(gòu)建用于集成不同類型的文本文檔數(shù) 據(jù)庫的語義網(wǎng)絡(luò)領(lǐng)域的用途。
53. 根據(jù)權(quán)利要求1至46中的任一項所述的相似性計算系統(tǒng)或相似 性計算方法在自動地、基于計算機地構(gòu)建針對主題區(qū)域和/或主題區(qū)域的 內(nèi)^要的簡短描述領(lǐng)域的用途。
54. 根據(jù)權(quán)利要求1至46中的任一項所述的相似性計算系統(tǒng)或相似 性計算方法用于自動構(gòu)建集成索引和/或搜索索引的用途。
全文摘要
本發(fā)明涉及用于自動的、基于計算機的文本表達的相似性加權(quán)的設(shè)備和方法。本發(fā)明的系統(tǒng)或方法包括文檔數(shù)據(jù)庫單元(1)、候選表達存儲單元(2)、相似性權(quán)重值計算單元(3),且特征在于,可以基于相似度occ_con(t<sub>1</sub>,t<sub>2</sub>)計算各表達對的相似性權(quán)重值agw(t<sub>1</sub>,t<sub>2</sub>),其中,相似度occ_con(t<sub>1</sub>,t<sub>2</sub>)考慮到一對表達的兩個表達在若干文本片段的同一個文本片段內(nèi)使用的總頻率,以及所述若干文本片段中不同上下文表達的總數(shù)。
文檔編號G06F17/30GK101361066SQ200680048441
公開日2009年2月4日 申請日期2006年10月26日 優(yōu)先權(quán)日2005年10月27日
發(fā)明者烏爾里?!さ贍? 彼得·范克豪澤, 托馬斯·坎普斯, 陳里波 申請人:弗蘭霍菲爾運輸應(yīng)用研究公司