專利名稱:基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是具有復(fù)雜內(nèi)部結(jié)構(gòu)和相互之間具有鏈接結(jié)構(gòu)的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法。
背景技術(shù):
隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展,在今天我們可以很容易地通過電子和網(wǎng)絡(luò)媒體獲得數(shù)量巨大而且涉及各個領(lǐng)域的信息資源,即所謂的信息爆炸(Information Explosion)問題已經(jīng)對迅速有效地組織和索引信息資源以及信息檢索技術(shù)產(chǎn)生了迫切的需求。信息非結(jié)構(gòu)化、信息種類多樣化、文檔內(nèi)容涵蓋范圍廣泛等因素對信息組織和檢索提出了巨大的挑戰(zhàn)。例如,Web已經(jīng)成為科學(xué)研究、教育學(xué)習(xí)等領(lǐng)域最重要的信息源和知識庫;但Web信息的指數(shù)級增長速度同時也為用戶有效的利用帶來了巨大的難度。據(jù)統(tǒng)計,1999年2月Web中只含8億個可訪問的網(wǎng)頁;到2000年7月這一數(shù)量增長到了21億個,其增長速度為每天產(chǎn)生730萬個新的網(wǎng)頁。近年來廣泛得到建設(shè)的數(shù)字圖書館是另外一個重要的海量信息源。數(shù)字圖書館是保存大量結(jié)構(gòu)化信息的數(shù)字化資源庫,這些數(shù)字資源的生成者可能是傳統(tǒng)的圖書館、博物館、檔案館、大學(xué)、政府部門、專業(yè)組織或個人,其目標(biāo)是讓所有的人在任何時間、任何地點可以用任何連接互聯(lián)網(wǎng)的數(shù)字設(shè)備來訪問人類所有的知識。以一本書300頁、每頁1500個字符計算,百萬冊數(shù)字圖書的文本信息共900G,再加上相關(guān)的元數(shù)據(jù)描述,XML文檔總的數(shù)據(jù)量超過1T,同時數(shù)字圖書館中還含有大量用于教學(xué)、科研和娛樂的視頻和音頻等多媒體資源。通過搜索引擎、瀏覽器等軟件和服務(wù)設(shè)施,用戶可以訪問Web或數(shù)字圖書館的信息和資源,但是用戶往往需要的是更為精細(xì)、更符合需求的知識而不是成堆的信息,例如用戶要求能同時獲得表達(dá)同一主題的不同媒體形態(tài)的信息(例如文本形式的網(wǎng)頁和電子書、圖像和文本共存形式的演示文檔、視音頻形式的多媒體資料等)。因此為滿足用戶多樣化、個性化、具有多種媒體形態(tài)的信息和知識服務(wù)需求,基于Web的信息服務(wù)系統(tǒng)(例如網(wǎng)絡(luò)教育資源管理系統(tǒng))以及數(shù)字圖書館的內(nèi)容管理和訪問系統(tǒng)必須具有能對這些半結(jié)構(gòu)化的信息或數(shù)據(jù)進(jìn)行有效的語義提取及相關(guān)的分析處理功能。
本發(fā)明涉及對半結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行語義提取。半結(jié)構(gòu)化數(shù)據(jù)是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等,這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成,但數(shù)據(jù)對象同時也具有復(fù)雜的內(nèi)部結(jié)構(gòu),不同數(shù)據(jù)對象之間通過(超)鏈接、引用等聯(lián)系起來構(gòu)成關(guān)系數(shù)據(jù)集合?,F(xiàn)有的方法對這類數(shù)據(jù)的分類存在著如下一些缺點或不足1)語義提取過程中多利用純統(tǒng)計的方法,而利用的語義信息少(如圖1)。語義信息對于檢索系統(tǒng)的準(zhǔn)確度以及用戶需求都有重要的意義。
2)統(tǒng)計方法的重要假設(shè)是所有數(shù)據(jù)都是具有相同結(jié)構(gòu)的實體,數(shù)據(jù)之間是獨立且同分布的(Independent and identically distributed,IID)。然而,許多現(xiàn)實數(shù)據(jù)集本身具有復(fù)雜的內(nèi)部結(jié)構(gòu),不同數(shù)據(jù)之間通過(超)鏈接、引用等聯(lián)系起來構(gòu)成一關(guān)系數(shù)據(jù)集合。這種鏈接結(jié)構(gòu)是一種重要的信息源,包含了豐富的語義信息。例如我們可以用傳統(tǒng)的文本挖掘方法來進(jìn)行超文本的主題提取和分類,即將每個文檔用關(guān)鍵字或術(shù)語向量來進(jìn)行描述,在此基礎(chǔ)上對每個網(wǎng)頁進(jìn)行獨立的分類。這種統(tǒng)計方法完全忽略了網(wǎng)頁之間的鏈接結(jié)構(gòu)和網(wǎng)頁的內(nèi)部結(jié)構(gòu)。一般地,若文檔之間有超鏈接則表明他們的主題具有相關(guān)關(guān)系;每個文檔內(nèi)部也具有節(jié)、段等結(jié)構(gòu),而同一節(jié)的超鏈往往可能指向主題更相關(guān)的其他文檔。因此,在對這種半結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行處理的過程中,我們不能忽略數(shù)據(jù)之間的關(guān)系關(guān)聯(lián)(例如超鏈),這些超鏈可以使處理具有更高的準(zhǔn)確度。更重要的是,由于數(shù)據(jù)之間相互關(guān)聯(lián),我們不能獨立地進(jìn)行不同數(shù)據(jù)的處理,而需要同時決定集合中的所有關(guān)聯(lián)數(shù)據(jù)的主題或類標(biāo)簽。
3)現(xiàn)有的鏈接方法缺少健壯性。目前國內(nèi)外某些研究者已經(jīng)注意到半結(jié)構(gòu)化數(shù)據(jù)之間鏈接的重要性,提出了一些基于鏈接的分類方法(Link-based classification)。但是,這些方法都假設(shè)數(shù)據(jù)之間的鏈接關(guān)系滿足“百科全書式”(encyclopedia regularity)或“同引式”(co-referencing regularity)鏈接規(guī)律,即假設(shè)鏈接的對象都具有相同或相關(guān)的主題。而事實上,鏈接數(shù)據(jù)中有大量的鏈接并不反映具體的語義含義,也不具有統(tǒng)計顯著的模式(這類鏈接關(guān)系稱為噪聲鏈接(Noisylinks))。因此,當(dāng)鏈接分類方法應(yīng)用到這樣的數(shù)據(jù)集上時,其分類準(zhǔn)確率將遠(yuǎn)遠(yuǎn)低于沒有噪聲鏈接的數(shù)據(jù)集。在各種現(xiàn)實的鏈接數(shù)據(jù)中,噪聲是普遍存在的,例如在Web中存在有大量的廣告、瀏覽鏈接等;同時由于關(guān)系數(shù)據(jù)的特殊性,我們也不能應(yīng)用傳統(tǒng)的去噪方法(通常假設(shè)噪聲滿足標(biāo)準(zhǔn)高斯分布)。
為解決上述三個問題,我們需要有新的模型和方法來利用鏈接、引用等關(guān)系信息來對半結(jié)構(gòu)關(guān)系數(shù)據(jù)進(jìn)行有效的語義提取和分析。本發(fā)明即給出這樣一種語義提取方法。方法的核心是從內(nèi)部結(jié)構(gòu)和相關(guān)關(guān)系等兩方面來建模數(shù)據(jù)之間的上下文依賴關(guān)系,在此基礎(chǔ)上構(gòu)造健壯的語義模型。
發(fā)明內(nèi)容
本發(fā)明的目的在于給半結(jié)構(gòu)化數(shù)據(jù)資源提供一種基于上下文的語義提取和分析處理方法,這種方法能利用數(shù)據(jù)之間的鏈接和引用等關(guān)聯(lián)關(guān)系、以及數(shù)據(jù)的各種內(nèi)部結(jié)構(gòu)進(jìn)行更有效的語義提取,能在數(shù)據(jù)集合包含噪聲鏈接的情況下具有健壯性。這種方法能直接應(yīng)用在不同的半結(jié)構(gòu)化數(shù)據(jù)資源。本發(fā)明的半結(jié)構(gòu)化數(shù)據(jù)是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等,這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成,但數(shù)據(jù)對象同時也具有復(fù)雜的內(nèi)部結(jié)構(gòu),不同數(shù)據(jù)對象之間通過(超)鏈接、引用等聯(lián)系起來構(gòu)成關(guān)系數(shù)據(jù)集合。
為實現(xiàn)上述目的,本發(fā)明提出多粒度語義模型來建模這些半結(jié)構(gòu)化數(shù)據(jù)的內(nèi)部多層語義結(jié)構(gòu),以及上下文依賴網(wǎng)絡(luò)模型(CDN)來建模數(shù)據(jù)之間的鏈接語義關(guān)系。本發(fā)明的多粒度語義模型可以用于建模具有復(fù)雜內(nèi)在結(jié)構(gòu)的半結(jié)構(gòu)化數(shù)據(jù)對象,從而能有效地刻畫數(shù)據(jù)對象內(nèi)部結(jié)點間上下文主題相關(guān)關(guān)系;CDN模型可以用于各種通過(顯式或隱式)鏈接、引用、參照等關(guān)聯(lián)起來的關(guān)系數(shù)據(jù),從而能刻畫數(shù)據(jù)對象間的上下文相關(guān)關(guān)系,使模型本身具有對不同鏈接特征的選擇性。同時,本發(fā)明以Web站點為例,給出了一種多粒度語義模型的構(gòu)建方法,即將給定的Web站點的內(nèi)部結(jié)構(gòu)分解為頁面鏈接圖和DOM樹,并用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系。
基于多粒度語義模型和CDN模型,本發(fā)明針對不同數(shù)據(jù)對象(或集合)提出了三種語義提取和處理方法。對單個半結(jié)構(gòu)化數(shù)據(jù)(如單個Web網(wǎng)頁、單個數(shù)字圖書等)采用兩階段語義提取和主題標(biāo)定方法;對具有簡單內(nèi)部結(jié)構(gòu)或無內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合(如Web網(wǎng)頁集合、學(xué)術(shù)論文集合、簡單教育資源集合等)采用基于CDN模型的鏈接數(shù)據(jù)協(xié)作主題標(biāo)定方法;而對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合(如Web網(wǎng)站集合、數(shù)字圖書、復(fù)雜教育資源集合等)采用多粒度語義挖掘方法。
本發(fā)明的特征在于能有效地利用各種上下文依賴關(guān)系(包括數(shù)據(jù)對象內(nèi)部的同一粒度結(jié)構(gòu)上下文和粒度間上下文,以及數(shù)據(jù)對象間的鏈接上下文等)進(jìn)行更有效的語義提取,從而能有效提高復(fù)雜數(shù)據(jù)對象的語義提取和主題標(biāo)定的準(zhǔn)確率。
基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,包括多粒度語義模型、上下文依賴網(wǎng)絡(luò)(CDN)模型、基于多粒度語義模型的兩階段語義提取和多粒度挖掘方法、基于CDN模型的協(xié)作主題標(biāo)定方法,其特征在于能有效地利用數(shù)據(jù)對象內(nèi)部結(jié)構(gòu)以及對象間鏈接所隱含的上下文依賴關(guān)系來進(jìn)行語義提取和主題標(biāo)定,提高結(jié)果的準(zhǔn)確率和模型的健壯性。
所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度語義模型,多粒度語義模型通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點的多層描述,通過建模結(jié)點間的結(jié)構(gòu)上下文來刻畫結(jié)點間的主題相關(guān)關(guān)系。
半結(jié)構(gòu)化關(guān)系數(shù)據(jù)資源的上下文依賴網(wǎng)絡(luò)(CDN)模型,CDN模型用無向圖來刻畫一組變量間的概率關(guān)系,這些變量的聯(lián)合分布可以用一組可獨立學(xué)習(xí)的局部條件分布來近似,同時這些局部條件分布可以進(jìn)一步建模為加權(quán)邊沿概率分布的線性組合。
所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,上下文依賴函數(shù)度量方法,上下文依賴函數(shù)度量方法用互信息來度量鏈接對象之間的統(tǒng)計主題相關(guān)程度,用鏈接核來度量對象在鏈接結(jié)構(gòu)。
圖1.一般的統(tǒng)計機器學(xué)習(xí)流程圖。
圖2.基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取和主題標(biāo)定的總流程圖。
圖3.半結(jié)構(gòu)化數(shù)據(jù)的多粒度語義模型圖。
圖4.Web站點的多粒度語義模型構(gòu)建流程(S1)圖。
圖5.三種用于對象內(nèi)部不同結(jié)點依賴關(guān)系的樹結(jié)構(gòu)統(tǒng)計模型圖。
圖6.直接基于樹結(jié)構(gòu)模型的語義標(biāo)定方法圖。
圖7.基于多粒度語義模型的兩階段語義提取流程(S2)圖。
圖8.半結(jié)構(gòu)化關(guān)系數(shù)據(jù)的CDN模型圖。
圖9.基于CDN的鏈接數(shù)據(jù)協(xié)作主題標(biāo)定流程(S3)圖。
圖10.半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度挖掘流程(S4)圖。
具體實施例方式
下面結(jié)合附圖描述本發(fā)明。圖2描述了基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取和主題標(biāo)定的總流程。為有效地利用數(shù)據(jù)之間的鏈接和引用等關(guān)聯(lián)關(guān)系、以及數(shù)據(jù)的各種內(nèi)部結(jié)構(gòu)進(jìn)行更有效的語義提取,本發(fā)明提出了三種面向不同數(shù)據(jù)對象(或集合)的語義提取和處理方法。下面分別進(jìn)行描述。
1.對單個半結(jié)構(gòu)化數(shù)據(jù)圖3描述了半結(jié)構(gòu)化數(shù)據(jù)的多粒度語義模型。許多半結(jié)構(gòu)化數(shù)據(jù)對象一般具有較好的結(jié)構(gòu)信息,內(nèi)部包括有多層的語義結(jié)構(gòu),例如數(shù)字圖書分不同章節(jié),具有題目、摘要等部分;網(wǎng)頁可以分為不同的DOM(DocumentObject Model)結(jié)點。這些內(nèi)部結(jié)點之間具有結(jié)構(gòu)上和語義上的關(guān)聯(lián)關(guān)系,例如數(shù)字圖書中相鄰章節(jié)之間的語義關(guān)聯(lián)總高于不相鄰章節(jié)之間的語義關(guān)聯(lián)。因此這樣的半結(jié)構(gòu)化數(shù)據(jù)對象可以進(jìn)一步用一個鏈接結(jié)點圖來表示。有時某些半結(jié)構(gòu)化數(shù)據(jù)對象的高層結(jié)點可以再分解為更底層的結(jié)點,例如Web網(wǎng)站可以描述為一個網(wǎng)頁結(jié)構(gòu)圖,每個網(wǎng)頁又可以描述為一棵DOM樹。而最底層的結(jié)點可以直接用不同的特征向量來描述(例如文本關(guān)鍵字向量、圖像視覺特征向量等)。這種多層結(jié)構(gòu)就構(gòu)成了半結(jié)構(gòu)化數(shù)據(jù)的多粒度語義模型。圖4給出了一種構(gòu)造這種多粒度語義模型的例子數(shù)據(jù)處理流程S1Web站點的多粒度語義模型構(gòu)建流程,參見圖4。
基于多粒度語義模型的兩階段語義提取方法,方法將給定的Web站點的內(nèi)部結(jié)構(gòu)分解為頁面鏈接圖和DOM樹,并用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系。方法包括如下七大步驟(S1.0-S1.6)
多粒度語義模型奠定了對半結(jié)構(gòu)化數(shù)據(jù)對象進(jìn)行語義分析和處理的基礎(chǔ),它和不同的統(tǒng)計模型結(jié)合即可直接構(gòu)造不同的分析和處理方法。
圖5描述了三種用于對象內(nèi)部不同結(jié)點依賴關(guān)系的樹結(jié)構(gòu)統(tǒng)計模型,分別為結(jié)點間相互獨立的0階Markov樹,結(jié)點間具有1階依賴關(guān)系的1階Markov樹,以及結(jié)點的主題(而非結(jié)點本身)間具有1階依賴關(guān)系的隱Markov樹(HMT)。其中(a)0階Markov樹;(b)1階Markov樹;(c)隱Markov樹(HMT)圖6給出了直接基于這種樹結(jié)構(gòu)模型的語義標(biāo)定方法。但這種方法只利用了數(shù)據(jù)對象的內(nèi)部結(jié)點間部分主題相關(guān)關(guān)系,因此只適用于簡單的數(shù)據(jù)對象。
對單個半結(jié)構(gòu)化數(shù)據(jù)資源(如單個Web網(wǎng)頁、單個圖書等),本發(fā)明提出兩階段語義提取和主題標(biāo)定方法,其特征在于通過使用多粒度語義模型,數(shù)據(jù)對象內(nèi)部多個層次的主題相關(guān)關(guān)系被利用來進(jìn)行有效的語義提取和主題標(biāo)定。例如通過站點內(nèi)部的網(wǎng)頁內(nèi)容來判定一個Web站點的主題。在最簡單情況下,站點內(nèi)部的所有網(wǎng)頁都描述同一個內(nèi)容,因此可以很方便地判定站點的內(nèi)容。但實際情況往往更為復(fù)雜站點內(nèi)部的網(wǎng)頁往往涉及很多不同的主題,甚至每個網(wǎng)頁也包含了多個主題,在這種情況下需要判定不同頁面、甚至頁面不同部分之間的主題相關(guān)性,從而最終確定整個網(wǎng)站的主題。本發(fā)明給出了一種利用這些上下文主題相關(guān)性的兩階段語義提取和主題標(biāo)定方法數(shù)據(jù)處理流程S2基于多粒度語義模型的兩階段語義提取方法,參見圖7。
基于多粒度語義模型的兩階段語義提取方法,方法采用隱Markov樹作為樹結(jié)構(gòu)的統(tǒng)計模型,通過層次分類來實現(xiàn)結(jié)果的優(yōu)化,方法包括如下四個步驟(S2.1-S2.4)
2.對具有簡單內(nèi)部結(jié)構(gòu)或無內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合現(xiàn)實世界中的數(shù)據(jù)對象往往是通過各種關(guān)系鏈接到一起的。例如多個網(wǎng)頁或網(wǎng)站之間存則超鏈接(Hyperlinks),學(xué)術(shù)論文或教育資源之間通過引用(Citations)關(guān)系聯(lián)接起來。這些鏈接關(guān)系往往表現(xiàn)了一些顯著的模式,或者傳達(dá)了鏈接編輯者的一個觀點,即只有相互之間有主題相關(guān)的數(shù)據(jù)對象之間才有鏈接。因此這樣的“鏈接”信息可以用于對數(shù)據(jù)對象的主題進(jìn)行標(biāo)定和語義提取。針對這樣的數(shù)據(jù)資源集合(如Web網(wǎng)頁集合、學(xué)術(shù)論文集合、簡單教育資源集合等),本發(fā)明提出基于CDN的鏈接數(shù)據(jù)主題提取和主題標(biāo)定方法。方法的特征在于1)使用上下文依賴網(wǎng)絡(luò)(CDN)模型來刻畫數(shù)據(jù)對象之間的主題依賴關(guān)系;2)基于鏈接語義核和互信息提出一種可行的上下文依賴函數(shù)度量方法;3)使用Gibbs采樣來在CDN模型上執(zhí)行近似推理,在每個推理步驟中執(zhí)行影響傳播(influence propagation)來用網(wǎng)絡(luò)中一個數(shù)據(jù)對象的信念來影響其他關(guān)聯(lián)對象。
圖8描述了半結(jié)構(gòu)化數(shù)據(jù)資源的上下文依賴網(wǎng)絡(luò)(CDN)模型。作為一種擴展的依賴網(wǎng)絡(luò)(DN),CDN用無向圖來刻畫一組變量間的概率關(guān)系,并用一組可以獨立學(xué)習(xí)的局部條件分布來近似這些變量的聯(lián)合分布。在此基礎(chǔ)上,CDN進(jìn)一步將局部條件分布建模為加權(quán)邊沿概率分布的線性組合,即P[T1,…,TN|Π]=Πi=1NP[Ti|TNC(Oi)]=Πi=1N(ΣOk∈NC(Oi)σi,kP[Ti|Tk]),]]>其中σi,k指數(shù)據(jù)對象Oi在Ok上的依賴函數(shù),它定量度量了Oi對Ok的上下文依賴關(guān)系,也即Ok對Oi分類的影響。若σi,k較小,則表明Ok對Oi分類的影響小,而這樣的Ok與Oi具有較小的語義相關(guān)性,因此我們在Oi的分類過程中去除對象Ok的影響。這種上下文去噪方法能有效降低噪聲鏈接對分類噪聲的影響,從而使得CDN模型能在噪聲數(shù)據(jù)集上保持較高的健壯性。
同時,本發(fā)明基于鏈接語義核和互信息提出一種可行的上下文依賴函數(shù)度量方法,其中互信息度量了鏈接對象之間的統(tǒng)計主題相關(guān)程度,而鏈接核則度量了對象在鏈接結(jié)構(gòu)中的相似度。根據(jù)不同的鏈接核函數(shù),我們可以得到不同的上下文依賴函數(shù)度量形式,例如采用Sigmoid核函數(shù)時,依賴函數(shù)可以采用如下形式
σi,j=1Ztanh(<ai,aj>+β)I(Oi;Oj),]]>其中<ai,aj>表示Oi與Oj的點積,I(Oi;Oj)表示Oi與Oj之間的互信息,Z為規(guī)范化常數(shù),β為控制參數(shù)。
在對鏈接數(shù)據(jù)進(jìn)行語義提取和主題標(biāo)定的過程中,由于數(shù)據(jù)之間相互關(guān)聯(lián),我們不能獨立地進(jìn)行不同數(shù)據(jù)對象的處理,而需要采用協(xié)作主題標(biāo)定方法來同時決定集合中的所有關(guān)聯(lián)數(shù)據(jù)的主題或類標(biāo)簽。在協(xié)作標(biāo)定過程中,我們需要Gibbs推理來迭代估計給定數(shù)據(jù)下目標(biāo)變量的聯(lián)合后驗概率。對每個對象的目標(biāo)主題類變量,Gibbs推理在CDN網(wǎng)絡(luò)上執(zhí)行影響傳播來用網(wǎng)絡(luò)中一個數(shù)據(jù)對象的信念來影響其他關(guān)聯(lián)對象。形式化地,影響傳播可以用如下公式進(jìn)行描述P[Ti|Oi,M](n+1)←1Z[ΣOk∈NC(Oi)σi,k(n)P[Ti|tk(n)]P[Ti]P[Ti|Oi,M](n)],]]>其中P[Ti|Oi,M](n)指第n次迭代過程中的后驗概率,P[Ti]為主題變量Ti的先驗概率,P[Ti|tk(n))]為主題tk(n)到主題變量Ti的轉(zhuǎn)移概率,σi,k指數(shù)據(jù)對象Oi在Ok上的依賴函數(shù),Z為規(guī)范化常數(shù)。經(jīng)過足夠的迭代次數(shù),給定數(shù)據(jù)下目標(biāo)變量的聯(lián)合后驗概率達(dá)到收斂。本發(fā)明提出了基于CDN的鏈接數(shù)據(jù)主題提取和主題標(biāo)定方法。
數(shù)據(jù)處理流程S3基于CDN的鏈接數(shù)據(jù)協(xié)作主題標(biāo)定方法,參見圖9。
基于CDN模型的協(xié)作主題標(biāo)定方法,通過在CDN網(wǎng)絡(luò)上執(zhí)行Gibbs推理和影響傳播,從而使整個數(shù)據(jù)集上的語義提取和主題標(biāo)定的結(jié)果達(dá)到最佳,方法包括四大步驟(S3.0-S3.3)
3.對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合一方面,這些數(shù)據(jù)資源本身具有復(fù)雜的內(nèi)部結(jié)構(gòu),因此我們可以用多粒度語義模型來建模其內(nèi)部結(jié)點間的語義相關(guān)關(guān)系;另一方面,不同的數(shù)據(jù)資源之間也具有超鏈、引用等鏈接關(guān)系,這些關(guān)系可以進(jìn)一步利用來對目標(biāo)對象進(jìn)行語義提取和標(biāo)定。更重要的是,我們不是簡單的對兩種方法進(jìn)行組合,而是利用下層結(jié)點對上層結(jié)點的上下文依賴關(guān)系來對下層結(jié)點的分類結(jié)果進(jìn)行優(yōu)化。令Wk(i)為第i層的第k個結(jié)點,Tk(i)為其主題屬性,NCk(i)為其鏈接鄰居,則優(yōu)化的公式描述為P(Tk(i)|Wk(i),NCk(i))==αP(Tk(i)|Wk(i))P(Tk(i)|NCk(i))P(Tk(i))]]>其中P(Wk(i))P(Wk(i)|NCk(i))]]>可視為比例常數(shù)α。
這種針對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合的多粒度挖掘流程(S5)可以描述如下數(shù)據(jù)處理流程S4半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度挖掘方法,參見圖10。
基于多粒度語義模型的多粒度挖掘方法,方法通過多層次分類以及基于上下文的優(yōu)化來得到最優(yōu)的主題標(biāo)定結(jié)果,方法包括如下三大步驟(S4.1-S4.3)
權(quán)利要求
1.一種基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,包括多粒度語義模型、上下文依賴網(wǎng)絡(luò)(CDN)模型、基于多粒度語義模型的兩階段語義提取和多粒度挖掘方法、基于CDN模型的協(xié)作主題標(biāo)定方法,其特征在于能有效地利用數(shù)據(jù)對象內(nèi)部結(jié)構(gòu)以及對象間鏈接所隱含的上下文依賴關(guān)系來進(jìn)行語義提取和主題標(biāo)定,提高結(jié)果的準(zhǔn)確率和模型的健壯性。
2.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度語義模型,多粒度語義模型通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點的多層描述,通過建模結(jié)點間的結(jié)構(gòu)上下文來刻畫結(jié)點間的主題相關(guān)關(guān)系。
3.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,基于多粒度語義模型的兩階段語義提取方法,方法將給定的Web站點的內(nèi)部結(jié)構(gòu)分解為頁面鏈接圖和DOM樹,并用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系,方法包括如下七大步驟(S1.0-S1.6)S1.0輸入數(shù)據(jù)為給定Web站點的URL;S1.1根據(jù)一定的抓取策略(,利用網(wǎng)頁抓取器獲取該站點的網(wǎng)頁;S1.2構(gòu)造Web站點的網(wǎng)頁鏈接圖。包括如下步驟S1.2.1提取站點內(nèi)部網(wǎng)頁之間的鏈接關(guān)系;S1.2.2去除Web站點內(nèi)部的瀏覽鏈接、廣告鏈接;S1.2.3根據(jù)錨點文本計算任意網(wǎng)頁間鏈接的權(quán)值;S1.2.4采用聚類方法,聚集和合并近鄰小結(jié)點,并處理鏈接合并問題;S1.2.5構(gòu)造站點鏈接圖;S1.3為每個網(wǎng)頁構(gòu)造DOM樹;S1.3.1解析網(wǎng)頁,包括HTML或XML格式;S1.3.2構(gòu)造DOM結(jié)點;S1.3.3采用聚類方法,聚集和合并DOM結(jié)點;S1.4為每個DOM結(jié)點提取特征,特征包括文本關(guān)鍵字、圖形特征、鏈接特征等;S1.5用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系;S1.6輸出給定Web站點的多粒度語義模型。
4.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,半結(jié)構(gòu)化關(guān)系數(shù)據(jù)資源的上下文依賴網(wǎng)絡(luò)(CDN)模型,CDN模型用無向圖來刻畫一組變量間的概率關(guān)系,這些變量的聯(lián)合分布可以用一組可獨立學(xué)習(xí)的局部條件分布來近似,同時這些局部條件分布可以進(jìn)一步建模為加權(quán)邊沿概率分布的線性組合。
5.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,基于多粒度語義模型的兩階段語義提取方法,方法采用隱Markov樹作為樹結(jié)構(gòu)的統(tǒng)計模型,通過層次分類來實現(xiàn)結(jié)果的優(yōu)化。方法包括如下四個步驟(S2.1-S2.4)S2.1為每個底層結(jié)點提取內(nèi)容特征,特征包括文本關(guān)鍵字、圖形特征、鏈接特征;S2.2利用傳統(tǒng)的統(tǒng)計分類算法,根據(jù)特征向量來對底層結(jié)點進(jìn)行主題標(biāo)定;S2.3利用樹分類器對中間層結(jié)點進(jìn)行主題標(biāo)定;S2.4基于中間層結(jié)點的標(biāo)定主題,再次利用樹分類器對整個數(shù)據(jù)對象進(jìn)行主題標(biāo)定。
6.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,基于多粒度語義模型的多粒度挖掘方法,方法通過多層次分類以及基于上下文的優(yōu)化來得到最優(yōu)的主題標(biāo)定結(jié)果,方法包括如下三大步驟(S4.1-S4.3)S4.1用樹分類器沿粒度由細(xì)到粗的方向依次對中間層結(jié)點和數(shù)據(jù)對象進(jìn)行第1次粗分類;S4.1.1為每個底層結(jié)點提取內(nèi)容特征,特征包括文本關(guān)鍵字、圖形特征、鏈接特征;S4.1.2利用傳統(tǒng)的統(tǒng)計分類算法,根據(jù)特征向量來對底層結(jié)點進(jìn)行主題標(biāo)定;S4.1.3利用樹分類器對中間層結(jié)點進(jìn)行主題標(biāo)定;S4.1.4基于中間層結(jié)點的標(biāo)定主題,再次利用樹分類器對整個數(shù)據(jù)對象進(jìn)行主題標(biāo)定;S4.2利用多粒度上下文模型對樹分類器的各層主題標(biāo)定結(jié)果沿粒度由粗到細(xì)的方向依次進(jìn)行優(yōu)化,得到第2次結(jié)果;S4.2.1利用上下文依賴性優(yōu)化中間層結(jié)點的主題標(biāo)定結(jié)果;S4.2.2利用上下文依賴性優(yōu)化底層結(jié)點的主題標(biāo)定結(jié)果;S4.3在此利用樹分類器沿粒度由細(xì)到粗的方向依次對中間層結(jié)點和數(shù)據(jù)對象進(jìn)行主題標(biāo)定,得到最終的結(jié)果;S4.3.1利用內(nèi)容特征和粒度間上下文依賴關(guān)系對底層結(jié)點進(jìn)行主題標(biāo)定;S4.3.2利用底層結(jié)點主題和粒度間上下文依賴關(guān)系對中間層結(jié)點進(jìn)行主題標(biāo)定;S4.3.3利用樹分類器對對象進(jìn)行主題標(biāo)定。
7.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,基于CDN模型的協(xié)作主題標(biāo)定方法,方法通過在CDN網(wǎng)絡(luò)上執(zhí)行Gibbs推理和影響傳播,從而使整個數(shù)據(jù)集上的語義提取和主題標(biāo)定的結(jié)果達(dá)到最佳,方法包括四大步驟(S3.0-S3.3)S3.0輸入鏈接數(shù)據(jù);S3.1(Bootstrap)不考慮對象間的鏈接關(guān)系,使用基于特征向量的統(tǒng)計方法對數(shù)據(jù)對象進(jìn)行初始主題標(biāo)定;S3.2(Gibbs Inference)執(zhí)行Gibbs推理直到收斂;S3.2.1根據(jù)當(dāng)前的主題類標(biāo)簽,計算互信息和鏈接核,計算上下文依賴函數(shù),構(gòu)造CDN網(wǎng)絡(luò)模型;S3.2.2采用一定的策略決定Gibbs采用的順序,例如具有最多鏈出鏈接的數(shù)據(jù)對象優(yōu)先,鏈到更多類鄰居的數(shù)據(jù)對象優(yōu)先;S3.2.3對每一個目標(biāo)變量,執(zhí)行影響傳播過程;S3.2.4計算目標(biāo)變量的聯(lián)合后驗分布,并進(jìn)行最大后驗(MAP)分類,得到當(dāng)前主題標(biāo)定結(jié)果;S3.2.5計算當(dāng)前結(jié)果是否達(dá)到收斂條件;S3.3輸出最終的主題標(biāo)定結(jié)果。
8.按權(quán)利要求7所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,上下文依賴函數(shù)度量方法,上下文依賴函數(shù)度量方法用互信息來度量鏈接對象之間的統(tǒng)計主題相關(guān)程度,用鏈接核來度量對象在鏈接結(jié)構(gòu)中的相似度。
9.按權(quán)利要求7所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,其特征在于,CDN網(wǎng)絡(luò)上的影響傳播機制,影響傳播機制,用網(wǎng)絡(luò)中一個數(shù)據(jù)對象的信念來影響其他關(guān)聯(lián)對象,形式化描述為P[Ti|Oi,M](n+1)←1Z[ΣOk∈NC(Oi)σi,k(n)P[Ti|tk(n)]P[Ti]P[Ti|Oi,M](n)],]]>其中P[Ti|Oi,M](n)指第n次迭代過程中的后驗概率,P[Ti]為主題變量Ti的先驗概率,P[Ti|tk(n)]為主題tk(n)到主題變量Ti的轉(zhuǎn)移概率,σi,k(n)指數(shù)第n次迭代過程中據(jù)對象Oi在Ok上的依賴函數(shù),Z為規(guī)范化常數(shù)。
全文摘要
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是具有復(fù)雜內(nèi)部結(jié)構(gòu)和相互之間具有鏈接結(jié)構(gòu)的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法,包括多粒度語義模型、上下文依賴網(wǎng)絡(luò)(CDN)模型、基于多粒度語義模型的兩階段語義提取和多粒度挖掘方法、基于CDN模型的協(xié)作主題標(biāo)定方法。這些方法能利用數(shù)據(jù)之間的鏈接和引用等關(guān)聯(lián)關(guān)系、以及數(shù)據(jù)的各種內(nèi)部結(jié)構(gòu)進(jìn)行更有效的語義提取,并能在數(shù)據(jù)集合包含噪聲鏈接的情況下具有健壯性。
文檔編號G06F17/30GK1766871SQ20041008674
公開日2006年5月3日 申請日期2004年10月29日 優(yōu)先權(quán)日2004年10月29日
發(fā)明者田永鴻, 黃鐵軍, 高文 申請人:中國科學(xué)院研究生院