基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法

文檔序號：6433944閱讀：268來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，特別是具有復(fù)雜內(nèi)部結(jié)構(gòu)和相互之間具有鏈接結(jié)構(gòu)的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法。
背景技術(shù)：
隨著信息和網(wǎng)絡(luò)技術(shù)的發(fā)展，在今天我們可以很容易地通過電子和網(wǎng)絡(luò)媒體獲得數(shù)量巨大而且涉及各個領(lǐng)域的信息資源，即所謂的信息爆炸(Information Explosion)問題已經(jīng)對迅速有效地組織和索引信息資源以及信息檢索技術(shù)產(chǎn)生了迫切的需求。信息非結(jié)構(gòu)化、信息種類多樣化、文檔內(nèi)容涵蓋范圍廣泛等因素對信息組織和檢索提出了巨大的挑戰(zhàn)。例如，Web已經(jīng)成為科學(xué)研究、教育學(xué)習(xí)等領(lǐng)域最重要的信息源和知識庫；但Web信息的指數(shù)級增長速度同時也為用戶有效的利用帶來了巨大的難度。據(jù)統(tǒng)計，1999年2月Web中只含8億個可訪問的網(wǎng)頁；到2000年7月這一數(shù)量增長到了21億個，其增長速度為每天產(chǎn)生730萬個新的網(wǎng)頁。近年來廣泛得到建設(shè)的數(shù)字圖書館是另外一個重要的海量信息源。數(shù)字圖書館是保存大量結(jié)構(gòu)化信息的數(shù)字化資源庫，這些數(shù)字資源的生成者可能是傳統(tǒng)的圖書館、博物館、檔案館、大學(xué)、政府部門、專業(yè)組織或個人，其目標(biāo)是讓所有的人在任何時間、任何地點可以用任何連接互聯(lián)網(wǎng)的數(shù)字設(shè)備來訪問人類所有的知識。以一本書300頁、每頁1500個字符計算，百萬冊數(shù)字圖書的文本信息共900G，再加上相關(guān)的元數(shù)據(jù)描述，XML文檔總的數(shù)據(jù)量超過1T，同時數(shù)字圖書館中還含有大量用于教學(xué)、科研和娛樂的視頻和音頻等多媒體資源。通過搜索引擎、瀏覽器等軟件和服務(wù)設(shè)施，用戶可以訪問Web或數(shù)字圖書館的信息和資源，但是用戶往往需要的是更為精細(xì)、更符合需求的知識而不是成堆的信息，例如用戶要求能同時獲得表達(dá)同一主題的不同媒體形態(tài)的信息(例如文本形式的網(wǎng)頁和電子書、圖像和文本共存形式的演示文檔、視音頻形式的多媒體資料等)。因此為滿足用戶多樣化、個性化、具有多種媒體形態(tài)的信息和知識服務(wù)需求，基于Web的信息服務(wù)系統(tǒng)(例如網(wǎng)絡(luò)教育資源管理系統(tǒng))以及數(shù)字圖書館的內(nèi)容管理和訪問系統(tǒng)必須具有能對這些半結(jié)構(gòu)化的信息或數(shù)據(jù)進(jìn)行有效的語義提取及相關(guān)的分析處理功能。
本發(fā)明涉及對半結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行語義提取。半結(jié)構(gòu)化數(shù)據(jù)是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等，這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成，但數(shù)據(jù)對象同時也具有復(fù)雜的內(nèi)部結(jié)構(gòu)，不同數(shù)據(jù)對象之間通過(超)鏈接、引用等聯(lián)系起來構(gòu)成關(guān)系數(shù)據(jù)集合?，F(xiàn)有的方法對這類數(shù)據(jù)的分類存在著如下一些缺點或不足1)語義提取過程中多利用純統(tǒng)計的方法，而利用的語義信息少(如圖1)。語義信息對于檢索系統(tǒng)的準(zhǔn)確度以及用戶需求都有重要的意義。
2)統(tǒng)計方法的重要假設(shè)是所有數(shù)據(jù)都是具有相同結(jié)構(gòu)的實體，數(shù)據(jù)之間是獨立且同分布的(Independent and identically distributed，IID)。然而，許多現(xiàn)實數(shù)據(jù)集本身具有復(fù)雜的內(nèi)部結(jié)構(gòu)，不同數(shù)據(jù)之間通過(超)鏈接、引用等聯(lián)系起來構(gòu)成一關(guān)系數(shù)據(jù)集合。這種鏈接結(jié)構(gòu)是一種重要的信息源，包含了豐富的語義信息。例如我們可以用傳統(tǒng)的文本挖掘方法來進(jìn)行超文本的主題提取和分類，即將每個文檔用關(guān)鍵字或術(shù)語向量來進(jìn)行描述，在此基礎(chǔ)上對每個網(wǎng)頁進(jìn)行獨立的分類。這種統(tǒng)計方法完全忽略了網(wǎng)頁之間的鏈接結(jié)構(gòu)和網(wǎng)頁的內(nèi)部結(jié)構(gòu)。一般地，若文檔之間有超鏈接則表明他們的主題具有相關(guān)關(guān)系；每個文檔內(nèi)部也具有節(jié)、段等結(jié)構(gòu)，而同一節(jié)的超鏈往往可能指向主題更相關(guān)的其他文檔。因此，在對這種半結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行處理的過程中，我們不能忽略數(shù)據(jù)之間的關(guān)系關(guān)聯(lián)(例如超鏈)，這些超鏈可以使處理具有更高的準(zhǔn)確度。更重要的是，由于數(shù)據(jù)之間相互關(guān)聯(lián)，我們不能獨立地進(jìn)行不同數(shù)據(jù)的處理，而需要同時決定集合中的所有關(guān)聯(lián)數(shù)據(jù)的主題或類標(biāo)簽。
3)現(xiàn)有的鏈接方法缺少健壯性。目前國內(nèi)外某些研究者已經(jīng)注意到半結(jié)構(gòu)化數(shù)據(jù)之間鏈接的重要性，提出了一些基于鏈接的分類方法(Link-based classification)。但是，這些方法都假設(shè)數(shù)據(jù)之間的鏈接關(guān)系滿足“百科全書式”(encyclopedia regularity)或“同引式”(co-referencing regularity)鏈接規(guī)律，即假設(shè)鏈接的對象都具有相同或相關(guān)的主題。而事實上，鏈接數(shù)據(jù)中有大量的鏈接并不反映具體的語義含義，也不具有統(tǒng)計顯著的模式(這類鏈接關(guān)系稱為噪聲鏈接(Noisylinks))。因此，當(dāng)鏈接分類方法應(yīng)用到這樣的數(shù)據(jù)集上時，其分類準(zhǔn)確率將遠(yuǎn)遠(yuǎn)低于沒有噪聲鏈接的數(shù)據(jù)集。在各種現(xiàn)實的鏈接數(shù)據(jù)中，噪聲是普遍存在的，例如在Web中存在有大量的廣告、瀏覽鏈接等；同時由于關(guān)系數(shù)據(jù)的特殊性，我們也不能應(yīng)用傳統(tǒng)的去噪方法(通常假設(shè)噪聲滿足標(biāo)準(zhǔn)高斯分布)。
為解決上述三個問題，我們需要有新的模型和方法來利用鏈接、引用等關(guān)系信息來對半結(jié)構(gòu)關(guān)系數(shù)據(jù)進(jìn)行有效的語義提取和分析。本發(fā)明即給出這樣一種語義提取方法。方法的核心是從內(nèi)部結(jié)構(gòu)和相關(guān)關(guān)系等兩方面來建模數(shù)據(jù)之間的上下文依賴關(guān)系，在此基礎(chǔ)上構(gòu)造健壯的語義模型。

發(fā)明內(nèi)容
本發(fā)明的目的在于給半結(jié)構(gòu)化數(shù)據(jù)資源提供一種基于上下文的語義提取和分析處理方法，這種方法能利用數(shù)據(jù)之間的鏈接和引用等關(guān)聯(lián)關(guān)系、以及數(shù)據(jù)的各種內(nèi)部結(jié)構(gòu)進(jìn)行更有效的語義提取，能在數(shù)據(jù)集合包含噪聲鏈接的情況下具有健壯性。這種方法能直接應(yīng)用在不同的半結(jié)構(gòu)化數(shù)據(jù)資源。本發(fā)明的半結(jié)構(gòu)化數(shù)據(jù)是指超文本、Web網(wǎng)頁、數(shù)字圖書、教育資源等，這些數(shù)據(jù)對象本身由非結(jié)構(gòu)化的字符或數(shù)據(jù)流組成，但數(shù)據(jù)對象同時也具有復(fù)雜的內(nèi)部結(jié)構(gòu)，不同數(shù)據(jù)對象之間通過(超)鏈接、引用等聯(lián)系起來構(gòu)成關(guān)系數(shù)據(jù)集合。
為實現(xiàn)上述目的，本發(fā)明提出多粒度語義模型來建模這些半結(jié)構(gòu)化數(shù)據(jù)的內(nèi)部多層語義結(jié)構(gòu)，以及上下文依賴網(wǎng)絡(luò)模型(CDN)來建模數(shù)據(jù)之間的鏈接語義關(guān)系。本發(fā)明的多粒度語義模型可以用于建模具有復(fù)雜內(nèi)在結(jié)構(gòu)的半結(jié)構(gòu)化數(shù)據(jù)對象，從而能有效地刻畫數(shù)據(jù)對象內(nèi)部結(jié)點間上下文主題相關(guān)關(guān)系；CDN模型可以用于各種通過(顯式或隱式)鏈接、引用、參照等關(guān)聯(lián)起來的關(guān)系數(shù)據(jù)，從而能刻畫數(shù)據(jù)對象間的上下文相關(guān)關(guān)系，使模型本身具有對不同鏈接特征的選擇性。同時，本發(fā)明以Web站點為例，給出了一種多粒度語義模型的構(gòu)建方法，即將給定的Web站點的內(nèi)部結(jié)構(gòu)分解為頁面鏈接圖和DOM樹，并用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系。
基于多粒度語義模型和CDN模型，本發(fā)明針對不同數(shù)據(jù)對象(或集合)提出了三種語義提取和處理方法。對單個半結(jié)構(gòu)化數(shù)據(jù)(如單個Web網(wǎng)頁、單個數(shù)字圖書等)采用兩階段語義提取和主題標(biāo)定方法；對具有簡單內(nèi)部結(jié)構(gòu)或無內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合(如Web網(wǎng)頁集合、學(xué)術(shù)論文集合、簡單教育資源集合等)采用基于CDN模型的鏈接數(shù)據(jù)協(xié)作主題標(biāo)定方法；而對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合(如Web網(wǎng)站集合、數(shù)字圖書、復(fù)雜教育資源集合等)采用多粒度語義挖掘方法。
本發(fā)明的特征在于能有效地利用各種上下文依賴關(guān)系(包括數(shù)據(jù)對象內(nèi)部的同一粒度結(jié)構(gòu)上下文和粒度間上下文，以及數(shù)據(jù)對象間的鏈接上下文等)進(jìn)行更有效的語義提取，從而能有效提高復(fù)雜數(shù)據(jù)對象的語義提取和主題標(biāo)定的準(zhǔn)確率。
基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，包括多粒度語義模型、上下文依賴網(wǎng)絡(luò)(CDN)模型、基于多粒度語義模型的兩階段語義提取和多粒度挖掘方法、基于CDN模型的協(xié)作主題標(biāo)定方法，其特征在于能有效地利用數(shù)據(jù)對象內(nèi)部結(jié)構(gòu)以及對象間鏈接所隱含的上下文依賴關(guān)系來進(jìn)行語義提取和主題標(biāo)定，提高結(jié)果的準(zhǔn)確率和模型的健壯性。
所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度語義模型，多粒度語義模型通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點的多層描述，通過建模結(jié)點間的結(jié)構(gòu)上下文來刻畫結(jié)點間的主題相關(guān)關(guān)系。
半結(jié)構(gòu)化關(guān)系數(shù)據(jù)資源的上下文依賴網(wǎng)絡(luò)(CDN)模型，CDN模型用無向圖來刻畫一組變量間的概率關(guān)系，這些變量的聯(lián)合分布可以用一組可獨立學(xué)習(xí)的局部條件分布來近似，同時這些局部條件分布可以進(jìn)一步建模為加權(quán)邊沿概率分布的線性組合。
所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，上下文依賴函數(shù)度量方法，上下文依賴函數(shù)度量方法用互信息來度量鏈接對象之間的統(tǒng)計主題相關(guān)程度，用鏈接核來度量對象在鏈接結(jié)構(gòu)。

圖1.一般的統(tǒng)計機器學(xué)習(xí)流程圖。
圖2.基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取和主題標(biāo)定的總流程圖。
圖3.半結(jié)構(gòu)化數(shù)據(jù)的多粒度語義模型圖。
圖4.Web站點的多粒度語義模型構(gòu)建流程(S1)圖。
圖5.三種用于對象內(nèi)部不同結(jié)點依賴關(guān)系的樹結(jié)構(gòu)統(tǒng)計模型圖。
圖6.直接基于樹結(jié)構(gòu)模型的語義標(biāo)定方法圖。
圖7.基于多粒度語義模型的兩階段語義提取流程(S2)圖。
圖8.半結(jié)構(gòu)化關(guān)系數(shù)據(jù)的CDN模型圖。
圖9.基于CDN的鏈接數(shù)據(jù)協(xié)作主題標(biāo)定流程(S3)圖。
圖10.半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度挖掘流程(S4)圖。
具體實施例方式
下面結(jié)合附圖描述本發(fā)明。圖2描述了基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取和主題標(biāo)定的總流程。為有效地利用數(shù)據(jù)之間的鏈接和引用等關(guān)聯(lián)關(guān)系、以及數(shù)據(jù)的各種內(nèi)部結(jié)構(gòu)進(jìn)行更有效的語義提取，本發(fā)明提出了三種面向不同數(shù)據(jù)對象(或集合)的語義提取和處理方法。下面分別進(jìn)行描述。
1.對單個半結(jié)構(gòu)化數(shù)據(jù)圖3描述了半結(jié)構(gòu)化數(shù)據(jù)的多粒度語義模型。許多半結(jié)構(gòu)化數(shù)據(jù)對象一般具有較好的結(jié)構(gòu)信息，內(nèi)部包括有多層的語義結(jié)構(gòu)，例如數(shù)字圖書分不同章節(jié)，具有題目、摘要等部分；網(wǎng)頁可以分為不同的DOM(DocumentObject Model)結(jié)點。這些內(nèi)部結(jié)點之間具有結(jié)構(gòu)上和語義上的關(guān)聯(lián)關(guān)系，例如數(shù)字圖書中相鄰章節(jié)之間的語義關(guān)聯(lián)總高于不相鄰章節(jié)之間的語義關(guān)聯(lián)。因此這樣的半結(jié)構(gòu)化數(shù)據(jù)對象可以進(jìn)一步用一個鏈接結(jié)點圖來表示。有時某些半結(jié)構(gòu)化數(shù)據(jù)對象的高層結(jié)點可以再分解為更底層的結(jié)點，例如Web網(wǎng)站可以描述為一個網(wǎng)頁結(jié)構(gòu)圖，每個網(wǎng)頁又可以描述為一棵DOM樹。而最底層的結(jié)點可以直接用不同的特征向量來描述(例如文本關(guān)鍵字向量、圖像視覺特征向量等)。這種多層結(jié)構(gòu)就構(gòu)成了半結(jié)構(gòu)化數(shù)據(jù)的多粒度語義模型。圖4給出了一種構(gòu)造這種多粒度語義模型的例子數(shù)據(jù)處理流程S1Web站點的多粒度語義模型構(gòu)建流程，參見圖4。
基于多粒度語義模型的兩階段語義提取方法，方法將給定的Web站點的內(nèi)部結(jié)構(gòu)分解為頁面鏈接圖和DOM樹，并用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系。方法包括如下七大步驟(S1.0-S1.6)

多粒度語義模型奠定了對半結(jié)構(gòu)化數(shù)據(jù)對象進(jìn)行語義分析和處理的基礎(chǔ)，它和不同的統(tǒng)計模型結(jié)合即可直接構(gòu)造不同的分析和處理方法。
圖5描述了三種用于對象內(nèi)部不同結(jié)點依賴關(guān)系的樹結(jié)構(gòu)統(tǒng)計模型，分別為結(jié)點間相互獨立的0階Markov樹，結(jié)點間具有1階依賴關(guān)系的1階Markov樹，以及結(jié)點的主題(而非結(jié)點本身)間具有1階依賴關(guān)系的隱Markov樹(HMT)。其中(a)0階Markov樹；(b)1階Markov樹；(c)隱Markov樹(HMT)圖6給出了直接基于這種樹結(jié)構(gòu)模型的語義標(biāo)定方法。但這種方法只利用了數(shù)據(jù)對象的內(nèi)部結(jié)點間部分主題相關(guān)關(guān)系，因此只適用于簡單的數(shù)據(jù)對象。
對單個半結(jié)構(gòu)化數(shù)據(jù)資源(如單個Web網(wǎng)頁、單個圖書等)，本發(fā)明提出兩階段語義提取和主題標(biāo)定方法，其特征在于通過使用多粒度語義模型，數(shù)據(jù)對象內(nèi)部多個層次的主題相關(guān)關(guān)系被利用來進(jìn)行有效的語義提取和主題標(biāo)定。例如通過站點內(nèi)部的網(wǎng)頁內(nèi)容來判定一個Web站點的主題。在最簡單情況下，站點內(nèi)部的所有網(wǎng)頁都描述同一個內(nèi)容，因此可以很方便地判定站點的內(nèi)容。但實際情況往往更為復(fù)雜站點內(nèi)部的網(wǎng)頁往往涉及很多不同的主題，甚至每個網(wǎng)頁也包含了多個主題，在這種情況下需要判定不同頁面、甚至頁面不同部分之間的主題相關(guān)性，從而最終確定整個網(wǎng)站的主題。本發(fā)明給出了一種利用這些上下文主題相關(guān)性的兩階段語義提取和主題標(biāo)定方法數(shù)據(jù)處理流程S2基于多粒度語義模型的兩階段語義提取方法，參見圖7。
基于多粒度語義模型的兩階段語義提取方法，方法采用隱Markov樹作為樹結(jié)構(gòu)的統(tǒng)計模型，通過層次分類來實現(xiàn)結(jié)果的優(yōu)化，方法包括如下四個步驟(S2.1-S2.4)

2.對具有簡單內(nèi)部結(jié)構(gòu)或無內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合現(xiàn)實世界中的數(shù)據(jù)對象往往是通過各種關(guān)系鏈接到一起的。例如多個網(wǎng)頁或網(wǎng)站之間存則超鏈接(Hyperlinks)，學(xué)術(shù)論文或教育資源之間通過引用(Citations)關(guān)系聯(lián)接起來。這些鏈接關(guān)系往往表現(xiàn)了一些顯著的模式，或者傳達(dá)了鏈接編輯者的一個觀點，即只有相互之間有主題相關(guān)的數(shù)據(jù)對象之間才有鏈接。因此這樣的“鏈接”信息可以用于對數(shù)據(jù)對象的主題進(jìn)行標(biāo)定和語義提取。針對這樣的數(shù)據(jù)資源集合(如Web網(wǎng)頁集合、學(xué)術(shù)論文集合、簡單教育資源集合等)，本發(fā)明提出基于CDN的鏈接數(shù)據(jù)主題提取和主題標(biāo)定方法。方法的特征在于1)使用上下文依賴網(wǎng)絡(luò)(CDN)模型來刻畫數(shù)據(jù)對象之間的主題依賴關(guān)系；2)基于鏈接語義核和互信息提出一種可行的上下文依賴函數(shù)度量方法；3)使用Gibbs采樣來在CDN模型上執(zhí)行近似推理，在每個推理步驟中執(zhí)行影響傳播(influence propagation)來用網(wǎng)絡(luò)中一個數(shù)據(jù)對象的信念來影響其他關(guān)聯(lián)對象。
圖8描述了半結(jié)構(gòu)化數(shù)據(jù)資源的上下文依賴網(wǎng)絡(luò)(CDN)模型。作為一種擴展的依賴網(wǎng)絡(luò)(DN)，CDN用無向圖來刻畫一組變量間的概率關(guān)系，并用一組可以獨立學(xué)習(xí)的局部條件分布來近似這些變量的聯(lián)合分布。在此基礎(chǔ)上，CDN進(jìn)一步將局部條件分布建模為加權(quán)邊沿概率分布的線性組合，即P[T1,…,TN|Π]=Πi=1NP[Ti|TNC(Oi)]=Πi=1N(ΣOk&Element;NC(Oi)σi,kP[Ti|Tk]),]]>其中σi，k指數(shù)據(jù)對象Oi在Ok上的依賴函數(shù)，它定量度量了Oi對Ok的上下文依賴關(guān)系，也即Ok對Oi分類的影響。若σi，k較小，則表明Ok對Oi分類的影響小，而這樣的Ok與Oi具有較小的語義相關(guān)性，因此我們在Oi的分類過程中去除對象Ok的影響。這種上下文去噪方法能有效降低噪聲鏈接對分類噪聲的影響，從而使得CDN模型能在噪聲數(shù)據(jù)集上保持較高的健壯性。
同時，本發(fā)明基于鏈接語義核和互信息提出一種可行的上下文依賴函數(shù)度量方法，其中互信息度量了鏈接對象之間的統(tǒng)計主題相關(guān)程度，而鏈接核則度量了對象在鏈接結(jié)構(gòu)中的相似度。根據(jù)不同的鏈接核函數(shù)，我們可以得到不同的上下文依賴函數(shù)度量形式，例如采用Sigmoid核函數(shù)時，依賴函數(shù)可以采用如下形式
σi,j=1Ztanh(<ai,aj>+β)I(Oi;Oj),]]>其中<ai，aj>表示Oi與Oj的點積，I(Oi；Oj)表示Oi與Oj之間的互信息，Z為規(guī)范化常數(shù)，β為控制參數(shù)。
在對鏈接數(shù)據(jù)進(jìn)行語義提取和主題標(biāo)定的過程中，由于數(shù)據(jù)之間相互關(guān)聯(lián)，我們不能獨立地進(jìn)行不同數(shù)據(jù)對象的處理，而需要采用協(xié)作主題標(biāo)定方法來同時決定集合中的所有關(guān)聯(lián)數(shù)據(jù)的主題或類標(biāo)簽。在協(xié)作標(biāo)定過程中，我們需要Gibbs推理來迭代估計給定數(shù)據(jù)下目標(biāo)變量的聯(lián)合后驗概率。對每個對象的目標(biāo)主題類變量，Gibbs推理在CDN網(wǎng)絡(luò)上執(zhí)行影響傳播來用網(wǎng)絡(luò)中一個數(shù)據(jù)對象的信念來影響其他關(guān)聯(lián)對象。形式化地，影響傳播可以用如下公式進(jìn)行描述P[Ti|Oi,M](n+1)&LeftArrow;1Z[ΣOk&Element;NC(Oi)σi,k(n)P[Ti|tk(n)]P[Ti]P[Ti|Oi,M](n)],]]>其中P[Ti|Oi，M](n)指第n次迭代過程中的后驗概率，P[Ti]為主題變量Ti的先驗概率，P[Ti|tk(n))]為主題tk(n)到主題變量Ti的轉(zhuǎn)移概率，σi，k指數(shù)據(jù)對象Oi在Ok上的依賴函數(shù)，Z為規(guī)范化常數(shù)。經(jīng)過足夠的迭代次數(shù)，給定數(shù)據(jù)下目標(biāo)變量的聯(lián)合后驗概率達(dá)到收斂。本發(fā)明提出了基于CDN的鏈接數(shù)據(jù)主題提取和主題標(biāo)定方法。
數(shù)據(jù)處理流程S3基于CDN的鏈接數(shù)據(jù)協(xié)作主題標(biāo)定方法，參見圖9。
基于CDN模型的協(xié)作主題標(biāo)定方法，通過在CDN網(wǎng)絡(luò)上執(zhí)行Gibbs推理和影響傳播，從而使整個數(shù)據(jù)集上的語義提取和主題標(biāo)定的結(jié)果達(dá)到最佳，方法包括四大步驟(S3.0-S3.3)

3.對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合一方面，這些數(shù)據(jù)資源本身具有復(fù)雜的內(nèi)部結(jié)構(gòu)，因此我們可以用多粒度語義模型來建模其內(nèi)部結(jié)點間的語義相關(guān)關(guān)系；另一方面，不同的數(shù)據(jù)資源之間也具有超鏈、引用等鏈接關(guān)系，這些關(guān)系可以進(jìn)一步利用來對目標(biāo)對象進(jìn)行語義提取和標(biāo)定。更重要的是，我們不是簡單的對兩種方法進(jìn)行組合，而是利用下層結(jié)點對上層結(jié)點的上下文依賴關(guān)系來對下層結(jié)點的分類結(jié)果進(jìn)行優(yōu)化。令Wk(i)為第i層的第k個結(jié)點，Tk(i)為其主題屬性，NCk(i)為其鏈接鄰居，則優(yōu)化的公式描述為P(Tk(i)|Wk(i),NCk(i))==αP(Tk(i)|Wk(i))P(Tk(i)|NCk(i))P(Tk(i))]]>其中P(Wk(i))P(Wk(i)|NCk(i))]]>可視為比例常數(shù)α。
這種針對具有復(fù)雜內(nèi)部結(jié)構(gòu)的數(shù)據(jù)資源集合的多粒度挖掘流程(S5)可以描述如下數(shù)據(jù)處理流程S4半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度挖掘方法，參見圖10。
基于多粒度語義模型的多粒度挖掘方法，方法通過多層次分類以及基于上下文的優(yōu)化來得到最優(yōu)的主題標(biāo)定結(jié)果，方法包括如下三大步驟(S4.1-S4.3)

權(quán)利要求
1.一種基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，包括多粒度語義模型、上下文依賴網(wǎng)絡(luò)(CDN)模型、基于多粒度語義模型的兩階段語義提取和多粒度挖掘方法、基于CDN模型的協(xié)作主題標(biāo)定方法，其特征在于能有效地利用數(shù)據(jù)對象內(nèi)部結(jié)構(gòu)以及對象間鏈接所隱含的上下文依賴關(guān)系來進(jìn)行語義提取和主題標(biāo)定，提高結(jié)果的準(zhǔn)確率和模型的健壯性。
2.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，半結(jié)構(gòu)化數(shù)據(jù)資源的多粒度語義模型，多粒度語義模型通過根據(jù)數(shù)據(jù)對象的內(nèi)部結(jié)構(gòu)將其分解為具有不同粒度結(jié)點的多層描述，通過建模結(jié)點間的結(jié)構(gòu)上下文來刻畫結(jié)點間的主題相關(guān)關(guān)系。
3.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，基于多粒度語義模型的兩階段語義提取方法，方法將給定的Web站點的內(nèi)部結(jié)構(gòu)分解為頁面鏈接圖和DOM樹，并用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系，方法包括如下七大步驟(S1.0-S1.6)S1.0輸入數(shù)據(jù)為給定Web站點的URL；S1.1根據(jù)一定的抓取策略(，利用網(wǎng)頁抓取器獲取該站點的網(wǎng)頁；S1.2構(gòu)造Web站點的網(wǎng)頁鏈接圖。包括如下步驟S1.2.1提取站點內(nèi)部網(wǎng)頁之間的鏈接關(guān)系；S1.2.2去除Web站點內(nèi)部的瀏覽鏈接、廣告鏈接；S1.2.3根據(jù)錨點文本計算任意網(wǎng)頁間鏈接的權(quán)值；S1.2.4采用聚類方法，聚集和合并近鄰小結(jié)點，并處理鏈接合并問題；S1.2.5構(gòu)造站點鏈接圖；S1.3為每個網(wǎng)頁構(gòu)造DOM樹；S1.3.1解析網(wǎng)頁，包括HTML或XML格式；S1.3.2構(gòu)造DOM結(jié)點；S1.3.3采用聚類方法，聚集和合并DOM結(jié)點；S1.4為每個DOM結(jié)點提取特征，特征包括文本關(guān)鍵字、圖形特征、鏈接特征等；S1.5用上下文統(tǒng)計模型來刻畫結(jié)點間的上下文依賴關(guān)系；S1.6輸出給定Web站點的多粒度語義模型。
4.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，半結(jié)構(gòu)化關(guān)系數(shù)據(jù)資源的上下文依賴網(wǎng)絡(luò)(CDN)模型，CDN模型用無向圖來刻畫一組變量間的概率關(guān)系，這些變量的聯(lián)合分布可以用一組可獨立學(xué)習(xí)的局部條件分布來近似，同時這些局部條件分布可以進(jìn)一步建模為加權(quán)邊沿概率分布的線性組合。
5.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，基于多粒度語義模型的兩階段語義提取方法，方法采用隱Markov樹作為樹結(jié)構(gòu)的統(tǒng)計模型，通過層次分類來實現(xiàn)結(jié)果的優(yōu)化。方法包括如下四個步驟(S2.1-S2.4)S2.1為每個底層結(jié)點提取內(nèi)容特征，特征包括文本關(guān)鍵字、圖形特征、鏈接特征；S2.2利用傳統(tǒng)的統(tǒng)計分類算法，根據(jù)特征向量來對底層結(jié)點進(jìn)行主題標(biāo)定；S2.3利用樹分類器對中間層結(jié)點進(jìn)行主題標(biāo)定；S2.4基于中間層結(jié)點的標(biāo)定主題，再次利用樹分類器對整個數(shù)據(jù)對象進(jìn)行主題標(biāo)定。
6.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，基于多粒度語義模型的多粒度挖掘方法，方法通過多層次分類以及基于上下文的優(yōu)化來得到最優(yōu)的主題標(biāo)定結(jié)果，方法包括如下三大步驟(S4.1-S4.3)S4.1用樹分類器沿粒度由細(xì)到粗的方向依次對中間層結(jié)點和數(shù)據(jù)對象進(jìn)行第1次粗分類；S4.1.1為每個底層結(jié)點提取內(nèi)容特征，特征包括文本關(guān)鍵字、圖形特征、鏈接特征；S4.1.2利用傳統(tǒng)的統(tǒng)計分類算法，根據(jù)特征向量來對底層結(jié)點進(jìn)行主題標(biāo)定；S4.1.3利用樹分類器對中間層結(jié)點進(jìn)行主題標(biāo)定；S4.1.4基于中間層結(jié)點的標(biāo)定主題，再次利用樹分類器對整個數(shù)據(jù)對象進(jìn)行主題標(biāo)定；S4.2利用多粒度上下文模型對樹分類器的各層主題標(biāo)定結(jié)果沿粒度由粗到細(xì)的方向依次進(jìn)行優(yōu)化，得到第2次結(jié)果；S4.2.1利用上下文依賴性優(yōu)化中間層結(jié)點的主題標(biāo)定結(jié)果；S4.2.2利用上下文依賴性優(yōu)化底層結(jié)點的主題標(biāo)定結(jié)果；S4.3在此利用樹分類器沿粒度由細(xì)到粗的方向依次對中間層結(jié)點和數(shù)據(jù)對象進(jìn)行主題標(biāo)定，得到最終的結(jié)果；S4.3.1利用內(nèi)容特征和粒度間上下文依賴關(guān)系對底層結(jié)點進(jìn)行主題標(biāo)定；S4.3.2利用底層結(jié)點主題和粒度間上下文依賴關(guān)系對中間層結(jié)點進(jìn)行主題標(biāo)定；S4.3.3利用樹分類器對對象進(jìn)行主題標(biāo)定。
7.按權(quán)利要求1所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，基于CDN模型的協(xié)作主題標(biāo)定方法，方法通過在CDN網(wǎng)絡(luò)上執(zhí)行Gibbs推理和影響傳播，從而使整個數(shù)據(jù)集上的語義提取和主題標(biāo)定的結(jié)果達(dá)到最佳，方法包括四大步驟(S3.0-S3.3)S3.0輸入鏈接數(shù)據(jù)；S3.1(Bootstrap)不考慮對象間的鏈接關(guān)系，使用基于特征向量的統(tǒng)計方法對數(shù)據(jù)對象進(jìn)行初始主題標(biāo)定；S3.2(Gibbs Inference)執(zhí)行Gibbs推理直到收斂；S3.2.1根據(jù)當(dāng)前的主題類標(biāo)簽，計算互信息和鏈接核，計算上下文依賴函數(shù)，構(gòu)造CDN網(wǎng)絡(luò)模型；S3.2.2采用一定的策略決定Gibbs采用的順序，例如具有最多鏈出鏈接的數(shù)據(jù)對象優(yōu)先，鏈到更多類鄰居的數(shù)據(jù)對象優(yōu)先；S3.2.3對每一個目標(biāo)變量，執(zhí)行影響傳播過程；S3.2.4計算目標(biāo)變量的聯(lián)合后驗分布，并進(jìn)行最大后驗(MAP)分類，得到當(dāng)前主題標(biāo)定結(jié)果；S3.2.5計算當(dāng)前結(jié)果是否達(dá)到收斂條件；S3.3輸出最終的主題標(biāo)定結(jié)果。
8.按權(quán)利要求7所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，上下文依賴函數(shù)度量方法，上下文依賴函數(shù)度量方法用互信息來度量鏈接對象之間的統(tǒng)計主題相關(guān)程度，用鏈接核來度量對象在鏈接結(jié)構(gòu)中的相似度。
9.按權(quán)利要求7所述的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，其特征在于，CDN網(wǎng)絡(luò)上的影響傳播機制，影響傳播機制，用網(wǎng)絡(luò)中一個數(shù)據(jù)對象的信念來影響其他關(guān)聯(lián)對象，形式化描述為P[Ti|Oi,M](n+1)&LeftArrow;1Z[ΣOk&Element;NC(Oi)σi,k(n)P[Ti|tk(n)]P[Ti]P[Ti|Oi,M](n)],]]>其中P[Ti|Oi，M](n)指第n次迭代過程中的后驗概率，P[Ti]為主題變量Ti的先驗概率，P[Ti|tk(n)]為主題tk(n)到主題變量Ti的轉(zhuǎn)移概率，σi，k(n)指數(shù)第n次迭代過程中據(jù)對象Oi在Ok上的依賴函數(shù)，Z為規(guī)范化常數(shù)。
全文摘要
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，特別是具有復(fù)雜內(nèi)部結(jié)構(gòu)和相互之間具有鏈接結(jié)構(gòu)的基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法，包括多粒度語義模型、上下文依賴網(wǎng)絡(luò)(CDN)模型、基于多粒度語義模型的兩階段語義提取和多粒度挖掘方法、基于CDN模型的協(xié)作主題標(biāo)定方法。這些方法能利用數(shù)據(jù)之間的鏈接和引用等關(guān)聯(lián)關(guān)系、以及數(shù)據(jù)的各種內(nèi)部結(jié)構(gòu)進(jìn)行更有效的語義提取，并能在數(shù)據(jù)集合包含噪聲鏈接的情況下具有健壯性。
文檔編號G06F17/30GK1766871SQ20041008674
公開日2006年5月3日申請日期2004年10月29日優(yōu)先權(quán)日2004年10月29日
發(fā)明者田永鴻, 黃鐵軍, 高文申請人:中國科學(xué)院研究生院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：田永鴻;黃鐵軍;高文
技術(shù)所有人：中國科學(xué)院研究生院
我是此專利的發(fā)明人

上一篇：一種軟件升級裝置及方法
上一篇：支持快速檢索教育資源元數(shù)據(jù)的數(shù)據(jù)處理方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

上下文語義分析相關(guān)技術(shù)

非結(jié)構(gòu)化數(shù)據(jù)提取相關(guān)技術(shù)

上下文數(shù)據(jù)流圖相關(guān)技術(shù)

數(shù)據(jù)上下文類相關(guān)技術(shù)

數(shù)據(jù)庫上下文相關(guān)技術(shù)

數(shù)據(jù)上下文相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于上下文的半結(jié)構(gòu)化數(shù)據(jù)語義提取的處理方法