一種全程化Web信息抽取集成方法

文檔序號：6634839閱讀：227來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種全程化Web信息抽取集成方法
【專利摘要】本發(fā)明涉及一種Web信息抽取集成方法，屬于計算機【技術(shù)領(lǐng)域】。該方法包括網(wǎng)頁瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取、數(shù)據(jù)集成處理步驟，能夠應(yīng)用于各種不同的Web信息采集和挖掘分析應(yīng)用，具有網(wǎng)頁自動瀏覽導(dǎo)航能力和抽取數(shù)據(jù)的集成處理能力，因此采用本發(fā)明后，可以滿足人們從Web中挖掘有價值的數(shù)據(jù)信息、完成深度價值發(fā)現(xiàn)的愿望。
【專利說明】一種全程化Web信息抽取集成方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種信息抽取集成方法，尤其是一種Web信息抽取集成方法，屬于計算機【技術(shù)領(lǐng)域】。

【背景技術(shù)】
[0002] Web是目前最大的信息發(fā)布和共享平臺，其中包含了大量有價值的數(shù)據(jù)信息。越來越多的應(yīng)用希望能從Web上獲得這些有價值的數(shù)據(jù)信息，進一步完成深度的數(shù)據(jù)信息分析，提供各種數(shù)據(jù)分析增值服務(wù)。
[0003] 然而，如何能從Web網(wǎng)頁上精確地獲取所感興趣的數(shù)據(jù)信息是一個較大的技術(shù)難題。Web信息抽?。╓eb Inform全程化Web信息抽取集成方法tion Extr全程化Web信息抽取集成方法ction)是研究解決相關(guān)技術(shù)和工具的新興研究領(lǐng)域。所謂Web信息抽取是指從結(jié)構(gòu)化或半結(jié)構(gòu)化的網(wǎng)頁上抽取出用戶或應(yīng)用所感興趣的數(shù)據(jù)，將其以結(jié)構(gòu)化的格式導(dǎo)入數(shù)據(jù)庫中供進一步分析處理的過程。
[0004] 據(jù) 申請人:了解，在過去的十多年中，Web信息抽取技術(shù)已出現(xiàn)了一些系統(tǒng)，例如 DEPT全程化WEB信息抽取集成方法、ViDE、MDR，ST全程化WEB信息抽取集成方法LKER， Lixto，DEByE等。但現(xiàn)有的Web信息抽取研究和系統(tǒng)基本上都僅僅集中對已獲取網(wǎng)頁的數(shù) 據(jù)抽取處理，而忽略了實際的Web信息抽取處理過程首先需要考慮的網(wǎng)頁自動瀏覽導(dǎo)航和訪問問題，而且對抽取出的原始網(wǎng)頁數(shù)據(jù)的轉(zhuǎn)換和集成處理也缺少充分的考慮。這些僅僅關(guān)注了中間的網(wǎng)頁數(shù)據(jù)抽取處理階段的現(xiàn)有技術(shù)離實際的Web信息抽取應(yīng)用需求還有很大的距離。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于：針對上述現(xiàn)有技術(shù)（研究和系統(tǒng)）存在的不足，提出一種包含 Web網(wǎng)頁自動瀏覽、網(wǎng)頁數(shù)據(jù)抽取、以及數(shù)據(jù)集成全程化Web信息抽取集成方法，進而基于相應(yīng)的模型研究設(shè)計網(wǎng)頁自動瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取與集成、以及Web信息抽取流程控制技術(shù)和相應(yīng)的規(guī)則語言。
[0006] 研究表明，完整的Web信息抽取處理過程包含三個階段：1)網(wǎng)頁瀏覽導(dǎo)航，即系統(tǒng)需要能在Web信息抽取處理過程中模擬用戶瀏覽網(wǎng)頁的行為自動導(dǎo)航和訪問到所感興趣的網(wǎng)頁；2)網(wǎng)頁數(shù)據(jù)抽取，對于所訪問獲取的網(wǎng)頁，定制一定的抽取規(guī)則完成網(wǎng)頁數(shù)據(jù) 元素的抽取處理；3)數(shù)據(jù)集成，即對于抽取出的原始網(wǎng)頁數(shù)據(jù)元素進行轉(zhuǎn)換、過濾和集成后處理。在實際的Web信息抽取處理過程中，一個重要問題是如何能讓系統(tǒng)模仿人的瀏覽導(dǎo)航行為，自動瀏覽并訪問到所感興趣的網(wǎng)頁。獲得所需網(wǎng)頁后，主要技術(shù)問題則是如何有效地在網(wǎng)頁上指定和描述所要抽取的具體數(shù)據(jù)元素或數(shù)據(jù)記錄。為此，需要引入網(wǎng)頁數(shù)據(jù) 抽取規(guī)則。另外，網(wǎng)頁上所抽取出來的原始數(shù)據(jù)元素和記錄通常是沒有結(jié)構(gòu)語義的，至多反應(yīng)的是一種網(wǎng)頁展現(xiàn)結(jié)構(gòu)語義，這種網(wǎng)頁展現(xiàn)結(jié)構(gòu)語義與Web抽取應(yīng)用所需要的目標(biāo)結(jié)構(gòu) 語義之間存在一個差異和鴻溝；為了消除這種差異和鴻溝，Web信息抽取處理必須提供數(shù) 據(jù)轉(zhuǎn)換、過濾、映射和集成處理的能力。更為復(fù)雜的情形是，一個復(fù)雜數(shù)據(jù)記錄可能會顯示在多個關(guān)聯(lián)網(wǎng)頁上。因此，進行Web信息抽取時需要自動完成這些關(guān)聯(lián)網(wǎng)頁的鏈接跳轉(zhuǎn)，并且能依據(jù)這些數(shù)據(jù)網(wǎng)頁的鏈接關(guān)系保持正確的數(shù)據(jù)關(guān)系，以便最終完成完整數(shù)據(jù)記錄的抽取和集成處理。
[0007] 為了達到以上目的，本發(fā)明的全程化Web信息抽取集成方法包括以下基本步驟：
[0008] 第一步、網(wǎng)頁瀏覽導(dǎo)航--構(gòu)建自動記錄用戶訪問網(wǎng)頁導(dǎo)航鏈接一系列交互操作的導(dǎo)航鏈接模型，同時編制實現(xiàn)回放該一系列交互操作的規(guī)則語言，從而實現(xiàn)自動重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接，為數(shù)據(jù)抽取奠定基礎(chǔ)；
[0009] 第二步、網(wǎng)頁數(shù)據(jù)抽取--重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接后，根據(jù)預(yù)定的抽取規(guī)則，抽取展示在Web頁面上的數(shù)據(jù)源對象；
[0010] 第三步、數(shù)據(jù)集成處理一將抽取出的數(shù)據(jù)源對象中的數(shù)據(jù)元素或數(shù)據(jù)按預(yù)定的目標(biāo)數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成，形成目標(biāo)數(shù)據(jù)對象。
[0011] 本發(fā)明技術(shù)方案的進一步限定為，第二步中，網(wǎng)頁數(shù)據(jù)抽取時，抽取的數(shù)據(jù)源對象為非規(guī)整數(shù)據(jù)和/或規(guī)整數(shù)據(jù)。
[0012] 進一步地，第二步中，執(zhí)行網(wǎng)頁數(shù)據(jù)抽取包括如下步驟：首先，抽取展示在Web頁面上的數(shù)據(jù)源對象；然后，將包含在數(shù)據(jù)源對象中的數(shù)據(jù)集成到預(yù)先定義好的目標(biāo)數(shù)據(jù)結(jié) 構(gòu)中從而形成目標(biāo)數(shù)據(jù)對象。
[0013] 進一步地，抽取展示在Web頁面上的數(shù)據(jù)源對象時，建立數(shù)據(jù)源對象模型，包含三種類型的數(shù)據(jù)源對象：數(shù)據(jù)區(qū)對象、數(shù)據(jù)記錄對象和數(shù)據(jù)項對象，每個數(shù)據(jù)區(qū)對象包含一個或多個數(shù)據(jù)記錄對象，每個數(shù)據(jù)記錄對象包含一個或多個數(shù)據(jù)項對象。
[0014] 進一步地，第二步中，抽取展示在Web頁面上的數(shù)據(jù)源對象時，記錄對應(yīng)頁面上用以抽取數(shù)據(jù)記錄的Web數(shù)據(jù)區(qū)和數(shù)據(jù)源對象、以及用于數(shù)據(jù)抽取、瀏覽導(dǎo)航、以及流程控制的HTML控件和各種外部數(shù)據(jù)源控件；數(shù)據(jù)源對象采用XML語言進行定義和描述。該數(shù)據(jù) 源對象實際上封裝了用以抽取出指定的數(shù)據(jù)區(qū)域中的數(shù)據(jù)記錄的規(guī)則，包括各種抽取屬性 (Attributes)和模式（Patterns)。
[0015] 進一步地,第三步中，數(shù)據(jù)集成處理中包含對頁面數(shù)據(jù)源對象中抽取出的原始數(shù) 據(jù)進行轉(zhuǎn)換集成的邏輯和規(guī)則，數(shù)據(jù)集成規(guī)則將采用某種腳本語言來描述
[0016] 本發(fā)明設(shè)計完成的全過程化Web信息抽取集成方法能夠應(yīng)用于各種不同的Web信息采集和挖掘分析應(yīng)用，具有網(wǎng)頁自動瀏覽導(dǎo)航能力和抽取數(shù)據(jù)的集成處理能力，因此采用本發(fā)明后，可以滿足人們從Web中挖掘有價值的數(shù)據(jù)信息、完成深度價值發(fā)現(xiàn)的愿望。

【專利附圖】

【附圖說明】
[0017] 下面結(jié)合附圖對本發(fā)明作進一步的說明。
[0018] 圖1為本發(fā)明一個實施例的全程化Web信息抽取集成方法的流程圖；
[0019] 圖2為實施例1中的Web數(shù)據(jù)記錄模型；
[0020] 圖3為實施例1中的Web信息抽取集成ETI模型；
[0021] 圖4為實施例1中的頁面模型與Web信息抽取集成規(guī)則體系模型；
[0022] 圖5為實施例1中包含基于網(wǎng)格的數(shù)據(jù)記錄的Web頁面；
[0023] 圖6為實施例1中基于跨頁面鏈接關(guān)系的數(shù)據(jù)記錄網(wǎng)頁示例；
[0024] 圖7為實施例1中瀏覽導(dǎo)航規(guī)則模型；
[0025] 圖8為實施例1中跨頁面嵌套記錄的集成規(guī)則和集成后的目標(biāo)數(shù)據(jù)記錄的XML結(jié) 構(gòu)；
[0026] 圖9為實施例1中數(shù)據(jù)抽取和"一對多"集成轉(zhuǎn)換規(guī)則示例。

【具體實施方式】
[0027] 實施例一
[0028] 本實施例的全程化Web信息抽取集成方法，包括以下基本步驟：
[0029] 第一步、網(wǎng)頁瀏覽導(dǎo)航--構(gòu)建自動記錄用戶訪問網(wǎng)頁導(dǎo)航鏈接一系列交互操作的導(dǎo)航鏈接模型，同時編制實現(xiàn)回放該一系列交互操作的規(guī)則語言，從而實現(xiàn)自動重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接，為數(shù)據(jù)抽取奠定基礎(chǔ)；
[0030] 第二步、網(wǎng)頁數(shù)據(jù)抽取--重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接后，根據(jù)預(yù)定的抽取規(guī)則，抽取展示在Web頁面上的數(shù)據(jù)源對象；
[0031] 第三步、數(shù)據(jù)集成處理--將抽取出的數(shù)據(jù)源對象中的數(shù)據(jù)元素或數(shù)據(jù)按預(yù)定的目標(biāo)數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成，形成目標(biāo)數(shù)據(jù)對象。
[0032] 下面對三個基本步驟做詳細的介紹。
[0033] 1、全過程Web信息抽取模型
[0034] 三階段Web信息抽取集成模型
[0035] 從信息處理的抽象層面看，如圖1所示，一個完整的Web信息抽取過程應(yīng)當(dāng)包括網(wǎng) 頁獲?。醋詣訛g覽導(dǎo)航）、網(wǎng)頁數(shù)據(jù)抽取處理（包括自動或半自動分析方法以及手工交互生成抽取規(guī)則）、以及集成后處理三個主要階段。
[0036] (1)網(wǎng)頁瀏覽導(dǎo)航階段：一個完整的Web信息抽取系統(tǒng)首先需要提供這種網(wǎng)頁自動瀏覽導(dǎo)航能力，即在Web信息抽取過程中能模仿用戶在瀏覽器中人工的網(wǎng)頁交互和瀏覽導(dǎo)航動作，以便系統(tǒng)自動訪問和獲取所需要的網(wǎng)頁。為此，需要抽象并提供一種用戶網(wǎng)頁交互和瀏覽導(dǎo)航模型，并最終提供一種網(wǎng)頁交互動作和瀏覽導(dǎo)航規(guī)則語言以描述和刻畫出這種網(wǎng)頁交互和瀏覽導(dǎo)航動作，然后在Web信息抽取處理過程中，執(zhí)行該規(guī)則語言，以便回放所描述的網(wǎng)頁交互和瀏覽導(dǎo)航動作，完成網(wǎng)頁的自動訪問和獲取。
[0037] (2)網(wǎng)頁數(shù)據(jù)抽取階段：獲得數(shù)據(jù)網(wǎng)頁后，需要為每個數(shù)據(jù)網(wǎng)頁定制數(shù)據(jù)抽取規(guī) 貝U，以便從網(wǎng)頁上抽取出特定區(qū)域中所包含的特定數(shù)據(jù)元素或數(shù)據(jù)記錄；對包含規(guī)整數(shù)據(jù) 記錄的頁面可采用自動結(jié)構(gòu)分析方法生成抽取規(guī)則，對非規(guī)整頁面可采用基于交互的半自動化規(guī)則生成方法完成。
[0038] (3)數(shù)據(jù)集成處理階段：抽取出來的網(wǎng)頁數(shù)據(jù)元素或數(shù)據(jù)記錄需要按照所定義的目標(biāo)信息實體結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成處理，生成一組目標(biāo)數(shù)據(jù)記錄。為此需要提供有效的數(shù)據(jù)集成模型和數(shù)據(jù)轉(zhuǎn)換規(guī)則語言以便用戶刻畫出各種數(shù)據(jù)轉(zhuǎn)換和集成邏輯。
[0039] 因此，一個完整的Web信息抽取系統(tǒng)必須基于以上的三階段完整模型來設(shè)計整個系統(tǒng)，提供從網(wǎng)頁自動獲取、到網(wǎng)頁數(shù)據(jù)抽取和集成處理的綜合規(guī)則體系和規(guī)則語言，并最終得到完整和一體化的執(zhí)行和處理。
[0040] 網(wǎng)頁交互和瀏覽導(dǎo)航模型
[0041] Web頁面的復(fù)雜性、交互性和數(shù)據(jù)動態(tài)性通常使得難以通過簡單的URL鏈接來獲取Web頁面。因此，為了刻畫Web信息抽取過程中的網(wǎng)頁自動瀏覽導(dǎo)航邏輯，我們首先需要對用戶在瀏覽器中以人工方式進行網(wǎng)頁交互和瀏覽導(dǎo)航的行為動作進行抽象，然后建立一個網(wǎng)頁自動交互和瀏覽導(dǎo)航的抽象模型，并進一步定義和提供一種瀏覽導(dǎo)航規(guī)則語言，以描述和刻畫出準(zhǔn)確的瀏覽導(dǎo)航邏輯。
[0042] 為了刻畫一個網(wǎng)頁間的鏈接跳轉(zhuǎn)，首先定義一個"導(dǎo)航鏈接模型"，該模型主要刻畫完成一個導(dǎo)航鏈接所包含的一系列交互操作，我們將執(zhí)行Web瀏覽導(dǎo)航的每個交互動作稱為瀏覽導(dǎo)航動作。
[0043] -個導(dǎo)航鏈接L包含一組瀏覽導(dǎo)航動作序列（Action Sequence, AS)，我們用 L(AS)來表示這個導(dǎo)航鏈接。從抽象層面看，一個完整的Web數(shù)據(jù)抽取任務(wù)將由一系列導(dǎo)航鏈接組合而成。
[0044] 每個瀏覽導(dǎo)航動作實際上就是對一個網(wǎng)頁控件進行的某種交互操作，通常包含一個或多個具體的控件設(shè)置動作，如設(shè)置文本框文本值，選中一個或多個復(fù)選按鈕等。每個瀏覽導(dǎo)航動作包括控件描述和定位信息、瀏覽導(dǎo)航和交互動作描述、以及控件操作參數(shù)。一個導(dǎo)航鏈接可包含一至多個上述的瀏覽導(dǎo)航動作。除此以外，一個導(dǎo)航鏈接還指定當(dāng)跳轉(zhuǎn)到目標(biāo)頁面后所對應(yīng)的目標(biāo)頁面模型是什么。
[0045] Web數(shù)據(jù)記錄與數(shù)據(jù)源對象模型
[0046] Web頁面上的數(shù)據(jù)記錄有多種可能的組織形式。根據(jù)Web數(shù)據(jù)記錄結(jié)構(gòu)的規(guī)整性，我們將Web數(shù)據(jù)記錄分為兩類：規(guī)整數(shù)據(jù)記錄和非規(guī)整數(shù)據(jù)記錄（見圖2)。
[0047] (1)非規(guī)整數(shù)據(jù)記錄
[0048] 包含在非規(guī)整數(shù)據(jù)記錄中的數(shù)據(jù)項經(jīng)常隨機地分布在web頁面上。因此我們通常不能從Web頁面上規(guī)整的區(qū)域抽取出這種記錄的數(shù)據(jù)項。對于此類數(shù)據(jù)記錄，我們需要直接基于用戶交互來生成抽取規(guī)則。
[0049] (2)規(guī)整數(shù)據(jù)記錄
[0050] 規(guī)整數(shù)據(jù)記錄通常以規(guī)整的形式展示在web頁面上。這類數(shù)據(jù)記錄可能有多鐘變體。根據(jù)不同的展示格式，規(guī)整數(shù)據(jù)記錄可以被劃分為三類：基于行的數(shù)據(jù)記錄，基于列的數(shù)據(jù)記錄和基于網(wǎng)格的數(shù)據(jù)記錄。
[0051] 對于基于行的數(shù)據(jù)記錄，其抽象數(shù)據(jù)結(jié)構(gòu)與其背后的DOM樹結(jié)構(gòu)是一致的。這種數(shù)據(jù)記錄的結(jié)構(gòu)最為簡單?，F(xiàn)有的大多數(shù)自動web數(shù)據(jù)抽取系統(tǒng)能夠自動分析并抽取這種數(shù)據(jù)記錄?；诹械臄?shù)據(jù)記錄在其DOM樹上將垂直顯示。由于每個這樣的數(shù)據(jù)記錄由一組位于同一 DOM樹層次上的非兄弟節(jié)點構(gòu)成，因此增加了自動Web數(shù)據(jù)抽取系統(tǒng)分析和抽取這種數(shù)據(jù)記錄的難度?；诰W(wǎng)格的數(shù)據(jù)記錄是最難被自動分析和抽取的數(shù)據(jù)記錄。一組基于網(wǎng)格的數(shù)據(jù)記錄通?？梢员粍澐譃槎鄠€子組，每個子組中的數(shù)據(jù)記錄類似于基于列的數(shù)據(jù)記錄。
[0052] 數(shù)據(jù)記錄形式的多樣性為數(shù)據(jù)抽取規(guī)則的統(tǒng)一定義帶來了困難。為了提供充足的信息來指導(dǎo)系統(tǒng)正確地識別和抽取規(guī)整和非規(guī)整數(shù)據(jù)記錄，本發(fā)明將引入各種屬性和模式來定義抽取規(guī)則。
[0053] 為了執(zhí)行Web數(shù)據(jù)抽取，首先，我們將抽取展示在Web頁面上的數(shù)據(jù)源對象；然后，我們將包含在數(shù)據(jù)源對象中的數(shù)據(jù)集成到預(yù)先定義好的目標(biāo)數(shù)據(jù)結(jié)構(gòu)中從而形成目標(biāo)數(shù) 據(jù)對象。對于第一步，我們引入一個層次化的數(shù)據(jù)源對象模型。該模型包含三種類型的數(shù) 據(jù)源對象：數(shù)據(jù)區(qū)對象，數(shù)據(jù)記錄對象和數(shù)據(jù)項對象。每個數(shù)據(jù)區(qū)對象包含一個或多個數(shù)據(jù) 記錄對象。每個數(shù)據(jù)記錄對象包含一個或多個數(shù)據(jù)項對象。根據(jù)這一模型，我們將按照自頂向下的方式定義每個層次上的數(shù)據(jù)對象的抽取規(guī)則。
[0054] 數(shù)據(jù)集成模型
[0055] 為了闡述對頁面上抽取出的原始數(shù)據(jù)進行集成處理的思想，本發(fā)明借鑒數(shù)據(jù)倉庫中ETL (Extraction, Transformation and Loading)的設(shè)計思想來完成Web數(shù)據(jù)抽取過程中的數(shù)據(jù)集成處理，將ETL改變?yōu)镋TI模型，即抽取（Extraction)，轉(zhuǎn)換（Transformation) 和集成（Integration)處理過程和模型（如圖3)。抽?。‥xtraction)處理主要負責(zé)從Web 頁面中抽取出原始的展示結(jié)構(gòu)意義上的數(shù)據(jù)記錄和元素；然后由于展示結(jié)構(gòu)意義上的數(shù)據(jù) 記錄與最終應(yīng)用所需要的目標(biāo)結(jié)構(gòu)數(shù)據(jù)記錄間會存在差異，因此，轉(zhuǎn)換（Transformation) 處理將負責(zé)對這些原始數(shù)據(jù)記錄和元素進行過濾和轉(zhuǎn)換處理；最終，轉(zhuǎn)換出的數(shù)據(jù)將按照用戶預(yù)定義的目標(biāo)數(shù)據(jù)記錄結(jié)構(gòu)，通過集成（Integration)處理合并集成并輸出為目標(biāo)數(shù) 據(jù)記錄。為了提供復(fù)雜結(jié)構(gòu)目標(biāo)數(shù)據(jù)記錄對象的描述能力，目標(biāo)數(shù)據(jù)記錄對象采用基于XML 的層次式模型表不。
[0056] 1.頁面模型與Web信息抽取集成規(guī)則體系
[0057] 為了描述Web信息抽取過程中的瀏覽導(dǎo)航、數(shù)據(jù)抽取和數(shù)據(jù)集成三個部分的邏輯，我們引入一個頁面模型（page model)的概念。一個頁面模型實際上是與一個特定網(wǎng)頁對應(yīng)的規(guī)則容器，包含為該網(wǎng)頁所創(chuàng)建的有關(guān)瀏覽導(dǎo)航、數(shù)據(jù)抽取和數(shù)據(jù)集成各部分規(guī)則描述。每個頁面都需要有一個頁面模型（如圖4)，同一類型、但包含不同數(shù)據(jù)記錄的Web頁面可用同一個頁面模型來描述其所需的導(dǎo)航動作、抽取和集成規(guī)則。頁面模型主要包括三個部分：
[0058] (1)數(shù)據(jù)源對象及其抽取規(guī)則：記錄對應(yīng)頁面上用以抽取數(shù)據(jù)記錄的Web數(shù)據(jù)區(qū) 和數(shù)據(jù)源對象、以及用于數(shù)據(jù)抽取、瀏覽導(dǎo)航、以及流程控制的HTML控件和各種外部數(shù)據(jù) 源控件；為了保證規(guī)則語言的通用性，數(shù)據(jù)源對象采用XML語言進行定義和描述。該數(shù)據(jù)源對象實際上封裝了一系列用以抽取出指定的數(shù)據(jù)區(qū)域中的數(shù)據(jù)記錄的規(guī)則，包括各種抽取屬性（Attributes)和模式（Patterns)。
[0059] (2)數(shù)據(jù)集成規(guī)則：包含對頁面數(shù)據(jù)源對象中抽取出的原始數(shù)據(jù)進行轉(zhuǎn)換集成的邏輯和規(guī)則；為了提供靈活而強大的數(shù)據(jù)轉(zhuǎn)換和集成邏輯表示能力，數(shù)據(jù)集成規(guī)則將采用某種腳本語言來描述；
[0060] (3)瀏覽導(dǎo)航規(guī)則：如果當(dāng)前的目標(biāo)數(shù)據(jù)對象抽取還涉及到對后續(xù)被鏈接頁面上數(shù)據(jù)的抽取，則當(dāng)前的頁面模型中還需要定義這些后續(xù)的瀏覽導(dǎo)航鏈接對象和規(guī)則；為了保證規(guī)則語言的通用性，瀏覽導(dǎo)航鏈接對象和規(guī)則將基于XML語言進行定義和描述。
[0061] 2.數(shù)據(jù)源對象及其抽取規(guī)則的設(shè)計
[0062] 數(shù)據(jù)區(qū)對象
[0063] 為了抽取頁面上的數(shù)據(jù)記錄，我們首先定義數(shù)據(jù)區(qū)對象的抽取規(guī)則來指定頁面上包含一組數(shù)據(jù)記錄的區(qū)域。下面的規(guī)則示例給出了數(shù)據(jù)源對象抽取規(guī)則的框架描述。該抽取語言采用XML描述。總體上該抽取語言包含三個層次。第一層（對應(yīng)于標(biāo)簽〈DataRegion〉）用于定義數(shù)據(jù)區(qū)對象。第二層（對應(yīng)于標(biāo)簽〈Record〉）用于定義數(shù)據(jù)記錄對象。第三層（對應(yīng)于標(biāo)簽〈Item〉）用于定義數(shù)據(jù)項對象。
[0064]

【權(quán)利要求】
1. 一種全程化Web信息抽取集成方法，其特征在于包括以下基本步驟：第一步、網(wǎng)頁瀏覽導(dǎo)航--構(gòu)建自動記錄用戶訪問網(wǎng)頁導(dǎo)航鏈接一系列交互操作的導(dǎo) 航鏈接模型，同時編制實現(xiàn)回放該一系列交互操作的規(guī)則語言，從而實現(xiàn)自動重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接，為數(shù)據(jù)抽取奠定基礎(chǔ)；第二步、網(wǎng)頁數(shù)據(jù)抽取--重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接后，根據(jù)預(yù)定的抽取規(guī)則，抽取展示在Web頁面上的數(shù)據(jù)源對象；第三步、數(shù)據(jù)集成處理--將抽取出的數(shù)據(jù)源對象中的數(shù)據(jù)元素或數(shù)據(jù)按預(yù)定的目標(biāo) 數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成，形成目標(biāo)數(shù)據(jù)對象。
2. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法，其特征在于：第二步中，網(wǎng)頁數(shù)據(jù)抽取時，抽取的數(shù)據(jù)源對象為非規(guī)整數(shù)據(jù)和/或規(guī)整數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法，其特征在于：第二步中，執(zhí)行網(wǎng)頁數(shù)據(jù)抽取包括如下步驟：首先，抽取展示在Web頁面上的數(shù)據(jù)源對象；然后，將包含在數(shù)據(jù)源對象中的數(shù)據(jù)集成到預(yù)先定義好的目標(biāo)數(shù)據(jù)結(jié)構(gòu)中從而形成目標(biāo)數(shù)據(jù)對象。
4. 根據(jù)權(quán)利要求3所述的全程化Web信息抽取集成方法，其特征在于：抽取展示在Web 頁面上的數(shù)據(jù)源對象時,建立數(shù)據(jù)源對象模型，包含三種類型的數(shù)據(jù)源對象：數(shù)據(jù)區(qū)對象、數(shù)據(jù)記錄對象和數(shù)據(jù)項對象，每個數(shù)據(jù)區(qū)對象包含一個或多個數(shù)據(jù)記錄對象，每個數(shù)據(jù)記錄對象包含一個或多個數(shù)據(jù)項對象。
5. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法，其特征在于：第二步中，抽取展示在Web頁面上的數(shù)據(jù)源對象時，記錄對應(yīng)頁面上用以抽取數(shù)據(jù)記錄的Web數(shù)據(jù)區(qū)和數(shù) 據(jù)源對象、以及用于數(shù)據(jù)抽取、瀏覽導(dǎo)航、以及流程控制的HTML控件和各種外部數(shù)據(jù)源控件；數(shù)據(jù)源對象采用XML語言進行定義和描述；該數(shù)據(jù)源對象實際上封裝了用以抽取出指定的數(shù)據(jù)區(qū)域中的數(shù)據(jù)記錄的規(guī)則，包括各種抽取屬性（Attributes)和模式（Patterns)。
6. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法，其特征在于：第三步中，數(shù)據(jù) 集成處理中包含對頁面數(shù)據(jù)源對象中抽取出的原始數(shù)據(jù)進行轉(zhuǎn)換集成的邏輯和規(guī)則，數(shù)據(jù) 集成規(guī)則將采用某種腳本語言來描述。
【文檔編號】G06F17/30GK104408101SQ201410663862
【公開日】2015年3月11日申請日期:2014年11月19日優(yōu)先權(quán)日:2014年11月19日
【發(fā)明者】黃宜華, 施生生, 王海濤, 魏武, 羅雷, 袁春風(fēng) 申請人:南京大學(xué)

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃宜華;施生生;王海濤;魏武;羅雷;袁春風(fēng);
技術(shù)所有人：南京大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息化系統(tǒng)集成相關(guān)技術(shù)

信息化集成相關(guān)技術(shù)

智能化信息系統(tǒng)集成相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種全程化Web信息抽取集成方法