一種全程化Web信息抽取集成方法
【專利摘要】本發(fā)明涉及一種Web信息抽取集成方法,屬于計算機【技術(shù)領(lǐng)域】。該方法包括網(wǎng)頁瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取、數(shù)據(jù)集成處理步驟,能夠應(yīng)用于各種不同的Web信息采集和挖掘分析應(yīng)用,具有網(wǎng)頁自動瀏覽導(dǎo)航能力和抽取數(shù)據(jù)的集成處理能力,因此采用本發(fā)明后,可以滿足人們從Web中挖掘有價值的數(shù)據(jù)信息、完成深度價值發(fā)現(xiàn)的愿望。
【專利說明】一種全程化Web信息抽取集成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種信息抽取集成方法,尤其是一種Web信息抽取集成方法,屬于計 算機【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] Web是目前最大的信息發(fā)布和共享平臺,其中包含了大量有價值的數(shù)據(jù)信息。越 來越多的應(yīng)用希望能從Web上獲得這些有價值的數(shù)據(jù)信息,進一步完成深度的數(shù)據(jù)信息分 析,提供各種數(shù)據(jù)分析增值服務(wù)。
[0003] 然而,如何能從Web網(wǎng)頁上精確地獲取所感興趣的數(shù)據(jù)信息是一個較大的技術(shù)難 題。Web信息抽?。╓eb Inform全程化Web信息抽取集成方法tion Extr全程化Web信息 抽取集成方法ction)是研究解決相關(guān)技術(shù)和工具的新興研究領(lǐng)域。所謂Web信息抽取是 指從結(jié)構(gòu)化或半結(jié)構(gòu)化的網(wǎng)頁上抽取出用戶或應(yīng)用所感興趣的數(shù)據(jù),將其以結(jié)構(gòu)化的格式 導(dǎo)入數(shù)據(jù)庫中供進一步分析處理的過程。
[0004] 據(jù) 申請人:了解,在過去的十多年中,Web信息抽取技術(shù)已出現(xiàn)了一些系統(tǒng),例如 DEPT全程化WEB信息抽取集成方法、ViDE、MDR,ST全程化WEB信息抽取集成方法LKER, Lixto,DEByE等。但現(xiàn)有的Web信息抽取研究和系統(tǒng)基本上都僅僅集中對已獲取網(wǎng)頁的數(shù) 據(jù)抽取處理,而忽略了實際的Web信息抽取處理過程首先需要考慮的網(wǎng)頁自動瀏覽導(dǎo)航和 訪問問題,而且對抽取出的原始網(wǎng)頁數(shù)據(jù)的轉(zhuǎn)換和集成處理也缺少充分的考慮。這些僅僅 關(guān)注了中間的網(wǎng)頁數(shù)據(jù)抽取處理階段的現(xiàn)有技術(shù)離實際的Web信息抽取應(yīng)用需求還有很 大的距離。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于:針對上述現(xiàn)有技術(shù)(研究和系統(tǒng))存在的不足,提出一種包含 Web網(wǎng)頁自動瀏覽、網(wǎng)頁數(shù)據(jù)抽取、以及數(shù)據(jù)集成全程化Web信息抽取集成方法,進而基于 相應(yīng)的模型研究設(shè)計網(wǎng)頁自動瀏覽導(dǎo)航、網(wǎng)頁數(shù)據(jù)抽取與集成、以及Web信息抽取流程控 制技術(shù)和相應(yīng)的規(guī)則語言。
[0006] 研究表明,完整的Web信息抽取處理過程包含三個階段:1)網(wǎng)頁瀏覽導(dǎo)航,即系 統(tǒng)需要能在Web信息抽取處理過程中模擬用戶瀏覽網(wǎng)頁的行為自動導(dǎo)航和訪問到所感興 趣的網(wǎng)頁;2)網(wǎng)頁數(shù)據(jù)抽取,對于所訪問獲取的網(wǎng)頁,定制一定的抽取規(guī)則完成網(wǎng)頁數(shù)據(jù) 元素的抽取處理;3)數(shù)據(jù)集成,即對于抽取出的原始網(wǎng)頁數(shù)據(jù)元素進行轉(zhuǎn)換、過濾和集成 后處理。在實際的Web信息抽取處理過程中,一個重要問題是如何能讓系統(tǒng)模仿人的瀏覽 導(dǎo)航行為,自動瀏覽并訪問到所感興趣的網(wǎng)頁。獲得所需網(wǎng)頁后,主要技術(shù)問題則是如何有 效地在網(wǎng)頁上指定和描述所要抽取的具體數(shù)據(jù)元素或數(shù)據(jù)記錄。為此,需要引入網(wǎng)頁數(shù)據(jù) 抽取規(guī)則。另外,網(wǎng)頁上所抽取出來的原始數(shù)據(jù)元素和記錄通常是沒有結(jié)構(gòu)語義的,至多反 應(yīng)的是一種網(wǎng)頁展現(xiàn)結(jié)構(gòu)語義,這種網(wǎng)頁展現(xiàn)結(jié)構(gòu)語義與Web抽取應(yīng)用所需要的目標(biāo)結(jié)構(gòu) 語義之間存在一個差異和鴻溝;為了消除這種差異和鴻溝,Web信息抽取處理必須提供數(shù) 據(jù)轉(zhuǎn)換、過濾、映射和集成處理的能力。更為復(fù)雜的情形是,一個復(fù)雜數(shù)據(jù)記錄可能會顯示 在多個關(guān)聯(lián)網(wǎng)頁上。因此,進行Web信息抽取時需要自動完成這些關(guān)聯(lián)網(wǎng)頁的鏈接跳轉(zhuǎn),并 且能依據(jù)這些數(shù)據(jù)網(wǎng)頁的鏈接關(guān)系保持正確的數(shù)據(jù)關(guān)系,以便最終完成完整數(shù)據(jù)記錄的抽 取和集成處理。
[0007] 為了達到以上目的,本發(fā)明的全程化Web信息抽取集成方法包括以下基本步驟:
[0008] 第一步、網(wǎng)頁瀏覽導(dǎo)航--構(gòu)建自動記錄用戶訪問網(wǎng)頁導(dǎo)航鏈接一系列交互操作 的導(dǎo)航鏈接模型,同時編制實現(xiàn)回放該一系列交互操作的規(guī)則語言,從而實現(xiàn)自動重復(fù)對 用戶訪問網(wǎng)頁的導(dǎo)航鏈接,為數(shù)據(jù)抽取奠定基礎(chǔ);
[0009] 第二步、網(wǎng)頁數(shù)據(jù)抽取--重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接后,根據(jù)預(yù)定的抽取 規(guī)則,抽取展示在Web頁面上的數(shù)據(jù)源對象;
[0010] 第三步、數(shù)據(jù)集成處理一將抽取出的數(shù)據(jù)源對象中的數(shù)據(jù)元素或數(shù)據(jù)按預(yù)定的 目標(biāo)數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成,形成目標(biāo)數(shù)據(jù)對象。
[0011] 本發(fā)明技術(shù)方案的進一步限定為,第二步中,網(wǎng)頁數(shù)據(jù)抽取時,抽取的數(shù)據(jù)源對 象為非規(guī)整數(shù)據(jù)和/或規(guī)整數(shù)據(jù)。
[0012] 進一步地,第二步中,執(zhí)行網(wǎng)頁數(shù)據(jù)抽取包括如下步驟:首先,抽取展示在Web頁 面上的數(shù)據(jù)源對象;然后,將包含在數(shù)據(jù)源對象中的數(shù)據(jù)集成到預(yù)先定義好的目標(biāo)數(shù)據(jù)結(jié) 構(gòu)中從而形成目標(biāo)數(shù)據(jù)對象。
[0013] 進一步地,抽取展示在Web頁面上的數(shù)據(jù)源對象時,建立數(shù)據(jù)源對象模型,包含三 種類型的數(shù)據(jù)源對象:數(shù)據(jù)區(qū)對象、數(shù)據(jù)記錄對象和數(shù)據(jù)項對象,每個數(shù)據(jù)區(qū)對象包含一個 或多個數(shù)據(jù)記錄對象,每個數(shù)據(jù)記錄對象包含一個或多個數(shù)據(jù)項對象。
[0014] 進一步地,第二步中,抽取展示在Web頁面上的數(shù)據(jù)源對象時,記錄對應(yīng)頁面上用 以抽取數(shù)據(jù)記錄的Web數(shù)據(jù)區(qū)和數(shù)據(jù)源對象、以及用于數(shù)據(jù)抽取、瀏覽導(dǎo)航、以及流程控制 的HTML控件和各種外部數(shù)據(jù)源控件;數(shù)據(jù)源對象采用XML語言進行定義和描述。該數(shù)據(jù) 源對象實際上封裝了用以抽取出指定的數(shù)據(jù)區(qū)域中的數(shù)據(jù)記錄的規(guī)則,包括各種抽取屬性 (Attributes)和模式(Patterns)。
[0015] 進一步地,第三步中,數(shù)據(jù)集成處理中包含對頁面數(shù)據(jù)源對象中抽取出的原始數(shù) 據(jù)進行轉(zhuǎn)換集成的邏輯和規(guī)則,數(shù)據(jù)集成規(guī)則將采用某種腳本語言來描述
[0016] 本發(fā)明設(shè)計完成的全過程化Web信息抽取集成方法能夠應(yīng)用于各種不同的Web信 息采集和挖掘分析應(yīng)用,具有網(wǎng)頁自動瀏覽導(dǎo)航能力和抽取數(shù)據(jù)的集成處理能力,因此采 用本發(fā)明后,可以滿足人們從Web中挖掘有價值的數(shù)據(jù)信息、完成深度價值發(fā)現(xiàn)的愿望。
【專利附圖】
【附圖說明】
[0017] 下面結(jié)合附圖對本發(fā)明作進一步的說明。
[0018] 圖1為本發(fā)明一個實施例的全程化Web信息抽取集成方法的流程圖;
[0019] 圖2為實施例1中的Web數(shù)據(jù)記錄模型;
[0020] 圖3為實施例1中的Web信息抽取集成ETI模型;
[0021] 圖4為實施例1中的頁面模型與Web信息抽取集成規(guī)則體系模型;
[0022] 圖5為實施例1中包含基于網(wǎng)格的數(shù)據(jù)記錄的Web頁面;
[0023] 圖6為實施例1中基于跨頁面鏈接關(guān)系的數(shù)據(jù)記錄網(wǎng)頁示例;
[0024] 圖7為實施例1中瀏覽導(dǎo)航規(guī)則模型;
[0025] 圖8為實施例1中跨頁面嵌套記錄的集成規(guī)則和集成后的目標(biāo)數(shù)據(jù)記錄的XML結(jié) 構(gòu);
[0026] 圖9為實施例1中數(shù)據(jù)抽取和"一對多"集成轉(zhuǎn)換規(guī)則示例。
【具體實施方式】
[0027] 實施例一
[0028] 本實施例的全程化Web信息抽取集成方法,包括以下基本步驟:
[0029] 第一步、網(wǎng)頁瀏覽導(dǎo)航--構(gòu)建自動記錄用戶訪問網(wǎng)頁導(dǎo)航鏈接一系列交互操作 的導(dǎo)航鏈接模型,同時編制實現(xiàn)回放該一系列交互操作的規(guī)則語言,從而實現(xiàn)自動重復(fù)對 用戶訪問網(wǎng)頁的導(dǎo)航鏈接,為數(shù)據(jù)抽取奠定基礎(chǔ);
[0030] 第二步、網(wǎng)頁數(shù)據(jù)抽取--重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接后,根據(jù)預(yù)定的抽取 規(guī)則,抽取展示在Web頁面上的數(shù)據(jù)源對象;
[0031] 第三步、數(shù)據(jù)集成處理--將抽取出的數(shù)據(jù)源對象中的數(shù)據(jù)元素或數(shù)據(jù)按預(yù)定的 目標(biāo)數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成,形成目標(biāo)數(shù)據(jù)對象。
[0032] 下面對三個基本步驟做詳細的介紹。
[0033] 1、全過程Web信息抽取模型
[0034] 三階段Web信息抽取集成模型
[0035] 從信息處理的抽象層面看,如圖1所示,一個完整的Web信息抽取過程應(yīng)當(dāng)包括網(wǎng) 頁獲?。醋詣訛g覽導(dǎo)航)、網(wǎng)頁數(shù)據(jù)抽取處理(包括自動或半自動分析方法以及手工交互 生成抽取規(guī)則)、以及集成后處理三個主要階段。
[0036] (1)網(wǎng)頁瀏覽導(dǎo)航階段:一個完整的Web信息抽取系統(tǒng)首先需要提供這種網(wǎng)頁自 動瀏覽導(dǎo)航能力,即在Web信息抽取過程中能模仿用戶在瀏覽器中人工的網(wǎng)頁交互和瀏覽 導(dǎo)航動作,以便系統(tǒng)自動訪問和獲取所需要的網(wǎng)頁。為此,需要抽象并提供一種用戶網(wǎng)頁交 互和瀏覽導(dǎo)航模型,并最終提供一種網(wǎng)頁交互動作和瀏覽導(dǎo)航規(guī)則語言以描述和刻畫出這 種網(wǎng)頁交互和瀏覽導(dǎo)航動作,然后在Web信息抽取處理過程中,執(zhí)行該規(guī)則語言,以便回放 所描述的網(wǎng)頁交互和瀏覽導(dǎo)航動作,完成網(wǎng)頁的自動訪問和獲取。
[0037] (2)網(wǎng)頁數(shù)據(jù)抽取階段:獲得數(shù)據(jù)網(wǎng)頁后,需要為每個數(shù)據(jù)網(wǎng)頁定制數(shù)據(jù)抽取規(guī) 貝U,以便從網(wǎng)頁上抽取出特定區(qū)域中所包含的特定數(shù)據(jù)元素或數(shù)據(jù)記錄;對包含規(guī)整數(shù)據(jù) 記錄的頁面可采用自動結(jié)構(gòu)分析方法生成抽取規(guī)則,對非規(guī)整頁面可采用基于交互的半自 動化規(guī)則生成方法完成。
[0038] (3)數(shù)據(jù)集成處理階段:抽取出來的網(wǎng)頁數(shù)據(jù)元素或數(shù)據(jù)記錄需要按照所定義的 目標(biāo)信息實體結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成處理,生成一組目標(biāo)數(shù)據(jù)記錄。為此需要提供有效 的數(shù)據(jù)集成模型和數(shù)據(jù)轉(zhuǎn)換規(guī)則語言以便用戶刻畫出各種數(shù)據(jù)轉(zhuǎn)換和集成邏輯。
[0039] 因此,一個完整的Web信息抽取系統(tǒng)必須基于以上的三階段完整模型來設(shè)計整個 系統(tǒng),提供從網(wǎng)頁自動獲取、到網(wǎng)頁數(shù)據(jù)抽取和集成處理的綜合規(guī)則體系和規(guī)則語言,并最 終得到完整和一體化的執(zhí)行和處理。
[0040] 網(wǎng)頁交互和瀏覽導(dǎo)航模型
[0041] Web頁面的復(fù)雜性、交互性和數(shù)據(jù)動態(tài)性通常使得難以通過簡單的URL鏈接來獲 取Web頁面。因此,為了刻畫Web信息抽取過程中的網(wǎng)頁自動瀏覽導(dǎo)航邏輯,我們首先需要 對用戶在瀏覽器中以人工方式進行網(wǎng)頁交互和瀏覽導(dǎo)航的行為動作進行抽象,然后建立一 個網(wǎng)頁自動交互和瀏覽導(dǎo)航的抽象模型,并進一步定義和提供一種瀏覽導(dǎo)航規(guī)則語言,以 描述和刻畫出準(zhǔn)確的瀏覽導(dǎo)航邏輯。
[0042] 為了刻畫一個網(wǎng)頁間的鏈接跳轉(zhuǎn),首先定義一個"導(dǎo)航鏈接模型",該模型主要刻 畫完成一個導(dǎo)航鏈接所包含的一系列交互操作,我們將執(zhí)行Web瀏覽導(dǎo)航的每個交互動作 稱為瀏覽導(dǎo)航動作。
[0043] -個導(dǎo)航鏈接L包含一組瀏覽導(dǎo)航動作序列(Action Sequence, AS),我們用 L(AS)來表示這個導(dǎo)航鏈接。從抽象層面看,一個完整的Web數(shù)據(jù)抽取任務(wù)將由一系列導(dǎo)航 鏈接組合而成。
[0044] 每個瀏覽導(dǎo)航動作實際上就是對一個網(wǎng)頁控件進行的某種交互操作,通常包含一 個或多個具體的控件設(shè)置動作,如設(shè)置文本框文本值,選中一個或多個復(fù)選按鈕等。每個瀏 覽導(dǎo)航動作包括控件描述和定位信息、瀏覽導(dǎo)航和交互動作描述、以及控件操作參數(shù)。一個 導(dǎo)航鏈接可包含一至多個上述的瀏覽導(dǎo)航動作。除此以外,一個導(dǎo)航鏈接還指定當(dāng)跳轉(zhuǎn)到 目標(biāo)頁面后所對應(yīng)的目標(biāo)頁面模型是什么。
[0045] Web數(shù)據(jù)記錄與數(shù)據(jù)源對象模型
[0046] Web頁面上的數(shù)據(jù)記錄有多種可能的組織形式。根據(jù)Web數(shù)據(jù)記錄結(jié)構(gòu)的規(guī)整性, 我們將Web數(shù)據(jù)記錄分為兩類:規(guī)整數(shù)據(jù)記錄和非規(guī)整數(shù)據(jù)記錄(見圖2)。
[0047] (1)非規(guī)整數(shù)據(jù)記錄
[0048] 包含在非規(guī)整數(shù)據(jù)記錄中的數(shù)據(jù)項經(jīng)常隨機地分布在web頁面上。因此我們通常 不能從Web頁面上規(guī)整的區(qū)域抽取出這種記錄的數(shù)據(jù)項。對于此類數(shù)據(jù)記錄,我們需要直 接基于用戶交互來生成抽取規(guī)則。
[0049] (2)規(guī)整數(shù)據(jù)記錄
[0050] 規(guī)整數(shù)據(jù)記錄通常以規(guī)整的形式展示在web頁面上。這類數(shù)據(jù)記錄可能有多鐘變 體。根據(jù)不同的展示格式,規(guī)整數(shù)據(jù)記錄可以被劃分為三類:基于行的數(shù)據(jù)記錄,基于列的 數(shù)據(jù)記錄和基于網(wǎng)格的數(shù)據(jù)記錄。
[0051] 對于基于行的數(shù)據(jù)記錄,其抽象數(shù)據(jù)結(jié)構(gòu)與其背后的DOM樹結(jié)構(gòu)是一致的。這種 數(shù)據(jù)記錄的結(jié)構(gòu)最為簡單?,F(xiàn)有的大多數(shù)自動web數(shù)據(jù)抽取系統(tǒng)能夠自動分析并抽取這 種數(shù)據(jù)記錄?;诹械臄?shù)據(jù)記錄在其DOM樹上將垂直顯示。由于每個這樣的數(shù)據(jù)記錄由一 組位于同一 DOM樹層次上的非兄弟節(jié)點構(gòu)成,因此增加了自動Web數(shù)據(jù)抽取系統(tǒng)分析和抽 取這種數(shù)據(jù)記錄的難度?;诰W(wǎng)格的數(shù)據(jù)記錄是最難被自動分析和抽取的數(shù)據(jù)記錄。一組 基于網(wǎng)格的數(shù)據(jù)記錄通??梢员粍澐譃槎鄠€子組,每個子組中的數(shù)據(jù)記錄類似于基于列的 數(shù)據(jù)記錄。
[0052] 數(shù)據(jù)記錄形式的多樣性為數(shù)據(jù)抽取規(guī)則的統(tǒng)一定義帶來了困難。為了提供充足的 信息來指導(dǎo)系統(tǒng)正確地識別和抽取規(guī)整和非規(guī)整數(shù)據(jù)記錄,本發(fā)明將引入各種屬性和模式 來定義抽取規(guī)則。
[0053] 為了執(zhí)行Web數(shù)據(jù)抽取,首先,我們將抽取展示在Web頁面上的數(shù)據(jù)源對象;然后, 我們將包含在數(shù)據(jù)源對象中的數(shù)據(jù)集成到預(yù)先定義好的目標(biāo)數(shù)據(jù)結(jié)構(gòu)中從而形成目標(biāo)數(shù) 據(jù)對象。對于第一步,我們引入一個層次化的數(shù)據(jù)源對象模型。該模型包含三種類型的數(shù) 據(jù)源對象:數(shù)據(jù)區(qū)對象,數(shù)據(jù)記錄對象和數(shù)據(jù)項對象。每個數(shù)據(jù)區(qū)對象包含一個或多個數(shù)據(jù) 記錄對象。每個數(shù)據(jù)記錄對象包含一個或多個數(shù)據(jù)項對象。根據(jù)這一模型,我們將按照自 頂向下的方式定義每個層次上的數(shù)據(jù)對象的抽取規(guī)則。
[0054] 數(shù)據(jù)集成模型
[0055] 為了闡述對頁面上抽取出的原始數(shù)據(jù)進行集成處理的思想,本發(fā)明借鑒數(shù)據(jù)倉庫 中ETL (Extraction, Transformation and Loading)的設(shè)計思想來完成Web數(shù)據(jù)抽取過程 中的數(shù)據(jù)集成處理,將ETL改變?yōu)镋TI模型,即抽取(Extraction),轉(zhuǎn)換(Transformation) 和集成(Integration)處理過程和模型(如圖3)。抽?。‥xtraction)處理主要負責(zé)從Web 頁面中抽取出原始的展示結(jié)構(gòu)意義上的數(shù)據(jù)記錄和元素;然后由于展示結(jié)構(gòu)意義上的數(shù)據(jù) 記錄與最終應(yīng)用所需要的目標(biāo)結(jié)構(gòu)數(shù)據(jù)記錄間會存在差異,因此,轉(zhuǎn)換(Transformation) 處理將負責(zé)對這些原始數(shù)據(jù)記錄和元素進行過濾和轉(zhuǎn)換處理;最終,轉(zhuǎn)換出的數(shù)據(jù)將按照 用戶預(yù)定義的目標(biāo)數(shù)據(jù)記錄結(jié)構(gòu),通過集成(Integration)處理合并集成并輸出為目標(biāo)數(shù) 據(jù)記錄。為了提供復(fù)雜結(jié)構(gòu)目標(biāo)數(shù)據(jù)記錄對象的描述能力,目標(biāo)數(shù)據(jù)記錄對象采用基于XML 的層次式模型表不。
[0056] 1.頁面模型與Web信息抽取集成規(guī)則體系
[0057] 為了描述Web信息抽取過程中的瀏覽導(dǎo)航、數(shù)據(jù)抽取和數(shù)據(jù)集成三個部分的邏 輯,我們引入一個頁面模型(page model)的概念。一個頁面模型實際上是與一個特定網(wǎng)頁 對應(yīng)的規(guī)則容器,包含為該網(wǎng)頁所創(chuàng)建的有關(guān)瀏覽導(dǎo)航、數(shù)據(jù)抽取和數(shù)據(jù)集成各部分規(guī)則 描述。每個頁面都需要有一個頁面模型(如圖4),同一類型、但包含不同數(shù)據(jù)記錄的Web頁 面可用同一個頁面模型來描述其所需的導(dǎo)航動作、抽取和集成規(guī)則。頁面模型主要包括三 個部分:
[0058] (1)數(shù)據(jù)源對象及其抽取規(guī)則:記錄對應(yīng)頁面上用以抽取數(shù)據(jù)記錄的Web數(shù)據(jù)區(qū) 和數(shù)據(jù)源對象、以及用于數(shù)據(jù)抽取、瀏覽導(dǎo)航、以及流程控制的HTML控件和各種外部數(shù)據(jù) 源控件;為了保證規(guī)則語言的通用性,數(shù)據(jù)源對象采用XML語言進行定義和描述。該數(shù)據(jù)源 對象實際上封裝了一系列用以抽取出指定的數(shù)據(jù)區(qū)域中的數(shù)據(jù)記錄的規(guī)則,包括各種抽取 屬性(Attributes)和模式(Patterns)。
[0059] (2)數(shù)據(jù)集成規(guī)則:包含對頁面數(shù)據(jù)源對象中抽取出的原始數(shù)據(jù)進行轉(zhuǎn)換集成的 邏輯和規(guī)則;為了提供靈活而強大的數(shù)據(jù)轉(zhuǎn)換和集成邏輯表示能力,數(shù)據(jù)集成規(guī)則將采用 某種腳本語言來描述;
[0060] (3)瀏覽導(dǎo)航規(guī)則:如果當(dāng)前的目標(biāo)數(shù)據(jù)對象抽取還涉及到對后續(xù)被鏈接頁面上 數(shù)據(jù)的抽取,則當(dāng)前的頁面模型中還需要定義這些后續(xù)的瀏覽導(dǎo)航鏈接對象和規(guī)則;為了 保證規(guī)則語言的通用性,瀏覽導(dǎo)航鏈接對象和規(guī)則將基于XML語言進行定義和描述。
[0061] 2.數(shù)據(jù)源對象及其抽取規(guī)則的設(shè)計
[0062] 數(shù)據(jù)區(qū)對象
[0063] 為了抽取頁面上的數(shù)據(jù)記錄,我們首先定義數(shù)據(jù)區(qū)對象的抽取規(guī)則來指定頁 面上包含一組數(shù)據(jù)記錄的區(qū)域。下面的規(guī)則示例給出了數(shù)據(jù)源對象抽取規(guī)則的框架描 述。該抽取語言采用XML描述。總體上該抽取語言包含三個層次。第一層(對應(yīng)于標(biāo)簽 〈DataRegion〉)用于定義數(shù)據(jù)區(qū)對象。第二層(對應(yīng)于標(biāo)簽〈Record〉)用于定義數(shù)據(jù)記錄 對象。第三層(對應(yīng)于標(biāo)簽〈Item〉)用于定義數(shù)據(jù)項對象。
[0064]
【權(quán)利要求】
1. 一種全程化Web信息抽取集成方法,其特征在于包括以下基本步驟: 第一步、網(wǎng)頁瀏覽導(dǎo)航--構(gòu)建自動記錄用戶訪問網(wǎng)頁導(dǎo)航鏈接一系列交互操作的導(dǎo) 航鏈接模型,同時編制實現(xiàn)回放該一系列交互操作的規(guī)則語言,從而實現(xiàn)自動重復(fù)對用戶 訪問網(wǎng)頁的導(dǎo)航鏈接,為數(shù)據(jù)抽取奠定基礎(chǔ); 第二步、網(wǎng)頁數(shù)據(jù)抽取--重復(fù)對用戶訪問網(wǎng)頁的導(dǎo)航鏈接后,根據(jù)預(yù)定的抽取規(guī)則, 抽取展示在Web頁面上的數(shù)據(jù)源對象; 第三步、數(shù)據(jù)集成處理--將抽取出的數(shù)據(jù)源對象中的數(shù)據(jù)元素或數(shù)據(jù)按預(yù)定的目標(biāo) 數(shù)據(jù)結(jié)構(gòu)進行轉(zhuǎn)換、過濾和集成,形成目標(biāo)數(shù)據(jù)對象。
2. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,網(wǎng)頁 數(shù)據(jù)抽取時,抽取的數(shù)據(jù)源對象為非規(guī)整數(shù)據(jù)和/或規(guī)整數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,執(zhí)行 網(wǎng)頁數(shù)據(jù)抽取包括如下步驟:首先,抽取展示在Web頁面上的數(shù)據(jù)源對象;然后,將包含在 數(shù)據(jù)源對象中的數(shù)據(jù)集成到預(yù)先定義好的目標(biāo)數(shù)據(jù)結(jié)構(gòu)中從而形成目標(biāo)數(shù)據(jù)對象。
4. 根據(jù)權(quán)利要求3所述的全程化Web信息抽取集成方法,其特征在于:抽取展示在Web 頁面上的數(shù)據(jù)源對象時,建立數(shù)據(jù)源對象模型,包含三種類型的數(shù)據(jù)源對象:數(shù)據(jù)區(qū)對象、 數(shù)據(jù)記錄對象和數(shù)據(jù)項對象,每個數(shù)據(jù)區(qū)對象包含一個或多個數(shù)據(jù)記錄對象,每個數(shù)據(jù)記 錄對象包含一個或多個數(shù)據(jù)項對象。
5. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法,其特征在于:第二步中,抽取 展示在Web頁面上的數(shù)據(jù)源對象時,記錄對應(yīng)頁面上用以抽取數(shù)據(jù)記錄的Web數(shù)據(jù)區(qū)和數(shù) 據(jù)源對象、以及用于數(shù)據(jù)抽取、瀏覽導(dǎo)航、以及流程控制的HTML控件和各種外部數(shù)據(jù)源控 件;數(shù)據(jù)源對象采用XML語言進行定義和描述; 該數(shù)據(jù)源對象實際上封裝了用以抽取出指定的數(shù)據(jù)區(qū)域中的數(shù)據(jù)記錄的規(guī)則,包括 各種抽取屬性(Attributes)和模式(Patterns)。
6. 根據(jù)權(quán)利要求1所述的全程化Web信息抽取集成方法,其特征在于:第三步中,數(shù)據(jù) 集成處理中包含對頁面數(shù)據(jù)源對象中抽取出的原始數(shù)據(jù)進行轉(zhuǎn)換集成的邏輯和規(guī)則,數(shù)據(jù) 集成規(guī)則將采用某種腳本語言來描述。
【文檔編號】G06F17/30GK104408101SQ201410663862
【公開日】2015年3月11日 申請日期:2014年11月19日 優(yōu)先權(quán)日:2014年11月19日
【發(fā)明者】黃宜華, 施生生, 王海濤, 魏武, 羅雷, 袁春風(fēng) 申請人:南京大學(xué)