專利名稱:網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機科學(xué)技術(shù)領(lǐng)域語義網(wǎng)絡(luò)分支,具體涉及一種網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方 法,適用于網(wǎng)絡(luò)信息提取、全文搜索和語義搜索、商業(yè)情報挖掘、信息聚合、網(wǎng)絡(luò)知識庫建 立等應(yīng)用領(lǐng)域。
背景技術(shù):
隨著Internet和Web的長足發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長,人們除了從傳統(tǒng)媒介上 獲取知識和信息以外,越來越習(xí)慣于在網(wǎng)絡(luò)上尋求幫助,全文搜索技術(shù)實現(xiàn)了人們檢索網(wǎng)絡(luò) 信息的愿望,只要輸入幾個關(guān)鍵字,就可以迅速地獲得含有這幾個關(guān)鍵字的信息。然而,即 使有了搜索工具,人們還是感受到自己慢慢地在網(wǎng)絡(luò)信息海洋中迷失了方向,找到自己關(guān)心 的信息和知識變得越來越困難,因為遭受越來越多的不相干的噪音信息所干擾,這些信息包 含査找的關(guān)鍵字,但是內(nèi)容是不相干的。人們希望出現(xiàn)一種智能工具,根據(jù)用戶的意愿幫助 人們擯除噪音,篩選出真正需要的信息來。自計算機發(fā)明以來,社會生產(chǎn)力大大提高,它將 人類從單調(diào)的繁雜的程式化的勞動中解放出來,使人們專注于創(chuàng)造性的活動,網(wǎng)絡(luò)信息搜索 也是由計算機承擔(dān)的,因此,人們自然而然的想到改進計算機算法,使其變成人們的智能信 息助理。
人工智能的研究有著悠久的歷史,甚至在計算機出現(xiàn)之前,人們就在嘗試人造的智能活 動。用人工智能幫助人們在網(wǎng)絡(luò)上尋找目標信息是最理想的方法,人只有一個大腦用于思考, 如果有了很多人造大腦在網(wǎng)絡(luò)上進行思考并篩選信息,顯然效率和效能是倍增的。然而從學(xué) 術(shù)性的和技術(shù)性的實驗結(jié)果推測,實現(xiàn)這種理想愿望還比較遙遠。
實際上,計算機對信息的處理并不局限于知識理解,例如,數(shù)據(jù)庫技術(shù)發(fā)展到今天已經(jīng) 相當(dāng)成熟了,幾乎應(yīng)用于現(xiàn)代所有的生產(chǎn)活動中。從表面上看,數(shù)據(jù)庫具有相當(dāng)高的智能, 例如,在數(shù)據(jù)庫表中存了一串?dāng)?shù)字,數(shù)據(jù)庫系統(tǒng)知道這串?dāng)?shù)字是一個電話號碼,它就不會當(dāng) 成日期或者商品數(shù)量進行處理,看起來它理解了這串?dāng)?shù)字的含義。從深層次的技術(shù)實現(xiàn)角度 看,它是從數(shù)據(jù)庫中的語義結(jié)構(gòu)信息(即數(shù)據(jù)庫的Schema)中獲得了指示,它并不是像人 類思維一樣根據(jù)語義環(huán)境將這串?dāng)?shù)字理解成電話號碼,而是數(shù)據(jù)庫Schema規(guī)定它這樣使用 的。由此可見語義結(jié)構(gòu)在信息處理領(lǐng)域的重要性,可以想象如果網(wǎng)絡(luò)頁面上有語義結(jié)構(gòu)信息,即使計算機不知道一串號碼能夠干什么,當(dāng)用戶搜索電話號碼時搜索系統(tǒng)不會塞給用戶一堆 商品統(tǒng)計數(shù)量。
但是,現(xiàn)有網(wǎng)絡(luò)上的絕大多數(shù)信息是呈現(xiàn)給人們閱讀的,傳送到用戶終端上的信息是使 用HTML排版的,里面絕大多數(shù)是排版信息(跟排版有關(guān)的語義),卻少有關(guān)于內(nèi)容的語義 信息。就像專家總結(jié)的對于內(nèi)容語義而言,現(xiàn)有的網(wǎng)絡(luò)信息是無結(jié)構(gòu)的或者是弱結(jié)構(gòu)的。 可見,如果把這些信息的有關(guān)內(nèi)容的語義結(jié)構(gòu)識別和提取出來,現(xiàn)有的Web就變成了一個巨 大的數(shù)據(jù)庫,它至少能夠分清一串?dāng)?shù)字是電話號碼還是商品數(shù)量。然而,網(wǎng)絡(luò)不像一個單一 的商業(yè)數(shù)據(jù)庫,它為人類生活方方面面提供服務(wù),因此,為現(xiàn)有的網(wǎng)絡(luò)信息建立語義結(jié)構(gòu)不 是一蹴而就的事, 一種解決方案是人們各自將感興趣的領(lǐng)域的語義結(jié)構(gòu)定義出來, 一開始這 些領(lǐng)域語義結(jié)構(gòu)之間是不相通的孤島,隨著語義結(jié)構(gòu)的延展和生長,孤島將逐漸打通,形成 一張所謂的語義網(wǎng)絡(luò),理想情況下,這張網(wǎng)絡(luò)覆蓋了網(wǎng)絡(luò)信息內(nèi)容的所有語義范圍。
本發(fā)明公開了一種方法和裝置,它能夠使所有熱衷于網(wǎng)絡(luò)語義結(jié)構(gòu)定義和知識整理的人 們投入到語義網(wǎng)絡(luò)的建設(shè)中來,本發(fā)明定義和識別出的網(wǎng)絡(luò)頁面信息的語義結(jié)構(gòu)可以被信息 提取、全文搜索和語義搜索、商業(yè)情報挖掘、信息聚合、網(wǎng)絡(luò)知識庫等系統(tǒng)使用,為用戶生 成更準確的結(jié)果信息。
發(fā)明內(nèi)容
本發(fā)明公開了一種網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法和裝置,根據(jù)本發(fā)明的一個方面,提供了 一種網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法,所述語義結(jié)構(gòu)包括網(wǎng)絡(luò)頁面信息內(nèi)容的多個語義相關(guān)的語 義注解、被注解的信息的屬性、語義注解之間的關(guān)系,其特征在于,所述方法包括以下步驟
(1)定義樣本頁面的所述語義結(jié)構(gòu),在系統(tǒng)內(nèi)部存儲成語義結(jié)構(gòu)樹;
(2 )生成語義樹識別指令和語義樹合法性識別指令;
(3) 驗證語義樹識別指令和語義樹合法性識別指令的有效性;
(4) 將語義結(jié)構(gòu)描述文件和語義樹識別指令文件和語義樹合法性識別文件存儲到外存 儲器。
根據(jù)本發(fā)明的另一個方面,提供了一種網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別的裝置,所述語義結(jié)構(gòu)包 括網(wǎng)絡(luò)頁面信息內(nèi)容的多個語義相關(guān)的語義注解、被注解的信息的屬性、語義注解之間的關(guān)
系,其特征在于,所述裝置包括
5語義結(jié)構(gòu)編輯單元,用于創(chuàng)建和編輯所述語義結(jié)構(gòu)樹;
樣本語義信息塊拾取單元,用于選取樣本頁面上的樣本信息塊,為每個樣本語義信息塊 建立信息內(nèi)容與所述語義結(jié)構(gòu)樹中的節(jié)點之間的對應(yīng)關(guān)系;
語義結(jié)構(gòu)識別指令生成單元,用于計算樣本語義信息塊的位置和重現(xiàn)參數(shù),產(chǎn)生所述語 義樹識別指令和所述語義樹合法性識別指令;
語義樹識別驗證單元,用于驗證識別出來的語義信息塊是否符合所述語義樹的形狀特征 和所述語義樹節(jié)點的屬性要求;
指令文件和語義結(jié)構(gòu)文件讀寫管理單元,用于將內(nèi)存中的所述語義樹識別指令和所述語 義樹合法性識別指令和所述語義結(jié)構(gòu)樹組織成文件,存儲到所述外存儲器上。
圖1展示了一個語義結(jié)構(gòu)樹的例子,圖1A是樣本語義信息塊示意圖,圖1B是對應(yīng)的語 義結(jié)構(gòu)樹
圖2是根據(jù)本發(fā)明的一個實施例的網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法的流程圖 圖3是根據(jù)本發(fā)明的一個實施例的生成語義樹識別指令和語義樹合法性識別指令的方法 的流程圖
圖4是根據(jù)本發(fā)明的一個實施例的網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別裝置的分解圖
具體實施例方式
下面結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行詳細的說明。
網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法
在網(wǎng)絡(luò)頁面上,充斥很多與頁面主題內(nèi)容不相關(guān)的信息,例如,廣告等,有用的信息和 知識只存在于頁面的某些區(qū)域中,在下文中,我們稱這些區(qū)域為語義信息塊。 一般在一個頁 面上有很多語義信息塊,而且其語義結(jié)構(gòu)可能不同,分別表達不同的含義,例如圖1A,在博 客頁面的某個區(qū)域的一組信息表達博主個人資料,它具有語義結(jié)構(gòu)A;在另外一個區(qū)域是博 主發(fā)表的一系列博文,有n個語義信息塊,它們具有語義結(jié)構(gòu)B,本發(fā)明的優(yōu)選實施例能夠 準確全面地將符合語義結(jié)構(gòu)A和語義結(jié)構(gòu)B的語義信息塊識別出來,并輸出語義樹識別指令文件和語義樹合法性識別指令文件,這些文件可以指導(dǎo)其他系統(tǒng)提取出有語義結(jié)構(gòu)的信息。
圖IB是針對這個樣本頁面創(chuàng)建的兩個語義結(jié)構(gòu)樹,語義樹是多叉多層樹,每個節(jié)點附 帶一組屬性值,對節(jié)點代表的語義進行修飾,本發(fā)明的優(yōu)選實施例可以對節(jié)點的取值類型、 取值范圍、語義類型進行修飾,節(jié)點之間的邊代表了相互關(guān)系。因為博主資料只有一個語義 信息塊,使用這個唯一的語義信息塊建立與語義結(jié)構(gòu)樹的對應(yīng)關(guān)系,而博文有多個語義信息 塊,需要選擇至少兩個樣本信息塊,具體選擇幾個,需要考慮目標頁面的布局,跟語義信息 塊分布的維度有關(guān)。
圖2是根據(jù)本發(fā)明的優(yōu)選實施例的網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法的流程圖。首先在步驟 201,用戶使用本發(fā)明的優(yōu)選實施例中內(nèi)嵌的瀏覽器加載樣本網(wǎng)絡(luò)頁面,為頁面內(nèi)容定義語義 結(jié)構(gòu),包括網(wǎng)絡(luò)頁面信息內(nèi)容的語義注解、被注解的信息的屬性、語義注解之間的關(guān)系。語 義結(jié)構(gòu)用樹狀結(jié)構(gòu)展現(xiàn),樹節(jié)點代表信息內(nèi)容的語義注解,用一個字符串給語義注解命名, 樹節(jié)點之間的邊表示語義關(guān)系,語義結(jié)構(gòu)樹存儲在內(nèi)存中(208)。
接著在步驟202,用戶在樣本頁面上選擇樣本語義信息塊,選擇的樣本信息塊的數(shù)量跟 語義信息塊分布的維度有關(guān),例如,如果在頁面上只有一欄,語義信息塊從上到下順序排放, 則只有一個維度,選擇兩個上下相鄰的語義信息塊即可,圖1A所示的博文的語義信息塊的 分布就屬于這種情況;如果頁面上橫向有多欄,每一欄內(nèi)語義信息塊按相同的規(guī)則從上到下 順序排放,則有兩個維度,選擇三個語義信息塊,兩兩上下相鄰和左右相鄰。
接著在步驟203,用戶使用本發(fā)明的優(yōu)選實施例提供的網(wǎng)頁內(nèi)容拾取工具,建立所拾取 的信息內(nèi)容與所定義語義結(jié)構(gòu)樹各節(jié)點的對應(yīng)關(guān)系。
接著在步驟204,提取出樣本信息樹的位置參數(shù)、形狀特征參數(shù),產(chǎn)生所述語義結(jié)構(gòu)樹 的識別計算公式,并轉(zhuǎn)換成語義樹識別指令和語義樹合法性識別指令,存儲在內(nèi)存中(209), 詳細方法步驟如圖3所示。
接著在步驟205,使用步驟204生成的語義樹識別指令和語義樹合法性識別指令,在目 標頁面上識別符合所定義語義結(jié)構(gòu)的信息塊,驗證識別指令的有效性。首先使用系統(tǒng)內(nèi)置的 標準的XSLT引擎針對樣本頁面運行XSLT語義樹識別指令,檢驗識別出來的語義信息塊是 否覆蓋了目標頁面上的符合定義的語義結(jié)構(gòu)的所有語義信息塊,同時檢驗每個識別出來的語 義信息塊中的語義信息內(nèi)容是否準確,是否將頁面上的不相干信息提取了出來,或者是否將 需要的語義信息內(nèi)容遺漏了;然后使用系統(tǒng)內(nèi)置的XML引擎針對識別出來的語義結(jié)構(gòu)樹實 例運行語義樹合法性識別指令,檢驗是否符合定義的所述語義結(jié)構(gòu),本發(fā)明優(yōu)選實施例將檢驗語義信息塊中的語義信息內(nèi)容是否符合定義的語義樹結(jié)構(gòu)的節(jié)點屬性要求,是否具有相同 的樹形狀。如果沒有完全覆蓋所有的語義信息塊,或者從提取到的語義信息內(nèi)容不符合語義 樹節(jié)點屬性的定義,或者識別出來的信息塊與語義樹形狀不相符,將提示用戶重新選擇樣本 語義信息塊,返回到步驟202;如果識別指令經(jīng)驗證是有效的,進行下一步。
接著在步驟207,將內(nèi)存中的語義樹識別指令和語義樹合法性識別指令和語義結(jié)構(gòu)組織 成文件,存儲到外存儲器中。
圖3是根據(jù)本發(fā)明的優(yōu)選實施例的生成語義樹識別指令和語義樹合法性識別指令的方法 的流程圖,是圖2的步驟204的詳細分解。語義結(jié)構(gòu)識別操作是針對網(wǎng)絡(luò)頁面DOM數(shù)據(jù)結(jié) 構(gòu)進行的。DOM是文檔對象模型(Document Object Model)的簡寫, 一個網(wǎng)絡(luò)頁面在呈現(xiàn)給 用戶閱讀時,網(wǎng)絡(luò)頁面內(nèi)容存儲在DOM數(shù)據(jù)結(jié)構(gòu)中,是一個樹狀結(jié)構(gòu),本發(fā)明的優(yōu)選實施 例對DOM結(jié)構(gòu)進行讀取,獲得各種信息,包括DOM節(jié)點的內(nèi)容、節(jié)點的特性以及節(jié)點之 間的父子和兄弟關(guān)系等。本發(fā)明的優(yōu)選實施例選取的樣本語義信息塊是一棵DOM子樹,所 述樣本信息樹是對樣本信息塊子樹進行修剪后產(chǎn)生的跟所定義的語義結(jié)構(gòu)樹形狀相同的信息 存儲樹,同時還包含關(guān)于樹特征的元數(shù)據(jù)。
首先在步驟301,依照步驟201所定義的語義結(jié)構(gòu)樹,對每個樣本語義信息塊的信息存 儲樹進行修剪,去除不相關(guān)信息,保留符合所定義語義結(jié)構(gòu)的信息,產(chǎn)生樣本信息樹,所有 樣本信息樹存儲在一個集合中。在本發(fā)明的優(yōu)選實施例中,樣本信息樹包含的關(guān)于樹特征的
元數(shù)據(jù)有
1. 每個語義信息節(jié)點的訪問路徑,使用經(jīng)過改造的XPath表達式表示
2. 每個語義信息節(jié)點是否被多個樣本信息樹所共享
3. 樣本信息樹的樹干,即,樣本信息樹的第一個分支前面的部分是樹干部分。 接著在步驟302,主要目的是計算出樣本信息樹每個節(jié)點的位置變化參數(shù),使用這些參
數(shù)可以在目標頁面上將每個節(jié)點識別出來,節(jié)點的位置變化參數(shù)包括
1. 在整個頁面的DOM數(shù)據(jù)結(jié)構(gòu)中具有相同的訪問路徑的DOM節(jié)點組成一個節(jié)點序 歹ij,樣本信息樹節(jié)點在該序列中的起始位置
2. 在這個節(jié)點序列中,樣本信息樹節(jié)點重復(fù)出現(xiàn)的周期
接著在步驟303,選舉一個樣本信息樹分支作為參照。在步驟302,節(jié)點位置變化參數(shù)都 是對每個節(jié)點獨立計算的,沒有考慮語義樹形狀和在語義樹內(nèi)的相對關(guān)系,所以如果僅僅采 用此節(jié)點位置變化參數(shù)提取網(wǎng)絡(luò)信息,必然會提取出很多不相干的內(nèi)容來。選舉出樣本信息
8樹參照分支后,樣本信息樹的其它節(jié)點的位置參數(shù)將相對于參照分支進行變換。
接著在步驟304,將樣本信息樹的節(jié)點的位置參數(shù)相對于參照分支進行變換,得到相對 位置參數(shù),就是節(jié)點相對于參照分支的葉子節(jié)點的父子和兄弟關(guān)系,可以用來確定節(jié)點在樣 本信息樹中的位置,也就是決定了樣本信息樹的形狀;然后根據(jù)不同樣本信息樹的參照分支 的位置信息計算出整棵樹的位置參數(shù)。
接著在步驟305,產(chǎn)生語義結(jié)構(gòu)識別公式,主要有兩類公式參照分支的識別公式和語 義結(jié)構(gòu)樹中其它語義結(jié)構(gòu)節(jié)點相對于參照分支的定位公式。參照分支的識別公式整合了語義
結(jié)構(gòu)樹位置參數(shù)和形狀參數(shù)并將節(jié)點屬性作為過濾條件。
接著在步驟306,生成語義結(jié)構(gòu)識別指令和語義結(jié)構(gòu)合法性識別指令。將步驟305產(chǎn)生 的識別公式轉(zhuǎn)換成標準的XSLT指令生成語義結(jié)構(gòu)識別指令,該指令可以被標準的XSLT引 擎解釋執(zhí)行,從網(wǎng)絡(luò)頁面上將符合語義結(jié)構(gòu)的語義信息塊識別出來,將語義信息塊中的語義 內(nèi)容提取出來,按照XSLT指令存儲到XML文件格式的提取結(jié)果文件中。語義結(jié)構(gòu)合法性識 別指令是根據(jù)語義結(jié)構(gòu)樹的位置參數(shù)和形狀參數(shù)尤其是語義結(jié)構(gòu)樹節(jié)點的屬性構(gòu)造產(chǎn)生的, 是XML格式的,可以被專用的XML引擎解釋執(zhí)行,對提取出來的語義內(nèi)容進行檢査。
網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別裝置
圖4是根據(jù)本發(fā)明的優(yōu)選實施例的網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別裝置的分解圖,圖中標注的序 號代表單元之間的訪問和被訪問關(guān)系。如圖4所示,用戶使用語義結(jié)構(gòu)編輯單元創(chuàng)建語義結(jié) 構(gòu)樹、定義語義結(jié)構(gòu)樹節(jié)點的屬性、描述語義關(guān)系,語義結(jié)構(gòu)樹存儲在內(nèi)存中(401);用戶 將樣本頁面加載到系統(tǒng)內(nèi)嵌的Web瀏覽器上,使用樣本語義信息塊拾取單元為每個樣本語義 信息塊建立信息內(nèi)容與語義結(jié)構(gòu)樹中的節(jié)點之間的對應(yīng)關(guān)系(402);對應(yīng)關(guān)系輸入到語義結(jié) 構(gòu)識別指令生成單元(403),利用從內(nèi)存中獲取的語義結(jié)構(gòu)描述信息(404),語義結(jié)構(gòu)識別 指令生成單元計算樣本信息樹的位置參數(shù)、形狀特征參數(shù),產(chǎn)生語義信息樹識別計算公式, 轉(zhuǎn)換成符合XSLT標準的語義樹識別指令和符合XML文檔格式標準的語義樹合法性識別指 令,存儲在內(nèi)存中(405);語義樹識別驗證單元從內(nèi)存中獲取語義樹識別指令和語義樹合法 性識別指令,運用到樣本頁面上進行測試,如果用戶不滿意,使用語義結(jié)構(gòu)編輯單元修改語 義結(jié)構(gòu)或者使用樣本語義信息塊拾取單元修改頁面內(nèi)容與語義結(jié)構(gòu)的對應(yīng)關(guān)系,重復(fù)上述步 驟,直至滿意為止;滿足要求的語義樹識別和合法性識別指令以及語義結(jié)構(gòu)輸入到指令文件 和語義結(jié)構(gòu)文件讀寫管理單元(408, 409),生成符合XSLT標準的語義樹識別指令文件和符 合XML文檔格式標準的語義樹合法性識別指令文件和語義結(jié)構(gòu)描述文件,存儲到外存儲器上(410,411)。圖中有些箭頭是雙向的,表示外存儲器中原有的語義樹識別和合法性識別指 令文件和語義結(jié)構(gòu)描述文件被讀入本實施例,對其進行修改或補充。
權(quán)利要求
1,一種網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,所述語義結(jié)構(gòu)包括網(wǎng)絡(luò)頁面信息內(nèi)容的多個語義相關(guān)的語義注解、被注解的信息的屬性、語義注解之間的關(guān)系,其特征在于,所述方法包括以下步驟(1)定義樣本頁面的所述語義結(jié)構(gòu),在系統(tǒng)內(nèi)部存儲成語義結(jié)構(gòu)樹;(2)生成語義樹識別指令和語義樹合法性識別指令;(3)驗證語義樹識別指令和語義樹合法性識別指令的有效性(4)將語義結(jié)構(gòu)描述文件和語義樹識別指令文件和語義樹合法性識別文件存儲到外存儲器
2,根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,其特征在于,所述語義結(jié)構(gòu)樹包括語義結(jié)構(gòu)樹節(jié)點,代表網(wǎng)絡(luò)頁面信息內(nèi)容的語義注解,用文本串命名語義注解; 語義結(jié)構(gòu)樹節(jié)點的屬性,對語義注解進行修飾; 語義結(jié)構(gòu)樹節(jié)點之間的關(guān)系,用節(jié)點之間的邊表示。
3, 根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,其特征在于,所述語義結(jié)構(gòu)描 述文件是一個XML文件,用于在外存儲器上存儲用戶定義的所述語義結(jié)構(gòu)。
4, 根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,其特征在于,所述語義樹識別 指令是標準的XSLT指令,'在外存儲器上以語義樹識別指令文件的形式存儲。
5, 根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,其特征在于,所述語義樹合法 性識別指令是符合XML文檔格式標準的指令,在外存儲器上以語義樹合法性識別指令文件 的形式存儲。
6,根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,其特征在于,所述存儲到外存 儲器的方法是在計算機內(nèi)存中生成語義結(jié)構(gòu)描述文件、語義樹識別指令文件和語義樹合法性 識別指令文件后,輸出存儲到本地硬盤和其它類型的本地外存儲器和網(wǎng)絡(luò)服務(wù)器存儲器。
7,根據(jù)權(quán)利要求l所述的網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別方法,其特征在于,所述生成語義樹 識別指令和語義樹合法性識別指令的方法包括以下步驟(21) 用戶在目標頁面上為每個所述語義結(jié)構(gòu)分別選擇樣本語義信息塊,如果目標頁面 上存在相同所述語義結(jié)構(gòu)的多塊信息,選擇多個樣本語義信息塊,否則,為每個所述語義結(jié) 構(gòu)只選擇一個樣本語義信息塊;(22) 為每個樣本語義信息塊建立信息內(nèi)容與所述語義結(jié)構(gòu)樹中的節(jié)點之間的對應(yīng)關(guān)系;(23)計算樣本語義信息塊的位置和重現(xiàn)參數(shù),產(chǎn)生符合XSLT標準的語義樹識別指令 和符合XML文檔格式標準的語義樹合法性識別指令。
8, —種網(wǎng)絡(luò)信息語義結(jié)構(gòu)的識別的裝置,所述語義結(jié)構(gòu)包括網(wǎng)絡(luò)頁面信息內(nèi)容的多個語 義相關(guān)的語義注解、被注解的信息的屬性、語義注解之間的關(guān)系,其特征在于,所述裝置包 括語義結(jié)構(gòu)編輯單元,用于創(chuàng)建和編輯所述語義結(jié)構(gòu)樹;樣本語義信息塊拾取單元,用于選取樣本頁面上的樣本信息塊,為每個樣本語義信息塊 建立信息內(nèi)容與所述語義結(jié)構(gòu)樹中的節(jié)點之間的對應(yīng)關(guān)系語義結(jié)構(gòu)識別指令生成單元,用于計算樣本語義信息塊的位置和重現(xiàn)參數(shù),產(chǎn)生所述語 義結(jié)構(gòu)樹識別指令和所述語義結(jié)構(gòu)樹合法性識別指令語義樹識別驗證單元,用于驗證識別出來的語義信息塊是否符合所述語義樹的形狀特征 和所述語義樹節(jié)點的屬性要求指令文件和語義結(jié)構(gòu)文件讀寫管理單元,用于將內(nèi)存中的所述語義樹識別指令和所述語 義樹合法性識別指令和所述語義結(jié)構(gòu)樹組織成文件,存儲到所述外存儲器上。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)信息語義結(jié)構(gòu)識別方法和裝置,所述語義結(jié)構(gòu)包括多個語義相關(guān)的網(wǎng)絡(luò)頁面信息內(nèi)容的語義注解、被注解的信息的屬性、語義注解之間的關(guān)系。通過定義樣本頁面的所述語義結(jié)構(gòu),在系統(tǒng)內(nèi)部存儲成語義結(jié)構(gòu)樹;生成語義樹識別指令和語義樹合法性識別指令;經(jīng)驗證后將語義結(jié)構(gòu)描述文件和語義樹識別指令文件和語義樹合法性識別文件存儲到外存儲器。本發(fā)明定義和識別出的網(wǎng)絡(luò)頁面信息的語義結(jié)構(gòu)可以被信息提取、全文搜索和語義搜索、商業(yè)情報挖掘、信息聚合、網(wǎng)絡(luò)知識庫等系統(tǒng)使用。
文檔編號G06F17/30GK101639840SQ200810142630
公開日2010年2月3日 申請日期2008年7月29日 優(yōu)先權(quán)日2008年7月29日
發(fā)明者華天清, 齊勇挺 申請人:華天清