專利名稱:一種語(yǔ)義網(wǎng)信息的索引與獲取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域的信息存儲(chǔ)和檢索技術(shù),具體涉及一種語(yǔ)義網(wǎng)信息的索引與獲取方法,該方法對(duì)應(yīng)用產(chǎn)生的語(yǔ)義數(shù)據(jù)進(jìn)行有效地存儲(chǔ),同時(shí)提供獲取手段。
背景技術(shù):
語(yǔ)義網(wǎng)的目標(biāo)是讓網(wǎng)絡(luò)上的信息變成機(jī)器可以理解的形式,使萬(wàn)維網(wǎng)變得智能化和自動(dòng)化。圍繞這一目標(biāo),誕生了許多新技術(shù),如本體語(yǔ)言RDF/OWL等。這些新技術(shù)為應(yīng)用信息管理帶了新方法。本體能有效地解決信息異構(gòu)問(wèn)題,明確地說(shuō)明領(lǐng)域概念,并對(duì)應(yīng)用數(shù)據(jù)進(jìn)行語(yǔ)義封裝。應(yīng)用本身又具有很強(qiáng)的領(lǐng)域特性,本體技術(shù)恰可在其中發(fā)揮作用。隨著越來(lái)越多的應(yīng)用開(kāi)始支持語(yǔ)義網(wǎng)技術(shù),應(yīng)用領(lǐng)域內(nèi)的語(yǔ)義數(shù)據(jù)開(kāi)始不斷的積累。如何管理這些語(yǔ)義數(shù)據(jù),并如何有效地檢索需要的信息成為每個(gè)領(lǐng)域應(yīng)用者關(guān)注的問(wèn)題。
構(gòu)建語(yǔ)義數(shù)據(jù)庫(kù)系統(tǒng)是解決這個(gè)問(wèn)題的重要方法之一,語(yǔ)義數(shù)據(jù)庫(kù)系統(tǒng)通常構(gòu)筑在傳統(tǒng)的數(shù)據(jù)存儲(chǔ)設(shè)施之上,如關(guān)系數(shù)據(jù)庫(kù)之上。通過(guò)將語(yǔ)義數(shù)據(jù)轉(zhuǎn)換存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)之中,再通過(guò)關(guān)系查詢語(yǔ)言進(jìn)行查詢。由于其索引措施是基于B+樹(shù)等索引,而樹(shù)結(jié)構(gòu)索引不適合多關(guān)鍵字匹配,因此,當(dāng)在這樣的索引數(shù)據(jù)上進(jìn)行多關(guān)鍵字匹配查詢或者檢索時(shí),效率非常低下。倒排表專門為多關(guān)鍵字匹配設(shè)計(jì),在進(jìn)行多關(guān)鍵字匹配查詢或者檢索時(shí)效率很高。鑒于此,考慮運(yùn)用倒排表結(jié)構(gòu)來(lái)進(jìn)行語(yǔ)義數(shù)據(jù)的索引和存儲(chǔ)也不失為一個(gè)有效方法。
大量的應(yīng)用數(shù)據(jù)產(chǎn)生并貯存之后,必然需要有效的獲取方法。采用傳統(tǒng)的數(shù)據(jù)庫(kù)查詢方法可進(jìn)行精確的檢索,但需要構(gòu)建復(fù)雜的查詢語(yǔ)句,而且返回的查詢結(jié)果是無(wú)序的。對(duì)于普通用戶而言,更期望使用類似于搜索引擎一樣的便捷檢索方式,而這是存儲(chǔ)設(shè)施目前所不能提供的。如果能對(duì)應(yīng)用存儲(chǔ)設(shè)施提供檢索支持,尤其利用其中的語(yǔ)義信息部分,提供排序能力,那么用戶將從中受益。
發(fā)明內(nèi)容
本方法目的是提供一種語(yǔ)義網(wǎng)信息的索引與獲取方法,該方法能夠?qū)崿F(xiàn)應(yīng)用文檔的數(shù)據(jù)有效存儲(chǔ)與檢索。
本發(fā)明提供的一種語(yǔ)義網(wǎng)信息的索引與獲取方法,其步驟為首先按照步驟(1)建立信息索引,當(dāng)接收到檢索請(qǐng)求時(shí),按照步驟(2)-(9)獲取信息;步驟(1)建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表,其中,實(shí)體倒排表包括以下字段URI、路徑、路徑長(zhǎng)度、類型、元數(shù)據(jù)、排序值;文檔倒排表包括以下字段URI、URL、內(nèi)容、排序值;然后分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中步驟(2)接受檢索請(qǐng)求,依據(jù)請(qǐng)求類型不同,分別檢索對(duì)應(yīng)的語(yǔ)義實(shí)體倒排表或者是文檔倒排表;步驟(3)獲取檢索到的結(jié)果并生成中間結(jié)果集;步驟(4)判斷是否對(duì)中間結(jié)果集進(jìn)行排序,如果需要排序,執(zhí)行步驟(5);否則,跳轉(zhuǎn)步驟(6);步驟(5)獲取文檔實(shí)體“排序值”,獲取其同查詢的內(nèi)容相似度,并求加權(quán)和,然后據(jù)此對(duì)中間結(jié)果集排序;步驟(6)將中間結(jié)果集作為最終結(jié)果返回;步驟(7)判斷是否需要更新操作,如果不需要更新,跳轉(zhuǎn)步驟(2);否則進(jìn)入步驟(8);步驟(8)對(duì)所有的實(shí)體的“排序值”進(jìn)行重新計(jì)算,替代原有的“排序值”;步驟(9)重復(fù)步驟(2)-(8),直至服務(wù)終止。
針對(duì)領(lǐng)域應(yīng)用提出的這些需求,本發(fā)明結(jié)合信息檢索技術(shù)和語(yǔ)義網(wǎng)技術(shù),提出了一種面向應(yīng)用的解決方案,用于領(lǐng)域應(yīng)用文檔(包括語(yǔ)義數(shù)據(jù)和文本)的索引、存儲(chǔ)與檢索。具體而言,本發(fā)明具有以下特點(diǎn)(1)通過(guò)倒排表方法將語(yǔ)義信息索引并存儲(chǔ)起來(lái),實(shí)現(xiàn)了文檔元數(shù)據(jù)同文本內(nèi)容的一站式索引存儲(chǔ)。其好處是在進(jìn)行字段內(nèi)關(guān)鍵字匹配時(shí)可獲得高效率,并且保持較小的磁盤開(kāi)銷。另外,由于索引類型相同,語(yǔ)義數(shù)據(jù)與純文本數(shù)據(jù)不再需要各自存儲(chǔ),可通過(guò)Lucene程序接口直接將索引建在磁盤上。
(2)通過(guò)對(duì)特定領(lǐng)域上下文信息進(jìn)行分析,繼而計(jì)算出語(yǔ)義實(shí)體在領(lǐng)域內(nèi)的重要性,并結(jié)合關(guān)鍵字檢索方法對(duì)返回結(jié)果排序。該方法考慮了文檔的重要性,同時(shí)兼顧了其同查詢的相關(guān)性,因此可提供較好的檢索準(zhǔn)確度。
(3)該方法獨(dú)立于具體的應(yīng)用領(lǐng)域,因而具有良好的通用性和可移植性??梢员粡V泛地集成到當(dāng)前的信息管理系統(tǒng)中,如科技文獻(xiàn)管理、電子郵件管理、在線社區(qū)文檔管理等。
圖1為本發(fā)明語(yǔ)義網(wǎng)信息索引與獲取方法流程示意圖。
圖2為更新例程流程示意圖。
圖3為文獻(xiàn)領(lǐng)域的RDF實(shí)例圖示。
圖4為文獻(xiàn)領(lǐng)域模式圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
本發(fā)明采用倒排表來(lái)索引語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容,并通過(guò)計(jì)算一個(gè)語(yǔ)義網(wǎng)實(shí)體在領(lǐng)域本體內(nèi)的影響力來(lái)決定其重要性,并依據(jù)其重要性對(duì)檢索結(jié)果進(jìn)行排序。本發(fā)明包括兩個(gè)主要部分,即首先建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表,繼而分別往兩個(gè)倒排表中添加具體內(nèi)容;其次,基于建立的倒排表進(jìn)行信息獲取。下面就具體步驟作詳細(xì)說(shuō)明
步驟(1)建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表。其中,實(shí)體倒排表①包括以下字段URI(統(tǒng)一資源標(biāo)示符)、路徑、路徑長(zhǎng)度、類型、元數(shù)據(jù)、排序值;文檔倒排表②包括以下字段URI、URL(統(tǒng)一資源定位)、內(nèi)容、排序值。其中“排序值”字段保存URI標(biāo)示的實(shí)體在領(lǐng)域內(nèi)的排名值。
文檔(URI,路徑,路徑長(zhǎng)度,類型,元數(shù)據(jù),排序值)①文檔(URI,URL,內(nèi)容,排序值) ②上述倒排表通過(guò)Lucene應(yīng)用程序接口實(shí)現(xiàn),其結(jié)構(gòu)中,一個(gè)字段是文檔的一個(gè)區(qū)段。每個(gè)字段有兩個(gè)部分,一個(gè)名字和值域。對(duì)于領(lǐng)域本體而言,它首先被表示成圖,然后映射到倒排表結(jié)構(gòu)。其中,每個(gè)概念實(shí)例對(duì)應(yīng)一個(gè)文檔對(duì)象,由URI進(jìn)行標(biāo)示。其屬性值和關(guān)系值則被存儲(chǔ)在元數(shù)據(jù)字段。屬性通常視為標(biāo)注的角色,其值是文字類型,被作為長(zhǎng)度為1的路徑。關(guān)系則蘊(yùn)涵在兩個(gè)概念之間,有可能不是直連的,而是通過(guò)一個(gè)路徑的形式再相連。對(duì)于這種關(guān)系,其路徑也作為一個(gè)字段來(lái)使用。為了進(jìn)行應(yīng)用文檔檢索,把文檔純文本內(nèi)容也進(jìn)行索引,用如②所示的倒排表形式。“URI”可視作文檔對(duì)象的標(biāo)示符,“URL”指出其物理位置,具體為磁盤上的路徑?!皟?nèi)容”字段用來(lái)索引純文本內(nèi)容,“排序值”字段保存文檔在領(lǐng)域內(nèi)的排名值。
步驟(2)分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中;(2.1)讀取語(yǔ)義信息文件并解析生成數(shù)據(jù)圖。讀取一個(gè)語(yǔ)義信息文件,通常是一個(gè)RDF文件。通過(guò)RDF應(yīng)用程序接口(如Jena)解析該文件,并將之表達(dá)成數(shù)據(jù)圖存貯在內(nèi)存中。
(2.2)解析并添加數(shù)據(jù)圖到倒排表中。由一個(gè)解析器負(fù)責(zé)處理在內(nèi)存中暫存的數(shù)據(jù)圖,并提取其中的實(shí)例。對(duì)于每個(gè)實(shí)例,建立一個(gè)文檔對(duì)象與之對(duì)應(yīng),同時(shí)將實(shí)例的屬性值以及關(guān)系值添加到文檔對(duì)象中相應(yīng)的字段內(nèi)。
一般情況下,設(shè)定路徑長(zhǎng)度3-4可以滿足80%以上的查詢需要。對(duì)于較深的路徑查詢,可以通過(guò)組合多次短路徑查詢來(lái)完成。對(duì)于一些特殊的RDF內(nèi)置關(guān)系,如rdf:Bag,rdf:Seq和rdf:Alt,經(jīng)過(guò)一個(gè)變換處理直接地把它們當(dāng)作長(zhǎng)度為1的路徑。下面結(jié)合具體的實(shí)例(圖3)來(lái)闡明一些關(guān)鍵操作過(guò)程。論文一和論文二是概念(Concept)“文獻(xiàn)”的實(shí)例。作者一和作者二結(jié)點(diǎn)是概念“人”的實(shí)例。會(huì)議一、雜志一則分別是概念“會(huì)議”和“雜志”的對(duì)應(yīng)實(shí)例。這些概念都有一些用于注釋的屬性,如全名、機(jī)構(gòu)、出版社、論文題目等。為了要將該實(shí)例圖編入索引中,所有的關(guān)系和屬性被映射到文檔對(duì)象的路徑字段,其中所有的屬性和直接關(guān)系被作為長(zhǎng)度1的路徑。
上述結(jié)構(gòu)能夠滿足目前語(yǔ)義數(shù)據(jù)查詢中三元組匹配(?主語(yǔ),?謂詞,?賓語(yǔ))的需要。其中,?x表示x是將被檢索的變量?!爸髡Z(yǔ)”的值域是在URI之內(nèi),謂詞則可以直接用路徑名字指定。舉例來(lái)說(shuō)(?論文,#標(biāo)題,“研究”),和(#張三,#全名,?郵箱)。該結(jié)構(gòu)也可以滿足組合的復(fù)雜查詢,如((?作者,#全名,“張三”)或(?作者,#機(jī)構(gòu),“xx學(xué)?!?),((?論文一,#標(biāo)題,“方法”)與(?論文一,#引用,?論文二))。也可滿足連接查詢,如(?論文,“#作者#全名”,“張三”),它將會(huì)返回所有的包含作者全名“張三”的文獻(xiàn)。
(2.3)解析并索引應(yīng)用文檔純文本;利用Lucene的文本解析工具和寫索引器將文本內(nèi)容添加到文檔索引中。
步驟(3)接受檢索請(qǐng)求,依據(jù)請(qǐng)求類型不同,分別檢索對(duì)應(yīng)的語(yǔ)義實(shí)體倒排表或者是文檔倒排表;通常,一個(gè)請(qǐng)求R={Q;F}由兩個(gè)部分組成,Q代表查詢,由n≥1個(gè)檢索項(xiàng)s1,…,si,…,sn構(gòu)成,其中si采用ti:ki的格式,ti說(shuō)明檢索的屬性,ki是屬性ti內(nèi)容包含的關(guān)鍵字。F為檢索類型標(biāo)志,如果F設(shè)為1,則為數(shù)據(jù)實(shí)例檢索,否則為文檔檢索。該步驟即通過(guò)解析標(biāo)志F繼而判斷請(qǐng)求類型。如果數(shù)據(jù)實(shí)例檢索,則通過(guò)在語(yǔ)義信息倒排表(形式為①)中進(jìn)行檢索,并返回相應(yīng)的語(yǔ)義實(shí)體。如果是文檔檢索,則通過(guò)在文檔內(nèi)容倒排表(形式為②)中進(jìn)行檢索,將內(nèi)容中包含檢索關(guān)鍵字的文檔返回。
步驟(4)獲取檢索到的結(jié)果并生成中間結(jié)果集;步驟(5)判斷是否對(duì)中間結(jié)果集進(jìn)行排序。如果需要排序,執(zhí)行步驟6;否則,跳轉(zhuǎn)步驟7。
步驟(6)獲取文檔實(shí)體“排序值”,獲取其同查詢的內(nèi)容相似度,并求加權(quán)和,然后據(jù)此對(duì)中間結(jié)果集排序;為了在進(jìn)行文檔檢索時(shí)能獲得較好的相關(guān)度,查詢和文檔之間的相關(guān)性被定義為文檔在領(lǐng)域中的重要性(排序值)和查詢與文檔的內(nèi)容相似度(TF*IDF)的加權(quán)平均。假設(shè)sim(q,d)是查詢與文檔之間的內(nèi)容相似度,I(d)是文檔d在領(lǐng)域內(nèi)的排序規(guī)格化值,則用來(lái)衡量文檔同查詢的相關(guān)性新度量,可用一個(gè)加權(quán)策略R(q,d)=w×sim(q,d)+(1-w)×I(d)來(lái)表示,其中w是權(quán)重調(diào)節(jié)因子,可以根據(jù)不同應(yīng)用領(lǐng)域的要求靈活地調(diào)整。最終文檔實(shí)體依據(jù)R(q,d)的值高低進(jìn)行降序排列??赏ㄟ^(guò)Lucene系統(tǒng)內(nèi)置的TF*IDF(向量空間模型中的詞頻率-逆向文檔頻率)的計(jì)算接口獲取文檔同查詢的相關(guān)度。TF即關(guān)鍵詞在文檔中的出現(xiàn)頻率,IDF=N/DF,N為文檔集中總的文檔數(shù),DF即關(guān)鍵詞的文檔頻率。文檔實(shí)體的“排序值”則可從倒排表中直接獲取。
步驟(7)將中間結(jié)果集作為最終結(jié)果返回;步驟(8)判斷是否需要更新操作。如果不需要更新,跳轉(zhuǎn)步驟(3);否則順序執(zhí)行;如果知識(shí)庫(kù)有新內(nèi)容加入,并且加入的數(shù)量達(dá)到一定規(guī)模,通常超過(guò)原來(lái)文獻(xiàn)數(shù)量的5%,將會(huì)對(duì)實(shí)體原來(lái)的重要性值產(chǎn)生足夠的大影響,需要調(diào)用更新例程重新計(jì)算領(lǐng)域內(nèi)實(shí)體的重要性。通過(guò)離線迭代運(yùn)算,用實(shí)體的排序新值替換其原值。
步驟(9)對(duì)所有的實(shí)體的“排序值”進(jìn)行重新計(jì)算,替代原有的“排序值”;該過(guò)程的核心思想是計(jì)算一個(gè)被檢索的實(shí)體在領(lǐng)域中的重要性。對(duì)于一個(gè)特定領(lǐng)域來(lái)說(shuō),領(lǐng)域本體提供了資源之間的上下文語(yǔ)義,這些上下文描述影響資源排序的各個(gè)方面,因此可借助這些上下文信息來(lái)計(jì)算領(lǐng)域本體中概念實(shí)例的重要性值。為了解釋方便,把本體模式同其實(shí)例區(qū)分開(kāi)來(lái)。模式圖的節(jié)點(diǎn)代表領(lǐng)域內(nèi)的核心概念(也可用面向?qū)ο笾械念悂?lái)理解),其具體實(shí)例或者實(shí)體(也可用面向?qū)ο笾械膶?duì)象來(lái)理解),更新例程計(jì)算通過(guò)在本體模式圖上添加邊以及權(quán)重注釋,來(lái)表達(dá)重要性如何在本體模式之間進(jìn)行傳遞,而這些添加的信息將被用來(lái)計(jì)算領(lǐng)域本體中概念實(shí)例的排序值(即重要性值)。如圖4(a)是示例領(lǐng)域本體的一部分,圖4(b)則是加上權(quán)重傳遞注釋之后的領(lǐng)域本體。圖中每條邊劃分為對(duì)應(yīng)的兩個(gè)邊,分別表達(dá)前向和后向的權(quán)重傳遞關(guān)系。最終本體中每個(gè)實(shí)體的排序值則通過(guò)αn=λ·A·αn-1+(1-λ)·e計(jì)算得到。該方法中運(yùn)用隨機(jī)沖浪模型,并包括數(shù)據(jù)集中所有節(jié)點(diǎn)。α為迭代向量,初始元素值全置為1.0,其最終結(jié)果將作為排名值使用。數(shù)據(jù)圖中任意資源之間的隨機(jī)跳變量用一個(gè)向量e來(lái)建模。A是一鄰接矩陣,連接領(lǐng)域本體的所有可用實(shí)例。λ表示衰減指數(shù),可以在0.75~0.85之間取值。這些實(shí)例之間鏈接的權(quán)重相對(duì)應(yīng)于權(quán)重傳遞注釋本體中指定的值,而該值是由相同類型鏈接的數(shù)據(jù)整除的。當(dāng)初始化一個(gè)特定領(lǐng)域內(nèi)的權(quán)重傳遞注釋本體時(shí),鄰接矩陣A元素值依據(jù)下面規(guī)則進(jìn)行初始化如果相應(yīng)數(shù)據(jù)圖中實(shí)體之間沒(méi)有鏈接,則其值為0;否則,該值由在權(quán)重傳遞圖中指定的邊權(quán)重決定,并由該實(shí)體同類型出鏈接的數(shù)目整除。例如,將圖3中的六個(gè)實(shí)例選取出來(lái),構(gòu)建鄰接矩陣來(lái)表達(dá)他們之間的關(guān)聯(lián),鄰接矩陣初始化以圖4(b)所描述的連接類型及其權(quán)重為依據(jù)。
圖2列舉一種更新例程,下面作進(jìn)一步詳細(xì)的說(shuō)明(9.1)讀取領(lǐng)域模式配置文件,得到相應(yīng)的權(quán)重傳播模式圖。
(9.2)從知識(shí)庫(kù)中提取領(lǐng)域本體的所有實(shí)例。
(9.3)將這些實(shí)例依照領(lǐng)域權(quán)重傳播模式構(gòu)建成數(shù)據(jù)圖。數(shù)據(jù)圖中任意資源之間的隨機(jī)跳變量用一個(gè)向量e來(lái)建模。將這些實(shí)例依照領(lǐng)域權(quán)重傳播模式構(gòu)建成數(shù)據(jù)圖,鄰接矩陣A用于表示所有實(shí)例的連接狀態(tài)。
(9.4)初始化鄰接矩陣A。其元素值按下面規(guī)則進(jìn)行初始化如果相應(yīng)數(shù)據(jù)圖中實(shí)體之間沒(méi)有鏈接,則其值為0;否則,該值由在權(quán)重傳遞圖中指定的邊權(quán)重決定,并由該實(shí)體同類型出鏈接的數(shù)目整除。
(9.5)利用迭代公式αn=λ·A·αn-1+(1-λ)·e進(jìn)行運(yùn)算,n為鄰接矩陣A中實(shí)例的個(gè)數(shù)。
(9.6)計(jì)算α最近兩次的迭代結(jié)果之間的向量距離,如果該值小于某個(gè)閾值,則視作計(jì)算收斂,迭代終止;然后將所得實(shí)體的排序值存入知識(shí)庫(kù)中,即添加到索引中。
步驟(10)重復(fù)步驟(3)-(9),直至服務(wù)終止。
上述排序方法在應(yīng)用中獲得很好的效果,在搜索的準(zhǔn)確度和相關(guān)性方面比傳統(tǒng)的純關(guān)鍵字搜索有很大的提高。
權(quán)利要求
1.一種語(yǔ)義網(wǎng)信息的索引與獲取方法,首先按照步驟(1)建立信息索引,當(dāng)接收到檢索請(qǐng)求時(shí),按照步驟(2)-(9)獲取信息;步驟(1)建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表,其中,實(shí)體倒排表包括以下字段URI、路徑、路徑長(zhǎng)度、類型、元數(shù)據(jù)、排序值;文檔倒排表包括以下字段URI、URL、內(nèi)容、排序值;然后分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中步驟(2)接受檢索請(qǐng)求,依據(jù)請(qǐng)求類型不同,分別檢索對(duì)應(yīng)的語(yǔ)義實(shí)體倒排表或者是文檔倒排表;步驟(3)獲取檢索到的結(jié)果并生成中間結(jié)果集;步驟(4)判斷是否對(duì)中間結(jié)果集進(jìn)行排序,如果需要排序,執(zhí)行步驟(5);否則,跳轉(zhuǎn)步驟(6);步驟(5)獲取文檔實(shí)體“排序值”,獲取其同查詢的內(nèi)容相似度,并求加權(quán)和,然后據(jù)此對(duì)中間結(jié)果集排序;步驟(6)將中間結(jié)果集作為最終結(jié)果返回;步驟(7)判斷是否需要更新操作,如果不需要更新,跳轉(zhuǎn)步驟(2);否則進(jìn)入步驟(8);步驟(8)對(duì)所有的實(shí)體的“排序值”進(jìn)行重新計(jì)算,替代原有的“排序值”;步驟(9)重復(fù)步驟(2)-(8),直至服務(wù)終止。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟(1)按照下述過(guò)程分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中(a1)讀取語(yǔ)義信息文件并解析生成數(shù)據(jù)圖;(a2)解析并添加數(shù)據(jù)圖到倒排表中;(a3)解析并索引應(yīng)用文檔純文本,并將文本內(nèi)容添加到文檔索引中。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于步驟(8)按照下述過(guò)程進(jìn)行更新(b1)讀取領(lǐng)域配置文件,得到相應(yīng)的權(quán)重傳播模式圖;(b2)從知識(shí)庫(kù)中提取領(lǐng)域本體的所有實(shí)例;(b3)將這些實(shí)例依照領(lǐng)域權(quán)重傳播模式構(gòu)建成數(shù)據(jù)圖,鄰接矩陣A用于表示所有實(shí)例的連接狀態(tài);(b4)初始化鄰接矩陣A,其元素值按下面規(guī)則進(jìn)行初始化如果相應(yīng)數(shù)據(jù)圖中實(shí)體之間沒(méi)有鏈接,則其值為0;否則,該值由在權(quán)重傳遞圖中指定的邊權(quán)重決定,并由該實(shí)體同類型出鏈接的數(shù)目整除;(b5)利用迭代公式αn=λ·A·αn-1+(1-λ)·e進(jìn)行運(yùn)算,其中,α為迭代向量,λ為衰減指數(shù),e為數(shù)據(jù)圖中任意資源之間的隨機(jī)跳變量,n為鄰接矩陣A中實(shí)例的個(gè)數(shù);(b6)計(jì)算迭代向量α最近兩次的迭代結(jié)果之間的向量距離,如果該值小于某個(gè)閾值,則視作計(jì)算收斂,迭代終止;然后將所得實(shí)體的排序值存入知識(shí)庫(kù)中。
全文摘要
本發(fā)明公開(kāi)了一種語(yǔ)義網(wǎng)信息的索引與獲取方法,首先建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表,繼而分別往兩個(gè)倒排表中添加具體內(nèi)容;其次,依據(jù)請(qǐng)求類型不同,分別檢索對(duì)應(yīng)的倒排表,獲取中間結(jié)果集;對(duì)需要排序的中間結(jié)果集進(jìn)行排序,再對(duì)需要更新操作的實(shí)例進(jìn)行更新。本發(fā)明將語(yǔ)義信息同傳統(tǒng)的關(guān)鍵字檢索相結(jié)合,提供新的排序方法,能顯著提高語(yǔ)義網(wǎng)環(huán)境下信息檢索能力。本發(fā)明方法具有良好的通用性和可移植性,可被廣泛地集成到當(dāng)前的信息管理系統(tǒng)中。
文檔編號(hào)G06F17/30GK101030217SQ20071005174
公開(kāi)日2007年9月5日 申請(qǐng)日期2007年3月22日 優(yōu)先權(quán)日2007年3月22日
發(fā)明者金海 , 武浩, 袁平鵬, 寧小敏, 余一嬌 申請(qǐng)人:華中科技大學(xué)