一種語(yǔ)義網(wǎng)信息的索引與獲取方法

文檔序號(hào)：6573032閱讀：174來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種語(yǔ)義網(wǎng)信息的索引與獲取方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域的信息存儲(chǔ)和檢索技術(shù)，具體涉及一種語(yǔ)義網(wǎng)信息的索引與獲取方法，該方法對(duì)應(yīng)用產(chǎn)生的語(yǔ)義數(shù)據(jù)進(jìn)行有效地存儲(chǔ)，同時(shí)提供獲取手段。
背景技術(shù)：
語(yǔ)義網(wǎng)的目標(biāo)是讓網(wǎng)絡(luò)上的信息變成機(jī)器可以理解的形式，使萬(wàn)維網(wǎng)變得智能化和自動(dòng)化。圍繞這一目標(biāo)，誕生了許多新技術(shù)，如本體語(yǔ)言RDF/OWL等。這些新技術(shù)為應(yīng)用信息管理帶了新方法。本體能有效地解決信息異構(gòu)問(wèn)題，明確地說(shuō)明領(lǐng)域概念，并對(duì)應(yīng)用數(shù)據(jù)進(jìn)行語(yǔ)義封裝。應(yīng)用本身又具有很強(qiáng)的領(lǐng)域特性，本體技術(shù)恰可在其中發(fā)揮作用。隨著越來(lái)越多的應(yīng)用開(kāi)始支持語(yǔ)義網(wǎng)技術(shù)，應(yīng)用領(lǐng)域內(nèi)的語(yǔ)義數(shù)據(jù)開(kāi)始不斷的積累。如何管理這些語(yǔ)義數(shù)據(jù)，并如何有效地檢索需要的信息成為每個(gè)領(lǐng)域應(yīng)用者關(guān)注的問(wèn)題。
構(gòu)建語(yǔ)義數(shù)據(jù)庫(kù)系統(tǒng)是解決這個(gè)問(wèn)題的重要方法之一，語(yǔ)義數(shù)據(jù)庫(kù)系統(tǒng)通常構(gòu)筑在傳統(tǒng)的數(shù)據(jù)存儲(chǔ)設(shè)施之上，如關(guān)系數(shù)據(jù)庫(kù)之上。通過(guò)將語(yǔ)義數(shù)據(jù)轉(zhuǎn)換存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)的表結(jié)構(gòu)之中，再通過(guò)關(guān)系查詢語(yǔ)言進(jìn)行查詢。由于其索引措施是基于B+樹(shù)等索引，而樹(shù)結(jié)構(gòu)索引不適合多關(guān)鍵字匹配，因此，當(dāng)在這樣的索引數(shù)據(jù)上進(jìn)行多關(guān)鍵字匹配查詢或者檢索時(shí)，效率非常低下。倒排表專門為多關(guān)鍵字匹配設(shè)計(jì)，在進(jìn)行多關(guān)鍵字匹配查詢或者檢索時(shí)效率很高。鑒于此，考慮運(yùn)用倒排表結(jié)構(gòu)來(lái)進(jìn)行語(yǔ)義數(shù)據(jù)的索引和存儲(chǔ)也不失為一個(gè)有效方法。
大量的應(yīng)用數(shù)據(jù)產(chǎn)生并貯存之后，必然需要有效的獲取方法。采用傳統(tǒng)的數(shù)據(jù)庫(kù)查詢方法可進(jìn)行精確的檢索，但需要構(gòu)建復(fù)雜的查詢語(yǔ)句，而且返回的查詢結(jié)果是無(wú)序的。對(duì)于普通用戶而言，更期望使用類似于搜索引擎一樣的便捷檢索方式，而這是存儲(chǔ)設(shè)施目前所不能提供的。如果能對(duì)應(yīng)用存儲(chǔ)設(shè)施提供檢索支持，尤其利用其中的語(yǔ)義信息部分，提供排序能力，那么用戶將從中受益。

發(fā)明內(nèi)容
本方法目的是提供一種語(yǔ)義網(wǎng)信息的索引與獲取方法，該方法能夠?qū)崿F(xiàn)應(yīng)用文檔的數(shù)據(jù)有效存儲(chǔ)與檢索。
本發(fā)明提供的一種語(yǔ)義網(wǎng)信息的索引與獲取方法，其步驟為首先按照步驟(1)建立信息索引，當(dāng)接收到檢索請(qǐng)求時(shí)，按照步驟(2)-(9)獲取信息；步驟(1)建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表，其中，實(shí)體倒排表包括以下字段URI、路徑、路徑長(zhǎng)度、類型、元數(shù)據(jù)、排序值；文檔倒排表包括以下字段URI、URL、內(nèi)容、排序值；然后分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中步驟(2)接受檢索請(qǐng)求，依據(jù)請(qǐng)求類型不同，分別檢索對(duì)應(yīng)的語(yǔ)義實(shí)體倒排表或者是文檔倒排表；步驟(3)獲取檢索到的結(jié)果并生成中間結(jié)果集；步驟(4)判斷是否對(duì)中間結(jié)果集進(jìn)行排序，如果需要排序，執(zhí)行步驟(5)；否則，跳轉(zhuǎn)步驟(6)；步驟(5)獲取文檔實(shí)體“排序值”，獲取其同查詢的內(nèi)容相似度，并求加權(quán)和，然后據(jù)此對(duì)中間結(jié)果集排序；步驟(6)將中間結(jié)果集作為最終結(jié)果返回；步驟(7)判斷是否需要更新操作，如果不需要更新，跳轉(zhuǎn)步驟(2)；否則進(jìn)入步驟(8)；步驟(8)對(duì)所有的實(shí)體的“排序值”進(jìn)行重新計(jì)算，替代原有的“排序值”；步驟(9)重復(fù)步驟(2)-(8)，直至服務(wù)終止。
針對(duì)領(lǐng)域應(yīng)用提出的這些需求，本發(fā)明結(jié)合信息檢索技術(shù)和語(yǔ)義網(wǎng)技術(shù)，提出了一種面向應(yīng)用的解決方案，用于領(lǐng)域應(yīng)用文檔(包括語(yǔ)義數(shù)據(jù)和文本)的索引、存儲(chǔ)與檢索。具體而言，本發(fā)明具有以下特點(diǎn)(1)通過(guò)倒排表方法將語(yǔ)義信息索引并存儲(chǔ)起來(lái)，實(shí)現(xiàn)了文檔元數(shù)據(jù)同文本內(nèi)容的一站式索引存儲(chǔ)。其好處是在進(jìn)行字段內(nèi)關(guān)鍵字匹配時(shí)可獲得高效率，并且保持較小的磁盤開(kāi)銷。另外，由于索引類型相同，語(yǔ)義數(shù)據(jù)與純文本數(shù)據(jù)不再需要各自存儲(chǔ)，可通過(guò)Lucene程序接口直接將索引建在磁盤上。
(2)通過(guò)對(duì)特定領(lǐng)域上下文信息進(jìn)行分析，繼而計(jì)算出語(yǔ)義實(shí)體在領(lǐng)域內(nèi)的重要性，并結(jié)合關(guān)鍵字檢索方法對(duì)返回結(jié)果排序。該方法考慮了文檔的重要性，同時(shí)兼顧了其同查詢的相關(guān)性，因此可提供較好的檢索準(zhǔn)確度。
(3)該方法獨(dú)立于具體的應(yīng)用領(lǐng)域，因而具有良好的通用性和可移植性?？梢员粡V泛地集成到當(dāng)前的信息管理系統(tǒng)中，如科技文獻(xiàn)管理、電子郵件管理、在線社區(qū)文檔管理等。

圖1為本發(fā)明語(yǔ)義網(wǎng)信息索引與獲取方法流程示意圖。
圖2為更新例程流程示意圖。
圖3為文獻(xiàn)領(lǐng)域的RDF實(shí)例圖示。
圖4為文獻(xiàn)領(lǐng)域模式圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
本發(fā)明采用倒排表來(lái)索引語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容，并通過(guò)計(jì)算一個(gè)語(yǔ)義網(wǎng)實(shí)體在領(lǐng)域本體內(nèi)的影響力來(lái)決定其重要性，并依據(jù)其重要性對(duì)檢索結(jié)果進(jìn)行排序。本發(fā)明包括兩個(gè)主要部分，即首先建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表，繼而分別往兩個(gè)倒排表中添加具體內(nèi)容；其次，基于建立的倒排表進(jìn)行信息獲取。下面就具體步驟作詳細(xì)說(shuō)明
步驟(1)建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表。其中，實(shí)體倒排表①包括以下字段URI(統(tǒng)一資源標(biāo)示符)、路徑、路徑長(zhǎng)度、類型、元數(shù)據(jù)、排序值；文檔倒排表②包括以下字段URI、URL(統(tǒng)一資源定位)、內(nèi)容、排序值。其中“排序值”字段保存URI標(biāo)示的實(shí)體在領(lǐng)域內(nèi)的排名值。
文檔(URI，路徑，路徑長(zhǎng)度，類型，元數(shù)據(jù)，排序值)①文檔(URI，URL，內(nèi)容，排序值) ②上述倒排表通過(guò)Lucene應(yīng)用程序接口實(shí)現(xiàn)，其結(jié)構(gòu)中，一個(gè)字段是文檔的一個(gè)區(qū)段。每個(gè)字段有兩個(gè)部分，一個(gè)名字和值域。對(duì)于領(lǐng)域本體而言，它首先被表示成圖，然后映射到倒排表結(jié)構(gòu)。其中，每個(gè)概念實(shí)例對(duì)應(yīng)一個(gè)文檔對(duì)象，由URI進(jìn)行標(biāo)示。其屬性值和關(guān)系值則被存儲(chǔ)在元數(shù)據(jù)字段。屬性通常視為標(biāo)注的角色，其值是文字類型，被作為長(zhǎng)度為1的路徑。關(guān)系則蘊(yùn)涵在兩個(gè)概念之間，有可能不是直連的，而是通過(guò)一個(gè)路徑的形式再相連。對(duì)于這種關(guān)系，其路徑也作為一個(gè)字段來(lái)使用。為了進(jìn)行應(yīng)用文檔檢索，把文檔純文本內(nèi)容也進(jìn)行索引，用如②所示的倒排表形式。“URI”可視作文檔對(duì)象的標(biāo)示符，“URL”指出其物理位置，具體為磁盤上的路徑?！皟?nèi)容”字段用來(lái)索引純文本內(nèi)容，“排序值”字段保存文檔在領(lǐng)域內(nèi)的排名值。
步驟(2)分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中；(2.1)讀取語(yǔ)義信息文件并解析生成數(shù)據(jù)圖。讀取一個(gè)語(yǔ)義信息文件，通常是一個(gè)RDF文件。通過(guò)RDF應(yīng)用程序接口(如Jena)解析該文件，并將之表達(dá)成數(shù)據(jù)圖存貯在內(nèi)存中。
(2.2)解析并添加數(shù)據(jù)圖到倒排表中。由一個(gè)解析器負(fù)責(zé)處理在內(nèi)存中暫存的數(shù)據(jù)圖，并提取其中的實(shí)例。對(duì)于每個(gè)實(shí)例，建立一個(gè)文檔對(duì)象與之對(duì)應(yīng)，同時(shí)將實(shí)例的屬性值以及關(guān)系值添加到文檔對(duì)象中相應(yīng)的字段內(nèi)。
一般情況下，設(shè)定路徑長(zhǎng)度3-4可以滿足80％以上的查詢需要。對(duì)于較深的路徑查詢，可以通過(guò)組合多次短路徑查詢來(lái)完成。對(duì)于一些特殊的RDF內(nèi)置關(guān)系，如rdf:Bag，rdf:Seq和rdf:Alt，經(jīng)過(guò)一個(gè)變換處理直接地把它們當(dāng)作長(zhǎng)度為1的路徑。下面結(jié)合具體的實(shí)例(圖3)來(lái)闡明一些關(guān)鍵操作過(guò)程。論文一和論文二是概念(Concept)“文獻(xiàn)”的實(shí)例。作者一和作者二結(jié)點(diǎn)是概念“人”的實(shí)例。會(huì)議一、雜志一則分別是概念“會(huì)議”和“雜志”的對(duì)應(yīng)實(shí)例。這些概念都有一些用于注釋的屬性，如全名、機(jī)構(gòu)、出版社、論文題目等。為了要將該實(shí)例圖編入索引中，所有的關(guān)系和屬性被映射到文檔對(duì)象的路徑字段，其中所有的屬性和直接關(guān)系被作為長(zhǎng)度1的路徑。

上述結(jié)構(gòu)能夠滿足目前語(yǔ)義數(shù)據(jù)查詢中三元組匹配(？主語(yǔ)，？謂詞，？賓語(yǔ))的需要。其中，？x表示x是將被檢索的變量?！爸髡Z(yǔ)”的值域是在URI之內(nèi)，謂詞則可以直接用路徑名字指定。舉例來(lái)說(shuō)(？論文，#標(biāo)題，“研究”)，和(#張三，#全名，？郵箱)。該結(jié)構(gòu)也可以滿足組合的復(fù)雜查詢，如((？作者，#全名，“張三”)或(？作者，#機(jī)構(gòu)，“xx學(xué)?！?)，((？論文一，#標(biāo)題，“方法”)與(？論文一，#引用，？論文二))。也可滿足連接查詢，如(？論文，“#作者#全名”，“張三”)，它將會(huì)返回所有的包含作者全名“張三”的文獻(xiàn)。
(2.3)解析并索引應(yīng)用文檔純文本；利用Lucene的文本解析工具和寫索引器將文本內(nèi)容添加到文檔索引中。
步驟(3)接受檢索請(qǐng)求，依據(jù)請(qǐng)求類型不同，分別檢索對(duì)應(yīng)的語(yǔ)義實(shí)體倒排表或者是文檔倒排表；通常，一個(gè)請(qǐng)求R＝{Q；F}由兩個(gè)部分組成，Q代表查詢，由n≥1個(gè)檢索項(xiàng)s1，…，si，…，sn構(gòu)成，其中si采用ti:ki的格式，ti說(shuō)明檢索的屬性，ki是屬性ti內(nèi)容包含的關(guān)鍵字。F為檢索類型標(biāo)志，如果F設(shè)為1，則為數(shù)據(jù)實(shí)例檢索，否則為文檔檢索。該步驟即通過(guò)解析標(biāo)志F繼而判斷請(qǐng)求類型。如果數(shù)據(jù)實(shí)例檢索，則通過(guò)在語(yǔ)義信息倒排表(形式為①)中進(jìn)行檢索，并返回相應(yīng)的語(yǔ)義實(shí)體。如果是文檔檢索，則通過(guò)在文檔內(nèi)容倒排表(形式為②)中進(jìn)行檢索，將內(nèi)容中包含檢索關(guān)鍵字的文檔返回。
步驟(4)獲取檢索到的結(jié)果并生成中間結(jié)果集；步驟(5)判斷是否對(duì)中間結(jié)果集進(jìn)行排序。如果需要排序，執(zhí)行步驟6；否則，跳轉(zhuǎn)步驟7。
步驟(6)獲取文檔實(shí)體“排序值”，獲取其同查詢的內(nèi)容相似度，并求加權(quán)和，然后據(jù)此對(duì)中間結(jié)果集排序；為了在進(jìn)行文檔檢索時(shí)能獲得較好的相關(guān)度，查詢和文檔之間的相關(guān)性被定義為文檔在領(lǐng)域中的重要性(排序值)和查詢與文檔的內(nèi)容相似度(TF*IDF)的加權(quán)平均。假設(shè)sim(q，d)是查詢與文檔之間的內(nèi)容相似度，I(d)是文檔d在領(lǐng)域內(nèi)的排序規(guī)格化值，則用來(lái)衡量文檔同查詢的相關(guān)性新度量，可用一個(gè)加權(quán)策略R(q，d)＝w×sim(q，d)+(1-w)×I(d)來(lái)表示，其中w是權(quán)重調(diào)節(jié)因子，可以根據(jù)不同應(yīng)用領(lǐng)域的要求靈活地調(diào)整。最終文檔實(shí)體依據(jù)R(q，d)的值高低進(jìn)行降序排列?？赏ㄟ^(guò)Lucene系統(tǒng)內(nèi)置的TF*IDF(向量空間模型中的詞頻率-逆向文檔頻率)的計(jì)算接口獲取文檔同查詢的相關(guān)度。TF即關(guān)鍵詞在文檔中的出現(xiàn)頻率，IDF＝N/DF，N為文檔集中總的文檔數(shù)，DF即關(guān)鍵詞的文檔頻率。文檔實(shí)體的“排序值”則可從倒排表中直接獲取。
步驟(7)將中間結(jié)果集作為最終結(jié)果返回；步驟(8)判斷是否需要更新操作。如果不需要更新，跳轉(zhuǎn)步驟(3)；否則順序執(zhí)行；如果知識(shí)庫(kù)有新內(nèi)容加入，并且加入的數(shù)量達(dá)到一定規(guī)模，通常超過(guò)原來(lái)文獻(xiàn)數(shù)量的5％，將會(huì)對(duì)實(shí)體原來(lái)的重要性值產(chǎn)生足夠的大影響，需要調(diào)用更新例程重新計(jì)算領(lǐng)域內(nèi)實(shí)體的重要性。通過(guò)離線迭代運(yùn)算，用實(shí)體的排序新值替換其原值。
步驟(9)對(duì)所有的實(shí)體的“排序值”進(jìn)行重新計(jì)算，替代原有的“排序值”；該過(guò)程的核心思想是計(jì)算一個(gè)被檢索的實(shí)體在領(lǐng)域中的重要性。對(duì)于一個(gè)特定領(lǐng)域來(lái)說(shuō)，領(lǐng)域本體提供了資源之間的上下文語(yǔ)義，這些上下文描述影響資源排序的各個(gè)方面，因此可借助這些上下文信息來(lái)計(jì)算領(lǐng)域本體中概念實(shí)例的重要性值。為了解釋方便，把本體模式同其實(shí)例區(qū)分開(kāi)來(lái)。模式圖的節(jié)點(diǎn)代表領(lǐng)域內(nèi)的核心概念(也可用面向?qū)ο笾械念悂?lái)理解)，其具體實(shí)例或者實(shí)體(也可用面向?qū)ο笾械膶?duì)象來(lái)理解)，更新例程計(jì)算通過(guò)在本體模式圖上添加邊以及權(quán)重注釋，來(lái)表達(dá)重要性如何在本體模式之間進(jìn)行傳遞，而這些添加的信息將被用來(lái)計(jì)算領(lǐng)域本體中概念實(shí)例的排序值(即重要性值)。如圖4(a)是示例領(lǐng)域本體的一部分，圖4(b)則是加上權(quán)重傳遞注釋之后的領(lǐng)域本體。圖中每條邊劃分為對(duì)應(yīng)的兩個(gè)邊，分別表達(dá)前向和后向的權(quán)重傳遞關(guān)系。最終本體中每個(gè)實(shí)體的排序值則通過(guò)αn＝λ·A·αn-1+(1-λ)·e計(jì)算得到。該方法中運(yùn)用隨機(jī)沖浪模型，并包括數(shù)據(jù)集中所有節(jié)點(diǎn)。α為迭代向量，初始元素值全置為1.0，其最終結(jié)果將作為排名值使用。數(shù)據(jù)圖中任意資源之間的隨機(jī)跳變量用一個(gè)向量e來(lái)建模。A是一鄰接矩陣，連接領(lǐng)域本體的所有可用實(shí)例。λ表示衰減指數(shù)，可以在0.75～0.85之間取值。這些實(shí)例之間鏈接的權(quán)重相對(duì)應(yīng)于權(quán)重傳遞注釋本體中指定的值，而該值是由相同類型鏈接的數(shù)據(jù)整除的。當(dāng)初始化一個(gè)特定領(lǐng)域內(nèi)的權(quán)重傳遞注釋本體時(shí)，鄰接矩陣A元素值依據(jù)下面規(guī)則進(jìn)行初始化如果相應(yīng)數(shù)據(jù)圖中實(shí)體之間沒(méi)有鏈接，則其值為0；否則，該值由在權(quán)重傳遞圖中指定的邊權(quán)重決定，并由該實(shí)體同類型出鏈接的數(shù)目整除。例如，將圖3中的六個(gè)實(shí)例選取出來(lái)，構(gòu)建鄰接矩陣來(lái)表達(dá)他們之間的關(guān)聯(lián)，鄰接矩陣初始化以圖4(b)所描述的連接類型及其權(quán)重為依據(jù)。
圖2列舉一種更新例程，下面作進(jìn)一步詳細(xì)的說(shuō)明(9.1)讀取領(lǐng)域模式配置文件，得到相應(yīng)的權(quán)重傳播模式圖。
(9.2)從知識(shí)庫(kù)中提取領(lǐng)域本體的所有實(shí)例。
(9.3)將這些實(shí)例依照領(lǐng)域權(quán)重傳播模式構(gòu)建成數(shù)據(jù)圖。數(shù)據(jù)圖中任意資源之間的隨機(jī)跳變量用一個(gè)向量e來(lái)建模。將這些實(shí)例依照領(lǐng)域權(quán)重傳播模式構(gòu)建成數(shù)據(jù)圖，鄰接矩陣A用于表示所有實(shí)例的連接狀態(tài)。
(9.4)初始化鄰接矩陣A。其元素值按下面規(guī)則進(jìn)行初始化如果相應(yīng)數(shù)據(jù)圖中實(shí)體之間沒(méi)有鏈接，則其值為0；否則，該值由在權(quán)重傳遞圖中指定的邊權(quán)重決定，并由該實(shí)體同類型出鏈接的數(shù)目整除。
(9.5)利用迭代公式αn＝λ·A·αn-1+(1-λ)·e進(jìn)行運(yùn)算，n為鄰接矩陣A中實(shí)例的個(gè)數(shù)。
(9.6)計(jì)算α最近兩次的迭代結(jié)果之間的向量距離，如果該值小于某個(gè)閾值，則視作計(jì)算收斂，迭代終止；然后將所得實(shí)體的排序值存入知識(shí)庫(kù)中，即添加到索引中。
步驟(10)重復(fù)步驟(3)-(9)，直至服務(wù)終止。
上述排序方法在應(yīng)用中獲得很好的效果，在搜索的準(zhǔn)確度和相關(guān)性方面比傳統(tǒng)的純關(guān)鍵字搜索有很大的提高。
權(quán)利要求
1.一種語(yǔ)義網(wǎng)信息的索引與獲取方法，首先按照步驟(1)建立信息索引，當(dāng)接收到檢索請(qǐng)求時(shí)，按照步驟(2)-(9)獲取信息；步驟(1)建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表，其中，實(shí)體倒排表包括以下字段URI、路徑、路徑長(zhǎng)度、類型、元數(shù)據(jù)、排序值；文檔倒排表包括以下字段URI、URL、內(nèi)容、排序值；然后分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中步驟(2)接受檢索請(qǐng)求，依據(jù)請(qǐng)求類型不同，分別檢索對(duì)應(yīng)的語(yǔ)義實(shí)體倒排表或者是文檔倒排表；步驟(3)獲取檢索到的結(jié)果并生成中間結(jié)果集；步驟(4)判斷是否對(duì)中間結(jié)果集進(jìn)行排序，如果需要排序，執(zhí)行步驟(5)；否則，跳轉(zhuǎn)步驟(6)；步驟(5)獲取文檔實(shí)體“排序值”，獲取其同查詢的內(nèi)容相似度，并求加權(quán)和，然后據(jù)此對(duì)中間結(jié)果集排序；步驟(6)將中間結(jié)果集作為最終結(jié)果返回；步驟(7)判斷是否需要更新操作，如果不需要更新，跳轉(zhuǎn)步驟(2)；否則進(jìn)入步驟(8)；步驟(8)對(duì)所有的實(shí)體的“排序值”進(jìn)行重新計(jì)算，替代原有的“排序值”；步驟(9)重復(fù)步驟(2)-(8)，直至服務(wù)終止。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于步驟(1)按照下述過(guò)程分別解析并添加語(yǔ)義網(wǎng)實(shí)體和文檔內(nèi)容到實(shí)體和文檔的倒排表中(a1)讀取語(yǔ)義信息文件并解析生成數(shù)據(jù)圖；(a2)解析并添加數(shù)據(jù)圖到倒排表中；(a3)解析并索引應(yīng)用文檔純文本，并將文本內(nèi)容添加到文檔索引中。
3.根據(jù)權(quán)利要求1或2所述的方法，其特征在于步驟(8)按照下述過(guò)程進(jìn)行更新(b1)讀取領(lǐng)域配置文件，得到相應(yīng)的權(quán)重傳播模式圖；(b2)從知識(shí)庫(kù)中提取領(lǐng)域本體的所有實(shí)例；(b3)將這些實(shí)例依照領(lǐng)域權(quán)重傳播模式構(gòu)建成數(shù)據(jù)圖，鄰接矩陣A用于表示所有實(shí)例的連接狀態(tài)；(b4)初始化鄰接矩陣A，其元素值按下面規(guī)則進(jìn)行初始化如果相應(yīng)數(shù)據(jù)圖中實(shí)體之間沒(méi)有鏈接，則其值為0；否則，該值由在權(quán)重傳遞圖中指定的邊權(quán)重決定，并由該實(shí)體同類型出鏈接的數(shù)目整除；(b5)利用迭代公式αn＝λ·A·αn-1+(1-λ)·e進(jìn)行運(yùn)算，其中，α為迭代向量，λ為衰減指數(shù)，e為數(shù)據(jù)圖中任意資源之間的隨機(jī)跳變量，n為鄰接矩陣A中實(shí)例的個(gè)數(shù)；(b6)計(jì)算迭代向量α最近兩次的迭代結(jié)果之間的向量距離，如果該值小于某個(gè)閾值，則視作計(jì)算收斂，迭代終止；然后將所得實(shí)體的排序值存入知識(shí)庫(kù)中。
全文摘要
本發(fā)明公開(kāi)了一種語(yǔ)義網(wǎng)信息的索引與獲取方法，首先建立用于索引語(yǔ)義網(wǎng)實(shí)體和文檔的倒排表，繼而分別往兩個(gè)倒排表中添加具體內(nèi)容；其次，依據(jù)請(qǐng)求類型不同，分別檢索對(duì)應(yīng)的倒排表，獲取中間結(jié)果集；對(duì)需要排序的中間結(jié)果集進(jìn)行排序，再對(duì)需要更新操作的實(shí)例進(jìn)行更新。本發(fā)明將語(yǔ)義信息同傳統(tǒng)的關(guān)鍵字檢索相結(jié)合，提供新的排序方法，能顯著提高語(yǔ)義網(wǎng)環(huán)境下信息檢索能力。本發(fā)明方法具有良好的通用性和可移植性，可被廣泛地集成到當(dāng)前的信息管理系統(tǒng)中。
文檔編號(hào)G06F17/30GK101030217SQ20071005174
公開(kāi)日2007年9月5日申請(qǐng)日期2007年3月22日優(yōu)先權(quán)日2007年3月22日
發(fā)明者金海 , 武浩, 袁平鵬, 寧小敏, 余一嬌申請(qǐng)人:華中科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：金海;武浩;袁平鵬;寧小敏;余一嬌
技術(shù)所有人：華中科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語(yǔ)義網(wǎng)信息的索引與獲取方法