專利名稱:蔬菜供應(yīng)鏈知識智能獲取系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及--種知識獲取系統(tǒng)領(lǐng)域,尤其是-種蔬菜供應(yīng)鏈知識智能獲取系統(tǒng)。
背景技術(shù):
我國是農(nóng)業(yè)大國,也是蔬菜生產(chǎn)大國,蔬菜產(chǎn)業(yè)在我國農(nóng)業(yè)中占有重要的地位。隨 著市場經(jīng)濟的發(fā)展和國家農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,在過去10年間,我國的蔬菜產(chǎn)量以每年大 約9. 3%的速度增加。我國蔬菜播種面積到2007年達到2. 6億畝,總產(chǎn)量5. 65億噸,人均 占有量420多公斤。設(shè)施蔬菜到2007年達到5000多萬畝。另據(jù)FA0統(tǒng)計,我國蔬菜播種 面積和產(chǎn)量分別占世界的43%、49%,均居世界第一。蔬菜已成為增加農(nóng)民收入的支柱產(chǎn) 業(yè)。 但和發(fā)達國家相比,我國的蔬菜產(chǎn)業(yè)的發(fā)展存在著管理落后、信息化水平低、生產(chǎn) 流通過程效率低下、流通成本高、產(chǎn)品安全受到質(zhì)疑等問題。這些問題嚴重影響了我國蔬菜 產(chǎn)業(yè)在國際市場上的競爭力。供應(yīng)鏈管理(supply chain management, SCM)作為提高現(xiàn)代 企業(yè)競爭力的重要手段,將其引入我國蔬菜產(chǎn)業(yè)生產(chǎn)中已成為提高我國蔬菜產(chǎn)業(yè)競爭力的 當(dāng)務(wù)之急。 我國蔬菜企業(yè)基礎(chǔ)設(shè)施建設(shè)的不完善使得蔬菜供應(yīng)鏈的物流成本和信息處理成 本非常高,許多重要的技術(shù)和方法如J]T和E:R:P等在蔬菜供應(yīng)鏈管理中還沒有采用;加之我 國蔬菜供應(yīng)鏈結(jié)構(gòu)的多樣性,蔬菜供應(yīng)鏈的參與者往往只考慮自身的利益得失,而很難直 接體會到供應(yīng)鏈管理所帶來的好處。 另外,蔬菜供應(yīng)鏈企業(yè)缺乏技術(shù)支持。和工業(yè)企業(yè)相比,蔬菜企業(yè)的發(fā)展十分滯 后,蔬菜企業(yè)的供應(yīng)鏈管理模型并沒有被地方政府和農(nóng)業(yè)組織充分意識到,他們往往很少 為此提供足夠的技術(shù)支持。 供應(yīng)鏈管理對于中國蔬菜供應(yīng)鏈的參與者來說還是一個新的概念。 一般來說,我 國蔬菜供應(yīng)鏈的參與者主要有農(nóng)民、農(nóng)產(chǎn)品供應(yīng)者、商人、收集者、運輸者、批發(fā)者、零售者、 出口商和進口商等。他們中的很多人的教育背景不高,供應(yīng)鏈管理作為一個新的概念他們 往往很難理解其重要作用而導(dǎo)致接受時間延遲。本發(fā)明旨在搜集國內(nèi)外特別是歐美國家 蔬菜供應(yīng)鏈專業(yè)知識,并提供專業(yè)的語義獲取技術(shù)來為蔬菜供應(yīng)鏈知識的傳播提供技術(shù)支 撐。 目前,盡管已經(jīng)有專業(yè)領(lǐng)域如花卉本體庫的構(gòu)建被提出,但針對專業(yè)農(nóng)業(yè)知識的 智能化知識獲取系統(tǒng)仍是一個空白,將農(nóng)業(yè)專業(yè)知識和通用的知識獲取手段相結(jié)合是提高 農(nóng)業(yè)知識獲取質(zhì)量和效率的關(guān)鍵,與其相適應(yīng)的專業(yè)知識的搜索推理算法的研究是其中的 關(guān)鍵技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種可以解決上述問題的蔬菜供應(yīng)鏈知識智能獲取系統(tǒng)。
本發(fā)明采用如下技術(shù)方案一種蔬菜供應(yīng)鏈知識智能獲取系統(tǒng),其特征在于,包括 —、知識采集 知識采集是知識獲取系統(tǒng)建立的第一步驟,也是實現(xiàn)知識加工和提供知識服務(wù)的
基礎(chǔ)。由于蔬菜供應(yīng)鏈知識獲取系統(tǒng)所管理和提供服務(wù)的知識是面向特定領(lǐng)域的(蔬菜供 應(yīng)鏈管理領(lǐng)域)且涵蓋了蔬菜供應(yīng)鏈的所有環(huán)節(jié)(包括倉儲、訂單管理、運輸、配送等),而 這一特定領(lǐng)域的知識又以多種形式存在,如互聯(lián)網(wǎng)知識、書本、專家的經(jīng)驗等。與一般的信
息檢索系統(tǒng)采用Robot技術(shù)從互聯(lián)網(wǎng)上自動抓取知識的方式不同,要求針對這一特定領(lǐng)域
的知識盡可能涵蓋多的知識來源。這里采用了手工獲取的方式來進行蔬菜供應(yīng)鏈領(lǐng)域知識 的獲取。主要采集的知識是歐洲(德國、希臘、英國等國家)與亞洲(中國)由互聯(lián)網(wǎng)支持 的農(nóng)產(chǎn)品供應(yīng)鏈特別是蔬菜供應(yīng)鏈相關(guān)的知識。知識采集和知識庫建立的目的是縮小中國
和歐洲國家在蔬菜供應(yīng)鏈管理上的鴻溝,實現(xiàn)知識的共享。我們收集的知識主要包括領(lǐng)域 專家的經(jīng)驗、書本、報紙、案例、學(xué)術(shù)論文、實踐經(jīng)驗等。知識收集的途徑主要是互聯(lián)網(wǎng)搜索、 網(wǎng)站知識獲取、書本文獻查閱、專家走訪等。目前我們蔬菜供應(yīng)鏈知識庫中已經(jīng)收取了超過 415條的相關(guān)知識,并且這一數(shù)目還在不斷的增長中。
數(shù)據(jù)采集以后存貯在本地數(shù)據(jù)庫中,數(shù)據(jù)庫中的數(shù)據(jù)項條目如表(1)所示
二、知識加工 知識采集后,要進行知識的加工處理。為了實現(xiàn)基于本體的智能知識檢索,其中最 重要的一步是建立領(lǐng)域本體庫。領(lǐng)域本體是在領(lǐng)域?qū)<业膸椭鶩建立在本地知識庫的基礎(chǔ) 上的。對于本地知識庫中的數(shù)據(jù)利用RDF表示提取其數(shù)據(jù)信息。RDF以三元組的形式表示 數(shù)據(jù),對于以RDF表示的數(shù)據(jù)通過語義標(biāo)引和語義映射在領(lǐng)域?qū)<业膸椭聦崿F(xiàn)領(lǐng)域本體 庫的構(gòu)建。這其中的主要工作是提取數(shù)據(jù)信息,將數(shù)據(jù)項按照領(lǐng)域本體的結(jié)構(gòu)進行組織和 安排。這樣,在進行信息檢索時不僅能獲得該數(shù)據(jù)項的信息還可以獲取該數(shù)據(jù)項和其它數(shù) 據(jù)項之間的關(guān)系。如描述領(lǐng)域概念的上下位關(guān)系、相似關(guān)系等。這也為后面知識服務(wù)過程 中進行語義推理奠定了基礎(chǔ)。
三、知識服務(wù) 系統(tǒng)建立的最后一步功能是提供知識服務(wù),整個系統(tǒng)共向用戶提供三種知識獲取 方式基于關(guān)鍵詞的檢索、語義擴展檢索和基于本體的知識獲取?;陉P(guān)鍵詞的檢索是一種 傳統(tǒng)的信息檢索方式,它根據(jù)用戶的輸入采用關(guān)鍵詞匹配的方式進行信息的檢索。在本系 統(tǒng)中提供該功能,一方面為適應(yīng)用戶的傳統(tǒng)檢索習(xí)慣,另--方面可以將這一傳統(tǒng)檢索技術(shù) 的檢索結(jié)果與基于本體的檢索技術(shù)的檢索結(jié)果作一個對比。語義擴展的檢索是在關(guān)鍵詞檢 索的基礎(chǔ)上通過描述領(lǐng)域詞匯相關(guān)度的詞匯表進行語義擴展,經(jīng)過語義擴展之后再進行信 息的檢索?;诒倔w的知識獲取是第三種提供知識服務(wù)的方式,對于用戶的知識檢索需求, 利用査詢語義分析器將用戶的查詢請求轉(zhuǎn)化為領(lǐng)域本體庫中所使用的RDF三元組的形式。 這樣和在第二歩中建立的領(lǐng)域知識本體庫中的三元組進行匹配,利用Jena進行解析,把用 戶所需的知識從本體庫和知識庫中抽取出來,提供給用戶。另外在Jena的基礎(chǔ)上還可以進 行語義推理、語義檢索等知識服務(wù)。語義推理主要是利用推理機,推理出本體中所隱含的類 之間的關(guān)系,從而實現(xiàn)檢索語義的擴展。(2)關(guān)鍵詞檢索 關(guān)鍵詞檢索使用一組有代表性的關(guān)鍵詞(索引術(shù)語)來描述數(shù)據(jù)庫中的每一項內(nèi) 容。它是一種傳統(tǒng)的信息檢索方式,目前許多著名的互聯(lián)網(wǎng)搜索引擎如谷歌(w腳.google, com)和百度(www. baidu. com)等都是利用用戶輸入的關(guān)鍵詞進行信息的查詢。
基于關(guān)鍵詞的檢索優(yōu)點和缺點同樣明顯,優(yōu)點是簡單、快捷、具有較快的檢索速 度。缺點主要有l(wèi).檢索意圖表達困難,通常用戶很難用一個或幾個簡單的關(guān)鍵詞就能表 達自己的檢索意圖,這導(dǎo)致檢索效率不高。2.由于語言中的一詞多義或者一義多詞現(xiàn)象,使 得關(guān)鍵詞檢索很難解決同義詞查詢的問題。如對于"App:l.e"可以理解成蔬菜中的蘋果還可 以理解成一個著名電腦公司的品牌。另外,由于文化教育背景等的差異,用戶查詢同樣的信 息也很可能選用不同的關(guān)鍵詞。3.關(guān)鍵詞檢索的另一個主要問題是所謂的"信息孤島"問 題,由于關(guān)鍵詞只能反映原始數(shù)據(jù)項的描述,不能反映數(shù)據(jù)項的具體內(nèi)容,這導(dǎo)致原本存在 概念上相關(guān)的信息不能反映其內(nèi)在聯(lián)系,在檢索時也就不能通過一個數(shù)據(jù)項的信息來獲取 與其關(guān)聯(lián)的文檔信息,這也是語義檢索所著力解決的問題。另外,在關(guān)鍵詞的檢索中,往往 過于追求檢索的查全率,這導(dǎo)致查詢的結(jié)果往往數(shù)量非常龐大,而用戶根難有精力來對其 進行分析。 通過定義蔬菜供應(yīng)鏈領(lǐng)域知識語義詞典,在語義詞典的支持下經(jīng)過語義擴展、語
義蘊含、語義外延、語義聯(lián)想等語義擴展得到一組具有較強語義相關(guān)性的查詢條件集合,在
進行語義擴展的過程中可以根據(jù)概念間的關(guān)系描述,進行相關(guān)的語義推理。 基于語義擴展的查詢能夠提高信息檢索的查全率和查準(zhǔn)率等參數(shù)。然而,由于語
義推理過程發(fā)生在與用戶交互的在線階段,這勢必會增加單位用戶的平均服務(wù)時間,影響
服務(wù)器的響應(yīng)性能,尤其當(dāng)存在大量并發(fā)用戶時,系統(tǒng)的性能下降尤為明顯。
(3)基于本體的語義檢索 通過構(gòu)建蔬菜供應(yīng)鏈領(lǐng)域本體模型,本體模型中描述了蔬菜供應(yīng)鏈概念間的關(guān) 系。通過將本體模型進行形式化表示,加入推理規(guī)則來完成對有關(guān)元數(shù)據(jù)的推理處理,得出 隱含的檢索信息。由于蔬菜供應(yīng)鏈本體模型描述了蔬菜供應(yīng)鏈知識概念間的相互關(guān)系,通 過基于本體模型的語義檢索可以較好的反映用戶檢索意圖,得到較高的查全查準(zhǔn)率。 本發(fā)明的目的是設(shè)計一套針對蔬菜供應(yīng)鏈領(lǐng)域的知識智能獲取系統(tǒng),借助計算機 媒介實現(xiàn)蔬菜供應(yīng)鏈知識的有效傳播,特別是實現(xiàn)國內(nèi)外蔬菜供應(yīng)鏈領(lǐng)域知識的傳遞。系 統(tǒng)以蔬菜供應(yīng)鏈本體模型為支撐,提供關(guān)鍵詞檢索、語義擴展檢索與基于本體模型的語義 檢索三種檢索方式,作為針對專業(yè)領(lǐng)域的知識獲取工具,本系統(tǒng)具有高的查詢效率??梢苑?便蔬菜供應(yīng)鏈參與者、科研人員方便獲取專業(yè)知識。
圖1是本發(fā)明數(shù)據(jù)庫中的數(shù)據(jù)項示意圖; 圖2是本發(fā)明概念之間的相關(guān)性示意圖; 圖3是本發(fā)明系統(tǒng)性能分析示意圖; 圖4是本發(fā)明蔬菜供應(yīng)鏈知識智能獲取系統(tǒng)結(jié)構(gòu)圖; 圖5是本發(fā)明蔬菜供應(yīng)鏈領(lǐng)域概念擴展示意6
圖6是本發(fā)明蔬菜供應(yīng)鏈本體構(gòu)建流程圖; 圖7是本發(fā)明中國蔬菜供應(yīng)鏈模式; 圖8是本發(fā)明蔬菜供應(yīng)鏈本體中部分類結(jié)構(gòu); 圖9是本發(fā)明蔬菜供應(yīng)鏈本體中合同生產(chǎn)者類的屬性槽; 圖10是本發(fā)明系統(tǒng)主界面; 圖11是本發(fā)明關(guān)鍵詞搜索模塊; 圖12是本發(fā)明語義擴展搜索模塊; 圖13是本發(fā)明基于本體的語義擴展搜索模塊。 本發(fā)明的目的、功能及優(yōu)點將結(jié)合實施例,參照附圖做進一步說明。
具體實施方式
如圖所示,( — )定義蔬菜供應(yīng)鏈語義詞典 參照WordNet (wordnet. princeton. edu)的做法對蔬菜供應(yīng)鏈領(lǐng)域的概念進行語 義分析。建立了用于描述蔬菜供應(yīng)鏈概念之間相關(guān)性的語義詞典。 首先定義了用于描述蔬菜供應(yīng)鏈過程中數(shù)據(jù)的元數(shù)據(jù),在進行語義擴展檢索時,
對于用戶提交的初始查詢條件,在語義詞典的支持下經(jīng)過語義擴展、語義蘊含、語義外延、
語義聯(lián)想等語義擴展得到一組具有較強語義相關(guān)性的查詢條件集合,語義擴展過程如附圖
2所示,在進行語義擴展的過程中可以根據(jù)概念間的關(guān)系描述,進行相關(guān)的語義推理。
( 二 )本體構(gòu)建及基于本體的語義檢索 (1)使用Prot6g6構(gòu)建蔬菜供應(yīng)鏈領(lǐng)域本體模型 基于本體的蔬菜供應(yīng)鏈管理知識語義獲取是系統(tǒng)開發(fā)的重點模塊。為此首先要構(gòu) 造蔬菜供應(yīng)鏈管理本體。 由于本體理論的研究剛剛興起,目前主要還處于理論研究層面,至今仍沒有成熟 的基于本體的軟件開發(fā)框架,而且不同領(lǐng)域具有各自的特點,目前并沒有--個統(tǒng)一的構(gòu)建 領(lǐng)域本體的方法。比較有名的本體構(gòu)造方法主要有T0VE法、METH本體法、骨架法、KACTUS 工程法、SENSUS法、IDEF5法、七步法等。這些領(lǐng)域本體構(gòu)造方法各具特色,且每一種構(gòu)造方 法都有一個總的流程和各步的操作規(guī)則構(gòu)成。在構(gòu)造蔬菜供應(yīng)鏈本體的過程中采用了類似 于七步法的構(gòu)造方法。由于目前還沒有見到與蔬菜供應(yīng)鏈領(lǐng)域相關(guān)的領(lǐng)域本體,因此,整個 本體的構(gòu)造過程中沒有本體重用這一歩,整個構(gòu)造過程共分六步如附圖3所示。
首先,分析我國蔬菜供應(yīng)鏈運作模式(附圖4),確定蔬菜供應(yīng)鏈領(lǐng)域的范圍,在構(gòu) 造初始階段給出系統(tǒng)所需的蔬菜供應(yīng)鏈領(lǐng)域的所有概念的定義。在第三步中,要建立蔬菜 供應(yīng)鏈領(lǐng)域本體的框架,在此框架中要描述各個概念及其之間的關(guān)系;然后對建立的本體 進行編碼和形式化表示。最后要對所建立的本體進行檢査和評估,以確定所建立的領(lǐng)域本 題滿足要求并且符合本體建立時所定義的規(guī)則。檢查的過程中還要看概念是否定義完整以 及概念間的關(guān)系描述是否完整。另外,構(gòu)造領(lǐng)域本體的過程是一個不斷重復(fù),不斷完善的過 程。 我們使用Prot6g6本體建模工具來創(chuàng)建蔬菜供應(yīng)鏈領(lǐng)域本體。在Prot6g6中最左 邊的一列是類標(biāo)簽,使用類標(biāo)簽導(dǎo)航來創(chuàng)建蔬菜供應(yīng)鏈知識本體的所有類結(jié)構(gòu)。在Prot6g6中類是以層次結(jié)構(gòu)組織的,每個類可以包含子類,類及子類可以定義自己的屬性。在剛開始 Prot6g6的類結(jié)構(gòu)中只包含THING類及它的子類SYSTEM-CLASS,其中THING類是Prot6g6中 所有類的父類,SYSTEM-CLASS類定義了一些基本元素包括類、槽等。在Prot6g6中要創(chuàng)建一 個新的類可以通過點擊創(chuàng)建類按鈕,在類的編輯區(qū)可以輸入類的相關(guān)信息如類的名稱、文 檔、約束等。要創(chuàng)建某個類的子類,首先選中此類然后點擊創(chuàng)建類按鈕。如創(chuàng)建系統(tǒng)中"商 人"類的子類,須先選擇"商人"類。附圖5是在Prot6g63. 2中定一個蔬菜供應(yīng)鏈本體的部 分類結(jié)構(gòu)。 在Prot6g6中類的屬性通過槽(Slot)來描述,創(chuàng)建槽的過程和創(chuàng)建類的過程類 似。其中默認值選項可以用來設(shè)置所有使用和繼承這個槽的類及其實例的默認值。領(lǐng)域 (Domain)選項用來確定當(dāng)前槽所屬的領(lǐng)域。附圖6是創(chuàng)建的蔬菜供應(yīng)鏈管理中"合同生產(chǎn) 者"這個類的一個屬性槽的實例。 當(dāng)創(chuàng)建完本體中的類、槽及其約束關(guān)系后,再創(chuàng)建類的實例。對于一個類可以創(chuàng)建 其多個實例,其槽的屬性值應(yīng)根據(jù)定義的約束來輸入。對于使用Prot6g6創(chuàng)建領(lǐng)域本體--方面由于Prot6g6表達的原因許多的領(lǐng)域知識不能輸入,另一方面對于蔬菜供應(yīng)鏈本體沒 有必要輸入其全部的信息,因為現(xiàn)實世界中的蔬菜供應(yīng)鏈的模型是十分復(fù)雜并且是不斷發(fā) 生變化的。只需要輸入滿足應(yīng)用需要的內(nèi)容即可。 在利用Prot6g6建立好蔬菜供應(yīng)鏈領(lǐng)域本體后,保存時選擇語言為RDF/XML。 RDF (Resource Description Framework)目前已經(jīng)被認為是表示和處理半結(jié)構(gòu)化數(shù)據(jù)的最 好選擇,它已經(jīng)成為W3C組織推薦的與XML和SOAP等標(biāo)準(zhǔn)并列的標(biāo)準(zhǔn)。采用RDF來表示領(lǐng) 域本體模型的核心是建立三元組描述,即將復(fù)雜的事物描述簡化成一系列的三元組描述。
RDF中的每個陳述包含主體、謂詞和客體三部分,相對而言,RDF模型的描述能力更強,因此 本模型在進行元數(shù)據(jù)語義編碼時選擇RDF模型作為參考;本體存儲為RDF格式的另一個原 因是可以使用Jena工具包在Java程序中解析和使用所定義的領(lǐng)域本體模型。在Prot6g6 保存本體時選擇的保存文件類型為()WL形式。
(2)利用Jena解析蔬菜供應(yīng)鏈領(lǐng)域本體 對于保存為OWL格式的蔬菜供應(yīng)鏈本體,為了實現(xiàn)基于本體的語義檢索,利用 Jena來解析和使用建立的蔬菜供應(yīng)鏈本體。在使用Java和Jena解析本體的過程中主要使
用的開發(fā)包有
Java. lang. *Java. lang. String. *Java. util. *com. hp. hpl. jena. rdf. model. *com. hp. hpl. jena. util. *com. hp. hpl. jena. rdf. * :com. hp. hpl. jerm. ontology. * ;com. hp. hpl. jena. reasoner. * ;com. hp. hpl. jena. vocabulary. * :com. hp. hpl. jena. reasoner. rulesys. *import Java. io. * ;
利用Jena解析蔬菜供應(yīng)鏈本體模型的第 -步是要將本體模型讀入,在讀入本體模型之前先使用了 ModelFactory類中的createDefaultMode ()方法創(chuàng)建一個空的基于內(nèi)存存儲的模型(Model或model) 。 Jena還包含了 Model接口的其他實現(xiàn)方式。例如,使用關(guān)系數(shù)據(jù)庫的,這些類型Model接口也可以從ModelFactory中創(chuàng)建。 Model model = ModelFactory. creat.eDefault.Model ();空的模型創(chuàng)建后,利用
Model接口的read函數(shù),讀入利用Prot6g6創(chuàng)建的領(lǐng)域本體模型。 model, read (謂I即utStreamReader (蔬菜供應(yīng)鏈本體模型文件), 〃 ");然后再創(chuàng)建一個資源,和傳統(tǒng)信息檢索相比,智能信息檢索最大的特點就
是在檢索過程中弓I入了資源。資源可以想象成任何可以確定要識別的東西,并被 -個統(tǒng)一
資源定位符(URI)所標(biāo)識。 Resource myresource = model. createResource ();資源擁有屬性(property),屬性的名字也是一個URI,每個屬性都有一個值。 在進行基于本體的蔬菜供應(yīng)鏈語義檢索時,對于用戶輸入的檢索要求,要將其轉(zhuǎn)化為RDF的資源對象。然后根據(jù)此資源對象來獲取建立好的蔬菜供應(yīng)鏈領(lǐng)域本體模型的資源對象。然后再使用模型的listSubjectsWithProperty方法來列出本體模型中所有具有給定的屬性,且屬性值為給定檢索值的資源。listSubjectsWithProperty方法的返回值為ResIterator類型,對于獲取的具有給定屬性的資源通過hasNext方法可以獲得所有的滿足檢索條件的資源。此過程可以用下列代碼描述
Reslterator iter = model. listSubjectsWithProperty(searchProperty, searchV
alue); while (iter. hasNext.()) { Resource r = iter. nextResource (); ) 對于要檢索的詞及其語義關(guān)系,通過模型的 list.Ob jectsOfPropert.y方法和hasNext方法可以列出對應(yīng)的所有條目。
NodeIterator result = model. 1 ist()bjects()fProperty(r, search:Property); while (result. hasNext()) { temp = result, next.(): } 在蔬菜供應(yīng)鏈本體模型中定義了蔬菜供應(yīng)鏈領(lǐng)域概念并主要描述了這些概念之間的概念上下位關(guān)系,和概念之間的等同關(guān)系等語義關(guān)系。通過對概念及其關(guān)系的這種資源形式描述,對于一個領(lǐng)域概念,可以根據(jù)檢索需求獲取其滿足給定關(guān)系的其它領(lǐng)域概念。并在此基礎(chǔ)上實現(xiàn)二次檢索。 在利用本體模型進行蔬菜供應(yīng)鏈語義元數(shù)據(jù)的語義處理時。 一個很重要的特點是要根據(jù)領(lǐng)域本體和推理規(guī)則來完成對有關(guān)元數(shù)據(jù)的推理處理,得出隱含的信息,服務(wù)于后續(xù)的査詢操作。以經(jīng)過語義編碼的元數(shù)據(jù)為推理的起點,根據(jù)規(guī)則對其進行擴充,求得其所蘊含的更豐富的信息。本體模型的推理方式主要有OWL推理方式、RDFS推理方式、傳遞推理、自定義規(guī)則推理和外部推理機等。傳遞推理是指基于具有傳遞特性的屬性進行的推理,如rdfs: subPropert.yOf和rdfs: subClassOf屬性。這種推理比較簡單,也容易實現(xiàn)。RDFS推理基本上可以被OWL推理代替,OWL的推理能力更強。OWL推理方式實際上還只能支持OWL—Lite的推理規(guī)則,不支持()WLJ〕L的推理規(guī)則。對于自定義的推理比較復(fù)雜,需要自定義完整的推理公理和規(guī)則。由于目前Jena的自身推理機效率還不是很令人滿意,許多開源項目的推理機經(jīng)常用來做為外部推理機使用。如Racer,Pellet等,其中Racer還支持OWL—DL規(guī)則的推理,效率也比較好。在建立推理規(guī)則時使用一個外部文件來定義所需要的推理規(guī)則。然后將推理規(guī)則讀入作為資源的屬性 myresource. addPropert. y (ReasonerVocabulary.
PROPruleMode, " hybrid"); myresource. addProperty (ReasonerVocabulary. PROPruleSet, 〃推理規(guī)則
文件"); 然后創(chuàng)建此推理機的一個實例 Reasoner reasoner = GenericRuleReasonerFactory. thelnst.ance ().create(myresource); 最后將推理機的實例和讀入的本體模型的數(shù)據(jù)結(jié)合起來創(chuàng)建一個推理模型。
infModel = ModelFactory. createInfModel (reasoner,數(shù)據(jù));
領(lǐng)域本體提供了語義推理所必須的規(guī)則和條件,元數(shù)據(jù)庫則為語義推理提供了需要的"土壤"條件。根據(jù)語義推理在智能信息檢索系統(tǒng)中所處階段的不同,可在具體的推理系統(tǒng)中,公理往往通過子類、子屬性、屬性定義域、屬性值域、基數(shù)限制和互不相交等規(guī)范化的術(shù)語來描述,由于這些術(shù)語的語義已為大眾廣泛接受,因此,通過它們定義出來的公理知識具有良好的通用性。為此,W3C在RDF和OWL規(guī)范中,專門制定了相應(yīng)的公理定義標(biāo)簽,如rdfs:subClassOf、rdfs:subPropertyOf、rdfs:domain、rdfs:range、 owl:equivalentClass等,正是這些規(guī)范化的標(biāo)簽使得公理推理部分可以由專門的通用處理程序如Jena的本體推理方法來完成。 根據(jù)語義推理在語義萬維網(wǎng)體系結(jié)構(gòu)種所處層面的不同,可以分為公理推理和定理推理。公理推理是建立在人們對事物具有共同認識的基礎(chǔ)之上,常常是一些有關(guān)常識性知識的推理,定理推理則是從具體的應(yīng)用出發(fā),根據(jù)特定的領(lǐng)域規(guī)則進行推理。
本體的推理規(guī)則文件的制定應(yīng)當(dāng)多使用公理推理。如下面是系統(tǒng)中使用的兩個公理的推理規(guī)則[等同關(guān)系(? a等同于? c), (? b等同于? c), notEqual( a, ? b)->( a等同于 b)][近義關(guān)系(? a近義于? b), (? a近義于? c) , notEqual ( b, ? c)->( b近義于 c)] 推理規(guī)則可以根據(jù)實際需要來進行補充,在補充過程中公理推理和定理推理都是需要的,但從通用性角度出發(fā),應(yīng)盡可能多的采用公理推理,而減少定理推理在整個推理系統(tǒng)中的比例。(三)系統(tǒng)界面、檢索過程及評測 系統(tǒng)的界面設(shè)計參照了谷歌、百度等已有搜索引擎簡潔明快的樣式,實驗系統(tǒng)的
10主界面如附圖7所示。 附圖8為利用本系統(tǒng)的關(guān)鍵詞搜索模塊搜索關(guān)鍵詞"supply chain"的結(jié)果,共計返回166條相關(guān)記錄。 附圖9為利用本系統(tǒng)的語義擴展搜索模塊搜索關(guān)鍵詞"supplychain"的結(jié)果,共計返回239條相關(guān)記錄。 附圖10為利用本系統(tǒng)的基于本體語義擴展搜索模塊搜索關(guān)鍵詞"supply chain"的結(jié)果,第一次搜索根據(jù)本體模型列出了模型中概念之間的語義關(guān)系。由于用戶在進行信息檢索時, 一般很難在第一次就準(zhǔn)確的描述出檢索要求,只有在不斷的檢索過程逐漸的提煉和明確最終的檢索目標(biāo)。在搜索出給定語義關(guān)系的概念后,可以根據(jù)用戶的檢索需求進行基于關(guān)鍵詞或者語義擴展的二次搜索得到所需的搜索結(jié)果。這樣能方便的引導(dǎo)用戶檢索出所需的文獻信息 選取和蔬菜供應(yīng)鏈過程相關(guān)的五個概念(agri—product 、 fruit、 inventory、
logistics、t.ransportation}來測試知識獲取系統(tǒng)的查準(zhǔn)率和查全率。由于系統(tǒng)是針對蔬
菜供應(yīng)鏈領(lǐng)域而建立,在數(shù)據(jù)收集的過程中數(shù)據(jù)已經(jīng)經(jīng)過了分析和處理,因此對于每種方
法的檢索結(jié)果都具有很高的査準(zhǔn)率,重點考察不同檢索策略的查全率指標(biāo)。 由于本體模型中定義了相關(guān)概念及其之間的關(guān)系,在進行信息檢索時其信息查全
率接近1,以此為基礎(chǔ)分別計算了關(guān)鍵詞檢索和語義擴展檢索的平均查全率指標(biāo)??梢钥吹接捎谠诒倔w模型中對蔬菜供應(yīng)鏈知識進行了語義標(biāo)注,基于本體模型的檢索可以獲得最高
的査全率指標(biāo)。而對于語義擴展也取得了比傳統(tǒng)檢索技術(shù)-關(guān)鍵詞檢索好的查全率指標(biāo),同時還看到語義擴展檢索的效果依賴于語義詞典的定義。通過語義詞典的擴充,其平均查全率指標(biāo)還可以進--步提高。 以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護范圍內(nèi)。
權(quán)利要求
一種蔬菜供應(yīng)鏈知識智能獲取系統(tǒng),其特征在于,包括一、知識采集知識采集是知識獲取系統(tǒng)建立的第一步驟,也是實現(xiàn)知識加工和提供知識服務(wù)的基礎(chǔ)。由于蔬菜供應(yīng)鏈知識獲取系統(tǒng)所管理和提供服務(wù)的知識是面向特定領(lǐng)域的(蔬菜供應(yīng)鏈管理領(lǐng)域)且涵蓋了蔬菜供應(yīng)鏈的所有環(huán)節(jié)(包括倉儲、訂單管理、運輸、配送等),而這一特定領(lǐng)域的知識又以多種形式存在,如互聯(lián)網(wǎng)知識、書本、專家的經(jīng)驗等。與一般的信息檢索系統(tǒng)采用Robot技術(shù)從互聯(lián)網(wǎng)上自動抓取知識的方式不同,要求針對這一特定領(lǐng)域的知識盡可能涵蓋多的知識來源。這里采用了手工獲取的方式來進行蔬菜供應(yīng)鏈領(lǐng)域知識的獲取。主要采集的知識是歐洲(德國、希臘、英國等國家)與亞洲(中國)由互聯(lián)網(wǎng)支持的農(nóng)產(chǎn)品供應(yīng)鏈特別是蔬菜供應(yīng)鏈相關(guān)的知識。知識采集和知識庫建立的目的是縮小中國和歐洲國家在蔬菜供應(yīng)鏈管理上的鴻溝,實現(xiàn)知識的共享。我們收集的知識主要包括領(lǐng)域?qū)<业慕?jīng)驗、書本、報紙、案例、學(xué)術(shù)論文、實踐經(jīng)驗等。知識收集的途徑主要是互聯(lián)網(wǎng)搜索、網(wǎng)站知識獲取、書本文獻查閱、專家走訪等。目前我們蔬菜供應(yīng)鏈知識庫中已經(jīng)收取了超過415條的相關(guān)知識,并且這一數(shù)目還在不斷的增長中。數(shù)據(jù)采集以后存貯在本地數(shù)據(jù)庫中,數(shù)據(jù)庫中的數(shù)據(jù)項條目如表(1)所示二、知識加工知識采集后,要進行知識的加工處理。為了實現(xiàn)基于本體的智能知識檢索,其中最重要的一步是建立領(lǐng)域本體庫。領(lǐng)域本體是在領(lǐng)域?qū)<业膸椭陆⒃诒镜刂R庫的基礎(chǔ)上的。對于本地知識庫中的數(shù)據(jù)利用RDF表示提取其數(shù)據(jù)信息。RDF以三元組的形式表示數(shù)據(jù),對于以RDF表示的數(shù)據(jù)通過語義標(biāo)引和語義映射在領(lǐng)域?qū)<业膸椭聦崿F(xiàn)領(lǐng)域本體庫的構(gòu)建。這其中的主要工作是提取數(shù)據(jù)信息,將數(shù)據(jù)項按照領(lǐng)域本體的結(jié)構(gòu)進行組織和安排。這樣,在進行信息檢索時不僅能獲得該數(shù)據(jù)項的信息還可以獲取該數(shù)據(jù)項和其它數(shù)據(jù)項之間的關(guān)系。如描述領(lǐng)域概念的上下位關(guān)系、相似關(guān)系等。這也為后面知識服務(wù)過程中進行語義推理奠定了基礎(chǔ)。三、知識服務(wù)系統(tǒng)建立的最后一步功能是提供知識服務(wù),整個系統(tǒng)共向用戶提供三種知識獲取方式基于關(guān)鍵詞的檢索、語義擴展檢索和基于本體的知識獲取?;陉P(guān)鍵詞的檢索是一種傳統(tǒng)的信息檢索方式,它根據(jù)用戶的輸入采用關(guān)鍵詞匹配的方式進行信息的檢索。在本系統(tǒng)中提供該功能,一方面為適應(yīng)用戶的傳統(tǒng)檢索習(xí)慣,另一方面可以將這一傳統(tǒng)檢索技術(shù)的檢索結(jié)果與基于本體的檢索技術(shù)的檢索結(jié)果作一個對比。語義擴展的檢索是在關(guān)鍵詞檢索的基礎(chǔ)上通過描述領(lǐng)域詞匯相關(guān)度的詞匯表進行語義擴展,經(jīng)過語義擴展之后再進行信息的檢索。基于本體的知識獲取是第三種提供知識服務(wù)的方式,對于用戶的知識檢索需求,利用查詢語義分析器將用戶的查詢請求轉(zhuǎn)化為領(lǐng)域本體庫中所使用的RDF三元組的形式。這樣和在第二步中建立的領(lǐng)域知識本體庫中的三元組進行匹配,利用Jena進行解析,把用戶所需的知識從本體庫和知識庫中抽取出來,提供給用戶。另外在Jena的基礎(chǔ)上還可以進行語義推理、語義檢索等知識服務(wù)。語義推理主要是利用推理機,推理出本體中所隱含的類之間的關(guān)系,從而實現(xiàn)檢索語義的擴展。在知識服務(wù)模塊共提供給用戶三種形式的知識獲取方式,包括關(guān)鍵詞檢索、語義擴展檢索和基于本體的語義檢索。(1)關(guān)鍵詞檢索關(guān)鍵詞檢索使用一組有代表性的關(guān)鍵詞(索引術(shù)語)來描述數(shù)據(jù)庫中的每一項內(nèi)容。它是一種傳統(tǒng)的信息檢索方式,目前許多著名的互聯(lián)網(wǎng)搜索引擎如谷歌(www.google.com)和百度(www.baidu.com)等都是利用用戶輸入的關(guān)鍵詞進行信息的查詢。基于關(guān)鍵詞的檢索優(yōu)點和缺點同樣明顯,優(yōu)點是簡單、快捷、具有較快的檢索速度。缺點主要有1.檢索意圖表達困難,通常用戶很難用一個或幾個簡單的關(guān)鍵詞就能表達自己的檢索意圖,這導(dǎo)致檢索效率不高。2.由于語言中的一詞多義或者一義多詞現(xiàn)象,使得關(guān)鍵詞檢索很難解決同義詞查詢的問題。如對于“Apple”可以理解成蔬菜中的蘋果還可以理解成一個著名電腦公司的品牌。另外,由于文化教育背景等的差異,用戶查詢同樣的信息也很可能選用不同的關(guān)鍵詞。3.關(guān)鍵詞檢索的另一個主要問題是所謂的“信息孤島”問題,由于關(guān)鍵詞只能反映原始數(shù)據(jù)項的描述,不能反映數(shù)據(jù)項的具體內(nèi)容,這導(dǎo)致原本存在概念上相關(guān)的信息不能反映其內(nèi)在聯(lián)系,在檢索時也就不能通過一個數(shù)據(jù)項的信息來獲取與其關(guān)聯(lián)的文檔信息,這也是語義檢索所著力解決的問題。另外,在關(guān)鍵詞的檢索中,往往過于追求檢索的查全率,這導(dǎo)致查詢的結(jié)果往往數(shù)量非常龐大,而用戶很難有精力來對其進行分析。(2)語義擴展檢索通過定義蔬菜供應(yīng)鏈領(lǐng)域知識語義詞典,在語義詞典的支持下經(jīng)過語義擴展、語義蘊含、語義外延、語義聯(lián)想等語義擴展得到一組具有較強語義相關(guān)性的查詢條件集合,在進行語義擴展的過程中可以根據(jù)概念間的關(guān)系描述,進行相關(guān)的語義推理?;谡Z義擴展的查詢能夠提高信息檢索的查全率和查準(zhǔn)率等參數(shù)。然而,由于語義推理過程發(fā)生在與用戶交互的在線階段,這勢必會增加單位用戶的平均服務(wù)時間,影響服務(wù)器的響應(yīng)性能,尤其當(dāng)存在大量并發(fā)用戶時,系統(tǒng)的性能下降尤為明顯。(3)基于本體的語義檢索通過構(gòu)建蔬菜供應(yīng)鏈領(lǐng)域本體模型,本體模型中描述了蔬菜供應(yīng)鏈概念間的關(guān)系。通過將本體模型進行形式化表示,加入推理規(guī)則來完成對有關(guān)元數(shù)據(jù)的推理處理,得出隱含的檢索信息。由于蔬菜供應(yīng)鏈本體模型描述了蔬菜供應(yīng)鏈知識概念間的相互關(guān)系,通過基于本體模型的語義檢索可以較好的反映用戶檢索意圖,得到較高的查全查準(zhǔn)率。
全文摘要
本發(fā)明涉及一種知識獲取系統(tǒng)領(lǐng)域,尤其是一種蔬菜供應(yīng)鏈知識智能獲取系統(tǒng)。本發(fā)明的目的是設(shè)計一套針對蔬菜供應(yīng)鏈領(lǐng)域的知識智能獲取系統(tǒng),借助計算機媒介實現(xiàn)蔬菜供應(yīng)鏈知識的有效傳播,特別是實現(xiàn)國內(nèi)外蔬菜供應(yīng)鏈領(lǐng)域知識的傳遞。系統(tǒng)以蔬菜供應(yīng)鏈本體模型為支撐,提供關(guān)鍵詞檢索、語義擴展檢索與基于本體模型的語義檢索三種檢索方式,作為針對專業(yè)領(lǐng)域的知識獲取工具,本系統(tǒng)具有高的查詢效率。可以方便蔬菜供應(yīng)鏈參與者、科研人員方便獲取專業(yè)知識。
文檔編號G06F17/30GK101710318SQ20091009223
公開日2010年5月19日 申請日期2009年9月8日 優(yōu)先權(quán)日2009年9月8日
發(fā)明者傅澤田, 岳峻, 張領(lǐng)先, 李鑫星 申請人:中國農(nóng)業(yè)大學(xué)