專利名稱:基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能檢索技術(shù)領(lǐng)域,具體涉及一種基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系 統(tǒng)和方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)上農(nóng)業(yè)網(wǎng)站的不斷涌現(xiàn),農(nóng)業(yè)知識與數(shù)據(jù)資源已呈海量增長趨勢。這 些龐雜、分散、異構(gòu)并且封閉的農(nóng)業(yè)信息資源導(dǎo)致了農(nóng)業(yè)信息資源利用率低的問題,形成了 當前互聯(lián)網(wǎng)信息爆炸而農(nóng)業(yè)用戶獲取有效信息匱乏的矛盾現(xiàn)象。許多通用搜索引擎,如 Google、百度等在一定程度上為信息資源的檢索提供了解決方案。但是一方面通用搜索引 擎面向的是所有行業(yè),針對特定行業(yè)信息檢索時準確性和相關(guān)性都較差;另一方面通用搜 索引擎采用的是基于關(guān)鍵詞的檢索技術(shù),只是將分詞后的關(guān)鍵詞和索引庫中的詞語進行匹 配,無法正確理解和處理用戶檢索語義和意圖,存在著檢索結(jié)果不準確、無關(guān)信息過多等問 題。因此,面向農(nóng)業(yè)行業(yè),利用基于本體的語義檢索技術(shù)成為提高搜索效率的有效途徑,對 查全率和查準率均有較高提升。如圖1所示,目前現(xiàn)有技術(shù)中提供有一種基于領(lǐng)域本體的智能檢索方法,以及應(yīng) 用該方法的智能檢索系統(tǒng)。該系統(tǒng)包括查詢接口、查詢預(yù)處理模塊、語義本體推理引擎、標 注本體庫、傳統(tǒng)搜索模塊和結(jié)果返回接口。查詢接口獲取用戶的查詢信息,將其發(fā)送給查詢預(yù)處理模塊。查詢預(yù)處理模塊分析用戶的查詢信息,通過切分詞技術(shù),將其切分成查詢關(guān)鍵詞, 并發(fā)送給語義本體推理引擎。語義本體推理引擎根據(jù)標注本體庫中定義的本體概念詞匯及概念之間的關(guān)系,匹 配推理出查詢關(guān)鍵詞所對應(yīng)的本體概念詞匯,并將其返回給查詢預(yù)處理模塊。查詢預(yù)處理模塊將語義本體推理引擎返回的本體概念詞匯發(fā)送給傳統(tǒng)搜索模塊, 并指明按照語義搜索。這里按照語義搜索是指在網(wǎng)頁已被標注語義的情況下,按照網(wǎng)頁標 注的語義概念進行字符串匹配,而不是直接對網(wǎng)頁自身的內(nèi)容進行字符串匹配。傳統(tǒng)搜索模塊進行語義搜索,并將搜索結(jié)果發(fā)送給結(jié)果返回接口。結(jié)果返回接口 再將搜索結(jié)果返回給用戶。該技術(shù)方案充分利用了領(lǐng)域本體庫中的概念及其相互關(guān)系,能夠正確理解用戶需 求,優(yōu)化檢索結(jié)果,為用戶更全、更準地返回專業(yè)領(lǐng)域信息。但該技術(shù)方案并未涉及對基礎(chǔ)數(shù)據(jù)資源的預(yù)處理。一方面基礎(chǔ)數(shù)據(jù)資源中往往含 有大量無關(guān)的冗余信息,比如網(wǎng)頁中往往還有廣告、導(dǎo)航、版權(quán)等垃圾信息,如果不對這些 垃圾信息進行清洗處理,將對后期的檢索帶來極大噪聲干擾;另一方面,網(wǎng)頁中包含的都是 半結(jié)構(gòu)化數(shù)據(jù),真正有用的數(shù)據(jù)和html標簽混合在一起,這也大大降低了檢索的精準度。同時,現(xiàn)有的技術(shù)方案在對用戶輸入的自然查詢語言進行處理時,如果用戶輸入 的自然查詢語句中包括本體概念,則進行句型模式的匹配判斷,無論匹配成功與否,都是直 接對匹配上或進行語義擴展后的本體概念進行查詢,由于整個過程缺少用戶的參與,而通過對用戶輸入的自然查詢語言進行語義分析并不能完全和精準的理解用戶查詢意圖,因 此,勢必造成最終的查詢結(jié)果的精準度差強人意。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題本發(fā)明要解決的技術(shù)問題是如何提高農(nóng)業(yè)領(lǐng)域信息語義檢索過程的精準度以及效率。
(二)技術(shù)方案為了解決上述技術(shù)問題,本發(fā)明提供一種基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng), 包括信息抽取模塊,用于對從互聯(lián)網(wǎng)上獲取的信息進行結(jié)構(gòu)化處理,生成農(nóng)業(yè)資源 庫;語義標注處理模塊,用于對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注,以 文本格式存儲,并計算標注本體的語義向量空間,然后將所述語義向量空間中標注本體詞 匯和已標注處理的資源數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注的文本資源一起入庫,生成本體語義 資源庫;語義索引處理模塊,用于讀取所述本體語義資源庫中的文本數(shù)據(jù),根據(jù)所述文本 數(shù)據(jù)中的語義標注信息建立語義本體索引庫以及全文索引庫;語義擴展模塊,用于接收用戶提交的自然語言查詢語句,對所述自然語言查詢語 句進行分詞處理及本體語義擴展處理,生成相應(yīng)的本體語義擴展集返回給用戶,用戶參與 對所述本體語義擴展集的過濾、補充并再次提交;檢索處理模塊,用于根據(jù)所述本體語義擴展集進行檢索,生成檢索結(jié)果返回給用 戶。所述系統(tǒng)還包括爬蟲抓取模塊,利用網(wǎng)絡(luò)爬蟲抓取工具對互聯(lián)網(wǎng)上指定的農(nóng)業(yè)網(wǎng) 頁進行信息獲取。所述語義擴展模塊包括分詞處理單元,用于對所述自然語言查詢語句進行分詞處理;語義本體推理引擎,用于利用農(nóng)業(yè)領(lǐng)域本體庫,判斷所述分詞處理后的查詢關(guān)鍵 詞結(jié)果中是否存在本體語義概念的角色,根據(jù)判斷結(jié)果要求用戶重新提交檢索查詢語句, 或者進行下一步的語義擴展;本體語義擴展處理單元,用于訪問農(nóng)業(yè)領(lǐng)域本體庫,進行本體語義擴展,得到本體 語義擴展集,并結(jié)合用戶的參與對所述本體語義擴展集進行過濾和權(quán)重標識處理。所述檢索處理模塊包括語義本體檢索單元,用于將所述本體語義擴展集轉(zhuǎn)化為語義查詢檢索式,根據(jù)所 述語義查詢檢索式訪問所述語義本體索引庫,生成查詢結(jié)果集;全文檢索單元,用于訪問所述全文索引庫進行全文檢索,生成查詢結(jié)果集;排名處理單元,用于根據(jù)本體語義擴展集的本體詞匯權(quán)重標識對所述查詢結(jié)果集 進行排名處理,生成檢索結(jié)果返回給用戶。此外,本發(fā)明還提供一種基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,包括如下步驟
Sl 對互聯(lián)網(wǎng)上指定的農(nóng)業(yè)網(wǎng)頁進行信息獲取,對獲取的信息進行結(jié)構(gòu)化處理,生 成農(nóng)業(yè)資源庫;S2:對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注,然后以文本格式存儲,并 計算標注本體的語義向量空間,然后將所述語義向量空間中標注本體詞匯和已標注處理的 資源數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注的文本資源一起入庫,生成本體語義資源庫;S3:讀取所述本體語義資源庫中的文本數(shù)據(jù),根據(jù)所述文本數(shù)據(jù)中的語義標注信 息建立語義本體索引庫以及全文索引庫;S4:接收用戶提交的自然語言查詢語句,對所述自然語言查詢語句進行分詞處理 及本體語義擴展處理,生成本體語義擴展集;S5 根據(jù)所述本體語義擴展集進行檢索,生成檢索結(jié)果返回給用戶。所述Sl利用網(wǎng)絡(luò)爬蟲抓取工具進行網(wǎng)頁信息獲取。所述步驟S2中對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注具體為將資 源數(shù)據(jù)中的與本體角色相關(guān)的詞匯做上標記,即與本體概念建立映射關(guān)系。所述步驟S3具體包括S301 讀取本體語義資源庫中的文本數(shù)據(jù),判斷文本數(shù)據(jù)中是否存在語義標注信 息;若存在語義標注信息,則執(zhí)行步驟302 ;否則結(jié)束對該條文本數(shù)據(jù)建立語義本體索引庫的流程,轉(zhuǎn)而建立包括對應(yīng)該條文 本數(shù)據(jù)索引的全文索引庫;S302:讀取文本數(shù)據(jù)的語義標注信息,所述語義標注信息存放在所述本體語義資 源庫中;S303 結(jié)合本體語義資源庫和文本數(shù)據(jù),從中提取語義概念本體詞匯,建立語義本 體索引庫。所述步驟S4具體包括S401 獲得用戶提交的自然語言查詢信息;S402:對所述自然語言查詢信息進行切分詞處理,然后利用農(nóng)業(yè)領(lǐng)域本體庫來判 斷切分后的查詢關(guān)鍵詞結(jié)果中是否存在本體語義概念的角色;若判斷結(jié)果為否,則轉(zhuǎn)入步驟S403 ;若判斷結(jié)果為是,則轉(zhuǎn)入步驟S404 ;S403:若用戶提交的自然語言查詢信息中不包括本體語義概念,則進行全文檢索 或返回用戶,要求其重新提交檢索查詢語句;S404:若用戶提交的自然查詢查詢信息中包括本體語義概念,則進行下一步的語 義擴展或根據(jù)用戶需要只進行全文檢索;S405 訪問農(nóng)業(yè)領(lǐng)域本體庫,進行本體語義擴展,得到本體語義擴展集;S406 結(jié)合用戶201的參與對所述本體語義擴展集進行過濾和權(quán)重標識處理,確 認最終的本體語義擴展集。所述步驟S5具體包括S501 將所述本體語義擴展集轉(zhuǎn)化為語義查詢檢索式,根據(jù)所述語義查詢檢索式 訪問所述語義本體索引庫,生成查詢結(jié)果集;或者訪問所述全文索引庫進行全文檢索,生成查詢結(jié)果集;
S502:根據(jù)本體語義擴展集的本體詞匯權(quán)重標識對所述查詢結(jié)果集進行排名處 理,生成檢索結(jié)果返回給用戶。(三)有益效果本發(fā)明技術(shù)方案所提出的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng)和方法利用信息 抽取技術(shù)將網(wǎng)頁中的結(jié)構(gòu)化數(shù)據(jù)抽取出來作為基礎(chǔ)資源,然后利用農(nóng)業(yè)本體庫和用戶適當 參與來實現(xiàn)精準而又高效的農(nóng)業(yè)領(lǐng)域信息語義檢索。具體來說(1)該技術(shù)方案基于農(nóng)業(yè)本體的信息抽取技術(shù),針對從網(wǎng)絡(luò)上抓取到 的HTML網(wǎng)頁,在清洗無用冗余信息后,僅僅將析取出有用的結(jié)構(gòu)化的數(shù)據(jù)信息來作為檢索 的基礎(chǔ)資源,因此在數(shù)據(jù)基礎(chǔ)資源階段大大保證了檢索的準確性;(2)該技術(shù)方案在語義檢索階段,引入用戶交互式參與模式,根據(jù)用戶的查詢請求 進行語義擴展和推理,并對用戶輸入的自然語言進行處理或者將擴展后的結(jié)果再次返回給 用戶,使得用戶參與的過程中能比較準確的確定擴展語義集中各個本體實例的權(quán)重,直到 擴展后的本體實例集符合用戶的查詢需求,因此大大提高最終檢索結(jié)果的準確性。與現(xiàn)有技術(shù)相比,本發(fā)明提出的系統(tǒng)和技術(shù)方案一方面利用基于農(nóng)業(yè)本體庫的信 息抽取技術(shù)確保了數(shù)據(jù)來源的結(jié)構(gòu)性和準確性;另一方面建立了比較全面和專業(yè)的面向農(nóng) 業(yè)行業(yè)的本體庫,在語義推理機的基礎(chǔ)上結(jié)合用戶的參與,能較準確的對用戶的檢索關(guān)鍵 詞進行語義擴展,從而提高了最終檢索的查準率和查全率。
圖1為目前的語義檢索系統(tǒng)的結(jié)構(gòu)流程圖;圖2為本發(fā)明具體實施方式
所提供的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng)的結(jié) 構(gòu)框圖;圖3為本發(fā)明具體實施方式
所提供的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法的流 程圖;圖4是本發(fā)明具體實施方式
所涉及的建立語義本體索引庫的流程圖;圖5為本發(fā)明具體實施方式
所涉及的進行語義檢索的具體流程圖。
具體實施例方式為使本發(fā)明的目的、內(nèi)容、和優(yōu)點更加清楚,下面結(jié)合附圖和實施例,對本發(fā)明的具體實施方式
作進一步詳細描述。為了提高農(nóng)業(yè)領(lǐng)域信息語義檢索過程的精準度以及效率,本發(fā)明提供一種基于農(nóng) 業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng),如圖2所示,所述語義檢索系統(tǒng)包括爬蟲抓取模塊207,用于利用網(wǎng)絡(luò)爬蟲抓取工具對互聯(lián)網(wǎng)上指定的農(nóng)業(yè)網(wǎng)頁進行 信息獲??;信息抽取模塊208,用于對獲取的信息進行結(jié)構(gòu)化處理,生成農(nóng)業(yè)資源庫209 ;語義標注處理模塊210,其中,包括本體語義標注單元211,用于對所述農(nóng)業(yè)資 源庫209中的資源數(shù)據(jù)進行本體語義標注,然后以文本格式存儲;語義向量空間計算單元 212:用于計算標注本體的語義向量空間,然后將所述語義向量空間中標注本體詞匯和已 標注處理的資源數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注的文本資源一起入庫,生成本體語義資源庫213 ;語義索引處理模塊214,用于讀取所述本體語義資源庫213中的文本數(shù)據(jù),根據(jù)所 述文本數(shù)據(jù)中的語義標注信息建立語義本體索引庫215以及全文索引庫216 ;語義擴展模塊202,用于接收用戶201提交的自然語言查詢語句,對所述自然語言 查詢語句進行分詞處理及本體語義擴展處理,生成相應(yīng)的本體語義擴展集返回給用戶201, 用戶參與對所述本體語義擴展集的過濾、補充并再次提交;檢索處理模塊217,用于根據(jù)所述本體語義擴展集進行檢索,生成檢索結(jié)果返回給 用戶201。所述語義擴展模塊202包括農(nóng)業(yè)領(lǐng)域本體庫206,所述農(nóng)業(yè)領(lǐng)域本體庫206采用本發(fā)明研究過程中自主開發(fā) 的一套本體構(gòu)建工具構(gòu)建而成,該工具以本體庫構(gòu)建平臺KAON為基礎(chǔ),結(jié)合對農(nóng)業(yè)科學(xué)敘 詞表的數(shù)據(jù)進行分析,實現(xiàn)了針對農(nóng)業(yè)結(jié)構(gòu)化數(shù)據(jù)構(gòu)建農(nóng)業(yè)領(lǐng)域本體庫的半自動化。分詞處理單元203,用于對所述自然語言查詢語句進行分詞處理;語義本體推理引擎205,用于利用農(nóng)業(yè)領(lǐng)域本體庫206,判斷所述分詞處理后的查 詢關(guān)鍵詞結(jié)果中是否存在本體語義概念的角色,根據(jù)判斷結(jié)果要求用戶201重新提交檢索 查詢語句,或者進行下一步的語義擴展;本體語義擴展處理單元204,用于訪問遍歷農(nóng)業(yè)領(lǐng)域本體庫206,進行本體語義擴 展,得到本體語義擴展集,并結(jié)合用戶201的參與對所述本體語義擴展集進行過濾和權(quán)重 標識處理。所述檢索處理模塊217包括語義本體檢索單元218,用于將所述本體語義擴展集轉(zhuǎn)化為語義查詢檢索式,根據(jù) 所述語義查詢檢索式訪問所述語義本體索引庫215,生成查詢結(jié)果集;全文檢索單元219,用于訪問所述全文索引庫216進行全文檢索,生成查詢結(jié)果 集;排名處理單元220,用于根據(jù)本體語義擴展集的本體詞匯權(quán)重標識對所述查詢結(jié) 果集進行排名處理,生成檢索結(jié)果返回給用戶201。此外,本發(fā)明基于上述語義檢索系統(tǒng)還提供一種基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索 方法,如圖3所示,所述方法包括如下步驟Sl 爬蟲抓取模塊207對互聯(lián)網(wǎng)上指定的農(nóng)業(yè)網(wǎng)頁進行信息獲取,信息抽取模塊 208對獲取的信息進行結(jié)構(gòu)化處理,生成農(nóng)業(yè)資源庫209 ;S2 本體語義標注單元211對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注, 具體為將資源數(shù)據(jù)中的與本體角色相關(guān)的詞匯做上標記,即與本體概念建立映射關(guān)系,然 后以文本格式存儲,并通過語義向量空間計算單元212計算標注本體的語義向量空間,然 后將所述語義向量空間中標注本體詞匯和已標注處理的資源數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注 的文本資源一起入庫,生成本體語義資源庫213 ;對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注,然后以文本格式存儲,并計 算標注本體的語義向量空間,然后將所述語義向量空間中標注本體詞匯和已標注處理的資 源數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注的文本資源一起入庫,生成本體語義資源庫;S3:讀取所述本體語義資源庫中的文本數(shù)據(jù),根據(jù)所述文本數(shù)據(jù)中的語義標注信息建立語義本體索引庫以及全文索引庫;如圖4所示,所述步驟S3具體包括S301 語義索引處理模塊214讀取本體語義資源庫213中的文本數(shù)據(jù);S302 判斷文本數(shù)據(jù)中是否存在語義標注信息;若存在語義標注信息,則執(zhí)行步 驟 303 ;否則結(jié)束對該條文本數(shù)據(jù)建立語義本體索引庫215的流程,轉(zhuǎn)而建立包括對應(yīng)該 條文本數(shù)據(jù)索引的全文索引庫216 ;本體語義標注單元211就是將文本信息中的與本體角色相關(guān)的詞匯做上標記,即 與本體概念建立映射關(guān)系。如果文本信息中的某個詞匯沒有被收錄到農(nóng)業(yè)領(lǐng)域本體庫206 之中或找不到與之相關(guān)的本體角色,則該詞匯對于農(nóng)業(yè)領(lǐng)域?qū)I(yè)信息檢索而言,屬于干擾 信息或不相關(guān)信息,也就沒有必要為該詞建立語義索引。S303:讀取文本數(shù)據(jù)的語義標注信息,所述語義標注信息存放在所述本體語義資 源庫213中,其中用一張表的形式表示如下
文本數(shù)據(jù) (textid)本體概念URL (concepturl)......100http://.. ./AgriOnto.owl#Cucumber_YiBing... · ·S304 語義索引處理模塊214結(jié)合本體語義資源庫213和文本數(shù)據(jù),從中提取語義 概念本體詞匯,建立語義本體索引庫215。S4 接收用戶201提交的自然語言查詢語句,對所述自然語言查詢語句進行分詞 處理及本體語義擴展處理,生成本體語義擴展集;如圖5所示,所述步驟S4具體包括S401 語義擴展模塊202獲得用戶201提交的自然語言查詢信息;本實施例中假 設(shè)用戶提交的查詢信息為“黃瓜病蟲害防治”;S402 分詞處理單元203對所述自然語言查詢信息進行切分詞處理,切分處理的 具體過程在現(xiàn)有關(guān)于搜索引擎的相關(guān)文獻中多有描述,這里不再復(fù)述。本實施例中文本查 詢信息“黃瓜病蟲害防治”經(jīng)過切分處理后的結(jié)果為“黃瓜/病蟲害防治”;S403 由語義本體推理引擎205利用農(nóng)業(yè)領(lǐng)域本體庫206來判斷切分后的查詢關(guān) 鍵詞結(jié)果中是否存在本體語義概念的角色;若判斷結(jié)果為否,則轉(zhuǎn)入步驟S404 ;若判斷結(jié)果為是,則轉(zhuǎn)入步驟S405 ;本實施例中假定判斷結(jié)果為是。S404 若用戶201提交的自然語言查詢信息中不包括本體語義概念,則進行全文 檢索或返回用戶201,要求其重新提交檢索查詢語句;S405 若用戶201提交的自然查詢查詢信息中包括本體語義概念,則進行下一步 的語義擴展或根據(jù)用戶201需要只進行全文檢索;
S406 本體語義擴展處理單元204訪問農(nóng)業(yè)領(lǐng)域本體庫206,進行本體語義擴展, 得到本體語義擴展集;例如用戶輸入“夏天黃瓜病蟲防治”進行相關(guān)檢索,分詞處理的結(jié)果是夏天/t 黃瓜/n病蟲害防治/n,將分詞后的結(jié)果作為語義本體推理引擎單元205的輸入,最后通過 本體語義擴展處理單元204處理后返回給用戶的本體語義擴展集為(青瓜、生物、中農(nóng)2、 津春3號、白粉病、炭疽病...)。S407 結(jié)合用戶201的參與對所述本體語義擴展集進行過濾和權(quán)重標識處理,最 后將確認的本體語義擴展集發(fā)送至檢索處理模塊217 ;例如本實施例中的擴展集可以過濾掉非本體核心詞匯中農(nóng)2、津春3號。而保留 本體相關(guān)的核心詞匯。并對保留的本體詞匯進行權(quán)重標識。本實施例中結(jié)果為“{青瓜, 1.0}, {生物,0. 3}、{白粉病,0. 5}、{炭疽病,0. 5}··. ”擴展集的本體詞匯權(quán)重標識主要通過本體相關(guān)度和相似度來判斷擴展集詞匯與 文本信息的語義相似性。作為檢索結(jié)果處理和排序的參考指標。S5:檢索處理模塊217根據(jù)所述本體語義擴展集進行檢索,生成檢索結(jié)果返回給 用戶201。如圖5所示,所述步驟S5具體包括S501 語義本體檢索單元218將所述本體語義擴展集轉(zhuǎn)化為語義查詢檢索式,根 據(jù)所述語義查詢檢索式訪問所述語義本體索引庫,生成查詢結(jié)果集;或者訪問所述全文索引庫進行全文檢索,生成查詢結(jié)果集;S502:根據(jù)本體語義擴展集的本體詞匯權(quán)重標識對所述查詢結(jié)果集進行排名處 理,生成檢索結(jié)果返回給用戶。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進和變形,這些改進和變形 也應(yīng)視為本發(fā)明的保護范圍。
權(quán)利要求
1.一種基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng),其特征在于,包括信息抽取模塊,用于對從互聯(lián)網(wǎng)上獲取的信息進行結(jié)構(gòu)化處理,生成農(nóng)業(yè)資源庫; 語義標注處理模塊,用于對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注,以文本 格式存儲,并計算標注本體的語義向量空間,然后將所述語義向量空間中標注本體詞匯和 已標注處理的資源數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注的文本資源一起入庫,生成本體語義資源 庫;語義索引處理模塊,用于讀取所述本體語義資源庫中的文本數(shù)據(jù),根據(jù)所述文本數(shù)據(jù) 中的語義標注信息建立語義本體索引庫以及全文索引庫;語義擴展模塊,用于接收用戶提交的自然語言查詢語句,對所述自然語言查詢語句進 行分詞處理及本體語義擴展處理,生成相應(yīng)的本體語義擴展集返回給用戶,用戶參與對所 述本體語義擴展集的過濾、補充并再次提交;檢索處理模塊,用于根據(jù)所述本體語義擴展集進行檢索,生成檢索結(jié)果返回給用戶。
2.如權(quán)利要求1所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng),其特征在于,所述系統(tǒng) 還包括爬蟲抓取模塊,利用網(wǎng)絡(luò)爬蟲抓取工具對互聯(lián)網(wǎng)上指定的農(nóng)業(yè)網(wǎng)頁進行信息獲取。
3.如權(quán)利要求1所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng),其特征在于,所述語義 擴展模塊包括分詞處理單元,用于對所述自然語言查詢語句進行分詞處理; 語義本體推理引擎,用于利用農(nóng)業(yè)領(lǐng)域本體庫,判斷所述分詞處理后的查詢關(guān)鍵詞結(jié) 果中是否存在本體語義概念的角色,根據(jù)判斷結(jié)果要求用戶重新提交檢索查詢語句,或者 進行下一步的語義擴展;本體語義擴展處理單元,用于訪問農(nóng)業(yè)領(lǐng)域本體庫,進行本體語義擴展,得到本體語義 擴展集,并結(jié)合用戶的參與對所述本體語義擴展集進行過濾和權(quán)重標識處理。
4.如權(quán)利要求1所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng),其特征在于,所述檢索 處理模塊包括語義本體檢索單元,用于將所述本體語義擴展集轉(zhuǎn)化為語義查詢檢索式,根據(jù)所述語 義查詢檢索式訪問所述語義本體索引庫,生成查詢結(jié)果集;全文檢索單元,用于訪問所述全文索引庫進行全文檢索,生成查詢結(jié)果集; 排名處理單元,用于根據(jù)本體語義擴展集的本體詞匯權(quán)重標識對所述查詢結(jié)果集進行 排名處理,生成檢索結(jié)果返回給用戶。
5.一種基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,其特征在于,包括如下步驟Sl 對互聯(lián)網(wǎng)上指定的農(nóng)業(yè)網(wǎng)頁進行信息獲取,對獲取的信息進行結(jié)構(gòu)化處理,生成農(nóng) 業(yè)資源庫;S2:對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注,然后以文本格式存儲,并計算 標注本體的語義向量空間,然后將所述語義向量空間中標注本體詞匯和已標注處理的資源 數(shù)據(jù)的語義關(guān)聯(lián)度,與已標注的文本資源一起入庫,生成本體語義資源庫;S3 讀取所述本體語義資源庫中的文本數(shù)據(jù),根據(jù)所述文本數(shù)據(jù)中的語義標注信息建 立語義本體索引庫以及全文索引庫;S4:接收用戶提交的自然語言查詢語句,對所述自然語言查詢語句進行分詞處理及本 體語義擴展處理,生成本體語義擴展集;S5 根據(jù)所述本體語義擴展集進行檢索,生成檢索結(jié)果返回給用戶。
6.如權(quán)利要求5所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,其特征在于,所述Sl利 用網(wǎng)絡(luò)爬蟲抓取工具進行網(wǎng)頁信息獲取。
7.如權(quán)利要求5所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,其特征在于,所述步驟 S2中對所述農(nóng)業(yè)資源庫中的資源數(shù)據(jù)進行本體語義標注具體為將資源數(shù)據(jù)中的與本體 角色相關(guān)的詞匯做上標記,即與本體概念建立映射關(guān)系。
8.如權(quán)利要求5所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,其特征在于,所述步驟 S3具體包括S301 讀取本體語義資源庫中的文本數(shù)據(jù),判斷文本數(shù)據(jù)中是否存在語義標注信息; 若存在語義標注信息,則執(zhí)行步驟302 ;否則結(jié)束對該條文本數(shù)據(jù)建立語義本體索引庫的流程,轉(zhuǎn)而建立包括對應(yīng)該條文本數(shù) 據(jù)索引的全文索引庫;S302:讀取文本數(shù)據(jù)的語義標注信息,所述語義標注信息存放在所述本體語義資源庫中;S303 結(jié)合本體語義資源庫和文本數(shù)據(jù),從中提取語義概念本體詞匯,建立語義本體索 引庫。
9.如權(quán)利要求5所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,其特征在于,所述步驟 S4具體包括S401 獲得用戶提交的自然語言查詢信息;S402:對所述自然語言查詢信息進行切分詞處理,然后利用農(nóng)業(yè)領(lǐng)域本體庫來判斷切 分后的查詢關(guān)鍵詞結(jié)果中是否存在本體語義概念的角色;若判斷結(jié)果為否,則轉(zhuǎn)入步驟S403 ;若判斷結(jié)果為是,則轉(zhuǎn)入步驟S404 ;S403 若用戶提交的自然語言查詢信息中不包括本體語義概念,則進行全文檢索或返 回用戶,要求其重新提交檢索查詢語句;S404:若用戶提交的自然查詢查詢信息中包括本體語義概念,則進行下一步的語義擴 展或根據(jù)用戶需要只進行全文檢索;5405訪問農(nóng)業(yè)領(lǐng)域本體庫,進行本體語義擴展,得到本體語義擴展集;5406結(jié)合用戶201的參與對所述本體語義擴展集進行過濾和權(quán)重標識處理,確認最 終的本體語義擴展集。
10.如權(quán)利要求5所述的基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索方法,其特征在于,所述步驟 S5具體包括5501將所述本體語義擴展集轉(zhuǎn)化為語義查詢檢索式,根據(jù)所述語義查詢檢索式訪問 所述語義本體索引庫,生成查詢結(jié)果集;或者訪問所述全文索引庫進行全文檢索,生成查詢結(jié)果集;5502根據(jù)本體語義擴展集的本體詞匯權(quán)重標識對所述查詢結(jié)果集進行排名處理,生 成檢索結(jié)果返回給用戶。
全文摘要
本發(fā)明涉及基于農(nóng)業(yè)領(lǐng)域本體庫的語義檢索系統(tǒng)和方法,屬于智能檢索技術(shù)領(lǐng)域。為提高農(nóng)業(yè)領(lǐng)域信息語義檢索過程的精準度以及效率,本發(fā)明利用信息抽取技術(shù)僅僅將網(wǎng)頁中有用的結(jié)構(gòu)化數(shù)據(jù)抽取出來作為檢索的基礎(chǔ)資源,因此在數(shù)據(jù)基礎(chǔ)資源階段大大保證了檢索數(shù)據(jù)來源的結(jié)構(gòu)性和準確性;然后建立了比較全面和專業(yè)的面向農(nóng)業(yè)行業(yè)的本體庫,在語義本體推理引擎的基礎(chǔ)上結(jié)合用戶的參與,根據(jù)用戶的查詢請求進行語義擴展和推理,并對用戶提交的自然語言進行處理或者將擴展后的結(jié)果再次返回給用戶,使得用戶參與的過程中能比較準確的確定擴展語義集中各個本體實例的權(quán)重,直到擴展后的本體實例集符合用戶的查詢需求,從而提高了最終檢索的查準率和查全率。
文檔編號G06F17/30GK102073692SQ20101060801
公開日2011年5月25日 申請日期2010年12月16日 優(yōu)先權(quán)日2010年12月16日
發(fā)明者吳華瑞, 楊鋒, 趙春江, 顧靜秋, 黃鋒 申請人:北京農(nóng)業(yè)信息技術(shù)研究中心