專利名稱:基于語義關聯(lián)的智能搜索引擎系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及智能搜索引擎領域,更具體地講,涉及實現(xiàn)一種通過本體詞族提取文 本主題詞,并利用主題詞庫輔助檢索和引導搜索過程的搜索引擎系統(tǒng)。
背景技術:
搜索引擎是對文本文件進行索引,之后通過預置的倒排索引在海量數(shù)據(jù)中定位所 需內(nèi)容的計算機系統(tǒng)。索引是由分詞系統(tǒng)對文本進行掃描分析后獲得的。索引覆蓋了文本 內(nèi)容所利用的相關詞匯,其數(shù)據(jù)量巨大且歧義較多,在檢索時只有完全匹配才能查到相關 內(nèi)容。這對文本內(nèi)容的檢索利用造成了很大的困難。在現(xiàn)實應用中,用戶更希望將查詢結 果自動聚類為自己感興趣的專業(yè)類別,再通過類別的弓I導獲取更多有用信息。因此,需要對 文本內(nèi)容進行分析,通過文本的特征關鍵字,提取內(nèi)容的主題。在索引過程中,由于計算機 無法了解詞匯的語義聯(lián)系,因此,只能通過詞匯索引提供簡單的匹配搜索。本體是關于領域知識的概念化、形式化的明確規(guī)范,由領域內(nèi)的概念或詞匯以及 它們之間的關系構成。領域知識本體作為某學科內(nèi)一組詞匯的組織者,根據(jù)不同的搜索算 法和匹配原則在目標內(nèi)容中搜索所有相似的匹配塊。目前,通過詞匯相關性的同意詞檢索 技術已經(jīng)比較成熟,同意詞檢索算法是對利用同意詞表搜索范圍內(nèi)的每一個分詞單位進行 匹配運算以得到一個最優(yōu)的結果,但這種匹配無法表達詞匯的上下為類及參考等復雜關 系。對于受控環(huán)境中的內(nèi)容,內(nèi)容類別間往往有較明確的識別詞匯,所以,內(nèi)容間有較 強的類別歸屬。通過對標示數(shù)據(jù)的檢索,獲得文本內(nèi)容的更多元數(shù)據(jù),為海量數(shù)據(jù)系統(tǒng)提供 了更多的檢索點,是建立文檔知識體系的重要支撐要素。
發(fā)明內(nèi)容
本發(fā)明的技術解決問題克服現(xiàn)有技術的不足,提供一種預定義學科本體,通過本 體詞匯的相互關聯(lián),提高搜索引擎檢索效果的方法及軟件實現(xiàn),該系統(tǒng)可以有效地對文本 內(nèi)容進行領域知識提取,提高全文檢索的質量,并實現(xiàn)概念化檢索能力。為了取得上述技術效果,本發(fā)明所采用的技術方案是實現(xiàn)基于語義關聯(lián)的智能 搜索引擎系統(tǒng),其特點在于包括自定義概念詞表模塊一個概念詞表編輯器,提供用戶自定義概念詞匯、建立詞匯 間關聯(lián)的界面,包括核心概念詞定義,核心概念詞是一組相關詞族中的標示詞匯,在定義 核心概念詞后,可針對一個概念定義其從屬詞匯、相關概念及概念間關聯(lián)。其輸入為用戶希 望定義的概念系統(tǒng)相關詞匯,輸出為使用OWL描述的概念體系,包括核心概念詞、概念從 屬詞匯、概念從屬關系及相關資源定位符等。概念詞表導出模塊概念詞表導出模塊是用戶概念定義與語義搜索引擎間進行數(shù) 據(jù)交換的模塊,概念詞表導出模塊將用戶定義的概念詞樹導出為使用XML描述的結構化文 件,以提供搜索引擎模塊使用。
概念索引模塊是對文本進行概念化索引處理的模塊,其輸入為生文本文件,概念 索引模塊對文本文件進行概念提取,提取后的概念詞形成索引文件,以備將來檢索使用。包 括以下三個子模塊搜索引擎分詞模塊將輸入的文本分拆為中文詞匯,涉及人名、地名、單位名的識 別及歧義詞匯的判定。分詞的基礎為中文分詞詞表,系統(tǒng)將按分詞詞表中的定義對文本進 行切分和詞匯判定。概念映射模塊將文本詞匯與概念模型進行匹配,算法有簡單詞匯匹配算法、基 于關鍵詞的匹配算法、以及基于詞頻同現(xiàn)的相關度算法。系統(tǒng)將存儲在數(shù)據(jù)庫中的概念樹 結構常駐內(nèi)存,并與分詞結果進行匹配,輸出匹配成功的概念詞串。概念索引生成模塊根據(jù)概念映射模塊形成的概念詞匯生成索引文件,索引文件 結構為文件編號、核心概念詞串、文件位置鏈接、相關描述內(nèi)容等。概念檢索模塊是對概念索引進行檢索的模塊,用戶可以通過概念樹導航、概念范 圍收縮及關鍵詞檢索功能。概念檢索模塊依然會使用分詞引擎對用戶輸入的非規(guī)范詞進行分詞處理,處理結 果將發(fā)送至概念映射模塊進行匹配。檢索結果模塊在概念索引文件中提取與概念詞匯匹配的內(nèi)容,并提取概念相關詞 與內(nèi)容進行匹配進行高亮顯示,將結果顯示在用戶界面中,顯示內(nèi)容有文件位置鏈接、文 本相關元數(shù)據(jù)、文本概念相關詞匯、文本中概念相關詞(藍色高亮)、原始檢索詞(紅色高
殼)ο概念導航模塊將概念樹分層級進行展示,用戶可展開概念樹并選擇某節(jié)點進行查 詢,是系統(tǒng)輔助用戶查詢的方法。結果集收斂模塊是將用戶查詢結果在不同維度涉及的概念全部展現(xiàn)出來,用戶選 擇某一維度的概念從而限定查詢結果,是系統(tǒng)優(yōu)化查詢結果的一種方法。以上描述中主要權利要求模塊為概念定義模塊、概念導出模塊、概念映射模塊、 概念索引生成及檢索模塊。本發(fā)明的原理是領域詞匯中的術語有較強的區(qū)隔關系,相關術語出現(xiàn)頻次較多 時會將文本指向特定主題,所以可以根據(jù)術語關鍵詞與主題的對應關系,構造內(nèi)容的本體 概念詞族,以便提升文本的標注效率,對文本內(nèi)容提供基于領域本體的概念化檢索。本發(fā)明與現(xiàn)有技術相比的優(yōu)點在于充分利用學科本體與關鍵詞匯的對應關系, 基于詞匯關聯(lián)建立起內(nèi)容間的松散脈絡,根據(jù)相關詞匯的對應關系,構造搜索核心對文本 進行搜索測試,同時以搜索的已匹配內(nèi)容及關聯(lián)數(shù)據(jù)為起點對相似內(nèi)容或概念進行擴展搜 索,獲取導向性查詢結果,從而可以有效地提高查詢質量。
圖1為本發(fā)明的系統(tǒng)組成框圖;圖2為本發(fā)明的實現(xiàn)流程圖;圖3為本發(fā)明的搜索引擎工作原理;圖4為本發(fā)明的語義編輯器的工作示意圖;圖5為本發(fā)明的語義編輯器添加關聯(lián)詞表的示意圖6為本發(fā)明的創(chuàng)建新概念詞的示意圖;圖7為本發(fā)明的導出概念詞設置為XML格式的示意圖;圖8為利用配置進行概念檢索及元數(shù)據(jù)提取的示意圖;;圖9為本發(fā)明的利用概念進行檢索的示意圖;圖10為本發(fā)明的利用概念進行檢索的示意圖;具體實施方法如圖1所示,本發(fā)明主要利用Java語言、數(shù)據(jù)庫、OffL處理引擎及搜索引擎技術實 現(xiàn)。自定義概念詞表模塊概念詞表模塊的核心是一個Java語言編寫的詞匯本體編 輯處理器。詞匯本體定義了詞族核心詞匯、從屬詞匯及概念詞匯間關聯(lián)。自定義概念詞表 模塊內(nèi)置了本體關系處理接口,將用戶的詞匯輸入和關聯(lián)建模行為轉化為CWL模型,并等 待導出。用戶可以使用瀏覽器訪問該模塊并進行相關操作,數(shù)據(jù)將在后臺JAVA服務器進行處理。概念詞表導出模塊概念詞表導出模塊是用戶概念定義與語義搜索引擎間進行數(shù) 據(jù)交換的模塊,概念詞表導出模塊將用戶定義的概念詞樹導出為使用XML描述的結構化文 件,該文件即可以存儲在本地文件系統(tǒng)中,同時也會存儲于數(shù)據(jù)庫中。概念索引模塊是對文本進行概念化索引處理的模塊,當輸入文本時,即可以讓用 戶通過網(wǎng)絡上傳本地文件,也可以對某一存儲空間下的文件進行批量處理。該過程調(diào)用 JAVA文件API進行。其子模塊處理過程為搜索引擎分詞模塊將中文分詞詞表常駐內(nèi)存,通過對輸入文本的掃描與內(nèi)存詞 表匹配,將輸入的文本分拆為中文詞匯,涉及人名、地名、單位名的識別及歧義詞匯的判定。 輸出分詞結果。概念映射模塊將文本詞匯與概念模型進行匹配,用戶可以選擇使用簡單詞匯匹 配算法、基于關鍵詞的匹配算法、以及基于詞頻同現(xiàn)的相關度算法進行概念模型匹配。簡單 詞匯匹配算法對文本分詞后,用全部分詞后形成的詞匯與概念詞及從屬詞表進行匹配,只 要出現(xiàn)相同詞匯,即認為文本中有相應概念存在;關鍵詞匹配算法為抽取文本中出現(xiàn)率最 高的前10個有效詞匯作為關鍵詞,只將關鍵詞與概念詞表進行匹配?;谠~頻同現(xiàn)的相關 度算法需要借助語料庫形成詞頻同現(xiàn)數(shù)據(jù)庫,即形成經(jīng)常同時出現(xiàn)在文章中的詞匯組合, 系統(tǒng)抽取關鍵詞后,不單使用關鍵詞進行概念匹配,同時也利用相關詞匯組合進行映射。概念索引生成模塊根據(jù)概念映射模塊形成的概念詞匯生成索引文件,索引文件 結構為文件編號、核心概念詞串、文件位置鏈接、相關描述內(nèi)容等。概念檢索模塊依然會使用分詞引擎對用戶輸入的非規(guī)范詞進行分詞處理,處理結 果將發(fā)送至概念映射模塊進行匹配。檢索結果模塊在概念索引文件中提取與概念詞匯匹配的內(nèi)容,并提取概念相關詞 與內(nèi)容進行匹配進行高亮顯示,將結果顯示在用戶界面中,顯示內(nèi)容有文件位置鏈接、文 本相關元數(shù)據(jù)、文本概念相關詞匯、文本中概念相關詞(藍色高亮)、原始檢索詞(紅色高
殼)ο概念導航模塊將概念樹分層級進行展示,用戶可展開概念樹并選擇某節(jié)點進行查 詢,是系統(tǒng)輔助用戶查詢的方法。
結果集收斂模塊是將用戶查詢結果在不同維度涉及的概念全部展現(xiàn)出來,用戶選 擇某一維度的概念從而限定查詢結果,是系統(tǒng)優(yōu)化查詢結果的一種方法。以上描述中主要權利要求模塊為概念定義模塊、概念導出模塊、概念映射模塊、 概念索引生成及檢索模塊。本發(fā)明涉及的具體技術有通過本體概念定義構建文本內(nèi)容主題層,通過本體方 法構建詞匯間的上下位類關系,通過分詞后的詞匯匹配建立文本的本體概念數(shù)據(jù),并通過 主題的Facet技術實現(xiàn)概念化檢索。傳統(tǒng)文本描述方法使用敘詞表方法進行關聯(lián)元數(shù)據(jù)說明,敘詞表由敘詞及敘詞之 間關系組成,采用參照符號顯示并清楚地區(qū)分敘詞間基本語義關系。敘詞表中包括以下3 種關系(1)等同關系(Equivalence Relationship),又稱同一關系、用代關系,包含同義、 近義以及用代關系,這種關系含有概念相同或用法相同的關系。揭示等同關系有利于增加 檢索入口和根據(jù)檢索系統(tǒng)需要對標引和檢索的專指度進行控制。(2)等級關系(Hierarchical Relationship),又稱屬分關系,這種關系包含屬種、 整部和多層級關系,每種層級關系的下位詞都必須與上位詞的概念類型相同,即兩者都必 須屬于同一范疇內(nèi)的事物、行為或性質。揭示等級關系有助于通過它擴大和縮小查找范圍, 提高族性檢索能力。(3)相關關系(Associative Relationship),又稱類緣關系,是確立由標引和檢索 角度需要相互關聯(lián)的一種關系。相關關系是揭示敘詞間各種主要聯(lián)系、擴大檢索范圍、進行 相關信息查找的重要手段。利用本體方法,可以將以上敘詞方法對應到系統(tǒng)平臺上實現(xiàn),利用XML文件對詞 匯關系進行描述,如以上的等同關系、等級關系、相關關系分別在語義編輯器中的關聯(lián)詞 表、上級主題詞表及關聯(lián)主題詞表中實現(xiàn)。系統(tǒng)通過自動匹配關鍵詞獲得文本的相關概念,并將這些概念詞設置為文本的元 數(shù)據(jù),同時增加文本的屬性索引。系統(tǒng)利用搜索引擎分面檢索特征,可直接越過關鍵詞,利用概念對文本進行分類 或智能檢索。圖2顯示了本發(fā)明的整體使用過程,具體如下(1)利用語義編輯器創(chuàng)建相關本體,定義學科本體的標示名稱。(2)對某本體概念增加關聯(lián)詞匯,關聯(lián)詞匯應選取可界定類別邊界的術語,編輯器 可對關聯(lián)詞匯進行增刪。(3)也可利用語義編輯器建立起本體概念間的上下位類關系或相關關系,可以為 本體概念增加參考資源。(4)搜索引擎把定義好的學科本體加載到內(nèi)存中以隨時進行匹配計算。(5)對要索引的文本進行分詞。(6)根據(jù)分詞情況進行詞頻統(tǒng)計。(7)根據(jù)詞頻情況計算文章關鍵詞。(8)當索引文本時,將概念詞匯及其詞族與文本分詞進行匹配,當匹配成功時,將 本體概念作為屬性索引加入索引數(shù)據(jù)。
(9)當匹配失敗時,將抽取的關鍵詞進行保存。(10)人工篩選關鍵詞,將新詞加入到概念詞表。(11)系統(tǒng)可自動將提取的本體概念作為文章屬性進行保存,也可以按該屬性進行 概念檢索。(12)用戶鍵入查詢字符串進行檢索。(13)對用戶鍵入的查詢字符串進行概念映射。(14)映射成功時按概念模式進行檢索。(15)映射失敗按普通文本匹配方式進行檢索。圖3展示了語義搜索引擎的工作模型,從語義關鍵詞抽取到學科概念節(jié)點匹配與 存儲,同時也展現(xiàn)了用戶利用搜索引擎進行檢索的過程。從本圖中可以看出,索引和檢索是 對索引詞進行存儲和利用的雙向過程。圖4展示了主題詞編輯器,可以對學科主題詞進行定義、修改、導入、導出等操作, 還可以定義主題詞的相關詞族,同時定義其上下位類及相關資源。圖5說明了為主題詞添加關聯(lián)詞匯的過程。圖6說明了新主題詞的定義過程。圖7展示了定義好的主題詞表的文件結構。圖8展示了主題檢索的視圖,對于檢索到的內(nèi)容,可以按各語義層面進行進一步 查詢,比如相關關鍵詞、相關年級及學科等。圖9展示了根據(jù)主題詞縮小檢索范圍后的查詢結果。圖10展示了從另一角度(年級)進行概念收斂后的查詢結果。
權利要求
1. 一種基于語義關聯(lián)的智能搜索引擎系統(tǒng),其特征在于包括自定義概念詞表模塊、 概念詞表導出模塊、概念索引模塊、搜索引擎分詞模塊;自定義概念詞表模塊一個概念詞表編輯器,提供用戶自定義概念詞匯、建立詞匯間關 聯(lián)的界面,包括核心概念詞定義,核心概念詞是一組相關詞族中的標示詞匯,在定義核心 概念詞后,針對一個概念定義其從屬詞匯、相關概念及概念間關聯(lián),其輸入為用戶希望定義 的概念系統(tǒng)相關詞匯,輸出為使用OWL描述的概念體系,包括核心概念詞、概念從屬詞匯、 概念從屬關系及相關資源定位符;概念詞表導出模塊用戶概念定義與語義搜索引擎間進行數(shù)據(jù)交換的模塊,將用戶定 義的概念詞樹導出為使用XML描述的結構化文件,以提供搜索引擎模塊使用;概念索引模塊,是對文本進行概念化索引處理,其輸入為生文本文件,對文本文件進行 概念提取,提取后的概念詞形成索引文件,以備將來檢索使用,它包括以下三個子模塊搜 索引擎分詞模塊將輸入的文本分拆為中文詞匯,涉及人名、地名、單位名的識別及歧義詞 匯的判定,分詞的基礎為中文分詞詞表,系統(tǒng)將按分詞詞表中的定義對文本進行切分和詞 匯判定;概念映射模塊將文本詞匯與概念模型進行匹配,包括簡單詞匯匹配算法、基于關 鍵詞的匹配算法及基于詞頻同現(xiàn)的相關度算法,將存儲在數(shù)據(jù)庫中的概念樹結構常駐內(nèi) 存,并與分詞結果進行匹配,輸出匹配成功的概念詞串;概念索引生成模塊根據(jù)概念映射 模塊形成的概念詞匯生成索引文件,索引文件結構為文件編號、核心概念詞串、文件位置 鏈接、相關描述內(nèi)容;概念檢索模塊,對概念索引進行檢索,用戶通過概念樹導航、概念范圍收縮及關鍵詞檢 索功能,會使用查詢字符串分詞引擎對用戶輸入的非規(guī)范詞進行分詞處理,處理結果將發(fā) 送至查詢概念映射模塊進行匹配,包括檢索結果模塊,在概念索引文件中提取與概念詞匯 匹配的內(nèi)容,并提取概念相關詞與內(nèi)容進行匹配進行高亮顯示,將結果顯示在用戶界面中, 顯示內(nèi)容有文件位置鏈接、文本相關元數(shù)據(jù)、文本概念相關詞匯、文本中概念相關詞、原始 檢索詞;概念導航模塊將概念樹分層級進行展示,用戶可展開概念樹并選擇某節(jié)點進行查 詢,是系統(tǒng)輔助用戶查詢的方法;結果集收斂模塊將用戶查詢結果在不同維度涉及的概念 全部展現(xiàn)出來,用戶選擇某一維度的概念從而限定查詢結果。
全文摘要
一種通過預定義的學科本體確定學科領域概念,從而實現(xiàn)基于語義關聯(lián)的智能搜索引擎系統(tǒng),使用步驟為(1)利用語義關聯(lián)編輯器創(chuàng)建學科本體;(2)為學科本體增加預定義關聯(lián)詞族;(3)確定本體相關主題及引用資源;(4)利用預定義的本體詞族抽取索引文章的相關主題;(5)將抽取到的主題詞保存為屬性索引;(6)利用主題詞或關鍵字對內(nèi)容進行檢索,并將文章聚類到相關本體下。本方法可以有效地對學科本體進行定義,提高受控環(huán)境中(如學校專業(yè)課件資源)內(nèi)容檢索準確性,同時提高資源間關聯(lián)程度。
文檔編號G06F17/30GK102087669SQ20111005831
公開日2011年6月8日 申請日期2011年3月11日 優(yōu)先權日2011年3月11日
發(fā)明者呂國強, 郭寧 申請人:北京匯智卓成科技有限公司, 深圳市亮信科技有限公司