亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于通用形式化本體的領(lǐng)域本體的檢索方法及裝置與流程

文檔序號(hào):12887314閱讀:292來源:國知局
基于通用形式化本體的領(lǐng)域本體的檢索方法及裝置與流程

本發(fā)明涉及信息檢索領(lǐng)域,具體而言,涉及一種基于通用形式化本體的領(lǐng)域本體的檢索方法及裝置。



背景技術(shù):

傳統(tǒng)的全文檢索系統(tǒng)中,大多以關(guān)鍵詞匹配為主來完成查詢條件與索引內(nèi)容的匹配,但是由于用戶輸入語句的隨機(jī)性較強(qiáng),導(dǎo)致查詢條件與索引內(nèi)容在表達(dá)上的差異很大,查詢匹配的準(zhǔn)確率不高,檢索經(jīng)常出現(xiàn)遺漏重要信息和返回大量不相關(guān)結(jié)果的現(xiàn)象。即使對(duì)關(guān)鍵字建立索引表,可以提供查詢效率和查詢速度。但是當(dāng)需要對(duì)文獻(xiàn)資料進(jìn)行全文檢索的時(shí)候,這種數(shù)據(jù)庫的索引方式是不起作用的。如果對(duì)全文進(jìn)行基于關(guān)鍵字,即以匹配“keyword”的方式進(jìn)行檢索,僅能從字面上完成檢索請(qǐng)求與索引的匹配,缺乏對(duì)檢索請(qǐng)求的語義層面的理解與分析能力,其性能和效率是很低的。在召回率和準(zhǔn)確率方面無法得到滿意的結(jié)果。

所以,目前的大多數(shù)信息檢索系統(tǒng),面對(duì)海量的異構(gòu)化的數(shù)據(jù)資源,在執(zhí)行過程當(dāng)中很難達(dá)到在兼顧查全率和準(zhǔn)確率的情況下提供高效的全文信息檢索。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例的目的在于提供一種基于通用形式化本體的領(lǐng)域本體的檢索方法及裝置,以改善上述問題。

第一方面,本發(fā)明實(shí)施例提供了一種基于通用形式化本體的領(lǐng)域本體的檢索方法,所述方法包括:獲取用戶的查詢請(qǐng)求;對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,獲得初始關(guān)鍵詞集;基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,獲取與所述初始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念;獲取與所述目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞集;通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索;返回檢索后的檢索結(jié)果。

進(jìn)一步地,基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,獲取與所述初始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念,包括:基于預(yù)先利用頂層本體創(chuàng)建好的領(lǐng)域本體及本體概念模型來對(duì)所述初始關(guān)鍵詞集中的初始關(guān)鍵詞進(jìn)行本體語義擴(kuò)展,以獲得與所述初始關(guān)鍵詞匹配的目標(biāo)搜索概念。

進(jìn)一步地,通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索,包括:將所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞生成對(duì)應(yīng)的查詢語句;通過所述查詢語句對(duì)預(yù)先建立的索引庫進(jìn)行檢索。

進(jìn)一步地,所述獲取用戶的查詢請(qǐng)求的步驟之前,還包括:獲取網(wǎng)絡(luò)中的電子文檔;對(duì)所述電子文檔中的關(guān)鍵詞進(jìn)行標(biāo)注;對(duì)標(biāo)注后的關(guān)鍵詞建立索引庫。

進(jìn)一步地,領(lǐng)域本體為中醫(yī)藥領(lǐng)域本體。

第二方面,本發(fā)明實(shí)施例提供了一種基于通用形式化本體的領(lǐng)域本體的檢索裝置,所述裝置包括:請(qǐng)求獲取模塊,用于獲取用戶的查詢請(qǐng)求;預(yù)處理模塊,用于對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,獲得初始關(guān)鍵詞集;概念獲取模塊,用于基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,獲取與所述初始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念;檢索詞獲取模塊,用于獲取與所述目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞集;檢索模塊,用于通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索;結(jié)果獲取模塊,用于返回檢索后的檢索結(jié)果。

進(jìn)一步地,所述概念獲取模塊,具體用于基于預(yù)先利用頂層本體創(chuàng)建好的領(lǐng)域本體及本體概念模型來對(duì)所述初始關(guān)鍵詞集中的初始關(guān)鍵詞進(jìn)行本體語義擴(kuò)展,以獲得與所述初始關(guān)鍵詞匹配的目標(biāo)搜索概念。

進(jìn)一步地,所述檢索模塊包括:語句生成子模塊,用于將所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞生成對(duì)應(yīng)的查詢語句;檢索子模塊,用于通過所述查詢語句對(duì)預(yù)先建立的索引庫進(jìn)行檢索。

進(jìn)一步地,所述裝置還包括:文檔獲取模塊,用于獲取網(wǎng)絡(luò)中的電子文檔;標(biāo)注模塊,用于對(duì)所述電子文檔中的關(guān)鍵詞進(jìn)行標(biāo)注;建立索引庫模塊,用于對(duì)標(biāo)注后的關(guān)鍵詞建立索引庫。

進(jìn)一步地,領(lǐng)域本體為中醫(yī)藥領(lǐng)域本體。

本發(fā)明實(shí)施例的有益效果是:

本發(fā)明實(shí)施例提供一種基于通用形式化本體的領(lǐng)域本體的檢索方法及裝置,首先獲取用戶的查詢請(qǐng)求,然后對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,以獲得初始關(guān)鍵詞集,再基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,來獲取與所述初始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念,再獲取與所述目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞集,通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索,再返回檢索后的檢索結(jié)果,本發(fā)明通過預(yù)先利用通用形式化本體來構(gòu)建領(lǐng)域本體,然后基于目標(biāo)搜索概念來進(jìn)行檢索,可以更為高效和準(zhǔn)確的提供設(shè)計(jì)領(lǐng)域的知識(shí)檢索,提高了檢索的查全率和查準(zhǔn)率。

本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的說明書闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明實(shí)施例了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。

圖1為本發(fā)明實(shí)施例提供的用戶終端與服務(wù)器進(jìn)行交互的示意圖;

圖2示出了一種可應(yīng)用于本申請(qǐng)實(shí)施例中的電子設(shè)備的結(jié)構(gòu)框圖;

圖3為本發(fā)明實(shí)施例提供的一種基于通用形式化本體的領(lǐng)域本體的檢索方法的流程圖;

圖4為本發(fā)明實(shí)施例提供的一種基于頂層本體構(gòu)建領(lǐng)域本體的流程示意圖;

圖5為本發(fā)明實(shí)施例提供的一種基于通用形式化本體的領(lǐng)域本體的檢索裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí),在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于區(qū)分描述,而不能理解為指示或暗示相對(duì)重要性。

圖1為本發(fā)明實(shí)施例提供的用戶終端10與服務(wù)器20進(jìn)行交互的示意圖,所述服務(wù)器20通過網(wǎng)絡(luò)30與一個(gè)或多個(gè)用戶終端10進(jìn)行通信連接,以進(jìn)行數(shù)據(jù)通信或交互。所述服務(wù)器20可以是網(wǎng)絡(luò)服務(wù)器、數(shù)據(jù)庫服務(wù)器等。所述用戶終端10可以是個(gè)人電腦(personalcomputer,pc)、平板電腦、智能手機(jī)、個(gè)人數(shù)字助理(personaldigitalassistant,pda)、可穿戴設(shè)備等終端。

請(qǐng)參照?qǐng)D2,圖2示出了一種可應(yīng)用于本申請(qǐng)實(shí)施例中的電子設(shè)備100的結(jié)構(gòu)框圖。電子設(shè)備100可以為本發(fā)明中的用戶終端10,包括存儲(chǔ)器101、存儲(chǔ)控制器102、處理器103、外設(shè)接口104、輸入輸出單元105、音頻單元106、顯示單元107。

當(dāng)然,服務(wù)器20也可包括上述的存儲(chǔ)器101、存儲(chǔ)控制器102、處理器103。

所述存儲(chǔ)器101、存儲(chǔ)控制器102、處理器103、外設(shè)接口104、輸入輸出單元105、音頻單元106、顯示單元107各元件相互之間直接或間接地電性連接,以實(shí)現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號(hào)線實(shí)現(xiàn)電性連接。所述基于通用形式化本體的領(lǐng)域本體的檢索裝置包括至少一個(gè)可以軟件或固件(firmware)的形式存儲(chǔ)于所述存儲(chǔ)器101中或固化在所述基于通用形式化本體的領(lǐng)域本體的檢索裝置的操作系統(tǒng)(operatingsystem,os)中的軟件功能模塊。所述處理器103用于執(zhí)行存儲(chǔ)器101中存儲(chǔ)的可執(zhí)行模塊,例如所述基于通用形式化本體的領(lǐng)域本體的檢索裝置包括的軟件功能模塊或計(jì)算機(jī)程序。

其中,存儲(chǔ)器101可以是,但不限于,隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram),只讀存儲(chǔ)器(readonlymemory,rom),可編程只讀存儲(chǔ)器(programmableread-onlymemory,prom),可擦除只讀存儲(chǔ)器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲(chǔ)器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存儲(chǔ)器101用于存儲(chǔ)程序,所述處理器103在接收到執(zhí)行指令后,執(zhí)行所述程序,前述本發(fā)明實(shí)施例任一實(shí)施例揭示的流過程定義的服務(wù)器所執(zhí)行的方法可以應(yīng)用于處理器103中,或者由處理器103實(shí)現(xiàn)。

處理器103可以是一種集成電路芯片,具有信號(hào)的處理能力。上述的處理器103可以是通用處理器,包括中央處理器(centralprocessingunit,簡稱cpu)、網(wǎng)絡(luò)處理器(networkprocessor,簡稱np)等;還可以是數(shù)字信號(hào)處理器(dsp)、專用集成電路(asic)、現(xiàn)成可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫?shí)現(xiàn)或者執(zhí)行本發(fā)明實(shí)施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器103也可以是任何常規(guī)的處理器等。

所述外設(shè)接口104將各種輸入/輸出裝置耦合至處理器103以及存儲(chǔ)器101。在一些實(shí)施例中,外設(shè)接口104,處理器103以及存儲(chǔ)控制器102可以在單個(gè)芯片中實(shí)現(xiàn)。在其他一些實(shí)例中,他們可以分別由獨(dú)立的芯片實(shí)現(xiàn)。

輸入輸出單元105用于提供給用戶輸入數(shù)據(jù)實(shí)現(xiàn)用戶與所述服務(wù)器(或本地終端)的交互。所述輸入輸出單元105可以是,但不限于,鼠標(biāo)和鍵盤等。

音頻單元106向用戶提供音頻接口,其可包括一個(gè)或多個(gè)麥克風(fēng)、一個(gè)或者多個(gè)揚(yáng)聲器以及音頻電路。

顯示單元107在所述電子設(shè)備100與用戶之間提供一個(gè)交互界面(例如用戶操作界面)或用于顯示圖像數(shù)據(jù)給用戶參考。在本實(shí)施例中,所述顯示單元107可以是液晶顯示器或觸控顯示器。若為觸控顯示器,其可為支持單點(diǎn)和多點(diǎn)觸控操作的電容式觸控屏或電阻式觸控屏等。支持單點(diǎn)和多點(diǎn)觸控操作是指觸控顯示器能感應(yīng)到來自該觸控顯示器上一個(gè)或多個(gè)位置處同時(shí)產(chǎn)生的觸控操作,并將該感應(yīng)到的觸控操作交由處理器103進(jìn)行計(jì)算和處理。

所述外設(shè)接口104將各種輸入/輸入裝置耦合至處理器103以及存儲(chǔ)器101。在一些實(shí)施例中,外設(shè)接口104,處理器103以及存儲(chǔ)控制器102可以在單個(gè)芯片中實(shí)現(xiàn)。在其他一些實(shí)例中,他們可以分別由獨(dú)立的芯片實(shí)現(xiàn)。

輸入輸出單元105用于提供給用戶輸入數(shù)據(jù)實(shí)現(xiàn)用戶與處理終端的交互。所述輸入輸出單元105可以是,但不限于,鼠標(biāo)和鍵盤等。

可以理解,圖2所示的結(jié)構(gòu)僅為示意,所述電子設(shè)備100還可包括比圖2中所示更多或者更少的組件,或者具有與圖2所示不同的配置。圖2中所示的各組件可以采用硬件、軟件或其組合實(shí)現(xiàn)。

下面對(duì)本發(fā)明實(shí)施例中用到的名稱進(jìn)行介紹。

1.本體(ontology):在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域,理論上,本體是指一種“形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說明”。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對(duì)象類型或概念及其屬性和相互關(guān)系;或者說,本體就是一種特殊類型的術(shù)語集,具有結(jié)構(gòu)化的特點(diǎn),且更加適合于在計(jì)算機(jī)系統(tǒng)之中使用;或者說,本體實(shí)際上就是對(duì)特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(dá)(formalrepresentation)。本體是人們以自己興趣領(lǐng)域的知識(shí)為素材,運(yùn)用信息科學(xué)的本體論原理而編寫出來的作品(artifacts)。本體一般可以用來針對(duì)該領(lǐng)域的屬性進(jìn)行推理,亦可用于定義該領(lǐng)域(也就是對(duì)該領(lǐng)域進(jìn)行建模)。

一般本體由類、實(shí)施、關(guān)系、函數(shù)和公理五種元素組成,其組成形式一般為具有層次性的樹狀結(jié)構(gòu)。

本體一般可分為頂層本體、中間層本體、領(lǐng)域本體、任務(wù)本體、應(yīng)用本體等。

2.頂層本體:是高層的與某個(gè)特定領(lǐng)域或任務(wù)無關(guān)的本體,它通常只表達(dá)一些常識(shí)性概念和范疇,如時(shí)間、空間、對(duì)象、事件等。頂層本體具體普遍性和抽象性,它可以作為構(gòu)建領(lǐng)域本體的基礎(chǔ),并且為不同系統(tǒng)提供一個(gè)共同的知識(shí)庫。利用頂層本體來構(gòu)建領(lǐng)域本體,利用頂層本體中已有的概念集、規(guī)范的關(guān)系定義和公理定義,以及合理的邏輯結(jié)構(gòu),可以大大減少本體構(gòu)建過程的復(fù)雜性,省時(shí)省力;同時(shí),通過遵循同樣的標(biāo)準(zhǔn)規(guī)范,使得將來在不同本體或系統(tǒng)之間的映射和互操作變得容易。

3.gfo(generalformalontology,通用形式化本體):gfo致力于構(gòu)建一個(gè)可以適用于所有領(lǐng)域的頂層本體,由3層元本體架構(gòu)組成:(1)抽象;(2)元層面;(3)由所有相關(guān)的gfo基本類別所組成的基本層面。

4.本體概念模型:指的是以語義web方式對(duì)某個(gè)特定領(lǐng)域的知識(shí)體系建立具有層次結(jié)構(gòu)的概念模型,包含所有相關(guān)的概念類、實(shí)例、語義關(guān)系等。本體中用樹型結(jié)構(gòu)組織概念,其中,概念詞用節(jié)點(diǎn)來表示;概念詞與概念詞之間的關(guān)系用邊來表示。例如,“中風(fēng)”的概念為“疾病”。

請(qǐng)參照?qǐng)D3,圖3為本發(fā)明實(shí)施例提供的一種基于通用形式化本體的領(lǐng)域本體的檢索方法的流程圖,所述方法具體包括如下步驟:

步驟s110:獲取用戶的查詢請(qǐng)求。

用戶在進(jìn)行檢索時(shí),可以在用戶終端的檢索界面輸入需要檢索的內(nèi)容,即查詢請(qǐng)求,然后可以通過網(wǎng)絡(luò)將該查詢請(qǐng)求發(fā)送給服務(wù)器。

步驟s120:對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,獲得初始關(guān)鍵詞集。

服務(wù)器在獲取到所述查詢請(qǐng)求后,首先對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,預(yù)處理是指對(duì)查詢請(qǐng)求進(jìn)行分詞處理,識(shí)別出其中的最小語義單元,并對(duì)分詞后的詞標(biāo)注出詞性。

作為一種方式,可以在已建立好的領(lǐng)域本體詞庫所映射的字典樹中,對(duì)查詢請(qǐng)求的所有子串逐個(gè)匹配,得到分詞備選集,其中包括完全匹配結(jié)果與部分匹配結(jié)果,完全匹配結(jié)果中的每個(gè)詞都能映射到領(lǐng)域本體詞庫中的某個(gè)詞,部分匹配結(jié)果中的每個(gè)詞都能映射到領(lǐng)域本體詞庫中的某個(gè)詞的子串,根據(jù)在本體知識(shí)庫中出現(xiàn)的頻次,詞自身路徑跨度大小和詞長與平均詞長的差值大小,對(duì)分詞備選集中的所有詞進(jìn)行三級(jí)過濾,得到初始關(guān)鍵詞集。

作為一種方式,還可通過ictclas分詞系統(tǒng)對(duì)查詢請(qǐng)求進(jìn)行預(yù)處理,通過使用ictclas分詞系統(tǒng)將用戶的查詢請(qǐng)求切分成帶有詞性標(biāo)注的單詞序列。

另外,還可采用lucene搜索引擎自帶的中文分詞算法進(jìn)行分詞處理,lucene有其自己的中文分析器,其中主要是standardanalyzer和cjkanalyzer。standardanalyzer分析器采用單字分詞法,而cjkanalyzer分析器采用二分法。

在lucene搜索引擎的中文分詞算法中最常用的是基于字符串匹配方法,在此基礎(chǔ)上還有一種正向最大增字匹配分詞算法,正向最大增字匹配分詞算法實(shí)現(xiàn)思想是準(zhǔn)備一個(gè)分詞的詞典,然后利用算法對(duì)輸入的查詢請(qǐng)求進(jìn)行從左到右進(jìn)行掃描,其目的是將查詢請(qǐng)求中的字符串與詞典中的詞條進(jìn)行逐個(gè)匹配。匹配字段是從一個(gè)字開始,匹配中不斷增字,直到匹配不下去為止,每一輪結(jié)束得到的結(jié)果,取最大的可以匹配成功的當(dāng)前匹配字段,例如,輸入的查詢請(qǐng)求為“我屬于中國人民解放軍的陸軍部隊(duì)”,詞典中有“中國人民解放軍”、“中國”、“人民”、“解放軍”等詞,然后從“中”字開始,向后依次掃描,分別取“中”、“中國”、“中國人”、“中國人民”、“中國人民解”、“中國人民解放”、“中國人民解放軍”進(jìn)行匹配,詞典中最長的匹配字符串是“中國人民解放軍”,那么該詞被切分出來,接下來從“的”字開始掃描,重復(fù)上述操作,結(jié)果為“我/屬于/中國人民解放軍/的/陸軍/部隊(duì)”,并且為其各個(gè)詞標(biāo)注詞性,其中,名詞、動(dòng)詞、數(shù)詞、形容詞、前置詞、助詞、連詞、標(biāo)點(diǎn)等詞性標(biāo)記分別為n、v、m、a、p、u、c、wp等符號(hào),例如,將“我”標(biāo)注為名詞,然后將該(我、屬于、中國人民解放軍、的、陸軍、部隊(duì))作為初始關(guān)鍵詞集。

步驟s130:基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,獲取與所述始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念。

在進(jìn)行查詢請(qǐng)求之前,服務(wù)器存儲(chǔ)有預(yù)先利用通用形式化本體創(chuàng)建的領(lǐng)域本體,領(lǐng)域本體的構(gòu)建方法有常用的“骨架法”和“七步法”,在此基礎(chǔ)上,基于頂層本體構(gòu)建領(lǐng)域本體的基本思想是,從本體工程的基本思想出發(fā),借助詞表達(dá)法對(duì)選詞進(jìn)行規(guī)范化處理,并選擇合適的頂層本體,對(duì)領(lǐng)域本體構(gòu)建進(jìn)行標(biāo)準(zhǔn)化處理,最后將領(lǐng)域本體嫁接到頂層本體中。具體的過程請(qǐng)參照?qǐng)D4所示的基于頂層本體構(gòu)建領(lǐng)域本體的流程示意圖。

在本實(shí)施例中,所述領(lǐng)域本體為中醫(yī)藥領(lǐng)域本體,頂層本體為gfo(通用形式化本體),中醫(yī)藥頂層本體不僅為中醫(yī)藥領(lǐng)域本體的構(gòu)件提供框架,而且有利于實(shí)現(xiàn)中醫(yī)藥領(lǐng)域本體同其他領(lǐng)域本體之間的整合,是實(shí)現(xiàn)不同領(lǐng)域知識(shí)共享和互操作的基礎(chǔ)。

而目前中醫(yī)藥頂層本體基本都是參照sumo(suggesteduppermergedontology,推薦上層合并本體)和西醫(yī)領(lǐng)域的umls(unifiedmedicallanguagesystem,一體化醫(yī)學(xué)語言系統(tǒng))進(jìn)行構(gòu)建,但是,傳統(tǒng)的中醫(yī)學(xué)理論有著自己獨(dú)特的體系架構(gòu),無論是它的知識(shí)背景、哲學(xué)起源,還是中醫(yī)藥術(shù)語的語義與語境,都與西醫(yī)的知識(shí)體系有著極大的差異。如果按照西醫(yī)理論去詮釋中醫(yī)藥概念和術(shù)語,不顧及中醫(yī)發(fā)展規(guī)律和特殊性,加之選擇不當(dāng),很容易產(chǎn)生語義表達(dá)二義性等諸多問題。

所以,本發(fā)明實(shí)施例利用gfo來構(gòu)建中醫(yī)藥領(lǐng)域本體,gfo是致力于建立一個(gè)博采中西之所長、兼收并蓄的頂層本體,這為將來的中西文化匯通及中西醫(yī)的匯通提供了可能性。

然后利用建立好的本體概念模型,對(duì)初始關(guān)鍵詞集中的初始關(guān)鍵詞進(jìn)行本體語義擴(kuò)展,例如,若上述步驟得到的初始關(guān)鍵詞集為(治療、中風(fēng)、的、方劑),再將該初始關(guān)鍵詞集中的初始關(guān)鍵詞進(jìn)行語義擴(kuò)展,即通過本體概念模型對(duì)初始關(guān)鍵詞進(jìn)行語義擴(kuò)展,例如,中醫(yī)藥領(lǐng)域本體概念模型中有“疾病”、“癥候”、“癥狀”、“治療方法”、“方劑”、“藥物”等概念,則從中可獲得目標(biāo)搜索概念,例如“中風(fēng)(疾病)”、“方劑(x)”。

具體而言,領(lǐng)域本體是一個(gè)概念詞編輯器,提供用戶自定義領(lǐng)域本體的概念、建立概念間關(guān)聯(lián)的界面。建立領(lǐng)域本體,首先定義核心概念詞,核心概念詞是領(lǐng)域本體中的標(biāo)示詞匯,在定義核心概念詞后,可針對(duì)一個(gè)概念定義其數(shù)值屬性、從屬概念及概念間的關(guān)系,其輸入為用戶希望定義的概念方法相關(guān)詞匯,輸出為使用rdf(resourcedescriptionframework,萬維網(wǎng))描述的概念體系,包括:概念、概念關(guān)系、概念屬性及概念實(shí)例等。例如,若領(lǐng)域本體定義為o=<c,r,i,f>的形式,其中c為概念集合,r為概念之間的關(guān)系集合,i為實(shí)例集合,f為事實(shí)集合,每個(gè)事實(shí)可以表示為一個(gè)三元組,即e=i∪c。

另外,需要說明的是,本發(fā)明實(shí)施例中利用通用形式化本體創(chuàng)建的領(lǐng)域本體不僅僅只為中醫(yī)藥領(lǐng)域本體,還可以為其他領(lǐng)域本體,例如生物醫(yī)學(xué)領(lǐng)域本體、法律領(lǐng)域本體、經(jīng)濟(jì)領(lǐng)域本體、農(nóng)業(yè)科學(xué)領(lǐng)域本體等。

步驟s140:獲取與所述目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞集。

從構(gòu)建好的領(lǐng)域本體庫中提取出與目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵字集,例如,提取出與概念“中風(fēng)”的檢索關(guān)鍵字有“偏枯”、“仆擊”、“大厥”、“薄厥”、“偏風(fēng)”、“身偏不用”、“風(fēng)痱”,從而提取出與目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞組成的檢索關(guān)鍵詞集。

步驟s150:通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索。

將所述檢索關(guān)鍵詞集中的每個(gè)檢索關(guān)鍵詞通過邏輯操作符從自定義的查詢系統(tǒng)當(dāng)中自動(dòng)生成對(duì)應(yīng)格式的查詢語句,例如,lucene/solr格式的查詢語句,然后根據(jù)查詢語句對(duì)預(yù)先建立的索引庫進(jìn)行檢索。

其中,建立索引庫的過程為:首先將由網(wǎng)絡(luò)上抓取下來的電子文檔及用戶上傳的文檔建立索引,并建立數(shù)據(jù)庫將文本以及文檔的題目、摘要、日期以及鏈接進(jìn)行組織,然后對(duì)組織后的文檔進(jìn)行內(nèi)容分析,建立起結(jié)構(gòu)化的索引庫。

上述建立索引庫的過程還可以這么理解:例如,可以通過網(wǎng)絡(luò)爬蟲從網(wǎng)絡(luò)上面抓取專業(yè)領(lǐng)域的文檔,此處文檔可以包括html、asp、pdf、doc、txt、excel、ppt、ps、圖片等多種格式,然后將文檔中的關(guān)鍵詞進(jìn)行倒排索引,建立起結(jié)構(gòu)化的存儲(chǔ)結(jié)構(gòu),即索引庫。

對(duì)文檔中的關(guān)鍵詞進(jìn)行采樣,每一個(gè)已經(jīng)分詞的文檔都擁有一個(gè)采樣表結(jié)構(gòu),對(duì)于文檔中的每一個(gè)詞在索引庫中都對(duì)應(yīng)與一條記錄,記錄這該關(guān)鍵詞在文檔中出現(xiàn)的次數(shù),每次出現(xiàn)的位置以及大小等信息,之所以要記錄這些信息,是為了體現(xiàn)出不同的關(guān)鍵詞在文檔中的重要程度如何,比如,某關(guān)鍵詞出現(xiàn)在文檔a的標(biāo)題處中,同時(shí)出現(xiàn)在文檔b的正文中,那么用戶在檢索該關(guān)鍵詞時(shí),在檢索結(jié)果中就應(yīng)該把文檔a排在文檔b的前面呈現(xiàn)給用戶,因?yàn)槲臋na對(duì)關(guān)鍵詞的重視程度要高于文檔b。這種索引方法為前向索引,其是一種網(wǎng)頁到關(guān)鍵詞的映射,這種數(shù)據(jù)結(jié)構(gòu)將前面采樣表結(jié)構(gòu)合理的組織起來,形成一種完整的數(shù)據(jù)結(jié)構(gòu)。

在實(shí)際搜索的時(shí)候?yàn)橛脩糨斎腙P(guān)鍵詞的搜索,因此還需建立一種關(guān)鍵詞到文檔的映射,以實(shí)現(xiàn)快速索引,倒排索引由關(guān)鍵詞的id進(jìn)行索引,每個(gè)關(guān)鍵詞都有一個(gè)索引表,用以記錄哪些文檔中包含有該關(guān)鍵詞,倒排索引是一種關(guān)鍵詞到文檔的映射,從某個(gè)關(guān)鍵詞出發(fā)可以索引到包含它的文檔的集合,再由這些文檔id索引到前向索引表,從而得到該關(guān)鍵詞在每個(gè)文檔中的分布情況。

步驟s160:返回檢索后的檢索結(jié)果。

在建立索引庫后,基于特定模型的評(píng)分方法,對(duì)索引庫中的內(nèi)容進(jìn)行評(píng)分與匹配,將匹配成功的文件作為最終的檢索結(jié)果。

上述特定模型的評(píng)分方法可以為基于vsm的評(píng)分方法,而實(shí)際采用lucene搭建搜索引擎時(shí)的評(píng)分公式為tf(t∈d)=p(t∈d)1/2,其中,tf(t∈d)與關(guān)鍵詞t在當(dāng)前需評(píng)分文檔的頻率p(t∈d)有關(guān),idf(t)表示反向文檔頻率,|{d∈d:t∈d}|是關(guān)鍵詞t出現(xiàn)的文檔數(shù),cood(q,d)是基于關(guān)鍵詞t在指定文檔出現(xiàn)數(shù)量的評(píng)分系數(shù),querynorm(q)是用來實(shí)現(xiàn)可比較查詢的歸一化參數(shù),boost(t.filed∈d)是查詢文檔中指定該域的權(quán)值,norm(t,d)中包含了各種權(quán)值,如文檔的權(quán)值、查詢域的權(quán)值。

最后根據(jù)用戶輸入的查詢請(qǐng)求,獲取到與該查詢請(qǐng)求匹配度最大的文檔,再通過優(yōu)化排序等,生成統(tǒng)一格式的檢索結(jié)果返回給用戶,例如excel格式。

請(qǐng)參照?qǐng)D5,圖5為本發(fā)明實(shí)施例提供的一種基于通用形式化本體的領(lǐng)域本體的檢索裝置200的結(jié)構(gòu)框圖,所述裝置運(yùn)行于服務(wù)器,所述裝置具體包括:

請(qǐng)求獲取模塊210,用于獲取用戶的查詢請(qǐng)求。

預(yù)處理模塊220,用于對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,獲得初始關(guān)鍵詞集。

概念獲取模塊230,用于基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,獲取與所述初始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念。

檢索詞獲取模塊240,用于獲取與所述目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞集。

檢索模塊250,用于通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索。

結(jié)果獲取模塊260,用于返回檢索后的檢索結(jié)果。

其中,作為一種方式,所述概念獲取模塊230,具體用于基于預(yù)先利用頂層本體創(chuàng)建好的領(lǐng)域本體及本體概念模型來對(duì)所述初始關(guān)鍵詞集中的初始關(guān)鍵詞進(jìn)行本體語義擴(kuò)展,以獲得與所述初始關(guān)鍵詞匹配的目標(biāo)搜索概念。

作為一種方式,所述檢索模塊250包括語句生成子模塊和檢索子模塊。

語句生成子模塊,用于將所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞生成對(duì)應(yīng)的查詢語句。

檢索子模塊,用于通過所述查詢語句對(duì)預(yù)先建立的索引庫進(jìn)行檢索。

作為一種方式,所述裝置還包括:文檔獲取模塊、標(biāo)注模塊及建立索引庫模塊。

文檔獲取模塊,用于獲取網(wǎng)絡(luò)中的電子文檔。

標(biāo)注模塊,用于對(duì)所述電子文檔中的關(guān)鍵詞進(jìn)行標(biāo)注。

建立索引庫模塊,用于對(duì)標(biāo)注后的關(guān)鍵詞建立索引庫。

其中,領(lǐng)域本體為中醫(yī)藥領(lǐng)域本體。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置的具體工作過程,可以參考前述方法中的對(duì)應(yīng)過程,在此不再過多贅述。

綜上所述,本發(fā)明實(shí)施例提供一種基于通用形式化本體的領(lǐng)域本體的檢索方法及裝置,首先獲取用戶的查詢請(qǐng)求,然后對(duì)所述查詢請(qǐng)求進(jìn)行預(yù)處理,以獲得初始關(guān)鍵詞集,再基于預(yù)先利用通用形式化本體創(chuàng)建好的領(lǐng)域本體及本體概念模型,來獲取與所述初始關(guān)鍵詞集中的初始關(guān)鍵詞匹配的目標(biāo)搜索概念,再獲取與所述目標(biāo)搜索概念對(duì)應(yīng)的檢索關(guān)鍵詞集,通過所述檢索關(guān)鍵詞集中的檢索關(guān)鍵詞進(jìn)行檢索,再返回檢索后的檢索結(jié)果,本發(fā)明通過預(yù)先利用通用形式化本體來構(gòu)建領(lǐng)域本體,然后基于目標(biāo)搜索概念來進(jìn)行檢索,可以更為高效和準(zhǔn)確的提供設(shè)計(jì)領(lǐng)域的知識(shí)檢索,提高了檢索的查全率和查準(zhǔn)率。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)方式中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能模塊可以集成在一起形成一個(gè)獨(dú)立的部分,也可以是各個(gè)模塊單獨(dú)存在,也可以兩個(gè)或兩個(gè)以上模塊集成形成一個(gè)獨(dú)立的部分。

所述功能如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤,云端存儲(chǔ)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1