本發(fā)明涉及計算機檢索技術(shù)領(lǐng)域,具體涉及一種跨語言科技文獻檢索方法及系統(tǒng)。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,人們越來越普遍地利用檢索電子文檔的方式來獲取知識。但是用戶所需的知識可能存在不同語言的文檔中,而用戶更愿意用母語進行檢索,這就產(chǎn)生了跨語言知識檢索和抽取的需求。
跨語言檢索指用戶使用某種自然語言(源語言)的檢索詞匯去檢索另一種自然語言(目標語言)表達的文檔。但現(xiàn)有的知識庫在中英文的跨語言檢索時,都是先將關(guān)鍵詞翻譯為英文,再參照英文翻譯在數(shù)據(jù)庫中進行檢索。由于中英文之間常常存在一詞多譯的情況,這就導(dǎo)致在跨語言檢索時,檢索精確度大大降低。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種跨語言科技文獻檢索方法及系統(tǒng),提高科技文獻檢索的精確度。
為實現(xiàn)以上目的,本發(fā)明采用如下技術(shù)方案:
一種跨語言科技文獻檢索方法,包括:
步驟S1、建立科技文獻本體庫,其中,所述科技文獻本體庫中存儲有同類關(guān)鍵詞、同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引;所述同類關(guān)鍵詞為同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞集合;所述源科技文獻為同類關(guān)鍵詞中各中文關(guān)鍵詞和英文關(guān)鍵詞所源自的科技文獻集合;
步驟S2、讀取用戶輸入的檢索詞,并在所述科技文獻本體庫中查找與該檢索詞相匹配的同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接;
步驟S3、通過同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,查找出相關(guān)文獻,并按預(yù)設(shè)排序顯示給用戶。
優(yōu)選地,所述步驟S1具體為:對收錄到數(shù)據(jù)庫中的每一篇科技文獻,執(zhí)行以下步驟:
步驟S11、提取科技文獻中的中文關(guān)鍵詞和英文關(guān)鍵詞;
步驟S12、將相同的中文關(guān)鍵詞或英文關(guān)鍵詞進行合并,同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞歸為一類;
步驟S13、對每一類關(guān)鍵詞,建立一個科技文獻信息本體鏈接,同時,建立一個該科技文獻信息本體鏈接指向源科技文獻的索引;
步驟S14、集合步驟S13中的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,形成科技文獻本體庫;
其中,所述科技文獻信息包括:科技文獻的題目、作者、摘要、關(guān)鍵詞、出版時間、科技文獻的背景部分、問題部分和解決方案部分。
優(yōu)選地,所述步驟S11具體為:對科技文獻進行語義分析,以提取文關(guān)鍵詞和英文關(guān)鍵詞。
優(yōu)選地,所述預(yù)設(shè)排序為:按檢索詞與科技文獻本體庫中同類關(guān)鍵詞的匹配程度,從高到低以列表形式排列。
優(yōu)選地,采用Jena和SparQL語言實現(xiàn)科技文獻本體庫中本體的解析和查詢。
一種跨語言科技文獻檢索系統(tǒng),包括:
本體庫模塊,用于建立科技文獻本體庫,其中,所述科技文獻本體庫中存儲有同類關(guān)鍵詞、同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引;所述同類關(guān)鍵詞為同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞集合;所述源科技文獻為同類關(guān)鍵詞中各中文關(guān)鍵詞和英文關(guān)鍵詞所源自的科技文獻集合;
檢索模塊,用于讀取用戶輸入的檢索詞,并在所述科技文獻本體庫中查找與該檢索詞相匹配的同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接;
顯示模塊,用于通過同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,查找出相關(guān)文獻,并按預(yù)設(shè)排序顯示給用戶。
本發(fā)明采用以上技術(shù)方案,至少具備以下有益效果:
由上述技術(shù)方案可知,本發(fā)明提供的這種跨語言科技文獻檢索方法及系統(tǒng),由于建立有科技文獻本體庫,科技文獻本體庫中存儲有同類關(guān)鍵詞、同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,所述同類關(guān)鍵詞為同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞集合,使得用戶輸入檢索詞后,只需在科技文獻本體庫中查找該檢索詞相匹配的同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接,通過同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,查找出相關(guān)文獻,并按預(yù)設(shè)排序顯示給用戶,即可實現(xiàn)檢索,相比現(xiàn)有技術(shù),省去了檢索過程中的源語言到目標語言的翻譯過程,能提高科技文獻檢索的精確度。
附圖說明
圖1為本發(fā)明一實施例提供的一種跨語言科技文獻檢索方法的流程示意圖;
圖2為本發(fā)明一實施例提供的一種跨語言科技文獻檢索系統(tǒng)的示意框圖。
具體實施方式
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
參見圖1,本發(fā)明一實施例提供的一種跨語言科技文獻檢索方法,包括:
步驟S1、建立科技文獻本體庫,其中,所述科技文獻本體庫中存儲有同類關(guān)鍵詞、同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引;所述同類關(guān)鍵詞為同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞集合;所述源科技文獻為同類關(guān)鍵詞中各中文關(guān)鍵詞和英文關(guān)鍵詞所源自的科技文獻集合;
步驟S2、讀取用戶輸入的檢索詞,并在所述科技文獻本體庫中查找與該檢索詞相匹配的同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接;
步驟S3、通過同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,查找出相關(guān)文獻,并按預(yù)設(shè)排序顯示給用戶。
需要說明的是,所述科技文獻包括科技論文、科技期刊和會議記錄等。
為了便于理解,具體介紹本發(fā)明提供的這種跨語言科技文獻檢索方法如下:
首先、根據(jù)科技論文的語義模式,將一篇科技論文劃分為背景分析、提出問題、解決方案三個部分,將這三個概念作為科技論文類的子類。同時,論文的發(fā)表形式包括期刊和會議,同樣作為父子關(guān)系。此外,每篇論文都有許多關(guān)鍵詞,我們將每一個關(guān)鍵詞都作為學(xué)科領(lǐng)域的實例。
其次,將各領(lǐng)域的關(guān)鍵詞實例、論文關(guān)鍵詞、論文、期刊、作者等信息關(guān)聯(lián)起來,建立一個個科技文獻信息本體鏈接,再將各科技文獻信息本體鏈接關(guān)聯(lián)起來,形成科技文獻本體庫。由于本體具有屬性推導(dǎo)的功能,系統(tǒng)不斷地利用Jena進行運算和推導(dǎo),進而不斷建立新的鏈接關(guān)系,使得科技文獻本體庫不斷完善。例如:軟件復(fù)用是論文A的關(guān)鍵詞,雖然論文A只有軟件復(fù)用這一個關(guān)鍵詞,但是,軟件重用、軟件復(fù)用和software architecture這三個同義詞會被歸為同類關(guān)鍵詞。經(jīng)過本體推理后,論文A不只擁有軟件復(fù)用這個關(guān)鍵詞,還擁有軟件重用以及software architecture這兩個它的同義詞。所以,當用戶使用基于本發(fā)明提供的這種跨語言科技文獻檢索方法時,無論他們輸入的查找關(guān)鍵詞是software architecture,還是軟件復(fù)用、軟件重用,都可以檢索到論文A,這樣就實現(xiàn)了跨語言科技論文管理。
由上述技術(shù)方案可知,本發(fā)明提供的這種跨語言科技文獻檢索方法,由于建立有科技文獻本體庫,科技文獻本體庫中存儲有同類關(guān)鍵詞、同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,所述同類關(guān)鍵詞為同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞集合,使得用戶輸入檢索詞后,只需在科技文獻本體庫中查找該檢索詞相匹配的同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接,通過同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,查找出相關(guān)文獻,并按預(yù)設(shè)排序顯示給用戶,即可實現(xiàn)檢索,相比現(xiàn)有技術(shù),省去了檢索過程中的源語言到目標語言的翻譯過程,能提高科技文獻檢索的精確度。
優(yōu)選地,所述步驟S1具體為:對收錄到數(shù)據(jù)庫中的每一篇科技文獻,執(zhí)行以下步驟:
步驟S11、提取科技文獻中的中文關(guān)鍵詞和英文關(guān)鍵詞;
步驟S12、將相同的中文關(guān)鍵詞或英文關(guān)鍵詞進行合并,同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞歸為一類;
步驟S13、對每一類關(guān)鍵詞,建立一個科技文獻信息本體鏈接,同時,建立一個該科技文獻信息本體鏈接指向源科技文獻的索引;
步驟S14、集合步驟S13中的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,形成科技文獻本體庫;
其中,所述科技文獻信息包括:科技文獻的題目、作者、摘要、關(guān)鍵詞、出版時間、科技文獻的背景部分、問題部分和解決方案部分。
優(yōu)選地,所述步驟S11具體為:對科技文獻進行語義分析,以提取文關(guān)鍵詞和英文關(guān)鍵詞。
優(yōu)選地,所述預(yù)設(shè)排序為:按檢索詞與科技文獻本體庫中同類關(guān)鍵詞的匹配程度,從高到低以列表形式排列。
例如,比如關(guān)鍵詞X在論文A的摘要部分出現(xiàn),關(guān)鍵詞X在論文B的背景部分出現(xiàn),關(guān)鍵詞X在論文C的問題部分出現(xiàn),關(guān)鍵詞X在論文D的解決方案部分出現(xiàn),則按論文D、論文C、論文B、論文A的排序顯示給用戶。
優(yōu)選地,采用Jena和SparQL語言實現(xiàn)科技文獻本體庫中本體的解析和查詢。
參見圖2,一種跨語言科技文獻檢索系統(tǒng)100,包括:
本體庫模塊101,用于建立科技文獻本體庫,其中,所述科技文獻本體庫中存儲有同類關(guān)鍵詞、同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引;所述同類關(guān)鍵詞為同義或近義的中文關(guān)鍵詞和英文關(guān)鍵詞集合;所述源科技文獻為同類關(guān)鍵詞中各中文關(guān)鍵詞和英文關(guān)鍵詞所源自的科技文獻集合。
檢索模塊102,用于讀取用戶輸入的檢索詞,并在所述科技文獻本體庫中查找與該檢索詞相匹配的同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接;
顯示模塊103,用于通過同類關(guān)鍵詞所對應(yīng)的科技文獻信息本體鏈接及該科技文獻信息本體鏈接指向源科技文獻的索引,查找出相關(guān)文獻,并按預(yù)設(shè)排序顯示給用戶。
以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。術(shù)語“多個”指兩個或兩個以上,除非另有明確的限定。