本發(fā)明屬于專利檢索領(lǐng)域,具體涉及一種基于本體的專利檢索方法。
背景技術(shù):
專利已日益成為企業(yè)競爭力的核心要素,如何快速檢索出專利并用于企業(yè)創(chuàng)新驅(qū)動是一個非常重要的問題。然而,目前,現(xiàn)有的專利檢索方式基本上都是以匹配第三方描述信息進行查找,效率低,也很難達到用戶滿意的檢索效果。為此,本方法通過專利描述信息進行本體建模,提高檢索結(jié)果與本體的關(guān)聯(lián)度,以實現(xiàn)兼顧效率與準確性的一種基于本體的專利檢索方法。
技術(shù)實現(xiàn)要素:
在本發(fā)明的目的在于:基于專利檢索的原理,從專利本體出發(fā),進行數(shù)據(jù)建模,既提高了關(guān)鍵詞與本體關(guān)聯(lián)性,同時保證了檢索結(jié)果的準確性,從而提高了專利在用戶檢索中的效率和準確性。
為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案主要包括以下過程:
(一)專利本體庫建設(shè)過程
步驟11,特征詞統(tǒng)計:
A)獲取專利對象O ,對其文本進行逐一檢索;
B)將檢索到的特征詞name存到TemName ([name0,num0]、…、[nameN,numN])中,num初始值為0,首次添加name直接加入數(shù)組,num為1;
C)如果TemName中已經(jīng)存在檢索name,則對應(yīng)的num加一;
D)重復(fù)進行B)C)過程,直至檢索完畢后,得到特征詞數(shù)組TemName ([name0,num0]、…、[nameN,numN]);
步驟12,建立專利本體單鏈表模型:
A)將特征詞數(shù)組Name中的元素,根據(jù)num倒序重新排列,取前十個元素得到最終特征詞數(shù)組TemName ([name0,num0]、…、[nameN,numN]);
B)根據(jù)檢索的特征詞以及出現(xiàn)次數(shù),以特征詞name作為關(guān)鍵詞KeyName,出現(xiàn)次數(shù)num作為權(quán)重Weight,融合專利申請?zhí)枴⑷掌诘刃畔?,建立專利本體單鏈表模型L;
步驟13,建立專利數(shù)據(jù)庫D;
專利本體單鏈表模型,并融合專利本身信息,存入數(shù)據(jù)庫中;
(二)專利檢索過程
步驟21,檢索詞查找:
獲取用戶檢索詞Uname,通過用戶檢索詞Uname,對數(shù)據(jù)庫D進行查找;
步驟22,根據(jù)權(quán)重計算關(guān)聯(lián)度Link(初始值為0):
A)對數(shù)據(jù)庫中的每一條記錄與用戶檢索詞Uname進行匹配;
B)如果出現(xiàn)匹配的情況下,讀取該關(guān)鍵詞KeyName對于本條記錄的權(quán)重值Weight,并加到Link中,Link為此條數(shù)據(jù)記錄與用戶檢索詞Uname的關(guān)聯(lián)度;
步驟23,根據(jù)數(shù)據(jù)庫中記錄與關(guān)鍵詞關(guān)聯(lián)度Link倒序排列,得到檢索結(jié)果。
上述方法,可在確保檢索效率的前提下,有效實現(xiàn)專利的檢索。
附圖說明
圖1是專利本體庫建設(shè)和用戶專利檢索的流程圖;
圖2是基于單鏈表進行專利本體模型建模。
具體實施方式
本發(fā)明是一種專利檢索方法,主要包括如下過程:(1)專利本體庫建設(shè)過程,首先對專利本體描述文本進行分析,逐一檢索并統(tǒng)計其描述文本的特征詞;根據(jù)檢索的特征詞以及出現(xiàn)次數(shù),以特征詞作為關(guān)鍵詞,出現(xiàn)次數(shù)作為權(quán)重,建立專利本體單鏈表模型,并融合專利本身信息,存入數(shù)據(jù)庫中;(2)專利檢索過程,首先使用用戶檢索詞到數(shù)據(jù)庫中進行查找,與本體單鏈表模型進行匹配,根據(jù)匹配的關(guān)鍵詞的權(quán)重累加,得到關(guān)聯(lián)度。將檢索結(jié)果根據(jù)關(guān)聯(lián)度進行倒序排列,展示給客戶。本發(fā)明在確保檢索效率的前提下能有效提高專利的檢索精度。
本實施例選擇專利《一種基于數(shù)字信封的矢量地圖數(shù)據(jù)安全傳輸方法》作為測試數(shù)據(jù),針對數(shù)據(jù)的提取、建模、入庫、檢索的整個過程,進一步詳細的說明本發(fā)明。
(一)專利本體庫建設(shè)過程
步驟11,特征詞統(tǒng)計:
A)獲取專利對象《一種基于數(shù)字信封的矢量地圖數(shù)據(jù)安全傳輸方法》,對其文本進行逐一檢索;
B)將檢索到的特征詞name存到TemName ([name0,num0]、…、[nameN,numN])中,num初始值為0,首次添加name直接加入數(shù)組,num為1;
C)如果TemName中已經(jīng)存在檢索name,則對應(yīng)的num加一;
D)重復(fù)進行B)C)過程,直至檢索完畢后,得到特征詞數(shù)組TemName ([‘?dāng)?shù)字信封’,10]、…、[‘對稱加密’,1]);
步驟12,建立專利本體單鏈表模型:
A)將特征詞數(shù)組Name中的元素,根據(jù)num倒序重新排列,取前十個元素得到最終特征詞數(shù)組TemName ([‘?dāng)?shù)字信封’,10]、…、[‘橫坐標’,2]);
B)根據(jù)檢索的特征詞以及出現(xiàn)次數(shù),以特征詞name作為關(guān)鍵詞KeyName,出現(xiàn)次數(shù)num作為權(quán)重Weight,融合專利申請?zhí)?、日期等信息,建立專利本體單鏈表模型L;
步驟13,建立專利數(shù)據(jù)庫D;
專利本體單鏈表模型,并融合專利本身信息,存入數(shù)據(jù)庫中;
(二)專利檢索過程
步驟21,檢索詞查找:
獲取用戶檢索詞Uname為‘?dāng)?shù)字信封’,通過用戶檢索詞Uname,對數(shù)據(jù)庫D進行查找;
步驟22,根據(jù)權(quán)重計算關(guān)聯(lián)度Link(初始值為0):
A)對數(shù)據(jù)庫中的每一條記錄與用戶檢索詞Uname進行匹配;
B)如果出現(xiàn)匹配的情況下,讀取該關(guān)鍵詞KeyName對于本條記錄的權(quán)重值Weight,并累加到Link中,Link為此條數(shù)據(jù)記錄與用戶檢索詞Uname的關(guān)聯(lián)度;
C)得到《一種基于數(shù)字信封的矢量地圖數(shù)據(jù)安全傳輸方法》與用戶檢索詞Uname的關(guān)聯(lián)度Link為10;
步驟23,根據(jù)數(shù)據(jù)庫中記錄與關(guān)鍵詞關(guān)聯(lián)度Link倒序排列,得到檢索結(jié)果。