一種基于專利搜索日志用戶行為的同義詞自動挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文信息檢索技術(shù)領(lǐng)域,具體涉及一種基于專利搜索日志用戶行為的 同義詞自動挖掘方法。
【背景技術(shù)】
[0002] 隨著科學(xué)技術(shù)的快速發(fā)展,各種新興的高科技產(chǎn)品越來越多的涌入市場,專利信 息作為一種寓法律、技術(shù)、經(jīng)濟于一體的特殊信息資源已經(jīng)被人們高度重視。專利搜索引擎 作為專利信息查詢的一個基本手段,得到廣泛應(yīng)用。用戶是否可以檢索到滿意的信息與搜 索引擎的敘詞表有非常密切的關(guān)系,同義詞是組成敘詞表的一部分,為了使用戶查詢到更 全面詳細的專利信息,同義詞挖掘研究顯得尤為重要。
[0003] 專利搜索日志中存在大量的錯別字,有些錯別字被人們廣泛使用,這類詞與和它 對應(yīng)的正確詞也被認(rèn)為是同義詞,如碳納米管和炭納米管、瑜伽和瑜珈。除此之外,專利搜 索日志中存在很多未登錄詞,因此現(xiàn)有的《知網(wǎng)》和《同義詞詞林》這類同義詞資源不能用于 專利搜索日志的同義詞挖掘。傳統(tǒng)的同義詞定義是指一個事物的不同表達形式,通過分析 專利搜索日志中詞匯的特點,專利領(lǐng)域的同義詞大致可以分為以下八大類:1)中文-英文, 這類同義詞主要是描述同一概念的兩種不同表達形式,如:鋅-Zn、電子郵件-email;2)學(xué) 名-俗名,指同一事物的書面語和日常用語,如:乙醇-酒精;3)全稱-簡稱,指同一事物的 原名稱和簡化名稱,如:北京大學(xué)-北大、短消息-短信、時間戳記-時戳;4)同音同義詞, 這類詞主要是由高頻使用的錯別字引發(fā)的,如:瑜伽-瑜珈、伽馬-伽瑪、苯扎貝特-苯札貝 特、汽車-氣車;5)新稱-舊稱,指不同時期同一概念的兩種稱呼方式,如自行車-腳踏車; 6)傳統(tǒng)同義詞,指概念相同且不屬于以上類別的詞,如甲殼素-幾丁質(zhì)、閾值-門限;7)反 義詞,指概念截然相反的詞,如出-入、增加-減少、左轉(zhuǎn)-右轉(zhuǎn);8)翻譯引起的同義詞,這 類詞是對英文的翻譯,讀音大致相同,如:愛普科斯公司-埃普科斯股份有限公司、羅斯蒙 德公司-羅斯蒙特公司。
[0004]目前,同義詞資源已經(jīng)被廣泛應(yīng)用于各種領(lǐng)域,如信息檢索、語義消歧、查詢擴展、 關(guān)鍵詞提取、機器翻譯等。隨著應(yīng)用的推動,自動挖掘同義詞的方法層出不窮,現(xiàn)階段主要 存在以下兩種方法:基于語料庫和基于詞典的同義詞挖掘。但是,這兩種方法均存在一定的 缺陷:基于語料庫的方法容易產(chǎn)生矩陣稀疏問題;基于詞典的同義詞挖掘方法容易受到領(lǐng) 域的限制,并不能很好地發(fā)揮作用。
【發(fā)明內(nèi)容】
[0005] 針對上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技 術(shù)缺陷的基于專利搜索日志用戶行為的同義詞自動挖掘方法。
[0006] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案如下:
[0007] -種基于專利搜索日志用戶行為的同義詞自動挖掘方法,包括以下步驟:
[0008] 步驟1)對專利搜索日志進行預(yù)處理,利用專利搜索日志同義詞集的結(jié)構(gòu)模板獲 取候選同義詞集;
[0009]步驟2)提取出候選同義詞集中的候選同義詞的字面特征、讀音特征和查詢特征。 [0010] 進一步地,所述步驟1)具體為:
[0011] 步驟A:過濾無用的查詢串,利用正則表達式去除專利搜索日志中以申請?zhí)?、公開 號、分類號進行查詢的專利信息;
[0012] 步驟B:對專利搜索日志進行全角轉(zhuǎn)換為半角、繁體轉(zhuǎn)換為簡體的處理;
[0013] 步驟C:根據(jù)候選同義詞集的結(jié)構(gòu)模板提取專利搜索日志中的同義詞結(jié)構(gòu);
[0014] 步驟D:根據(jù)人名標(biāo)識符規(guī)則過濾人名信息,獲得候選同義詞集。
[0015] 進一步地,所述字面特征包括最大相似度、最小相似度、重心后移相似度、是否具 有相同前綴和是否具有相同后綴五個特征,其中:所述最大相似度的計算公式如下所示:
[0016] 所述最小相似度的計算公式如下所示:
[0017]
[0018] 所述重心后移相似度的計算公式如下所示:
[0019]
[0020] 其中,3;[111_2;[11^11|11!"(¥1,'\¥2)代表詞對(¥ 1,'\¥2)的最大相似度;5;[111_2;[11^11|1^(¥ 1,'\¥2) 代表詞對^1,'\¥2)的最小相似度;5;[111_2;[11^1^。 11_(¥1,'\¥2)代表詞對^1,'\¥2)的重心后移相 似度;same^^w;;)代表詞對(w^w;;)中相同字的個數(shù);mindw」,|w2|)代表詞對(w^w;;)中 最小的詞長;maxOw」,|w2|)代表詞對(WpW;;)中最大的詞長;|w」代表^的詞長;|w2|代 表《2的詞i
是指相同的字在詞不同位置的權(quán)值之和;k代 表詞中包含的字的個數(shù),sameCwpm)代表相同的字的位置;其中,α=0. 6,β=0. 4,γ=10
[0021] 進一步地,所述讀音特征的讀音相似度計算公式如下:
[0022
[0023] 其中,'代表^的讀音,代表詞對(Wl,W2)讀音的最小編輯距離, max(|:TWi |,|;21)代表詞對(Wl,W2)中最大的讀音長度;代表詞對(Wl,W2)的 讀音相似度。
[0024] 進一步地,將出現(xiàn)在專利搜索日志同一行中的詞匯作為一個查詢特征,利用以下 公式計算查詢特征值:
[0025]
[0026] (WpW;;)erow代表詞對(WpW;;)在專利搜索日志中的同一行出現(xiàn),(?)運row 代表詞對(Wl,w2)不在專利搜索日志的同一行出現(xiàn)。
[0027] 本發(fā)明提供的基于專利搜索日志用戶行為的同義詞自動挖掘方法,通過選取字面 特征、讀音特征和查詢特征可以有效地提高專利搜索日志領(lǐng)域的同義詞識別的準(zhǔn)確度,可 以很好地滿足實際應(yīng)用的需要。
【附圖說明】
[0028] 圖1為本發(fā)明的流程圖;
[0029] 圖2為步驟1)的具體步驟流程圖;
[0030] 圖3為一個線性不可分的數(shù)據(jù)經(jīng)過高斯核函數(shù)變換之后得到的線性可分樣本,其 中,被圈起來的點是支持向量。
【具體實施方式】
[0031] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,下面結(jié)合附圖和具體實施 例對本發(fā)明做進一步說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用 于限定本發(fā)明。
[0032] 如圖1所示,一種基于專利搜索日志用戶行為的同義詞自動挖掘方法,包括以下 步驟:
[0033] 步驟1)對專利搜索日志進行預(yù)處理,利用專利搜索日志同義詞集的結(jié)構(gòu)模板獲 取候選同義詞集;
[0034] 步驟2)提取出候選同義詞集中的候選同義詞的字面特征、讀音特征和查詢特征。
[0035] 專利搜索日志中的大部分查詢串包含了一個事物的多種描述方式,這些描述方式 之間通過" 〇,、"811(1"、"1^"等邏輯運算符進行連接,這些邏輯運算符連接的部分詞匯存在 并列關(guān)系。通過分析專利搜索日志中同義詞分布的特點如表1所示。
[0036] 表1 :已處理的專利搜索日志語料
[0037]
[0038] 構(gòu)建的同義詞集結(jié)構(gòu)模板主要有以下五種:
[0039] 1.模板1
[0040]"'wordsl'0R'words2'0R'words3' ",其中 wordsl、words2和words3為候選同義詞集;該模板以"OR"或"or"連接,是最簡單的同義 詞集的結(jié)構(gòu)模板,如圖1中18行所示;
[0041] 2.模板 2
[0042]"('wordsl'pre/2'words2')OR'words3' ", "'wordsl'pre/2'words2' " 表;^wordsl和words2 構(gòu)成的詞組與 "OR"連接的words3是候選同義詞,即wordsl+words2和words3為候選同義詞,如圖1中 19、24、26行所示;
[0043] 3.模板 3
[0044]a'wordsl'0R('words2'AND'words3' AND'words4') ",其中查詢語句"'words2'AND'words3' AND'words4' " 表不;words2、words3 和words4 構(gòu)成一個詞組與 "OR" 連接的 wordsl構(gòu)成候選同義詞,即wordl和words2+words3+words4為候選同義詞,如圖1中27行 所示;
[0045] 4.模板 4
[0046]"'wordsl'0R('words2'and/sen'words3') ", 其中wordl和words2+word3為候選同義詞,如圖1中29行所示;
[0047] 5.模板 5
[0048] "標(biāo);符='wordsl'0R標(biāo);^符='words2'0R標(biāo);^符= 'words3'",標(biāo)示符通常為"DESCl"、"KWRF"、"TICN"、"ABS"、"TI,KW+"等,指代 不同的查詢詞特性。其中wordsl、words2和words3是指具有相同性質(zhì)的候選同義詞集,如 表 1 中 17、20、22、23、28 行所示。
[0049] 利用專利搜索日志同義詞集的結(jié)構(gòu)模板獲取候選同義詞集。首先,利用正則表達 式去除專利搜索日志中以申請?zhí)?、公開號、分類號進行查詢的專利信息。由于查詢記錄的輸 入法和字體不統(tǒng)一,對日志進行全角轉(zhuǎn)換為半角、繁體轉(zhuǎn)換為簡體的處理。根據(jù)同義詞集的 結(jié)構(gòu)模板1、模板2、模板3、模板4、模板5將專利搜索日志進行劃分處理。步驟1)挖掘候 選同義詞集的流程圖如圖2所示,步驟1)具體為:
[0050] 步驟A:過濾無用的查詢串,利用正則表達式去除專利搜索日志中以申請?zhí)?、公開 號、分類號進行查詢的專利信息;
[0051] 步驟B:對專利搜索日志進行全角轉(zhuǎn)換為半角、繁體轉(zhuǎn)換為簡體的處理;
[0052] 步驟C:根據(jù)候選同義詞集的結(jié)構(gòu)模板提取專利搜索日志中的同義詞結(jié)構(gòu);
[0053] 步驟D:根據(jù)人名標(biāo)識符規(guī)則過濾人名信息,獲得候選同義詞集。
[0054] 其中:在過濾無用的查詢串時,保留以名稱、地址、申請人、發(fā)明人、專利代理機 構(gòu)等進行專利查詢的信息。通過分析專利搜索日志發(fā)現(xiàn)僅利用同義詞模板無法過濾人名