信息,為了提高同義詞表的正確率和召回率,提取出包含人名的標(biāo)示符規(guī)則,如:"INV", "ATCN","GK_IN"等,根據(jù)人名標(biāo)示符的規(guī)則,過(guò)濾人名信息的干擾,如表1中行17和行23 中的內(nèi)容。處理過(guò)后的專(zhuān)利搜索日志中包含近3萬(wàn)的查詢(xún)?cè)~,包含中文、英文和日文詞匯。
[0055] 表1中18行所示,候選同義詞集為:甲殼素幾丁質(zhì)殼聚糖,那么候選同義詞對(duì)就有 3對(duì),S卩:甲殼素幾丁質(zhì);甲殼素殼聚糖;幾丁質(zhì)殼聚糖。充分利用專(zhuān)利搜索日志中同義詞分 布的特點(diǎn),獲取的候選同義詞集的準(zhǔn)確率也比較高。
[0056] 支持向量機(jī)模型的基本思想:定義一個(gè)最優(yōu)的超平面,并且將尋找最優(yōu)超平面算 法歸結(jié)為一個(gè)求解凸規(guī)劃的問(wèn)題。然后根據(jù)Mercer核的展開(kāi)定理,通過(guò)一個(gè)非線(xiàn)性映射識(shí), 將樣本空間映射到較高維或無(wú)窮維的特征空間中(Hilbert空間),這樣在特征空間模型中 就可以利用線(xiàn)性學(xué)習(xí)方法來(lái)解決樣本空間模型中的回歸、密度函數(shù)估計(jì)和高維非線(xiàn)性的分 類(lèi)問(wèn)題。在解決文本分類(lèi)問(wèn)題中尤其突出,利用該方法得到的召回率和正確率均優(yōu)于其它 方法。
[0057] 分類(lèi)問(wèn)題又稱(chēng)為是模式識(shí)別問(wèn)題,就是根據(jù)現(xiàn)有的觀(guān)測(cè)數(shù)據(jù)尋找數(shù)據(jù)中內(nèi)在的分 類(lèi)關(guān)系,然后利用得到的分類(lèi)模型y=M(x)對(duì)待預(yù)測(cè)數(shù)據(jù)進(jìn)行測(cè)試。同義詞識(shí)別問(wèn)題就 是一個(gè)二分類(lèi)劃分,即就是尋找一個(gè)合適的函數(shù)y=f(X),將f(Xl)彡〇的為正類(lèi),將 他)< 0的Xi歸為負(fù)類(lèi)。
[0058] 支持向量機(jī)模型的核函數(shù),常見(jiàn)的主要有以下幾種:
[0059] 1.多項(xiàng)式核K(x,xj=(ax·y+c)d (1)
[0060] 2.高斯函數(shù)栘
(2)
[0061] 3.柯西函數(shù)_
(3)
[0062] 4.拉普拉斯函數(shù)彳
(4)
[0063] 如圖3所示是一個(gè)線(xiàn)性不可分的數(shù)據(jù)經(jīng)過(guò)高斯核函數(shù)變換之后得到的線(xiàn)性可分 樣本,其中,被圈起來(lái)的點(diǎn)是支持向量。
[0064] 在機(jī)器學(xué)習(xí)方法中,特征的選擇對(duì)于分類(lèi)是非常重要的。本發(fā)明選取的候選同義 詞都是詞義相近的詞對(duì),因此僅通過(guò)簡(jiǎn)單的特征很難實(shí)現(xiàn)類(lèi)別的劃分。本發(fā)明不僅考慮字 面特征,還將讀音相似的特征及用戶(hù)查詢(xún)行為特征考慮進(jìn)來(lái)。
[0065] 同義詞通常存在一個(gè)很明顯的特征就是具有相同的詞素,例如:北京大學(xué)和北大, 跑鞋和跑步鞋,時(shí)間戳值和時(shí)戳等。因此在利用支持向量機(jī)時(shí)考慮了字面相似度的特征。字 面特征主要包括最大相似度,最小相似度,重心后移相似度,是否具有相同前綴和是否具有 相同后綴五個(gè)特征,其中前三個(gè)特征的相似度計(jì)算公式分別如下所示:
[0066] 所述最大相似度的計(jì)算公式為
[0067]
[0068] 所述最小相似度的計(jì)算公式為
[0069]
(6)?
[0070] 所沭重心后務(wù)相似庶的i+笪公忒為
[0071]
[0072] 其中,3;[111_2;[11^11|11!"(¥1,'\¥2)代表詞對(duì)(¥ 1,'\¥2)的最大相似度;5;[111_2;[11^11|1^(¥ 1,'\¥2) 代表詞對(duì)^1,'\¥2)的最小相似度;5;[111_2;[11^1^。 11_(¥1,'\¥2)代表詞對(duì)^1,'\¥2)的重心后移相 似度;same^^w;;)代表詞對(duì)(w^w;;)中相同字的個(gè)數(shù);mindw」,|w2|)代表詞對(duì)(w^w;;)中 最小的詞長(zhǎng);maxOw」,|w2|)代表詞對(duì)(WpW;;)中最大的詞長(zhǎng);|w」代表^的詞長(zhǎng);|w2|代
) 表《2的詞i _是指相同的字在詞不同位置的權(quán)值之和;k代 表詞中包含的字的個(gè)數(shù),same(Wl,m)代表相同的字的位置;其中,α=0.6,β=0.4,γ=1。下面表2列出了一個(gè)字面特征的示例:
[0073] 表2:字面特征
[0074]
[0075]日志中存在很多錯(cuò)別字,有些錯(cuò)別字大量被人們使用,因此,將這部分詞對(duì)作為同 義詞。這類(lèi)詞對(duì)有一個(gè)共同點(diǎn),即讀音相似,如:傅里葉和傅立葉,芒硝和硭硝,瑜伽和瑜珈 等。通過(guò)解析搜狗細(xì)胞詞庫(kù)獲取詞的讀音,步驟2)中的所述讀音特征的讀音相似度計(jì)算公 式如下:
[0076]
[0077] 其中,'代表^的讀音,代表詞對(duì)(Wi,W2)讀音的最小編輯距離, 〇^(|};1|,|};2|)代表詞對(duì)( ¥1,¥2)中最大的讀音長(zhǎng)度;&>^〇^(叫,>^)代表詞對(duì)~ 1,^)的 讀音相似度。下面表3列出了一個(gè)讀音特征的示例:
[0078] 表3:讀音特征
[0079]
[0080] 專(zhuān)利搜索日志中出現(xiàn)在同一行的查詢(xún)?cè)~為相似詞或相關(guān)詞,因?yàn)檫@些詞匯都是對(duì) 同一個(gè)專(zhuān)利的不同描述方式。
[0081] 將出現(xiàn)在專(zhuān)利搜索日志同一行中的詞匯作為一個(gè)查詢(xún)特征,處理后的部分專(zhuān)利搜 索日志查詢(xún)信息如表4所示。
[0082] 表4:部分處理后的專(zhuān)利搜索日志查詢(xún)串
[0083]
[0084] 從表4可以看出在同一行中的查詢(xún)?cè)~為同義詞的可能性比較大,步驟2)中的所述 查詢(xún)特征的計(jì)算公式如下:
[0085]
(9)
[0086](Wpw2)erow代表詞對(duì)(Wpw2)在專(zhuān)利搜索曰志中的同一行出現(xiàn),e 代表詞對(duì)(Wl,w2)不在專(zhuān)利搜索日志的同一行出現(xiàn)。表5中顯示的是表4中部分詞對(duì)的查 詢(xún)特征值:
[0087] 表5 :查詢(xún)特征
[0088]
[0089] 以下實(shí)施例采用的是某專(zhuān)利檢索系統(tǒng)提供的專(zhuān)利搜索日志,總大小為10G。首先對(duì) 專(zhuān)利搜索日志進(jìn)行預(yù)處理,根據(jù)專(zhuān)利搜索日志中同義詞出現(xiàn)的特點(diǎn)抽取出候選同義詞集, 然后分別提取出處理后日志中詞對(duì)的字面特征、讀音特征和查詢(xún)特征,并且采用人工標(biāo)注 4741條詞對(duì)為訓(xùn)練語(yǔ)料,其中,同義詞詞對(duì)2108條,非同義詞詞對(duì)2633條,并采用" 1"和 "-1"分別標(biāo)記同義詞對(duì)和非同義詞對(duì)。
[0090] 依次加入字面、讀音和查詢(xún)特征進(jìn)行實(shí)驗(yàn),各特征組合中特征權(quán)重因子的變化表 如表6所示:
[0091] 表6:特征權(quán)重因子變化表
[0092]
[0093] 其中,特征組合1是指字面特征;特征組合2是指字面特征+讀音特征;特征組合 3是指字面特征+讀音特征+查詢(xún)特征。各特征組合的結(jié)果如表7所示:
[0094] 表7 :SVM模型實(shí)驗(yàn)結(jié)果
[0095]
[0096] 從表7中可以看出特征組合3的正確率,召回率和F值都有所提高,因此本文方法 采用3號(hào)特征組合,利用本發(fā)明的方法和現(xiàn)有技術(shù)中常用的方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表 8、表9所示。
[0097]表8 :實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果
[0098]
[0099] 表9:對(duì)比實(shí)驗(yàn)結(jié)果
[0100]
[0101] 其中,識(shí)別出詞對(duì)數(shù)是指挖掘出的同義詞表中的詞對(duì)數(shù)。
[0102] 從表8和表9中可以看出,隨著各個(gè)特征的加入,采用本發(fā)明的方法,同義詞識(shí)別 的正確率、召回率和F值均比現(xiàn)有技術(shù)的要高。由此可見(jiàn),本發(fā)明通過(guò)選取字面特征、讀音 特征和查詢(xún)特征可以有效地提高專(zhuān)利搜索日志領(lǐng)域的同義詞識(shí)別的準(zhǔn)確度。
[0103] 以上所述實(shí)施例僅表達(dá)了本發(fā)明的實(shí)施方式,其描述較為具體和詳細(xì),但并不能 因此而理解為對(duì)本發(fā)明專(zhuān)利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō), 在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范 圍。因此,本發(fā)明專(zhuān)利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法,其特征在于,包括以下步 驟: 步驟1)對(duì)專(zhuān)利搜索日志進(jìn)行預(yù)處理,利用專(zhuān)利搜索日志同義詞集的結(jié)構(gòu)模板獲取候 選同義詞集; 步驟2)提取出候選同義詞集中的候選同義詞的字面特征、讀音特征和查詢(xún)特征。2. 根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法,其特征 在于,所述步驟1)具體為: 步驟A :過(guò)濾無(wú)用的查詢(xún)串,利用正則表達(dá)式去除專(zhuān)利搜索日志中以申請(qǐng)?zhí)?、公開(kāi)號(hào)、 分類(lèi)號(hào)進(jìn)行查詢(xún)的專(zhuān)利信息; 步驟B :對(duì)專(zhuān)利搜索日志進(jìn)行全角轉(zhuǎn)換為半角、繁體轉(zhuǎn)換為簡(jiǎn)體的處理; 步驟C :根據(jù)候選同義詞集的結(jié)構(gòu)模板提取專(zhuān)利搜索日志中的同義詞結(jié)構(gòu); 步驟D :根據(jù)人名標(biāo)識(shí)符規(guī)則過(guò)濾人名信息,獲得候選同義詞集。3. 根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法, 其特征在于,所述字面特征包括最大相似度、最小相似度、重心后移相似度、是否具有 相同前綴和是否具有相同后綴五個(gè)特征,其中:所述最大相似度的計(jì)算公式如下所示:所述最小相似度的計(jì)算公式如下所示:所述重心后移相似度的計(jì)算公式如下所示:其中,Sin^zimianmjwi,w2)代表詞對(duì)(w^ w2)的最大相似度; 5;[111_2;[11^11|1^(¥1,'\¥2)代表詞對(duì)(¥ 1,'\¥2)的最小相似度;5;[111_2;[11^1^。11_(¥ 1,'\¥2)代表 詞對(duì)(WpW;;)的重心后移相似度;same (WpW;;)代表詞對(duì)(WpW;;)中相同字的個(gè)數(shù); mindw」,|w2|)代表詞對(duì)(WpW;;)中最小的詞長(zhǎng);maxdw」,|w2|)代表詞對(duì)(WpW;;)中 最大的詞長(zhǎng);|w」代表^的詞長(zhǎng);|w2|代表w2的詞長(zhǎng)_是指 相同的字在詞不同位置的權(quán)值之和;k代表詞中包含的字的個(gè)數(shù),Same(Wl,m)代表相同的字 的位置;其中,α = 〇· 6, β = 0· 4, γ = 1。4. 根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法,其特征 在于,所述讀音特征的讀音相似度計(jì)算公式如下:其中,&代表^的讀音,I代表詞對(duì)(Wl,w2)讀音的最小編輯距離,>代表詞對(duì)(Wl,w2)中最大的讀音長(zhǎng)度;^代表詞對(duì)( Wl,w2)的 讀音相似度。5.根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法,其特征 在于,將出現(xiàn)在專(zhuān)利搜索日志同一行中的詞匯作為一個(gè)查詢(xún)特征,利用以下公式計(jì)算查詢(xún) 特征值:(WpW;;) e row代表詞對(duì)(WpW;;)在專(zhuān)利搜索曰志中的同一行出現(xiàn),(VV%) g 代表 詞對(duì)(Wl,w2)不在專(zhuān)利搜索日志的同一行出現(xiàn)。
【專(zhuān)利摘要】本發(fā)明涉及一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法,包括以下步驟:步驟1)對(duì)專(zhuān)利搜索日志進(jìn)行預(yù)處理,利用專(zhuān)利搜索日志同義詞集的結(jié)構(gòu)模板獲取候選同義詞集;步驟2)提取出候選同義詞集中的候選同義詞的字面特征、讀音特征和查詢(xún)特征。本發(fā)明提供的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法,通過(guò)選取字面特征、讀音特征和查詢(xún)特征可以有效地提高專(zhuān)利搜索日志領(lǐng)域的同義詞識(shí)別的準(zhǔn)確度,可以很好地滿(mǎn)足實(shí)際應(yīng)用的需要。
【IPC分類(lèi)】G06F17/30, G06F17/27
【公開(kāi)號(hào)】CN105335351
【申請(qǐng)?zhí)枴緾N201510701365
【發(fā)明人】呂學(xué)強(qiáng), 周建設(shè), 董志安, 李雪偉
【申請(qǐng)人】北京信息科技大學(xué), 首都師范大學(xué)
【公開(kāi)日】2016年2月17日
【申請(qǐng)日】2015年10月27日