一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法_2

文檔序號(hào)：9579239閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法

信息，為了提高同義詞表的正確率和召回率，提取出包含人名的標(biāo)示符規(guī)則，如："INV"， "ATCN"，"GK_IN"等，根據(jù)人名標(biāo)示符的規(guī)則，過(guò)濾人名信息的干擾，如表1中行17和行23 中的內(nèi)容。處理過(guò)后的專(zhuān)利搜索日志中包含近3萬(wàn)的查詢(xún)?cè)~，包含中文、英文和日文詞匯。
[0055] 表1中18行所示，候選同義詞集為：甲殼素幾丁質(zhì)殼聚糖，那么候選同義詞對(duì)就有 3對(duì)，S卩：甲殼素幾丁質(zhì)；甲殼素殼聚糖；幾丁質(zhì)殼聚糖。充分利用專(zhuān)利搜索日志中同義詞分布的特點(diǎn)，獲取的候選同義詞集的準(zhǔn)確率也比較高。
[0056] 支持向量機(jī)模型的基本思想：定義一個(gè)最優(yōu)的超平面，并且將尋找最優(yōu)超平面算法歸結(jié)為一個(gè)求解凸規(guī)劃的問(wèn)題。然后根據(jù)Mercer核的展開(kāi)定理，通過(guò)一個(gè)非線(xiàn)性映射識(shí)，將樣本空間映射到較高維或無(wú)窮維的特征空間中（Hilbert空間），這樣在特征空間模型中就可以利用線(xiàn)性學(xué)習(xí)方法來(lái)解決樣本空間模型中的回歸、密度函數(shù)估計(jì)和高維非線(xiàn)性的分類(lèi)問(wèn)題。在解決文本分類(lèi)問(wèn)題中尤其突出，利用該方法得到的召回率和正確率均優(yōu)于其它方法。
[0057] 分類(lèi)問(wèn)題又稱(chēng)為是模式識(shí)別問(wèn)題，就是根據(jù)現(xiàn)有的觀(guān)測(cè)數(shù)據(jù)尋找數(shù)據(jù)中內(nèi)在的分類(lèi)關(guān)系，然后利用得到的分類(lèi)模型y=M(x)對(duì)待預(yù)測(cè)數(shù)據(jù)進(jìn)行測(cè)試。同義詞識(shí)別問(wèn)題就是一個(gè)二分類(lèi)劃分，即就是尋找一個(gè)合適的函數(shù)y=f(X)，將f(Xl)彡〇的為正類(lèi)，將他）< 0的Xi歸為負(fù)類(lèi)。
[0058] 支持向量機(jī)模型的核函數(shù)，常見(jiàn)的主要有以下幾種：
[0059] 1.多項(xiàng)式核K(x，xj=(ax·y+c)d (1)
[0060] 2.高斯函數(shù)栘
(2)
[0061] 3.柯西函數(shù)_
(3)
[0062] 4.拉普拉斯函數(shù)彳
（4)
[0063] 如圖3所示是一個(gè)線(xiàn)性不可分的數(shù)據(jù)經(jīng)過(guò)高斯核函數(shù)變換之后得到的線(xiàn)性可分樣本，其中，被圈起來(lái)的點(diǎn)是支持向量。
[0064] 在機(jī)器學(xué)習(xí)方法中，特征的選擇對(duì)于分類(lèi)是非常重要的。本發(fā)明選取的候選同義詞都是詞義相近的詞對(duì)，因此僅通過(guò)簡(jiǎn)單的特征很難實(shí)現(xiàn)類(lèi)別的劃分。本發(fā)明不僅考慮字面特征，還將讀音相似的特征及用戶(hù)查詢(xún)行為特征考慮進(jìn)來(lái)。
[0065] 同義詞通常存在一個(gè)很明顯的特征就是具有相同的詞素，例如：北京大學(xué)和北大，跑鞋和跑步鞋，時(shí)間戳值和時(shí)戳等。因此在利用支持向量機(jī)時(shí)考慮了字面相似度的特征。字面特征主要包括最大相似度，最小相似度，重心后移相似度，是否具有相同前綴和是否具有相同后綴五個(gè)特征，其中前三個(gè)特征的相似度計(jì)算公式分別如下所示：
[0066] 所述最大相似度的計(jì)算公式為
[0067]
[0068] 所述最小相似度的計(jì)算公式為
[0069]
(6)?
[0070] 所沭重心后務(wù)相似庶的i+笪公忒為
[0071]
[0072] 其中，3；[111_2；[11^11|11!"(￥1，'\￥2)代表詞對(duì)（￥ 1，'\￥2)的最大相似度；5；[111_2；[11^11|1^(￥ 1，'\￥2) 代表詞對(duì)^1，'\￥2)的最小相似度；5；[111_2；[11^1^。 11_(￥1，'\￥2)代表詞對(duì)^1，'\￥2)的重心后移相似度；same^^w；；)代表詞對(duì)（w^w；；)中相同字的個(gè)數(shù);mindw」，|w2|)代表詞對(duì)（w^w；；)中最小的詞長(zhǎng);maxOw」，|w2|)代表詞對(duì)（WpW；；)中最大的詞長(zhǎng)；|w」代表^的詞長(zhǎng)；|w2|代
) 表《2的詞i _是指相同的字在詞不同位置的權(quán)值之和；k代表詞中包含的字的個(gè)數(shù)，same(Wl，m)代表相同的字的位置；其中，α=0.6,β=0.4,γ=1。下面表2列出了一個(gè)字面特征的示例：
[0073] 表2:字面特征
[0074]
[0075]日志中存在很多錯(cuò)別字，有些錯(cuò)別字大量被人們使用，因此，將這部分詞對(duì)作為同義詞。這類(lèi)詞對(duì)有一個(gè)共同點(diǎn)，即讀音相似，如：傅里葉和傅立葉，芒硝和硭硝，瑜伽和瑜珈等。通過(guò)解析搜狗細(xì)胞詞庫(kù)獲取詞的讀音，步驟2)中的所述讀音特征的讀音相似度計(jì)算公式如下：
[0076]
[0077] 其中，'代表^的讀音，代表詞對(duì)（Wi，W2)讀音的最小編輯距離，〇^(|}；1|，|}；2|)代表詞對(duì)（￥1，￥2)中最大的讀音長(zhǎng)度；&>^〇^(叫，>^)代表詞對(duì)~ 1，^)的讀音相似度。下面表3列出了一個(gè)讀音特征的示例：
[0078] 表3:讀音特征
[0079]
[0080] 專(zhuān)利搜索日志中出現(xiàn)在同一行的查詢(xún)?cè)~為相似詞或相關(guān)詞，因?yàn)檫@些詞匯都是對(duì) 同一個(gè)專(zhuān)利的不同描述方式。
[0081] 將出現(xiàn)在專(zhuān)利搜索日志同一行中的詞匯作為一個(gè)查詢(xún)特征，處理后的部分專(zhuān)利搜索日志查詢(xún)信息如表4所示。
[0082] 表4:部分處理后的專(zhuān)利搜索日志查詢(xún)串
[0083]
[0084] 從表4可以看出在同一行中的查詢(xún)?cè)~為同義詞的可能性比較大，步驟2)中的所述查詢(xún)特征的計(jì)算公式如下：
[0085]
(9)
[0086](Wpw2)erow代表詞對(duì)（Wpw2)在專(zhuān)利搜索曰志中的同一行出現(xiàn)，e 代表詞對(duì)（Wl，w2)不在專(zhuān)利搜索日志的同一行出現(xiàn)。表5中顯示的是表4中部分詞對(duì)的查詢(xún)特征值：
[0087] 表5 :查詢(xún)特征
[0088]
[0089] 以下實(shí)施例采用的是某專(zhuān)利檢索系統(tǒng)提供的專(zhuān)利搜索日志，總大小為10G。首先對(duì) 專(zhuān)利搜索日志進(jìn)行預(yù)處理，根據(jù)專(zhuān)利搜索日志中同義詞出現(xiàn)的特點(diǎn)抽取出候選同義詞集，然后分別提取出處理后日志中詞對(duì)的字面特征、讀音特征和查詢(xún)特征，并且采用人工標(biāo)注 4741條詞對(duì)為訓(xùn)練語(yǔ)料，其中，同義詞詞對(duì)2108條，非同義詞詞對(duì)2633條，并采用" 1"和 "-1"分別標(biāo)記同義詞對(duì)和非同義詞對(duì)。
[0090] 依次加入字面、讀音和查詢(xún)特征進(jìn)行實(shí)驗(yàn)，各特征組合中特征權(quán)重因子的變化表如表6所示：
[0091] 表6:特征權(quán)重因子變化表
[0092]
[0093] 其中，特征組合1是指字面特征；特征組合2是指字面特征+讀音特征；特征組合 3是指字面特征+讀音特征+查詢(xún)特征。各特征組合的結(jié)果如表7所示：
[0094] 表7 :SVM模型實(shí)驗(yàn)結(jié)果
[0095]
[0096] 從表7中可以看出特征組合3的正確率，召回率和F值都有所提高，因此本文方法采用3號(hào)特征組合，利用本發(fā)明的方法和現(xiàn)有技術(shù)中常用的方法進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果如表 8、表9所示。
[0097]表8 :實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果
[0098]
[0099] 表9:對(duì)比實(shí)驗(yàn)結(jié)果
[0100]
[0101] 其中，識(shí)別出詞對(duì)數(shù)是指挖掘出的同義詞表中的詞對(duì)數(shù)。
[0102] 從表8和表9中可以看出，隨著各個(gè)特征的加入，采用本發(fā)明的方法，同義詞識(shí)別的正確率、召回率和F值均比現(xiàn)有技術(shù)的要高。由此可見(jiàn)，本發(fā)明通過(guò)選取字面特征、讀音特征和查詢(xún)特征可以有效地提高專(zhuān)利搜索日志領(lǐng)域的同義詞識(shí)別的準(zhǔn)確度。
[0103] 以上所述實(shí)施例僅表達(dá)了本發(fā)明的實(shí)施方式，其描述較為具體和詳細(xì)，但并不能因此而理解為對(duì)本發(fā)明專(zhuān)利范圍的限制。應(yīng)當(dāng)指出的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，在不脫離本發(fā)明構(gòu)思的前提下，還可以做出若干變形和改進(jìn)，這些都屬于本發(fā)明的保護(hù)范圍。因此，本發(fā)明專(zhuān)利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，其特征在于，包括以下步驟：步驟1)對(duì)專(zhuān)利搜索日志進(jìn)行預(yù)處理，利用專(zhuān)利搜索日志同義詞集的結(jié)構(gòu)模板獲取候選同義詞集；步驟2)提取出候選同義詞集中的候選同義詞的字面特征、讀音特征和查詢(xún)特征。2. 根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，其特征在于，所述步驟1)具體為：步驟A :過(guò)濾無(wú)用的查詢(xún)串，利用正則表達(dá)式去除專(zhuān)利搜索日志中以申請(qǐng)?zhí)?、公開(kāi)號(hào)、分類(lèi)號(hào)進(jìn)行查詢(xún)的專(zhuān)利信息；步驟B :對(duì)專(zhuān)利搜索日志進(jìn)行全角轉(zhuǎn)換為半角、繁體轉(zhuǎn)換為簡(jiǎn)體的處理；步驟C :根據(jù)候選同義詞集的結(jié)構(gòu)模板提取專(zhuān)利搜索日志中的同義詞結(jié)構(gòu)；步驟D :根據(jù)人名標(biāo)識(shí)符規(guī)則過(guò)濾人名信息，獲得候選同義詞集。3. 根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，其特征在于，所述字面特征包括最大相似度、最小相似度、重心后移相似度、是否具有相同前綴和是否具有相同后綴五個(gè)特征，其中：所述最大相似度的計(jì)算公式如下所示：所述最小相似度的計(jì)算公式如下所示：所述重心后移相似度的計(jì)算公式如下所示：其中，Sin^zimianmjwi，w2)代表詞對(duì)（w^ w2)的最大相似度； 5；[111_2；[11^11|1^(￥1，'\￥2)代表詞對(duì)（￥ 1，'\￥2)的最小相似度；5；[111_2；[11^1^。11_(￥ 1，'\￥2)代表詞對(duì)（WpW；；)的重心后移相似度；same (WpW；；)代表詞對(duì)（WpW；；)中相同字的個(gè)數(shù)； mindw」，|w2|)代表詞對(duì)（WpW；；)中最小的詞長(zhǎng);maxdw」，|w2|)代表詞對(duì)（WpW；；)中最大的詞長(zhǎng)；|w」代表^的詞長(zhǎng)；|w2|代表w2的詞長(zhǎng)_是指相同的字在詞不同位置的權(quán)值之和；k代表詞中包含的字的個(gè)數(shù)，Same(Wl，m)代表相同的字的位置；其中，α = 〇· 6, β = 0· 4, γ = 1。4. 根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，其特征在于，所述讀音特征的讀音相似度計(jì)算公式如下：其中，&代表^的讀音，I代表詞對(duì)（Wl，w2)讀音的最小編輯距離，>代表詞對(duì)（Wl，w2)中最大的讀音長(zhǎng)度；^代表詞對(duì)（ Wl，w2)的讀音相似度。5.根據(jù)權(quán)利要求1所述的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，其特征在于，將出現(xiàn)在專(zhuān)利搜索日志同一行中的詞匯作為一個(gè)查詢(xún)特征，利用以下公式計(jì)算查詢(xún) 特征值：(WpW；；) e row代表詞對(duì)（WpW；；)在專(zhuān)利搜索曰志中的同一行出現(xiàn)，（VV%) g 代表詞對(duì)（Wl，w2)不在專(zhuān)利搜索日志的同一行出現(xiàn)。
【專(zhuān)利摘要】本發(fā)明涉及一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，包括以下步驟：步驟1)對(duì)專(zhuān)利搜索日志進(jìn)行預(yù)處理，利用專(zhuān)利搜索日志同義詞集的結(jié)構(gòu)模板獲取候選同義詞集；步驟2)提取出候選同義詞集中的候選同義詞的字面特征、讀音特征和查詢(xún)特征。本發(fā)明提供的基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法，通過(guò)選取字面特征、讀音特征和查詢(xún)特征可以有效地提高專(zhuān)利搜索日志領(lǐng)域的同義詞識(shí)別的準(zhǔn)確度，可以很好地滿(mǎn)足實(shí)際應(yīng)用的需要。
【IPC分類(lèi)】G06F17/30, G06F17/27
【公開(kāi)號(hào)】CN105335351
【申請(qǐng)?zhí)枴緾N201510701365
【發(fā)明人】呂學(xué)強(qiáng), 周建設(shè), 董志安, 李雪偉
【申請(qǐng)人】北京信息科技大學(xué), 首都師范大學(xué)
【公開(kāi)日】2016年2月17日
【申請(qǐng)日】2015年10月27日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

用戶(hù)行為日志相關(guān)技術(shù)

thinkphp用戶(hù)行為日志相關(guān)技術(shù)

用戶(hù)行為日志收集相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于專(zhuān)利搜索日志用戶(hù)行為的同義詞自動(dòng)挖掘方法_2