一種基于半監(jiān)督cbow的用戶搜索詞主題分類的方法
【專利摘要】本發(fā)明公開了一種基于半監(jiān)督CBOW的用戶搜索詞主題分類的方法,其特點是運(yùn)用半監(jiān)督CBOW算法對大量未標(biāo)注和部分已標(biāo)注的搜索詞建立含有語義、語法和類別信息的詞向量模型,利用詞向量模型的線性組合成查詢向量,然后根據(jù)查詢向量進(jìn)行用戶搜索詞的主題分類。本發(fā)明與現(xiàn)有技術(shù)相比不僅能夠獲取語法語義信息,還能從少量的帶標(biāo)注的文本中獲得類別信息,使得用戶搜索詞向量在空間上面不同類別的數(shù)據(jù)分得更加開,提高了分類的準(zhǔn)確性,有效解決了用戶查詢文本短的問題,方法簡便,準(zhǔn)確性好。
【專利說明】—種基于半監(jiān)督CBOW的用戶搜索詞主題分類的方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及互聯(lián)網(wǎng)信息搜索【技術(shù)領(lǐng)域】,特別是一種基于半監(jiān)督CBOW的用戶搜索詞主題分類的方法。
【背景技術(shù)】
[0003]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的數(shù)字信息開始呈指數(shù)型增長。互聯(lián)網(wǎng)上的信息資源繁多,來源也千差萬別,人們要從信息的海洋當(dāng)中獲取自己需要的特定信息越來越困難。搜索引擎是人們在互聯(lián)網(wǎng)上進(jìn)行獲取的主要工具。在搜索引擎中,通過用戶查詢主題分類能夠直接或者間接反應(yīng)用戶的潛在興趣和需求。正確的用戶查詢主題分類是現(xiàn)代搜索引擎的核心技術(shù)之一,能夠為用戶個性化應(yīng)用、搜索引擎性能優(yōu)化、定向廣告投放及搜索用戶行為分析起到了基礎(chǔ)性的作用。比如用戶在搜索引擎中提交查詢“寶馬汽車好不好”,我們可以將其分類到“汽車”類別當(dāng)中,通過這個類別,我們可以在不損害用戶體驗的情況下投放汽車相關(guān)的廣告,提高用戶的廣告點擊率。
[0004]搜索引擎的使用需要輸入搜索詞,用戶搜索詞具有稀疏性、海量性和非規(guī)范性。單個搜索詞長度一般都非常短,往往只有2到3個關(guān)鍵詞,尤其用戶在使用搜索引擎時往往不注意規(guī)范表達(dá),錯誤拼寫、縮寫簡寫、網(wǎng)絡(luò)流行詞、專業(yè)術(shù)語、產(chǎn)品編號等非常多,很難抽取到有效的語言特征,然而搜索的頻率又非常高,每天產(chǎn)生的用戶搜索詞條非常龐大,給用戶搜索詞分類提出了非 常高的分類性能要求,大大增加了搜索詞分類的難度。由于搜索詞具有上面提到的語言特征,傳統(tǒng)的文本表示方法及文本分類方法直接應(yīng)用到用戶搜索詞上效果不佳,搜索詞的特征稀疏性,基于詞語共現(xiàn)程度來衡量文本相似度的方法不再有效,導(dǎo)致了分類不能取得理想的結(jié)果。
[0005]目前,解決上述問題的方法通常歸結(jié)為兩類:一類是借助外部文本,如搜索引擎返回的文檔、維基百科等,擴(kuò)展用戶搜索詞。另二類是利用主題模型挖掘詞語之間的內(nèi)在聯(lián)系。由于搜索詞短導(dǎo)致的特征稀疏性,基于詞袋的用戶搜索詞表示方法及有監(jiān)督的分類方法往往不能取得理想的結(jié)果。主要原因在于詞語共現(xiàn)程度來衡量文本相似度的方法不再有效,導(dǎo)致了分類準(zhǔn)確率不高。如ql:三星筆記本,q2:聯(lián)想Y470,由于他們之間并沒有共現(xiàn)的詞,他們之間的相似度為O。但是由于“三星”與“聯(lián)想”同樣都是電腦品牌,“Y470”是聯(lián)想筆記本里面的一個型號,二者表達(dá)的都是在尋找筆記本的相關(guān)信息。但是基于詞袋的表示方法將每個詞作為一個特征,并不考慮詞與詞之間的關(guān)系。然而為了解決這個問題,主要有兩個解決方法,第一,利用文本進(jìn)行擴(kuò)充。但是在上面已經(jīng)提到了,利用文本擴(kuò)充的方法存在性能瓶頸,在實際使用當(dāng)中受限。第二,利用主題進(jìn)行擴(kuò)充,比如將ql利用主題進(jìn)行擴(kuò)展得到ql’:三星筆記本Topic:數(shù)碼topic:數(shù)碼,q2擴(kuò)充的結(jié)果:聯(lián)想Y470 Topic:數(shù)碼。利用主題之間的共現(xiàn),增加二者的相關(guān)度。然而不管是事先定義的主題或者從大量文本訓(xùn)練出來的隱含主題,搜索詞的很多詞匯都不在里面,使得應(yīng)用起來非常受限。第一類的解決方法,由于涉及到網(wǎng)頁捉取、分詞等一消耗較長的時間。另一方面分類準(zhǔn)確性非常依賴擴(kuò)充后的文本質(zhì)量。由于搜索詞的海量性及分類要求的實時性,使得該類方法在實際使用中非常受限。第二類的解決方法可以發(fā)現(xiàn)詞與詞之間的主題關(guān)系,但是對于主題當(dāng)中不存在的詞無能為力。由于搜索引擎的非規(guī)范性,要收集一個適合于搜索詞主題關(guān)系挖掘的外部文本將非常困難。
[0006]現(xiàn)有技術(shù)的搜索查詢分類主要基于文本擴(kuò)充及主題擴(kuò)充,由于需要外部的資源。在線的資源獲取數(shù)據(jù)非常耗時,線下資源經(jīng)常非常匱乏,尋找到一個合適的外部文本資源非常困難。并且傳統(tǒng)基于詞向量及有監(jiān)督的文本分類方法常常沒有辦法取得預(yù)期的效果。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足而設(shè)計的一種基于半監(jiān)督CBOW的用戶搜索詞主題分類的方法,采用半監(jiān)督CBOW算法對搜索引擎的搜索數(shù)據(jù)及少量人工標(biāo)注的數(shù)據(jù)建立含有語義、語法和類別信息的詞向量模型,并利用詞向量的線性組合形成用戶搜索詞向量,然后再進(jìn)行分類,使得用戶搜索詞向量在空間上面不同類別的數(shù)據(jù)分得更加開,提高了分類的準(zhǔn)確性,有效的解決了用戶查詢短的文本。
[0008]本發(fā)明的目的是這樣實現(xiàn)的:一種基于半監(jiān)督CBOW的用戶搜索詞主題分類的方法,其特點是運(yùn)用半監(jiān)督CBOW算法對大量未標(biāo)注和部分已標(biāo)注的搜索詞建立含有語義、語法和類別信息的詞向量模型,利用詞向量模型的線性組合成查詢向量,然后根據(jù)查詢向量進(jìn)行用戶搜索詞的主題分類,具體按下述步驟進(jìn)行:
(一)、詞向量模型的建立
將大量未標(biāo)注和部分已標(biāo)注的用戶搜索詞中大于一定閾值的詞匯運(yùn)用半監(jiān)督CBOW算法建立一個d維實數(shù)空間的詞向量模型;所述已標(biāo)注的搜索詞為人工標(biāo)注或規(guī)則標(biāo)注的搜索詞;所述半監(jiān)督CBOW算法采用由輸入層、隱含層和輸出層構(gòu)成的三層神經(jīng)網(wǎng)絡(luò)語言模型,輸入層將上下文詞以向量形式輸入隱含層,隱含層將輸入的這些詞的詞向量進(jìn)行累加;所述神經(jīng)網(wǎng)絡(luò)語言模型采用下述(a)式進(jìn)行優(yōu)化,并采用隨機(jī)梯度下降法對神經(jīng)網(wǎng)絡(luò)進(jìn)行最大化求解更新:
【權(quán)利要求】
1.一種基于半監(jiān)督CBOW的用戶搜索詞主題分類的方法,其特征在于運(yùn)用半監(jiān)督CBOW算法對大量未標(biāo)注和部分已標(biāo)注的搜索詞建立含有語義、語法和類別信息的詞向量模型,利用詞向量模型的線性組合成查詢向量,然后根據(jù)查詢向量進(jìn)行用戶搜索詞的主題分類,具體按下述步驟進(jìn)行: (一)、詞向量模型的建立 將大量未標(biāo)注和部分已標(biāo)注的用戶搜索詞中大于一定閾值的詞匯運(yùn)用半監(jiān)督CBOW算法建立一個d維實數(shù)空間的詞向量模型;所述已標(biāo)注的搜索詞為人工標(biāo)注或規(guī)則標(biāo)注的搜索詞;所述半監(jiān)督CBOW算法采用由輸入層、隱含層和輸出層構(gòu)成的三層神經(jīng)網(wǎng)絡(luò)語言模型,輸入層將上下文詞以向量形式輸入隱含層,隱含層將輸入的這些詞的詞向量進(jìn)行累加;所述神經(jīng)網(wǎng)絡(luò)語言模型采用下述(a)式進(jìn)行優(yōu)化,并采用隨機(jī)梯度下降法對神經(jīng)網(wǎng)絡(luò)進(jìn)行最大化求解更新:
【文檔編號】G06F17/30GK104036010SQ201410286532
【公開日】2014年9月10日 申請日期:2014年6月25日 優(yōu)先權(quán)日:2014年6月25日
【發(fā)明者】賀樑, 楊河彬, 徐曉楓, 黃保荃, 李明耀, 倪敏杰 申請人:華東師范大學(xué)