專利名稱:一種基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種新的查詢建議方法一基于查詢語義和點擊流數(shù)據(jù)的查詢建 "iX7j QSQSCD (Query Suggestion Based on the Query Semantics andClick-through Data),屬于信息檢索領(lǐng)域。
背景技術(shù):
目前搜索引擎采用的主要交互方式是用戶自主輸入查詢,搜索系統(tǒng)根據(jù)用戶輸入的查詢提供檢索結(jié)果。但是,很多時候用戶輸入的查詢詞并不能準確表達其搜索需求。一方面,用戶輸入的查詢詞通常比較短——平均只有兩三個詞;另一方面,很多搜索引擎含有歧義或意圖模糊;此外,很多時候,用戶之所以要使用搜索引擎進行信息的搜索就是因為對要檢索話題知之甚少甚至毫無概念,這時候用戶很難構(gòu)造準確的查詢。研究表明只有25% 的查詢能清晰表達用戶的意圖。為了更好地幫助用戶構(gòu)造查詢,搜索引擎普遍采用查詢建議技術(shù),在搜索結(jié)果頁面中的“相關(guān)搜索”就是查詢建議的一個具體應(yīng)用。查詢建議指發(fā)現(xiàn)或構(gòu)造一組與原查詢Q 相關(guān)的查詢{91,Q2,...},可以通過修改原查詢Q或整個替換Q來實現(xiàn)這些相關(guān)查詢。例如,對用戶查詢“蘋果iphone”,可以通過修改查詢詞“ iphone”來推薦查詢“蘋果手機”,也可以將整個查詢替換為“ ipad”。由于有著巨大的應(yīng)用需求和價值,查詢建議成為近年來的研究熱點。從技術(shù)實現(xiàn)上看,查詢建議可以看作一個以搜索引擎查詢?yōu)闄z索對象的信息檢索問題。然而,不同于文檔或網(wǎng)頁,查詢的自身特點使查詢建議面臨諸多挑戰(zhàn)首先,不同于文檔或網(wǎng)頁,查詢通常只包含兩到三個查詢詞,缺乏充分的文本內(nèi)容,傳統(tǒng)信息檢索模型不適合直接對其進行處理;其次,用戶查詢信息稀疏。用戶查詢?nèi)罩緮?shù)據(jù)中多數(shù)查詢出現(xiàn)次數(shù)很少,在對這些查詢處理時,可利用的相關(guān)屬性信息有限;最后,用戶查詢復(fù)雜多樣。用戶查詢?nèi)罩緮?shù)據(jù)中通常包含幾千萬甚至上億條不同的查詢,即使是同一查詢不同用戶可能表示不同意圖。此外,用戶查詢受時間、突發(fā)事件等因素影響。查詢建議方法根據(jù)所依賴的數(shù)據(jù)不同可分為兩類基于文檔的方法和基于日志的方法。1)第一種方法主要通過處理包含查詢詞的文檔來分析查詢,從相關(guān)文檔或人工編輯語料中搜索找出與輸入查詢相關(guān)的詞或短語,然后利用這些相關(guān)詞或短語構(gòu)建推薦查詢。 2)第二種方法主要通過分析用戶的搜索引擎查詢?nèi)罩緦ふ以?jīng)出現(xiàn)過的相似查詢,然后向用戶給予推薦。這兩種方法各有利弊,基于日志的方法對處理出現(xiàn)頻率小的稀疏查詢比較困難,基于文檔的方法雖能處理稀疏查詢,但是查找相關(guān)文檔也是一個難題。
發(fā)明內(nèi)容
本發(fā)明的目的是針對目前查詢建議缺乏有效語義處理的問題,提出一種基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法。本發(fā)明提供了一種基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,包括以下步驟一、對收集的查詢?nèi)罩緮?shù)據(jù)進行預(yù)處理,去掉非中文查詢串、亂碼數(shù)據(jù)及無意義的符號,形成規(guī)范的查詢?nèi)罩編?;二、對用戶輸入的查詢?shù)據(jù)進行分詞、過濾停用詞的預(yù)處理,形成包含多個關(guān)鍵詞的查詢數(shù)據(jù)串;三、將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行相似度計算;四、基于知網(wǎng)中的詞概念相關(guān)度計算方法,將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行語義相關(guān)度計算;五、將步驟三和步驟四計算出的相似度和語義相關(guān)度進行融合,計算用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘忻織l日志信息的查詢語義相關(guān)度;六、按照步驟五中的相關(guān)度由大到小,取出Top-N推薦給用戶。本發(fā)明還提出了基于點擊流矩陣模型的矩陣相關(guān)度計算方法,并將其與查詢語義相關(guān)度相融合,具體方法為在得到用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘忻織l日志信息的查詢語義相關(guān)度之后,判斷查詢?nèi)罩編熘惺欠癜脩舨樵償?shù)據(jù)串,若不包含,則將用戶查詢數(shù)據(jù)串的矩陣相關(guān)度設(shè)為0 ;若包含,則以用戶提交的查詢數(shù)據(jù)與該數(shù)據(jù)對應(yīng)的點擊URL之間的關(guān)系為基礎(chǔ),逐條計算用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘衅渌樵內(nèi)罩拘畔⒅g的矩陣相關(guān)度;將查詢語義相關(guān)度和矩陣相關(guān)度進行融合,計算查詢數(shù)據(jù)與查詢?nèi)罩編熘忻織l日志信息的相關(guān)度,作為推薦給用戶的依據(jù)。有益效果本發(fā)明所述基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,將查詢語義信息以及查詢數(shù)據(jù)與該數(shù)據(jù)對應(yīng)的點擊URL之間的關(guān)系作為查詢建議的依據(jù),可以有效的消除查詢歧義,并對輸入錯誤進行提醒,提高信息檢索系統(tǒng)的易用性和交互能力。
附圖1. QSQS⑶的查詢建議方法流程圖;附圖2.查詢-點擊二步圖;附圖3.查詢建議平均精度比較。
具體實施例方式下面結(jié)合附圖,具體說明本發(fā)明的優(yōu)選實施方式。本實施方式具體實現(xiàn)了本發(fā)明所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其流程如圖1所示,包括以下步驟—、對收集的查詢?nèi)罩緮?shù)據(jù)進行預(yù)處理,去掉非中文查詢串、亂碼數(shù)據(jù)及無意義的符號,形成規(guī)范的查詢?nèi)罩編?;二、對用戶輸入的查詢?shù)據(jù)進行分詞、過濾停用詞的預(yù)處理,形成包含多個關(guān)鍵詞的查詢數(shù)據(jù)串;三、將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行相似度計算;
進行相似度計算可以使用多種方法,例如余弦相似度計算、皮爾森系數(shù)相似度計算等。此步驟是傳統(tǒng)的文本相似度計算,通?;谠~頻統(tǒng)計計算文檔相似度。但是如果僅僅只通過該步驟獲得相似度,將會缺乏對文檔語義的處理。如果相關(guān)文檔之間的公共詞較多,通過單純基于詞頻的相似度計算方法可以達到相關(guān)計算的目的,如果相關(guān)文檔之間的公共詞較少,這種計算方法就難以取得較好的效果,特別對于較短的查詢串。因為查詢串中詞匯的出現(xiàn)頻率很小,如果把與之關(guān)聯(lián)緊密的其他概念考慮進來,則可以凸現(xiàn)查詢的語義。 因此,本實施例在進行傳統(tǒng)的相似度計算之后,在步驟四中進行語義相關(guān)度的計算。四、基于知網(wǎng)中的詞概念相關(guān)度計算方法,將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行語義相關(guān)度計算。(1)知網(wǎng)中的詞概念相關(guān)度計算方法知網(wǎng)中的每個詞語均由DEF來描述其概念定義,DEF的值由若干個義原以及它們與主干詞之間的語義關(guān)系描述組成。知網(wǎng)中的概念是對詞匯語義的描述,每個詞的語義描述包含一個或多個概念,每個概念描述形成一個記錄,概念的定義以及與之相關(guān)的同義、反義、上位、下位等關(guān)系,均描述于記錄的DEF項中。比如DEF(高興)=IaValueI屬性值, circumstances境況,happy福,desired良}。由于義原是HowNet中最小的語義單位, 所以義原的相似度計算是概念相似度計算的基礎(chǔ)。由于所有的義原根據(jù)上下位關(guān)系構(gòu)成了一個樹狀的義原層次體系,所以采用簡單的通過語義距離計算相似度的辦法。假設(shè)兩個義原在這個層次體系中的路徑距離為d,兩個義原Pl,p2之間的語義距離為
權(quán)利要求
1.一種基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,包括以下步驟一、對收集的查詢?nèi)罩緮?shù)據(jù)進行預(yù)處理,去掉非中文查詢串、亂碼數(shù)據(jù)及無意義的符號,形成規(guī)范的查詢?nèi)罩編?;二、對用戶輸入的查詢?shù)據(jù)進行分詞、過濾停用詞的預(yù)處理,形成包含多個關(guān)鍵詞的查詢數(shù)據(jù)串;三、將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行相似度計算;四、基于知網(wǎng)中的詞概念相關(guān)度計算方法,將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行語義相關(guān)度計算;五、將步驟三和步驟四計算出的相似度和語義相關(guān)度進行融合,計算用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘忻織l日志信息的查詢語義相關(guān)度;六、按照步驟五中的相關(guān)度由大到小,取出Top-N推薦給用戶。
2.根據(jù)權(quán)利要求1所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其特征在于, 在得到用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘忻織l日志信息的查詢語義相關(guān)度之后,判斷查詢?nèi)罩編熘惺欠癜脩舨樵償?shù)據(jù)串,若不包含,則將用戶查詢數(shù)據(jù)串的矩陣相關(guān)度設(shè)為O ;若包含,則以用戶提交的查詢數(shù)據(jù)與該數(shù)據(jù)對應(yīng)的點擊URL之間的關(guān)系為基礎(chǔ),逐條計算用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘衅渌樵內(nèi)罩拘畔⒅g的矩陣相關(guān)度;將查詢語義相關(guān)度和矩陣相關(guān)度進行融合,計算查詢數(shù)據(jù)與查詢?nèi)罩編熘忻織l日志信息的相關(guān)度,作為推薦給用戶的依據(jù)。
3.根據(jù)權(quán)利要求1或2所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其特征在于,所述語義相關(guān)度計算方法為將用戶查詢數(shù)據(jù)串以及查詢?nèi)罩編熘械拿織l日志信息均表示為規(guī)范化向量V(q)= (t1 W1 ;t2,w2 ;L ;tn,wn),其中、為特征項,Wi為、在q中的權(quán)值;查詢向量V (q)中的每個元素的權(quán)值Wi由下面公式來計算,
4.根據(jù)權(quán)利要求1或2所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其特征在于,所述將相似度和語義相關(guān)度進行融合的方法為Sim(C^q2) = α · SimKeywords ( , q2) + (1_ α ) · Conc Rel (Q1, q2)其中SimKeywords ( ,q2)是步驟三得到的相似度,ConcReKq1, Q2)是步驟四得到的語義相關(guān)度,α是平衡系數(shù),其取值范圍在W,l]范圍內(nèi)。
5.根據(jù)權(quán)利要求1或2所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其特征在于,所述矩陣相關(guān)度計算方法為(1)構(gòu)建一個二步圖Bql = (Vql,Eql),其中所有頂點集 Vql = Q U L,Q= ( , ,..., qj即用戶提交查詢的集合,L = {11; I2,..., IJ即用戶點擊的URL的集合;所有邊的集合 Eql= {(1,1」)|存在從 到1」的一條邊};當且僅當一個用戶提交了查詢1,然后點擊了 URL1」,邊(qi; Ij)存在;把二步圖Bql轉(zhuǎn)換為一個矩陣S,對于mXn查詢-URL矩陣S,行表示查詢,列表示URL, Sij的值表明一個查詢Qi被不同用戶連接到URL、.的次數(shù),這里的“不同”是指如果一個用戶多次點擊同一查詢-URL對,只記為1次;(2)矩陣分解與相似度計算定義優(yōu)化函數(shù)如下
6.根據(jù)權(quán)利要求1或2所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其特征在于,將查詢語義相關(guān)度和矩陣相關(guān)度進行融合的方法為
7.根據(jù)權(quán)利要求6所述的基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,其特征在于, 設(shè)定一個不大于0. 1的正數(shù),當simMatrix (q,Qi) = 0或Sim(q,Qi) = 0時,把這個正數(shù)賦值給 simMatrix(q, q^ 或 Sim(q, q^。
全文摘要
本發(fā)明涉及一種基于查詢語義和點擊流數(shù)據(jù)的查詢建議方法,包括以下步驟一、對收集的查詢?nèi)罩緮?shù)據(jù)進行預(yù)處理;二、對用戶輸入的查詢數(shù)據(jù)進行分詞、過濾停用詞的預(yù)處理;三、將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行相似度計算;四、基于知網(wǎng)中的詞概念相關(guān)度計算方法,將用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘腥罩拘畔⒅饤l進行語義相關(guān)度計算;五、將相似度和語義相關(guān)度進行融合,計算用戶查詢數(shù)據(jù)串與查詢?nèi)罩編熘忻織l日志信息的查詢語義相關(guān)度;六、按照步驟五中的相關(guān)度由大到小,取出Top-N推薦給用戶。本發(fā)明可以有效的消除查詢歧義,并對輸入錯誤進行提醒,提高信息檢索系統(tǒng)的易用性和交互能力。
文檔編號G06F17/30GK102253982SQ20111017276
公開日2011年11月23日 申請日期2011年6月24日 優(yōu)先權(quán)日2011年6月24日
發(fā)明者彭學(xué)平, 牛振東, 黃勝 申請人:北京理工大學(xué)