用于挖掘意圖的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明提供了用于挖掘意圖的方法和設(shè)備。該方法包括以下步驟:獲取用戶的查詢;挖掘與所述查詢有關(guān)的候選意圖;以及在所挖掘出的候選意圖之中構(gòu)建至少一個排他合集,其中每個排他合集包括至少兩個相互排他的候選意圖。利用本發(fā)明,可以提高意圖召回率。
【專利說明】用于挖掘意圖的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)搜索。特別地,本發(fā)明涉及一種用于挖掘意圖的方法和設(shè)備。更特別地,本發(fā)明涉及針對用戶提交的搜索查詢來挖掘用戶意圖的方法和設(shè)備。
【背景技術(shù)】
[0002]目前,互聯(lián)網(wǎng)正在快速發(fā)展,在互聯(lián)網(wǎng)中常常產(chǎn)生大量的信息(諸如官方公布的科技信息、個人產(chǎn)生的日記或者博客等),并且互聯(lián)網(wǎng)用戶在大量的互聯(lián)網(wǎng)信息中搜索所希望的信息這一方式已經(jīng)越來越普遍。為了在海量的互聯(lián)網(wǎng)數(shù)據(jù)中找到所希望的信息,信息檢索系統(tǒng)(諸如搜索引擎)變得越來越重要。
[0003]然而,大多數(shù)的依賴現(xiàn)有技術(shù)的信息檢索系統(tǒng)不足以準(zhǔn)確地返回用戶希望的搜索結(jié)果,這是因為不同用戶可能通過使用相同的簡短且含糊的查詢作為輸入來體現(xiàn)不同的意圖。
[0004]為了幫助用戶快速且準(zhǔn)確地找到他們所感興趣的內(nèi)容,目前已經(jīng)提出了基于各種自然語言處理和信息檢索的對返回結(jié)果進(jìn)行組織的方法。
[0005]圖2示出了一種典型的用戶界面,在該用戶界面中顯示出了輸入的查詢、一些被挖掘得到的意圖以及對于所選擇的意圖的搜索結(jié)果。利用意圖索引來較好地組織搜索結(jié)果,這使得用戶能夠快速且準(zhǔn)確地找到他所想要的內(nèi)容。
[0006]一種典型的意圖搜索系統(tǒng)可以被如下設(shè)計(例如,參見Santos等人的論文(以下稱為論文I)):
[0007]輸入——(簡短且含糊的)查詢;
[0008]輸出——(重要并且多樣化的)η個最佳意圖(例如,η = 10)。
[0009]圖3示出了一個意圖搜索系統(tǒng)的示例。
[0010]在這種搜索系統(tǒng)中,期望的是挖掘出重要且多樣化的意圖,并且輸出用戶最可能感興趣的意圖。
[0011]Xue等人的論文(以下稱為論文2)提出了一種挖掘意圖的方法,其為在NTCIR-9平臺下的最佳系統(tǒng)。NTCIR (Nil Test Collection for IR Systems)是一個為所有研究人員提供共同的測試數(shù)據(jù)從而方便評價各種方法的性能的平臺,其具體內(nèi)容可以參見如下網(wǎng)站:http: //research, ni1.ac.jp/ntcir/ out I ine/prop-en.html。圖 4 不出了 論文 2 中提出的方法的流程。該方法利用全球資源(例如,搜索引擎、維基百科、查詢?nèi)罩镜?來挖掘候選意圖,通過諸如意圖頻率、共同出現(xiàn)頻率、點擊量數(shù)據(jù)(cI ick-though data)和編輯距離之類的特征來將候選意圖排序,并且最終輸出意圖列表。
[0012]然而,上述方法的意圖召回率(Intent recall, I_rec)較低。
[0013]下面的表I示出了上述方法的真實狀態(tài)數(shù)據(jù)(ground truth)的實驗結(jié)果。
【權(quán)利要求】
1.一種用于挖掘意圖的方法,包括以下步驟: A)獲取用戶的查詢; B)挖掘與所述查詢有關(guān)的候選意圖;以及 C)在所挖掘出的候選意圖之中構(gòu)建至少一個排他合集,其中每個排他合集包括至少兩個相互排他的候選意圖。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟C)包括以下步驟: Cll)根據(jù)候選意圖的語義類型來對所挖掘出的至少兩個候選意圖進(jìn)行分類,以便得到至少一個候選合集,其中每個候選合集包括至少兩個具有相同語義類型的候選意圖;以及C12)根據(jù)每個候選合集中的候選意圖的語義類型的排他度來識別排他合集。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述語義類型的排他度是針對語義類型手動地預(yù)先設(shè)定的。
4.根據(jù)權(quán)利要求2所述的方法,其中,所述語義類型的排他度是基于具有所述語義類型的候選意圖來自動地預(yù)先計算的。
5.根據(jù)權(quán)利要求2所述的方法,其中,所述語義類型包括概念類型、命名實體類型、本體類型和用戶定義的類型中的至少一種。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟C)包括以下步驟: C21)將所挖掘出的至少兩個候選意圖劃分成多個候選合集,其中每個候選合集包括至少兩個候選意圖; C22)為每個候選合集中的任意兩個候選意圖構(gòu)建意圖排他性向量,每個意圖排他性向量包括兩個候選意圖和這兩個候選意圖的關(guān)系分?jǐn)?shù); C23)通過使用所述為每個候選合集中的任意兩個候選意圖構(gòu)建的意圖排他性向量來計算每個候選合集的排他度;以及 C24 )根據(jù)每個候選合集的排他度來識別排他合集。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述步驟C22)包括以下步驟: C2211)分析與用戶的查詢有關(guān)的日志數(shù)據(jù); C2212)構(gòu)建與查詢、有關(guān)用戶ID和有關(guān)用戶點擊的意圖相關(guān)聯(lián)的數(shù)據(jù)集;以及C2213)基于所述數(shù)據(jù)集,根據(jù)點擊了兩個候選意圖中的至多一個的用戶ID的數(shù)量來計算這兩個候選意圖的關(guān)系分?jǐn)?shù),從而構(gòu)建針對這兩個候選意圖的意圖排他性向量。
8.根據(jù)權(quán)利要求7所述的方法,其中,在所述數(shù)據(jù)集中,所有用戶ID的針對所述查詢的點擊頻率不小于2 ;以及 其中所述數(shù)據(jù)集包括用戶ID編號、用戶提交的查詢以及用戶點擊的搜索結(jié)果的主題或 URL。
9.根據(jù)權(quán)利要求6所述的方法,其中,所述步驟C22)包括以下步驟: C2221)獲得包含所述查詢和所挖掘出的候選意圖的用戶生成文檔; C2222)創(chuàng)建與所述用戶生成文檔、所述查詢以及所挖掘出的候選意圖中的用戶點擊過的意圖相關(guān)聯(lián)的數(shù)據(jù)集;以及 C2223)基于所述數(shù)據(jù)集,根據(jù)與兩個候選意圖中的至多一個有關(guān)的用戶生成文檔的數(shù)量來計算這兩個候選意圖的關(guān)系分?jǐn)?shù),從而構(gòu)建針對這兩個候選意圖的意圖排他性向量。
10.根據(jù)權(quán)利要求6所述的方法,其中,所述步驟C22)包括以下步驟:C2231)獲得來自用戶查詢結(jié)果的包括單選按鈕或下拉列表的Π元素的文本值;以及 C2232)基于所述文本值來構(gòu)建意圖排他性向量,其中關(guān)系分?jǐn)?shù)是手動地預(yù)先設(shè)定的。
11.根據(jù)權(quán)利要求1-10中的任一項所述的方法,還包括以下步驟: D )利用所述至少一個排他合集使所挖掘出的候選意圖多樣化。
12.根據(jù)權(quán)利要求11所述的方法,其中,所述步驟D)包括以下步驟: Dll)僅保留排他合集中的一個候選意圖;以及 D12)將排他合集中的未被保留的其它候選意圖從所挖掘出的候選意圖中去除。
13.根據(jù)權(quán)利要求11所述的方法,其中,所述步驟D)包括以下步驟: D21)僅保留排他合集中的一個候選意圖;以及 D22)將排他合集中的未被保留的其它候選意圖在所挖掘出的候選意圖中的次序向后移動。
14.根據(jù)權(quán)利要求12或13所述的方法,其中,所保留的候選意圖是指出用戶的偏好的最可能的候選意圖。
15.根據(jù)權(quán)利要求11所述的方法,其中,所述步驟D)包括以下步驟: D31)保留代表排他合集的上位詞來代替相應(yīng)的排他合集;以及 D32 )將排他合集中的所有候選意圖從所挖掘出的候選意圖中去除。
16.根據(jù)權(quán)利要求11所述的方法,其中,所述步驟D)包括以下步驟: D41)保留代表排他合集的合并的候選意圖來代替相應(yīng)的排他合集;以及 D42 )將排他合集中的所有候選意圖從所挖掘出的候選意圖中去除。
17.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟B)包括以下步驟: Bll)基于所述查詢來獲取第一組候選意圖; B12)為所述查詢構(gòu)建至少一個臨時意圖模式; B13)基于所述至少一個臨時意圖模式來獲取第二組候選意圖;以及 B14)將所述第一組候選意圖和第二組候選意圖進(jìn)行組合以獲得所述查詢的候選意圖; 其中所述臨時意圖模式包括所述查詢和上下文字符。
18.根據(jù)權(quán)利要求17所述的方法,其中,所述步驟B14)包括以下步驟: B141)根據(jù)各候選意圖所對應(yīng)的臨時意圖模式的參數(shù),來將各候選意圖進(jìn)行排序, 其中,所述臨時意圖模式的參數(shù)包含所述臨時意圖模式的置信度和覆蓋率中的至少一個。
19.根據(jù)權(quán)利要求17所述的方法,其中,所述上下文字符是用戶預(yù)先設(shè)定的,或者是從意圖訓(xùn)練庫、用戶歷史選擇記錄和所述第一組候選意圖中的至少一個中獲取的。
20.根據(jù)權(quán)利要求11所述的方法,還包括以下步驟: E)獲取要被獲得的意圖的數(shù)量n,其中η為自然數(shù); F)從至少一個數(shù)據(jù)搜索資源獲取與所述查詢以及多樣化后的候選意圖相關(guān)的一組搜索結(jié)果;以及 G)基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它n-Ι個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
21.根據(jù)權(quán)利要求1、17至19中的任意一個所述的方法,還包括以下步驟: E)獲取要被獲得的意圖的數(shù)量n,其中η為自然數(shù); F)從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和所獲得的所述查詢的候選意圖相關(guān)的一組搜索結(jié)果;以及 G)基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它n-Ι個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
22.一種用于挖掘意圖的設(shè)備,包括: 單元Α),被配置為獲取用戶的查詢; 單元B),被配置為挖掘與所述查詢有關(guān)的候選意圖;以及 單元C),被配置為在所挖掘出的候選意圖之中構(gòu)建至少一個排他合集,其中每個排他合集包括至少兩個相互排他的候選意圖。
23.根據(jù)權(quán)利要求22所述的設(shè)備,其中,所述單元C)包括: 單元C11),被配置為根據(jù) 候選意圖的語義類型來對所挖掘出的至少兩個候選意圖進(jìn)行分類,以便得到至少一個候選合集,其中每個候選合集包括至少兩個具有相同語義類型的候選意圖;以及 單元C12),被配置為根據(jù)每個候選合集中的候選意圖的語義類型的排他度來識別排他口 O
24.根據(jù)權(quán)利要求23所述的設(shè)備,其中,所述語義類型的排他度是針對語義類型手動地預(yù)先設(shè)定的。
25.根據(jù)權(quán)利要求23所述的設(shè)備,其中,所述語義類型的排他度是基于具有所述語義類型的候選意圖來自動地預(yù)先計算的。
26.根據(jù)權(quán)利要求23所述的設(shè)備,其中,所述語義類型包括概念類型、命名實體類型、本體類型和用戶定義的類型中的至少一種。
27.根據(jù)權(quán)利要求22所述的設(shè)備,其中,所述單元C)包括: 單元C21),被配置為將所挖掘出的至少兩個候選意圖劃分成多個候選合集,其中每個候選合集包括至少兩個候選意圖; 單元C22),被配置為為每個候選合集中的任意兩個候選意圖構(gòu)建意圖排他性向量,每個意圖排他性向量包括兩個候選意圖和這兩個候選意圖的關(guān)系分?jǐn)?shù); 單元C23),被配置為通過使用所述為每個候選合集中的任意兩個候選意圖構(gòu)建的意圖排他性向量來計算每個候選合集的排他度;以及 單元C24),被配置為根據(jù)每個候選合集的排他度來識別排他合集。
28.根據(jù)權(quán)利要求27所述的設(shè)備,其中,所述單元C22)包括: 單元C2211 ),被配置為分析與用戶的查詢有關(guān)的日志數(shù)據(jù); 單元C2212),被配置為構(gòu)建與查詢、有關(guān)用戶ID和有關(guān)用戶點擊的意圖相關(guān)聯(lián)的數(shù)據(jù)集;以及 單元C2213),被配置為基于所述數(shù)據(jù)集,根據(jù)點擊了兩個候選意圖中的至多一個的用戶ID的數(shù)量來計算這兩個候選意圖的關(guān)系分?jǐn)?shù),從而構(gòu)建針對這兩個候選意圖的意圖排他性向量。
29.根據(jù)權(quán)利要求28所述的設(shè)備,其中,在所述數(shù)據(jù)集中,所有用戶ID的針對所述查詢的點擊頻率不小于2 ;以及 其中所述數(shù)據(jù)集包括用戶ID編號、用戶提交的查詢以及用戶點擊的搜索結(jié)果的主題或 URL。
30.根據(jù)權(quán)利要求27所述的設(shè)備,其中,所述單元C22)包括: 單元C2221),被配置為獲得包含所述查詢和所挖掘出的候選意圖的用戶生成文檔;單元C2222),被配置為創(chuàng)建與所述用戶生成文檔、所述查詢以及所挖掘出的候選意圖中的用戶點擊過的意圖相關(guān)聯(lián)的數(shù)據(jù)集;以及 單元C2223),被配置為基于所述數(shù)據(jù)集,根據(jù)與兩個候選意圖中的至多一個有關(guān)的用戶生成文檔的數(shù)量來計算這兩個候選意圖的關(guān)系分?jǐn)?shù),從而構(gòu)建針對這兩個候選意圖的意圖排他性向量。
31.根據(jù)權(quán)利要求27所述的設(shè)備,其中,所述單元C22)包括: 單元C2231),被配置為獲得來自用戶查詢結(jié)果的包括單選按鈕或下拉列表的Π元素的文本值;以及 單元C2232),被配置為基于所述文本值來構(gòu)建意圖排他性向量,其中關(guān)系分?jǐn)?shù)是手動地預(yù)先設(shè)定的。
32.根據(jù)權(quán)利要求22- 31中的任一項所述的設(shè)備,還包括: 單元D),被配置為利用所述至少一個排他合集使所挖掘出的候選意圖多樣化。
33.根據(jù)權(quán)利要求32所述的設(shè)備,其中,所述單元D)包括: 單元D11),被配置為僅保留排他合集中的一個候選意圖;以及 單元D12),被配置為將排他合集中的未被保留的其它候選意圖從所挖掘出的候選意圖中去除。
34.根據(jù)權(quán)利要求32所述的設(shè)備,其中,所述單元D)包括: 單元D21),被配置為僅保留排他合集中的一個候選意圖;以及 單元D22),被配置為將排他合集中的未被保留的其它候選意圖在所挖掘出的候選意圖中的次序向后移動。
35.根據(jù)權(quán)利要求33或34所述的設(shè)備,其中,所保留的候選意圖是指出用戶的偏好的最可能的候選意圖。
36.根據(jù)權(quán)利要求32所述的設(shè)備,其中,所述單元D)包括: 單元D31),被配置為保留代表排他合集的上位詞來代替相應(yīng)的排他合集;以及 單元D32),被配置為將排他合集中的所有候選意圖從所挖掘出的候選意圖中去除。
37.根據(jù)權(quán)利要求32所述的設(shè)備,其中,所述單元D)包括: 單元D41),被配置為保留代表排他合集的合并的候選意圖來代替相應(yīng)的排他合集;以及 單元D42),被配置為將排他合集中的所有候選意圖從所挖掘出的候選意圖中去除。
38.根據(jù)權(quán)利要求22所述的設(shè)備,其中,所述單元B)包括: 單元B11),被配置為基于所述查詢來獲取第一組候選意圖; 單元B12),被配置用于為所述查詢構(gòu)建至少一個臨時意圖模式; 單元B13),被配置為基于所述至少一個臨時意圖模式來獲取第二組候選意圖;以及單元B14),被配置為將所述第一組候選意圖和第二組候選意圖進(jìn)行組合以獲得所述查詢的候選意圖; 其中所述臨時意圖模式包括所述查詢和上下文字符。
39.根據(jù)權(quán)利要求38所述的設(shè)備,其中,所述單元B14)包括: 單元B141),被配置為根據(jù)各候選意圖所對應(yīng)的臨時意圖模式的參數(shù),來將各候選意圖進(jìn)行排序, 其中,所述臨時意圖模式的參數(shù)包含所述臨時意圖模式的置信度和覆蓋率中的至少一個。
40.根據(jù)權(quán)利要求38所述的設(shè)備,其中,所述上下文字符是用戶預(yù)先設(shè)定的,或者是從意圖訓(xùn)練庫、用戶歷史選擇記錄和所述第一組候選意圖中的至少一個中獲取的。
41.根據(jù)權(quán)利要求32所述的設(shè)備,還包括: 單元E),被配置為獲取要被獲得的意圖的數(shù)量n,其中η為自然數(shù); 單元F),被配置為從至少一個數(shù)據(jù)搜索資源獲取與所述查詢以及多樣化后的候選意圖相關(guān)的一組搜索結(jié)果;以及 單元G),被配置為基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候 選意圖中的各候選意圖不與任意其它n-Ι個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
42.根據(jù)權(quán)利要求22、38至40中的任意一個所述的設(shè)備,還包括: 單元Ε),被配置為獲取要被獲得的意圖的數(shù)量η,其中η為自然數(shù); 單元F),被配置為從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和所獲得的所述查詢的候選意圖相關(guān)的一組搜索結(jié)果;以及 單元G),被配置為基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它n-Ι個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
【文檔編號】G06F17/30GK103942232SQ201310026233
【公開日】2014年7月23日 申請日期:2013年1月18日 優(yōu)先權(quán)日:2013年1月18日
【發(fā)明者】黃耀海, 那森, 胡欽諳, 夏云慶 申請人:佳能株式會社, 清華大學(xué)