針對(duì)口語(yǔ)語(yǔ)言理解中的域檢測(cè)利用查詢(xún)點(diǎn)擊記錄的制作方法
【專(zhuān)利摘要】口語(yǔ)語(yǔ)言理解系統(tǒng)中的域檢測(cè)訓(xùn)練可以被提供。與搜索引擎相關(guān)聯(lián)的記錄數(shù)據(jù)可以被接收,所述記錄數(shù)據(jù)的每一個(gè)都與搜索查詢(xún)相關(guān)聯(lián)。針對(duì)每個(gè)搜索查詢(xún)的域標(biāo)簽可以被識(shí)別,并且所述域標(biāo)簽和鏈接數(shù)據(jù)可以被提供給針對(duì)口語(yǔ)語(yǔ)言理解模型的訓(xùn)練集。
【專(zhuān)利說(shuō)明】針對(duì)口語(yǔ)語(yǔ)言理解中的域檢測(cè)利用查詢(xún)點(diǎn)擊記錄
【背景技術(shù)】
[0001]從搜索引擎查詢(xún)記錄挖掘(mined)的搜索查詢(xún)可以被分析以便改進(jìn)口語(yǔ)語(yǔ)言理解(SLU)應(yīng)用中的域檢測(cè)。理解應(yīng)用中的三個(gè)關(guān)鍵任務(wù)是域分類(lèi)、意圖確定以及空位(slot)填充。域分類(lèi)在SLU系統(tǒng)常常被首先完成,用作后續(xù)處理的頂層分類(lèi)。域檢測(cè)系統(tǒng)可以被框定(framed)為分類(lèi)問(wèn)題。給定用戶(hù)表達(dá)或句子語(yǔ)義域標(biāo)簽的集合J,.C C可以與^相關(guān)聯(lián),其中C是覆蓋的域的有限集。為了執(zhí)行這個(gè)分類(lèi)任務(wù),具有最大條件概率的類(lèi)可以被選擇。在常規(guī)系統(tǒng)中,監(jiān)督的分類(lèi)方法可以被用來(lái)估計(jì)這些條件概率并且每個(gè)域類(lèi)可以從一組貼標(biāo)簽的表達(dá)被訓(xùn)練。收集并且注解自然口語(yǔ)表達(dá)以便訓(xùn)練這些域類(lèi)常常是昂貴的,表示在精力和財(cái)產(chǎn)兩方面的部署的重大障礙。
【發(fā)明內(nèi)容】
[0002]本
【發(fā)明內(nèi)容】
被提供來(lái)以簡(jiǎn)化形式介紹選擇的概念,這些概念在下面在【具體實(shí)施方式】中被進(jìn)一步描述。本
【發(fā)明內(nèi)容】
不旨在識(shí)別所要求保護(hù)的主題的關(guān)鍵特征或必要特征。本
【發(fā)明內(nèi)容】
也不旨在被用來(lái)限制所要求保護(hù)的主題的范圍。
[0003]口語(yǔ)語(yǔ)言理解系統(tǒng)中的域檢測(cè)訓(xùn)練可以被提供。每個(gè)都與搜索查詢(xún)相關(guān)聯(lián)的、與搜索引擎相關(guān)聯(lián)的記錄數(shù)據(jù)可以被接收。針對(duì)每個(gè)搜索查詢(xún)的域標(biāo)簽可以被識(shí)別,并且所述域標(biāo)簽和鏈接數(shù)據(jù)可以被提供給針對(duì)口語(yǔ)語(yǔ)言理解模型的訓(xùn)練集。
[0004]前述一般描述和以下具體描述提供例子并且僅僅是解釋性的。因此,前述一般描述和以下具體描述不應(yīng)該被認(rèn)為為限制性的。進(jìn)一步地,可以提供附加于本文中所闡述的那些的特征或變化。例如,實(shí)施例可以針對(duì)在【具體實(shí)施方式】中所描述的各種特征組合和子組合。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0005]被并入且構(gòu)成本公開(kāi)的一部分的附圖圖示了本發(fā)明的各種實(shí)施例。在圖中:
圖1是操作環(huán)境的框圖;
圖2是用于提供域檢測(cè)訓(xùn)練的方法的流程圖;
圖3是用于對(duì)域標(biāo)簽進(jìn)行分類(lèi)的、圖2的方法的子例程的流程圖;以及 圖4是計(jì)算裝置的框圖。
【具體實(shí)施方式】
[0006]以下具體描述參考附圖。只要有可能,相同的參考標(biāo)號(hào)在圖和以下描述中被用來(lái)指代相同或相似的元素。雖然本發(fā)明的實(shí)施例可能被描述,但是修改、改編及其它實(shí)施方案是可能的。例如,可以對(duì)圖中所圖示的元素作出代替、附加或修改,并且本文中所描述的方法可以通過(guò)對(duì)所公開(kāi)的方法代替、重新排序或添加階段而被修改。因此,以下具體描述不限制本發(fā)明。
[0007]本發(fā)明的實(shí)施例可以提供用于在口語(yǔ)語(yǔ)言表達(dá)(utterances)的域檢測(cè)中利用查詢(xún)點(diǎn)擊記錄的系統(tǒng)和/或方法。搜索引擎中的隱式地貼標(biāo)簽的web搜索查詢(xún)的豐富可以被利用來(lái)幫助訓(xùn)練域檢測(cè)類(lèi)。諸如Bing?或Google?之類(lèi)的大型引擎每天記錄大于IOOM個(gè)搜索查詢(xún)。記錄中的每個(gè)查詢(xún)可以與在用戶(hù)鍵入查詢(xún)之后被點(diǎn)擊的一組統(tǒng)一資源定位符(URL)相關(guān)聯(lián)。這個(gè)用戶(hù)點(diǎn)擊信息可以被用來(lái)推斷域類(lèi)標(biāo)簽,并且因此,可以在訓(xùn)練域分類(lèi)器中提供(可能地嗜雜)監(jiān)督。例如,在相同的URL(例如,http://www.hotels, com)上點(diǎn)擊的兩個(gè)用戶(hù)的查詢(xún)可能來(lái)自相同的域(例如,“hotels (旅館)”)。
[0008]點(diǎn)擊的URL類(lèi)別可以被分配作為用戶(hù)查詢(xún)的域標(biāo)簽。例如,當(dāng)用戶(hù)已在http://WWW.hotels, com上點(diǎn)擊時(shí),標(biāo)簽“hotels (旅館)”可以被分配給用戶(hù)查詢(xún)“Holiday Innand Suites (假日酒店和套房)”。然而,點(diǎn)擊數(shù)據(jù)可能是嘈雜的并且以低頻率發(fā)生。因此,通過(guò)挖掘查詢(xún)點(diǎn)擊記錄來(lái)收集人們通過(guò)使用相同的精確查詢(xún)搜索過(guò)的URL的集合對(duì)于估計(jì)成功的點(diǎn)擊也可能是有用的。諸如查詢(xún)熵(entropy)、停延時(shí)間以及會(huì)話(huà)長(zhǎng)度之類(lèi)的若干特征可以被評(píng)估以用于挖掘高質(zhì)量點(diǎn)擊。用戶(hù)動(dòng)作模式和停延時(shí)間可以被用來(lái)估計(jì)成功的搜索會(huì)話(huà)。查詢(xún)熵和頻率可以與來(lái)自域檢測(cè)的其它特征結(jié)合(所述其它特征諸如由在貼標(biāo)簽的數(shù)據(jù)上訓(xùn)練的域檢測(cè)模型所分配的概率),以便取樣都用于作為例子添加到訓(xùn)練集的高質(zhì)量點(diǎn)擊,并且以便預(yù)取樣用于在監(jiān)督的分類(lèi)器訓(xùn)練和/或諸如標(biāo)簽傳播之類(lèi)的半監(jiān)督和微監(jiān)督的學(xué)習(xí)方法中使用的數(shù)據(jù)。
[0009]標(biāo)簽傳播算法可以將域注解從貼標(biāo)簽的自然語(yǔ)言(NL)表達(dá)轉(zhuǎn)換為未貼標(biāo)簽的web搜索查詢(xún)。點(diǎn)擊信息還可以被認(rèn)為是嘈雜監(jiān)督,并且從已點(diǎn)擊的URL類(lèi)別中提取的域標(biāo)簽可以被合并到標(biāo)簽傳播算法中。
[0010]查詢(xún)點(diǎn)擊數(shù)據(jù)可以包括搜索引擎用戶(hù)的查詢(xún)的記錄和他們從由搜索引擎所返回的站點(diǎn)的列表所點(diǎn)擊的鏈接。然而,一些點(diǎn)擊數(shù)據(jù)是非常嘈雜的,并且可能包括被幾乎任意地點(diǎn)擊的鏈接。取樣措施可以是來(lái)自用于在域檢測(cè)中使用的已點(diǎn)擊URL的域標(biāo)簽和應(yīng)用的查詢(xún)。來(lái)自嘈雜的用戶(hù)點(diǎn)擊的監(jiān)督然后可以被包括到標(biāo)簽傳播算法中,所述標(biāo)簽傳播算法可以將域標(biāo)簽從貼標(biāo)簽的例子轉(zhuǎn)換為經(jīng)取樣的搜索查詢(xún)。
[0011]其用戶(hù)在與目標(biāo)域類(lèi)別相關(guān)的URL上點(diǎn)擊的一組查詢(xún)可以被提取。查詢(xún)點(diǎn)擊記錄然后可以被挖掘以便下載這些搜索查詢(xún)的實(shí)例和由鍵入相同查詢(xún)的搜索引擎用戶(hù)點(diǎn)擊的鏈接的集合。用于對(duì)查詢(xún)的子集進(jìn)行取樣的標(biāo)準(zhǔn)可以包括查詢(xún)頻率、查詢(xún)(點(diǎn)擊)熵和/或查詢(xún)長(zhǎng)度。查詢(xún)頻率可以指的是查詢(xún)已被不同用戶(hù)在給定時(shí)間范圍中搜索的次數(shù)。在口語(yǔ)對(duì)話(huà)系統(tǒng)中,用戶(hù)可以與web搜索用戶(hù)問(wèn)相同的事情,從而將頻繁的搜索查詢(xún)添加到域檢測(cè)訓(xùn)練集可以幫助提高它的準(zhǔn)確性。查詢(xún)(點(diǎn)擊)熵旨在測(cè)量由查詢(xún)7的用戶(hù)所點(diǎn)進(jìn)的URL的多樣性(diversity),并且可以根據(jù)在下面的等式I被計(jì)算。
【權(quán)利要求】
1.一種用于提供域檢測(cè)訓(xùn)練的方法,所述方法包括: 接收與搜索引擎相關(guān)聯(lián)的多個(gè)記錄數(shù)據(jù),其中所述多個(gè)記錄數(shù)據(jù)中的每一個(gè)都與搜索查詢(xún)相關(guān)聯(lián); 識(shí)別針對(duì)所述多個(gè)記錄數(shù)據(jù)中的至少一個(gè)的所述搜索查詢(xún)的域標(biāo)簽;以及 將所述域標(biāo)簽和所述多個(gè)鏈接數(shù)據(jù)中的至少一個(gè)提供給針對(duì)理解模型的訓(xùn)練集。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述多個(gè)記錄數(shù)據(jù)中的每一個(gè)都包括選自與所述搜索查詢(xún)相關(guān)聯(lián)的多個(gè)搜索結(jié)果的至少一個(gè)統(tǒng)一資源定位符(URL)。
3.根據(jù)權(quán)利要求2所述的方法,其中,識(shí)別所述域標(biāo)簽包括比較至少與所述多個(gè)記錄數(shù)據(jù)的子集相關(guān)聯(lián)的URL。
4.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括: 確定所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)是否包括成功的搜索;以及響應(yīng)于確定所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)不包括成功的搜索,從所述訓(xùn)練集中丟棄所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)。
5.根據(jù)權(quán)利要求4所述的方法,其中,確定所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)是否包括成功的搜索包括分析與所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)相關(guān)聯(lián)的至少一個(gè)鏈接特性。
6.一種用于提供域檢測(cè)訓(xùn)練的系統(tǒng),所述系統(tǒng)包括: 記憶儲(chǔ)存器;以及 耦合到所述記憶儲(chǔ)存器的處理單元,其中所述處理單元可操作來(lái): 識(shí)別與目標(biāo)域標(biāo)簽相關(guān)聯(lián)的多個(gè)查詢(xún)記錄數(shù)據(jù), 從所述多個(gè)查詢(xún)記錄數(shù)據(jù)中的每一個(gè)中提取搜索查詢(xún)、至少一個(gè)跟隨的鏈接以及至少一個(gè)鏈接特性, 根據(jù)所述至少一個(gè)鏈接特性來(lái)對(duì)所述多個(gè)查詢(xún)記錄數(shù)據(jù)的子集進(jìn)行取樣, 將所述目標(biāo)域標(biāo)簽分配給所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集中的每一個(gè),以及 將所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集提供給口語(yǔ)語(yǔ)言理解模型。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集被提供給所述口語(yǔ)語(yǔ)言理解模型作為貼標(biāo)簽的訓(xùn)練集。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集被提供給所述口語(yǔ)語(yǔ)言理解模型用于在半監(jiān)督的學(xué)習(xí)模式中使用。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述至少一個(gè)鏈接特性包括下列中的至少一個(gè):與所述至少一個(gè)跟隨的鏈接相關(guān)聯(lián)的查詢(xún)頻率、與所述搜索查詢(xún)相關(guān)聯(lián)的多個(gè)URL的多樣性的查詢(xún)熵測(cè)量以及所述搜索查詢(xún)的長(zhǎng)度。
10.一種存儲(chǔ)指令集的計(jì)算機(jī)可讀介質(zhì),當(dāng)所述指令集被執(zhí)行時(shí)其執(zhí)行用于提供域檢測(cè)訓(xùn)練的方法,由所述指令集所執(zhí)行的所述方法包括: 接收多個(gè)查詢(xún)記錄數(shù)據(jù),其中,所述查詢(xún)記錄數(shù)據(jù)中的每一個(gè)都包括與web搜索會(huì)話(huà)相關(guān)聯(lián)的搜索查詢(xún)、至少一個(gè)跟隨的鏈接以及至少一個(gè)鏈接特性; 根據(jù)與所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集中的每一個(gè)相關(guān)聯(lián)的所述至少一個(gè)鏈接特性來(lái)對(duì)所述多個(gè)查詢(xún)記錄數(shù)據(jù)的子集進(jìn)行取樣,其中,所述至少一個(gè)鏈接特性包括下列中的至少一個(gè):停延時(shí)間、查詢(xún)熵、查詢(xún)頻率以及所述搜索查詢(xún)的長(zhǎng)度,將所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集中的每一個(gè)分類(lèi)到域標(biāo)簽,其中將所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)分類(lèi)到所述域標(biāo)簽包括: 識(shí)別與所述多個(gè)鏈接數(shù)據(jù)中的所述至少一個(gè)相關(guān)聯(lián)的多個(gè)可能的域,其中,所述多個(gè)可能的域從由口語(yǔ)語(yǔ)言理解模型所使用的所有域中被選擇, 生成與所述多個(gè)可能的域中的每一個(gè)相關(guān)聯(lián)的、所述多個(gè)鏈接數(shù)據(jù)中的至少一個(gè)與所述域相關(guān)聯(lián)的概率,以及 根據(jù)所述多個(gè)可能的域之中的最高概率從所述多個(gè)可能的域中選擇針對(duì)所述多個(gè)可能的鏈接數(shù)據(jù)中的所述至少一個(gè)的分類(lèi)域; 將所述多個(gè)查詢(xún)記錄數(shù)據(jù)的所述子集提供給口語(yǔ)語(yǔ)言理解模型; 接收來(lái)自用戶(hù)的自然語(yǔ)言查詢(xún); 根據(jù)所述口語(yǔ)語(yǔ)言理解模型將查詢(xún)域分配給所述自然語(yǔ)言查詢(xún);以及 根據(jù)所分配的查詢(xún)域?qū)⒉閌詢(xún)響應(yīng)提供給所述用戶(hù)。
【文檔編號(hào)】G10L15/08GK103534696SQ201280023613
【公開(kāi)日】2014年1月22日 申請(qǐng)日期:2012年5月11日 優(yōu)先權(quán)日:2011年5月13日
【發(fā)明者】D.哈卡尼-圖爾, L.P.赫克, G.圖爾 申請(qǐng)人:微軟公司