亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

自動(dòng)地生成訓(xùn)練數(shù)據(jù)的制作方法

文檔序號(hào):6427471閱讀:239來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):自動(dòng)地生成訓(xùn)練數(shù)據(jù)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及搜索技術(shù),尤其涉及自動(dòng)生成訓(xùn)練數(shù)據(jù)。
背景技術(shù)
Web搜索已經(jīng)變得用于查找信息的普通技術(shù)。流行的搜索引擎允許用戶(hù)根據(jù)由用戶(hù)在由搜索引擎所提供的用戶(hù)界面(例如,在客戶(hù)端設(shè)備上顯示的搜索引擎網(wǎng)頁(yè))中輸入的搜索項(xiàng)來(lái)執(zhí)行廣泛的基于web的搜索。廣泛的搜索可以返回可包括來(lái)自各種域(其中, 域是指特定類(lèi)別的信息)的結(jié)果。在某些情況下,用戶(hù)可能希望搜索特定域所特定的信息。例如,用戶(hù)可以試圖執(zhí)行音樂(lè)搜索或執(zhí)行產(chǎn)品搜索。這樣的搜索(被稱(chēng)為“域特定搜索”)是其中當(dāng)執(zhí)行搜索時(shí)(例如,搜索特定歌曲或記錄歌星,搜索特定產(chǎn)品等等)用戶(hù)在心中具有對(duì)于來(lái)自特定域的信息的特定查詢(xún)意圖??梢酝ㄟ^(guò)垂直搜索服務(wù)來(lái)提供域特定搜索,垂直搜索服務(wù)可以是由通用搜索引擎所提供的,或者可替換地,由垂直搜索引擎所提供的服務(wù)。垂直搜索服務(wù)提供來(lái)自特定域的搜索結(jié)果,并通常不從不與特定域相關(guān)的域返回搜索結(jié)果。一種特殊類(lèi)型的垂直搜索服務(wù)的一個(gè)示例此處被稱(chēng)為即時(shí)應(yīng)答服務(wù)。即時(shí)應(yīng)答是指作為對(duì)在主要搜索結(jié)果網(wǎng)頁(yè)上向用戶(hù)提供的搜索查詢(xún)的應(yīng)答或響應(yīng)的搜索結(jié)果。即,響應(yīng)于查詢(xún),在搜索結(jié)果頁(yè)面向用戶(hù)呈現(xiàn)域特定內(nèi)容,而用戶(hù)可能需要以另外的方式選擇搜索結(jié)果網(wǎng)頁(yè)內(nèi)的鏈接以導(dǎo)航到另一個(gè)網(wǎng)頁(yè),此后,進(jìn)一步搜索所希望的信息。例如,假設(shè)用戶(hù)搜索查詢(xún)是“西雅圖的天氣”。搜索結(jié)果網(wǎng)頁(yè)內(nèi)的算法結(jié)果可包括到weather, com的URL。在這樣的情況下,用戶(hù)可以選擇URL,轉(zhuǎn)移到該網(wǎng)頁(yè),此后,輸入 kattle(西雅圖)以獲取西雅圖的天氣。通過(guò)比較,在搜索結(jié)果網(wǎng)頁(yè)上呈現(xiàn)的即時(shí)應(yīng)答包含西雅圖的天氣,以便用戶(hù)不需要導(dǎo)航到另一個(gè)網(wǎng)頁(yè)以查找天氣??梢岳斫?,即時(shí)應(yīng)答可以涉及任何主題,包括,例如,天氣、新聞、地區(qū)碼、貨幣兌換、詞典術(shù)語(yǔ)、百科全書(shū)條目、金融、 航班、健康、假日、日期、賓館、本地列表、數(shù)學(xué)、電影、音樂(lè)、購(gòu)物、體育、包裹跟蹤等等。即時(shí)應(yīng)答可以采取圖標(biāo)、按鈕、鏈接、文本、視頻、圖像、照片、音頻、其組合等等形式。查詢(xún)意圖分類(lèi)器可以被用來(lái)確定由搜索引擎接收到的查詢(xún)是否應(yīng)該觸發(fā)諸如,例如,即時(shí)應(yīng)答服務(wù)的垂直搜索服務(wù)。例如,詞典一定義意圖分類(lèi)器可以確定接收到的查詢(xún)是否可能與詞典一定義搜索相關(guān)聯(lián)。如果接收到的查詢(xún)被分類(lèi)為與詞典一定義搜索關(guān)聯(lián),那么,可以調(diào)用對(duì)應(yīng)的垂直搜索服務(wù)以標(biāo)識(shí)詞典一定義搜索域中的搜索結(jié)果(可包括,例如, 涉及詞典一定義搜索的網(wǎng)站)。在一個(gè)具體示例中,詞典一定義意圖分類(lèi)器可以將包含搜索階段“定義保真度(fidelity),,的查詢(xún)分類(lèi)為如詞典一定義意圖搜索那樣正的,因此,該查詢(xún)將觸發(fā)對(duì)包括“保真度(fidelity)”的單詞和詞組的詞典定義的垂直搜索。另一方面,詞典一定義意圖分類(lèi)器可能將包含搜索短語(yǔ)“Fidelity”(這是一家著名的金融機(jī)構(gòu)的名稱(chēng)) 的查詢(xún)分類(lèi)為對(duì)于詞典一定義意圖搜索是負(fù)的(或不是正的),因此,將不會(huì)觸發(fā)垂直搜索服務(wù)。由于“Fidelity”是一家著名的公司的名稱(chēng),“保真度(fidelity)”在搜索短語(yǔ)中的單獨(dú)存在不一定應(yīng)該觸發(fā)詞典一定義相關(guān)的域特定搜索或即時(shí)應(yīng)答。
查詢(xún)一意圖分類(lèi)器的開(kāi)發(fā)人員所面臨的挑戰(zhàn)是,典型的訓(xùn)練技術(shù)(用于訓(xùn)練查詢(xún)一意圖分類(lèi)器)必須配備有足夠的訓(xùn)練數(shù)據(jù)量。在某些情況下,查詢(xún)一意圖分類(lèi)器是使用被標(biāo)記為對(duì)于查詢(xún)意圖是正的或者負(fù)的的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練的,而在其他情況下,查詢(xún)一意圖分類(lèi)器只是使用被標(biāo)識(shí)為正的訓(xùn)練數(shù)據(jù)的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練的。用不夠的訓(xùn)練數(shù)據(jù)來(lái)構(gòu)建分類(lèi)器會(huì)導(dǎo)致不準(zhǔn)確的分類(lèi)器。傳統(tǒng)上,標(biāo)識(shí)給定查詢(xún)是否是特定域的一部分(諸如,例如,音樂(lè)、電影、職業(yè)、詞典定義等等)的機(jī)器一學(xué)習(xí)二元查詢(xún)分類(lèi)器,以及將一個(gè)查詢(xún)分段為幾個(gè)部分的集合的實(shí)體提取器,在大規(guī)模構(gòu)建方面是昂貴的,因?yàn)槊恳粋€(gè)都要求數(shù)以萬(wàn)計(jì)正的訓(xùn)練一查詢(xún)樣本。 這些樣本歷史上是由鑒定人標(biāo)記的,鑒定人通常每天只產(chǎn)生幾百個(gè)樣本,并導(dǎo)致大量的管理費(fèi)。

發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容是為了以簡(jiǎn)化的形式介紹將在以下具體實(shí)施方式
中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于確定所要求保護(hù)的主題的范圍。本發(fā)明的各實(shí)施方式促進(jìn)分類(lèi)器和實(shí)體提取器正的訓(xùn)練數(shù)據(jù)的自動(dòng)生成。通過(guò)實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的各方面,搜索服務(wù)可以大規(guī)模地生成正的域內(nèi)訓(xùn)練數(shù)據(jù),允許以足夠高的速率創(chuàng)建高質(zhì)量的分類(lèi)器以跟上搜索引擎,例如,連續(xù)地?cái)U(kuò)展為以跨多個(gè)域構(gòu)建豐富的體驗(yàn)的分類(lèi)器。此處所描述的方法可以完全自動(dòng)化,從而不需要手動(dòng)標(biāo)記初始查詢(xún) (或標(biāo)記任何類(lèi)型)。另外,此處所描述的算法可以有效地在任意數(shù)量的服務(wù)器、機(jī)器等等上運(yùn)行。在本發(fā)明的各實(shí)施方式的某些方面,分類(lèi)器是通過(guò)接收將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的統(tǒng)一資源定位符(URL)進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)來(lái)構(gòu)建的。選擇種子(例如,初始)URL的集合,并基于URL,標(biāo)識(shí)包括一個(gè)或多個(gè)子域的域。然后,檢查數(shù)據(jù)結(jié)構(gòu),以標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的具有匹配的子域的每一個(gè)URL。將與每一個(gè)標(biāo)識(shí)的URL相關(guān)聯(lián)的全部查詢(xún)添加到潛在的訓(xùn)練數(shù)據(jù)的集合中,從該集合中選擇滿(mǎn)足某一準(zhǔn)則的查詢(xún)。然后,使用所選查詢(xún)作為訓(xùn)練分類(lèi)器的訓(xùn)練數(shù)據(jù)。在本發(fā)明的各實(shí)施方式的某些方面,實(shí)體提取器是通過(guò)接收將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的統(tǒng)一資源定位符(URL)進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)來(lái)構(gòu)建的。選擇種子(例如,初始)URL的集合,基于URL,標(biāo)識(shí)包括一個(gè)或多個(gè)實(shí)體(并可包括排列、朝向等等)的實(shí)體模式。然后, 檢查數(shù)據(jù)結(jié)構(gòu),以標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的具有實(shí)體模式的每一個(gè)URL。將與每一個(gè)標(biāo)識(shí)的URL相關(guān)聯(lián)的全部查詢(xún)添加到潛在的訓(xùn)練數(shù)據(jù)的集合中,從該集合中選擇滿(mǎn)足某一準(zhǔn)則的查詢(xún)。 然后,使用所選查詢(xún)作為訓(xùn)練實(shí)體提取器的訓(xùn)練數(shù)據(jù)。對(duì)于上下文,假設(shè)某一 URL 模式(例如,www. contoso. com/music/artist/)被標(biāo)識(shí)為特定域的一部分(例如,音樂(lè)),那么,在某些實(shí)施方式中,可以假設(shè),帶有到該同一模式的URL的點(diǎn)擊的大多數(shù)查詢(xún)還具有對(duì)于同一個(gè)域的意圖(例如,{coldplay albums}導(dǎo)致在www. contoso. com/music/artist/coldplay/albums. jhtml 上的點(diǎn)擊,如此,{coldplay albums}可能是與音樂(lè)相關(guān)的)。此外,還以這樣的方式來(lái)構(gòu)建某些這樣的URL,以便可以從 URL本身中提取相關(guān)的實(shí)體名稱(chēng),這可以促進(jìn)將相同實(shí)體名稱(chēng)標(biāo)記為查詢(xún)的組件(在上面的相同URL示例中,跟隨"/artist/"后面的URL段是實(shí)際歌星名稱(chēng),“Coldplay”,然后, 可以使用該名稱(chēng)來(lái)標(biāo)記到示例查詢(xún)中的第一項(xiàng))。此處所描述的技術(shù)提供了用于從點(diǎn)擊數(shù)據(jù)生成大量的訓(xùn)練查詢(xún)的可縮放的解決方案。例如,大型搜索引擎可以具有點(diǎn)擊圖,該點(diǎn)擊圖包含,例如,與從比方說(shuō)2009年6月到當(dāng)前的每一個(gè)查詢(xún)相關(guān)聯(lián)的由每個(gè)用戶(hù)所發(fā)出的每個(gè)查詢(xún),以及每個(gè)用戶(hù)對(duì)每個(gè)URL的點(diǎn)擊。一旦標(biāo)識(shí)了幾個(gè)URL模式,可以將它們自動(dòng)地針對(duì)點(diǎn)擊圖運(yùn)行,并應(yīng)用某一閾值。此過(guò)程的輸出是正的查詢(xún)樣本的足夠大的集合,用于現(xiàn)有的機(jī)器學(xué)習(xí)算法中,以創(chuàng)建二進(jìn)制分類(lèi)器和實(shí)體提取器分類(lèi)器模型。這些模型可以在運(yùn)行時(shí)被托管,并可以被用來(lái)分類(lèi)和分段用戶(hù)查詢(xún)。將被視為具有對(duì)于某一域(例如,音樂(lè))的意圖的那些查詢(xún)分段為它們的構(gòu)成部分,并饋送給域的即時(shí)應(yīng)答服務(wù),以便檢索域內(nèi)的內(nèi)容(例如,一個(gè)歌星的最流行的歌曲,包括歌詞、歌曲播放鏈接、等等)。從下面的描述、附圖、以及從權(quán)利要求書(shū),其他或替換的特征將變得顯而易見(jiàn)。


下面將參考附圖詳細(xì)描述本發(fā)明的各實(shí)施方式,在附圖中圖1是適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性計(jì)算設(shè)備的框圖;圖2是適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性網(wǎng)絡(luò)環(huán)境的框圖;圖3描繪了根據(jù)本發(fā)明的各實(shí)施方式的點(diǎn)擊圖的說(shuō)明性顯示;圖4是示出了根據(jù)本發(fā)明的各實(shí)施方式的增強(qiáng)即時(shí)應(yīng)答服務(wù)的示例性方法的流程圖;圖5是示出了根據(jù)本發(fā)明的各實(shí)施方式的使用分類(lèi)器和實(shí)體提取器來(lái)觸發(fā)即時(shí)應(yīng)答服務(wù)的示例性方法的流程圖;圖6是示出了根據(jù)本發(fā)明的各實(shí)施方式的相對(duì)于內(nèi)容域來(lái)標(biāo)識(shí)點(diǎn)擊數(shù)據(jù)中的查詢(xún)和統(tǒng)一資源定位符(URL)之間的正關(guān)聯(lián)的示例性方法的流程圖;圖7是示出了根據(jù)本發(fā)明的各實(shí)施方式的生成正的分類(lèi)器訓(xùn)練數(shù)據(jù)的示例性方法的流程圖;以及圖8是示出了根據(jù)本發(fā)明的各實(shí)施方式的從數(shù)據(jù)結(jié)構(gòu)生成實(shí)體一提取器訓(xùn)練數(shù)據(jù)的示例性方法的流程圖。
具體實(shí)施例方式此處用具體細(xì)節(jié)描述此處所公開(kāi)的本發(fā)明的各實(shí)施方式的主題以滿(mǎn)足法定要求。 然而,描述本身并不旨在限制本專(zhuān)利的范圍。相反,發(fā)明人設(shè)想,所要求保護(hù)的主題還可結(jié)合其他當(dāng)前或未來(lái)技術(shù)按照其他方式來(lái)具體化,以包括不同的步驟或類(lèi)似于本文中所描述的步驟的步驟組合。此外,雖然此處可以使用術(shù)語(yǔ)“步驟”和/或“框”來(lái)指示所使用的方法的不同元素,但是除非而且僅當(dāng)明確描述了各個(gè)步驟的順序時(shí),這些術(shù)語(yǔ)不應(yīng)該被解釋為意味著此處所公開(kāi)的各步驟之間的任何特定順序。此處所描述的本發(fā)明的各實(shí)施方式包括計(jì)算設(shè)備和計(jì)算機(jī)程序產(chǎn)品(例如,包括軟件的產(chǎn)品),用于促進(jìn)自動(dòng)生成訓(xùn)練數(shù)據(jù),用于訓(xùn)練查詢(xún)一意圖分類(lèi)器和實(shí)體提取器。在第一說(shuō)明性實(shí)施方式中,計(jì)算機(jī)可執(zhí)行指令集合提供相對(duì)于內(nèi)容域標(biāo)識(shí)點(diǎn)擊數(shù)據(jù)中的查詢(xún)和統(tǒng)一資源定位符(URL)之間的正關(guān)聯(lián)的示例性方法。在各實(shí)施方式中,說(shuō)明性方法的各方面包括接收將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),并標(biāo)識(shí)與內(nèi)容域相關(guān)聯(lián)的第一 URL模式。在各實(shí)施方式中,說(shuō)明性方法的各方面還包括確定點(diǎn)擊圖中的第一 URL的至少一部分與第一 URL模式相匹配,以及標(biāo)識(shí)與第一 URL相關(guān)聯(lián)的第一查詢(xún)。該方法的各實(shí)施方式包括確定第一查詢(xún)和第一 URL相對(duì)于內(nèi)容域具有正關(guān)聯(lián)。在第二說(shuō)明性實(shí)施方式中,計(jì)算機(jī)可執(zhí)行指令集合提供生成正的分類(lèi)器訓(xùn)練數(shù)據(jù)的示例性方法。該方法的各實(shí)施方式包括,例如,接收將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。標(biāo)識(shí)包括URL域的URL模式,還標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的匹配的URL以及它們的對(duì)應(yīng)的查詢(xún)。說(shuō)明性方法的各實(shí)施方式還包括,將與匹配的URL相連接的每一個(gè)查詢(xún)添加到潛在訓(xùn)練查詢(xún)的集合中;以及從潛在訓(xùn)練查詢(xún)的集合中選擇訓(xùn)練查詢(xún)的集合。在第三說(shuō)明性實(shí)施方式中,計(jì)算機(jī)可執(zhí)行指令集合提供用于從存儲(chǔ)了點(diǎn)擊數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)生成實(shí)體一提取器訓(xùn)練數(shù)據(jù),其中,該數(shù)據(jù)結(jié)構(gòu)包括捕捉到的搜索查詢(xún)和對(duì)應(yīng)于選定的查詢(xún)結(jié)果的統(tǒng)一資源定位符(URL)之間的關(guān)聯(lián)。說(shuō)明性方法的各實(shí)施方式包括選定種子URL,并從該種子URL提取第一實(shí)體模式,該第一實(shí)體模式包括第一實(shí)體?;谒崛〉膶?shí)體模式,標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的匹配的URL。在各實(shí)施方式中,說(shuō)明性方法的各方面包括將與匹配的URL相連接的每一個(gè)查詢(xún)添加到潛在訓(xùn)練查詢(xún)的集合中;以及從潛在訓(xùn)練查詢(xún)的集合中選擇訓(xùn)練查詢(xún)的集合。本發(fā)明的各實(shí)施方式的各個(gè)方面可以在包括計(jì)算機(jī)代碼或機(jī)器可使用指令(包括由計(jì)算機(jī)或諸如個(gè)人數(shù)據(jù)助理或其他手持式設(shè)備之類(lèi)的其他機(jī)器執(zhí)行的諸如程序模塊之類(lèi)的計(jì)算機(jī)可執(zhí)行指令)的計(jì)算機(jī)程序產(chǎn)品的一般上下文中來(lái)描述。一般而言,包括例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等的程序模塊是指執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類(lèi)型的代碼。本發(fā)明的各實(shí)施方式可以在各種系統(tǒng)配置中實(shí)施,包括專(zhuān)用服務(wù)器、通用計(jì)算機(jī)、膝上型計(jì)算機(jī)、更專(zhuān)用計(jì)算設(shè)備等等。本發(fā)明也可以在其中任務(wù)由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的分布式計(jì)算環(huán)境中實(shí)施。計(jì)算機(jī)可讀介質(zhì)包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì),并設(shè)想可由數(shù)據(jù)庫(kù)、處理器以及各種其他聯(lián)網(wǎng)的計(jì)算設(shè)備讀取的介質(zhì)。作為示例而非限制,計(jì)算機(jī)可讀介質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)的用于存儲(chǔ)信息的介質(zhì)。存儲(chǔ)的信息的示例包括計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊,及其他數(shù)據(jù)表示形式。介質(zhì)示例包括,但不僅限于, 信息傳送介質(zhì)、RAM、ROM、EEPR0M、閃存或其他存儲(chǔ)技術(shù),CD-ROM、數(shù)字多功能盤(pán)(DVD)、全息介質(zhì)或其他光盤(pán)存儲(chǔ)、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)器,及其他磁存儲(chǔ)設(shè)備。這些技術(shù)可以臨時(shí)或永久地存儲(chǔ)數(shù)據(jù)。下面將描述其中可以實(shí)現(xiàn)本發(fā)明的各個(gè)方面的示例性操作環(huán)境,以便為本發(fā)明的各個(gè)方面提供一般上下文。首先具體參考圖1,示出了用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性操作環(huán)境,并將其概括地指定為計(jì)算設(shè)備100。計(jì)算設(shè)備100只是合適的計(jì)算環(huán)境的一個(gè)示例,而非旨在對(duì)本發(fā)明的使用范圍或功能提出任何限制。計(jì)算設(shè)備100也不應(yīng)被解釋成對(duì)于所示出的任一組件或其組合有任何依賴(lài)或要求。計(jì)算設(shè)備100包括直接地或間接地耦合下面的設(shè)備的總線110 存儲(chǔ)器112、一個(gè)或多個(gè)處理器114、一個(gè)或多個(gè)呈現(xiàn)組件116、輸入/輸出端口 118、I/O組件120以及說(shuō)明性電源122。總線110表示一個(gè)或多個(gè)總線(諸如地址總線、數(shù)據(jù)總線或其組合)。雖然為了清楚起見(jiàn)利用線條示出了圖1的各塊,但是,實(shí)際上,描述各種組件不如此清楚,只是個(gè)比喻,更準(zhǔn)確地,線條將是灰色而模糊的。例如,可以將諸如顯示設(shè)備之類(lèi)的呈現(xiàn)組件視為 I/O組件。同樣,處理器具有存儲(chǔ)器。我們認(rèn)識(shí)到這是本領(lǐng)域的特性,并重申,圖1的圖示只是例示可以結(jié)合本發(fā)明的一個(gè)或多個(gè)實(shí)施例來(lái)使用的示例性計(jì)算設(shè)備。在諸如“工作站”、 “服務(wù)器”、“膝上型計(jì)算機(jī)”、“手持式設(shè)備”等等之類(lèi)的類(lèi)別之間不進(jìn)行區(qū)別,因?yàn)樗羞@些都在圖1的范圍內(nèi)并都被稱(chēng)作“計(jì)算設(shè)備”。存儲(chǔ)器112包括存儲(chǔ)在易失性和/或非易失性存儲(chǔ)器中的計(jì)算機(jī)可執(zhí)行指令115。 存儲(chǔ)器可以是可移動(dòng)的,不可移動(dòng)的,或兩者的組合。示例性硬件設(shè)備包括固態(tài)存儲(chǔ)器、硬盤(pán)驅(qū)動(dòng)器、光盤(pán)驅(qū)動(dòng)器等等。計(jì)算設(shè)備100包括與從諸如存儲(chǔ)器112或I/O組件120之類(lèi)的各種實(shí)體讀取數(shù)據(jù)的系統(tǒng)總線110耦合的一個(gè)或多個(gè)處理器114。在一個(gè)實(shí)施方式中,一個(gè)或多個(gè)處理器114執(zhí)行計(jì)算機(jī)可執(zhí)行指令115,以執(zhí)行由計(jì)算機(jī)可執(zhí)行指令115所定義的各種任務(wù)和方法。呈現(xiàn)組件116耦合到系統(tǒng)總線110并向用戶(hù)或其他設(shè)備呈現(xiàn)數(shù)據(jù)指示。 示例性呈現(xiàn)組件116包括顯示設(shè)備、揚(yáng)聲器、打印組件等等。I/O端口 118可允許計(jì)算設(shè)備100在邏輯上耦合到包括I/O組件120在內(nèi)的其他設(shè)備,其中一些可以是內(nèi)置的。說(shuō)明性組件包括麥克風(fēng)、游戲桿、游戲操縱桿、碟形衛(wèi)星天線、掃描儀、打印機(jī)、無(wú)線設(shè)備、鍵盤(pán)、筆、語(yǔ)音輸人設(shè)備、觸摸輸人設(shè)備、觸摸屏設(shè)備、交互式顯示設(shè)備,或鼠標(biāo)。I/O組件120還可以包括通信連接121,這些通信連接121可以促進(jìn)可通信地將計(jì)算設(shè)備100連接到諸如,例如,其他計(jì)算設(shè)備、服務(wù)器、路由器等等之類(lèi)的遠(yuǎn)程設(shè)備。根據(jù)一些實(shí)施方式,自動(dòng)地生成用于訓(xùn)練查詢(xún)一意圖分類(lèi)器的訓(xùn)練數(shù)據(jù)的技術(shù)或機(jī)制包括接收將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的URL進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu),并基于該數(shù)據(jù)結(jié)構(gòu),產(chǎn)生用于訓(xùn)練查詢(xún)一意圖分類(lèi)器的訓(xùn)練數(shù)據(jù)。查詢(xún)一意圖分類(lèi)器是用于將查詢(xún)指定到表示對(duì)應(yīng)的查詢(xún)是否與用戶(hù)從特定域搜索信息的特定意圖(例如,對(duì)單詞的定義執(zhí)行搜索的意圖,對(duì)特定產(chǎn)品執(zhí)行搜索的意圖,搜索音樂(lè)的意圖,搜索電影的意圖等等)相關(guān)聯(lián)的類(lèi)的分類(lèi)器。這樣的類(lèi)被稱(chēng)為“查詢(xún)一意圖類(lèi)”?!坝颉?或者,可另選地,“查詢(xún)一意圖域”)是指用戶(hù)希望在其中進(jìn)行搜索的特定類(lèi)別的信息。相比之下,如此處所使用的,“URL域”和“URL子域”分別是指因特網(wǎng)域和子域,一般是由URL的一部分所定義的。應(yīng)該理解,在某些情況下,URL域和URL子域也可以被表征為查詢(xún)一意圖域(或者甚至多個(gè)域)的子域,如果查詢(xún)一意圖是特定URL域(諸如,例如, 流行的零售網(wǎng)站域)所特定的。術(shù)語(yǔ)“查詢(xún)”是指任何類(lèi)型的請(qǐng)求,其中,包含一個(gè)或多個(gè)搜索項(xiàng),這些搜索項(xiàng)可以被提交到一個(gè)用于基于查詢(xún)中所包含的搜索項(xiàng)來(lái)標(biāo)識(shí)搜索結(jié)果的搜索引擎(或多個(gè)搜索引擎)。由數(shù)據(jù)結(jié)構(gòu)中的查詢(xún)所標(biāo)識(shí)的“項(xiàng)”是響應(yīng)于查詢(xún)所產(chǎn)生的搜索結(jié)果的表示。例如,項(xiàng)可以是統(tǒng)一資源定位符(URL)或其他信息,它們標(biāo)識(shí)包含搜索結(jié)果(例如,網(wǎng)頁(yè))的地址或位置(例如,網(wǎng)站)的其他標(biāo)識(shí)符。在一個(gè)實(shí)施方式中,將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的項(xiàng)進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)可以是點(diǎn)擊圖,該點(diǎn)擊圖基于點(diǎn)進(jìn)數(shù)據(jù)來(lái)將查詢(xún)與URL進(jìn)行關(guān)聯(lián)?!包c(diǎn)進(jìn)數(shù)據(jù)”(或更簡(jiǎn)單地,“點(diǎn)擊數(shù)據(jù)”)是指表示由一個(gè)或多個(gè)用戶(hù)在由一個(gè)或多個(gè)查詢(xún)所標(biāo)識(shí)的搜索結(jié)果中作出的選擇的數(shù)據(jù)。點(diǎn)擊圖包含從表示查詢(xún)的節(jié)點(diǎn)到表示URL的節(jié)點(diǎn)的鏈接(邊緣),其中,特定查詢(xún)和特定URL之間的每一個(gè)鏈接表示用戶(hù)作出選擇(例如,在web瀏覽器中點(diǎn)擊)以從由特定查詢(xún)所標(biāo)識(shí)的搜索結(jié)果導(dǎo)航到特定URL的至少一次發(fā)生。點(diǎn)擊圖也可以包括不鏈接的某些查詢(xún)和URL,意味著,在這樣的查詢(xún)和URL之間關(guān)聯(lián)沒(méi)有被標(biāo)識(shí)。在隨后的討論中,將參考點(diǎn)擊圖,點(diǎn)擊圖包含查詢(xún)和URL的表示,至少一些查詢(xún)和 URL是(通過(guò)鏈接連接)相關(guān)聯(lián)的。然而,值得注意的是,可以對(duì)于除點(diǎn)擊圖以外的其他類(lèi)型的數(shù)據(jù)結(jié)構(gòu)應(yīng)用相同或類(lèi)似的技術(shù)。在各實(shí)施方式中,將查詢(xún)與URL進(jìn)行關(guān)聯(lián)的點(diǎn)擊圖首先包括相對(duì)于查詢(xún)意圖類(lèi)未被(諸如由一個(gè)或多個(gè)人)標(biāo)記的大量的查詢(xún)。在某些實(shí)施方式中,點(diǎn)擊圖包括某些被標(biāo)記的查詢(xún)。一般而言,查詢(xún)意圖類(lèi)可以是二進(jìn)制類(lèi),包括相對(duì)于特定查詢(xún)意圖的正的類(lèi)和負(fù)的類(lèi)。用“正的類(lèi)”標(biāo)記的查詢(xún)表示查詢(xún)相對(duì)于特定查詢(xún)意圖是正的,而用“負(fù)的類(lèi)”標(biāo)記的查詢(xún)意味著,查詢(xún)相對(duì)于查詢(xún)意圖是負(fù)的。除相對(duì)于查詢(xún)意圖類(lèi)被標(biāo)記的查詢(xún)之外,點(diǎn)擊圖首先還可以包含相對(duì)于查詢(xún)意圖類(lèi)未被標(biāo)記的相對(duì)大量的查詢(xún)。未作標(biāo)記的查詢(xún)是那些未被指定到查詢(xún)意圖類(lèi)中的任何一個(gè)的查詢(xún)?,F(xiàn)在轉(zhuǎn)向圖2,示出了適用于實(shí)現(xiàn)本發(fā)明的各實(shí)施方式的示例性網(wǎng)絡(luò)環(huán)境200的框圖。網(wǎng)絡(luò)環(huán)境200包括用戶(hù)設(shè)備210、網(wǎng)絡(luò)212、搜索服務(wù)214、索引216,以及即時(shí)應(yīng)答服務(wù)218。用戶(hù)設(shè)備210通過(guò)網(wǎng)絡(luò)212與搜索服務(wù)214和即時(shí)應(yīng)答服務(wù)218進(jìn)行通信,網(wǎng)絡(luò) 212可包括諸如,例如,局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、因特網(wǎng)、蜂窩網(wǎng)絡(luò)、對(duì)等(P2P)網(wǎng)絡(luò)、移動(dòng)網(wǎng)絡(luò)之類(lèi)的任意數(shù)量的網(wǎng)絡(luò),或網(wǎng)絡(luò)的組合。圖2所示出的示例性網(wǎng)絡(luò)環(huán)境200是一種合適的網(wǎng)絡(luò)環(huán)境200的示例,而非旨在對(duì)在本文檔中所公開(kāi)的本發(fā)明的各實(shí)施方式的使用范圍或功能提出任何限制。該示例性網(wǎng)絡(luò)環(huán)境200也不應(yīng)被解釋成對(duì)于此處所示出的任一組件或其組合有任何依賴(lài)或要求。用戶(hù)設(shè)備210可以是能夠允許用戶(hù)向搜索服務(wù)214提交搜索查詢(xún)的任何類(lèi)型的計(jì)算設(shè)備,并響應(yīng)于搜索查詢(xún),從搜索服務(wù)214接收搜索結(jié)果網(wǎng)頁(yè)。例如,在一個(gè)實(shí)施方式中, 用戶(hù)設(shè)備210可以是諸如計(jì)算設(shè)備100之類(lèi)的計(jì)算設(shè)備。在各實(shí)施方式中,用戶(hù)設(shè)備210 可以是個(gè)人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、工作站、移動(dòng)計(jì)算設(shè)備、PDA、蜂窩電話(huà)等等。搜索服務(wù)214,以及圖2中所示出的其他組件216、218中的任何或全部可以被實(shí)現(xiàn)為服務(wù)器系統(tǒng)、程序模塊、虛擬機(jī)、一個(gè)服務(wù)器或多個(gè)服務(wù)器、網(wǎng)絡(luò)的組件、等等。在一個(gè)實(shí)施方式中,例如,組件214、216,以及218中的都被實(shí)現(xiàn)為單獨(dú)的服務(wù)器。在另一個(gè)實(shí)施方式中,組件214、216,以及218中的全部都在在單一服務(wù)器上或一排服務(wù)器上實(shí)現(xiàn)。在一個(gè)實(shí)施方式中,用戶(hù)設(shè)備210是單獨(dú)的,并不同于圖2中所示出的搜索服務(wù) 214和/或其他組件。在另一個(gè)實(shí)施方式中,用戶(hù)設(shè)備210與組件214、216,以及218中的一個(gè)或多個(gè)集成。為清楚起見(jiàn),我們應(yīng)該描述其中用戶(hù)設(shè)備210,以及組件214、216,以及218 中的每一個(gè)都是單獨(dú)的,盡管可以理解,這可能不是本發(fā)明構(gòu)想的各種配置中的情況。如圖2所示,用戶(hù)設(shè)備210與搜索服務(wù)214進(jìn)行通信。搜索服務(wù)214接收搜索查詢(xún),即,由用戶(hù)經(jīng)由用戶(hù)設(shè)備210提交的搜索請(qǐng)求。從用戶(hù)接收到的搜索查詢(xún)可包括由用戶(hù)手動(dòng)地或口頭地輸入的搜索查詢(xún),向用戶(hù)建議并由用戶(hù)選定的查詢(xún),以及由搜索服務(wù)214 接收到的由于某種原因被用戶(hù)批準(zhǔn)的任何其他搜索查詢(xún)。搜索服務(wù)214可以是,或包括,例如,搜索引擎、爬行器等等,并可以與索引216進(jìn)行交互,以執(zhí)行搜索。在某些實(shí)施方式中, 搜索服務(wù)214被配置成使用通過(guò)用戶(hù)設(shè)備210提交的查詢(xún)來(lái)執(zhí)行搜索。
在各實(shí)施方式中,搜索服務(wù)214可以提供一個(gè)用戶(hù)界面,用于促進(jìn)與用戶(hù)設(shè)備210 進(jìn)行通信的用戶(hù)的搜索體驗(yàn)。在一個(gè)實(shí)施方式中,搜索服務(wù)214監(jiān)視搜索活動(dòng),并可以產(chǎn)生表示搜索活動(dòng)、先前提交的查詢(xún)、獲取的搜索結(jié)果等等的一個(gè)或多個(gè)記錄或日志??梢砸栽S多不同的方式來(lái)利用這些服務(wù)來(lái)改進(jìn)搜索體驗(yàn)。如在圖2中進(jìn)一步示出的,搜索服務(wù)214 與即時(shí)應(yīng)答服務(wù)218進(jìn)行通信。在各實(shí)施方式中,即時(shí)應(yīng)答服務(wù)218可以是任何類(lèi)型的垂直一搜索服務(wù),包括,但不僅限于,響應(yīng)于查詢(xún)來(lái)提供即時(shí)應(yīng)答的服務(wù)。如圖2所示,搜索服務(wù)214包括搜索組件220、日志組件222、點(diǎn)擊日志224、訓(xùn)練數(shù)據(jù)生成器226、圖生成器228、點(diǎn)擊圖230,以及模型生成器232。圖2所示出的示例性搜索服務(wù)214是一種配置的示例,而非旨在對(duì)在本文檔中所公開(kāi)的本發(fā)明的各實(shí)施方式的使用范圍或功能提出任何限制。該示例性搜索服務(wù)214也不應(yīng)被解釋成對(duì)于此處所示出的任一組件或其組合有任何依賴(lài)或要求。搜索組件220被配置成接收已提交的查詢(xún),并使用該查詢(xún)來(lái)執(zhí)行搜索。在一個(gè)實(shí)施方式中,在發(fā)現(xiàn)滿(mǎn)足提交的查詢(xún)的查詢(xún)結(jié)果時(shí),搜索組件220通過(guò)由搜索服務(wù)214維護(hù)的圖形界面,向用戶(hù)設(shè)備210返回查詢(xún)結(jié)果。查詢(xún)結(jié)果可包括任何類(lèi)型的內(nèi)容,諸如,文檔、文件的列表,滿(mǎn)足提交的查詢(xún)的內(nèi)容的其他情況。在另一個(gè)實(shí)施方式中,查詢(xún)結(jié)果包括滿(mǎn)足提交的查詢(xún)的實(shí)際內(nèi)容。在更進(jìn)一步的實(shí)施方式中,查詢(xún)結(jié)果包括到內(nèi)容的鏈接,對(duì)于未來(lái)查詢(xún)的建議等等。在一個(gè)實(shí)施方式中,如果提交的查詢(xún)不產(chǎn)生任何結(jié)果,則搜索組件220將消息傳遞到用戶(hù)設(shè)備210。消息通知用戶(hù)設(shè)備210,提交的查詢(xún)沒(méi)有產(chǎn)生任何結(jié)果。在一個(gè)實(shí)施方式中,在標(biāo)識(shí)滿(mǎn)足搜索查詢(xún)的搜索結(jié)果時(shí),搜索組件220通過(guò)諸如搜索結(jié)果頁(yè)面之類(lèi)的圖形界面,向用戶(hù)設(shè)備210返回搜索結(jié)果集合。搜索結(jié)果集合包括被視為與用戶(hù)定義的搜索查詢(xún)有關(guān)的內(nèi)容或內(nèi)容站點(diǎn)(例如,包含內(nèi)容的網(wǎng)頁(yè)、數(shù)據(jù)庫(kù)等等) 的表示。例如,可以以?xún)?nèi)容鏈接、片斷、縮略圖、概要、即時(shí)應(yīng)答等等,來(lái)呈現(xiàn)搜索結(jié)果。內(nèi)容鏈接是指對(duì)應(yīng)于相關(guān)聯(lián)的內(nèi)容的地址的內(nèi)容或內(nèi)容站點(diǎn)的可選擇的表示。例如,內(nèi)容鏈接可以是對(duì)應(yīng)于統(tǒng)一資源定位符(URL)、IP地址或其他類(lèi)型的地址的可選擇的表示。如此,對(duì)內(nèi)容鏈接的選擇可以導(dǎo)致將用戶(hù)的瀏覽器重定向到對(duì)應(yīng)的地址,從而用戶(hù)可以訪問(wèn)相關(guān)聯(lián)的內(nèi)容。一個(gè)通常使用的內(nèi)容鏈接的示例是超鏈接。日志組件222捕捉在用戶(hù)的與搜索服務(wù)214的交互過(guò)程中生成的點(diǎn)擊數(shù)據(jù)。在各實(shí)施方式中,日志組件222將捕捉到的點(diǎn)擊數(shù)據(jù)存儲(chǔ)在日志224中。日志2 可以是,或包括存儲(chǔ)模塊(例如,數(shù)據(jù)庫(kù)、索引、表或其他存儲(chǔ)器),歷史管理器等等。日志2M維護(hù)與用戶(hù)搜索行為相關(guān)聯(lián)的點(diǎn)擊數(shù)據(jù)。如此處所使用的,“點(diǎn)擊數(shù)據(jù)”是指反映用戶(hù)相對(duì)于搜索服務(wù)214的活動(dòng)的信息,并可包括從由用戶(hù)所發(fā)出的搜索查詢(xún)捕捉到的數(shù)據(jù),響應(yīng)于搜索查詢(xún)向用戶(hù)提供的搜索結(jié)果,用戶(hù)選定(例如,“點(diǎn)擊”)了搜索結(jié)果或其他內(nèi)容鏈接的指示, 與內(nèi)容鏈接相關(guān)聯(lián)的URL、停留時(shí)間(表示在返回到搜索引擎或查看搜索結(jié)果網(wǎng)頁(yè)之前用戶(hù)在特定內(nèi)容站點(diǎn)花費(fèi)的時(shí)間量),以及可以通過(guò)跟蹤用戶(hù)的輸入來(lái)監(jiān)視和記錄的任何其他類(lèi)型的活動(dòng)。訓(xùn)練數(shù)據(jù)生成器226自動(dòng)地生成用于訓(xùn)練分類(lèi)器234和/或?qū)嶓w提取器236的正的訓(xùn)練數(shù)據(jù)。通過(guò)使用訓(xùn)練數(shù)據(jù)生成器,標(biāo)識(shí)URL模式和實(shí)體。訓(xùn)練數(shù)據(jù)生成器2 標(biāo)識(shí)點(diǎn)擊圖230的每一個(gè)節(jié)點(diǎn),點(diǎn)擊圖230是由圖生成器2 從點(diǎn)擊日志2 生成的,其對(duì)應(yīng)于匹配模式和/或包括實(shí)體的URL。將與每一個(gè)匹配節(jié)點(diǎn)相關(guān)聯(lián)的查詢(xún)添加到潛在的訓(xùn)練數(shù)據(jù)的集合中??梢詮臐撛诘挠?xùn)練數(shù)據(jù)中選擇訓(xùn)練數(shù)據(jù),并將其用于訓(xùn)練分類(lèi)器234和/或?qū)嶓w提取器236。暫時(shí)轉(zhuǎn)到圖3,描繪了點(diǎn)擊圖300的一個(gè)示例。圖3的點(diǎn)擊圖300僅僅是與全部都對(duì)應(yīng)于共同的查詢(xún)一意圖域的URL相關(guān)聯(lián)的點(diǎn)擊圖的一部分的代表。圖3所示出的示例性點(diǎn)擊圖300是一種合適的數(shù)據(jù)結(jié)構(gòu)的示例,而非旨在對(duì)在本文檔中所公開(kāi)的本發(fā)明的各實(shí)施方式的使用范圍或功能提出任何限制。該示例性點(diǎn)擊圖300也不應(yīng)被解釋成對(duì)于此處所示出的任一組件或其組合有任何依賴(lài)或要求。如圖3所示,示例性點(diǎn)擊圖300在左邊具有許多查詢(xún)節(jié)點(diǎn)302,在右邊具有許多 URL節(jié)點(diǎn)304。在圖3中沒(méi)有描繪對(duì)節(jié)點(diǎn)302和304的標(biāo)記,因?yàn)闃?biāo)記節(jié)點(diǎn)不一定與當(dāng)前討論有密切關(guān)系。鏈接(或邊緣)306連接某一對(duì)查詢(xún)節(jié)點(diǎn)302和URL節(jié)點(diǎn)304。注意,并非所有的查詢(xún)節(jié)點(diǎn)302或URL節(jié)點(diǎn)304都是鏈接的。例如,對(duì)應(yīng)于搜索短語(yǔ)“what is prudence" 的查詢(xún)節(jié)點(diǎn) 302 僅僅鏈接到 URL 節(jié)點(diǎn)“dictionary, referencebook. com/browse/ “ 和〃 ourfreedictionary.com",而不鏈接到點(diǎn)擊圖300中的其他URL節(jié)點(diǎn)。這意味著,響應(yīng)于包含搜索短語(yǔ)“what is prudence”的搜索查詢(xún)的搜索結(jié)果,用戶(hù)在搜索結(jié)果中作出導(dǎo)航至丨J URL “ dictionary, referencebook. com/browse/ “禾口 “ ourfreedictionary. com/ “ 的選擇,并不進(jìn)行導(dǎo)航到圖3中所描繪的其他URL的選擇(或者,其他URL不表現(xiàn)為響應(yīng)于包含搜索短語(yǔ)"what is prudence”的查詢(xún)的搜索結(jié)果)。類(lèi)似地,對(duì)應(yīng)于搜索項(xiàng)“fidelity”的查詢(xún)節(jié)點(diǎn)302不連接到圖3中所描繪的URL 節(jié)點(diǎn)304中的任何一個(gè),例如,因?yàn)榕c對(duì)應(yīng)于查詢(xún)節(jié)點(diǎn)302的查詢(xún)相關(guān)聯(lián)的占優(yōu)勢(shì)的意圖是與名為Fidelity的著名的公司相關(guān)聯(lián)的網(wǎng)站。如此處所使用的,“占優(yōu)勢(shì)的意圖”是指比與特定查詢(xún)相關(guān)聯(lián)的任何其他可能的查詢(xún)意圖具有更高的對(duì)應(yīng)于用戶(hù)的實(shí)際意圖的概率的可能的查詢(xún)意圖。此外,在各實(shí)施方式中,圖3中的每一個(gè)鏈接306與邊緣權(quán)重308(此處可互換地簡(jiǎn)稱(chēng)為“權(quán)重”,在圖3中在概念上通過(guò)所描繪的各種線條樣式來(lái)表示)相關(guān)聯(lián), 在一個(gè)示例中,邊緣權(quán)重308可以是特定的查詢(xún)節(jié)點(diǎn)和URL節(jié)點(diǎn)對(duì)之間作出的點(diǎn)擊的統(tǒng)計(jì) (或基于該統(tǒng)計(jì)的某種其他值)。在其他實(shí)施方式中,也可以使用其他權(quán)重定義,如由特定用戶(hù)作出的點(diǎn)擊的統(tǒng)計(jì)等等。通過(guò)使用根據(jù)某些實(shí)施方式的技術(shù),可以檢查點(diǎn)擊圖300中的查詢(xún)的相對(duì)大的部分(或者甚至全部)以標(biāo)識(shí)潛在的訓(xùn)練數(shù)據(jù)。在圖3的示例中,點(diǎn)擊圖300是二分圖,其包含表示查詢(xún)的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn),邊緣(鏈接)連接相關(guān)聯(lián)的查詢(xún)節(jié)點(diǎn)和URL節(jié)點(diǎn)。在其他實(shí)施方式中,也可以使用用于基于點(diǎn)擊數(shù)據(jù)將查詢(xún)與URL相關(guān)聯(lián)的其他類(lèi)型的數(shù)據(jù)結(jié)構(gòu)。另外,點(diǎn)擊圖300示出了表示對(duì)應(yīng)的單個(gè)URL的URL節(jié)點(diǎn)。注意,在替換實(shí)施方式中,并非每一個(gè)URL節(jié)點(diǎn)都表示單個(gè)URL,節(jié)點(diǎn)304可以表示基于某些相似度度量聚集在一起的URL的集群。構(gòu)建點(diǎn)擊圖的一種方式是基于收集的點(diǎn)擊數(shù)據(jù)來(lái)簡(jiǎn)單地構(gòu)成相對(duì)大的點(diǎn)擊圖。在某些情況下,特別是使用已知的方法,這會(huì)是效率低下的。如此,為更好地使用已知的方法, 常常使用更加有效的構(gòu)建點(diǎn)擊圖的方式,該方式包括,構(gòu)建緊湊的點(diǎn)擊圖,然后反復(fù)展開(kāi)點(diǎn)擊圖,直到點(diǎn)擊圖到達(dá)目標(biāo)大小。然而,本發(fā)明的各實(shí)施方式允許使用較大的點(diǎn)擊圖,免除了生成緊湊的點(diǎn)擊圖的必要性。例如,在一個(gè)實(shí)施方式中,可以使用可用的全部點(diǎn)擊數(shù)據(jù), 來(lái)生成與本發(fā)明的各方面一起使用的點(diǎn)擊圖。在某些情況下,搜索服務(wù)可以一次地為許多月構(gòu)建點(diǎn)擊日志,這些日志包含每一個(gè)查詢(xún)以及由每一個(gè)用戶(hù)作出的對(duì)應(yīng)的點(diǎn)擊的記錄。返回到圖2,如上文所指出的,訓(xùn)練數(shù)據(jù)生成器226自動(dòng)地通過(guò)走查(walk)點(diǎn)擊圖并標(biāo)識(shí)匹配選定的或已標(biāo)識(shí)的種子模式的模式來(lái)生成訓(xùn)練數(shù)據(jù)。根據(jù)各實(shí)施方式,訓(xùn)練數(shù)據(jù)生成器2 從用戶(hù)那里接受域(或子域)作為輸入。這樣的域可以是,例如,“contoso. go. com”或“contosa. com/football/"的形式。訓(xùn)練數(shù)據(jù)生成器2 通過(guò)查看點(diǎn)擊圖中的每個(gè)URL節(jié)點(diǎn),并選擇其URL (至少部分地)匹配域輸入中的至少一個(gè)的那些節(jié)點(diǎn),來(lái)標(biāo)識(shí)點(diǎn)擊圖中的匹配節(jié)點(diǎn)。對(duì)于每一個(gè)匹配的URL節(jié)點(diǎn),訓(xùn)練數(shù)據(jù)生成器2 可以將連接到點(diǎn)擊圖中的該節(jié)點(diǎn)的每一個(gè)查詢(xún),以及該查詢(xún)的邊緣權(quán)重,添加到潛在的結(jié)果集中,該邊緣權(quán)重通過(guò)檢查當(dāng)發(fā)出該查詢(xún)時(shí)為此URL所產(chǎn)生的點(diǎn)擊的數(shù)量來(lái)求得。在某些實(shí)施方式中,可能有這樣的情況為兩個(gè)不同的URL節(jié)點(diǎn),添加同一個(gè)查詢(xún)一一在此情況下,例如,訓(xùn)練數(shù)據(jù)生成器2 可以添加它們的權(quán)重。然后,訓(xùn)練數(shù)據(jù)生成器2 從潛在的結(jié)果集中選擇其中相對(duì)權(quán)重(例如,累加的權(quán)重除以該查詢(xún)的印象的總數(shù))超出閾值(例如,0. 1)的那些查詢(xún)作為訓(xùn)練查詢(xún)。如此,對(duì)于閾值0. 1,查詢(xún)“chris brown”可能已經(jīng)導(dǎo)致對(duì)所選定的體育URL節(jié)點(diǎn)的25 個(gè)點(diǎn)擊,但是,如果向搜索服務(wù)214發(fā)出的“chris brown”的總次數(shù)大于250,它將不會(huì)被用作自動(dòng)化訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)生成器226向模型生成器232提供所選訓(xùn)練數(shù)據(jù)。模型生成器232可以是任何類(lèi)型的程序、模塊、API或代碼,它們促進(jìn)諸如,分類(lèi)器234和實(shí)體提取器236之類(lèi)的模型的生成。在各實(shí)施方式中,模型生成器232可以生成模型234和236,并使用由訓(xùn)練數(shù)據(jù)生成器2 生成的訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型234和236。在某些實(shí)施方式中,用戶(hù)可以與模型生成器232進(jìn)行交互,以向模型生成過(guò)程提供輸入。根據(jù)本發(fā)明的各實(shí)施方式,分類(lèi)器234是用于確定與用戶(hù)查詢(xún)相關(guān)聯(lián)的域的二元查詢(xún)一意圖分類(lèi)器。在其他實(shí)施方式中,分類(lèi)器可以是用于分類(lèi)傳入的用戶(hù)搜索查詢(xún)的任何類(lèi)型的分類(lèi)器。分類(lèi)器234可以采取任何數(shù)量和類(lèi)型的數(shù)據(jù)作為用于分類(lèi)傳入的查詢(xún)的輸入。在各實(shí)施方式中,可以使用分類(lèi)器234來(lái)將查詢(xún)分類(lèi)為屬于或不屬于一個(gè)特定域。在其他實(shí)施方式中,可以使用分類(lèi)器234來(lái)標(biāo)識(shí)查詢(xún)所對(duì)應(yīng)的域。根據(jù)本發(fā)明的各實(shí)施方式, 可以由于任意數(shù)量的原因來(lái)使用分類(lèi)器234,根據(jù)本發(fā)明的各實(shí)施方式,其可以根據(jù)任意數(shù)量的配置來(lái)實(shí)現(xiàn)。在各實(shí)施方式中,實(shí)體提取器236從查詢(xún)中提取實(shí)體,并促進(jìn)將查詢(xún)分段為多個(gè)部分。實(shí)體可包括字母、字符、單詞、短語(yǔ)等等。在各實(shí)施方式中,實(shí)體是可以與另一實(shí)體相比較的一些東西。即,例如,實(shí)體可以是產(chǎn)品、服務(wù)、人、位置、活動(dòng)等等。根據(jù)本發(fā)明的各實(shí)施方式,實(shí)體提取器236可以標(biāo)識(shí)(例如,“提取”)實(shí)體、實(shí)體的模式、實(shí)體之間的關(guān)系、關(guān)于實(shí)體的上下文信息,等等。在各實(shí)施方式中,實(shí)體提取器236從給定查詢(xún)中提取實(shí)體和實(shí)體模式的許多不同的組合。如此處所使用的,“實(shí)體模式”是指至少一個(gè)實(shí)體的任何排列。在各實(shí)施方式中,實(shí)體模式可包括單一實(shí)體、兩個(gè)實(shí)體,或多于兩個(gè)實(shí)體。在一個(gè)實(shí)施方式中,實(shí)體模式包括兩個(gè)或更多實(shí)體之間的關(guān)聯(lián)或關(guān)系的表示。例如,實(shí)體模式可以反映實(shí)體原始搜索查詢(xún)中的位置。在各實(shí)施方式中實(shí)體模式可以是指存在于種子URL中的數(shù)據(jù)的類(lèi)型。例如,假設(shè)選定的種子URL的集合具有與音樂(lè)相關(guān)聯(lián)的各種實(shí)體,諸如,例如,歌星名稱(chēng)、歌曲標(biāo)題,以及專(zhuān)輯名稱(chēng)。這三種類(lèi)型的實(shí)體的集合可被稱(chēng)為實(shí)體模式,因此,具有這三種類(lèi)型中的一種類(lèi)型的實(shí)體的任何URL都可以被標(biāo)識(shí)為匹配的URL。通過(guò)使用本發(fā)明的一些實(shí)施方式,可以以自動(dòng)化方式展開(kāi)可用于訓(xùn)練查詢(xún)一意圖分類(lèi)器的訓(xùn)練數(shù)據(jù)量,以更有效地訓(xùn)練查詢(xún)一意圖分類(lèi)器和/或?qū)嶓w提取器,并改進(jìn)這樣的分類(lèi)器和提取器的性能。在某些情況下,利用可以根據(jù)一些實(shí)施方式獲取的大量的訓(xùn)練數(shù)據(jù),僅僅使用查詢(xún)單詞或短語(yǔ)作為特征的查詢(xún)一意圖分類(lèi)器或?qū)嶓w提取器可以相對(duì)準(zhǔn)確,并可以,例如,增強(qiáng)即時(shí)應(yīng)答服務(wù)的利用相關(guān)內(nèi)容動(dòng)態(tài)地對(duì)用戶(hù)作出響應(yīng)的能力。一旦查詢(xún)一意圖分類(lèi)器已經(jīng)被訓(xùn)練,輸出查詢(xún)一意圖分類(lèi)器,用于分類(lèi)查詢(xún)。例如,查詢(xún)一意圖分類(lèi)器可與搜索引擎一起使用。查詢(xún)一意圖分類(lèi)器能夠?qū)⒃谒阉饕嬷薪邮盏降牟樵?xún)分類(lèi)為相對(duì)于查詢(xún)意圖是正的或負(fù)的。如果是正的,那么,搜索引擎可以調(diào)用垂直搜索服務(wù)。另一方面,如果查詢(xún)一意圖分類(lèi)器將接收到的查詢(xún)分類(lèi)為對(duì)于查詢(xún)意圖是負(fù)的,那么,搜索引擎可以執(zhí)行通用搜索。另外,通過(guò)實(shí)現(xiàn)本發(fā)明的各實(shí)施方式,可以生成點(diǎn)擊圖,并使用該點(diǎn)擊圖來(lái)表示此點(diǎn)擊數(shù)據(jù)的全部。因?yàn)樵诒景l(fā)明的各實(shí)施方式中,不需要手動(dòng)地標(biāo)記任何查詢(xún)或?qū)?fù)雜標(biāo)記算法應(yīng)用到點(diǎn)擊圖,而是選擇具有匹配的子域的URL的過(guò)程,可以以最少成本的搜索服務(wù)生成大量的訓(xùn)練數(shù)據(jù)。概括起來(lái),本發(fā)明描述了用于自動(dòng)地生成用于訓(xùn)練分類(lèi)器和/或?qū)嶓w提取器中的正的訓(xùn)練數(shù)據(jù)的系統(tǒng)、機(jī)器、介質(zhì)、方法、技術(shù)、過(guò)程和選項(xiàng)。轉(zhuǎn)向圖4,示出了流程圖,示出了通過(guò)利用此處所描述的訓(xùn)練數(shù)據(jù)生成概念的各方面來(lái)增強(qiáng)即時(shí)應(yīng)答服務(wù)的示例性方法 500。第一說(shuō)明性步驟,步驟410,包括捕捉用戶(hù)查詢(xún)和對(duì)應(yīng)的點(diǎn)擊。在各實(shí)施方式中,搜索服務(wù)可以捕捉在用戶(hù)的與搜索服務(wù)的交互過(guò)程中生成的任意數(shù)量的不同類(lèi)型的點(diǎn)擊數(shù)據(jù)。 根據(jù)本發(fā)明的各實(shí)施方式,捕捉由用戶(hù)提交的查詢(xún),如對(duì)應(yīng)于用戶(hù)選擇的(例如,“點(diǎn)擊的”) 搜索結(jié)果的URL。在各實(shí)施方式中,點(diǎn)擊數(shù)據(jù)可以存儲(chǔ)在點(diǎn)擊日志中。如步驟412所示,使用捕捉到的點(diǎn)擊數(shù)據(jù),生成點(diǎn)擊圖。如上所述,點(diǎn)擊圖一般包括表示查詢(xún)的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn),邊緣(鏈接)連接相關(guān)聯(lián)的查詢(xún)節(jié)點(diǎn)和URL節(jié)點(diǎn)。根據(jù)本發(fā)明的各實(shí)施方式,所生成的點(diǎn)擊圖可以是任何大小,包括非常大。例如,在一個(gè)實(shí)施方式中,點(diǎn)擊圖可包括在某個(gè)時(shí)間段內(nèi)(諸如,例如,一周、一個(gè)月、年、等等)與每個(gè)用戶(hù)的每個(gè)交互相關(guān)聯(lián)的點(diǎn)擊數(shù)據(jù)。在步驟414中,說(shuō)明性方法400的實(shí)施方式包括為分類(lèi)器或?qū)嶓w提取器自動(dòng)地生成訓(xùn)練數(shù)據(jù)。在各實(shí)施方式中,可以通過(guò)標(biāo)識(shí)具有匹配指定的URL模式的URL節(jié)點(diǎn)并為訓(xùn)練數(shù)據(jù)選擇對(duì)應(yīng)的查詢(xún)來(lái)生成訓(xùn)練數(shù)據(jù)。在步驟416中,使用訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練分類(lèi)器和/ 或提取器,如最后一個(gè)說(shuō)明性步驟(步驟418)所示,搜索服務(wù)向即時(shí)應(yīng)答服務(wù)提供分類(lèi)器和/或?qū)嶓w提取器,用于促進(jìn)觸發(fā)即時(shí)應(yīng)答服務(wù)和標(biāo)識(shí)相關(guān)即時(shí)應(yīng)答內(nèi)容。轉(zhuǎn)向圖5,流程圖描繪了使用分類(lèi)器和實(shí)體提取器來(lái)觸發(fā)即時(shí)應(yīng)答服務(wù)的說(shuō)明性方法500。如說(shuō)明性第一步驟(步驟510)所示,搜索服務(wù)接收用戶(hù)搜索查詢(xún)。在步驟512 中,使用分類(lèi)器來(lái)確定查詢(xún)是否反映用戶(hù)對(duì)于特定域的意圖。即,使用分類(lèi)器來(lái)確定用戶(hù)的搜索是否涉及信息的特定分類(lèi),諸如,例如,電影、音樂(lè)、圖像、職業(yè)等等。如步驟514所示,使用實(shí)體提取器,將被標(biāo)識(shí)為反映對(duì)于特定域的意圖的查詢(xún)分段為諸部分的集合。在各實(shí)施方式中,將查詢(xún)分段為(諸)部分是基于意圖的域的特征來(lái)進(jìn)行的。如在圖2中進(jìn)一步示出的,在步驟516中,搜索服務(wù)提供意圖的域的指示,在步驟 518中,將分段的查詢(xún)提供給即時(shí)應(yīng)答服務(wù)。在步驟520中,搜索服務(wù)從即時(shí)應(yīng)答服務(wù)接收即時(shí)應(yīng)答(例如,內(nèi)容、鏈接等等),在最后一個(gè)說(shuō)明性步驟522中,向用戶(hù)顯示即時(shí)應(yīng)答。
現(xiàn)在轉(zhuǎn)向圖6,另一個(gè)流程圖描繪了用于標(biāo)識(shí)點(diǎn)擊數(shù)據(jù)中的相對(duì)于內(nèi)容域的查詢(xún)和統(tǒng)一資源定位符(URL)之間的正關(guān)聯(lián)的說(shuō)明性方法600。在各實(shí)施方式中,說(shuō)明性方法 600包括,如步驟610所示,接收數(shù)據(jù)結(jié)構(gòu)。在各實(shí)施方式中,數(shù)據(jù)結(jié)構(gòu)包括點(diǎn)擊數(shù)據(jù),并以這樣的方式排列,以將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的URL進(jìn)行關(guān)聯(lián)。根據(jù)某些實(shí)施方式,數(shù)據(jù)結(jié)構(gòu)是具有表示查詢(xún)的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn)的點(diǎn)擊圖,邊緣連接相關(guān)聯(lián)的查詢(xún)節(jié)點(diǎn)和URL節(jié)點(diǎn)。 在步驟612中,標(biāo)識(shí)與內(nèi)容域相關(guān)聯(lián)的URL模式。在各實(shí)施方式中,可以通過(guò)檢查從數(shù)據(jù)結(jié)構(gòu)中選擇的種子URL的集合來(lái)標(biāo)識(shí)URL模式。在其他實(shí)施方式中,可以基于正在進(jìn)行搜索的用戶(hù),對(duì)即時(shí)應(yīng)答服務(wù)的等等,來(lái)指定URL模式。在一個(gè)實(shí)施方式中,也可以標(biāo)識(shí)許多URL模式。顯而易見(jiàn),URL模式包括URL域。在各實(shí)施方式中,URL模式還包括至少一個(gè)子域,該子域可以是域本身。在各實(shí)施方式中,URL模式可以是實(shí)體模式,如此處具體參考圖2和3所描述的。如步驟614所示,標(biāo)識(shí)匹配的URL。在各實(shí)施方式中,匹配的URL是數(shù)據(jù)結(jié)構(gòu)中的至少部分地匹配URL模式的URL。即,在各實(shí)施方式中,匹配的URL的至少一部分與已標(biāo)識(shí)的URL模式相匹配。在本發(fā)明的某些實(shí)施方式中,標(biāo)識(shí)許多URL模式,匹配的URL是至少部分地與已標(biāo)識(shí)的URL模式中的任何一個(gè)或多個(gè)相匹配的URL。在更進(jìn)一步的實(shí)施方式中,可以使用任意數(shù)量的其他準(zhǔn)則來(lái)確定匹配的URL。例如,在一個(gè)實(shí)施方式中,在一個(gè)實(shí)施方式中有用的,例如,用于訓(xùn)練分類(lèi)器,URL包括匹配URL模式的URL子域的URL子域。在其他實(shí)施方式中,匹配的URL可包括實(shí)體模式,該實(shí)體模式匹配與種子URL相關(guān)聯(lián)的實(shí)體模式。繼續(xù)參考圖6,在步驟616中,標(biāo)識(shí)與每一個(gè)匹配的URL相關(guān)聯(lián)的每一個(gè)查詢(xún),在步驟618中,標(biāo)識(shí)和/或確定每一個(gè)相關(guān)聯(lián)的查詢(xún)的每一個(gè)邊緣權(quán)重。在一個(gè)實(shí)施方式中,基于當(dāng)響應(yīng)于第一查詢(xún)而提供第一 URL時(shí)與第一 URL相關(guān)聯(lián)的許多的點(diǎn)擊通過(guò)計(jì)算函數(shù),來(lái)確定與查詢(xún)相關(guān)聯(lián)的邊緣權(quán)重。在步驟620中,如圖6所示,將已標(biāo)識(shí)的查詢(xún)以及它們的對(duì)應(yīng)的權(quán)重添加到潛在訓(xùn)練數(shù)據(jù)的集合中。在步驟622中,說(shuō)明性方法600的各實(shí)施方式包括計(jì)算潛在的訓(xùn)練查詢(xún)集合中的每一個(gè)查詢(xún)的意圖參數(shù)值,在步驟擬4中,將其與閾值進(jìn)行比較。在各實(shí)施方式中,例如,計(jì)算意圖參數(shù)的值包括計(jì)算查詢(xún)的相對(duì)權(quán)重。根據(jù)本發(fā)明的各實(shí)施方式,查詢(xún)的相對(duì)權(quán)重可包括查詢(xún)的總的累加權(quán)重與查詢(xún)的印象的總數(shù)的比率。在某些實(shí)施方式中,可以標(biāo)識(shí)附加的與URL相關(guān)聯(lián)的查詢(xún)。例如,在此情況下,可以將對(duì)應(yīng)于兩個(gè)關(guān)聯(lián)的邊緣相加,以生成查詢(xún)的總的累加的權(quán)重。如最后一個(gè)說(shuō)明性步驟(步驟626)所示,說(shuō)明性方法600的各實(shí)施方式包括確定哪些查詢(xún)相對(duì)于內(nèi)容域以它們的相關(guān)聯(lián)的URL具有正關(guān)聯(lián)。在各實(shí)施方式中,具有這樣的正關(guān)聯(lián)的查詢(xún)(此處可互換地簡(jiǎn)稱(chēng)為“正的查詢(xún)”或“正的數(shù)據(jù)”)可以在點(diǎn)擊圖或其他數(shù)據(jù)結(jié)構(gòu)中那樣被標(biāo)記。在某些實(shí)施方式中,可以選擇正的查詢(xún)作為用于訓(xùn)練分類(lèi)器、實(shí)體提取器等等的訓(xùn)練數(shù)據(jù)。確定正的數(shù)據(jù)可包括將意圖參數(shù)與閾值進(jìn)行比較,對(duì)查詢(xún)數(shù)據(jù)應(yīng)用概率算法及其他機(jī)器學(xué)習(xí)功能,等等。
現(xiàn)在轉(zhuǎn)向圖7,另一個(gè)流程圖描繪了用于生成正的分類(lèi)器訓(xùn)練數(shù)據(jù)的說(shuō)明性方法 700。根據(jù)本發(fā)明的各實(shí)施方式,說(shuō)明性方法700包括,在步驟710中,接收將查詢(xún)與由查詢(xún)所標(biāo)識(shí)的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。例如,在一個(gè)實(shí)施方式中,數(shù)據(jù)結(jié)構(gòu)是具有表示查詢(xún)的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn)的點(diǎn)擊圖,邊緣連接相關(guān)聯(lián)的查詢(xún)節(jié)點(diǎn)和URL節(jié)點(diǎn)。在步驟712中,說(shuō)明性方法700的實(shí)施方式包括標(biāo)識(shí)URL模式,該模式包括第一 URL域和至少一個(gè)URL子域。在步驟714中,通過(guò)將數(shù)據(jù)結(jié)構(gòu)中的URL的子域與已標(biāo)識(shí)的 URL模式進(jìn)行比較來(lái)標(biāo)識(shí)匹配的URL。例如,在一個(gè)實(shí)施方式中,數(shù)據(jù)結(jié)構(gòu)中的匹配的URL 是其中匹配的URL的至少一部分與第一 URL域的至少一部分相匹配的那個(gè)。在一個(gè)實(shí)施方式中,第一 URL域包括第一 URL子域,匹配的URL包括第二 URL子域,該第二 URL子域與第一 URL子域相匹配。在步驟716中,標(biāo)識(shí)連接到每一個(gè)匹配的URL的每一個(gè)查詢(xún)。如步驟718所示,將每一個(gè)已標(biāo)識(shí)的查詢(xún)添加到潛在訓(xùn)練數(shù)據(jù)的集合中,如最后一個(gè)說(shuō)明性步驟(步驟718)所示,選擇訓(xùn)練查詢(xún)的集合。在各實(shí)施方式中,例如,從潛在訓(xùn)練查詢(xún)的集合中選擇訓(xùn)練查詢(xún)的集合是基于與匹配的URL相連接的每一個(gè)查詢(xún)的邊緣權(quán)重來(lái)進(jìn)行的?,F(xiàn)在轉(zhuǎn)向圖8,另一個(gè)流程圖描繪了用于從存儲(chǔ)了點(diǎn)擊數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)生成實(shí)體一提取器培訓(xùn)數(shù)據(jù)的說(shuō)明性方法800,其中,該數(shù)據(jù)結(jié)構(gòu)包括捕捉到的搜索查詢(xún)和對(duì)應(yīng)于選定的查詢(xún)結(jié)果的統(tǒng)一資源定位符(URL)之間的關(guān)聯(lián)。在第一說(shuō)明性步驟,步驟810,選擇種子URL。在各實(shí)施方式中,種子URL可以自動(dòng)地選擇、由用戶(hù)輸入、由網(wǎng)絡(luò)管理員指定、由應(yīng)用程序選擇,或用來(lái)開(kāi)始過(guò)程的選擇URL的任何其他合適的方法。另外,在各實(shí)施方式中,可以選擇許多種子URL,以便URL所共有的模式可以被標(biāo)識(shí),并用于生成訓(xùn)練數(shù)據(jù)。在步驟812中,提取實(shí)體模式。在各實(shí)施方式中,實(shí)體模式可以包括單一實(shí)體,而在其他實(shí)施方式中,實(shí)體模式可包括許多實(shí)體。實(shí)體可以具有任意數(shù)量的排列,而在一些實(shí)現(xiàn)中,實(shí)體的排列與標(biāo)識(shí)正的訓(xùn)練數(shù)據(jù)有關(guān)。在其他實(shí)施方式中,訓(xùn)練數(shù)據(jù)生成器可能只關(guān)心實(shí)體本身。在某些實(shí)施方式中,可以提取任意數(shù)量的實(shí)體模式。例如,在一個(gè)實(shí)施方式中, 可以從第一種子URL中選擇第一組實(shí)體模式,并可以從第二 URL中選擇第二組實(shí)體模式。在各實(shí)施方式中,可以選擇兩個(gè)或更多URL所共有的實(shí)體模式。本領(lǐng)域技術(shù)人員應(yīng)了解,可以根據(jù)本發(fā)明的各實(shí)施方式實(shí)現(xiàn)前面的任何一個(gè),其組合,其修改等等。如步驟814所示,說(shuō)明性方法800包括標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的匹配的URL。在某些實(shí)施方式中,標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的匹配的URL包括確定匹配的URL包括實(shí)體模式。在一個(gè)實(shí)施方式中,匹配的URL可包括實(shí)體模式和/或?qū)嶓w中的全部。在一個(gè)實(shí)施方式中,匹配的URL包括實(shí)體模式、實(shí)體等等的至少一部分??梢允褂萌我鈹?shù)量的其他合適的準(zhǔn)則來(lái)確定與一個(gè) URL包括的實(shí)體模式的數(shù)量相關(guān)聯(lián)的諸如閾值之類(lèi)的匹配的URL等等。在步驟816中,將每一個(gè)相關(guān)聯(lián)的查詢(xún)以及其權(quán)重添加到潛在的訓(xùn)練查詢(xún)的集合中,在最后一個(gè)說(shuō)明性步驟,步驟818,從潛在的訓(xùn)練查詢(xún)中選擇訓(xùn)練查詢(xún)的集合。如上文參考為分類(lèi)器自動(dòng)生成訓(xùn)練數(shù)據(jù)所討論的,可以通過(guò)為每一個(gè)查詢(xún)計(jì)算意圖參數(shù)來(lái)選擇諸如此處所描述的實(shí)體提取器之類(lèi)的實(shí)體提取器的訓(xùn)練查詢(xún)。意圖參數(shù)可以是,例如,基于每一個(gè)查詢(xún)的邊緣權(quán)重。此外,可以在數(shù)字上,或以其他方式,分析和表征匹配的URL中的所提取的實(shí)體模式和模式之間的差別,用于與準(zhǔn)則、閾值等等進(jìn)行比較。本發(fā)明的各實(shí)施方式是說(shuō)明性的而非限制性的。在不偏離本發(fā)明的各實(shí)施方式的范圍的情況下,替換實(shí)施方式將變得顯而易見(jiàn)??梢岳斫?,某些特征和子組合是有用的,并且可以在不參考其他特征和子組合的情況下使用。這由權(quán)利要求所構(gòu)想的,并在權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.在其上包含計(jì)算機(jī)可執(zhí)行指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由與搜索服務(wù)相關(guān)聯(lián)的計(jì)算設(shè)備中的處理器執(zhí)行時(shí),使所述計(jì)算設(shè)備執(zhí)行相對(duì)于內(nèi)容域標(biāo)識(shí)點(diǎn)擊數(shù)據(jù)中的查詢(xún)和統(tǒng)一資源定位符URL之間的正關(guān)聯(lián)的方法;所述方法包括接收將查詢(xún)與由所述查詢(xún)所標(biāo)識(shí)的URL相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu);標(biāo)識(shí)與所述內(nèi)容域相關(guān)聯(lián)的第一 URL模式;確定所述點(diǎn)擊圖中的第一 URL的至少一部分與所述第一 URL模式相匹配;標(biāo)識(shí)與所述第一 URL相關(guān)聯(lián)的第一查詢(xún);以及確定所述第一查詢(xún)和所述第一 URL相對(duì)于所述內(nèi)容域具有正關(guān)聯(lián)。
2.如權(quán)利要求1所述的介質(zhì),其特征在于,所述搜索查詢(xún)包括第一實(shí)體,并且,其中確定所述點(diǎn)擊圖中的所述第一 URL的所述至少一部分與所述第一 URL模式相匹配包括確定所述第一 URL的所述至少一部分包括所述第一實(shí)體。
3.如權(quán)利要求1所述的介質(zhì),其特征在于,所述第一URL模式包括第一 URL域,所述第一 URL域包含第一 URL子域。
4.如權(quán)利要求3所述的介質(zhì),其特征在于,所述第一URL的所述至少一部分包括第二 URL子域,并且,其中確定所述第一 URL的所述至少一部分與所述第一 URL模式相匹配包括確定所述第二 URL子域與所述第一 URL子域相匹配。
5.如權(quán)利要求1所述的介質(zhì),其特征在于,確定所述第一查詢(xún)和所述第一URL相對(duì)于所述內(nèi)容域具有正關(guān)聯(lián)包括計(jì)算意圖參數(shù)的值,其中所述意圖參數(shù)基于與所述第一 URL相關(guān)聯(lián)的權(quán)重;以及確定所述值超出指定的閾值。
6.如權(quán)利要求5所述的介質(zhì),其特征在于,還包括確定與所述第一查詢(xún)相關(guān)聯(lián)的第一邊緣權(quán)重,其中當(dāng)響應(yīng)于所述第一查詢(xún)提供所述第一 URL時(shí),所述第一查詢(xún)的所述第一邊緣權(quán)重基于與所述第一 URL相關(guān)聯(lián)的點(diǎn)擊的數(shù)量,并且,其中計(jì)算意圖參數(shù)的值包括計(jì)算所述第一查詢(xún)的相對(duì)權(quán)重,所述相對(duì)權(quán)重包括所述第一查詢(xún)的總的累加權(quán)重與所述第一查詢(xún)的印象的總數(shù)的比率。
7.如權(quán)利要求6所述的介質(zhì),還包括確定所述第一查詢(xún)也與所述點(diǎn)擊圖中的第二 URL相關(guān)聯(lián);確定所述第一查詢(xún)的第二邊緣權(quán)重,其中當(dāng)響應(yīng)于所述第一查詢(xún)提供所述第二 URL 時(shí),所述第一查詢(xún)的所述第二邊緣權(quán)重基于與所述第二 URL相關(guān)聯(lián)的點(diǎn)擊的數(shù)量;以及通過(guò)將所述第一邊緣權(quán)重和所述第二邊緣權(quán)重相加,來(lái)計(jì)算所述第一查詢(xún)的所述總的累加權(quán)重。
8.如權(quán)利要求1或9所述的方法,其特征在于,所述數(shù)據(jù)結(jié)構(gòu)是具有表示查詢(xún)的第一組節(jié)點(diǎn)和表示URL的第二組節(jié)點(diǎn)的點(diǎn)擊圖,帶有邊緣連接相關(guān)聯(lián)的查詢(xún)節(jié)點(diǎn)和URL節(jié)點(diǎn)。
9.在其上包含計(jì)算機(jī)可執(zhí)行指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由與搜索服務(wù)相關(guān)聯(lián)的計(jì)算設(shè)備中的處理器執(zhí)行時(shí),使所述計(jì)算設(shè)備執(zhí)行生成正的分類(lèi)器訓(xùn)練數(shù)據(jù)的方法,所述方法包括接收將查詢(xún)與由所述查詢(xún)所標(biāo)識(shí)的URL進(jìn)行關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu);標(biāo)識(shí)包括第一 URL域的第一 URL模式;標(biāo)識(shí)所述數(shù)據(jù)結(jié)構(gòu)中的匹配的URL,其中所述匹配的URL的至少一部分與所述第一 URL域的至少一部分相匹配;將與所述匹配的URL相連接的每一個(gè)查詢(xún)添加到潛在訓(xùn)練查詢(xún)的集合中;以及從所述潛在訓(xùn)練查詢(xún)的集合中選擇訓(xùn)練查詢(xún)的集合。
10.如權(quán)利要求9所述的介質(zhì),其特征在于,所述第一 URL域包括第一 URL子域,并且, 其中所述匹配的URL包括第二 URL子域,并且,其中標(biāo)識(shí)匹配的URL包括確定所述第二子域匹配所述第一子域。
全文摘要
本發(fā)明揭示了自動(dòng)生成訓(xùn)練數(shù)據(jù)的技術(shù)。計(jì)算機(jī)可讀介質(zhì)、計(jì)算機(jī)系統(tǒng),以及計(jì)算設(shè)備促進(jìn)生成二進(jìn)制分類(lèi)器和實(shí)體提取器訓(xùn)練數(shù)據(jù)。選擇種子URL,并標(biāo)識(shí)種子URL內(nèi)的URL模式。標(biāo)識(shí)數(shù)據(jù)結(jié)構(gòu)中的匹配URL,并將對(duì)應(yīng)的查詢(xún)以及它們的相關(guān)聯(lián)的權(quán)重添加到從其中選擇訓(xùn)練數(shù)據(jù)的潛在的訓(xùn)練數(shù)據(jù)集中。
文檔編號(hào)G06F17/30GK102289459SQ20111017895
公開(kāi)日2011年12月21日 申請(qǐng)日期2011年6月20日 優(yōu)先權(quán)日2010年6月18日
發(fā)明者A·麥克戈文, G·比勒, M·納拉辛漢, P·沃拉, S·阿哈里 申請(qǐng)人:微軟公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1