亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

研究任務(wù)識別的制作方法

文檔序號:6360691閱讀:161來源:國知局
專利名稱:研究任務(wù)識別的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及用于自動查明信息檢索系統(tǒng)的用戶,包括但不限于網(wǎng)絡(luò)搜索引擎的用戶的信息需求系統(tǒng)和方法。
背景技術(shù)
自從網(wǎng)絡(luò)(Web)搜索引擎問世以來,解決用戶的信息需求一直是其主要目標(biāo)之一。在某些情況下,用戶發(fā)現(xiàn)他們的需求僅僅因?yàn)檫@些需求過于復(fù)雜并且涉及到單個(gè)網(wǎng)絡(luò)或搜索結(jié)果頁面不能覆蓋的多個(gè)方面而不能立即通過搜索結(jié)果得到解答。這種情況通常在用戶調(diào)查諸如教育、旅行或健康之類的領(lǐng)域中的某個(gè)主題時(shí)(這通常需要從很多頁面中收集事實(shí)和信息)發(fā)生。這些類型的活動可被稱作“研究任務(wù)”。據(jù)觀察,這些“研究任務(wù)”可以占到用戶會話的10%和全部查詢量的超過25%。
如果這樣的“研究任務(wù)”能夠在被執(zhí)行時(shí)以高精確度被自動識別,則將是有利的。由于這些“研究任務(wù)”可以占據(jù)全部查詢量的相當(dāng)大的百分比,因此識別和應(yīng)答用戶對這樣大百分比的用戶查詢的需求將會增強(qiáng)用戶的體驗(yàn)。常規(guī)系統(tǒng)傾向于檢驗(yàn)單獨(dú)的查詢,而“研究任務(wù)”的識別會使網(wǎng)絡(luò)搜索引擎理解用戶在本不相關(guān)的查詢背后的意圖。通過自動識另Ij “研究任務(wù)”從而理解用戶意圖,網(wǎng)絡(luò)搜索引擎能夠主動提供專業(yè)搜索、研究工具、定向廣告、(一個(gè)或多個(gè))市場事件和/或其他特征,以解決用戶需求。

發(fā)明內(nèi)容
根據(jù)本發(fā)明一個(gè)實(shí)施例的系統(tǒng)和方法自動檢測搜索引擎的用戶何時(shí)執(zhí)行針對特定主題的研究任務(wù)。然后基于這樣的自動檢測,可以為用戶提供對諸如研究相關(guān)工具或?qū)I(yè)搜索之類的一個(gè)或多個(gè)特征的訪問,并且為用戶提供與研究任務(wù)相關(guān)的定向廣告和/或市場事件。響應(yīng)于研究任務(wù)的檢測而自動提供這些各種工具、廣告和事件能夠有利地改善用戶執(zhí)行研究任務(wù)的體驗(yàn)。具體而言,這里說明了一種用于自動判斷搜索引擎的用戶是否在執(zhí)行研究任務(wù)的方法。根據(jù)該方法,生成與用戶提交到搜索引擎的一系列查詢相關(guān)的多個(gè)特征?;谒龆鄠€(gè)特征的第一子集,使用第一機(jī)器學(xué)習(xí)檢測器檢測所述用戶是否在執(zhí)行復(fù)雜研究?;谒龆鄠€(gè)特征的第二子集,使用第二機(jī)器學(xué)習(xí)檢測器檢測所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)。至少響應(yīng)于所述復(fù)雜研究檢測和所述任務(wù)檢測,對所述用戶是否在執(zhí)行研究任務(wù)作出判斷。這里還說明了一種系統(tǒng)。所述系統(tǒng)包括搜索引擎和研究任務(wù)識別系統(tǒng)。所述搜索引擎被配置成接收由用戶提交的一系列查詢,并且還被配置成響應(yīng)于所述一系列查詢中的每個(gè)查詢來識別一個(gè)或多個(gè)文檔。所述研究任務(wù)識別系統(tǒng)包括會話單元、特征單元、研究檢測器、任務(wù)檢測器和混合器。所述會話單元被配置成接收所述一系列查詢并生成一系列結(jié)構(gòu)化查詢。所述特征單元被配置成基于所述一系列結(jié)構(gòu)化查詢的分析而生成多個(gè)特征。所述研究檢測器被配置成基于所述多個(gè)特征的第一子集,使用第一機(jī)器學(xué)習(xí)規(guī)則來檢測所述用戶是否在執(zhí)行復(fù)雜研究。所述任務(wù)檢測器被配置成基于所述多個(gè)特征的第二子集,使用第二機(jī)器學(xué)習(xí)規(guī)則來檢測所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)。所述混合器被配置成至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。這里還說明了另一種系統(tǒng)。所述系統(tǒng)包括搜索引擎和研究任務(wù)識別系統(tǒng)。所述搜索引擎被配置成接收由用戶提交的一系列查詢,并且還被配置成響應(yīng)于所述一系列查詢中的每個(gè)查詢來識別一個(gè)或多個(gè)文檔。所述研究任務(wù)識別系統(tǒng)包括特征單元、檢測器單元和機(jī)器學(xué)習(xí)系統(tǒng)。所述特征單元被配置成基于所述一系列查詢的分析而生成多個(gè)特征。所述檢測器單元被配置成基于所述多個(gè)特征,通過測量所述用戶參與搜索的程度來檢測所述用戶是否在執(zhí)行復(fù)雜研究。所述檢測器單元還被配置成基于所述多個(gè)特征,通過測量連續(xù)查詢之間的主題連貫性來確定所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)。所述機(jī)器學(xué)習(xí)系統(tǒng)被配置成至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。以下參照附圖詳細(xì)說明本發(fā)明的更多特征和優(yōu)點(diǎn)以及本發(fā)明各實(shí)施例的結(jié)構(gòu)和操作。注意,本發(fā)明不限于這里所述的特定實(shí)施例。這樣的實(shí)施例僅為了說明之目的而在 這里提出?;诒疚乃慕虒?dǎo),另外的實(shí)施例對于(一個(gè)或多個(gè))相關(guān)領(lǐng)域的技術(shù)人員
將變得清楚。


本文結(jié)合的形成說明書的一部分的附圖用于說明本發(fā)明,并與說明書一起進(jìn)一步用于解釋本發(fā)明的原理并使(一個(gè)或多個(gè))相關(guān)領(lǐng)域的技術(shù)人員能夠?qū)嵺`和使用本發(fā)明。圖I是可以實(shí)現(xiàn)本發(fā)明實(shí)施例的信息檢索系統(tǒng)的方框圖。圖2示出了可由用戶提交到搜索引擎的示例查詢。圖3是描繪根據(jù)本發(fā)明實(shí)施例的用于自動判斷用戶是否在執(zhí)行研究任務(wù)的方法的流程圖。圖4是描繪根據(jù)本發(fā)明實(shí)施例的用于自動判斷用戶是否在執(zhí)行研究任務(wù)的系統(tǒng)的方框圖。圖5描繪了根據(jù)本發(fā)明實(shí)施例的由用戶張貼到搜索引擎的示例性的一系列查詢。圖6A為描繪了根據(jù)本發(fā)明實(shí)施例的被實(shí)現(xiàn)為機(jī)器學(xué)習(xí)系統(tǒng)的檢測器的示圖。圖6B為描繪了根據(jù)本發(fā)明實(shí)施例的被實(shí)現(xiàn)為機(jī)器學(xué)習(xí)系統(tǒng)的混合器的示圖。圖7是描繪了根據(jù)本發(fā)明實(shí)施例的用于自動判斷用戶是否在執(zhí)行研究任務(wù)的替代系統(tǒng)的方框圖。圖8是可以實(shí)現(xiàn)本發(fā)明實(shí)施例的示例計(jì)算機(jī)系統(tǒng)的方框圖。根據(jù)以下作出的詳細(xì)說明并結(jié)合附圖,本發(fā)明的特征和優(yōu)點(diǎn)將變得清楚,在整個(gè)附圖中相似的參考符號代表相應(yīng)的元素。在附圖中,相似的參考數(shù)字通常表示相同的、功能上相似和/或結(jié)構(gòu)上相似的元素。一個(gè)元素第一次出現(xiàn)在其中的附圖由相應(yīng)參考數(shù)字中最左邊的(一個(gè)或多個(gè))數(shù)字表示。
具體實(shí)施例方式A.引言
本說明書公開了結(jié)合本發(fā)明特征的一個(gè)或多個(gè)實(shí)施例。公開的(一個(gè)或多個(gè))實(shí)施例僅例示本發(fā)明。本發(fā)明的范圍不限于公開的(一個(gè)或多個(gè))實(shí)施例。本發(fā)明由所附的權(quán)利要求書限定。說明書中提及的“一個(gè)實(shí)施例”、“實(shí)施例”、“示例實(shí)施例”等表示所述示例可以包括特定特征、結(jié)構(gòu)或特點(diǎn),但每個(gè)實(shí)施例都可能不一定包括該特定特征、結(jié)構(gòu)或特點(diǎn)。此外,這樣的詞語不一定指代相同的實(shí)施例。另外,當(dāng)與一個(gè)實(shí)施例相關(guān)地說明特定特征、結(jié)構(gòu)或特點(diǎn)時(shí),應(yīng)理解的是,無論是否進(jìn)行了明確說明,在本領(lǐng)域的技術(shù)人員的知識范圍內(nèi)可以與其他實(shí)施例相關(guān)地實(shí)現(xiàn)這種特征、結(jié)構(gòu)或特點(diǎn)。根據(jù)本發(fā)明一個(gè)實(shí)施例的系統(tǒng)和方法自動檢測搜索引擎的用戶何時(shí)在執(zhí)行關(guān)于特定主題的研究任務(wù)。然后基于這樣的自動檢測,可以為用戶提供對諸如研究相關(guān)工具和專業(yè)搜索之類的一個(gè)或多個(gè)特征的訪問,并且/或者為用戶提供與研究任務(wù)相關(guān)的定向廣告和/或市場事件,雖然這些示例不打算是限制性的。響應(yīng)于研究任務(wù)的檢測而自動觸發(fā)這些各種工具、廣告和事件能夠有利地改進(jìn)用戶執(zhí)行研究任務(wù)的體驗(yàn)。 圖I是可以實(shí)現(xiàn)本發(fā)明實(shí)施例的信息檢索系統(tǒng)100的方框圖。系統(tǒng)100在這里僅為了說明之目的而描述,注意,本發(fā)明的實(shí)施例可以在替代的環(huán)境下實(shí)現(xiàn)。如圖I所示,系統(tǒng)100包括搜索引擎106。一個(gè)或多個(gè)計(jì)算機(jī)104,例如第一計(jì)算機(jī)104a、第二計(jì)算機(jī)104b和第三計(jì)算機(jī)104c被連接到通信網(wǎng)絡(luò)105上。網(wǎng)絡(luò)105可以是任何類型的通信網(wǎng)絡(luò),例如局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)或通信網(wǎng)絡(luò)的組合。在實(shí)施例中,網(wǎng)絡(luò)105可以包括互聯(lián)網(wǎng)和/或內(nèi)聯(lián)網(wǎng)。計(jì)算機(jī)104可以通過網(wǎng)絡(luò)105從實(shí)體檢索文檔。在網(wǎng)絡(luò)105包括互聯(lián)網(wǎng)的實(shí)施例中,形成萬維網(wǎng)102的一部分的包括文檔103的文檔集可供計(jì)算機(jī)104通過網(wǎng)絡(luò)105檢索使用。在互聯(lián)網(wǎng)上,文檔可以通過例如http://www. yahoo, com的統(tǒng)一資源定位器(URL)并/或通過其他機(jī)制進(jìn)行識別/定位。計(jì)算機(jī)104可以通過將與文檔103相應(yīng)的URL提供給文檔服務(wù)器(圖I中未示出)而通過網(wǎng)絡(luò)105訪問文檔103。如圖I所示,搜索引擎106被耦合到網(wǎng)絡(luò)105上。搜索引擎106訪問索引了文檔(如萬維網(wǎng)102的文檔)的被存儲索引114。想要檢索與特定主題相關(guān)的一個(gè)或多個(gè)文檔但不知道該文檔的標(biāo)識符/位置的計(jì)算機(jī)104a的用戶可以通過網(wǎng)絡(luò)105向搜索引擎106提交查詢112。搜索引擎106接收查詢112,并分析索引114,以找到與查詢112相關(guān)的文檔。例如,搜索引擎106可以識別包括查詢112的術(shù)語的由索引114索引的一組文檔。該組文檔可以包括任何數(shù)量的文檔,包括幾十、幾百、幾千、幾百萬或者甚至幾十億的文檔。搜索引擎106可以使用評級或相關(guān)性功能、按照與用戶的相關(guān)性的順序?qū)z索的該組文檔進(jìn)行評級。該組中被確定為最有可能相關(guān)的文檔可以被提供到返回文檔列表的頂部,以試圖避免用戶不得不解析整組文件的情況發(fā)生。返回文檔列表可以在稱為“搜索結(jié)果頁面”的文檔的上下文中提供。搜索引擎106可以在硬件、軟件、固件或其任意組合中實(shí)現(xiàn)。例如,搜索引擎106可以包括在一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)的一個(gè)或多個(gè)處理器(例如一個(gè)或多個(gè)服務(wù)器)中運(yùn)行的軟件/固件。通過網(wǎng)絡(luò)105可訪問的搜索引擎106的示例包括但不限于Yahoo!、Search (網(wǎng)址http://www. yahoo, com)、Ask. com (網(wǎng)址http://www. ask. com)和 Google (網(wǎng)址http://www. google, com)。圖2示出了可由圖I的計(jì)算機(jī)104a_104c之一的用戶提交到搜索引擎106的示例查詢112。如圖2所示,查詢112包括一個(gè)或多個(gè)術(shù)語202,例如第一個(gè)術(shù)語202a、第二個(gè)術(shù)語202b和第三個(gè)術(shù)語202c。任何數(shù)量的術(shù)語202都可以被呈現(xiàn)在查詢中。如圖2所示,查詢112的術(shù)語202a、202b和202c分別為“1989” “紅色” “護(hù)衛(wèi)艦”。搜索引擎106將這些術(shù)語202a-202c應(yīng)用于索引114以檢索文檔定位器,例如URL,來尋找匹配“ 1989” “紅色” “護(hù)衛(wèi)艦”的一個(gè)或多個(gè)被索引文檔,并且可以根據(jù)評級來排列文檔列表。另外如圖I所示,搜索引擎106可以生成查詢?nèi)罩?08。查詢?nèi)罩?08是使用搜索引擎106進(jìn)行的搜索的記錄。查詢?nèi)罩?08可以通過將查詢術(shù)語(例如查詢112的術(shù)語202)與每個(gè)查詢的更多信息/屬性一同列出而包括查詢列表,其中每個(gè)查詢的更多信息/屬性例如是由于查詢而產(chǎn)生的文檔列表,審閱列表的用戶選擇/在其上點(diǎn)擊的(“點(diǎn)擊的”)列表中的文件的列表/指示,被點(diǎn)擊的文檔的評級,指示查詢何時(shí)被搜索引擎106接收的時(shí)間戳,識別查詢術(shù)語被提交的來源的唯一設(shè)備(例如計(jì)算機(jī)、手機(jī)等)的IP (互聯(lián)網(wǎng)協(xié)議)地址,與提交查詢術(shù)語的用戶相關(guān)聯(lián)的標(biāo)識符(例如網(wǎng)絡(luò)瀏覽器cookie中的用戶標(biāo)識符),和/或更多信息/屬性。如圖I進(jìn)一步所示,系統(tǒng)100還包括連接到搜索引擎106和查詢?nèi)罩?08的研究 任務(wù)識別系統(tǒng)116。研究任務(wù)識別系統(tǒng)116被配置成判斷搜索引擎106的用戶是否在執(zhí)行關(guān)于特定主題的研究任務(wù)。如果研究任務(wù)識別系統(tǒng)116確定搜索引擎106的用戶在執(zhí)行關(guān)于特定主題的研究任務(wù),那么研究任務(wù)識別系統(tǒng)116就可以自動觸發(fā)應(yīng)用118的執(zhí)行。根據(jù)該實(shí)現(xiàn)方式,應(yīng)用118可以包括研究工具(例如Yahoo !Search Pad)、專業(yè)搜索應(yīng)用、直接廣告交付應(yīng)用或市場事件,雖然這些示例不是限制性的。例如,用戶可以通過獲得對用于做筆記和/或進(jìn)行組織的研究工具的訪問而具有更好的搜索體驗(yàn)。研究任務(wù)識別系統(tǒng)116可能能夠提供反應(yīng)用戶研究任務(wù)的意圖的專業(yè)搜索。自動提供針對用戶研究任務(wù)的定向廣告和/或市場事件會有助于利用用戶對研究任務(wù)的意圖。通過響應(yīng)于研究任務(wù)的自動檢測而自動斷言用于觸發(fā)應(yīng)用118的運(yùn)行的觸發(fā)信號,研究任務(wù)識別系統(tǒng)116能夠有利地改進(jìn)用戶執(zhí)行研究任務(wù)的體驗(yàn)。例如,根據(jù)某些實(shí)施例,這樣的特征確保在適當(dāng)?shù)臅r(shí)間和在用戶方便的上下文中提供對針對研究任務(wù)和/或(一個(gè)或多個(gè))研究相關(guān)工具的專業(yè)搜索的訪問。該方法還代表優(yōu)于以下方法的改進(jìn)用戶必須提前認(rèn)識到關(guān)于特定主題的研究任務(wù)即將開始,然后基于該認(rèn)識而采取主動措施來初始化任何專業(yè)搜索和/或(一個(gè)或多個(gè))研究工具。后述方法需要用戶的額外規(guī)劃和努力。由研究任務(wù)識別系統(tǒng)116實(shí)現(xiàn)的方法還可以被視為優(yōu)于這樣的系統(tǒng)在該系統(tǒng)中,始終為用戶提供研究工具、專業(yè)搜索、定向廣告和/或市場事件,因?yàn)檫@實(shí)際上可能使得用戶習(xí)慣于忽視它們,特別是當(dāng)這樣的事件和(一個(gè)或多個(gè))工具在用戶執(zhí)行的多數(shù)搜索會話中無用之時(shí)。以下將詳細(xì)說明研究任務(wù)識別系統(tǒng)116自動判斷用戶是否在使用搜索引擎106執(zhí)行研究任務(wù)的方式以及研究任務(wù)識別系統(tǒng)116響應(yīng)于該判斷而斷言觸發(fā)信號的方式。相似的搜索引擎106、研究任務(wù)識別系統(tǒng)116可以在硬件、軟件、固件或其任意組合中實(shí)現(xiàn)。例如,研究任務(wù)識別系統(tǒng)116可以包括在一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)的一個(gè)或多個(gè)處理器(例如一個(gè)或多個(gè)服務(wù)器)中運(yùn)行的軟件/固件。B.研究任務(wù)識別圖3描繪了根據(jù)本發(fā)明實(shí)施例的用于自動判斷搜索引擎(例如搜索引擎106)的用戶是否在執(zhí)行關(guān)于特定主題的研究任務(wù)的方法的流程圖300。將參照系統(tǒng)100的元件來說明流程圖300的方法。然而,應(yīng)注意的是,該方法不限于該實(shí)現(xiàn)方式。而且,為了得到(一個(gè)或多個(gè))替代實(shí)施例,本領(lǐng)域的技術(shù)人員可以對流程圖300的方法進(jìn)行修改。另外,這些步驟可以按照與所示不同的順序發(fā)生,一些步驟可以同時(shí)執(zhí)行,一些步驟可以與其他步驟相結(jié)合,并且/或者一些步驟可以根據(jù)需要而不存在。如圖3所示,流程圖300的方法從步驟302開始,在該步驟中研究任務(wù)識別系統(tǒng)116生成與用戶提交到搜索引擎106的一系列查詢相關(guān)的多個(gè)特征。用戶可以是例如計(jì)算機(jī)104a-104c的任一個(gè)用戶,并且查詢可以按照前述方式通過網(wǎng)絡(luò)105從計(jì)算機(jī)104a_104c中的任一個(gè)被提交到搜索引擎106。特征可以由用于刻畫查詢的特征功能單獨(dú)地和/或成對地生成。每個(gè)特征可以涉及查詢的不同方面,例如該系列中查詢的總數(shù)、響應(yīng)于查詢而檢索的文檔的數(shù)量、查詢之間的經(jīng)過時(shí)間等。以下將詳細(xì)說明示例特征。注意,可以在研究任務(wù)識別系統(tǒng)116 (例如通過使用特征功能)針對查詢生成多個(gè)特征之前被格式化(為例如結(jié)構(gòu)化查詢)。依賴于實(shí)現(xiàn)方式,特征功能可以根據(jù)查詢?nèi)罩?08和/或直接根據(jù)搜索引擎108 來刻畫一系列查詢。此外,可以從可由維護(hù)搜索引擎106的同一實(shí)體所維護(hù)的瀏覽歷史日志(在圖I中未示出)獲得與該系列查詢相關(guān)的所有或部分信息。瀏覽歷史日志維護(hù)由用戶先前訪問的文檔的列表,無論該用戶是否通過搜索引擎106所提供的諸如搜索結(jié)果頁面的接口訪問文檔。依賴于實(shí)現(xiàn)方式,對于特定用戶的瀏覽歷史信息的維護(hù)可以或可以不需要在用于訪問文檔的計(jì)算機(jī)上安裝某種瀏覽器軟件。進(jìn)一步地,可以從可由維護(hù)搜索引擎106的同一實(shí)體所維護(hù)的一個(gè)或多個(gè)網(wǎng)絡(luò)層服務(wù)器日志獲得與該系列查詢相關(guān)的所有或部分信息。更進(jìn)一步地,可以將與該系列查詢相關(guān)的所有或部分信息本地存儲在計(jì)算機(jī)104a-104c之一上,然后作為計(jì)算機(jī)與搜索引擎106之間交互的一部分、通過網(wǎng)絡(luò)105來傳輸?,F(xiàn)在返回到圖3的說明,在步驟302中生成與用戶所提交的一系列查詢相關(guān)的特征之后,由第一機(jī)器學(xué)習(xí)檢測器接收一部分特征(特征的第一子集)。第一機(jī)器學(xué)習(xí)檢測器使用針對該系列查詢而生成的所述多個(gè)特征的第一子集來檢測搜索引擎106的用戶是否在執(zhí)行復(fù)雜研究,如步驟304所示。確切地說,第一機(jī)器學(xué)習(xí)檢測器通過測量用戶參與搜索的程度來執(zhí)行復(fù)雜研究檢測。第一機(jī)器學(xué)習(xí)檢測器使用特征的第一子集來分析該系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢以得出用戶個(gè)人參與搜索的指示,例如查詢之間經(jīng)過的時(shí)間、對用于同一查詢的結(jié)果的鏈接的連續(xù)用戶點(diǎn)擊等。以下將詳細(xì)說明第一機(jī)器學(xué)習(xí)檢測器使用特征的第一子集來檢測搜索引擎106的用戶是否在執(zhí)行復(fù)雜研究的具體方式。該步驟的輸出被表示為“復(fù)雜研究檢測”,并且取決于實(shí)現(xiàn)方式,該輸出可以按照各種方式中的一種或多種被傳遞/傳播到下一個(gè)步驟中。第二機(jī)器學(xué)習(xí)檢測器接收針對該系列查詢而生成的所述多個(gè)特征的第二子集,然后使用所述多個(gè)特征的第二子集來檢測搜索引擎106的用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù),如步驟306所示。確切地說,第二機(jī)器學(xué)習(xí)檢測器通過測量該系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢之間的主題連貫性(例如通過查找針對同一主題(因此是相同任務(wù)的一部分)的連續(xù)查詢的指示)來執(zhí)行任務(wù)檢測。
第二子集中的特征可以包括文本特征,例如連續(xù)查詢之間的文本相似性。特征的第二子集還可以包括時(shí)間的(例如時(shí)間相關(guān))特征。以下將詳細(xì)說明第二機(jī)器學(xué)習(xí)檢測器使用特征的第二子集來檢測搜索引擎106的用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)的具體方式。該步驟的輸出被表示為“任務(wù)檢測”,并且取決于實(shí)現(xiàn)方式,該輸出可以按照各種方式中的一種或多種被傳遞/傳播到隨后的步驟中??蛇x地,主題相似性檢測器可以例如通過使用主題分類樹來確定兩個(gè)或更多個(gè)連續(xù)查詢的第一和第二主題,如可選步驟308所示。然后主題相似性檢測器可以例如通過確定在分層組織的分類中與每個(gè)查詢相關(guān)聯(lián)的主題類別之間的距離來檢測所述兩個(gè)或更多個(gè)連續(xù)查詢的第一和第二查詢之間是否存在主題相似性。此處,主題檢測器可以直接分析連續(xù)的查詢并且不一定接收任何特征。以下將詳細(xì)說明主題相似性檢測器確定第一和第二主題然后檢測二者之間的任何相似性的具體方式。該步驟的輸出被表示為“主題相似性檢測”,并且取決于實(shí)現(xiàn)方式,該輸出可以按照各種方式中的一種或多種被傳遞/傳播到下一個(gè)步驟中。 在步驟310中,響應(yīng)于用戶是否在執(zhí)行復(fù)雜任務(wù)以及用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)的檢測(并且可選地響應(yīng)于主題相似性檢測),研究任務(wù)識別系統(tǒng)116判斷用戶是否在執(zhí)行研究任務(wù)。研究任務(wù)識別系統(tǒng)116可以在作出其判斷之前針對幾個(gè)連續(xù)查詢對、從機(jī)器學(xué)習(xí)檢測器接收檢測信息。例如,在一個(gè)實(shí)施例中,研究任務(wù)識別系統(tǒng)116存儲與多個(gè)連續(xù)查詢對相關(guān)聯(lián)的檢測信息,并且針對所述多個(gè)連續(xù)查詢對、基于檢測信息作出判斷。以下將詳細(xì)說明研究任務(wù)識別系統(tǒng)116判斷用戶是否在執(zhí)行研究任務(wù)的具體方式。該步驟的輸出被表示為“研究任務(wù)觸發(fā)”。I.研究任務(wù)識別系統(tǒng)以下將參照圖4詳細(xì)說明研究任務(wù)識別系統(tǒng)116。研究任務(wù)識別系統(tǒng)116可以實(shí)現(xiàn)用于自動檢測搜索引擎(例如搜索引擎106)的用戶在執(zhí)行針對特定主題的研究任務(wù)的方法300。注意,圖4的方框圖只是示例性的。另外,圖4的各方框/單元可能以與所示順序不同的順序出現(xiàn),或者可能根據(jù)需要而不存在。而且,各種其他方框/單元可能根據(jù)需要被包含在內(nèi)。例如,如果執(zhí)行方法300的研究任務(wù)識別系統(tǒng)116是在硬件中執(zhí)行,則物理和/或邏輯信號就可以在執(zhí)行該方法的各方框/單元之間傳播。例如,研究任務(wù)識別系統(tǒng)116可以使用可編程邏輯(例如FPGA)或使用定制硬件芯片(例如ASIC)等來實(shí)現(xiàn)。如果方法300是在軟件中實(shí)現(xiàn)的,則可以使用軟件對象、值、數(shù)據(jù)、數(shù)據(jù)地址、指針和/或函數(shù)調(diào)用。研究任務(wù)識別系統(tǒng)116還可以在軟件和硬件二者中實(shí)現(xiàn)。例如,方法300的一部分可以在硬件中實(shí)現(xiàn),而另一部分可以使用基于軟件的部件,例如基于軟件的機(jī)器學(xué)習(xí)部件來實(shí)現(xiàn)。會話單元402可以接收由用戶提交到搜索引擎106的一系列查詢以及針對該系列查詢的任何搜索結(jié)果和/或這些搜索結(jié)果所鏈接到的任何文檔/網(wǎng)頁,并生成一系列結(jié)構(gòu)化查詢。如上所述,用戶可以是例如圖I的計(jì)算機(jī)104a-104c的任何用戶。例如,用戶可能在一個(gè)或多個(gè)研究會話期間使用搜索引擎106。研究會話可以因各種原因而被執(zhí)行,因此可以包含搜索各種相關(guān)和不相關(guān)的主題的一系列查詢。會話單元402可以從搜索引擎106和/或查詢?nèi)罩?08接收該系列查詢/搜索結(jié)果/文檔/網(wǎng)頁。然后會話單元402可以通過該系列查詢生成一系列結(jié)構(gòu)化查詢。結(jié)構(gòu)化查詢可以簡單地為這些查詢提供統(tǒng)一的格式。一種這樣的統(tǒng)一格式是<q,u, t, C格式,其中是q查詢,u是用戶,t是提交查詢的時(shí)間,并且C是用于會話的點(diǎn)擊信息,該格式可以被存儲在查詢?nèi)罩?08中。注意,在本文檔中,術(shù)語“一系列查詢”可以指一系列查詢或一系列結(jié)構(gòu)化查詢。如以上參照方法步驟302所述,特征單元404可以接收和分析來自會話單元402的一系列查詢(例如一系列結(jié)構(gòu)化查詢),以及針對該系列查詢的任何搜索結(jié)果和/或搜索結(jié)果所鏈接到的任何文檔。具體而言,特征單元404可以例如在查詢對的基礎(chǔ)上通過應(yīng)用分析該系列查詢的一個(gè)或多個(gè)特征功能(“特征功能”)來分析該系列查詢/搜索結(jié)果/文檔。換言之,特征單元404可以一次輸出針對一對查詢的多個(gè)特征。特征單元404還可以輸出刻畫搜索結(jié)果和/或文檔的多個(gè)特征。在以下示例中,該個(gè)或多個(gè)特征功能被應(yīng)用于查詢,但相同的原理適用于分析搜索結(jié)果/文檔時(shí)。各種特征功能可以被研究任務(wù)識別系統(tǒng)116中的特征單元404使用。由它們各自的特征功能生成的這些特征中的一個(gè)或多個(gè)特征可以被研究檢測器406和/或任務(wù)檢測器408中的一個(gè)或多個(gè)考慮。在一個(gè)實(shí)施例中,檢測器406和408中的每一個(gè)可以使用特征的不同子集來執(zhí)行針對每個(gè)查詢對的檢測功能。注意,以下特征僅通過舉例的方 式被說明,不打算限制本發(fā)明。特征單元404的特征功能可以被應(yīng)用于一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢。例如,在圖5的一系列查詢500中,特征功能可以被應(yīng)用于第一查詢ql 502和第二查詢q2504。這些特征功能可以包括針對文本特征、會話特征和時(shí)間相關(guān)特征等的功能。針對文本特征的特征功能能夠計(jì)算兩個(gè)或更多個(gè)連續(xù)查詢之間的文本相似性。針對會話特征的特征功能能夠計(jì)算用于兩個(gè)或更多個(gè)連續(xù)查詢的會話特性。針對時(shí)間相關(guān)特征的特征功能能夠計(jì)算用于兩個(gè)或更多個(gè)連續(xù)查詢的時(shí)間特性。隨后,第一和第二機(jī)器學(xué)習(xí)檢測器406和408可以從特征單元404接收與一系列查詢/研究結(jié)果/文檔相關(guān)的輸出(即多個(gè)特征)。在一個(gè)實(shí)施例中,第一機(jī)器學(xué)習(xí)檢測器406可以是研究檢測器,并且第二機(jī)器學(xué)習(xí)檢測器408可以是任務(wù)檢測器?;诮邮盏亩鄠€(gè)特征,第一和第二機(jī)器學(xué)習(xí)檢測器406和408各自可以執(zhí)行關(guān)于該系列查詢/研究結(jié)果/文檔的相應(yīng)判斷。繼續(xù)上述示例,研究檢測器406和任務(wù)檢測器408可以接收刻畫兩個(gè)查詢ql 502和q2 504的多個(gè)特征。研究檢測器406和任務(wù)檢測器408中的每一個(gè)可以接收和/或使用所述多個(gè)特征的不同子集一例如,研究檢測器406可以接收和/或使用所述多個(gè)特征的第一子集(“第一特征子集”),并且任務(wù)檢測器408可以接收和/或使用所述多個(gè)特征的第二子集(“第二特征子集”)。根據(jù)實(shí)現(xiàn)方式,第一和第二特征子集可以包含不同的特征、相同的特征,或者這兩個(gè)特征子集可以包含重疊特征。這些特征子集可以基于它們刻畫查詢的能力以每個(gè)相應(yīng)的檢測器406和408所需的方式(由系統(tǒng)開發(fā)人員)進(jìn)行選擇。研究檢測器406和任務(wù)檢測器408 二者都可以使用機(jī)器學(xué)習(xí)規(guī)則來處理第一和第二特征子集以基于它們各自的機(jī)器學(xué)習(xí)規(guī)則執(zhí)行相應(yīng)的判斷。研究檢測器406和任務(wù)檢測器408 二者都可以在接收所述多個(gè)特征之前被訓(xùn)練。例如,如圖6A所示,研究檢測器406和任務(wù)檢測器408 (為了簡單起見均被示為檢測器602)二者都可以通過輸入一組訓(xùn)練數(shù)據(jù)604而被訓(xùn)練。在一個(gè)實(shí)施例中,訓(xùn)練數(shù)據(jù)604包括一組查詢對,以及針對每個(gè)查詢對的一組特征和預(yù)期結(jié)果。預(yù)期結(jié)果可以由人工編輯器(例如注解器)提供。例如,人工編輯器可以為每個(gè)查詢對提供標(biāo)簽(即預(yù)期結(jié)果),該標(biāo)簽指示所述查詢對是否代表用于研究檢測器406的研究,或者所述查詢對是否代表用于任務(wù)檢測器408的任務(wù)。檢測器602被配置成自動處理訓(xùn)練數(shù)據(jù),以例如通過使用本領(lǐng)域已知的任何監(jiān)督學(xué)習(xí)法來構(gòu)造機(jī)器學(xué)習(xí)規(guī)則。例如,檢測器602可以基于增長的決策樹來建立機(jī)器學(xué)習(xí)規(guī)貝U。因此,檢測器602可以使用其相應(yīng)的訓(xùn)練數(shù)據(jù)來導(dǎo)出用于基于特征來判斷查詢對是否代表研究(對于研究檢測器406 )或任務(wù)(對于任務(wù)檢測器408 )的模型或算法。在一個(gè)實(shí)施例中,檢測器602可以得知特定特征對于作出決策而言是特別相關(guān)的。在該情況下,該特征將在算法中較突出地顯現(xiàn)。對比之下,如果檢測器602得知一個(gè)特定特征對于作出該決策而言不是相關(guān)的,則該特征可以不在算法中突出地顯現(xiàn)或者根本不顯現(xiàn)。一旦建立了用于檢測器602的機(jī)器學(xué)習(xí)規(guī)則,就可以使用本領(lǐng)域已知的任何技術(shù)驗(yàn)證這些機(jī)器學(xué)習(xí)規(guī)則。因此,由檢測器602接收的訓(xùn)練數(shù)據(jù)604可以包括與訓(xùn)練的成對連續(xù)查詢(例如圖5的一系列查詢500)相對應(yīng)的一組特征(即通過特征功能分析的結(jié)果)。例如,該系列查詢 500的五個(gè)連續(xù)查詢包括四對查詢查詢ql502和q2 504、查詢q2 504和q3 506、查詢q3506和q4 508以及查詢q4 508和q5 510。示出了對于五個(gè)連續(xù)查詢ql_q5 502-510的四個(gè)查詢對,以說明在訓(xùn)練以及分析和刻畫該系列查詢500時(shí)使用的用于該系列查詢500的(例如由兩個(gè)連續(xù)查詢組成的一對查詢的)移動窗口的概念。在檢測器602的機(jī)器訓(xùn)練期間,查詢可以被輸入到特征單元404中以生成其特征。預(yù)期訓(xùn)練結(jié)果也與每對連續(xù)查詢相關(guān)聯(lián)。例如,研究檢測器406的訓(xùn)練結(jié)果可以指示訓(xùn)練的成對查詢是否對應(yīng)于用戶執(zhí)行復(fù)雜研究(例如用戶參與研究)。類似地,任務(wù)檢測器408的訓(xùn)練結(jié)果可以指示訓(xùn)練的成對查詢是否對應(yīng)于用戶執(zhí)行與特定信息需求相關(guān)的任務(wù)(例如相應(yīng)的成對查詢具有主題連貫性)。每個(gè)查詢對的訓(xùn)練結(jié)果可以例如通過人工注解器手動生成,或者例如通過訓(xùn)練程序自動生成。研究檢測器現(xiàn)在返回到圖4的說明,研究檢測器406可以通過測試用戶對正被執(zhí)行的實(shí)際研究的參與程度來測試兩個(gè)連續(xù)查詢是否為復(fù)雜研究的一部分。例如,用戶可能在一個(gè)或多個(gè)研究會話期間使用搜索引擎,例如搜索引擎106。研究會話可以因各種原因而執(zhí)行,因此可以包含對各種相關(guān)和不相關(guān)的主題的搜索查詢。研究檢測器406可以檢驗(yàn)一對查詢的特征的第一子集,并應(yīng)用機(jī)器學(xué)習(xí)規(guī)則以基于(通過將機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于特征的第一子集而確定的)用戶的參與來判斷該對查詢是否為復(fù)雜研究的一部分。用于研究檢測器406的機(jī)器學(xué)習(xí)規(guī)則能夠檢驗(yàn)特征,例如指示用戶對實(shí)際研究的參與程度的基于會話的特征。例如,如果接收的特征指示大量用戶點(diǎn)擊、自從研究會話開始的大量查詢、和/或如果實(shí)際查詢的長度長(例如較長查詢可以指示復(fù)雜查詢),則用于研究檢測器406的機(jī)器學(xué)習(xí)規(guī)則可以檢測到復(fù)雜研究。研究檢測器406主要測試在搜索處理期間用戶的參與程度,例如用戶付出的努力。因此,研究檢測器406可以接收針對兩個(gè)或更多個(gè)查詢的第一特征子集,然后使用機(jī)器學(xué)習(xí)規(guī)則來檢測用戶是否在執(zhí)行對于這兩個(gè)或更多個(gè)查詢的復(fù)雜研究,如以上參照方法步驟304所述。例如,研究檢測器406可以接收針對第一查詢ql 502和第二查詢q2504的第一特征子集,并使用機(jī)器學(xué)習(xí)規(guī)則、針對第一查詢ql 502和第二查詢q2 504來生成指明用戶是否在執(zhí)行復(fù)雜研究的研究檢測結(jié)果。除了生成研究檢測結(jié)果之外,研究檢測器406還可以生成指示研究檢測結(jié)果的置信的統(tǒng)計(jì)度量的相關(guān)聯(lián)的置信度(例如90的置信度可以指示在100個(gè)測試結(jié)果中,預(yù)計(jì)有90個(gè)可以具有相同的預(yù)期結(jié)果)。用于研究檢測器406的機(jī)器學(xué)習(xí)規(guī)則在這里可以被稱作第一機(jī)器學(xué)習(xí)規(guī)則。任務(wù)檢測器任務(wù)檢測器408可以通過在正被執(zhí)行的搜索中測試連續(xù)查詢之間的主題連貫性來測試兩個(gè)連續(xù)查詢(即一對查詢)是否為同一任務(wù)的一部分。例如,研究會話可以因各種原因而執(zhí)行,因此可以包含對各種相關(guān)和不相關(guān)的主題的搜索查詢。任務(wù)檢測器408可以檢驗(yàn)一對查詢的特征的第一子集,并應(yīng)用機(jī)器學(xué)習(xí)規(guī)則以基于(通過將機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于特征的第二子集而確定的)主題連貫性來判斷該對查詢是否指示用戶在執(zhí)行與特定信息需求相關(guān)的任務(wù)。用于任務(wù)檢測器408的機(jī)器學(xué)習(xí)規(guī)則能夠檢驗(yàn)特征,例如指示該對查詢中的第一和第二查詢之間的文本相似性的基于文本的特征,以及可以表明第一和第二查詢在時(shí)間上有多接近的時(shí)間相關(guān)特征。例如,如果查詢ql 502和q2504之間存在文本相似性,則用于任務(wù)檢測器408的機(jī)器學(xué)習(xí)規(guī)則可以檢測到用戶在執(zhí)行與特定信息需求相關(guān)的任務(wù)。在一個(gè)實(shí)施例中,任務(wù)檢測器408還可以使用時(shí)間相關(guān)特征來查看兩個(gè)查詢ql502 和q2504是否在相近的時(shí)間作出。因此,如以上參照方法步驟306所述,任務(wù)檢測器408可以接收第二特征子集,然后檢測用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)。例如,任務(wù)檢測器408可以接收針對第一查詢502和第二查詢504的第二特征子集,并使用機(jī)器學(xué)習(xí)規(guī)則、針對第一查詢502和第二查詢504來生成指明用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)的任務(wù)檢測結(jié)果。除了生成任務(wù)檢測結(jié)果之外,任務(wù)檢測器408還可以生成指示任務(wù)檢測結(jié)果的置信的統(tǒng)計(jì)度量的相關(guān)聯(lián)的置信度。用于任務(wù)檢測器408的機(jī)器學(xué)習(xí)規(guī)則在這里可以被稱作第二機(jī)器學(xué)習(xí)規(guī)則。主題分類器如以上參照可選方法步驟308所述,主題分類器410還可以從會話單元402接收一系列查詢/研究結(jié)果/文檔,并確定該系列查詢500中的第一和第二連續(xù)查詢(例如分別為第一查詢502和第二查詢504)的第一和第二主題。然后主題分類器410可以判斷第一和第二主題之間是否存在相似性,從而判斷第一查詢502和第二查詢504之間是否存在主題相似性。主題分類器410可以使用基于主題類別的分層組織分類的層次樹來刻畫第一查詢502和第二查詢504。這種分層組織分類的一個(gè)示例包括在深度為七的層次樹中組織的1026個(gè)主題類別,但作為替代,也可以使用具有不同數(shù)量的主題類別和/或深度的其他分層系統(tǒng)。除了此處所述的分層組織分類技術(shù)之外,還可以補(bǔ)充使用或者替代使用其他分層組織分類技術(shù)。在一個(gè)實(shí)施例中,主題分類器410所使用的主題分類系統(tǒng)可以是搜索引擎106已經(jīng)使用的主題分類系統(tǒng)。隨后,主題分類器410可以使用主題確定功能來確定第一查詢502和第二查詢504中每一個(gè)的主題類別(即層次樹的節(jié)點(diǎn))。主題分類器410可以確定用于第一查詢502和第二查詢504的相應(yīng)層次樹節(jié)點(diǎn)之間的距離。例如,如果用于與第一查詢502相關(guān)聯(lián)的主題類別的節(jié)點(diǎn)和用于與第二查詢504相關(guān)聯(lián)的主題類別的節(jié)點(diǎn)之間的層次樹上的距離在預(yù)定值(例如距離二)內(nèi),則主題分類器410就可以輸出指示在第一查詢502和第二查詢504之間檢測到主題相似性的結(jié)果。主題分類器410還可以輸出與主題相似性結(jié)果相關(guān)聯(lián)的置信度。例如,在一個(gè)實(shí)施例中,第一查詢502 “羅馬”和第二查詢504 “巴黎”可以映射到層次樹分開的節(jié)點(diǎn)上,共享相同的上一父節(jié)點(diǎn)“歐洲”。由于與第一查詢502相關(guān)聯(lián)的節(jié)點(diǎn)和與第二查詢504相關(guān)聯(lián)的節(jié)點(diǎn)二者共享相同的父節(jié)點(diǎn)“歐洲”,因此與第一查詢502相關(guān)聯(lián)的節(jié)點(diǎn)和與第二查詢504相關(guān)聯(lián)的節(jié)點(diǎn)之間的距離為二。由于距離二可以在預(yù)定值內(nèi),因此主題分類器410可以指示在第一查詢502和第二查詢504之間檢測到主題相似性。然而,其他主題分類和主題相似性檢測方法也是可能的?;旌掀麟S后,混合器412可以針對一系列查詢500從研究檢測器406、任務(wù)檢測器408和(可選的)主題分類器410中的每一個(gè)接收結(jié)果?;旌掀?12還可以從特征單元404接收特征,并且從檢測器406和408的每一個(gè)(并可選地從主題分類器410)接收與結(jié)果相關(guān)聯(lián)的置信度?;旌掀?12可以至少基于復(fù)雜研究檢測和任務(wù)檢測并且還可選地基于主題分類器檢測、使用另一組機(jī)器學(xué)習(xí)規(guī)則來判斷310用戶是否在執(zhí)行研究任務(wù)。在一個(gè)實(shí)施例中,混合器412可以使用兩個(gè)連續(xù)的查詢對來作出判斷310。在其他實(shí)施例中,混合器412可以在作出判斷310時(shí)使用三個(gè)、四個(gè)或更多個(gè)連續(xù)的查詢對??商娲兀旌掀?12可以在作出判斷310時(shí)使用不連續(xù)的查詢對。關(guān)于圖5,混合器412可以針對第一對查詢ql 502和q2 504以及隨后的第二對查詢q2 504和q3 506而使用來自研究檢測器406和任務(wù)檢測器408以及可選地來自主題分 類器410的結(jié)果?;旌掀?12還可以檢驗(yàn)從特征單元404直接接收的直接針對這兩個(gè)查詢對的一個(gè)或多個(gè)特征。為了對多個(gè)查詢對作出判斷310,混合器412使用狀態(tài)數(shù)據(jù)414來存儲先前的復(fù)雜研究檢測、任務(wù)檢測和/或主題分類器的結(jié)果以及關(guān)于用戶是否在執(zhí)行研究任務(wù)的先前判斷310。換言之,混合器412在作出關(guān)于用戶的研究任務(wù)的當(dāng)前判斷310時(shí)使用存儲的對于先前的查詢對的檢測結(jié)果。在一個(gè)實(shí)施例中,由于混合器412的結(jié)果可以用于觸發(fā)應(yīng)用118 (例如(一個(gè)或多個(gè))研究工具、(一個(gè)或多個(gè))專業(yè)搜索、(一個(gè)或多個(gè))定向廣告和/或(一個(gè)或多個(gè))市場事件),因此混合器412還可以在事件數(shù)據(jù)416中跟蹤當(dāng)前是否提供了應(yīng)用118。如果已經(jīng)提供了應(yīng)用118,則即使混合器412確定用戶在執(zhí)行研究任務(wù),混合器412也可以不生成另一個(gè)觸發(fā)信號??商娲?,無論當(dāng)前事件狀態(tài)如何(無論事件數(shù)據(jù)416是否指示提供了應(yīng)用118),如果混合器412確定用戶在執(zhí)行研究任務(wù),則它都可以生成觸發(fā)信號,因此接收觸發(fā)信號的任何方框/邏輯/單元都將需要確定如何對觸發(fā)信號作出反應(yīng)。在一個(gè)實(shí)施例中,混合器412可以包括對用戶是否在執(zhí)行研究任務(wù)作出判斷310的混合器決策器單元418?;旌掀鳑Q策器單元418可以使用存儲的來自研究檢測器406和任務(wù)檢測器408以及可選地來自主題分類器410的、針對第一對查詢ql 502和q2 504以及第二對查詢q2 504和q3 506的結(jié)果(如使用狀態(tài)數(shù)據(jù)414)?;旌掀鳑Q策器單元418還可以檢驗(yàn)直接從功能單元404接收的對于這兩個(gè)查詢對的一個(gè)或多個(gè)特征,以及任何其他狀態(tài)數(shù)據(jù)414和/或事件數(shù)據(jù)416?;旌掀?12 (和/或混合器決策器單元418)可以被實(shí)現(xiàn)為另一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)。在該情況下,混合器412可以使用邏輯回歸來學(xué)習(xí)規(guī)則,但也可以替代地使用其他機(jī)器學(xué)習(xí)技術(shù)。例如,混合器412可以按照與參照圖6A所述方式類似的方式如圖6B所示那樣被訓(xùn)練。在混合器612的訓(xùn)練期間,對來自檢測器406和408(和可選地來自主題分類器410)以及特征單元404的、針對若干個(gè)查詢對的結(jié)果進(jìn)行模擬的訓(xùn)練數(shù)據(jù)614可以被輸入到混合器612中。訓(xùn)練數(shù)據(jù)614還包括與每個(gè)查詢對相關(guān)聯(lián)的預(yù)期訓(xùn)練結(jié)果。訓(xùn)練數(shù)據(jù)614可以包括針對連續(xù)幾個(gè)查詢對的數(shù)據(jù)。一旦混合器612學(xué)習(xí)了機(jī)器規(guī)則,這些規(guī)則就可以根據(jù)需要被驗(yàn)證。因此,一旦學(xué)習(xí)了(并且可選地驗(yàn)證了)用于混合器412 (和/或混合器決策器單元418)的規(guī)則,混合器412就可以在內(nèi)部生成概率p,概率P指示用戶是否在執(zhí)行研究任務(wù)的概率。因此概率P可以是對來自檢測器406和408 (和可選地來自主題分類器410)的、針對這兩個(gè)連續(xù)查詢對的結(jié)果應(yīng)用學(xué)習(xí)規(guī)則所得的結(jié)果。在一個(gè)實(shí)施例中,混合器412可以隨后使用針對這兩個(gè)連續(xù)查詢對的概率P來基于觸發(fā)閾值T、助推因子B和一些另外的規(guī)則等生成觸發(fā)信號。注意,除此處所述的示例性閾值和因子之外還可以補(bǔ)充使用或者替代地 使用其他閾值和/或因子。這些另外的規(guī)則可以對當(dāng)前判斷起到助推作用或者將其列入黑名單。具體而言,如果混合器412從主題分類器410接收到這樣的信號第一和第二主題中的至少一個(gè)包括預(yù)定流行研究主題,這兩個(gè)或更多個(gè)連續(xù)查詢的重要性就可以例如通過降低閾值T而被提高。例如,如果第一主題或第二主題中的任何一個(gè)是預(yù)定流行主題(例如如果它在助推列表上),則可以將閾值T與助推因子B相除,其結(jié)果是閾值T降低。示例性流行研究主題包括針對旅行、健康和職位搜索等的研究主題??商娲?,如果混合器412從主題分類器410接收到這樣的信號第一和第二主題中的至少一個(gè)包括被列入黑名單的研究主題,則這兩個(gè)或更多個(gè)連續(xù)查詢的重要性至少可以被大大限制,或者判斷可以被完全取消。例如,觸發(fā)閾值T可以被提高預(yù)定因子(例如黑名單因子)。在一個(gè)實(shí)施例中,混合器412可以簡單地確定用戶沒有在執(zhí)行研究任務(wù),無論來自其他檢測器406和408 (或者來自主題分類器410)的是什么結(jié)果。示例性的列入黑名單的研究主題可以包括成人主題的搜索、非法搜索等。2.特征所述多個(gè)特征可以由特征單元404使用被應(yīng)用于分析和刻畫一系列查詢500的多個(gè)特征功能來生成。例如,特征功能可以被應(yīng)用于以查詢對(例如第一查詢502和第二查詢504)為基礎(chǔ)來分析該系列查詢500。特征功能404可以為每個(gè)查詢對生成多個(gè)特征。檢測器406和408的每一個(gè)可以根據(jù)它們各自檢測的需求而使用所述多個(gè)特征的不同子集。文本特征在一個(gè)實(shí)施例中,針對文本特征的特征功能(文本特征功能)被應(yīng)用于計(jì)算兩個(gè)或更多個(gè)連續(xù)查詢之間的文本相似性。例如,可以對第一查詢ql 502和第二查詢q2 504計(jì)算文本特征。文本特征可以包括這兩個(gè)連續(xù)查詢ql和q2中的每一個(gè)的查詢術(shù)語的長度和/或數(shù)量、這兩個(gè)連續(xù)查詢ql和q2之間的余弦相似度、這兩個(gè)連續(xù)查詢ql和q2的杰卡德(Jaccard)系數(shù)、這兩個(gè)連續(xù)查詢ql和q2的字符交集的大小和/或這兩個(gè)連續(xù)查詢ql和q2之間的Levenshtein編輯距離等。該系列查詢中的查詢的術(shù)語之間的文本相似度的度量還可以包括本領(lǐng)域中已知的用于測量兩個(gè)查詢502和504的不同字或字串之間文本相似度的各種技術(shù)中的任一技術(shù)。例如,這些技術(shù)可以涉及識別這些不同字或字串之間的共同術(shù)語或基本概念。會話特征在一個(gè)實(shí)施例中,針對會話特征的特征功能(會話特征功能)被應(yīng)用于計(jì)算兩個(gè)或更多個(gè)連續(xù)查詢(例如第一查詢502和第二查詢504)的會話特性。例如,會話特征可以包括當(dāng)前搜索會話中的用戶點(diǎn)擊和/或查詢的次數(shù)和/或自從上次用戶點(diǎn)擊以來的用戶點(diǎn)擊和/或查詢的次數(shù)等。其他會話特征可以包括在信息檢索會話期間訪問的文檔的數(shù)目。例如當(dāng)用戶激活由搜索引擎106提供的搜索結(jié)果頁面上文檔的鏈接時(shí),該文檔可以被訪問。訪問的文檔的數(shù)目可以被單獨(dú)分析,與文檔被識別所 針對的特定查詢相關(guān)地被分析,或者與用戶提交的查詢的總次數(shù)相關(guān)地被分析。時(shí)間特征在一個(gè)實(shí)施例中,針對時(shí)間相關(guān)特征的特征功能(時(shí)間相關(guān)特征功能)被配置成計(jì)算兩個(gè)或更多個(gè)連續(xù)查詢(例如第一查詢502和第二查詢504)的時(shí)間特性。例如,時(shí)間相關(guān)特征包括用戶張貼第一查詢502與第二查詢504之間經(jīng)過的時(shí)間、這兩個(gè)查詢之間經(jīng)過的時(shí)間的倒數(shù)以及包含兩個(gè)查詢502和504的會話(即信息檢索會話)的總會話時(shí)間等。其他特征在一個(gè)實(shí)施例中,特征功能還可以測量由搜索引擎106響應(yīng)于接收到這兩個(gè)連續(xù)查詢502和504中的每一個(gè)而識別的文檔之間的相似度。這些文檔相關(guān)特征還可以用于辨別用戶對該部分的研究任務(wù)意圖。比較文檔可以包括僅比較由搜索引擎106響應(yīng)于這兩個(gè)連續(xù)查詢502和504而識別的文檔的子集。例如,可以比較被識別為與這兩個(gè)連續(xù)查詢502和504中的每一個(gè)最相關(guān)的預(yù)定數(shù)量的文檔??商娲?,可以在比較中只使用在包含這兩個(gè)連續(xù)查詢502和504的信息檢索會話期間由用戶訪問的文檔。例如,比較文檔可以包括比較文檔內(nèi)的文本,或比較代表文檔內(nèi)容的其他信息,例如文檔的標(biāo)題、與文檔相關(guān)聯(lián)的URL、由搜索引擎106生成的文檔的摘要或提要、與文檔相關(guān)聯(lián)的標(biāo)志或與文檔相關(guān)聯(lián)的各種元數(shù)據(jù)。當(dāng)比較若干文檔內(nèi)的文本時(shí),可以僅比較選擇部分的文本。例如,在一個(gè)實(shí)施例中,只比較每個(gè)文檔內(nèi)的一定數(shù)量的最頻繁出現(xiàn)的術(shù)語。在待比較的信息包括文本的情況下,現(xiàn)有技術(shù)中已知的用于測量不同字或字串之間的相似度的多種多樣的技術(shù)中的任一技術(shù)均可用于提供相似性度量。如以上指出的,這些技術(shù)可以涉及識別這些不同字或字串之間的共同術(shù)語或基本概念。以此方式識別的共同術(shù)語或基本概念可以進(jìn)一步用于幫助識別并描述研究會話的主題(如果檢測到了主題)。相關(guān)領(lǐng)域的(一個(gè)或多個(gè))技術(shù)人員將容易理解,除了所描述的特征之外,可以取代或補(bǔ)充地考慮以上列出的特征的其他類型。3.調(diào)諧研究任務(wù)識別系統(tǒng)在一個(gè)實(shí)施例中,系統(tǒng)管理員可以例如通過調(diào)諧混合器412和/或混合器決策器單元418來調(diào)諧研究任務(wù)識別系統(tǒng)116的靈敏度。例如,可以根據(jù)真實(shí)世界觸發(fā)數(shù)據(jù)(例如事件是否被觸發(fā)得太快或不夠快)來將混合器412的觸發(fā)閾值T設(shè)置得較高或較低。真實(shí)世界觸發(fā)數(shù)據(jù)可以通過可用性研究、市場營銷研究、(一個(gè)或多個(gè))用戶的特定需求以及地理因素來收集。例如,觸發(fā)閾值T可以被修改以支持精確度或再調(diào)用(recall)。較高的精確度指示用戶執(zhí)行研究任務(wù)的較高概率,而較高再調(diào)用指示較高的觸發(fā)概率。一些地理區(qū)域可能支持精確度,意味著除非研究任務(wù)識別系統(tǒng)116對于正在發(fā)生的研究任務(wù)具有高置信度,否則(一個(gè)或多個(gè))事件不會被觸發(fā),或者換句話說,會有小的誤報(bào)率。相反地,其他地理區(qū)域可能支持再調(diào)用,意味著即使研究任務(wù)識別系統(tǒng)116對于正在發(fā)生的研究任務(wù)具有中等置信度,(一個(gè)或多個(gè))事件也會被觸發(fā),或者換句話說,會有較高的誤報(bào)率。此外,在一個(gè)實(shí)施例中,系統(tǒng)管理員可以調(diào)諧由研究任務(wù)識別系統(tǒng)116中的混合器412和/或混合器決策器單元418使用的每個(gè)檢測器的相對影響。例如,主題分類器410的相對權(quán)重可以基于(一個(gè)或多個(gè))用戶的特定需求和/或其他因素而被增大或減小。在一個(gè)實(shí)施例中,混合器412可能響應(yīng)于系統(tǒng)管理員對由混合器412使用的每個(gè)檢測器的相對影響的調(diào)諧而被再訓(xùn)練,以便重新學(xué)習(xí)和/或修改其機(jī)器學(xué)習(xí)規(guī)則。在一個(gè)實(shí)施例中,混合器412可能能夠響應(yīng)于系統(tǒng)管理員對由混合器412使用的每個(gè)檢測器的相對影響的調(diào)諧而簡單地在其機(jī)器學(xué)習(xí)規(guī)則中使用不同的用于每個(gè)檢測器的權(quán)重和/或系數(shù),而無需混合器412被重新訓(xùn)練以學(xué)習(xí)新的機(jī)器學(xué)習(xí)規(guī)則。4.替代的研究任務(wù)識別系統(tǒng)如圖7所示,在一個(gè)實(shí)施例中,研究任務(wù)識別系統(tǒng)116可以包括會話單元702、特征單元704、(一個(gè)或多個(gè))檢測器706和(一個(gè)或多個(gè))機(jī)器學(xué)習(xí)系統(tǒng)708。會話單元702可以基本上類似于圖4中的會話單元402并且具有相似的功能。特征單元704也可以基本上類似于圖4中的特征單元404并且具有相似的功能。檢測器706可以被配置成執(zhí)行研究檢測器406、任務(wù)檢測器408以及可選地主題分類器410的功能。例如,檢測器706可以被配置成從特征單元704接收多個(gè)特征并且應(yīng)用機(jī)器學(xué)習(xí)規(guī)則(或一組硬編碼規(guī)則)來創(chuàng)建與置信度相關(guān)聯(lián)的兩個(gè)或更多個(gè)分開的結(jié)果。因此,檢測器706基于生成的特征來檢測用戶是否在執(zhí)行復(fù)雜任務(wù)、判斷用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)、并且可選地檢測一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢之間是否存在主題相似性。因此,檢測器706可以具有能夠執(zhí)行研究檢測器406、任務(wù)檢測器408以及可選地·主題分類器410的功能的單組機(jī)器學(xué)習(xí)規(guī)則??商娲?,檢測器706可以具有針對研究檢測器406、任務(wù)檢測器408以及可選地主題分類器410中每一個(gè)功能的分開的多組機(jī)器學(xué)習(xí)規(guī)則。在任一情況中,檢測器706都可以傳播將機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于機(jī)器學(xué)習(xí)系統(tǒng)708的結(jié)果??商娲?,檢測器706可以使用針對研究檢測器406、任務(wù)檢測器408以及可選地主題分類器410中的每一個(gè)功能的硬編碼規(guī)則。除了內(nèi)部狀態(tài)數(shù)據(jù)414和事件數(shù)據(jù)416都可以被狀態(tài)單元710存儲之外,機(jī)器學(xué)習(xí)系統(tǒng)708可以按照與圖4的混合器412相似的方式來運(yùn)行。應(yīng)理解的是,研究任務(wù)識別系統(tǒng)116可以根據(jù)需要被實(shí)現(xiàn)為參照圖4和圖7來描述的實(shí)施例的任意組合。5.模塊化系統(tǒng)在一個(gè)實(shí)施例中,研究任務(wù)識別系統(tǒng)116可以是模塊化系統(tǒng)。模塊性使研究任務(wù)識別系統(tǒng)116的各部分能夠被添加、移除和/或修改,而不必影響研究任務(wù)識別系統(tǒng)116的其他部分。在某些情形下,混合器412和/或一個(gè)或多個(gè)檢測器406和408的機(jī)器學(xué)習(xí)規(guī)
則可能需要被重新訓(xùn)練。例如,除了參照圖4和圖7來描述的檢測器模塊之外,研究任務(wù)識別系統(tǒng)116可以使用其他的檢測器模塊。例如,新的檢測器單元可以被配置成檢測針對兩個(gè)連續(xù)查詢的特征的第三子集是否指示這兩個(gè)連續(xù)查詢涉及相同的商業(yè)產(chǎn)品。在另一個(gè)示例中,另外的特征可以被添加到特征單元404中。這些另外的特征可以僅由研究檢測器406使用,而不由任務(wù)檢測器408使用。在該情況下,只有用于研究檢測器406的機(jī)器學(xué)習(xí)規(guī)則可能需要被重新學(xué)習(xí)(例如通過重新訓(xùn)練研究檢測器406以學(xué)習(xí)新的或改變的第一機(jī)器學(xué)習(xí)規(guī)則)。由研究檢測器406使用該另外的特征可以使研究檢測器406更加精確。然而,研究檢測器406對混合器412的輸出是同樣的,因此混合器412中的機(jī)器學(xué)習(xí)規(guī)則不受這些另外特征的影響。因此可以看出,研究任務(wù)識別系統(tǒng)116的模塊性給予了系統(tǒng)架構(gòu)師在設(shè)計(jì)和維護(hù)定制的研究任務(wù)識別系統(tǒng)116時(shí)很大的靈活性。6.用于專業(yè)搜索應(yīng)用的下一個(gè)查詢的識別在一個(gè)實(shí)施例中,研究任務(wù)識別系統(tǒng)116可以被用于改進(jìn)被識別為研究任務(wù)的一部分的查詢的搜索結(jié)果。例如,如果一系列查詢中的三個(gè)連續(xù)查詢被識別為研究任務(wù)的一部分(即被使用以便識別研究任務(wù)),則研究任務(wù)識別系統(tǒng)116就可能能夠猜測該系列查詢中的第四個(gè)查詢。第四個(gè)查詢可以被例如專業(yè)搜索應(yīng)用之類的應(yīng)用118 (和/或搜索引擎106的任何部件)使用,以在搜索引擎106的用戶能夠?qū)嶋H上發(fā)出第四個(gè)查詢之前找出結(jié)果并將結(jié)果呈現(xiàn)給用戶。換言之,研究任務(wù)識別系統(tǒng)116可以被配置成在用戶的下一個(gè)查詢被發(fā)出之前猜測和使用該查詢。在一個(gè)實(shí)施例中,混合器412可以使用機(jī)器學(xué)習(xí)規(guī)則來猜測一系列查詢中的下一個(gè)查詢,但作為替代,也可以使用研究任務(wù)識別系統(tǒng)116的(一個(gè)或多個(gè))其他部件。然而,本發(fā)明不限于這樣的實(shí)施例,也可以使用其他用于判斷搜索引擎的用戶是否在執(zhí)行研究任務(wù)的裝置。C.示例計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)方式這里所述的包括系統(tǒng)、方法/處理和/或設(shè)備的實(shí)施例可以使用公知的服務(wù)器/計(jì)算機(jī)(例如圖8所示的計(jì)算機(jī)800)來實(shí)現(xiàn)。例如,圖I的搜索引擎106和研究任務(wù)識別 系統(tǒng)116、圖3描繪的流程圖所述的方法以及圖4和/或圖7的研究任務(wù)識別系統(tǒng)116可以使用一個(gè)或多個(gè)計(jì)算機(jī)800來實(shí)現(xiàn)。計(jì)算機(jī)800可以是任何可商購的能夠執(zhí)行此處所述功能的公知計(jì)算機(jī),例如可從International Business Machines, Apple, Sun, HP, Dell, Cray 購得的計(jì)算機(jī)等。計(jì)算機(jī)800可以是任何類型的計(jì)算機(jī),包括臺式計(jì)算機(jī)、服務(wù)器等。計(jì)算機(jī)800包括一個(gè)或多個(gè)處理器(也被稱作中央處理單元或CPU),例如處理器804。處理器804被連接到通信基礎(chǔ)設(shè)施802 (例如通信總線)。在某些實(shí)施例中,處理器804能夠同時(shí)操作多個(gè)計(jì)算線程。計(jì)算機(jī)800還包括初級存儲器或主存儲器806,例如隨機(jī)存取存儲器(RAM)。主存儲器806中存儲了控制邏輯828A (計(jì)算機(jī)軟件)和數(shù)據(jù)。計(jì)算機(jī)800還包括一個(gè)或多個(gè)次級存儲設(shè)備810。次級存儲設(shè)備810包括例如硬盤驅(qū)動器812和/或可移除存儲設(shè)備或驅(qū)動器814以及其他類型的存儲設(shè)備,例如存儲卡和記憶棒。例如,計(jì)算機(jī)800可以包括工業(yè)標(biāo)準(zhǔn)接口,例如用于與諸如記憶棒的設(shè)備進(jìn)行接口的通用串行總線(USB)接口??梢瞥鎯︱?qū)動器814代表軟盤驅(qū)動器、磁帶驅(qū)動器、光盤驅(qū)動器、光存儲設(shè)備、磁帶備份等。可移除存儲驅(qū)動器814與可移除存儲單元816交互作用。可移除存儲單元816包括其中存儲了計(jì)算機(jī)軟件828B (控制邏輯)和/或數(shù)據(jù)的計(jì)算機(jī)可使用或可讀的存儲介質(zhì)824。可移除存儲單元816代表軟盤、磁盤、光盤、DVD、光存儲盤或任何其他計(jì)算機(jī)數(shù)據(jù)存儲設(shè)備。可移除存儲驅(qū)動器814按照公知的方式從可移除存儲單元816讀取和/或向可移除存儲單元816寫入。計(jì)算機(jī)800還包括輸入/輸出/顯示設(shè)備822,例如監(jiān)視器、鍵盤、指點(diǎn)設(shè)備等。計(jì)算機(jī)800進(jìn)一步包括通信或網(wǎng)絡(luò)接口 818。通信接口 818使計(jì)算機(jī)能夠與遠(yuǎn)程系統(tǒng)和設(shè)備通信。例如,通信接口 818允許計(jì)算機(jī)800通過通信網(wǎng)絡(luò)或介質(zhì)842(例如LAN、WAN和互聯(lián)網(wǎng)等)進(jìn)行通信。通信接口 818可以通過有線或無線連接與遠(yuǎn)程站點(diǎn)或網(wǎng)絡(luò)進(jìn)行接口。控制邏輯828C可以通過通信介質(zhì)842被發(fā)送到計(jì)算機(jī)800或從計(jì)算機(jī)800被發(fā)送。更特定地,計(jì)算機(jī)800可以通過通信介質(zhì)842接收并發(fā)送用控制邏輯828C調(diào)制的載波(電磁信號)。包括在其中存儲了控制邏輯(軟件)的計(jì)算機(jī)可使用或可讀介質(zhì)的任何裝置或制 品在這里被稱作計(jì)算機(jī)程序產(chǎn)品或程序存儲設(shè)備。這包括但不限于計(jì)算機(jī)800、主存儲器806、次級存儲設(shè)備810和可移除存儲單元816。其中存儲了當(dāng)被一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行時(shí)使得該數(shù)據(jù)處理設(shè)備如這里所述地操作的控制邏輯的此類計(jì)算機(jī)程序產(chǎn)品代表本發(fā)明的實(shí)施例。本發(fā)明可以利用除此處所述之外的軟件、硬件和/或操作系統(tǒng)實(shí)現(xiàn)方式來工作。適合執(zhí)行此處所述功能的任何軟件、硬件和操作系統(tǒng)實(shí)現(xiàn)方式都可以被使用。D.結(jié)論雖然上文已經(jīng)說明了本發(fā)明的各實(shí)施例,但應(yīng)理解的是這些實(shí)施例只是通過舉例而非限制性的方式來介紹的。相關(guān)領(lǐng)域的(一個(gè)或多個(gè))技術(shù)人員將領(lǐng)會到,在不脫離如所附權(quán)利要求書所限定的本發(fā)明精神和范圍的情況下,可以對上述實(shí)施例作出形式和細(xì)節(jié)上的各種更改。因此,本發(fā)明的寬度和范圍不應(yīng)受到任何上述示例性實(shí)施例的限制,而應(yīng)僅根據(jù)以下權(quán)利要求書及其等同物被限定。
權(quán)利要求
1.一種用于判斷搜索引擎的用戶是否在執(zhí)行研究任務(wù)的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括 生成與所述用戶提交到所述搜索引擎的一系列查詢相關(guān)的多個(gè)特征; 基于所述多個(gè)特征的第一子集,使用第一機(jī)器學(xué)習(xí)檢測器檢測所述用戶是否在執(zhí)行復(fù)雜研究;并且 基于所述多個(gè)特征的第二子集,使用第二機(jī)器學(xué)習(xí)檢測器檢測所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù); 至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。
2.如權(quán)利要求I所述的方法,進(jìn)一步包括 確定所述一系列查詢中的第一查詢的第一主題; 確定所述一系列查詢中的第二查詢的第二主題;以及 檢測至少在所述第一主題和所述第二主題之間是否存在主題相似性; 其中所述判斷所述用戶是否在執(zhí)行研究任務(wù)是進(jìn)一步基于所述主題相似性檢測的。
3.如權(quán)利要求2所述的方法, 其中確定所述第一查詢的第一主題包括將主題類別的分層組織分類中的第一主題類別指派給所述第一查詢; 其中確定所述第二查詢的第二主題包括將主題類別的分層組織分類中的第二主題類別指派給所述第二查詢;并且 其中所述檢測至少在所述第一主題和所述第二主題之間是否存在主題相似性包括確定主題類別的所述分層組織分類中的所述第一主題類別和所述第二主題類別之間的距離。
4.如權(quán)利要求I所述的方法,其中所述至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)包括 至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來計(jì)算所述用戶在執(zhí)行研究任務(wù)的概率;并且 判斷所述概率是否超過了預(yù)定義的閾值。
5.如權(quán)利要求4所述的方法,進(jìn)一步包括 確定所述一系列查詢中至少一個(gè)查詢的主題;并且 如果所述主題包括預(yù)定流行研究主題,則用與所述預(yù)定流行研究主題相關(guān)聯(lián)的助推因子降低所述預(yù)定義的閾值。
6.如權(quán)利要求4所述的方法,進(jìn)一步包括 確定所述一系列查詢中的至少一個(gè)查詢的主題;并且 如果所述主題包括被列入黑名單的研究主題,則確定所述用戶沒有在執(zhí)行研究任務(wù)。
7.如權(quán)利要求I所述的方法,其中所述使用第一機(jī)器學(xué)習(xí)檢測器檢測所述用戶是否在執(zhí)行復(fù)雜研究包括 所述第一機(jī)器學(xué)習(xí)檢測器接收針對所述一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢的所述多個(gè)特征的第一子集;并且 所述第一機(jī)器學(xué)習(xí)檢測器將一個(gè)或多個(gè)機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于所述多個(gè)特征的所述第一子集,以生成復(fù)雜研究檢測結(jié)果和相關(guān)聯(lián)的置信度,其中所述復(fù)雜研究檢測結(jié)果指示用戶參與搜索的程度; 其中所述多個(gè)特征的所述第一子集包括會話特征和時(shí)間相關(guān)特征。
8.如權(quán)利要求7所述的方法, 其中所述會話特征指示與作出兩個(gè)或更多個(gè)連續(xù)查詢的會話相關(guān)的各種可點(diǎn)擊事件;并且 其中所述時(shí)間相關(guān)特征指示用于所述各種可點(diǎn)擊事件和所述會話的各種時(shí)間特性。
9.如權(quán)利要求I所述的方法,其中所述使用第二機(jī)器學(xué)習(xí)檢測器檢測所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù)包括 所述第二機(jī)器學(xué)習(xí)檢測器接收針對所述一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢的所述多個(gè)特征的第二子集;并且 所述第二機(jī)器學(xué)習(xí)檢測器將一個(gè)或多個(gè)機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于所述多個(gè)特征的所述第二子集,以生成任務(wù)檢測結(jié)果和相關(guān)聯(lián)的置信度,其中所述任務(wù)檢測結(jié)果指示所述兩個(gè)或更多個(gè)連續(xù)查詢之間的主題連貫性; 其中所述多個(gè)特征的所述第二子集包括文本特征,其中所述文本特征指示所述兩個(gè)或更多個(gè)連續(xù)查詢之間的文本相似性。
10.如權(quán)利要求I所述的方法, 其中所述至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)是針對兩對連續(xù)查詢而執(zhí)行的,其中所述兩對連續(xù)查詢中的第一對中的第二查詢和所述兩對連續(xù)查詢中的第二對中的第一查詢是相同的查詢。
11.如權(quán)利要求I所述的方法,進(jìn)一步包括 基于所述確定,觸發(fā)以下各項(xiàng)中的一項(xiàng)或多項(xiàng) 一個(gè)或多個(gè)搜索工具; 一個(gè)或多個(gè)專業(yè)搜索; 一個(gè)或多個(gè)定向廣告; 以及一個(gè)或多個(gè)市場事件。
12.如權(quán)利要求I所述的方法,進(jìn)一步包括 保持以下各項(xiàng)中的一項(xiàng)或多項(xiàng)的狀態(tài)數(shù)據(jù) 所述用戶是否在執(zhí)行研究任務(wù)的先前判斷; 所述復(fù)雜研究檢測; 所述任務(wù)檢測;和 所述用戶提交的所述一系列查詢中的至少一部分; 其中所述判斷所述用戶是否在執(zhí)行研究任務(wù)是進(jìn)一步基于所述狀態(tài)數(shù)據(jù)的。
13.如權(quán)利要求I所述的方法,其中所述復(fù)雜研究檢測和所述任務(wù)檢測中的一個(gè)或多個(gè)具有相關(guān)聯(lián)的置信度; 其中所述判斷所述用戶是否在執(zhí)行研究任務(wù)使用所述復(fù)雜研究檢測和所述任務(wù)檢測中的一個(gè)或多個(gè)的各自的相關(guān)聯(lián)的置信度。
14.如權(quán)利要求I所述的方法,進(jìn)一步包括 所述至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)包括使用機(jī)器學(xué)習(xí)系統(tǒng); 所述機(jī)器學(xué)習(xí)系統(tǒng)將一個(gè)或多個(gè)機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于所述復(fù)雜研究檢測和所述任務(wù)檢測,以生成研究任務(wù)決策和相關(guān)聯(lián)的研究任務(wù)決策置信度。
15.一種用于檢測研究任務(wù)的系統(tǒng),包括 搜索引擎,所述搜索引擎被配置成接收由用戶提交的一系列查詢,并且響應(yīng)于所述一系列查詢中的每個(gè)查詢來識別一個(gè)或多個(gè)文檔; 研究任務(wù)識別系統(tǒng),所述研究任務(wù)識別系統(tǒng)包括 會話單元,所述會話單元被配置成接收所述一系列查詢并生成一系列結(jié)構(gòu)化查詢; 特征單元,所述特征單元被配置成基于所述一系列結(jié)構(gòu)化查詢的分析而生成多個(gè)特征; 研究檢測器,所述研究檢測器被配置成使用第一機(jī)器學(xué)習(xí)規(guī)則基于所述多個(gè)特征的第一子集來檢測所述用戶是否在執(zhí)行復(fù)雜研究; 任務(wù)檢測器,所述任務(wù)檢測器被配置成使用第二機(jī)器學(xué)習(xí)規(guī)則基于所述多個(gè)特征的第二子集來檢測所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù);和 混合器,所述混合器被配置成至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。
16.如權(quán)利要求15所述的系統(tǒng),其中所述研究任務(wù)識別系統(tǒng)進(jìn)一步包括 主題分類器,所述主題分類器被配置成基于所述一系列結(jié)構(gòu)化查詢來檢測所述一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢之間是否存在主題相似性; 其中所述混合器被配置成還基于所述主題相似性檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。
17.如權(quán)利要求15所述的系統(tǒng),其中所述研究檢測器被進(jìn)一步配置成 接收針對所述一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢的所述多個(gè)特征的所述第一子集;并且 將一個(gè)或多個(gè)機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于所述多個(gè)特征的所述第一子集,以生成復(fù)雜研究檢測結(jié)果和相關(guān)聯(lián)的置信度,其中所述復(fù)雜研究檢測結(jié)果指示用戶參與搜索的程度; 其中所述多個(gè)特征的所述第一子集包括會話特征和時(shí)間相關(guān)特征。
18.如權(quán)利要求15所述的系統(tǒng),其中所述任務(wù)檢測器被進(jìn)一步配置成 接收針對所述一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢的所述多個(gè)特征的所述第二子集;并且 將一個(gè)或多個(gè)機(jī)器學(xué)習(xí)規(guī)則應(yīng)用于所述多個(gè)特征的所述第二子集,以生成任務(wù)檢測結(jié)果和相關(guān)聯(lián)的置信度,其中所述任務(wù)檢測結(jié)果指示所述兩個(gè)或更多個(gè)連續(xù)查詢之間的主題連貫性; 其中所述多個(gè)特征的所述第二子集包括文本特征,其中所述文本特征指示所述兩個(gè)或更多個(gè)連續(xù)查詢之間的文本相似性。
19.一種用于檢測研究任務(wù)的系統(tǒng),包括 搜索引擎,所述搜索引擎被配置成接收由用戶提交的一系列查詢,并且響應(yīng)于所述一系列查詢中的每個(gè)查詢來識別一個(gè)或多個(gè)文檔; 研究任務(wù)識別系統(tǒng),所述研究任務(wù)識別系統(tǒng)包括 特征單元,所述特征單元被配置為生成針對所述一系列查詢的多個(gè)特征; 檢測器,所述檢測器被配置成 通過測量用戶參與搜索的程度基于所述多個(gè)特征來檢測所述用戶是否在執(zhí)行復(fù)雜研究;并且 通過測量連續(xù)查詢之間的主題連貫性基于所述多個(gè)特征來確定所述用戶是否在執(zhí)行與特定信息需求相關(guān)的任務(wù);和 機(jī)器學(xué)習(xí)系統(tǒng),所述機(jī)器學(xué)習(xí)系統(tǒng)被配置成至少基于所述復(fù)雜研究檢測和所述任務(wù)檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。
20.如權(quán)利要求19所述的系統(tǒng),其中所述檢測器被進(jìn)一步配置成 檢測所述一系列查詢中的兩個(gè)或更多個(gè)連續(xù)查詢之間是否存在主題相似性; 其中所述機(jī)器學(xué)習(xí)系統(tǒng)被配置成基于所述主題相似性檢測來判斷所述用戶是否在執(zhí)行研究任務(wù)。
全文摘要
本文說明了一種系統(tǒng)和方法,該系統(tǒng)和方法自動判斷搜索引擎的用戶是否在執(zhí)行研究任務(wù),然后響應(yīng)于確定研究任務(wù)正被執(zhí)行而提供一個(gè)或多個(gè)研究工具、一個(gè)或多個(gè)專業(yè)搜索、一個(gè)或多個(gè)定向廣告和/或一個(gè)或多個(gè)市場事件。響應(yīng)于研究任務(wù)的檢測而自動提供各種事件和/或工具能夠有利地改進(jìn)用戶執(zhí)行研究任務(wù)的體驗(yàn)。
文檔編號G06F17/00GK102934110SQ201180025761
公開日2013年2月13日 申請日期2011年5月11日 優(yōu)先權(quán)日2010年5月31日
發(fā)明者黛博拉·杜拉圖, 弗朗西斯科·伯恩馳, 梁-宇·池 申請人:雅虎公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1