專利名稱:用于顧及當(dāng)用戶在搜索引擎中提出查詢時(shí)的用戶意圖的點(diǎn)擊模型的制作方法
技術(shù)領(lǐng)域:
本發(fā)明搜索引擎,尤其涉及生成用于搜索引擎的訓(xùn)練數(shù)據(jù)的方法。
背景技術(shù):
對(duì)于連接到萬維網(wǎng)(“web”)的主計(jì)算機(jī)的用戶而言,采用web瀏覽器和搜索引擎來定位具有用戶感興趣的特定內(nèi)容的網(wǎng)頁已經(jīng)是常見的。諸如微軟的Live搜索等搜索引擎索引由全世界的計(jì)算機(jī)維護(hù)的數(shù)百億個(gè)網(wǎng)頁。主計(jì)算機(jī)的用戶編撰查詢,而搜索引擎標(biāo)識(shí)匹配這些查詢的頁面或文檔,例如包括查詢的關(guān)鍵字的頁面。這些頁面或文檔被稱為結(jié)果集。在許多情況下,在查詢時(shí)對(duì)結(jié)果集中的頁面進(jìn)行排名是計(jì)算上昂貴的。多個(gè)搜索引擎在它們的排名技術(shù)中依靠許多特征。證據(jù)源可包括查詢和頁面或查詢和指向頁面的超鏈接的錨文本之間的文本相似性、例如經(jīng)由瀏覽器工具欄或通過對(duì)搜索結(jié)果頁面中的鏈接的點(diǎn)擊來測量的頁面的用戶流行度、以及作為內(nèi)容提供者之間的對(duì)等背簽的形式來查看的頁面之間的超接合(hyper-linkage)。排名技術(shù)的有效性能夠影響頁面相對(duì)于查詢的相對(duì)質(zhì)量或相關(guān)性,以及頁面被查看的概率。一些現(xiàn)有搜索引擎經(jīng)由對(duì)頁面進(jìn)行打分的函數(shù)來對(duì)搜索結(jié)果進(jìn)行排名。該函數(shù)從訓(xùn)練數(shù)據(jù)中自動(dòng)習(xí)得。訓(xùn)練數(shù)據(jù)又通過向人類判定者提供查詢/頁面組合來創(chuàng)建,該人類判定者被要求基于頁面有多好地匹配查詢來標(biāo)記頁面,例如完美、優(yōu)秀、良好、一般或差。每一查詢/頁面組合都被轉(zhuǎn)換成特征向量,特征向量然后被提供給能夠?qū)С鰵w納訓(xùn)練數(shù)據(jù)的函數(shù)的機(jī)器學(xué)習(xí)算法。對(duì)于常識(shí)查詢,人類判定者能夠得出對(duì)頁面有多好地匹配查詢的合理評(píng)估是很有可能的。然而,在判定者如何評(píng)估查詢/頁面組合時(shí)存在廣泛的變化。這部分地是由于對(duì)于查詢的較好或較差頁面的先驗(yàn)知識(shí),以及定義對(duì)查詢的“完美”回答的主觀特性(這對(duì)于諸如“優(yōu)秀”、“良好”、“一般”和“差”之類的其他定義亦如此)。實(shí)際上,查詢/頁面對(duì)通常僅由一個(gè)判定者來評(píng)估。此外,判定者可能不具有查詢的任何知識(shí)并因此提供不正確的評(píng)級(jí)。最終,web上的大量查詢和頁面暗示將需要判定非常多的對(duì)。將該人類判定過程縮放到越來越多的查詢/頁面組合將會(huì)是富有挑戰(zhàn)性的。點(diǎn)擊日志中嵌入關(guān)于用戶對(duì)搜索引擎的滿意度的重要信息并且能夠提供相關(guān)性信息的高度有價(jià)值的源。與人類判定者相比,獲取點(diǎn)擊便宜得多并且點(diǎn)擊通常反映當(dāng)前相關(guān)性。然而,已知點(diǎn)擊由于呈現(xiàn)次序、文檔的外觀(例如,標(biāo)題和摘要)以及各個(gè)站點(diǎn)的聲譽(yù)而發(fā)生偏差。已經(jīng)作出各種嘗試以解決在分析點(diǎn)擊和搜索結(jié)果相關(guān)性之間的關(guān)系時(shí)出現(xiàn)的這種和其他偏差。這些模型包括位置模型、級(jí)聯(lián)模型以及動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DNB)模型。
發(fā)明內(nèi)容
具有不同搜索意圖的用戶可能向搜索引擎提交相同的查詢卻期望不同的搜索結(jié)果。因此,在用戶搜索意圖和用戶指定的查詢之間可能存在偏差,而導(dǎo)致用戶點(diǎn)擊時(shí)可觀察到的差異。換而言之,搜索結(jié)果的吸引力不僅受到其相關(guān)性的影響,也是由查詢背后用戶潛在的搜索意圖所確定的。由此,用戶點(diǎn)擊可以由意圖偏差和相關(guān)性兩者確定。如果用戶沒有清楚地制定其輸入查詢以精確地表達(dá)其信息需求,就會(huì)有較大的意圖偏差。在一個(gè)實(shí)現(xiàn)中,提供包含此處被稱為意圖假設(shè)的新的假設(shè)的點(diǎn)擊模型。意圖假設(shè)假定僅在結(jié)果或摘錄符合用戶的搜索意圖,即它是用戶所需的之后才點(diǎn)擊它。由于查詢部分地反映出用戶的搜索意圖,因此如果文檔與查詢無關(guān)那么假定根本不需要它是合理的。 另一方面,相關(guān)文檔是否需要是唯一地受到用戶意圖和查詢之間的間隙的影響。根據(jù)另一實(shí)現(xiàn),生成用于搜索引擎的訓(xùn)練數(shù)據(jù)的方法從檢索關(guān)于用戶點(diǎn)擊行為的日志數(shù)據(jù)開始?;诎▍?shù)的點(diǎn)擊模型來分析日志數(shù)據(jù)以確定多個(gè)頁面中每一個(gè)頁面與查詢的相關(guān)性,該參數(shù)涉及表示用戶在執(zhí)行搜索時(shí)的意圖的用戶意圖偏差。接著將頁面的相關(guān)性轉(zhuǎn)換成訓(xùn)練數(shù)據(jù)。在一個(gè)特定的實(shí)現(xiàn)中,點(diǎn)擊模型是包括表示文檔是否被點(diǎn)擊的可觀察到的二進(jìn)制值以及表示文檔是否被用戶檢查和被用戶需要的隱藏的二進(jìn)制變量。提供本發(fā)明內(nèi)容是為了以簡化的形式介紹將在以下具體實(shí)施方式
中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容并不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于限定所要求保護(hù)的主題的范圍。附圖簡述
圖1示出了搜索引擎在其中運(yùn)行的示例性環(huán)境100。圖2描述了意圖、查詢和在會(huì)話期間找到的文檔之間的三角關(guān)系,其中連接兩個(gè)實(shí)體的邊度量兩個(gè)實(shí)體時(shí)間的匹配度。圖3是在為用五個(gè)隨機(jī)挑選的查詢對(duì)兩組搜索會(huì)話執(zhí)行的實(shí)驗(yàn)中每一個(gè)查詢的點(diǎn)進(jìn)率的圖示。圖4示出了用于圖3中使用的所有搜索查詢的第一和第二組之間的點(diǎn)進(jìn)率之間的差值的分布。圖5將檢查假設(shè)和意圖假設(shè)的圖形模型作比較。圖6是用于從點(diǎn)擊日志生成訓(xùn)練數(shù)據(jù)的方法的實(shí)現(xiàn)的操作流程。
具體實(shí)施例方式圖1示出了搜索引擎可在其中運(yùn)行的示例性環(huán)境100。環(huán)境包括由網(wǎng)絡(luò)130,例如因特網(wǎng)、廣域網(wǎng)(WAN)或局域網(wǎng)(LAN)彼此連接的一個(gè)或多個(gè)客戶計(jì)算機(jī)110和一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī)120(通常是“主機(jī)”)。網(wǎng)絡(luò)130提供對(duì)諸如萬維網(wǎng)("web") 131的服務(wù)的訪問。Web 131允許客戶計(jì)算機(jī)110訪問包含包含在例如由服務(wù)器計(jì)算機(jī)120維護(hù)和服務(wù)的網(wǎng)頁121(例如網(wǎng)頁或其他文檔)中的基于文本的或多媒體內(nèi)容的文檔。通常,這是由在客戶計(jì)算機(jī)110中執(zhí)行的web瀏覽器應(yīng)用程序114完成。每一個(gè)頁面121的位置可以由諸如輸入到web瀏覽器應(yīng)用程序114中以訪問網(wǎng)頁121的。許多網(wǎng)頁可以包括到其他網(wǎng)頁 121的超鏈接123。超鏈接也可以是URL的形式的。雖然此處關(guān)于是頁面的文檔描述了實(shí)現(xiàn),但是應(yīng)當(dāng)理解環(huán)境可以包括具有可以被表征的內(nèi)容和連接性的任何鏈接數(shù)據(jù)對(duì)象。為了幫助用戶定位感興趣的內(nèi)容,搜索引擎140可以在例如盤存儲(chǔ)、隨機(jī)訪問存儲(chǔ)器(RAM)或數(shù)據(jù)庫的存儲(chǔ)器中包含頁面的索引141。響應(yīng)于查詢111,搜索引擎140返回滿足查詢111的項(xiàng)(例如關(guān)鍵詞)的結(jié)果集112。由于搜索引擎140存儲(chǔ)上百萬的頁面,尤其是當(dāng)查詢111是松散地指定時(shí),結(jié)果集 112可以包括許多合格的頁面。這些頁面可以與用戶的實(shí)際信息需求有關(guān)或無關(guān)。因此,向客戶機(jī)110呈現(xiàn)的結(jié)果集112的順序影響用戶關(guān)于搜索引擎140的經(jīng)驗(yàn)。在一個(gè)實(shí)現(xiàn)中,排序過程可以作為搜索引擎140中的排序引擎的一部分來實(shí)現(xiàn)。 排序過程可以是基于此處進(jìn)一步描述的點(diǎn)擊日志150的,以改進(jìn)結(jié)果集112中頁面的排序, 這樣可以更加精確地標(biāo)識(shí)與特定話題相關(guān)的頁面113。對(duì)于提供給搜索引擎140的每一個(gè)查詢111,點(diǎn)擊日志150可以包括提供的查詢 111、提供它的時(shí)間、作為結(jié)果集112向用戶示出的多個(gè)頁面(例如十個(gè)頁面、二十個(gè)頁面等)以及用戶點(diǎn)擊過的結(jié)果集112的頁面。如此處所使用的,項(xiàng)點(diǎn)擊是指用戶通過任何適當(dāng)?shù)挠脩艚缑嬖O(shè)備選擇頁面或其他對(duì)象的任何方式。點(diǎn)擊可以被組合到會(huì)話中,并且可用于推斷用戶對(duì)于給定的查詢點(diǎn)擊的頁面的順序。點(diǎn)擊日志150由此可用于推斷關(guān)于特定頁面的相關(guān)性的人類判斷。雖然僅示出了一個(gè)點(diǎn)擊日志150,但是可以關(guān)于此處所描述的技術(shù)和方面使用任何數(shù)目的點(diǎn)擊日志。點(diǎn)擊日志150可以被解釋并用于生成可以由搜索引擎140的使用的訓(xùn)練數(shù)據(jù)。較高質(zhì)量的訓(xùn)練數(shù)據(jù)提供更好地排列的搜索結(jié)果。用戶點(diǎn)擊的頁面和跳過的頁面可用于評(píng)估頁面與查詢11的相關(guān)性。此外,用于訓(xùn)練數(shù)據(jù)的標(biāo)簽可以基于來自點(diǎn)擊日志150的數(shù)據(jù)生成。標(biāo)簽可以改進(jìn)搜索引擎相關(guān)性排序。累計(jì)多個(gè)用戶的點(diǎn)擊比單個(gè)人類判斷提供更好的相關(guān)性確定。用戶一般知道一點(diǎn)查詢并且因此點(diǎn)擊結(jié)果的多個(gè)用戶帶來意見的多樣性。對(duì)于單個(gè)人類的判斷,判斷有可能沒有查詢的知識(shí)。此外,點(diǎn)擊大部分是彼此獨(dú)立的。每一個(gè)用戶的點(diǎn)擊不是由其他用戶的點(diǎn)擊確定。具體地,更多用戶發(fā)出查詢并點(diǎn)擊他們感興趣的結(jié)果。存在某些細(xì)微的相關(guān)性, 例如朋友可以向彼此推薦鏈接。然而,在很大程度上,點(diǎn)擊是獨(dú)立的。由于考慮來自多個(gè)用戶的點(diǎn)擊數(shù)據(jù),因此相對(duì)于可能或可能不知道查詢以及可能不知道查詢結(jié)果的人類判斷而言,可以獲取特例和有關(guān)局部知識(shí)的描繪。除了更多的“判斷”(用戶)之外,點(diǎn)擊日志也提供關(guān)于更多查詢的判斷。此處所描述的技術(shù)可以被應(yīng)用到頭查詢(經(jīng)常詢問的查詢)和尾查詢(不經(jīng)常詢問的查詢)。由于提出來自他們自身興趣的查詢的用戶更可能能夠評(píng)估作為查詢的結(jié)果呈現(xiàn)的頁面的相關(guān)性,因此而改進(jìn)每一個(gè)率的質(zhì)量。排序引擎142可以包括日志數(shù)據(jù)分析器145和訓(xùn)練數(shù)據(jù)生成器147。日志數(shù)據(jù)分析器145可以例如經(jīng)由數(shù)據(jù)源訪問引擎143從點(diǎn)擊日志150接收點(diǎn)擊日志數(shù)據(jù)152。日志數(shù)據(jù)分析器145可以分析點(diǎn)擊日志數(shù)據(jù)152并且向訓(xùn)練數(shù)據(jù)生成器147提供分析的結(jié)果。 訓(xùn)練數(shù)據(jù)生成器147可以使用例如工具、應(yīng)用程序和累加器來基于分析的結(jié)果確定特定頁面的相關(guān)性或標(biāo)簽,并且可以將相關(guān)性和標(biāo)簽應(yīng)用到頁面上,如此處進(jìn)一步描述的。排序引擎142可以包括可包括日志數(shù)據(jù)分析器145、訓(xùn)練數(shù)據(jù)生成器147和數(shù)據(jù)源訪問引擎143的計(jì)算設(shè)備,并且可用于此處所描述的技術(shù)和操作的性能。在結(jié)果集中,向用戶呈現(xiàn)較小的頁面或文檔。這些較小頁面被稱為摘要。應(yīng)該注意向用戶示出的文檔的較好的摘錄(看起來高度相關(guān)的)可以人工地造成較差的(例如不相關(guān)的)頁面被更多地點(diǎn)擊,并且相似地,較差的摘錄(看起來不相關(guān)的)可以造成高度相關(guān)的頁面被較少地點(diǎn)擊。構(gòu)想了摘錄的質(zhì)量可以與文檔的質(zhì)量捆綁。摘錄通??梢园ㄋ阉鳂?biāo)題、來自頁面或文檔的文本的簡要部分以及URL。已經(jīng)發(fā)現(xiàn)用戶更可能點(diǎn)擊排名較高的頁面,而不管該頁面是否實(shí)際上與查詢相關(guān)。這被稱為位置偏差。試圖解決位置偏差的一種點(diǎn)擊模式是位置點(diǎn)擊模式。該模式假設(shè)僅當(dāng)用戶實(shí)際檢查摘錄并得出結(jié)果與搜索相關(guān)的結(jié)論時(shí)才點(diǎn)擊結(jié)果。這個(gè)想法稍后被公式化為檢查假設(shè)。此外,模型假定檢查的概率僅與結(jié)果的位置相關(guān)。被稱為檢查點(diǎn)擊模型的另一模型通過用倍增因數(shù)獎(jiǎng)勵(lì)在搜索結(jié)果中位置較低的相關(guān)文檔來擴(kuò)展位置點(diǎn)擊模型。檢查假設(shè)假定如果檢查了文檔,那么對(duì)于給定的查詢文檔的點(diǎn)進(jìn)率是常數(shù),其值由查詢和文檔之間的相關(guān)性來確定。被稱為級(jí)聯(lián)點(diǎn)擊模型的另一模型通過假定用戶完全掃描搜索結(jié)果來進(jìn)一步擴(kuò)展檢查點(diǎn)擊模型。上述點(diǎn)擊模型不在結(jié)果(即摘錄)的實(shí)際和感知相關(guān)性之間區(qū)分。即,當(dāng)用戶檢查結(jié)果并認(rèn)為它相關(guān)時(shí),用戶僅感知該結(jié)果是相關(guān)的,而不是確實(shí)知道。僅當(dāng)用戶實(shí)際點(diǎn)擊結(jié)果并檢查頁面或文檔自身時(shí),用戶才能夠了解結(jié)果是否實(shí)際相關(guān)。在結(jié)果的實(shí)際和感知相關(guān)性之間區(qū)分的一個(gè)模型是DBN模型。盡管它們?cè)诮鉀Q位置偏差問題方面的成功,但是用戶點(diǎn)擊不能完全用相關(guān)性和位置偏差來解釋。具體地,具有不同搜索意圖的用戶可能向搜索引擎提交相同的查詢,卻期望不同的搜索結(jié)果。因此,可能在用戶搜索意圖和用戶制定的查詢之間存在偏差,這導(dǎo)致用戶點(diǎn)擊中可觀察到的多樣性。換而言之,單個(gè)查詢可能不能精確地反映出用戶搜索意圖。取查詢“Wad ”作為一個(gè)示例。由于用戶希望瀏覽有關(guān)iPad的一般信息,她可能提交該查詢, 且假定從apple, com或wikipedia. com接收到的搜索結(jié)果對(duì)她是有吸引力的。相反地,提供相同的查詢的另一用戶可能查找諸如用戶對(duì)iPad的評(píng)論或反饋的信息。在這種情況下, 更有可能點(diǎn)擊如技術(shù)評(píng)論和討論的搜索結(jié)果。該示例表明搜索結(jié)果的吸引力不僅受到其相關(guān)性的影響,也是由查詢背后用戶潛在的搜索意圖所確定的。圖2描述了意圖、查詢和在會(huì)話期間找到的文檔之間的三角關(guān)系,其中連接兩個(gè)實(shí)體的邊度量兩個(gè)實(shí)體時(shí)間的匹配度。每一個(gè)用戶在提交查詢前有內(nèi)在的搜索意圖。當(dāng)用戶來到搜索引擎時(shí),她根據(jù)其搜索意圖制定查詢,并且將查詢提交給搜索引擎。意圖偏差度量意圖和查詢之間的匹配度。搜索引擎接收查詢并返回經(jīng)排序的文檔列表,而相關(guān)性度量查詢和文檔之間的匹配度。用戶檢查每一個(gè)文檔并且更可能點(diǎn)擊相對(duì)于其他文檔更好地滿足其信息需求的文檔。圖2中的三角關(guān)系表明用戶點(diǎn)擊是由意圖偏差和相關(guān)性兩者確定的。如果用戶沒有清楚地定制其輸入查詢以精確地表達(dá)其信息需求,那么將會(huì)有較大的意圖偏差。由此,用戶不可能點(diǎn)擊不符合其搜索意圖的文檔,即使該文檔與查詢非常相關(guān)。檢查假設(shè)可以被認(rèn)為是簡化的情況,其中搜索意圖和輸入查詢是等價(jià)的并且沒有意圖偏差。因此,當(dāng)僅采用檢查假設(shè)時(shí),可能會(huì)錯(cuò)誤地估計(jì)查詢和文檔之間的相關(guān)性。以下定義和注解對(duì)于描述此處所述的方法和系統(tǒng)的各方面和實(shí)現(xiàn)會(huì)是有用的。 用戶提交查詢q并且搜索引擎返回包含M(例如10)個(gè)結(jié)果或摘要的搜索結(jié)果頁面,由
表示,其中i是在第i個(gè)位置處結(jié)果的索引。用戶檢查每一個(gè)搜索結(jié)果的摘錄并
1 =
且點(diǎn)擊它們中的一些或一個(gè)都不點(diǎn)擊。相同的查詢內(nèi)的搜索被稱為搜索會(huì)話,用S表示。在一個(gè)搜索會(huì)話中不考慮對(duì)贊助商廣告或其他web元素的點(diǎn)擊。隨后對(duì)查詢的重新提交或重新制定被作為新的會(huì)話來對(duì)待。三個(gè)二元隨機(jī)變量C” Ei和氏被定義為在第i個(gè)位置處的模型用戶點(diǎn)擊、用戶檢查和文檔相關(guān)性事件Ci:用戶是否點(diǎn)擊了結(jié)果;Ei 用戶是否檢查了結(jié)果;Ri 對(duì)應(yīng)于結(jié)果的目標(biāo)文檔是否是相關(guān)的其中第一事件可以從搜索會(huì)話觀察到,而后兩個(gè)事件是隱藏的。PHCi = 1)是第 i個(gè)文檔的CTRJHEi = 1)是檢查第i個(gè)文檔的概率,而I3HRi = 1)是第i個(gè)文檔的相關(guān)性。參數(shù)A被用于表示文檔相關(guān)性如下ΡΓ<Α = ‘1) =⑴接著,上述的檢查假設(shè)可以如下表示假設(shè)1 (檢查假設(shè))。當(dāng)且僅當(dāng)結(jié)果被檢查且相關(guān)時(shí)才點(diǎn)擊結(jié)果,其被公式化為S = 1, Jit = 1 Gi = 1 ⑵其中氏和Ei是彼此獨(dú)立的。等價(jià)地,公式(2)可以以概率的方式重新用公式表示為Pr(Ci = 1 IEi = 1,Ri = 1) =1 (3)Pr (Ci = 11 Ei = 0) =0(4)Pr (Ci = 11 Ri = 0) =0(5)在對(duì)氏求和之后,該假設(shè)被簡化為Rr(C i = 1 pi = I) = f*.(6)Pr(Ci = IlEi = O)=O(7)結(jié)果,文檔點(diǎn)進(jìn)率被表示為
PrfG = 1)= E PfiEi = e) ¥t(Ct = ; β)
=Pr(R. = l》Pr_ = = i)
、丨丨■ ^v,! . HI -n ■■ —I Il U Il LIlmvIM .._Il...-,丨._■.
位置偏差文檔相關(guān)性其中位置偏差和文檔相關(guān)性被分解。該假設(shè)已被用在各種點(diǎn)擊模型中以減輕位置偏差問題。上述另一點(diǎn)擊模型,級(jí)聯(lián)點(diǎn)擊模型是基于級(jí)聯(lián)假設(shè)的,其可以被公式化為如下假設(shè)2 (級(jí)聯(lián)假設(shè))。用戶沒有遺漏地完全檢查搜索結(jié)果,并且第一結(jié)果總是被檢查Pr (Ei = 1) = 1(8)Pr (Ei+1 = 11 Ei = 0) =0(9)級(jí)聯(lián)模型將檢查假設(shè)和級(jí)聯(lián)假設(shè)組合在一起,并進(jìn)一步假定用戶在達(dá)到第一點(diǎn)擊之后停止檢查并放棄搜索會(huì)話CN 102542003 A
Pr(Ei+1 = IlEi = 1,Ci) = I-Ci (10)然而,該模型過于受到限制并且只能處理最多具有一個(gè)點(diǎn)擊的搜索會(huì)話。相關(guān)點(diǎn)擊模型(DCM)級(jí)聯(lián)模型推廣到包括具有多個(gè)點(diǎn)擊的會(huì)話,并且引入一組位置相關(guān)的參數(shù),即Pr(Ew = IlEi = LCi = I) = Xi (11)Pr (Ei+1 = 11 Ei = 1,Ci = 0) =1 (12)其中λ i表示在點(diǎn)擊之后檢查下一文檔的概率。這些參數(shù)是全局性的,且因此在所有搜索會(huì)話之間共享。該模型假定用戶檢查最后一次點(diǎn)擊以下的所有后續(xù)的摘要。實(shí)際上,如果用戶對(duì)最后點(diǎn)擊的文檔感到滿意,她通常不繼續(xù)檢查后續(xù)的搜索結(jié)果。動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型(DBN)假定摘要的吸引力確定用戶是否點(diǎn)擊它以查看相應(yīng)的文檔,而用戶對(duì)文檔的滿意度確定用戶是否檢查下一文檔。從形式上而言,Pr(鳥+1 二直|馬= IlGi = I) = Tfl -(13)Pr (Ei+1 = 11 Ei = 1,Ci = 0) = γ , (14)其中參數(shù)、是用戶無需點(diǎn)擊而檢查下一文檔的概率,而參數(shù)s π i是用戶滿意度。 實(shí)驗(yàn)比較表明DBN模型優(yōu)于基于級(jí)聯(lián)假設(shè)的其他點(diǎn)擊模型。DBN模型采用期望最大化算法來估計(jì)參數(shù),其可能需要為收斂做出大量迭代。用于DBN方法的貝葉斯推斷方法,期望傳 S P. Minka ^"Expectation propagation forapproximate Bayesian inference (Μ 于近似貝葉斯推斷的期望傳播)”,UAI,10第362-369頁(Morgan Kaufmann Publishers Inc.)中介紹。又一點(diǎn)擊模型,用戶瀏覽模型(UBM),也是基于檢查假設(shè)的,但是不遵循級(jí)聯(lián)假設(shè)。 相反地,它假定檢查概率Ei與先前點(diǎn)擊的摘錄Ii = max{j e {1,. . .,i-1} Cj = 1}的位置和第i個(gè)位置與Ii的位置之間的距離相關(guān)Frpi ==氣,i-‘e (15)如果對(duì)位于位置i之前的摘錄沒有點(diǎn)擊,就將Ii設(shè)置為0。UBM模型下搜索會(huì)話
的似然性在形式上相當(dāng)簡單M.Wt(OtM) = H《*%,氣’I.產(chǎn)(1 —一(16)
i*-J其中在所有的搜索會(huì)話之間共享M^^f^yl個(gè)參數(shù)。在Pr (Ei+1 = 1 Hi = 1,Ci
= 1) = Y (I-Snl)中討論的貝葉斯瀏覽模型(BBM)與UBM遵循相同的假設(shè),但是采用貝葉斯推斷算法。如上所述,檢查假設(shè)是許多現(xiàn)有的點(diǎn)擊模型的基礎(chǔ)。假設(shè)主要針對(duì)對(duì)點(diǎn)擊日志數(shù)據(jù)中的位置偏差建模。具體地,它假定點(diǎn)擊發(fā)生的概率是在用戶檢查結(jié)果之后,由查詢和結(jié)果唯一確定的。然而,控制實(shí)驗(yàn)證明檢查假設(shè)所持有的假設(shè)不能完全解釋點(diǎn)進(jìn)日志數(shù)據(jù)。相反地,給定查詢和經(jīng)檢查的結(jié)果,在對(duì)該文檔的點(diǎn)進(jìn)率之間仍然存在多樣性。該現(xiàn)象清楚地表明位置偏差不僅是影響點(diǎn)擊行為的偏差。在一個(gè)實(shí)驗(yàn)中,用五個(gè)隨機(jī)挑選的查詢對(duì)兩組搜索會(huì)話計(jì)算文檔點(diǎn)進(jìn)率。一個(gè)組包括實(shí)際上在位置2到10有一個(gè)點(diǎn)擊的會(huì)話,而另一組包括在位置2到10有至少兩個(gè)點(diǎn)擊的會(huì)話。對(duì)于每一個(gè)查詢,對(duì)相同的文檔計(jì)算點(diǎn)進(jìn)率,而該文檔總是處于第一位置的。該實(shí)驗(yàn)的結(jié)果在圖3中示出,圖3是關(guān)于每一個(gè)查詢的點(diǎn)進(jìn)率的圖示。根據(jù)檢查假設(shè),如果文檔已經(jīng)被檢查,那么查詢和結(jié)果之間的相關(guān)性是常數(shù)。這意味著兩個(gè)組中的點(diǎn)進(jìn)率應(yīng)該彼此相等,因?yàn)榭偸菣z查處于頂部位置的文檔。然而,如圖3中所示,對(duì)于兩個(gè)組沒有一個(gè)查詢呈現(xiàn)出相同的點(diǎn)進(jìn)率。相反地,觀察到第二組中的點(diǎn)進(jìn)率顯著地高于第一組中的點(diǎn)進(jìn)率。為了進(jìn)一步調(diào)查該分析,將第二組中的點(diǎn)進(jìn)率減去第一組中的點(diǎn)進(jìn)率,并且在所有搜索查詢上繪制該差值的分布。圖4示出了對(duì)于所有查詢兩個(gè)組之間的點(diǎn)進(jìn)率的差值。 所得的分布匹配高斯分布,其中心在大約0. 2的正值處。具體地,對(duì)應(yīng)的差值位于[-0. 01, 0.01]中的查詢的數(shù)目僅占到所有查詢的3 34%,這表明檢查假設(shè)不能精確地表征大部分查詢的點(diǎn)擊行為。由于當(dāng)用戶瀏覽第一文檔時(shí)用戶可能還未閱讀最后九個(gè)文檔,因此相對(duì)于對(duì)最后九個(gè)文檔做出的任何點(diǎn)擊而言是否已點(diǎn)擊了第一文檔是獨(dú)立的事件。由此,對(duì)于該現(xiàn)象唯一合理的解釋是在查詢背后有內(nèi)在的搜索意圖,而該意圖導(dǎo)致兩個(gè)組之間的點(diǎn)擊多樣性??梢杂眯碌募僭O(shè)來解決該多樣性,該新的假設(shè)在此處被稱為意圖假設(shè)。意圖假設(shè)保留檢查假設(shè)提出的檢查的概念。此外,意圖假設(shè)假定僅在結(jié)果或摘錄符合用戶的搜索意圖,即用戶需要它時(shí)才點(diǎn)擊該結(jié)果或摘錄。由于查詢部分地反映出用戶的搜索意圖,因此假定如果文檔與查詢無關(guān),則根本不需要它是合理的。另一方面,是否需要相關(guān)文檔唯一地受到用戶的意圖和查詢之間的間隙的影響。從該定義,如果用戶過去總是提交準(zhǔn)確地反映其搜索意圖的查詢,那么意圖假設(shè)將被降低為檢查假設(shè)。形式上,意圖假設(shè)包括以下三個(gè)語句1.當(dāng)且僅當(dāng)文檔被檢查且是用戶所需時(shí),用戶才點(diǎn)擊搜索結(jié)果列表中的摘錄以訪問相應(yīng)的文檔。2.如果感知到文檔是不相關(guān)的,那么用戶不會(huì)需要它。3.如果感知到文檔是相關(guān)的,那么是否需要它僅受到用戶的意圖和查詢直接的間隙的影響。圖5將檢查假設(shè)和意圖假設(shè)的圖形模型作比較。如可以在意圖假設(shè)中看到的,隱藏的事件Ni被插入到氏和Ci之間,以區(qū)分文檔相關(guān)度和被點(diǎn)擊的文檔。為了用概率的方式表示意圖假設(shè),將介紹以下注解和符號(hào)。假設(shè)在會(huì)話s中有m 個(gè)結(jié)果或摘錄。第i個(gè)摘錄用CU1表示,而它是否被點(diǎn)擊用Ci表示。Ci是二元變量。Ci = 1表示摘錄被點(diǎn)擊,而Ci = 0表示它沒有被點(diǎn)擊。相似地,摘錄cU i是否被檢查、是否被感知相關(guān)和是否所需分別用二元變量E” Ri和Ni來表示。在該定義下,意圖假設(shè)可以被公式化為Si = IsJV4 = I^CJ4 = I (17)PriM4 = 1) = r ·(Ig)Pr (Ni = 11 Ri = 0) =0(19)Pr(Ni = 1 IRi = 1) = μ s(20)此處,rh是摘錄CU1的相關(guān)性,而μ s被定義為意圖偏差。由于意圖假設(shè)假定 μ 3應(yīng)該僅受到意圖和查詢的影響,因此μ s在相同的會(huì)話中的所有摘要之間共享,這意味
9著它是會(huì)話s中的全局隱藏變量。然而,它在不同的會(huì)話中一般是不同的,因?yàn)橐鈭D偏差一般會(huì)是不同的。將等式(17)、(18)、(19)和(20)組合,不難得出
權(quán)利要求
1.一種生成用于搜索引擎的訓(xùn)練數(shù)據(jù)的方法,包括檢索O10)關(guān)于用戶點(diǎn)擊行為的日志數(shù)據(jù);基于包括參數(shù)的點(diǎn)擊模型來分析O20)日志數(shù)據(jù)以確定多個(gè)頁面中每一個(gè)頁面與查詢的相關(guān)性,所述參數(shù)涉及表示用戶在執(zhí)行搜索時(shí)的意圖的用戶意圖偏差;以及將所述頁面的相關(guān)性轉(zhuǎn)換(MO)成訓(xùn)練數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,所述用戶意圖偏差通過查詢(111)和文檔相關(guān)性之間的關(guān)系來確定,所述查詢由所述用戶通過所述搜索引擎來執(zhí)行以獲取包括在搜索結(jié)果(112)中的文檔。
3.如權(quán)利要求1所述的方法,其特征在于,所述點(diǎn)擊模型是包括可觀察到的二進(jìn)制值和隱藏二進(jìn)制變量的圖形模型,所述可觀察到的二進(jìn)制值表示文檔是否被點(diǎn)擊,而所述隱藏二進(jìn)制變量表示所述文檔是否被所述用戶檢查并且是否被所述用戶需要。
4.如權(quán)利要求1所述的方法,其特征在于,所述點(diǎn)擊模型是被重構(gòu)成包括涉及所述用戶意圖偏差的參數(shù)的DBN模型。
5.如權(quán)利要求1所述的方法,其特征在于,所述點(diǎn)擊模型是被重構(gòu)成包括涉及所述用戶意圖偏差的參數(shù)的UBM模型。
6.如權(quán)利要求1所述的方法,其特征在于,多個(gè)模型參數(shù)與所述點(diǎn)擊模型相關(guān)聯(lián)并且所述方法還包括使用涉及所述用戶意圖偏差的參數(shù)的初始化值來確定用于一系列訓(xùn)練查詢會(huì)話的所述多個(gè)模型參數(shù)中的每一個(gè)的值;對(duì)于每一個(gè)查詢會(huì)話,使用已經(jīng)確定的每一個(gè)模型參數(shù)的值來估算涉及所述用戶意圖偏差的參數(shù)的值;以迭代方式重復(fù)所述確定和估算步驟直到所有參數(shù)收斂。
7.如權(quán)利要求6所述的方法,其特征在于,所述確定和估算步驟使用概率圖形模型來與基于似然的推斷一起執(zhí)行。
8.如權(quán)利要求7所述的方法,其特征在于,所述概率圖形模型是貝葉斯網(wǎng)絡(luò)。
9.如權(quán)利要求6所述的方法,其特征在于,還包括對(duì)于每一個(gè)查詢會(huì)話集成全部模型參數(shù)以導(dǎo)出似然函數(shù);最大化所述似然函數(shù)以估算涉及所述用戶意圖偏差的參數(shù)的值;以及使用已經(jīng)估算出的涉及所述用戶意圖偏差的參數(shù)的值來更新所述模型參數(shù)。
10.如權(quán)利要求6所述的方法,其特征在于,與出現(xiàn)在所述查詢結(jié)果列表中的較高處的被點(diǎn)擊頁面相比,所述點(diǎn)擊模型對(duì)出現(xiàn)在查詢結(jié)果列表中的較低處的被點(diǎn)擊頁面施加更高的權(quán)重。
全文摘要
本發(fā)明公開了用于顧及當(dāng)用戶在搜索引擎中提出查詢時(shí)的用戶意圖的點(diǎn)擊模型。一種生成用于搜索引擎的訓(xùn)練數(shù)據(jù)的方法通過檢索涉及用戶點(diǎn)擊行為的日志數(shù)據(jù)來開始?;诎▍?shù)的點(diǎn)擊模型來分析日志數(shù)據(jù)以確定多個(gè)頁面中每一個(gè)頁面與查詢的相關(guān)性,該參數(shù)涉及表示用戶在執(zhí)行搜索時(shí)的意圖的用戶意圖偏差。然后將這些頁面的相關(guān)性轉(zhuǎn)換成訓(xùn)練數(shù)據(jù)。
文檔編號(hào)G06F17/30GK102542003SQ20111040915
公開日2012年7月4日 申請(qǐng)日期2011年11月30日 優(yōu)先權(quán)日2010年12月1日
發(fā)明者王剛, 陳偉柱, 陳正 申請(qǐng)人:微軟公司