專利名稱:改進(jìn)購物搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及網(wǎng)絡(luò)技術(shù)中的搜索查詢。
背景技術(shù):
對搜索引擎的使用留給用戶任何給定查詢的過多結(jié)果列表。某些系統(tǒng)試圖基于例如標(biāo)題中的單詞或來自先前搜索的點(diǎn)擊數(shù)按相對次序?qū)?jīng)返回的文檔進(jìn)行排序。在購物搜索的情況下,可以基于經(jīng)返回的文檔來呈現(xiàn)相關(guān)項(xiàng),諸如分類或價(jià)格等。由于經(jīng)返回的文檔的質(zhì)量可能不一致,因此相關(guān)項(xiàng)可能包括非預(yù)期結(jié)果。例如,在流行的搜索引擎上對單詞 “玫瑰”的購物搜索可以返回從音頻CD到游戲控制臺等文檔,而在前10個(gè)結(jié)果中甚至都沒有呈現(xiàn)花朵的文檔。所呈現(xiàn)的購物分類的范圍可以從耳環(huán)到歷史書。當(dāng)對諸如價(jià)格等特定特征排序時(shí),給予該特征的過度提升可以導(dǎo)致該特性比另一特性占優(yōu)勢,而以完全喪失相關(guān)性為代價(jià)。例如,對按價(jià)格對“GPS”搜索結(jié)果排序的請求可以導(dǎo)致用于掛載GPS的不昂貴的支架首先被示出,而這幾乎肯定不是用戶正尋找的東西。
發(fā)明內(nèi)容
一種更高級的結(jié)果排序系統(tǒng)使用機(jī)器學(xué)習(xí)技術(shù)以及人類判斷來確定參數(shù),以供基于用戶期望使用搜索結(jié)果的絕對相關(guān)性值來對結(jié)果進(jìn)行排序,而不是單獨(dú)基于點(diǎn)擊數(shù)和/ 或標(biāo)題單詞匹配來對經(jīng)返回的文檔進(jìn)行相對排序。另外地,使用絕對排名器的查詢結(jié)果可以更準(zhǔn)確地在分類上對齊,從而允許對相似產(chǎn)品或互補(bǔ)產(chǎn)品的更好建議。絕對排名器可以使用代表性查詢的結(jié)果以提供該查詢的文檔列表。人類審判員可以對每一查詢的結(jié)果的樣本進(jìn)行排名,以提供用于對可隨后捕捉人類生成的結(jié)果以應(yīng)用到新查詢的機(jī)器學(xué)習(xí)分類工具的進(jìn)行編程的知識庫。絕對排名器允許預(yù)先篩選經(jīng)返回的結(jié)果,使得按特征的排序不給予無關(guān)結(jié)果過度提升。
圖1是示例性計(jì)算設(shè)備的框圖;圖2是示例性因特網(wǎng)搜索環(huán)境的圖示;圖3A是示出機(jī)器學(xué)習(xí)分類工具訓(xùn)練的流程圖;圖;3B是示出使用機(jī)器學(xué)習(xí)分類工具來開發(fā)搜索結(jié)果的流程圖;圖4是示出示例性決策樹的一部分的圖示;以及圖5示出了示出搜索結(jié)果元素的計(jì)算機(jī)屏幕截圖。
具體實(shí)施例方式盡管下文闡明了眾多不同實(shí)施例的詳細(xì)描述,但是應(yīng)當(dāng)理解,該描述的法律范圍由本發(fā)明所附的權(quán)利要求書的言辭來限定。該詳細(xì)描述應(yīng)被解釋為僅是示例性的,且不描述每一可能的實(shí)施例,因?yàn)槊枋雒恳豢赡艿膶?shí)施例即使不是不可能的也是不切實(shí)際的??墒褂矛F(xiàn)有技術(shù)或在本申請?zhí)峤蝗罩箝_發(fā)的技術(shù)來實(shí)現(xiàn)眾多替換實(shí)施例,而這仍落入權(quán)利要求書的范圍之內(nèi)。還應(yīng)該理解,在本專利中,除非使用句子“如此處所用,術(shù)語‘_,特此被定義
為意指……”或者類似句子來明確地定義一個(gè)術(shù)語,否則不管是明確地還是含蓄地,沒有限制該術(shù)語意義超出其平常或普通意義的意圖,并且,這一術(shù)語不應(yīng)該被解釋為被限制在基于本專利的任何部分中(除了權(quán)利要求書的語言之外)所做的任何陳述的范圍中。就本專利所附的權(quán)利要求書中所述的任何術(shù)語在本專利中以與單數(shù)意義相一致的方式來引用而言,這是為簡明起見而如此做的,僅僅是為了不使讀者感到混淆,且這類權(quán)利要求術(shù)語并不旨在隱含地或以其它方式限于該單數(shù)意義。最后,除非一權(quán)利要求要素是通過敘述單詞 “裝置”和功能而沒有敘述任何結(jié)構(gòu)來定義的,否則任何權(quán)利要求要素的范圍并不旨在基于 35U. S. C. § 112、第6段的應(yīng)用來解釋。許多發(fā)明性功能和許多發(fā)明性原理最佳地使用或利用軟件程序或指令以及諸如專用IC等集成電路(IC)來實(shí)現(xiàn)。期望本領(lǐng)域的普通技術(shù)人員雖然可能要進(jìn)行大量的工作和由例如可用時(shí)間、現(xiàn)有技術(shù)以及經(jīng)濟(jì)問題促動(dòng)的許多設(shè)計(jì)選擇,但是當(dāng)受到此處所公開的概念和原理的指引時(shí)仍能夠容易地以最小的實(shí)驗(yàn)來生成這些軟件指令和程序以及IC。 因此,為了簡明以及最小化使根據(jù)本發(fā)明的原理和概念晦澀的任何風(fēng)險(xiǎn),對這些軟件和 IC(如果有的話)的進(jìn)一步討論將限于對于較佳實(shí)施例的原理和概念所必需的那些討論。參考圖1,用于實(shí)現(xiàn)所要求保護(hù)的方法和裝置的示例性計(jì)算設(shè)備包括計(jì)算機(jī)110 形式的通用計(jì)算設(shè)備。虛線輪廓中所示出的組件在技術(shù)上不是計(jì)算機(jī)110的一部分,而是用于示出圖1的示例性實(shí)施例。計(jì)算機(jī)110的組件可包括但不限于,處理器120、系統(tǒng)存儲器130、存儲器/圖形接口 121(也被稱為北橋芯片)以及I/O接口 122(也被稱為南橋芯片)。系統(tǒng)存儲器130和圖形處理器190可以耦合到存儲器/圖形接口 121。監(jiān)視器191 或其他圖形輸出設(shè)備可以耦合到圖形處理器190。一系列系統(tǒng)總線可以耦合各種系統(tǒng)組件,這些系統(tǒng)總線包括處理器120、存儲器/ 圖形接口 121和I/O接口 122之間的高速系統(tǒng)總線123,存儲器/圖形接口 121和系統(tǒng)存儲器130之間的前端總線124,以及存儲器/圖形接口 121和圖形處理器190之間的高級圖形處理(AGP)總線125。系統(tǒng)總線123可以是若干種類型的總線結(jié)構(gòu)中的任一種,包括,作為示例而非限制,這些體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線和增強(qiáng)型ISA(EISA)總線。隨著系統(tǒng)體系結(jié)構(gòu)的進(jìn)化,可以使用其他總線體系結(jié)構(gòu)和芯片組,但通常大致遵循該模式。例如,諸如英特爾和AMD等公司分別支持英特爾中樞體系結(jié)構(gòu)(Intel Hub Architecture, IHA)禾口超傳輸 TM(Hypertransport)系結(jié)構(gòu)。計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是能由計(jì)算機(jī) 110訪問的任何可用介質(zhì),而且包含易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為示例而非局限,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括以用于存儲諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲介質(zhì)包括,但不限于,RAM、ROM、 ΕΕΗ 0Μ、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲設(shè)備、或能用于存儲所需信息且可以由計(jì)算機(jī)110訪問的任何其它介質(zhì)。系統(tǒng)存儲器130包括易失性和/或非易失性存儲器形式的計(jì)算機(jī)存儲介質(zhì),如只讀存儲器(ROM) 131和隨機(jī)存取存儲器(RAM) 132。系統(tǒng)ROM 131可包含永久系統(tǒng)數(shù)據(jù)143, 諸如標(biāo)識和制造信息。在某些實(shí)施例中,基本輸入/輸出系統(tǒng)(BIOS)也可存儲在系統(tǒng)ROM 131中。RAM 132通常包含處理器120可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例而非限制,圖1示出了操作系統(tǒng)134、應(yīng)用程序135,其他程序模塊136,和程序數(shù)據(jù)137。I/O接口 122可將系統(tǒng)總線123與將各種內(nèi)部和外部設(shè)備耦合到計(jì)算機(jī)110的多個(gè)其他總線126、127和1 耦合。串行外圍接口(SPI)總線1 可連接到包含幫助在諸如啟動(dòng)期間在計(jì)算機(jī)110內(nèi)的各元件之間傳遞信息的基本例程的基本輸入/輸出系統(tǒng)(BIOS) 存儲器133。超級輸入/輸出芯片160可用于連接到多個(gè)‘傳統(tǒng)’外圍設(shè)備,諸如例如,軟盤152、 鍵盤/鼠標(biāo)162和打印機(jī)196。在某些實(shí)施例中,超級1/0芯片160可以用諸如低引腳數(shù) (LPC)總線等總線127來連接到1/0接口 122。超級1/0芯片160的各實(shí)施例在商業(yè)市場可廣泛地購買到。在一個(gè)實(shí)施例中,總線1 可以是外圍部件互連(PCI)總線或其變型,可用于將更高速的外圍設(shè)備連接到1/0接口 122。PCI總線可被稱為夾層(Mezzanine)總線。PCI總線的變型包括快速外圍部件互連(PCI-E)和擴(kuò)展外圍部件互連(PCI-X)總線,前者具有串行接口而后者是向后兼容并行接口。在其他實(shí)施例中,總線1 可以是串行高級技術(shù)附件 (ATA)總線(SATA)或并行ATA (PATA)形式的ATA總線。計(jì)算機(jī)110還可以包括其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲介質(zhì)。僅作為示例,圖1示出了對不可移動(dòng)、非易失性磁介質(zhì)進(jìn)行讀寫的硬盤驅(qū)動(dòng)器140。硬盤驅(qū)動(dòng)器140可以是傳統(tǒng)硬盤驅(qū)動(dòng)器,或可以是類似于以下參考圖2描述的存儲介質(zhì)。諸如通用串行總線(USB)存儲器153、火線(IEEE 1394)、或CD/DVD驅(qū)動(dòng)器156等可移動(dòng)介質(zhì)可直接或通過接口 150連接到PCI總線128。類似于以下參考圖2描述的存儲介質(zhì)巧4可以通過接口 150來耦合??梢栽谑纠圆僮鳝h(huán)境中使用的其他可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲介質(zhì)包括但不限于,磁帶盒、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等等。上文所討論的并且在圖1中所示出的驅(qū)動(dòng)器以及它們的相關(guān)聯(lián)的計(jì)算機(jī)存儲介質(zhì),為計(jì)算機(jī)110提供了計(jì)算機(jī)可讀的指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊及其他數(shù)據(jù)的存儲。例如, 在圖1中,硬盤驅(qū)動(dòng)器140被示為存儲操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。注意,這些組件可以與操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136和程序數(shù)據(jù)137相同,也可以與它們不同。給操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146、以及程序數(shù)據(jù)147提供了不同的編號,以說明至少它們是不同的副本。用戶可通過諸如鼠標(biāo) /鍵盤162等輸入設(shè)備或其他輸入設(shè)備組合來將命令和信息輸入計(jì)算機(jī)20。其他輸入設(shè)備 (未示出)可以包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀等等。這些和其他輸入設(shè)備通常通過諸如SPI 126,LPC 127或PCI 1 等1/0接口總線中的一個(gè)來連接到處理器120,但可以使用其他總線。在某些實(shí)施例中,其他設(shè)備可經(jīng)由超級1/0芯片160耦合到并行端口、紅外接口、游戲端口以及諸如此類(未描繪)。
計(jì)算機(jī)110可使用經(jīng)由網(wǎng)絡(luò)接口控制器(NIC) 170至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接來在聯(lián)網(wǎng)環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對等設(shè)備或其它常見的網(wǎng)絡(luò)節(jié)點(diǎn),并且通常包括上面相對于計(jì)算機(jī) 110所述的許多或全部元件。圖1所描繪的NIC 170和遠(yuǎn)程計(jì)算機(jī)180之間的邏輯連接可包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)或兩者,但還可包括其他網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境常見于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中。遠(yuǎn)程計(jì)算機(jī)180還可以表示支持與計(jì)算機(jī) 110進(jìn)行交互會話的web服務(wù)器。在某些實(shí)施例中,網(wǎng)絡(luò)接口可以在寬帶連接不可用或未使用寬帶連接時(shí)使用調(diào)制解調(diào)器(未描繪)。可以理解,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它手段。圖2是web搜索系統(tǒng)200的框圖200。客戶機(jī)計(jì)算機(jī)202可以連接到web服務(wù)器 206。web服務(wù)器206與客戶機(jī)計(jì)算機(jī)202之間的通信量可以在諸如因特網(wǎng)等網(wǎng)絡(luò)204上承載。web服務(wù)器206可以將搜索查詢定向到搜索引擎208。搜索引擎208可以返回諸如文檔列表等結(jié)果,并且將那些結(jié)果發(fā)送給諸如服務(wù)器210和212等一個(gè)或多個(gè)分類工具服務(wù)器。諸如內(nèi)容服務(wù)器214以及特性服務(wù)器216等附加服務(wù)器可以支持其他功能。分類工具編程環(huán)境218可以包括分類工具開發(fā)服務(wù)器220、分類工具數(shù)據(jù)庫222、以及可被用于支持人類審判員在編程階段期間執(zhí)行對返回結(jié)果的排名的多個(gè)工作站224、226、228。各種服務(wù)器和工作站可以類似于圖1的示例性計(jì)算機(jī)110。盡管圖2的描述將每一服務(wù)器示為執(zhí)行專用功能,但可以使用硬件和軟件的結(jié)合來結(jié)合或劃分與所描述的示例性服務(wù)器相關(guān)聯(lián)的功能。在操作中,web服務(wù)器206可以接收因特網(wǎng)搜索查詢,諸如銷售有關(guān)的查詢,例如, 與待售產(chǎn)品或服務(wù)相關(guān)。搜索引擎208可以執(zhí)行對應(yīng)于銷售相關(guān)的查詢的搜索,并且可以返回多個(gè)響應(yīng)文檔。每一響應(yīng)文檔可以具有附隨文本描述和/或照片。分類工具服務(wù)器 210、212、或兩者可以使用加權(quán)樹搜索來為多個(gè)響應(yīng)文檔的每一個(gè)開發(fā)絕對相關(guān)性排名。在一個(gè)實(shí)施例中,加權(quán)樹搜索可以基于MART樹算法,但可以使用眾多其他機(jī)器學(xué)習(xí)分類工具產(chǎn)品。分類工具服務(wù)器210、212、或兩者可以為每一返回的文檔返回絕對相關(guān)性排名。在一個(gè)實(shí)施例中,絕對相關(guān)性排名可以處于從0到1的范圍中。示例性閾值水平可以是0. 97,但可以設(shè)置、甚至例如基于由搜索返回的多個(gè)文檔來動(dòng)態(tài)地設(shè)置任何數(shù)量的閾值水平。可以按其絕對相關(guān)性排名的次序向用戶呈現(xiàn)接收閾值水平以上的絕對相關(guān)性排名的文檔。內(nèi)容服務(wù)器214和特性服務(wù)器216可以開發(fā)對搜索結(jié)果呈現(xiàn)的相關(guān)細(xì)化,諸如文檔的特征和特性。內(nèi)容服務(wù)器214可以檢查具有在閾值水平以上的絕對相關(guān)性排名的響應(yīng)文檔,并且確定諸如分類、品牌、價(jià)格等關(guān)于每一文檔的特征。由于與相對排名器相比,絕對相關(guān)性排名給出與用戶的期望響應(yīng)更接近的匹配,因此所確定的關(guān)于每一文檔的特征(例如分類)可以給出更窄且更準(zhǔn)確的分類屬性。為了對分類進(jìn)行排序以供向用戶呈現(xiàn),可以對特定分類中每一文檔的絕對相關(guān)性排名進(jìn)行平均,使得具有最高總平均數(shù)的分類被呈現(xiàn)在頂部。特性服務(wù)器216可以從被選作具有在閾值水平以上的絕對相關(guān)性排名的多個(gè)響應(yīng)文檔中提取內(nèi)容,以開發(fā)文檔的特性列表。例如,特性可以包括價(jià)格、用戶評級、專家評級等,如以上相對于內(nèi)容服務(wù)器214描述的,特性服務(wù)器216可以僅對已經(jīng)被確定為具有在閾值水平以上的絕對相關(guān)性排名的那些文檔進(jìn)行操作。結(jié)果,可以向希望例如按價(jià)格對文檔排序的用戶呈現(xiàn)更符合原始搜索的項(xiàng),而否則原始搜索可能僅用現(xiàn)有技術(shù)中使用的相對排名來實(shí)現(xiàn)??梢允褂梅诸惞ぞ呔幊汰h(huán)境218來對分類工具服務(wù)器210、212、或兩者、及其機(jī)器學(xué)習(xí)程序進(jìn)行訓(xùn)練、確認(rèn)、以及測試。可以從搜索引擎日志中選擇在編程階段中使用的查詢,以提供真實(shí)世界評估目標(biāo)。可以運(yùn)行查詢并且提取或“刮掉(scrape)”結(jié)果以收集文檔以供評估。可以采用對結(jié)果的采樣。例如,在一個(gè)實(shí)施例中,前20個(gè)是來自相對排名器的結(jié)果,以及另外80個(gè)文檔是從文檔21至250中隨機(jī)選擇的??梢詫⒉樵円约懊恳徊樵兊慕?jīng)選擇的結(jié)果存儲在分類工具數(shù)據(jù)庫222中以供在分類工具開發(fā)服務(wù)器220上使用。開發(fā)服務(wù)器220可以將查詢以及經(jīng)選擇的結(jié)果中的每一個(gè)呈現(xiàn)給工作站224、226、2觀中的一個(gè)處的人類審判員。人類審判員可以相對于他或她對該查詢的期望來對每一結(jié)果評級。評級、或標(biāo)簽可以簡單地被評級為非常好、好、一般、或差。例如,在人類審判員相信不會存在更好的其他結(jié)果時(shí)可以使用“非常好”標(biāo)簽。好結(jié)果可以是用戶可能尋找的結(jié)果,但可能有更好的結(jié)果。在它不是人類審判員尋找的但是相關(guān)的結(jié)果時(shí)可以給出“一般”標(biāo)簽。在返回的文檔與查詢無關(guān)時(shí)可以分配“差”標(biāo)簽。在一個(gè)實(shí)施例中,標(biāo)簽被轉(zhuǎn)換成數(shù)字評級1-4, 其中1為差以及4為非常好。在另一實(shí)施例中,可以指數(shù)地轉(zhuǎn)換標(biāo)簽,其中1被給予1,2被給予4,3被給予9,以及4被給予16。指數(shù)的使用在非常好與好之間創(chuàng)建了比好與一般之間更大的距離。人類標(biāo)簽數(shù)據(jù)可被用作訓(xùn)練中的一個(gè)元素。在一個(gè)實(shí)施例中,可以將查詢、文檔、 人類分配的標(biāo)簽(加權(quán)或不加權(quán))與諸如標(biāo)題匹配以及‘點(diǎn)進(jìn)’等其他特性連同外來數(shù)據(jù)一起結(jié)合。點(diǎn)進(jìn)是對作為結(jié)果的返回的文檔實(shí)際上被用戶點(diǎn)擊了多少次的測量。在訓(xùn)練過程中所使用的其他外來數(shù)據(jù)可以包括但不限于NumberOfPerfectMatches_FeedsPhrase (完美匹配數(shù)量 _ 饋源短語)-被定義
為與查詢完全匹配的短語數(shù)量(單詞必須按相同次序而且它們之間沒有其他單詞。)注意,無用詞(即,像‘the (這(那))’和‘of (之(的))’等常見單詞)被移除,因此對于像 ‘Lord ofthe Dance (王者之舞),等查詢將不存在完美匹配)。WordslnAccessoryListFeature (附件列表特性中的單詞)-與關(guān)鍵詞的靜態(tài)列
表匹配且在附件中通常找到的單詞。這是在該列表中與查詢中的單詞數(shù)量匹配的特性。MultiInstanceTotalNormalizer_FeedsPhrase (多實(shí)例總歸一化器饋源短
語)-MultiInstanceTotalNormalizer_stream(多實(shí)例總歸一化器流)是各個(gè)單
詞歸一化器的總和,但移除了重復(fù)。特性的值是10. O。如果存在重復(fù)項(xiàng),則作為先前項(xiàng)的重復(fù)的每一項(xiàng)將具有等于其父親的值的MultiInstanceNormalizer_stream的值。 MultiInstanceTotalNormalizer_stream 可以不對重復(fù)計(jì)數(shù)。Categoryi^ature (分類特性)——這是將查詢的分類與文檔的分類進(jìn)行匹配的特性。FirstOccurenceOfNearTuples_FeedsTerm(附近元組的第一次出現(xiàn)饋源項(xiàng))——查詢項(xiàng)在流中第一次出現(xiàn)的偏移。對于錨,第一出現(xiàn)被定義為相對第一錨短語的開始的偏移。這一特性的最小查詢長度是1。默認(rèn)值是(文檔結(jié)束-文檔開始+1)(DocumentEnd-DocumentStart+1),而不是之前的零。StreamLength_FeedsPhrase (流長度_饋源短語)——分類流的長度NumberOfTruePerfectMatches_FeedsMulti (真完美匹配的數(shù)量饋源多個(gè))-點(diǎn)
擊預(yù)測-預(yù)測文檔獲得點(diǎn)擊的可能性的模型MaticRank(靜態(tài)排名)——對文檔的查詢無關(guān)流行度的測量??绮樵兊膶ξ臋n的點(diǎn)擊的總和。這些點(diǎn)擊可以指數(shù)地衰減,以將較高權(quán)重給予更新近的點(diǎn)擊??偣踩?00 —樣多的外來數(shù)據(jù)元素可以被并入開發(fā)并且訓(xùn)練機(jī)器學(xué)習(xí)分類工具中。圖3A是示出機(jī)器學(xué)習(xí)分類工具訓(xùn)練的流程圖300。訓(xùn)練過程涉及將查詢以及對應(yīng)的結(jié)果供應(yīng)給對給定查詢的結(jié)果質(zhì)量進(jìn)行主觀地排名的人類審判員。在框302,可以生成查詢集以供訓(xùn)練機(jī)器學(xué)習(xí)分類工具??梢詮娜∽詫?shí)際用戶搜索查詢的搜索引擎日志的查詢來選擇該查詢集。在框304,可以在因特網(wǎng)搜索引擎上執(zhí)行該查詢集,以開發(fā)該查詢集中的每一查詢的對應(yīng)的結(jié)果集。在框306,可以從每一對應(yīng)的結(jié)果集中選擇有限數(shù)量的文檔。在一個(gè)示例性實(shí)施例中,可以將相對排名器應(yīng)用于每一結(jié)果集。可以選擇由相對排名器指定的前20個(gè)文檔以及從由相對排名器指定的排名為21-250的文檔中選擇的另外80個(gè)文檔。在此實(shí)施例中,隨后可以提交100個(gè)文檔以供評估每一查詢。在框308,可為有限數(shù)量的文檔中的每一個(gè)開發(fā)與其對應(yīng)查詢相比的主觀評級。多個(gè)審判員可以各自接收文檔列表和查詢,并且應(yīng)用主觀評級。在一個(gè)實(shí)施例中,可以在四點(diǎn) (four-point)的基礎(chǔ)上執(zhí)行這些評級。主觀評級可以僅僅是將差、一般、好、以及完美評級分配給每一文檔??梢詫⒃u級轉(zhuǎn)換成數(shù)值。例如,每一文檔可以分別被分配數(shù)值1-4或被加權(quán),使得評級分別轉(zhuǎn)換成數(shù)值1、4、9、和16。與好到一般評級相比,加權(quán)的評級的使用幫助增加完美與好評級之間的距離。在框310,可以至少部分地使用有限數(shù)量的文檔中的每一個(gè)的主觀評級來對機(jī)器學(xué)習(xí)分類工具進(jìn)行編程。如以上討論的,附加外來數(shù)據(jù)元素可以被并入開發(fā)并且訓(xùn)練機(jī)器學(xué)習(xí)分類工具中。盡管其他類似工具是已知的并且類似地執(zhí)行,但在一個(gè)實(shí)施例中,機(jī)器學(xué)習(xí)分類工具可以是多重累計(jì)回歸樹(MART)工具。在框312,為幫助確保人類審判員之間的一致結(jié)果,可以基于主題評級來開發(fā)審判員間的一致率。例如,可以比較相同文檔的所選數(shù)量的評級,并且可以計(jì)算統(tǒng)計(jì)偏差評級。
在框314,如果審判員間一致率落在一限制以下,則可以警告人類審判員,例如,可以給予人類審判員附加的評級準(zhǔn)則以幫助實(shí)現(xiàn)更一致的結(jié)果。例如,可以相對于“較好”評級來更好地定義對可被考慮為“相關(guān)”的準(zhǔn)則。圖;3B是示出使用機(jī)器學(xué)習(xí)分類工具來開發(fā)搜索結(jié)果中的流程圖350。在框352,可以執(zhí)行返回文檔集的查詢。該查詢可以是由諸如圖2的搜索引擎208 等搜索引擎的用戶提交的實(shí)際實(shí)況查詢。在框354,可以選擇經(jīng)返回的文檔集的至少一部分以供進(jìn)一步處理。例如,可以使用諸如現(xiàn)有技術(shù)中使用的相對排名器來提供文檔的高級選擇以供進(jìn)一步考慮。在一個(gè)實(shí)施例中,可以跨多個(gè)計(jì)算機(jī)對文檔集進(jìn)行劃分,并且在每一計(jì)算機(jī)上可以使用一相對排名器,藉此來自每一計(jì)算機(jī)上的相對排名的頂部結(jié)果被返回以供進(jìn)一步處理。在另一實(shí)施例中, 可以在單個(gè)計(jì)算機(jī)上處理文檔集,并且可以使用來自該相對排名的頂部結(jié)果。例如,可以將經(jīng)返回的總文檔的10-30%提供給以下描述的絕對排名器。在框356,可為經(jīng)返回的集合的該部分中的每一文檔提供絕對相關(guān)性分?jǐn)?shù)。可以使用被包含在分類工具服務(wù)器210、212、或兩者的機(jī)器學(xué)習(xí)分類工具來生成絕對相關(guān)性分?jǐn)?shù)。 絕對相關(guān)性分?jǐn)?shù)可以是諸如以上描述的人類生成的標(biāo)簽以及外來數(shù)據(jù)的函數(shù)。在框360,可以使用經(jīng)返回的文檔的該部分的每一文檔的絕對相關(guān)性分?jǐn)?shù)來創(chuàng)建文檔子集。該子集中的每一文檔可以具有在閾值以上的絕對相關(guān)性評級(即分?jǐn)?shù))。在框362,可以根據(jù)其絕對相關(guān)性分?jǐn)?shù)來任選地對文檔子集進(jìn)行排序。無論是否首先對該文檔子集進(jìn)行排序,可以選擇基于該文檔子集中的文檔特征的一個(gè)或多個(gè)相關(guān)細(xì)化。選擇一個(gè)或多個(gè)相關(guān)細(xì)化可以包括選擇一特性和/或一特征。特性可以包括用戶評級、 價(jià)格、專家評級等等。特征可以包括分類、價(jià)格范圍、以及品牌。在框364,可以開始向用戶呈現(xiàn)數(shù)據(jù)。對數(shù)據(jù)的呈現(xiàn)可以包括在作出請求的計(jì)算機(jī)上顯示相關(guān)細(xì)化的一個(gè)或多個(gè),并且可以包括呈現(xiàn)分類列表??梢酝ㄟ^采用特定分類中的文檔的平均絕對相關(guān)性值以及按最高平均值的次序呈現(xiàn)分類來開發(fā)對分類的排序。在框366,可以基于文檔子集的每一文檔的絕對相關(guān)性分?jǐn)?shù)、按與查詢的最高相關(guān)性的次序來顯示文檔子集??扇芜x地,在框358,在數(shù)據(jù)的初始呈現(xiàn)期間或者響應(yīng)于用戶請求,可以對絕對相關(guān)性分?jǐn)?shù)進(jìn)行調(diào)整。例如,如果用戶指示對按價(jià)格排序的偏好,則價(jià)格特性可以被給予額外的重要性,即被稱為提升的過程。給定例如對一特性的附加重要性,機(jī)器學(xué)習(xí)分類工具可以被重新加權(quán),或另選地,可以選擇預(yù)先加權(quán)的機(jī)器學(xué)習(xí)分類工具??梢曰诮?jīng)提升的特征來為文檔集的至少一部分的每一文檔重新生成絕對相關(guān)性分?jǐn)?shù)。隨后還可以使用經(jīng)重新生成的絕對相關(guān)性分?jǐn)?shù)來重新創(chuàng)建文檔子集。選擇相關(guān)的細(xì)化以及顯示文檔的相關(guān)聯(lián)的步驟可以被重新執(zhí)行。圖4示出了示例性樹搜索400。節(jié)點(diǎn)402、404、406、408、以及410各自可以是與特定特性相關(guān)聯(lián)的決策點(diǎn)。如果存在該特性,則可以分配值1,并且可以采取到左邊的分支。 如果不存在該特性,則可以分配值0,并且可以采取到右邊的分支。在訓(xùn)練期間,可以對每一節(jié)點(diǎn)進(jìn)行加權(quán)以調(diào)整每一節(jié)點(diǎn)的決策點(diǎn)。在多個(gè)訓(xùn)練運(yùn)行中,可以改變加權(quán)以確定哪些值給出最佳性能。還可以調(diào)整諸如在樹中有多深才能截止(cut off)搜索等其他準(zhǔn)則以給出更接近于人類審判員的結(jié)果的結(jié)果。圖5示出了搜索結(jié)果的示例性屏幕截圖500。搜索結(jié)果可以包括文檔(或文檔鏈接)502、504、506、及其各自的描述和圖片(如果可用)。分類列表508可以按排名的次序示出1230個(gè)文檔所屬于的分類。以上討論了對排名的次序的選擇。還可以將諸如品牌510 以及價(jià)格512等其他分類顯示給用戶。對分類項(xiàng)的選擇將顯示具有所選擇的特征的那些結(jié)果,以及在某些實(shí)施例中,將顯示來自該分類的其他項(xiàng)。特性514也被顯示并且可以被選擇以根據(jù)該特性來顯示結(jié)果,諸如按價(jià)格或用戶評級來列出。以上描述的系統(tǒng)和技術(shù)向執(zhí)行搜索特別是購物搜索的用戶提供了更豐富的搜索體驗(yàn)。較高相關(guān)性的搜索節(jié)省了用戶時(shí)間和精力,并且通過吸引更多通信量來有益于搜索引擎提供者。在一個(gè)示例性實(shí)施例中,正在進(jìn)行的努力已經(jīng)看見在訓(xùn)練中使用超過10000個(gè)樣本查詢,而成百上千個(gè)文檔被評級且被用于細(xì)化機(jī)器學(xué)習(xí)分類工具。盡管上文闡明了眾多不同實(shí)施例的詳細(xì)描述,但是應(yīng)當(dāng)理解,本專利的法律范圍由本專利所附的權(quán)利要求書的言辭來限定。該詳細(xì)描述應(yīng)被解釋為僅是示例性的,且不描述本發(fā)明的每一可能的實(shí)施例,因?yàn)槊枋雒恳豢赡艿膶?shí)施例即使不是不可能的也是不切實(shí)際的??墒褂矛F(xiàn)有技術(shù)或在本專利提交日之后開發(fā)的技術(shù)來實(shí)現(xiàn)眾多替換實(shí)施例,這仍將落入定義本發(fā)明的權(quán)利要求書的范圍之內(nèi)。由此,可在此處所描述和示出的技術(shù)和結(jié)構(gòu)上作出許多修改和變化而不脫離本發(fā)明的精神和范圍。因此,應(yīng)當(dāng)理解,此處所描述的方法和裝置僅是說明性的,且不限制本發(fā)明的范圍。
權(quán)利要求
1.一種在因特網(wǎng)搜索中所使用的計(jì)算機(jī)上顯示按相關(guān)性排名的結(jié)果的方法,所述方法包括生成查詢集(302);在因特網(wǎng)搜索引擎上執(zhí)行所述查詢集中的每一個(gè)查詢以開發(fā)對應(yīng)的結(jié)果集(304); 從每一對應(yīng)的結(jié)果集中選擇有限數(shù)量的文檔(306);為所述有限數(shù)量的文檔中的每一個(gè)文檔開發(fā)相對于主觀準(zhǔn)則的主觀評級(308); 至少部分地使用所述有限數(shù)量的文檔中的每一個(gè)文檔的主觀評級來對機(jī)器學(xué)習(xí)分類工具進(jìn)行編程(310);執(zhí)行返回文檔集的查詢(352);使用所述機(jī)器學(xué)習(xí)分類工具來為所述文檔集的至少一部分生成絕對相關(guān)性分?jǐn)?shù) (356);從所述文檔集的至少一部分創(chuàng)建文檔子集,所述文檔子集中的每一文檔具有超過閾值的其相應(yīng)的絕對相關(guān)性分?jǐn)?shù)(358);基于所述文檔子集中的文檔的特征來選擇一個(gè)或多個(gè)相關(guān)細(xì)化(362); 在所述計(jì)算機(jī)上顯示所述一個(gè)或多個(gè)相關(guān)細(xì)化(364);以及基于所述文檔子集的每一文檔的絕對相關(guān)性分?jǐn)?shù)、按與所述查詢的最高相關(guān)性的次序來在所述計(jì)算機(jī)上顯示所述文檔子集(366)。
2.如權(quán)利要求1所述的方法,其特征在于,為所述有限數(shù)量的文檔中的每一個(gè)文檔開發(fā)所述主觀評級包括從相對于所述主觀準(zhǔn)則對所述有限數(shù)量的文檔中的每一個(gè)文檔進(jìn)行評級的多個(gè)審判員中的每一個(gè)接收所述主觀評級。
3.如權(quán)利要求2所述的方法,其特征在于,還包括 基于所述主觀評級計(jì)算審判員間一致率(312);以及當(dāng)所述審判員間一致率落在一限制以下時(shí)警告所述多個(gè)審判員(314)。
4.如權(quán)利要求2所述的方法,其特征在于,開發(fā)所述主觀評級包括所述多個(gè)審判員中的每一個(gè)分配差、一般、好、以及完美評級中的一個(gè)。
5.如權(quán)利要求4所述的方法,其特征在于,每一評級被分配一數(shù)值,每一對應(yīng)評級的值指數(shù)地增加。
6.如權(quán)利要求1所述方法,其特征在于,從每一對應(yīng)的結(jié)果集中選擇所述有限數(shù)量的文檔包括選擇由相對排名器指定的前20個(gè)文檔以及選自由所述相對排名器指定的排名為 21-250的文檔中的另外80個(gè)文檔。
7.如權(quán)利要求1所述的方法,其特征在于,選擇一個(gè)或多個(gè)相關(guān)細(xì)化包括選擇特性和特征中的至少一個(gè),其中所述特性包括用戶評級,以及所述特征包括分類、價(jià)格、以及品牌。
8.如權(quán)利要求1所述的方法,其特征在于,對所述機(jī)器學(xué)習(xí)分類工具進(jìn)行編程包括對多重累計(jì)回歸樹(MART)工具進(jìn)行編程。
9.如權(quán)利要1所述的方法,其特征在于,生成所述查詢集包括從實(shí)際用戶搜索查詢的搜索引擎日志中選擇所述查詢集。
10.如權(quán)利要求1所述的方法,其特征在于,還包括 開發(fā)與所述文檔集的至少一部分相關(guān)的提升的特征;基于經(jīng)提升的特征來為所述文檔集的至少一部分的每一文檔重新生成絕對相關(guān)性分?jǐn)?shù);以及用經(jīng)重新生成的絕對相關(guān)性分?jǐn)?shù)來重新創(chuàng)建所述文檔子集。
11.如權(quán)利要求1所述的方法,其特征在于,還包括基于相對排名過程從所述文檔集中選擇所述文檔集的至少一部分。
12.一種用于為從因特網(wǎng)搜索查詢返回的文檔提供按絕對相關(guān)性排名的結(jié)果的系統(tǒng), 包括web服務(wù)器,所述web服務(wù)器接收因特網(wǎng)搜索銷售相關(guān)的查詢; 搜索引擎服務(wù)器,所述搜索引擎服務(wù)器執(zhí)行對應(yīng)于銷售相關(guān)的查詢的搜索,并且返回多個(gè)響應(yīng)文檔;分類工具服務(wù)器,所述分類工具服務(wù)器使用加權(quán)的樹搜索來為所述多個(gè)響應(yīng)文檔中的至少某些開發(fā)絕對相關(guān)性排名;內(nèi)容服務(wù)器,所述內(nèi)容服務(wù)器從所述多個(gè)響應(yīng)文檔中的具有在閾值以上的其相應(yīng)的絕對相關(guān)性排名的至少某些文檔中提取所選擇的文檔,并且自動(dòng)地生成包括至少一產(chǎn)品分類的相關(guān)內(nèi)容;分類工具編程環(huán)境,所述分類工具編程環(huán)境包括分類工具開發(fā)服務(wù)器、分類工具數(shù)據(jù)庫、以及支持人類評級審判員的多個(gè)工作站。
13.如權(quán)利要求12所述的系統(tǒng),其特征在于,還包括特性服務(wù)器,所述特性服務(wù)器從所述多個(gè)響應(yīng)文檔中的具有在所述閾值以上的其相應(yīng)的絕對相關(guān)性排名的至少某些文檔中提取特性內(nèi)容,所述特性內(nèi)容包括在所述多個(gè)響應(yīng)文檔中的一個(gè)或多個(gè)中描述的各個(gè)項(xiàng)的至少一個(gè)價(jià)格。
14.一種存儲由計(jì)算機(jī)的一個(gè)或多個(gè)處理器執(zhí)行的實(shí)現(xiàn)一種方法的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀存儲介質(zhì),包括接收用于實(shí)現(xiàn)對文檔的查詢的準(zhǔn)則; 執(zhí)行所述查詢(352); 接收由所述查詢產(chǎn)生的文檔集(352); 選擇由所述查詢產(chǎn)生的文檔的子集(3M);為所述文檔子集中的每一文檔生成絕對相關(guān)性分?jǐn)?shù),所述絕對相關(guān)性分?jǐn)?shù)是基于人類生成的標(biāo)簽以及外來數(shù)據(jù)的函數(shù)(356);根據(jù)所述絕對相關(guān)性分?jǐn)?shù)來對所述文檔子集進(jìn)行排序(360); 基于具有在閾值以上的絕對相關(guān)性分?jǐn)?shù)的文檔子集的那些文檔的特征來選擇一個(gè)或多個(gè)相關(guān)細(xì)化(362);在所述計(jì)算機(jī)上顯示所述一個(gè)或多個(gè)相關(guān)細(xì)化(364);以及在所述計(jì)算機(jī)上顯示具有在所述閾值以上的相應(yīng)絕對相關(guān)性分?jǐn)?shù)的文檔子集的那些文檔(366)。
15.如權(quán)利要求14所述的計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,還包括 生成測試查詢集(302);在因特網(wǎng)搜索引擎上執(zhí)行所述測試查詢集中的每一個(gè)查詢,來為所述測試查詢集中的每一個(gè)查詢開發(fā)結(jié)果集(304);基于相對排名來從每一結(jié)果集中選擇有限數(shù)量的文檔(306);為所述有限數(shù)量的文檔中的每一個(gè)文檔開發(fā)相對于主觀準(zhǔn)則的主觀評級(308); 至少部分地使用所述有限數(shù)量的文檔中的每一個(gè)的主觀評級來對機(jī)器學(xué)習(xí)分類工具進(jìn)行編程(310)。
全文摘要
本發(fā)明公開了改進(jìn)購物搜索引擎的方法和系統(tǒng)。web搜索系統(tǒng)使用人類來為對各種樣本搜索查詢返回的結(jié)果的相關(guān)性進(jìn)行排名。搜索結(jié)果可以被劃分成各個(gè)組,從而允許對經(jīng)排名的結(jié)果進(jìn)行訓(xùn)練和確認(rèn)。對人類評估的一致指導(dǎo)允許跨執(zhí)行該排名的多個(gè)人的一致結(jié)果。當(dāng)諸如MART等機(jī)器學(xué)習(xí)分類工具已經(jīng)被編程且確認(rèn)之后,可以使用它來提供經(jīng)返回的文檔的相關(guān)性的絕對排名,而不是基于例如關(guān)鍵詞匹配以及點(diǎn)擊計(jì)數(shù)的簡單相對排名。當(dāng)開發(fā)諸如分類和價(jià)格排序等相關(guān)細(xì)化時(shí),可以排除考慮具有較低相關(guān)性排名的文檔。
文檔編號G06F17/30GK102508831SQ201110117329
公開日2012年6月20日 申請日期2011年4月11日 優(yōu)先權(quán)日2010年4月9日
發(fā)明者C·郁, M·D·巴洛斯, M·帕拉欣, Q·吳, S·P·坎杜利 申請人:微軟公司