一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法
【專(zhuān)利摘要】一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法。其包括:步驟1.網(wǎng)頁(yè)爬取;步驟2.數(shù)據(jù)預(yù)處理及特征提取;步驟3.建立樣本級(jí)排序模型;步驟4.建立查詢(xún)級(jí)排序模型;步驟5.預(yù)測(cè)新查詢(xún)。本發(fā)明在排序模型建立過(guò)程中考慮查詢(xún)差異,基于大規(guī)模真實(shí)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,使用本發(fā)明提供的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法可以取得比傳統(tǒng)排序?qū)W習(xí)模型更好的性能。本發(fā)明提供的方法除排序?qū)W習(xí)之外,還可應(yīng)用于多類(lèi)分類(lèi)、序列標(biāo)注等問(wèn)題,在文本分類(lèi)、信息檢索、網(wǎng)絡(luò)搜索等領(lǐng)域具有廣泛的應(yīng)用前景。
【專(zhuān)利說(shuō)明】一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)搜索和機(jī)器學(xué)習(xí)【技術(shù)領(lǐng)域】,特別是涉及一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法。
【背景技術(shù)】
[0002]排序?qū)W習(xí)旨在為目標(biāo)對(duì)象按照某種規(guī)律確定一個(gè)等級(jí)順序,是目前網(wǎng)絡(luò)搜索與機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)問(wèn)題;現(xiàn)有排序?qū)W習(xí)方法可分為三類(lèi):基于數(shù)據(jù)點(diǎn)排序?qū)W習(xí)方法,基于有序?qū)Φ呐判驅(qū)W習(xí)方法和基于列表的排序?qū)W習(xí)方法。排序?qū)W習(xí)在信息檢索、網(wǎng)頁(yè)搜索等方面有著廣泛的應(yīng)用前景。
[0003]與傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)(如分類(lèi)任務(wù)等)相比,排序?qū)W習(xí)問(wèn)題具有自身特性;由于待排序的文檔分別是由不同的查詢(xún)檢索得到的,因此只有同一個(gè)查詢(xún)檢索到的文檔之間才有序關(guān)系;在排序?qū)W習(xí)任務(wù)中,不同查詢(xún)及其對(duì)應(yīng)文檔之間,如在數(shù)據(jù)分布、評(píng)價(jià)指標(biāo)和預(yù)測(cè)未知查詢(xún)能力等方面,存在顯著的差異;現(xiàn)有排序?qū)W習(xí)方法在建立排序模型過(guò)程中,沒(méi)有考慮查詢(xún)及其相關(guān)文檔之間的差異,在一定程度上影響了排序模型的性能;因此,有必要在建立排序模型過(guò)程中考慮不同查詢(xún)及其相關(guān)文檔之間的差異。
[0004]近年來(lái)提出的部分排序?qū)W習(xí)方法在一定程度上考慮了查詢(xún)之間的差異;與本發(fā)明研究緊密相關(guān)的包括兩大類(lèi)方法:一是與查詢(xún)相關(guān)的排序?qū)W習(xí),二是排序模型融合與查詢(xún)相關(guān)的排序?qū)W習(xí)方法建立多個(gè)排序模型,對(duì)于不同的預(yù)測(cè)查詢(xún)使用不同的排序模型預(yù)測(cè);Geng等基于K近鄰方法,提出了與查詢(xún)相關(guān)的排序?qū)W習(xí)方法。Ni等將排序樣本與查詢(xún)相關(guān)的性質(zhì)抽象為分組學(xué)習(xí)問(wèn)題,使用共性模型和特性模型共同預(yù)測(cè)排序結(jié)果。Peng等提出使用JS-散度選擇與未知查詢(xún)最相關(guān)的排序模型算法。以上三種與查詢(xún)相關(guān)的排序?qū)W習(xí)方法雖考慮了排序樣本與查詢(xún)相關(guān)的特性,但仍存在以下一些不足:1.與查詢(xún)相關(guān)的排序?qū)W習(xí)方法將訓(xùn)練集割裂為若干個(gè)訓(xùn)練子集;此方法只注意到訓(xùn)練集中樣本的區(qū)別,沒(méi)有考慮到樣本之間還存在著聯(lián)系;2.每個(gè)與查詢(xún)相關(guān)排序子模型只使用訓(xùn)練集中的部分樣本而非所有樣本參與訓(xùn)練,導(dǎo)致排序模型性能不佳;3.訓(xùn)練過(guò)程中需要建立大量排序模型,模型訓(xùn)練的時(shí)間代價(jià)過(guò)大;排序模型融合主要包括以下幾種方法。Qin等提出依照查詢(xún)-文檔對(duì)的相關(guān)程度標(biāo)注將整個(gè)數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)子集,而后使用BordaCount算法融合多個(gè)子排序模型的結(jié)果。Liu等將排序模型融合問(wèn)題轉(zhuǎn)化為半正定規(guī)劃問(wèn)題,使用馬爾科夫過(guò)程建模并優(yōu)化。Bian等提出一種基于主題的多排序模型融合方法,使用支持向量機(jī)方法建立排序模型;排序模型融合方法雖然在性能上取得比傳統(tǒng)使用單一模型決策更好的性能,但是在子模型建立過(guò)程中并未特別考慮排序?qū)W習(xí)中查詢(xún)之間存在的差異;此外,多數(shù)方法使用計(jì)算概率、加權(quán)融合等方法簡(jiǎn)單線性合并子模型,并未明確提出一種適用于排序?qū)W習(xí)問(wèn)題的融合函數(shù);但是,基于列表的排序?qū)W習(xí)方法和直接優(yōu)化評(píng)價(jià)指標(biāo)排序?qū)W習(xí)方法在建模過(guò)程中都沒(méi)有特別考慮查詢(xún)之間的差異。與查詢(xún)相關(guān)的排序?qū)W習(xí)方法雖比傳統(tǒng)建立單一模型增加考慮了查詢(xún)特性,但依然存在兩個(gè)問(wèn)題:一是特性的選擇過(guò)程與排序模型的建立相脫離,并沒(méi)有體現(xiàn)于排序模型損失上;二是訓(xùn)練得到多個(gè)模型,不便于最終排序結(jié)果的處理。
【發(fā)明內(nèi)容】
[0005]為了解決上述問(wèn)題,本發(fā)明的目的在于提供一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法。
[0006]為了達(dá)到上述目的,本發(fā)明提供的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法包括按順序執(zhí)行的下列步驟:
[0007]步驟1、網(wǎng)頁(yè)爬取:從互聯(lián)網(wǎng)中爬取網(wǎng)頁(yè),并解析處理,留下文本連接信息,形成網(wǎng)頁(yè)數(shù)據(jù)集;
[0008]步驟2、數(shù)據(jù)預(yù)處理及特征提取:將步驟I中形成的網(wǎng)頁(yè)數(shù)據(jù)集與用戶(hù)查詢(xún)進(jìn)行匹配,建立查詢(xún)-文檔對(duì);所有查詢(xún)-文檔對(duì)都被表示成了特征向量的形式,形成特征數(shù)據(jù)集;
[0009]步驟3、建立樣本級(jí)排序模型:以排序支持向量機(jī)為子排序模型,以步驟2中形成的特征數(shù)據(jù)集中的每一個(gè)查詢(xún)及其相關(guān)文檔為訓(xùn)練子集,查詢(xún)-文檔對(duì)為基本訓(xùn)練數(shù)據(jù),建立樣本級(jí)訓(xùn)練模型,著重于構(gòu)建新的能反映排序?qū)W習(xí)問(wèn)題中的查詢(xún)差異性和有序性的訓(xùn)練數(shù)據(jù);
[0010]步驟4、建立查詢(xún)級(jí)排序模型:以步驟3中形成的樣本級(jí)訓(xùn)練模型的輸出作為訓(xùn)練數(shù)據(jù),在整個(gè)訓(xùn)練數(shù)據(jù)集上建立查詢(xún)級(jí)訓(xùn)練模型,給出新的損失函數(shù)作為優(yōu)化目標(biāo),并利用此損失函數(shù)實(shí)現(xiàn)樣本級(jí)模型融合;
[0011]步驟5、預(yù)測(cè)新查詢(xún):當(dāng)有新的查詢(xún)需要預(yù)測(cè)時(shí),需要構(gòu)建與訓(xùn)練數(shù)據(jù)形式相同的預(yù)測(cè)數(shù)據(jù),使用樣本級(jí)模型構(gòu)建特征數(shù)據(jù)和查詢(xún)級(jí)模型兩步預(yù)測(cè),得到最終的排序結(jié)果。
[0012]在步驟2中,所述的數(shù)據(jù)預(yù)處理及特征提取的具體方法是:主要采用四大類(lèi)共64維特征:第一類(lèi)是20個(gè)基本內(nèi)容特征,主要反映了查詢(xún)與網(wǎng)頁(yè)的各個(gè)組成部分之間的匹配情況,包括共現(xiàn)詞頻tf、文檔翻轉(zhuǎn)頻率idf、文檔長(zhǎng)度dl及它們的各種組合形式;第二類(lèi)是24個(gè)高級(jí)內(nèi)容特征,主要包括概率模型BM25和統(tǒng)計(jì)語(yǔ)言模型LMIR檢索模型,對(duì)該查詢(xún)-文檔對(duì)的打分,以及這些打分的變型形式;第三類(lèi)是12個(gè)超鏈接特征,主要包括PageRank、HITS在內(nèi)的各種鏈接分析算法對(duì)該網(wǎng)頁(yè)的打分;第四類(lèi)是8個(gè)網(wǎng)絡(luò)層次特征,這主要反映了網(wǎng)頁(yè)所在的網(wǎng)絡(luò)中的一些結(jié)構(gòu)信息。
[0013]在步驟3中,所述的建立樣本級(jí)排序模型的具體方法是:
[0014]在多排序模型的融合方法中,首先需要建立子排序模型;每一個(gè)子排序模型由一個(gè)查詢(xún)及其相關(guān)文檔建立;不同子排序模型之間能夠體現(xiàn)出查詢(xún)之間的差異性;
[0015]對(duì)于每一個(gè)查詢(xún)qi e Q,將這個(gè)查詢(xún)與其所有的相關(guān)文檔組成查詢(xún)-文檔對(duì);每
一個(gè)查詢(xún)-文檔對(duì)〈q” (Iij)都用一個(gè)特征向量描述;
【權(quán)利要求】
1.一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法,其特征在于:所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法包括按順序執(zhí)行的下列步驟: 步驟1、網(wǎng)頁(yè)爬取:從互聯(lián)網(wǎng)中爬取網(wǎng)頁(yè),并解析處理,留下文本連接信息,形成網(wǎng)頁(yè)數(shù)據(jù)集; 步驟2、數(shù)據(jù)預(yù)處理及特征提取:將步驟I中形成的網(wǎng)頁(yè)數(shù)據(jù)集與用戶(hù)查詢(xún)進(jìn)行匹配,建立查詢(xún)-文檔對(duì);所有查詢(xún)-文檔對(duì)都被表示成了特征向量的形式,形成特征數(shù)據(jù)集; 步驟3、建立樣本級(jí)排序模型:以排序支持向量機(jī)為子排序模型,以步驟2中形成的特征數(shù)據(jù)集中的每一個(gè)查詢(xún)及其相關(guān)文檔為訓(xùn)練子集,查詢(xún)-文檔對(duì)為基本訓(xùn)練數(shù)據(jù),建立樣本級(jí)訓(xùn)練模型,著重于構(gòu)建新的能反映排序?qū)W習(xí)問(wèn)題中的查詢(xún)差異性和有序性的訓(xùn)練數(shù)據(jù); 步驟4、建立查詢(xún)級(jí)排序模型:以步驟3中形成的樣本級(jí)訓(xùn)練模型的輸出作為訓(xùn)練數(shù)據(jù),在整個(gè)訓(xùn)練數(shù)據(jù)集上建立查詢(xún)級(jí)訓(xùn)練模型,給出新的損失函數(shù)作為優(yōu)化目標(biāo),并利用此損失函數(shù)實(shí)現(xiàn)樣本級(jí)模型融合; 步驟5、預(yù)測(cè)新查詢(xún):當(dāng)有新的查詢(xún)需要預(yù)測(cè)時(shí),需要構(gòu)建與訓(xùn)練數(shù)據(jù)形式相同的預(yù)測(cè)數(shù)據(jù),使用樣本級(jí)模型構(gòu)建特征數(shù)據(jù)和查詢(xún)級(jí)模型兩步預(yù)測(cè),得到最終的排序結(jié)果。
2.根據(jù)權(quán)利要求1所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法,其特征在于:在步驟2中,所述的數(shù)據(jù)預(yù)處理及特征提取的具體方法是:主要采用四大類(lèi)共64維特征:第一類(lèi)是20個(gè)基本內(nèi)容特征,主要反映了查詢(xún)與網(wǎng)頁(yè)的各個(gè)組成部分之間的匹配情況,包括共現(xiàn)詞頻tf、文檔翻轉(zhuǎn)頻率idf、文檔長(zhǎng)度dl及它們的各種組合形式;第二類(lèi)是24個(gè)高級(jí)內(nèi)容特征,主要包括概率模型BM25和統(tǒng)計(jì)語(yǔ)言模型LMIR檢索模型,對(duì)該查詢(xún)-文檔對(duì)的打分,以及這些打分的變型形式;第三類(lèi)是12個(gè)超鏈接特征,主要包括PageRank、HITS在內(nèi)的各種鏈接分析算法對(duì)該網(wǎng)頁(yè)的打分;第四類(lèi)是8個(gè)網(wǎng)絡(luò)層次特征,這主要反映了網(wǎng)頁(yè)所在的網(wǎng)絡(luò)中的一些結(jié)構(gòu)信息。
3.根據(jù)權(quán)利要求1所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法,其特征在于:在步驟3中,所述的建立樣本級(jí)排序模型的具體方法是: 在多排序模型的融合方法中,首先需要建立子排序模型;每一個(gè)子排序模型由一個(gè)查詢(xún)及其相關(guān)文檔建立;不同子排序模型之間能夠體現(xiàn)出查詢(xún)之間的差異性; 對(duì)于每一個(gè)查詢(xún)Qi e Q,將這個(gè)查詢(xún)與其所有的相關(guān)文檔組成查詢(xún)-文檔對(duì);每一個(gè)查詢(xún)-文檔對(duì)〈1,(Iij)都用一個(gè)特征向量^描述;4 = '?(I) 其中:D為特征向量\的維數(shù); 以查詢(xún)?yōu)閱挝粚⒄麄€(gè)訓(xùn)練數(shù)據(jù)集S =劃分為η個(gè)數(shù)據(jù)子集;隨后,在每一個(gè)訓(xùn)練子集上建立子排序模型;假設(shè)排序決策函數(shù)f為線性損失函數(shù),Μ;)=iVt(2) 以子模型的輸出作為子模型特征的描述,每一個(gè)子模型的輸出為一維列向量,由融合模型調(diào)節(jié)每一維的權(quán)重。
4.根據(jù)權(quán)利要求1所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法,其特征在于:在步驟4中,所述的建立查詢(xún)級(jí)排序模型的具體方法是: 基于多排序模型融合思想設(shè)計(jì)融合函數(shù);基于評(píng)價(jià)指標(biāo)NDCG,體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法融合函數(shù)設(shè)計(jì)為:
5.根據(jù)權(quán)利要求4所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法,其特征在于:所述的直接優(yōu)化排序性能的融合函數(shù)的優(yōu)化求解是使用梯度上升方法: 對(duì)于所有的X e R,指數(shù)函數(shù)exp(x)均為0-1函數(shù)的上界;因此,對(duì)于所有的X e R, I [x>0] < exp (X)均成立;即,
【文檔編號(hào)】G06F17/30GK103984733SQ201410213581
【公開(kāi)日】2014年8月13日 申請(qǐng)日期:2014年5月20日 優(yōu)先權(quán)日:2014年5月20日
【發(fā)明者】王揚(yáng) 申請(qǐng)人:國(guó)家電網(wǎng)公司, 國(guó)網(wǎng)天津市電力公司