一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法

文檔序號(hào)：6546999閱讀：276來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法
【專(zhuān)利摘要】一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法。其包括：步驟1.網(wǎng)頁(yè)爬取；步驟2.數(shù)據(jù)預(yù)處理及特征提取；步驟3.建立樣本級(jí)排序模型；步驟4.建立查詢(xún)級(jí)排序模型；步驟5.預(yù)測(cè)新查詢(xún)。本發(fā)明在排序模型建立過(guò)程中考慮查詢(xún)差異，基于大規(guī)模真實(shí)數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明，使用本發(fā)明提供的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法可以取得比傳統(tǒng)排序?qū)W習(xí)模型更好的性能。本發(fā)明提供的方法除排序?qū)W習(xí)之外，還可應(yīng)用于多類(lèi)分類(lèi)、序列標(biāo)注等問(wèn)題，在文本分類(lèi)、信息檢索、網(wǎng)絡(luò)搜索等領(lǐng)域具有廣泛的應(yīng)用前景。
【專(zhuān)利說(shuō)明】一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)搜索和機(jī)器學(xué)習(xí)【技術(shù)領(lǐng)域】，特別是涉及一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法。
【背景技術(shù)】
[0002]排序?qū)W習(xí)旨在為目標(biāo)對(duì)象按照某種規(guī)律確定一個(gè)等級(jí)順序，是目前網(wǎng)絡(luò)搜索與機(jī)器學(xué)習(xí)領(lǐng)域研究的熱點(diǎn)問(wèn)題；現(xiàn)有排序?qū)W習(xí)方法可分為三類(lèi):基于數(shù)據(jù)點(diǎn)排序?qū)W習(xí)方法，基于有序?qū)Φ呐判驅(qū)W習(xí)方法和基于列表的排序?qū)W習(xí)方法。排序?qū)W習(xí)在信息檢索、網(wǎng)頁(yè)搜索等方面有著廣泛的應(yīng)用前景。
[0003]與傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)(如分類(lèi)任務(wù)等)相比，排序?qū)W習(xí)問(wèn)題具有自身特性；由于待排序的文檔分別是由不同的查詢(xún)檢索得到的，因此只有同一個(gè)查詢(xún)檢索到的文檔之間才有序關(guān)系；在排序?qū)W習(xí)任務(wù)中，不同查詢(xún)及其對(duì)應(yīng)文檔之間，如在數(shù)據(jù)分布、評(píng)價(jià)指標(biāo)和預(yù)測(cè)未知查詢(xún)能力等方面，存在顯著的差異；現(xiàn)有排序?qū)W習(xí)方法在建立排序模型過(guò)程中，沒(méi)有考慮查詢(xún)及其相關(guān)文檔之間的差異，在一定程度上影響了排序模型的性能；因此，有必要在建立排序模型過(guò)程中考慮不同查詢(xún)及其相關(guān)文檔之間的差異。
[0004]近年來(lái)提出的部分排序?qū)W習(xí)方法在一定程度上考慮了查詢(xún)之間的差異；與本發(fā)明研究緊密相關(guān)的包括兩大類(lèi)方法:一是與查詢(xún)相關(guān)的排序?qū)W習(xí)，二是排序模型融合與查詢(xún)相關(guān)的排序?qū)W習(xí)方法建立多個(gè)排序模型，對(duì)于不同的預(yù)測(cè)查詢(xún)使用不同的排序模型預(yù)測(cè)；Geng等基于K近鄰方法，提出了與查詢(xún)相關(guān)的排序?qū)W習(xí)方法。Ni等將排序樣本與查詢(xún)相關(guān)的性質(zhì)抽象為分組學(xué)習(xí)問(wèn)題，使用共性模型和特性模型共同預(yù)測(cè)排序結(jié)果。Peng等提出使用JS-散度選擇與未知查詢(xún)最相關(guān)的排序模型算法。以上三種與查詢(xún)相關(guān)的排序?qū)W習(xí)方法雖考慮了排序樣本與查詢(xún)相關(guān)的特性，但仍存在以下一些不足:1.與查詢(xún)相關(guān)的排序?qū)W習(xí)方法將訓(xùn)練集割裂為若干個(gè)訓(xùn)練子集；此方法只注意到訓(xùn)練集中樣本的區(qū)別，沒(méi)有考慮到樣本之間還存在著聯(lián)系；2.每個(gè)與查詢(xún)相關(guān)排序子模型只使用訓(xùn)練集中的部分樣本而非所有樣本參與訓(xùn)練，導(dǎo)致排序模型性能不佳；3.訓(xùn)練過(guò)程中需要建立大量排序模型，模型訓(xùn)練的時(shí)間代價(jià)過(guò)大；排序模型融合主要包括以下幾種方法。Qin等提出依照查詢(xún)-文檔對(duì)的相關(guān)程度標(biāo)注將整個(gè)數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)子集，而后使用BordaCount算法融合多個(gè)子排序模型的結(jié)果。Liu等將排序模型融合問(wèn)題轉(zhuǎn)化為半正定規(guī)劃問(wèn)題，使用馬爾科夫過(guò)程建模并優(yōu)化。Bian等提出一種基于主題的多排序模型融合方法，使用支持向量機(jī)方法建立排序模型；排序模型融合方法雖然在性能上取得比傳統(tǒng)使用單一模型決策更好的性能，但是在子模型建立過(guò)程中并未特別考慮排序?qū)W習(xí)中查詢(xún)之間存在的差異；此外，多數(shù)方法使用計(jì)算概率、加權(quán)融合等方法簡(jiǎn)單線性合并子模型，并未明確提出一種適用于排序?qū)W習(xí)問(wèn)題的融合函數(shù)；但是，基于列表的排序?qū)W習(xí)方法和直接優(yōu)化評(píng)價(jià)指標(biāo)排序?qū)W習(xí)方法在建模過(guò)程中都沒(méi)有特別考慮查詢(xún)之間的差異。與查詢(xún)相關(guān)的排序?qū)W習(xí)方法雖比傳統(tǒng)建立單一模型增加考慮了查詢(xún)特性，但依然存在兩個(gè)問(wèn)題:一是特性的選擇過(guò)程與排序模型的建立相脫離，并沒(méi)有體現(xiàn)于排序模型損失上；二是訓(xùn)練得到多個(gè)模型，不便于最終排序結(jié)果的處理。

【發(fā)明內(nèi)容】

[0005]為了解決上述問(wèn)題，本發(fā)明的目的在于提供一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法。
[0006]為了達(dá)到上述目的，本發(fā)明提供的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法包括按順序執(zhí)行的下列步驟:
[0007]步驟1、網(wǎng)頁(yè)爬取:從互聯(lián)網(wǎng)中爬取網(wǎng)頁(yè)，并解析處理，留下文本連接信息，形成網(wǎng)頁(yè)數(shù)據(jù)集；
[0008]步驟2、數(shù)據(jù)預(yù)處理及特征提取:將步驟I中形成的網(wǎng)頁(yè)數(shù)據(jù)集與用戶(hù)查詢(xún)進(jìn)行匹配，建立查詢(xún)-文檔對(duì)；所有查詢(xún)-文檔對(duì)都被表示成了特征向量的形式，形成特征數(shù)據(jù)集;
[0009]步驟3、建立樣本級(jí)排序模型:以排序支持向量機(jī)為子排序模型，以步驟2中形成的特征數(shù)據(jù)集中的每一個(gè)查詢(xún)及其相關(guān)文檔為訓(xùn)練子集，查詢(xún)-文檔對(duì)為基本訓(xùn)練數(shù)據(jù)，建立樣本級(jí)訓(xùn)練模型，著重于構(gòu)建新的能反映排序?qū)W習(xí)問(wèn)題中的查詢(xún)差異性和有序性的訓(xùn)練數(shù)據(jù)；
[0010]步驟4、建立查詢(xún)級(jí)排序模型:以步驟3中形成的樣本級(jí)訓(xùn)練模型的輸出作為訓(xùn)練數(shù)據(jù)，在整個(gè)訓(xùn)練數(shù)據(jù)集上建立查詢(xún)級(jí)訓(xùn)練模型，給出新的損失函數(shù)作為優(yōu)化目標(biāo)，并利用此損失函數(shù)實(shí)現(xiàn)樣本級(jí)模型融合；
[0011]步驟5、預(yù)測(cè)新查詢(xún):當(dāng)有新的查詢(xún)需要預(yù)測(cè)時(shí)，需要構(gòu)建與訓(xùn)練數(shù)據(jù)形式相同的預(yù)測(cè)數(shù)據(jù)，使用樣本級(jí)模型構(gòu)建特征數(shù)據(jù)和查詢(xún)級(jí)模型兩步預(yù)測(cè)，得到最終的排序結(jié)果。
[0012]在步驟2中，所述的數(shù)據(jù)預(yù)處理及特征提取的具體方法是:主要采用四大類(lèi)共64維特征:第一類(lèi)是20個(gè)基本內(nèi)容特征，主要反映了查詢(xún)與網(wǎng)頁(yè)的各個(gè)組成部分之間的匹配情況，包括共現(xiàn)詞頻tf、文檔翻轉(zhuǎn)頻率idf、文檔長(zhǎng)度dl及它們的各種組合形式；第二類(lèi)是24個(gè)高級(jí)內(nèi)容特征，主要包括概率模型BM25和統(tǒng)計(jì)語(yǔ)言模型LMIR檢索模型，對(duì)該查詢(xún)-文檔對(duì)的打分，以及這些打分的變型形式；第三類(lèi)是12個(gè)超鏈接特征，主要包括PageRank、HITS在內(nèi)的各種鏈接分析算法對(duì)該網(wǎng)頁(yè)的打分；第四類(lèi)是8個(gè)網(wǎng)絡(luò)層次特征，這主要反映了網(wǎng)頁(yè)所在的網(wǎng)絡(luò)中的一些結(jié)構(gòu)信息。
[0013]在步驟3中，所述的建立樣本級(jí)排序模型的具體方法是:
[0014]在多排序模型的融合方法中，首先需要建立子排序模型；每一個(gè)子排序模型由一個(gè)查詢(xún)及其相關(guān)文檔建立；不同子排序模型之間能夠體現(xiàn)出查詢(xún)之間的差異性；
[0015]對(duì)于每一個(gè)查詢(xún)qi e Q,將這個(gè)查詢(xún)與其所有的相關(guān)文檔組成查詢(xún)-文檔對(duì)；每
一個(gè)查詢(xún)-文檔對(duì)〈q” (Iij)都用一個(gè)特征向量描述；
【權(quán)利要求】
1.一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法，其特征在于:所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法包括按順序執(zhí)行的下列步驟: 步驟1、網(wǎng)頁(yè)爬取:從互聯(lián)網(wǎng)中爬取網(wǎng)頁(yè)，并解析處理，留下文本連接信息，形成網(wǎng)頁(yè)數(shù)據(jù)集；步驟2、數(shù)據(jù)預(yù)處理及特征提取:將步驟I中形成的網(wǎng)頁(yè)數(shù)據(jù)集與用戶(hù)查詢(xún)進(jìn)行匹配，建立查詢(xún)-文檔對(duì)；所有查詢(xún)-文檔對(duì)都被表示成了特征向量的形式，形成特征數(shù)據(jù)集；步驟3、建立樣本級(jí)排序模型:以排序支持向量機(jī)為子排序模型，以步驟2中形成的特征數(shù)據(jù)集中的每一個(gè)查詢(xún)及其相關(guān)文檔為訓(xùn)練子集，查詢(xún)-文檔對(duì)為基本訓(xùn)練數(shù)據(jù)，建立樣本級(jí)訓(xùn)練模型，著重于構(gòu)建新的能反映排序?qū)W習(xí)問(wèn)題中的查詢(xún)差異性和有序性的訓(xùn)練數(shù)據(jù)；步驟4、建立查詢(xún)級(jí)排序模型:以步驟3中形成的樣本級(jí)訓(xùn)練模型的輸出作為訓(xùn)練數(shù)據(jù)，在整個(gè)訓(xùn)練數(shù)據(jù)集上建立查詢(xún)級(jí)訓(xùn)練模型，給出新的損失函數(shù)作為優(yōu)化目標(biāo)，并利用此損失函數(shù)實(shí)現(xiàn)樣本級(jí)模型融合；步驟5、預(yù)測(cè)新查詢(xún):當(dāng)有新的查詢(xún)需要預(yù)測(cè)時(shí)，需要構(gòu)建與訓(xùn)練數(shù)據(jù)形式相同的預(yù)測(cè)數(shù)據(jù)，使用樣本級(jí)模型構(gòu)建特征數(shù)據(jù)和查詢(xún)級(jí)模型兩步預(yù)測(cè)，得到最終的排序結(jié)果。
2.根據(jù)權(quán)利要求1所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法，其特征在于:在步驟2中，所述的數(shù)據(jù)預(yù)處理及特征提取的具體方法是:主要采用四大類(lèi)共64維特征:第一類(lèi)是20個(gè)基本內(nèi)容特征，主要反映了查詢(xún)與網(wǎng)頁(yè)的各個(gè)組成部分之間的匹配情況，包括共現(xiàn)詞頻tf、文檔翻轉(zhuǎn)頻率idf、文檔長(zhǎng)度dl及它們的各種組合形式；第二類(lèi)是24個(gè)高級(jí)內(nèi)容特征，主要包括概率模型BM25和統(tǒng)計(jì)語(yǔ)言模型LMIR檢索模型，對(duì)該查詢(xún)-文檔對(duì)的打分，以及這些打分的變型形式；第三類(lèi)是12個(gè)超鏈接特征，主要包括PageRank、HITS在內(nèi)的各種鏈接分析算法對(duì)該網(wǎng)頁(yè)的打分；第四類(lèi)是8個(gè)網(wǎng)絡(luò)層次特征，這主要反映了網(wǎng)頁(yè)所在的網(wǎng)絡(luò)中的一些結(jié)構(gòu)信息。
3.根據(jù)權(quán)利要求1所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法，其特征在于:在步驟3中，所述的建立樣本級(jí)排序模型的具體方法是: 在多排序模型的融合方法中，首先需要建立子排序模型；每一個(gè)子排序模型由一個(gè)查詢(xún)及其相關(guān)文檔建立；不同子排序模型之間能夠體現(xiàn)出查詢(xún)之間的差異性；對(duì)于每一個(gè)查詢(xún)Qi e Q,將這個(gè)查詢(xún)與其所有的相關(guān)文檔組成查詢(xún)-文檔對(duì)；每一個(gè)查詢(xún)-文檔對(duì)〈1，(Iij)都用一個(gè)特征向量^描述；4 = '?(I) 其中:D為特征向量\的維數(shù)；以查詢(xún)?yōu)閱挝粚⒄麄€(gè)訓(xùn)練數(shù)據(jù)集S =劃分為η個(gè)數(shù)據(jù)子集；隨后，在每一個(gè)訓(xùn)練子集上建立子排序模型；假設(shè)排序決策函數(shù)f為線性損失函數(shù)，Μ；)=iVt(2) 以子模型的輸出作為子模型特征的描述，每一個(gè)子模型的輸出為一維列向量，由融合模型調(diào)節(jié)每一維的權(quán)重。
4.根據(jù)權(quán)利要求1所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法，其特征在于:在步驟4中，所述的建立查詢(xún)級(jí)排序模型的具體方法是: 基于多排序模型融合思想設(shè)計(jì)融合函數(shù)；基于評(píng)價(jià)指標(biāo)NDCG，體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法融合函數(shù)設(shè)計(jì)為:
5.根據(jù)權(quán)利要求4所述的體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法，其特征在于:所述的直接優(yōu)化排序性能的融合函數(shù)的優(yōu)化求解是使用梯度上升方法: 對(duì)于所有的X e R，指數(shù)函數(shù)exp(x)均為0-1函數(shù)的上界；因此，對(duì)于所有的X e R, I [x>0] < exp (X)均成立；即,
【文檔編號(hào)】G06F17/30GK103984733SQ201410213581
【公開(kāi)日】2014年8月13日申請(qǐng)日期:2014年5月20日優(yōu)先權(quán)日:2014年5月20日
【發(fā)明者】王揚(yáng) 申請(qǐng)人:國(guó)家電網(wǎng)公司, 國(guó)網(wǎng)天津市電力公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王揚(yáng)
技術(shù)所有人：國(guó)家電網(wǎng)公司;國(guó)網(wǎng)天津市電力公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種體現(xiàn)查詢(xún)差異的直接優(yōu)化性能指標(biāo)排序方法