專利名稱::一種基于公共隱空間的異構網(wǎng)絡排序方法
技術領域:
:本發(fā)明涉及一種網(wǎng)絡排序技術,特別是指一種基于公共隱空間的異構網(wǎng)絡排序方法。
背景技術:
:隨著互聯(lián)網(wǎng)的飛速發(fā)展以及Webl.0向Web2.0的轉變,社會網(wǎng)絡逐漸成為一項非常重要的Web應用。社會網(wǎng)絡通常包含各種不同的對象,從而為我們提供了大量的異構數(shù)據(jù)源。例如,在顧客-產(chǎn)品-評價網(wǎng)絡中,我們需要根據(jù)用戶對產(chǎn)品的評價或打分預測用戶的偏好。我們往往擁有大量的關于已有產(chǎn)品的評價信息,但是缺乏甚至沒有新產(chǎn)品的打分數(shù)據(jù)。再例如,在社會網(wǎng)絡中,我們擁有大量的可以用來為用戶推薦電影的數(shù)據(jù),但是卻只有很有限的數(shù)據(jù)為用戶推薦可能的好友(即與其愛好相似的用戶)或者社團。因此一個基本的問題就是如何利用從已有的源域中的標號數(shù)據(jù)學到的知識為目標域中的未知數(shù)據(jù)建立準確可靠的排序模型。對于異構網(wǎng)絡中相互關聯(lián)的實體進行排序的問題,一些相關研究已經(jīng)展開例如遷移學習方法、領域自適應方法、多任務學習方法以及排序學習方法。但是現(xiàn)有的方法都不能很好的處理異構網(wǎng)絡中的以下問題1、由于異構網(wǎng)絡排序問題中涉及到多種類型的實體(即異構對象),第一個需要解決的問題就是怎樣去描述源域和目標域的相關性。2、遷移排序并不只是需要從源域中遷移知識到目標域,還需要在學到的排序模型中,保持源域中的排序關系。3、效率通常來講,排序學習需要有上千(甚至上萬)的訓練數(shù)據(jù),因此需要處理大規(guī)模的數(shù)據(jù)。
發(fā)明內容針對現(xiàn)有技術中存在的缺陷和不足,本發(fā)明的目的是提供一種基于隱空間的異構網(wǎng)絡排序裝置和方法,能夠在異構網(wǎng)絡中進行排序。為達到上述目的,本發(fā)明提出了一種基于公共隱空間的異構網(wǎng)絡排序方法,包括步驟1、設定源域與目標域之間的公共隱空間,并將源域與目標域的訓練樣本通過轉換函數(shù)映射到該公共隱空間內;步驟2、設定通用目標函數(shù);并通過公共隱空間對源域與目標域進行關聯(lián),并為源域和目標域上分別設定損失函數(shù);步驟3、優(yōu)化損失函數(shù)并進行公共隱空間學習。其中,所述步驟1具體為設定轉換函數(shù)小Rrf4K^,所述轉換函數(shù)將源域與目標域中的實例均映射到d'維的公共隱空間中。其中,所述步驟2具體為步驟21、最小化如下的損失函數(shù)<formula>formulaseeoriginaldocumentpage6</formula>其中,HM是指示函數(shù),即當成立時函數(shù)值為l,否則為0;iC/r,/:t)統(tǒng)計目標域中的錯誤排序對的數(shù)目;n是權衡經(jīng)驗損失項R和模型復雜性的懲罰項e的參數(shù);步驟22、為異構網(wǎng)絡排序問題,設定通用目標函數(shù)如下<formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula>+XV/s,/r淇中,J$(fs,fT)是對于異構網(wǎng)絡排序模型復雜度的懲罰項;A是調節(jié)經(jīng)驗損失和懲罰項的參數(shù);C是為了控制兩個域上樣本數(shù)量的不平衡性的參數(shù)。其中,所述步驟3具體為步驟31、設定fT是實例空間上的線性函數(shù)fT(x)=〈wT,x>;其中^是通過訓練數(shù)據(jù)學習到的參數(shù),即特征的權重;〈*>表示向量之間的內積;步驟32、將fT(x)=〈wT,x>替換損失函數(shù)得到<formula>formulaseeoriginaldocumentpage6</formula>步驟33、對目標域的損失函數(shù)^(/t,t),采用排序支持向量機的鉸鏈損失估算排序錯誤對的數(shù)目的上界,具體為對于每個查詢逸(k=1,,),給定一個不同排序等級的實例對^,4;,以及該實例對對應的標號為錄,,?4;則新實例表示為<formula>formulaseeoriginaldocumentpage6</formula>以此得到目標域中新的訓練數(shù)據(jù)a^={(^-步驟34、對源域采用上述步驟31步驟33的方法得到源域的ws以及<formula>formulaseeoriginaldocumentpage6</formula>是通過訓練數(shù)據(jù)學習到的參數(shù),即特征的權重。步驟35、對損失函數(shù)的凸上界進行優(yōu)化,并將所述通用目標函數(shù)重新寫為min丄£[1一zSi〈'ws,(</>04》一</>(2^'))〉]++c^:[i—化〈卿,((K^)—004,))〉]+'+AJ々s,wT)步驟36、通過dXd矩陣U描述特征間的相關性,則訓練樣本之間的內積為a^UUT巧;通過該轉換函數(shù),重新定義損失函數(shù),即所述步驟35中的通用目標函數(shù)的第一項替換為#S,"K4,:)〉]+;步驟37、將模型復雜性的懲罰項J$(ws,wT)設定為正則化項,則重新設定通用目標函數(shù)為minTTE[工—"'〈"^,U丁04i—4j〉]++[1-《T>T,U丁的-4,)〉]++AllWlls.t.UTU=I其中,UTU=I表示正交歸一化約束,以保證求解得到的投影矩陣U唯一;步驟38、將步驟37的通用目標函數(shù)的等價凸形式設定如下m力E[1-">i,4-4》]++C。1—^〈a2,^—4〉]++AZ〈《"D、〉s.t.D>0trace(D)<1range(M)Srange(D)(2)其中,M=[Ql,a2]=UW,D:UDiag(^^)U丁,并且0^股2,表示W(wǎng)的第i行;D的上標"+"表示矩陣D的偽逆;對于一個pXq的矩陣X,X的值域即range(X)={:r|Xz=工,We股"是指由其列向量張成的空間。其中,所述方法還包括步驟39、通過迭代最小化算法求解所述步驟38中等價的凸問題,即過迭代算法優(yōu)化矩陣M和D;具體為步驟391、保持矩陣D固定不變,并分別從源域及目標域中的訓練數(shù)據(jù)中學習矩陣M=[apa2];其中,ai=argmin(X;r丄i[1—",〈a,a^—4,〉]++入〈",D+ct〉};7a2=argmin(E^^[1—z乃〈o;,a^—2^〉]++A〈a,D+a〉};步驟392、通過學到的矩陣M更新矩陣D;即D二步驟393、判斷是否收斂或是否達到最大迭代次數(shù);如果是則進入步驟394;否則返回步驟391;步驟394、在矩陣D上運用SVD分解,即D=USVT,并根據(jù)D的最大和次大特征值對應的特征向量構建U;步驟395、通過在公共隱空間中對源域和目標域中的已標號數(shù)據(jù)進行學習,從而得到目標域中的權向量w/;4=argmin広:[1-%〈w,UT(;r|-《)〉]+++AIIHI2}步驟396、用學到的權向量w/在目標域上預測新實例的排序等級2A二^4,U7^〉,其中i=l-n。上述技術方案具有如下優(yōu)點本發(fā)明提出了一個通用的框架(異構網(wǎng)絡排序模型),在該框架中我們通過隱空間對兩個域進行關聯(lián),并且分別在兩個域上定義了各自的損失函數(shù)。然后本發(fā)明提出了一個能同時優(yōu)化損失函數(shù)并進行隱空間學習的有效算法。由此可見,本發(fā)明利用目標域與源域之間的公共隱空間,將兩個域中的樣本均通過一個轉換函數(shù)被映射到該隱空間中,該公共隱空間也潛在地量化了兩個域之間的相關性。本發(fā)明在保持已標號數(shù)據(jù)中偏好順序不變的同時,能夠最小化目標域中未標注數(shù)據(jù)的錯誤,并提出了一個能同時優(yōu)化損失函數(shù)并進行隱空間學習的有效算法。圖1是本發(fā)明的優(yōu)選實施例結構示意圖。圖2是本發(fā)明的實施例中特征相關性分析結果圖。具體實施例方式下面結合附圖和實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。本發(fā)明的發(fā)明構思如下在異構網(wǎng)絡排序問題中,本發(fā)明的目標是從與目標域相關聯(lián)的源域中遷移偏好信息,其中源域與目標域為異構網(wǎng)絡。由于在不同域之間對象類型以及他們特征的分布存在差異,首先需要解決的問題就是如何定量地度量兩個域之間存在的相關性,以此來反映什么樣的信息可以在不同域之間進行遷移。另一方面,本發(fā)明的最終目標是得到一個更高的排序性能?;谏鲜隹紤],本發(fā)明首先設定在兩個域之間有一個公共隱空間。兩個域中的樣本均可以通過一個轉換函數(shù)被映射到該隱空間中。而該公共隱空間也潛在地量化了兩個域之間的相關性。然后,本發(fā)明在保持已標號數(shù)據(jù)中偏好順序不變的同時,能夠最小化目標域中未標注數(shù)據(jù)的錯誤。當從源域中遷移監(jiān)督信息時,本發(fā)明也希望保持原來的偏好順序,8即我們希望最小化源域上的損失。因此,本發(fā)明提出了一個通用的框架(異構網(wǎng)絡排序模型),在該框架中我們通過隱空間對兩個域進行關聯(lián),并且分別在兩個域上定義了各自的損失函數(shù)。然后本發(fā)明還提出了一個能同時優(yōu)化損失函數(shù)并進行隱空間學習的有效算法。本發(fā)明以下實施例都是基于上述構思實現(xiàn)的。由于對于給定目標域中已標號的訓練數(shù)據(jù)^T="漆,4,漆)E^,我們的目標是對每個查詢學習一個能夠正確預測實例之間的偏好關系的排序函數(shù)fT,即/t(4^)〉/t04,):—y^。對于排序任務,基于學到的排序函數(shù)&,我們可以預測新的實例的排序等級。為了學習排序函數(shù),我們可以最小化如下的損失函數(shù)<formula>formulaseeoriginaldocumentpage9</formula>其中,I[vr]是指示函數(shù),即當JI成立時函數(shù)值為l,否則為0;i(/T,;)統(tǒng)計目標域中的錯誤排序對的數(shù)目;n是權衡經(jīng)驗損失項(第一項R)和模型復雜性的懲罰項(第二項e)的參數(shù)。當從源域上遷移監(jiān)督信息時,我們希望保持源域上實例的偏好順序不變。為了聯(lián)系兩個異構空間中的實例,我們定義一個轉換函數(shù)小吸"4吸《,它將兩個域中的實例均映射到d'維的公共隱空間中。進而,本發(fā)明可以為異構網(wǎng)絡排序問題,設定通用目標函數(shù)如下<formula>formulaseeoriginaldocumentpage9</formula><formula>formulaseeoriginaldocumentpage9</formula>其中,J$(fs,fT)是對于異構網(wǎng)絡排序模型復雜度的懲罰項;A是調節(jié)經(jīng)驗損失和懲罰項的參數(shù);C是為了控制兩個域上樣本數(shù)量的不平衡性的參數(shù)。這樣,我們就獲得了一個對于異構網(wǎng)絡排序問題的通用目標函數(shù)。為了使得目標函數(shù)最優(yōu),還需要找到最佳的參數(shù)(fs、&禾P小)。找到最佳的參數(shù)(fs、fT禾P小)的方法為在異構網(wǎng)絡排序模型中,我們并不只是為了兩個域學習排序函數(shù)&和&,同時也要學習轉換函數(shù)小。除此之外,我們希望去掉在知識遷移過程中不重要的特征,進而得到稀疏解。本發(fā)明采用了以下方法對找出最佳的參數(shù)(&、&和小)—、對異構網(wǎng)絡排序模型框架進行初始化不失一般性,假設fT是實例空間上定義的線性函數(shù)fT(X)=〈WT,X>;其中wT是通過訓練數(shù)據(jù)學習到的參數(shù)(特征的權重),而〈>表示向量之間的內積。將其替換公式錯誤!未找到引用源。,我們得到打T。(/r,£r)=tE1[〈卿,喊—鳴)〉〉。]+)(5)。損失函數(shù)i(化"講不連續(xù),因此我們使用排序支持向量機(RankingSVM)的鉸鏈損失估計排序錯誤對的數(shù)目的上界。為了便于表述,我們定義下列記號對于每個查詢咨(k=l,…,riT),給定一個不同排序等級的實例對a^,4;,以及該實例對對應的標號為^,,4,我們可以構造一個新的實例(^,-4,,M={+))(6)\l—丄^y乃乂因此,我們得到了目標域中一組由實例對構成的新的訓練數(shù)據(jù)^={(^-:4,&)}^。對于源域,我們做同樣的假設,并使用平行的記號ws以及rs={(4,-^4,"JK^。最后通過對原來損失函數(shù)的凸上界進行優(yōu)化,我們將目標函數(shù)重新寫為minAE[1—^〈'ws,,,')—"《))〉]+W^7、+CE[1-外如,瞎》-<^))〉]+(7)°十A々(u^,卿)二、定義轉換函數(shù)以及模型復雜性的懲罰項本發(fā)明采用dXd矩陣U描述特征間的相關性,進而樣本之間的內積可以定義為^TUUT巧。這種參數(shù)化方法等價于將每個樣本投影到由^:^_^uT:r張成的隱空間中。通過該轉換函數(shù),我們可以重新定義損失函數(shù),例如將公式錯誤!未找到引用源。中的第一項替換為mE[1-"T(《-4j〉]+(8)z二l對于模型復雜性的懲罰項J,(ws,wT),我們將其定義為正則化項,例如可以是源域和目標域中參數(shù)的(2,1)范數(shù)IIWllu,其中W二[ws,wT]是dX2的矩陣,其第一列為Ws而第二列為wT;W的(2,1)范數(shù),定義為llWHw=EL11一12,其中」是W的第i行。在W的每一行中進行2范數(shù)正則化會使得在兩個域上產(chǎn)生公共特征空間,而1范數(shù)會導致最后得到稀疏解。因此(2,1)范數(shù)正則化方法在表述兩個域間相關性的同時引入了稀疏性。最后,我們重新定義目標函數(shù)為10<formula>formulaseeoriginaldocumentpage11</formula>其中,UTU=I表示正交歸一化約束,以保證求解得到的投影矩陣U唯一。三、定義學習算法由于矩陣的非凸特性,直接求解目標函數(shù)(包括求解公式錯誤!未找到引用源。中的^、Wt和U)并不容易。不過我們可以得到目標函數(shù)公式錯誤!未找到引用源。的等價凸形式如下打i<formula>formulaseeoriginaldocumentpage11</formula>其中』=[a"a2]=UW,D:UDiag(^^)UT,并且a^股2,表示W(wǎng)的第i行;D的上標"+"表示矩陣D的偽逆;對于一個pXq的矩陣X,它的值域(即range,又稱列空間)是指由其列向量張成的空間,即range(X)={x|X^=GR"。如果D被設為①,目標函數(shù)將退化為只最小化經(jīng)驗損失,因此我們加入了對D的秩的約束。范圍約束使得懲罰項的下界不為零。該等價形式也在多任務特征學習中使用。作為優(yōu)選,本發(fā)明可以通過迭代最小化算法求解等價的凸問題,在如下表的算法l中給出了算法流程算法1:異構網(wǎng)絡排序模型輸入訓練集^U^;測試集S輸出排序函數(shù)/r-〈u^,:r〉以及在測試集上預測的偏好{yi}i=1n初始化D-,步驟l:發(fā)現(xiàn)隱空間1:while沒有達到最大迭代次數(shù)Tdo2:ai=argmin(E^[1-—《〉]++A〈a,D+a〉}3:a2=argmin(X^[1-%〈《,^-4》]++A〈a,D+a〉)4:M=[apa2]5:令D=(mmt)士ttrace(7wmT)26:endwhile7:在D上使用SVD分解,D=USVT8:用D的最大和次大特征值對應的特征向量構建U步驟2:隱空間中排序模型學習9=argmin(Er丄i[1一"i<>,U丁(a^—《,)〉]++[1一^'〈w,U丁械—4)〉]++A|H|2}10:fori=1至ljndo11:訴=〈r4,UrZi〉12:endfor其中,所述具體為步驟1:用迭代算法優(yōu)化矩陣M和D;即步驟11、在第2至4行中,我們保持D固定不變,分別從兩個域中的訓練數(shù)據(jù)中學習、和c^,也就是矩陣M;步驟12、在第5行,我們通過學到的矩陣M更新矩陣D;步驟13、重復進行上述步驟11和步驟12的迭代過程,直到收斂或者達到設定的最大迭代次數(shù);步驟14,在第7行和第8行,我們在學到的中間矩陣D上運用SVD分解,即D=USVT,之后根據(jù)D的最大和次大特征值對應的特征向量構建U;步驟2:在第9行,通過在隱空間中對兩個域中的已標號數(shù)據(jù)進行學習,從而得到目標域中的權向量;在第10到12行,用學到的權向量w/在目標域上預測新實例的排序等級。作為優(yōu)選,為了提高排序的效率,本發(fā)明優(yōu)選實施例還對上述算法的復雜性進行了設定。即異構網(wǎng)絡排序算法中優(yōu)化的兩個矩陣的大小僅僅依賴于特征的數(shù)目,例如矩陣D是dXd的,而W是dX2的。矩陣D上的SVD分解復雜度為0(d3)。令N二n,化是用于訓練的總樣本數(shù),s是非零特征數(shù)。用割平面算法,線性排序支持向量機訓練需要時間復雜性為0(sN1og(N)),令T為最大的迭代次數(shù),算法的時間復雜度為0((2T+l)*sN1og(N)+d3)。下面,針對本發(fā)明的排序算法與現(xiàn)有排序算法進行比較以證明本發(fā)明的排序算法優(yōu)于已有的排序算法(1)評估方法為了定量評估我們的排序算法,本發(fā)明使用均值平均查準率(即MAP)和歸一化的折扣累積增益(即NDCG)來評估實驗結果。和MAP不同的是,NDCG對于排序中認為最相關的文檔給予更高的權重,而在MAP中所有相關的文檔有相同的權重。在位置n上的NDCG定義為占2'r")—1其中,r(j)是第j個文檔的排序,Zn是歸一化因子。(2)基線方法12本發(fā)明提出的排序算法標記為HCDRank。將本發(fā)明提出的方法和三種基線方法進行比較,其結果如表l所示。排序支持向量機(RSVM)在信息檢索中是一種經(jīng)典的排序算法。但是該方法的設計初衷是為了在同構數(shù)據(jù)的單一域中進行排序訓練。為了比較的公平,采用RSVM進行兩組實驗。在其中一組中,只在目標域/:T上訓練排序模型;而另外一組中(稱為RSVMt),將源域和目標域組合在一起進行訓練。第三種比較方法是使用排序支持向量機鉸鏈損失的多任務特征學習方法(稱為MTRSVM)。表格1:三種基線方法<table>tableseeoriginaldocumentpage13</column></row><table>上述實驗在WindowsXP系統(tǒng),雙核AMD雙核速龍?zhí)幚砥?2GHz)以及2G內存上進行。我們使用SVMlight的線性核以及默認參數(shù)實現(xiàn)RSVM、RSVMt以及MTRSVM的偏好學習步驟。我們將最大迭代次數(shù)I設置為50。并且除了特別說明外,我們使用格點搜尋法從{2—6,2—5,2—4,2—3,2—2,2—、1,2,22,23,24,251中選擇參數(shù)C。所有實驗結果均為10次重復實驗的平均。(3)數(shù)據(jù)集我們使用學術異構網(wǎng)絡作為實驗數(shù)據(jù)集。這里我們使用了從ArnetMiner的日志中得到的44個最頻繁的查詢關鍵詞(如"datamining"(數(shù)據(jù)挖掘)及"informationretrieval,,(信息檢索))。其中ArnetMiner是搜索弓|擎,可以從http://www.arnetminer.org/中獲得。在本實施例中只是引用該搜索引擎的數(shù)據(jù),亦可從其他引擎中獲得,并不以此為限定。為了得到標準答案,對于每個查詢關鍵詞,本發(fā)明從三個在線學術搜索引擎(Libra、Rexa以及ArnetMiner)中分別選擇前30個查詢結果并組成一個合并的列表。之后,標注者會根據(jù)每一個專家發(fā)表論文的數(shù)量、論文和相應查詢關鍵詞的相關性、他所發(fā)表在頂級期刊會議上的論文數(shù)目、以及他所獲得榮譽等標準評價該專家的排序等級。一共有4種排序等級(分別為3,2,1和0),依次表示絕對相關>相關>臨界相關>不相關。在這個實驗中,本發(fā)明將要研究異構數(shù)據(jù)之間通過相互關聯(lián)是否可以學習得到更好的排序結果?我們使用某一類型的標注數(shù)據(jù)(如會議)作為源域,而使用另兩類數(shù)據(jù)(如專家和論文)作為目標域,主要是考慮到有標注的會議數(shù)據(jù)較易獲得。因此本實驗的目標是遷移會議信息幫助排序專家。(4)特征定義我們使用一個專家發(fā)表的所有論文的標題組成的長串文本作為專家的描述文字,而使用一個會議中發(fā)表的全部論文的標題組成的長串文本作為會議的描述文字。我們對這些實體定義特征,并總結在表2中。對于每一個實體的描述文字,有IO個低層次的內容特征(如LI是詞頻(TF),L5是逆文檔頻率(IDF))和3個高層次的內容特征(如HI和H2表示原始的BM25值以及該值的對數(shù)運算結果,H3表示基于文本的語言模型的生成概率值)。Sl-S3是會議獨有的特征,分別表示了會議舉辦的年數(shù),文章被引用的總次數(shù)。S4-S7是專家獨有的特征,例如該專家第一篇文章發(fā)表的年份,所有發(fā)表過的文章總數(shù)以及所有文章被引用的總次數(shù)。總結起來,我們?yōu)闀h定義了16個特征(L1一L10、H1-H3以及S1-S3),為專家定義了17個特征(LI-LIO,Hl-H3以及S4-S7)。我們在查詢關鍵詞上歸一化原始的特征向量。如果第i個查詢關鍵詞對應的描述文本集表示為W/"jjW,則歸一化之后,文檔d/"的特征x/"為工)-minfc=1-^-^-T^Tmaxfc=l,...,AT")(4}—minfc=i,..,iv(')(4}(11)表格2:學術異構網(wǎng)絡遷移排序的特征定義特征描述LI-L10低層次內容特征HI-H3高層次內容特征SI該會議舉辦的年數(shù)S2最近5年中該會議的文章被引用的總次數(shù)S3最近10年中該會議的文章被引用的總次數(shù)S4該專家發(fā)表他的第一篇文章距今的年數(shù)S5該專家的文章被引用的總次數(shù)S6該專家的文章被引用在5次以上的數(shù)目S7該專家的文章被引用在10次以上的數(shù)目(5)結果和分析在本實驗中,我們從目標域中選擇一個查詢關鍵詞和其對應的文檔作為標注數(shù)據(jù)。后面的實驗結果是對所有查詢關鍵詞的平均。參數(shù)C設為1。對于基線方法,除了RSVM、RSVMt和MTRSVM外,我們還將我們的算法性能和兩個在線學術搜索系統(tǒng)的查詢結果進行比較Libra以及Rexa,這些學術搜索系統(tǒng)主要基于無監(jiān)督的學習算法,例如語言模型。表3展示了不同方法得到的結果,我們的方法用HCDRank表示,通過觀察可以得到以下要點表格3:專家發(fā)現(xiàn)問題中不同方法的結果14<table>tableseeoriginaldocumentpage15</column></row><table>查詢精度在所有的方法中,我們的異構網(wǎng)絡遷移排序模型的精度優(yōu)于其它的五種基線方法。RSVM和MTRSVM的實驗結果較為接近,這說明當目標域中的標注數(shù)據(jù)稀少時,MTRSVM并不能充分地進行遷移學習。同時,我們還可以發(fā)現(xiàn)所有的學習排序模型都優(yōu)于兩個在線系統(tǒng)的搜索結果,這說明在特定的領域中,一些監(jiān)督信息對于提高排序性能是十分有幫助的。特征分析圖2中展示了從該數(shù)據(jù)集中最后學到的權向量。我們可以看出,w/可以從兩個域中發(fā)現(xiàn)數(shù)據(jù)信息,并調整從單一域的數(shù)據(jù)中學到的權重,使得在目標域中進行更好的偏好預測。這也是我們提出的算法可以勝出的主要原因。表4中按照權值絕對值的降序,列出了在學術數(shù)據(jù)集上10個最為重要的特征,包括低層次內容特征中的L2、L6、L9、L10以及高層次特征的Hl-H3,和獨有特征中的Sl、S2和S4。表格4:從學術數(shù)據(jù)集中學到的10個最重要特征權重<table>tableseeoriginaldocumentpage15</column></row><table>由上例可以看出,遷移方法有效最主要的原因是即便在異構網(wǎng)絡中,實體之間也存在潛在的依賴關系,而我們可以從該潛在依賴關系中發(fā)現(xiàn)一些公共特征。例如在專家搜索中,專家和會議通過發(fā)表的論文聯(lián)系起來。發(fā)現(xiàn)的潛在依賴關系可以用來在異構實體間遷移監(jiān)督知識。本發(fā)明所提出的算法可以有效地發(fā)現(xiàn)異構網(wǎng)絡中的公共隱空間,因此會得到更好的專家搜索性能。從實驗結果可以看出,我們的方法所有的評測結果都優(yōu)于其他三種方法。實驗表明,我們提出的異構網(wǎng)絡排序方法是切實有效的。以上所述僅是本發(fā)明的實施方式,應當指出,對于本
技術領域:
的普通技術人員來說,在不脫離本發(fā)明技術原理的前提下,還可以做出若干改進和變型,這些改進和變型也應視為本發(fā)明的保護范圍。1權利要求一種基于公共隱空間的異構網(wǎng)絡排序方法,包括步驟1、設定源域與目標域之間的公共隱空間,并將源域與目標域的訓練樣本通過轉換函數(shù)映射到該公共隱空間內;步驟2、設定通用目標函數(shù);并通過公共隱空間對源域與目標域進行關聯(lián),并為源域和目標域上分別設定損失函數(shù);步驟3、優(yōu)化損失函數(shù)并進行公共隱空間學習。2.根據(jù)權利要求1所述的基于公共隱空間的異構網(wǎng)絡排序方法,其特征在于,所述步驟1具體為設定轉換函數(shù)^:股"—!^',所述轉換函數(shù)將源域與目標域中的實例均映射到d'維的公共隱空間中。3.根據(jù)權利要求1所述的基于公共隱空間的異構網(wǎng)絡排序方法,其特征在于,所述步驟2具體為步驟21、最小化如下的損失函數(shù)<formula>formulaseeoriginaldocumentpage2</formula>其中,Ik]是指示函數(shù),即當H成立時函數(shù)值為l,否則為0;i(/T,/:T)統(tǒng)計目標域中的錯誤排序對的數(shù)目;n是權衡經(jīng)驗損失項R和模型復雜性的懲罰項£的參數(shù);步驟22、為異構網(wǎng)絡排序問題,設定通用目標函數(shù)如下<formula>formulaseeoriginaldocumentpage2</formula>其中,Jj&,f》是對于異構網(wǎng)絡排序模型復雜度的懲罰項;A是調節(jié)經(jīng)驗損失和懲罰項的參數(shù);C是為了控制兩個域上樣本數(shù)量的不平衡性的參數(shù)。4.根據(jù)權利要求1所述的基于公共隱空間的異構網(wǎng)絡排序方法,其特征在于,所述步驟3具體為步驟31、設定fT是實例空間上的線性函數(shù)fT(x)=〈wT,x>;其中wT是通過訓練數(shù)據(jù)學習到的參數(shù),即特征的權重;〈>表示向量之間的內積;步驟32、將fT(x)=〈wT,x>替換損失函數(shù)得到<formula>formulaseeoriginaldocumentpage2</formula>步驟33、對目標域的損失函數(shù)叫/r,T),采用排序支持向量機的鉸鏈損失估算排序錯誤對的數(shù)目的上界,具體為對于每個查詢漆(&=1,一,"t),給定一個不同排序等級的實例對4;,4;,以及該實例對對應的標號為錄,,?4;則新實例表示為<formula>formulaseeoriginaldocumentpage3</formula>以此得到目標域中新的訓練數(shù)據(jù)<formula>formulaseeoriginaldocumentpage3</formula>步驟34、對源域采用上述步驟31步驟33的方法得到源域的ws以及<formula>formulaseeoriginaldocumentpage3</formula>ws是通過訓練數(shù)據(jù)學習到的參數(shù),即特征的權重。步驟35、對損失函數(shù)的凸上界進行優(yōu)化,并將所述通用目標函數(shù)重新寫為<formula>formulaseeoriginaldocumentpage3</formula>步驟36、通過dXd矩陣U描述特征間的相關性,則訓練樣本之間的內積為^UUT叼;通過該轉換函數(shù),重新定義損失函數(shù),即所述步驟35中的通用目標函數(shù)的第一項替換為步驟37、將模型復雜性的懲罰項J$(ws,wT)設定為正則化項,則重新設定通用目標函數(shù)為<formula>formulaseeoriginaldocumentpage3</formula>其中,UTU=I表示正交歸一化約束,以保證求解得到的投影矩陣U唯-步驟38、將步驟37的通用目標函數(shù)的等價凸形式設定如下<formula>formulaseeoriginaldocumentpage3</formula>其中<formula>formulaseeoriginaldocumentpage3</formula>,并且a^R2,表示W(wǎng)的第i行;D的上標"+"表示矩陣D的偽逆;對于一個pXq的矩陣X,X的值域即<formula>formulaseeoriginaldocumentpage3</formula>是指由其列向量張成的空間。5.根據(jù)權利要求4所述的基于公共隱空間的異構網(wǎng)絡排序方法,其特征在于,所述方法還包括步驟39、通過迭代最小化算法求解所述步驟38中等價的凸問題,即過迭代算法優(yōu)化矩陣M和D;具體為步驟391、保持矩陣D固定不變,并分別從源域及目標域中的訓練數(shù)據(jù)中學習矩陣M=[ai,a2];其中,<formula>formulaseeoriginaldocumentpage4</formula>步驟392、通過學到的矩陣M更新矩陣D;即D=(M::、4;步驟393、判斷是否收斂或是否達到最大迭代次數(shù);如果是則進入步驟394;否則返回步驟391;步驟394、在矩陣D上運用SVD分解,即D=USVT,并根據(jù)D的最大和次大特征值對應的特征向量構建U;步驟395、通過在公共隱空間中對源域和目標域中的已標號數(shù)據(jù)進行學習,從而得到目標域中的權向量w/;<formula>formulaseeoriginaldocumentpage4</formula>步驟396、用學到的權向量w/在目標域上預測新實例的排序等級y,二〈^4,UT^〉,其中i=l-n。全文摘要本發(fā)明提出了一種基于公共隱空間的異構網(wǎng)絡排序方法,包括設定源域與目標域之間的公共隱空間,并將源域與目標域的訓練樣本通過轉換函數(shù)映射到該公共隱空間內;設定通用目標函數(shù);并通過公共隱空間對源域與目標域進行關聯(lián),并為源域和目標域上分別設定損失函數(shù);優(yōu)化損失函數(shù)并進行公共隱空間學習。本發(fā)明利用目標域與源域之間的公共隱空間,將兩個域中的樣本均通過一個轉換函數(shù)被映射到該隱空間中,該公共隱空間也潛在地量化了兩個域之間的相關性。本發(fā)明在保持已標號數(shù)據(jù)中偏好順序不變的同時,能夠最小化目標域中未標注數(shù)據(jù)的錯誤,并提出了一個能同時優(yōu)化損失函數(shù)并進行隱空間學習的有效算法。文檔編號G06N5/00GK101710338SQ200910238290公開日2010年5月19日申請日期2009年11月24日優(yōu)先權日2009年11月24日發(fā)明者唐杰,楊子,王波申請人:清華大學