一種獲取用戶和文檔個性化特征的方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種獲取用戶和文檔個性化特征的方法和系統(tǒng)。所述方法通過用戶訪問文檔的信號,來自動地更新用戶和文檔的個性化特征。用戶的個性化特征,依據(jù)所述用戶訪問過的文檔的個性化特征進行更新;文檔的個性化特征,依據(jù)訪問過該文檔的用戶的個性化特征進行更新。根據(jù)獲取的用戶和文檔的個性化特征,可在搜索引擎中實現(xiàn)個性化的文檔排序;根據(jù)用戶和文檔的個性化特征,可在社交網(wǎng)絡中實現(xiàn)個性化的信息過濾和篩選。本發(fā)明還提出了一種獲取用戶和文檔個性化特征的系統(tǒng)。本發(fā)明方法能夠提高搜索引擎的查準率和社交網(wǎng)絡檢索信息的效率。另外本發(fā)明方法能夠提高網(wǎng)頁排名算法的反作弊能力。
【專利說明】一種獲取用戶和文檔個性化特征的方法和系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領域,具體來說涉及一種獲取用戶和文檔個性化特征的方法和系統(tǒng)。
【背景技術】
[0002]搜索引擎和社交網(wǎng)絡是互聯(lián)網(wǎng)上獲取信息的主要工具。這兩種工具存在一個共同的缺點,即不能根據(jù)用戶的個性化特征來進行信息的過濾和篩選。例如,不同的用戶在同一個搜索引擎中輸入相同的關鍵字,其返回的搜索結果是相同的,與哪個用戶提交的搜索查詢無關;不同的用戶在同一個社交網(wǎng)絡中建立相同的關系網(wǎng)絡,其獲得的信息也是相同的,與哪個用戶建立的關系網(wǎng)絡無關。
[0003]搜索引擎是利用信息檢索技術進行大規(guī)模的網(wǎng)頁收集、索引、排序,以及根據(jù)排序結果將網(wǎng)頁呈現(xiàn)給查詢用戶的應用程序。搜索引擎的核心技術是排序算法,最著名的是谷歌的PageRank算法。該算法的輸入是由網(wǎng)頁設計者根據(jù)其主觀意愿構建的網(wǎng)頁鏈接關系。盡管它充分反映了網(wǎng)頁設計者的個人偏好和對網(wǎng)頁鏈接關系的理解,但是它卻無法反映出搜索引擎的使用者——用戶的個人偏好。由于從事不同行業(yè)或具有不同愛好的用戶對同一個網(wǎng)頁的重要性評價通常是不同的,而PageRank等現(xiàn)有排序技術無法對這種不同進行區(qū)分,它們對不同的用戶只能給出唯一的網(wǎng)頁排名,這是現(xiàn)有搜索技術的缺點。一個可行的技術解決方案是結合用戶和網(wǎng)頁的個性化特征來改進搜索結果,使得每個網(wǎng)頁的排名不僅依賴于網(wǎng)頁之間的鏈接關系,而且依賴于提交搜索查詢的用戶的個性化特征和被查詢網(wǎng)頁的個性化特征。有分析表明,借助用戶和網(wǎng)頁的個性化特征,能夠提高搜索引擎的查準率,減少用戶對無效信息的掃描和瀏覽。
[0004]社交網(wǎng)絡是互聯(lián)網(wǎng)上人們彼此之間進行溝通的平臺。在社交網(wǎng)絡中,用戶通過自己建立的關系網(wǎng)絡來獲取信息,例如通過關注(follow)他人和加好友等操作來獲取他人發(fā)布的信息。被關注的人和加為好友的人越多,用戶獲得的信息也越多。由于擔心有重要的或者有趣的信息被遺漏,用戶通常會在社交網(wǎng)絡中關注更多的人或者加入更多的好友。但是,當關系網(wǎng)絡中的用戶數(shù)量超過鄧巴數(shù)(Dunbar) 150之后,微博和臉譜(Facebook)等社交網(wǎng)絡會逐漸成為對用戶進行“信息轟炸”的服務。其原因是現(xiàn)有社交網(wǎng)絡技術要求用戶必須接收其關系網(wǎng)絡中的所有用戶發(fā)布的所有信息,而不能按信息類別有選擇地接收這些信息,這是現(xiàn)有社交網(wǎng)絡技術的缺點。一個可行的技術解決方案是讓用戶獲得的信息不僅依賴用戶建立的關系網(wǎng)絡,而且依賴用戶的個性化特征和獲取的信息的個性化特征。這將有助于對社交網(wǎng)絡上的海量信息進行有效地過濾和篩選,提高社交網(wǎng)絡的信息檢索效率。為了敘述方便,我們通常把用戶在社交網(wǎng)絡上獲得的每條信息(如一條微博),也看作一個文檔,它有唯一的網(wǎng)絡地址。
[0005]要實現(xiàn)上述兩個技術解決方案,其必要條件是能夠獲取用戶和網(wǎng)頁文檔的個性化特征。但是在互聯(lián)網(wǎng)上獲取用戶和網(wǎng)頁文檔的個性化特征通常是困難的,主要有以下幾個難點。第一是個性化信息的自動獲取問題。據(jù)估算目前互聯(lián)網(wǎng)上有數(shù)千億個網(wǎng)頁和二十億用戶,手工維護網(wǎng)頁文檔和用戶的個性化特征是不現(xiàn)實的。如何自動獲取用戶和網(wǎng)頁文檔的個性化特征是一個難題。第二是個性化信息的更新問題。隨著時間的推移,用戶的興趣愛好、工作地點、從事的行業(yè)和教育程度等個人信息會發(fā)生改變,但是要求大多數(shù)用戶實時地更新其個性化信息是困難的。第三是個性化信息的語義差異問題。在用戶設置的個性化特征中,術語不同但語義相同的個性化特征,難以對其進行有效歸類。第四是個性化信息的完備性問題。用戶在網(wǎng)站上提供的個人信息通常比較簡略。例如對用戶興趣愛好的描述通常是喜歡音樂、打棒球或看書等幾項內容,而要求用戶全面地描述出其感興趣的領域是困難的。[0006]綜上所述,如何有效地獲取用戶和文檔的個性化特征,并根據(jù)所述個性化特征來提高搜索引擎的查準率以及提高社交網(wǎng)絡的信息檢索效率,是一個亟待解決的問題。
【發(fā)明內容】
[0007]鑒于上述現(xiàn)有技術存在的問題,本發(fā)明的目的在于提供一種獲取用戶和文檔個性化特征的方法和系統(tǒng),來自動獲取用戶和文檔的個性化特征,并根據(jù)所述個性化特征來幫助用戶過濾和篩選其在互聯(lián)網(wǎng)上獲得的信息。
[0008]根據(jù)以上所述的目的,本發(fā)明提出了一種獲取用戶和文檔個性化特征的方法,其特征在于,
[0009]在接入互聯(lián)網(wǎng)的服務器中,存儲由多個用戶標識組成的用戶集U和由多個文檔標識組成的文檔集D ;存儲由多個特征標識組成的特征集K ;
[0010]在所述服務器中,至少為所述用戶集U中的一個用戶或者所述文檔集D中的一個文檔設置參數(shù)向量初始值;
[0011]在所述服務器中,多次執(zhí)行如下步驟:
[0012]接收任意一個用戶m(m e U)訪問任意一個文檔n(n e D)的信號;
[0013]根據(jù)所述信號,讀取所述用戶m的參數(shù)向量U(m) = (uwml, uwm2,..., uwmk,...,uwmL),其中所述uwmk表示所述用戶m與特征k(k e K)的相關度;
[0014]根據(jù)所述信號,讀取所述文檔η的參數(shù)向量D(n) = (dwnl, dwn2,..., (Iwnk,...,dw?L),其中所述dwnk表示所述文檔η與特征k(k e K)的相關度;
[0015]應用參數(shù)向量更新算法,更新所述用戶m和所述文檔η的參數(shù)向量;設更新后所述用戶m的參數(shù)向量為U* (m) = (uwml*, UWm2*,..., uwmk*,..., uwmL*),更新后所述文檔η的參數(shù)向量為DiXn) = (dwnl*, dwn2*,..., dwnk*,..., (Iwnl*),則所述參數(shù)向量更新算法包括:
[0016]U* (m) = F1 [U (m), D (η)];
[0017]D* (m) = F2 [U (m), D (η)];
[0018]其中所述匕(.)和所述F2(.)分別是以所述U(m)和所述D(n)為自變量的函數(shù)。
[0019]與現(xiàn)有技術相比,本發(fā)明可實現(xiàn)個性化的文檔排序,進而提高了搜索引擎的查準率以及提高社交網(wǎng)絡的信息檢索效率。另外,利用網(wǎng)頁文檔的個性化特征還能夠提高網(wǎng)頁排序算法的反作弊能力。
【專利附圖】
【附圖說明】
[0020]圖1為在用戶集U中每個用戶的參數(shù)向量表示方法;[0021]圖2為在文檔集D中每個文檔的參數(shù)向量表示方法;
[0022]圖3為用戶和文檔的參數(shù)向量更新算法流程圖;
[0023]圖4為在文檔集D中每個文檔的排序向量表示方法;
[0024]圖5為文檔排序向量更新算法流程圖;
[0025]圖6為基于查詢向量和排序向量的個性化文檔檢索方法流程圖;
[0026]圖7為基于查詢向量和參數(shù)向量的個性化文檔檢索方法流程圖;
[0027]圖8為一種獲取用戶和文檔個性化特征的系統(tǒng)結構圖;
[0028]圖9為一種獲取用戶和文檔個性化特征的系統(tǒng)信號序列圖。
【具體實施方式】
[0029]結合附圖對本發(fā)明方法作進一步詳細說明。
[0030]本專利方法的具體實施方案說明,包括以下幾個部分。首先,說明用戶集、文檔集和特征集的含義以及用戶和文檔的參數(shù)向量表示方法;然后,說明用戶和文檔的參數(shù)向量更新算法;之后,說明文檔的排序向量表示方法以及基于文檔參數(shù)向量的文檔排序算法;再后,說明基于查詢向量的個性化文檔檢索方法;最后,說明一種獲取用戶和文檔個性化特征的系統(tǒng)。
[0031]首先說明用戶集U、文檔集D和特征集K的含義。
[0032]在接入互聯(lián)網(wǎng)的服務器中,存儲由多個用戶標識組成的用戶集U和由多個文檔標識組成的文檔集D。所述用戶標識是在互聯(lián)網(wǎng)上用戶的唯一識別碼,包括用戶帳號、手機號碼、Cookie識別碼、IP地址、Email地址和即時通信號碼中的一個;所述文檔標識是在互聯(lián)網(wǎng)上文檔的唯一識別碼,例如Web網(wǎng)頁文檔的URL地址。所述用戶集U含有M個元素,所述文檔集D含有N個元素。
[0033]在接入互聯(lián)網(wǎng)的服務器中,存儲由多個特征標識組成的特征集K,所述特征集K含有L個元素。所述特征集K中的特征,是在所述用戶集U中用戶的特征和所述文檔集D中文檔的特征中選取的。用戶和文檔使用相同的特征集K。若用戶具有“音樂”特征,說明用戶愛好音樂,而文檔具有“音樂”特征,說明文檔與音樂主題相關。
[0034]下面介紹用戶和文檔的參數(shù)向量的表示方法。所述參數(shù)向量表示方法與向量空間模型VSM的向量表述方法相似,即以特征項作為用戶特征或文檔特征的基本單位。本專利所述方法和系統(tǒng)中,以用戶與各個特征的相關度的集合作為用戶的參數(shù)向量,以文檔與各個特征的相關度的集合作為文檔的參數(shù)向量。
[0035]圖1為用戶集U中每個用戶的參數(shù)向量表示方法。在用戶集U中任意一個用戶m(m e U)的參數(shù)向量設置為U (m) = (uwml, uwm2,..., uwmk,..., uwmL),其中所述uwmk表示所述用戶m與特征k(keK)的相關度。另外,將所述用戶集U中的每個用戶與特征k的相關度匯集在一起,組成一個向量,叫做用戶集U的第k個用戶列向量(uwlk, uw2k,..., Uwtlk)。
[0036]圖2為文檔集D中每個文檔的參數(shù)向量表示方法。在文檔集D中任意一個文檔n (n e D)的參數(shù)向量設置為 D (n) = (dwnl, dwn2,..., dwnk,..., (Iwhl),其中所述(Iwnk 表示所述文檔η與特征k(keK)的相關度。另外,將所述文檔集D中的每個文檔與特征k的相關度匯集在一起,組成一個向量,叫做文檔集D的第k個文檔列向量(dwlk, dw2k,..., dwNk)。
[0037]所述相關度是一個實數(shù)值,它表示用戶或者文檔與特征集K中的某個特征的關系緊密程度。如果一個用戶或者文檔與音樂特征關聯(lián)多一點與體育特征關聯(lián)少一點,我們就說該用戶或者文檔與音樂特征的相關度高,與體育特征的相關度低。另外在特征選取時,有些特征之間是具有相關性的,因此可以通過減少特征之間的相關性來降低特征集K的維度,減少對服務器存儲空間的需求,提高算法效率。有些特征不必直接列入特征集中,因為這些特征的相關度可以通過特征集K中的一個或幾個其它特征的相關度計算出來。
[0038]下面說明用戶或文檔的參數(shù)向量初始值的設置方法。舉如下三個例子進行說明。用戶或文檔的參數(shù)向量初始值范圍通常設置為對于任意m e U、n e D和k e K,有Uwmk e [0,I]和dWnk e [O, 1] 0如果用戶或文檔的參數(shù)向量沒有被設置初始值,其參數(shù)向量初始值缺省設為零向量。
[0039]例I是人工設置用戶m(m e U)或者文檔n (n e D)的參數(shù)向量初始值的方法。例如設置特征總數(shù)L = 5,特征集K=(科學,教育,財經(jīng),音樂,體育),設置U(m) = (uwffll,Uwffl2,UWm3, Uwiii4, Uwiii5) = (O, 0.9,0,1,0)。即用戶m與“教育”特征的相關度為0.9,與“首樂”特征的相關度為1,與其它特征的相關度均為零。同理,可以設置所述文檔η的參數(shù)向量D(n)=(dwnl, (Iwn2,..., dwnk,..., dwnL)的初始值。
[0040]例2是設置用戶m(m e U)的參數(shù)向量初始值的方法。首先由所述用戶m提交一組
文檔集合H= {...,r,...} (He D),所述文檔r (r e H)的參數(shù)向量為(dwrl,dwr2,…,dwrL),
然后,對于每個 k e K,設置 Uwmk = ( σ j/s).Σ (reH) dwrk 或者 uwmk = ( σ /s).Σ (reH) [dwrk/(Σ (keK)dwA)],其中s為所述集合H的元素個數(shù),01為設定正常數(shù)。使用類似方法,所述用戶m也可以在所述用戶集U中選擇一組用戶來計算所述用戶m的參數(shù)向量初始值。
[0041]例3是一種設置文檔的參數(shù)向量初始值的方法。分類目錄是一種特殊文檔,比如門戶網(wǎng)站通常包括新聞、音樂、體育、財經(jīng)和科技等分類目錄。我們假設相同分類目錄下的文檔具有某些相同的特征,例如體育目錄下的文檔都與體育相關。如果文檔n (n e D)是分類目錄h(h e D)下的一個文檔,則所述文檔η的參數(shù)向量初始值由所述分類目錄h的參數(shù)向量來決定。例如對于每個k e K,設置dWnk =σ2.dWhk,其中σ 2為設定正常數(shù)。
[0042]圖3為用戶和文檔的參數(shù)向量更新算法流程圖。具體包括在接入互聯(lián)網(wǎng)的服務器中,執(zhí)行如下步驟:
[0043]Sll.存儲由多個用戶標識組成的用戶集U和由多個文檔標識組成的文檔集D ;存儲由多個特征標識組成的特征集K ;
[0044]S12.至少為所述用戶集U中的一個用戶或者所述文檔集D中的一個文檔設置參數(shù)向量初始值;
[0045]S13.接收任意一個用戶m(m e U)訪問任意一個文檔n(n e D)的信號;
[0046]S14.根據(jù)所述信號,讀取所述用戶m的參數(shù)向量U(m) = (uwml,uwm2,..., uwmk,...,uwmL),其中所述uwmk表示所述用戶m與特征k(k e K)的相關度;
[0047]S15.根據(jù)所述信號,讀取所述文檔η的參數(shù)向量D (n) = (dw^^w^,..., dwnk,...,dw?L),其中所述dwnk表示所述文檔η與特征k(k e K)的相關度;
[0048]S16.應用參數(shù)向量更新算法更新所述用戶m和所述文檔η的參數(shù)向量;設更新后所述用戶m的參數(shù)向量if (m) = (uwml*, UWm2*,..., uwmk*,..., uwmL*),更新后所述文檔η的參數(shù)向量 DiXn) = (dwnl*, dwn2*,..., dwnk*,..., (Iwnl*),則所述算法包括:
[0049]U* (m) = F1 [U (m),D (η)];[0050]D* (m) = F2 [U (m),D (η)];
[0051]在執(zhí)行完所述步驟S16后,返回所述步驟S13。
[0052]其中所述匕(.)和所述F2(.)分別是以所述U(m)和所述D(n)為自變量的函數(shù)。所述用戶m代表用戶集U中的任何一個用戶,而不特指某個用戶,所述文檔η代表文檔集D中的任何一個文檔,而不特指某個文檔。例如第η次執(zhí)行步驟S13時在所述信號中m =1023,η = 3428,而第η+1次執(zhí)行步驟S 13時在所述信號中m = 33456,η = 28477。
[0053]在圖3所述方法的一個應用實例中,對每個k e K,所述Uwmk*是所述dwnk的增函數(shù),所述dw:是所述Uwmk的增函數(shù)。
[0054]在圖3所述方法的一個應用實例中,對于每一個k e K,所述Uwmk*和所述dw:都是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。所述頻次是在一設定時間段內所述用戶m訪問所述文檔集D中的文檔的次數(shù)除以所述設定時間段的長度。
[0055]在圖3所述方法的一個應用實例中,對每個k e K,所述Uwmk*是Σ (keK)dwnk的減函數(shù),所述dw:是Σ (k e κ)uwmk的減函數(shù)。
[0056]在圖3所述方法的一個應用實例中,所述信號是在一設定時間內從Web日志中隨機抽取的。在所述一設定時間內,對所述用戶集U中的每個活躍用戶抽取相同數(shù)量的訪問信號作為圖3所述方法的輸入信號。所述活躍用戶是指在所述一設定時間內,訪問所述文檔集D達到設定次數(shù)的用戶。非活躍用戶不能使用圖3所述方法更新用戶和文檔的參數(shù)向量。
[0057]在圖3所述方法中,在執(zhí)行所述參數(shù)向量更新算法達到設定次數(shù)I1后,在每個特征k e K下,對第k個用戶列向量(u wlk,uw2k,...,uwMk)進行歸一化處理;在執(zhí)行所述參數(shù)向量更新算法達到設定次數(shù)t2后,在每個特征k e K下,對第k個文檔列向量(dwlk, dw2k,...,dwNk)進行歸一化處理;其中和t2為正整數(shù)。執(zhí)行一次參數(shù)向量更新算法,即執(zhí)行一次所述步驟S16。所述歸一化方法包括以下的具體應用實例。
[0058]例1:對用戶集U中第k個用戶列向量(uwlk, uw2k,..., uwMk)進行歸一化處理的方法如下:對集合{uwlk,uw2k,...,UWtt)按由大到小的順序進行排序,將排名第M1的元素賦值給HW,以及對于每個m e U,如果UWmk>i!W,則設Uwnik = 1,否則設置uwmk = uwmk/nw。對文檔集D中第k個文檔列向量(dwlk,dw2k,...,dwNk)進行歸一化處理的方法如下:對集合{dwlk,dw2k,...,dwNk)按由大到小的順序進行排序,將排名第N1的元素賦值給H^,以及對于每個n e D,如果dwnk>dw,則設(Iwnk = I,否則設置dwnk=dwnk/dw。其中,M1和N1為設定正常數(shù)。
[0059]例2:對文檔集D中第k個文檔列向量(dwlk,dw2k,...,dwNk)進行歸一化處理的方法如下:首先對集合{dwlk, dw2k,..., dwNk)進行排序,以及按照排序結果將集合{dwlk,dw2k,...,dwNk}分成元素個數(shù)近似相等的r組,其中任意兩組a組和b組的關系是a組中的任何一個元素大于等于b組中的任何一個元素,或者a組中的任何一個元素小于等于b組中的任何一個元素;在每組中取出數(shù)值最小的一個數(shù)據(jù)組成集合{s1;s2,...,8^,且81< S2<...< Sr ;然后,對于每個 n e D,如果 dwnk < S1,則設置 dwnk = O ;如果 sm ( (Iwnk ( sm+1,則設置 dwnk = gi (sm);如果 dwnk > sr,則設置 dwnk = I。其中 gi (Sm)為增函數(shù),g: (sm) e (O,I) JS^nSg1(Sm) = Sm/Sr ;1≤m < r,r為設定正數(shù)。同樣方法,可對用戶集U中第k個用戶列向量進行歸一化處理。[0060]在圖3所述方法的一個應用實例中,執(zhí)行完所述步驟S16之后,還包括對于每個k G K,設直
【權利要求】
1.一種獲取用戶和文檔個性化特征的方法,其特征在于, 在接入互聯(lián)網(wǎng)的服務器中,存儲由多個用戶標識組成的用戶集U和由多個文檔標識組成的文檔集D ;存儲由多個特征標識組成的特征集K ; 在所述服務器中,至少為所述用戶集U中的一個用戶或者所述文檔集D中的一個文檔設置參數(shù)向量初始值; 在所述服務器中,多次執(zhí)行如下步驟: 接收任意一個用戶m(m e U)訪問任意一個文檔n(n e D)的信號; 根據(jù)所述信號,讀取所述用戶m的參數(shù)向量U (m) = (uwml, UWm2,..., uwmk,..., uwmL),其中所述uwmk表示所述用戶m與特征k(k e K)的相關度; 根據(jù)所述信號,讀取所述文檔η的參數(shù)向量D (n) = (dwnl, (Iwn2,..., (Iwnk,..., dwnL),其中所述dwnk表示所述文檔η與特征k(k e K)的相關度; 應用參數(shù)向量更新算法,更新所述用戶m和所述文檔η的參數(shù)向量;設更新后所述用戶m的參數(shù)向量為U*(m) = (uwml*, UWm2*,..., uwmk*,..., uwmL*),更新后所述文檔η的參數(shù)向量為DiXn) = (dwnl*, (Iw1/,..., dwnk*,..., dwnL*),則所述參數(shù)向量更新算法包括:
U* (m) = F1 [U (m), D (η)];
D* (m) = F2 [U (m), D (η)]; 其中所述匕(.)和所述F2(.)分別是以所述U(m)和所述D(n)為自變量的函數(shù)。`
2.根據(jù)權利要求1所述的方法,其特征在于,對于每個特征ke K,所述uw:是所述dWnk的增函數(shù),所述dw:是所述Uwmk的增函數(shù)。
3.根據(jù)權利要求1所述的方法,其特征在于,對于每個特征ke K,所述Uwmk*和dw:分別是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。
4.根據(jù)權利要求1所述的方法,其特征在于,對于每一個keK,所述UWmk*是Σ (keK)(Iwnk的減函數(shù),所述dw:是Σ (k e κ)uwmk的減函數(shù)。
5.根據(jù)權利要求1所述的方法,其特征在于,執(zhí)行所述參數(shù)向量更新算法達到設定次數(shù)后,針對每個特征k e K,對第k個用戶列向量(uwlk, uw2k,..., uwMk)進行歸一化處理;執(zhí)行所述參數(shù)向量更新算法達到設定次數(shù)后,針對每個特征k e K,對第k個文檔列向量(dwlk, dw2k, , dwNk)進行歸一化處理。
6.根據(jù)權利要求1所述的方法,其特征在于,在所述參數(shù)向量更新算法的一個應用實例中,所述Uwmk*和所述dw:的具體更新方法如下:
uwmk* =^1* Uwmk+ λ j (n, m, T).f1 (dwnk) (對于每個 k e Κ)
dwnk* = β 2.(Iwnk+ λ 2(m, η, Τ).f2 (uwmk) (對于每個 k e K) 其中,所述X1(I^nuT)為在所述信號的類型T下所述文檔η對所述用戶m的影響系數(shù),所述X2(m,n,T)為在所述信號的類型T下所述用戶m對所述文檔η的影響系數(shù);^和β2為設定正常數(shù);所述Kdwnk)是所述dwnk的增函數(shù),所述f2(uwmk)是所述UWmk的增函數(shù)。
7.根據(jù)權利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分別是所述用戶m訪問所述文檔集D的頻次的減函數(shù)。
8.根據(jù)權利要求6所述的方法,其特征在于,所述X1O1,m, T)和所述λ2(πι,η, Τ)分別是所述用戶m的參數(shù)向量和所述文檔η的參數(shù)向量之間的相似度的增函數(shù)。
9.根據(jù)權利要求1所述的方法,其特征在于,所述文檔集D中至少含有兩個文檔子集,其中文檔子集s (SqD)中的每個文檔都含有至少一個鏈接指向所述文檔集D中的其它文檔,文檔子集E (EeD) I中的每個文檔都被所述文檔子集s中的至少一個文檔含有的鏈接所指向;并且SUE = D,SHE關Φ; 所述文檔集D中的每個文檔還設有排序向量,設任一文檔p(p e D)的排序向量為[PR (P,I) ,PR (P,2),...,PR(p,k),...,PR(p,L)],其中所述 PR(p,k)表示在特征 k(k e K)下所述文檔P在所述文檔集D中的排序值; 因此,排序向量更新算法如下:所述文檔集D中的任意一個文檔P在特征k(k e K)下的排序值,是所述文檔P的每個鏈入文檔在所述特征k下的排序值和所述鏈入文檔與所述特征k的相關度的函數(shù)。
10.根據(jù)權利要求9所述的方法,其特征在于,在所述方法的一個應用實例中,在每個特征k e K下,任一文檔P e D在所述文檔集D中的排序值定義為:
11.根據(jù)權利要求9所述的方法,其特征在于,在所述方法的一個應用實例中,在每個特征k e K下,任一文檔P e D在所述文檔集D中的排序值定義為:
12.根據(jù)權利要求9所述的方法,其特征在于,所述方法包括一個文檔排序應用實例,所述應用實例包括在所述服務器中執(zhí)行如下步驟: S10.根據(jù)所述參數(shù)向量更新算法,更新所述文檔集D中多個文檔的參數(shù)向量以及所述用戶集U中多個用戶的參數(shù)向量; S20.設置所述文檔集D中每個文檔的排序向量初始值; S30.在每個特征k(k e K)下,應用所述排序向量更新算法,迭代更新所述文檔集D中第k個排序列向量,即更新所述文檔集D中每個用戶的排序向量; S40.接收用戶q(q E U)設置的查詢向量和所述用戶q提交的搜索條件,并且在所述搜索條件中提取搜索關鍵字; S50.在所述文檔集D中檢索與所述搜索關鍵字匹配的一組文檔Q ; S60.根據(jù)所述查詢向量和所述一組文檔Q中的每個文檔的排序向量,計算所述一組文檔Q中的每個文檔的個性化排序值; S70.根據(jù)所述個性化排序值,對所述一組文檔Q進行排序,并且根據(jù)排序結果將所述一組文檔Q中的多個文檔的鏈接發(fā)送給所述用戶q。
13.根據(jù)權利要求1所述的方法,其特征在于,所述方法包括一個文檔排序應用實例,所述應用實例包括在所述服務器中執(zhí)行如下步驟: Al0.根據(jù)所述參數(shù)向量更新算法,更新所述文檔集D中多個文檔的參數(shù)向量以及所述用戶集U中多個用戶的參數(shù)向量; A20.接收用戶q(q e U)設置的查詢向量和所述用戶q提交的搜索條件,并且在所述搜索條件中提取搜索關鍵字; A30.在所述文檔集D中檢索與所述搜索關鍵字匹配的一組文檔Q ; A40.根據(jù)所述查詢向量和所述一組文檔Q中的每個文檔的參數(shù)向量,計算所述一組文檔Q中的每個文檔的個性化排序值; A50.根據(jù)所述個性化排序值,對所述一組文檔Q進行排序,并且根據(jù)排序結果將所述一組文檔Q中的多個文檔的鏈接發(fā)送給所述用戶q。
14.一種獲取用戶和文檔個性化特征的系統(tǒng),其特征在于,所述系統(tǒng)包括如下功能模塊: 用戶集、文檔集和特征集設置模塊:在用戶數(shù)據(jù)庫中存儲由多個用戶標識組成的用戶集U,在文檔數(shù)據(jù)庫中存儲由多個文檔標識組成的文檔集D ;在特征數(shù)據(jù)庫中存儲由多個特征標識組成的特征集K ; 用戶和文檔初始值設置模塊:為所述用戶集U中的至少一個用戶設置參數(shù)向量初始值并將其存儲于用戶數(shù)據(jù)庫;為所述文檔集D中的至少一個文檔設置參數(shù)向量初始值并將其存儲于文檔數(shù)據(jù)庫;為所述文檔集D中的每個文檔設置排序向量初始值;未被設置參數(shù)向量初始值的用戶和文檔,其參數(shù)向量初`始值缺省為零向量; 用戶訪問文檔信號采集模塊:用于采集任意一個用戶m(m e U)訪問任意一個文檔n(n e D)的信號,所述信號存儲于Web日志數(shù)據(jù)庫中; 用戶和文檔參數(shù)向量更新模塊:根據(jù)所述信號中包含的所述用戶m和所述文檔η的標識,在所述用戶數(shù)據(jù)庫中讀取所述用戶m的參數(shù)向量以及在所述文檔數(shù)據(jù)庫中讀取所述文檔η的參數(shù)向量;然后通過參數(shù)向量更新算法,更新所述用戶m和所述文檔η的參數(shù)向量;最后用更新后的所述用戶m和所述文檔η的參數(shù)向量分別更新所述用戶數(shù)據(jù)庫和所述文檔數(shù)據(jù)庫; 文檔排序向量更新模塊:在所述文檔集D中,以文檔之間的鏈接關系、每個文檔的排序向量初始值以及每個文檔的參數(shù)向量作為輸入數(shù)據(jù),應用排序向量更新算法,迭代更新在每個特征k(k e K)下所述文檔集D中每個文檔的排序值,以及應用更新后的所述排序值更新所述文檔數(shù)據(jù)庫;所述文檔之間的鏈接關系,是由所述文檔集D中的每個文檔包含的文檔鏈接所決定的; 用戶查詢模塊:首先,接收查詢用戶q(q e D)設置的查詢向量和所述用戶q提交的搜索條件,并且在所述搜索條件中提取搜索關鍵字;然后,在所述文檔集D中檢索與所述搜索關鍵字匹配的一組文檔Q ;之后,根據(jù)所述查詢向量和所述一組文檔Q中每個文檔的排序向量,計算所述一組文檔Q中每個文檔的個性化排序值,或者根據(jù)所述查詢向量和所述一組文檔Q中每個文檔的參數(shù)向量,計算所述一組文檔Q中每個文檔的個性化排序值;最后,根據(jù)所述個性化排序值對所述一組文檔Q進行排序,以及按照排序結果將所述一組文檔Q中的多個文檔的鏈接發(fā)送給所述用戶q。
【文檔編號】G06F17/30GK103514237SQ201210228726
【公開日】2014年1月15日 申請日期:2012年6月25日 優(yōu)先權日:2012年6月25日
【發(fā)明者】祁勇 申請人:祁勇