一種基于異構(gòu)信息網(wǎng)絡(luò)的移動應(yīng)用排序和聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于應(yīng)用推薦領(lǐng)域,尤其設(shè)及一種基于異構(gòu)信息網(wǎng)絡(luò)的特質(zhì)W及基于排序 的聚類方法,實(shí)現(xiàn)了一種對移動應(yīng)用進(jìn)行有效聚類和排序的方法。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)的迅速發(fā)展,移動市場中涌現(xiàn)出了數(shù)量龐大的應(yīng)用,該些各式各 樣的移動應(yīng)用正在逐漸改變著人們的生活。每個移動應(yīng)用都關(guān)聯(lián)著各自相關(guān)的信息,而 成千上萬的移動應(yīng)用就形成了一個龐大的異構(gòu)信息網(wǎng)絡(luò),該個網(wǎng)絡(luò)包含了大量有價值的信 息,因此對移動應(yīng)用信息網(wǎng)絡(luò)的研究將具有很重要的意義。一方面,深入分析大量移動應(yīng)用 的使用情況可W幫助我們詳細(xì)了解用戶的使用行為,從而為用戶提供更為個性化的服務(wù)。 例如個性化的應(yīng)用推薦通過挖掘用戶之間或者應(yīng)用之間的潛在結(jié)構(gòu)化關(guān)系來為目標(biāo)用戶 推薦更為準(zhǔn)確的移動應(yīng)用,從而提升用戶的體驗(yàn)度。另一方面,對移動應(yīng)用數(shù)據(jù)的分析還能 幫助公司找到更加有效的廣告推廣平臺。通常用戶從應(yīng)用市場中獲取應(yīng)用的方法主要分為 =種途徑;一種是使用應(yīng)用市場的捜索引擎,直接進(jìn)行捜索,第二種是使用應(yīng)用市場中的應(yīng) 用分類標(biāo)簽W及排名來尋找需要的應(yīng)用,第S種是在系統(tǒng)推薦的應(yīng)用列表中獲取應(yīng)用。其 中,應(yīng)用捜索主要是采用關(guān)鍵字匹配方法,使用到的信息類型是移動應(yīng)用的名稱,而分類標(biāo) 簽往往是固定的、人為事先設(shè)定的,隨著應(yīng)用數(shù)量的增長,標(biāo)簽設(shè)定的不合理之處將會逐漸 顯現(xiàn)出來,有鑒于此,采用一種有效的信息提取技術(shù)W彌補(bǔ)該些不足之處是十分必要的。聚 類是一種了解數(shù)據(jù),掌握有效信息的重要方法之一,大量雜亂的數(shù)據(jù)通過使用聚類方法被 歸于不同的組,有利于對數(shù)據(jù)的分析和學(xué)習(xí),對移動應(yīng)用數(shù)據(jù)進(jìn)行聚類分析可W作為預(yù)測 建模之前的預(yù)處理步驟。目前,大部分的能夠用于應(yīng)用數(shù)據(jù)聚類分析的方法主要是針對同 構(gòu)信息網(wǎng)絡(luò)的,即基于應(yīng)用的某一類型信息,使用單一類型的信息源由于忽略了其他相關(guān) 信息,在很大程度上限制了聚類的準(zhǔn)確度。因此一種通過提取應(yīng)用的不同類型的信息W構(gòu) 建一個移動應(yīng)用異構(gòu)網(wǎng)絡(luò),然后基于該網(wǎng)絡(luò)對應(yīng)用本身W及其相關(guān)信息進(jìn)行聚類分析的方 法已成為學(xué)術(shù)界與工業(yè)界的迫切需求。
【發(fā)明內(nèi)容】
[0003] 針對上述技術(shù)問題,本發(fā)明提出一種基于異構(gòu)信息網(wǎng)絡(luò)的移動應(yīng)用排序和聚類方 法
[0004] 為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下;
[0005] -種基于異構(gòu)信息網(wǎng)絡(luò)的移動應(yīng)用排序和聚類方法,系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊、 排序分布計算模塊W及概率生成模塊,具體包括如下步驟:
[0006] 11)數(shù)據(jù)預(yù)處理模塊從移動應(yīng)用市場中獲得移動應(yīng)用信息文檔,對該移動應(yīng)用信 息文檔進(jìn)行預(yù)處理,所述預(yù)處理過程包括信息過濾,分詞處理W及關(guān)鍵詞提?。?br>[0007] 12)構(gòu)建起一個由四類信息組成的星形異構(gòu)網(wǎng)絡(luò);對該星形異構(gòu)網(wǎng)絡(luò)進(jìn)行隨機(jī)聚 類,星形異構(gòu)網(wǎng)絡(luò)隨之分為多個子網(wǎng)絡(luò);
[0008] 13)排序分布計算模塊接收子網(wǎng)絡(luò)分別結(jié)算每個子網(wǎng)絡(luò)中屬性節(jié)點(diǎn)的排序分布, 然后輸出;
[0009] 13)概率生成模型接收屬性節(jié)點(diǎn)的排序分布用于計算中屯、節(jié)點(diǎn)在每個子網(wǎng)絡(luò)中的 后驗(yàn)概率,之后通過近鄰關(guān)系計算其他屬性節(jié)點(diǎn)的后驗(yàn)概率,最后檢查聚類結(jié)果是否收斂, 如果不收斂就按照新的概率分布重新劃分子網(wǎng)絡(luò)輸入到排序分布計算模塊,如果收斂就作 為聚類結(jié)果輸出。
[0010] 進(jìn)一步的,所述排序分布計算模塊排序流程具體包括如下步驟:
[0011] 首先輸入為聚類數(shù)KW及K個移動應(yīng)用的子網(wǎng)絡(luò),然后分別計算=類屬性節(jié)點(diǎn)在 每個子網(wǎng)絡(luò)中的排序分布,針對AUT冊R和CATEGORY類型的對象,采用傳遞性排序方法,該 方法是一個迭代的過程,終止條件是排序分布收斂或者迭代次數(shù)大于設(shè)定的最大次數(shù);針 對TERM類型的對象采用計數(shù)排序方法來計算其排序分布,整個排序分布計算流程最終將 輸出每個屬性類型的排序分布;所述AUT冊R、CATEGORY和TERM類型的對象均為提取的關(guān)鍵 詞。
[0012] 進(jìn)一步的,首先輸入部分包括聚類數(shù)K,K個移動應(yīng)用子網(wǎng)絡(luò)及其對應(yīng)的屬性類型 的排序分布,在建立概率生成模型之后將采用EM方法獲得最佳參數(shù)值,利用得到的最優(yōu)參 數(shù)值W及屬性類型的排序分布生成中屯、類型節(jié)點(diǎn)在每個聚類中的后驗(yàn)概率,然后利用近鄰 關(guān)系計算每個屬性類型節(jié)點(diǎn)的后驗(yàn)概率,最后根據(jù)概率分布情況重新分配每個節(jié)點(diǎn)到不同 的聚類,然后輸出聚類結(jié)果。
[0013] 進(jìn)一步的,構(gòu)建起一個由四類信息組成的星形異構(gòu)網(wǎng)絡(luò)為建立星形網(wǎng)絡(luò);G= (V,E,W),其中V= (APP,AUT冊R,CATEGORY,TERM},包括應(yīng)用的四類信息節(jié)點(diǎn),APP= (ap。啡2......apj是中屯、節(jié)點(diǎn)集合,AUT冊R= {aUi,au2......au。},CATEGORY= {ca。ca]...... ca。},TERM= {te。te2......te。}是^類屬性節(jié)點(diǎn)集合,E是連接中屯、節(jié)點(diǎn)與屬性節(jié)點(diǎn)的邊集 合,W是邊的權(quán)重集合,權(quán)值分為S種,第一,如果邊e;連接的是APP與{AUT冊R,CATEGORY} 的節(jié)點(diǎn),那么Wi的值為1,第二,如果邊ei連接的是APP與TERM的節(jié)點(diǎn),那么Wi的值可W為 任何正整數(shù),第=,如果兩個節(jié)點(diǎn)之間沒有連接邊,那么Wi表示為0。
[0014] 進(jìn)一步的,星形網(wǎng)絡(luò)經(jīng)過排序分布計算將得到屬性類型信息的排序分布結(jié)果, =種類型信息節(jié)點(diǎn)都有自己的排序分布,它們將作為條件概率輸入到概率生成模型中, 其中AUT冊R的排序分布為R={r(aui),r細(xì)2)......r(au。)},其中r(ai〇 > 0,并且
其他兩種屬性類型信息的排序分布也W同樣方式表示,排序分布的具體 計算過程分為兩個部分,第一個部分采用的是傳遞性排序方法,針對AUT冊R,CATEGORY兩 種類型的信息,該是一個迭代的計算過程:
[00 巧]F(Airni0R|G) - (WaUTHOR,APP。AUTHOR,APP) (WaPP,CATEGORY。APP,CATEG0腳)P(CATOGORYG) (1) [001 引P(CATEGORYIG) - (Wcategory'app0category,app) (Wapp,author0app,author)P(AUT冊R|G) 口)
[0017]其中OAUTHC?,APP,OAPP,CATEGC?Y,OCATEG(;KY,APP,OAPP,AUTHC?是對角矩陣,值分別專于權(quán) 矩陣WautHC?,APP,WApp,eATEGC?Y,WeATEGC?Y,APP,Wapp,AUTHC?的母一列值的總和,束一部分疋計數(shù)排序方法, 針對TERM類型,具體的計算過程如下:
[001 引
口)
[001引其中Ne(tei)表示G網(wǎng)絡(luò)中,te;的鄰居節(jié)點(diǎn)。
[0020] 進(jìn)一步的,概率生成模型將會使用排序分布作為輸入條件之一,然后使用EM方法 評APP節(jié)點(diǎn)在不同聚類中的后驗(yàn)概率分布,定義訪問某個子網(wǎng)絡(luò)Gk中d某個屬性節(jié)點(diǎn)X的 概率為:
[0021 ]P (XIGk) =P狂IGk)XP (XI)(,Gk) (4)
[002引其中P狂|Gk)表示在網(wǎng)絡(luò)Gk中訪問類型X的概率,p(x|X,Gk)表示在網(wǎng)絡(luò)Gk中,訪 問類型X中某一個節(jié)點(diǎn)的概率,為了避免P (XIX,Gk)出現(xiàn)零概率現(xiàn)象,加入全局信息,對其 進(jìn)行平滑處理:
[002引P'(xIX,Gj= (1-e)p(xIX,Gj+ep(xIX,G) 妨
[0024] 在某個子網(wǎng)絡(luò)中Gk訪問一個中屯、節(jié)點(diǎn)api的概率由其屬性節(jié)點(diǎn)來決定;
[00 巧]
[0026] 根據(jù)貝葉斯定律,獲得中屯、節(jié)點(diǎn)aPi的后驗(yàn)概率;P(GklaPi)P(aPi|Gk)Xp咕), 為了得到合適的P(Gk)考慮最大化后驗(yàn)概率p(Gk|aPi),然后使用EM方法來