關(guān)系模型的確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及統(tǒng)計(jì)技術(shù)領(lǐng)域,特別涉及一種關(guān)系模型的確定方法及裝置。
【背景技術(shù)】
[0002] 隨著統(tǒng)計(jì)技術(shù)的不斷發(fā)展,對(duì)對(duì)象間的關(guān)系信息進(jìn)行建模成為了一個(gè)熱點(diǎn)問(wèn)題。 其中,對(duì)象間的關(guān)系信息多種多樣,例如被調(diào)查人群中人與人之間的聯(lián)系信息,因特網(wǎng)上 頁(yè)面與頁(yè)面之間的鏈接關(guān)系信息等等。各種各樣的關(guān)系信息描述了一類對(duì)象內(nèi)的相互關(guān) 系或是多類對(duì)象間的關(guān)系,通過(guò)對(duì)關(guān)系信息進(jìn)行分析,可W獲得很多有價(jià)值的信息。也正 因?yàn)槿绱耍陉P(guān)系信息的應(yīng)用種類越來(lái)越多,將不同樣本數(shù)據(jù)根據(jù)關(guān)系信息進(jìn)行關(guān)系聚 類即是其中的一種。而在關(guān)系聚類的過(guò)程中,通常會(huì)用到關(guān)系模型。例如,如果某電影公司 想要獲取用戶對(duì)當(dāng)前上映的一系列電影的評(píng)價(jià),則收集一批用戶對(duì)上映的一系列電影的評(píng) 分,通過(guò)關(guān)系模型將用戶和電影分到不同的樣本類別內(nèi),實(shí)現(xiàn)對(duì)用戶、電影和電影評(píng)分同時(shí) 進(jìn)行聚類,從而通過(guò)聚類結(jié)果進(jìn)行電影評(píng)價(jià)分析。實(shí)際聚類過(guò)程中,除了關(guān)系信息外,還經(jīng) 常會(huì)用到非關(guān)系信息,例如,屬性信息等。因此,如何協(xié)同關(guān)系信息及非關(guān)系信息進(jìn)行聚類, 即根據(jù)關(guān)系信息及非關(guān)系信息確定關(guān)系模型成為了目前研究關(guān)系聚類的關(guān)鍵。
[0003] 在實(shí)際應(yīng)用中,關(guān)系模型由隱變量和模型參數(shù)確定,或由隱變量的變分分布和模 型參數(shù)確定。隱變量是指不能被直接觀測(cè)到,而需要通過(guò)樣本數(shù)據(jù)推導(dǎo)得出的變量,隱變 量的變分分布用于描述樣本數(shù)據(jù)被聚類到對(duì)應(yīng)類別的概率;模型參數(shù)用于描述每個(gè)樣本類 別下子模型的參數(shù)。目前,文章Regression-based latent factor models. Deepak Agarwal et al. In Proc of邸D'09,2009中給出了一種確定隱變量和模型參數(shù)的方式。該方式下, 獲取根據(jù)樣本數(shù)據(jù)、兩組樣本屬性、兩組隱變量及模型參數(shù)確定的對(duì)數(shù)似然;其次,根據(jù)對(duì) 數(shù)似然確定目標(biāo)函數(shù),并通過(guò)采樣的方式確定使目標(biāo)函數(shù)收斂的各個(gè)隱變量及模型參數(shù), 而該使目標(biāo)函數(shù)收斂的各個(gè)隱變量及模型參數(shù)即可作為用于確定關(guān)系模型的隱變量及模 型參數(shù)。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在W下問(wèn)題:
[0005] 由于目標(biāo)函數(shù)僅根據(jù)對(duì)數(shù)似然確定,因而通過(guò)該種目標(biāo)函數(shù)所確定的關(guān)系模型無(wú) 法自動(dòng)進(jìn)行模型選擇,復(fù)雜度較高。此外,通過(guò)采樣的方式確定使目標(biāo)函數(shù)收斂的各個(gè)隱 變量及模型參數(shù)時(shí),效率較低,且確定的關(guān)系模型的精度不高。
【發(fā)明內(nèi)容】
[0006] 為了解決現(xiàn)有技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種關(guān)系模型的確定方法及裝 置。所述技術(shù)方案如下:
[0007] 第一方面,提供了一種關(guān)系模型的確定方法,所述方法包括:
[0008] 獲取根據(jù)樣本數(shù)據(jù)、至少兩組樣本屬性、至少兩組隱變量及模型參數(shù)確定的對(duì)數(shù) 似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù);
[0009] 根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù)確定目標(biāo)函數(shù);
[0010] 確定使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù),根據(jù)使所述目標(biāo) 函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù)確定關(guān)系模型。
[0011] 結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩組樣本屬性、至少兩組隱變量及模型參數(shù)確定的對(duì)數(shù)似然為:
[0012]
[0013] 其中,所述1〇甜0表示對(duì)數(shù)似然,所述P表示聯(lián)合概率密度函數(shù),所述x'vA為樣本 數(shù)據(jù),所述Nf為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù),所述AE為行樣本屬性,所述為列樣本 屬性,所述ZE為行隱變量,所述為列隱變量,所述0為模型參數(shù)的集合,所述模型參數(shù)包 括a、目、n、S,所述a、目分別為行、列混合比率,所述弊表示每個(gè)樣本類別內(nèi)的子模 型參數(shù),所述n表示每個(gè)樣本類別內(nèi)的行樣本屬性的模型參數(shù),所述S表示每個(gè)樣本類別 內(nèi)的列樣本屬性的模型參數(shù)。
[0014] 結(jié)合第一方面,在第一方面的第二種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩組樣本屬性、至少兩組隱變量及模型參數(shù)確定的正則項(xiàng)為:
[0015]
[0016] 其中,所述Nf為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù);所述Kf是行樣本類別的個(gè) 數(shù),所述K。是列樣本類別的個(gè)數(shù);所還S 0為隱變量的變分分布的近似值,所述為描述 第i個(gè)行樣本數(shù)據(jù)對(duì)第P個(gè)行樣本類別的隸屬關(guān)系的行隱變量,所述為描述第j個(gè)列 樣本數(shù)據(jù)對(duì)第q個(gè)列樣本類別的隸屬關(guān)系的列隱變量;所述a,目分別為行、列混合比率, 所述D。為所述a的維度,所述Dg為所述目的維度;所述Dp。為第P行、第q列的樣本類 別內(nèi)的子模型參數(shù)的維度;所述n。為第P個(gè)行樣本類別內(nèi)的行樣本屬性的模型參數(shù),所 述為所述n。的維度;所述S。為第q個(gè)列樣本類別內(nèi)的列樣本屬性的模型參數(shù),所述 為所述S q的維度;L(a, b)=logb+(a-b)/b,所過(guò)
申
[0017] 結(jié)合第一方面,在第一方面的第H種可能的實(shí)現(xiàn)方式中,根據(jù)所述樣本數(shù)據(jù)、至少 兩組樣本屬性、至少兩組隱變量及模型參數(shù)確定的隱變量的變分分布的對(duì)數(shù)為:
[001引 logq 狂E)和 logq 狂G);
[0019] 其中,所述q狂E)為行隱變量ZE的變分分布,所述q狂K)為列隱變量的變分分 布。
[0020] 結(jié)合第一方面至第一方面的第H種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式, 在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的 變分分布的對(duì)數(shù)確定目標(biāo)函數(shù),包括:
[0021] 根據(jù)所述對(duì)數(shù)似然的期望值、所述正則項(xiàng)的期望值及所述各個(gè)隱變量的變分分布 的對(duì)數(shù)的期望值確定目標(biāo)函數(shù)。
[0022] 結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式 中,根據(jù)所述對(duì)數(shù)似然的期望值、所述正則項(xiàng)的期望值及所述各個(gè)隱變量的變分分布的對(duì) 數(shù)的期望值確定的目標(biāo)函數(shù)「b,弓乂 為:
[0023]
[0024] 結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式 中,所述確定使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù),包括:
[0025] 獲取更新的各個(gè)隱變量的變分分布及更新的模型參數(shù);
[0026] 根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定所述目標(biāo)函數(shù)是否收 斂,如果所述目標(biāo)函數(shù)未收斂,則重新獲取更新的各個(gè)隱變量的變分分布及更新的模型參 數(shù),直至得到使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參數(shù)。
[0027] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第走種可能的實(shí)現(xiàn)方式 中,所述獲取更新的各個(gè)隱變量的變分分布及更新的模型參數(shù),包括:
[0028] 按照如下公式交替更新各個(gè)隱變量的變分分布,直至得到收斂的更新的各個(gè)隱變 量的變分分布:
[0029]
[0031] 根據(jù)收斂的更新的各個(gè)隱變量的變分分布按照如下公式更新模型參數(shù),得到更新 的模型參數(shù):
[0032]
所述t代表當(dāng)前更新,所述t-1代表上一次更新或初始化。
[0035] 結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第八種可能的實(shí)現(xiàn)方式 中,所述獲取更新的各個(gè)隱變量的變分分布及更新的模型參數(shù),包括:
[0036] 按照如下公式更新模型參數(shù),得到更新的模型參數(shù):
[0040] 根據(jù)更新的模型參數(shù)按照如下公式交替更新各個(gè)隱變量的變分分布,得到收斂的 更新的各個(gè)隱變量的變分分布:
[0041]
[0042]
[0043] 其中,所述t代表當(dāng)前更新,所述t-1代表上一次更新或初始化。
[0044] 結(jié)合第一方面的第六種至第八種可能的實(shí)現(xiàn)方式中任一種可能的實(shí)現(xiàn)方式,在第 一方面的第九種可能的實(shí)現(xiàn)方式中,所述根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型 參數(shù)確定所述目標(biāo)函數(shù)是否收斂,包括:
[0045] 比較根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定的目標(biāo)函數(shù)與上 一次得到的目標(biāo)函數(shù)之間的距離是否小于闊值,所述上一次得到的目標(biāo)函數(shù)根據(jù)上一次更 新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定;
[0046] 如果根據(jù)更新的各個(gè)隱變量的變分分布及更新的模型參數(shù)確定的目標(biāo)函數(shù)與上 一次得到的目標(biāo)函數(shù)之間的距離小于闊值,則確定所述目標(biāo)函數(shù)收斂。
[0047] 第二方面,提供了一種關(guān)系模型的確定裝置,所述裝置包括:
[0048] 獲取模塊,用于獲取根據(jù)樣本數(shù)據(jù)、至少兩組樣本屬性、至少兩組隱變量及模型參 數(shù)確定的對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù);
[0049] 第一確定模塊,用于根據(jù)所述對(duì)數(shù)似然、正則項(xiàng)及各個(gè)隱變量的變分分布的對(duì)數(shù) 確定目標(biāo)函數(shù);
[0050] 第二確定模塊,用于確定使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參 數(shù);
[0051] 第H確定模塊,用于根據(jù)使所述目標(biāo)函數(shù)收斂的各個(gè)隱變量的變分分布及模型參 數(shù)確定關(guān)系模型。
[0052] 結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到的 對(duì)數(shù)似然為:
[0053]
[0054] 其中,所述logpQ表示對(duì)數(shù)似然,所述P表示聯(lián)合概率密度函數(shù),所述A-Si'S為樣本 數(shù)據(jù),所述Nf為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù),所述AE為行樣本屬性,所述為列樣本 屬性,所述ZE為行隱變量,所述為列隱變量,所述0為模型參數(shù)的集合,所述模型參數(shù)包 括a、目、f、n、S,所述a、目分別為行、列混合比率,所述弊表示每個(gè)樣本類別內(nèi)的子模 型參數(shù),所述n表示每個(gè)樣本類別內(nèi)的行樣本屬性的模型參數(shù),所述S表示每個(gè)樣本類別 內(nèi)的列樣本屬性的模型參數(shù)。
[0055] 結(jié)合第二方面,在第二方面的第二種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到的 正則項(xiàng)為:
[0056]
[0057] 其中,所述Nf為行樣本個(gè)數(shù),所述N。為列樣本個(gè)數(shù);所述Kf是行樣本類別的個(gè) 數(shù),所述1(。是列樣本類別的個(gè)數(shù);所還^ 0為隱變量的變分分布的近似值,所述2,^為描述 第i個(gè)行樣本數(shù)據(jù)對(duì)第P個(gè)行樣本類別的隸屬關(guān)系的行隱變量,所述Z;為描述第j個(gè)列 樣本數(shù)據(jù)對(duì)第q個(gè)列樣本類別的隸屬關(guān)系的列隱變量;所述a,目分別為行、列混合比率, 所述D。為所述a的維度,所述Dg為所述目的維度;所述Dp。為第P行、第q列的樣本類 別內(nèi)的子模型參數(shù)的維度;所述n。為第P個(gè)行樣本類別內(nèi)的行樣本屬性的模型參數(shù),所 述^<1,為所述n。的維度;所述S。為第q個(gè)列樣本類別內(nèi)的列樣本屬性的模型參數(shù),所述 湯f,為所述S q的維度;L(a, b)=logb+(a-b)/b,所述
片
[0058] 結(jié)合第二方面,在第二方面的第H種可能的實(shí)現(xiàn)方式中,所述獲取模塊獲取到的 各個(gè)隱變量的變分分布的對(duì)數(shù)為:
[0059] logq 狂E)和 logq 狂G);
[0060] 其中,所述q狂E)為行隱變量ZE的變分分布,所述q仿)為列隱變量的變分分 布。
[0061] 結(jié)合第二方面至第二方面的第H種可能的實(shí)現(xiàn)方式中任一種可