變量的變分分布。 也就是說,上述步驟203獲取到的隱變量的變分分布是樣本數(shù)據(jù)中部分樣本數(shù)據(jù)對應的隱 變量的變分分布,而并非能夠代表所有樣本數(shù)據(jù)對應的隱變量的變分分布。為了能將所有 樣本數(shù)據(jù)對應的隱變量的變分分布代入目標函數(shù)確定目標函數(shù)值,本實施例提供的方法在 獲取所有樣本數(shù)據(jù)對應的隱變量的變分分布時,對于當前從樣本數(shù)據(jù)中抽取到的子樣本數(shù) 據(jù),可通過上述步驟203的方式獲取當前從樣本數(shù)據(jù)中抽取到的每個子樣本數(shù)據(jù)對應的隱 變量的變分分布;對于從未被從樣本數(shù)據(jù)中抽取到的子樣本數(shù)據(jù),其對應的隱變量的變分 分布可以設置為初始值;對于之前曾被從樣本數(shù)據(jù)中抽取出來但當前未被從樣本數(shù)據(jù)中抽 取到的子樣本數(shù)據(jù),可將最近一次通過上述步驟203獲取到的隱變量的變分分布作為當前 該樣本數(shù)據(jù)對應的隱變量的變分分布。
[0204] 為了便于理解,以樣本數(shù)據(jù)為A、B、C、D及E為例進行說明。在第一次獲取所有樣 本數(shù)據(jù)對應的隱變量的變分分布時,如果當前抽取到的子樣本數(shù)據(jù)為樣本數(shù)據(jù)A及B,未抽 取到的子樣本數(shù)據(jù)為樣本數(shù)據(jù)C、D及E。因此,通過上述步驟203的方式獲取樣本數(shù)據(jù)A及 B對應的隱變量的變分分布;對于樣本數(shù)據(jù)C、D及E,則可以分別為其設置初始值。
[0205] 在第二次獲取所有樣本數(shù)據(jù)對應的隱變量的變分分布時,重新從樣本數(shù)據(jù)中抽取 子樣本數(shù)據(jù),且如果當前抽取到的子樣本數(shù)據(jù)為樣本數(shù)據(jù)B及C,未抽取到的子樣本數(shù)據(jù)為 樣本數(shù)據(jù)A、D及E。因此,通過上述步驟203的方式獲取樣本數(shù)據(jù)B及C對應的隱變量的 變分分布;由于樣本數(shù)據(jù)A在本次未被抽取出來,但是上一次被抽取出來過,因而將第一次 抽取到樣本數(shù)據(jù)A時通過上述步驟203獲取到的樣本數(shù)據(jù)A對應的隱變量的變分分布作為 當前樣本數(shù)據(jù)A對應的隱變量的變分分布;對于樣本數(shù)據(jù)D及E,由于從未被抽取過,因而 樣本數(shù)據(jù)D及E對應的隱變量的變分分布仍為初始值。
[0206] 在第三次獲取隱變量的變分分布時,重新從樣本數(shù)據(jù)中抽取到的子樣本數(shù)據(jù)為樣 本數(shù)據(jù)D及E,未抽取到的子樣本數(shù)據(jù)為樣本數(shù)據(jù)A、B及C。對于樣本數(shù)據(jù)D及E,通過上 述步驟203獲取樣本數(shù)據(jù)D及E對應的隱變量的變分分布;對于樣本數(shù)據(jù)A,可將首次抽取 樣本數(shù)據(jù)A時通過上述步驟203獲取到的樣本數(shù)據(jù)A對應的隱變量的變分分布作為當前樣 本數(shù)據(jù)A對應的隱變量的變分分布;對于樣本數(shù)據(jù)B及C,可將第二次抽取到樣本數(shù)據(jù)B時 通過上述步驟203獲取到的樣本數(shù)據(jù)B對應的隱變量的變分分布作為當前樣本數(shù)據(jù)B對應 的隱變量的變分分布,將第二次抽取到樣本數(shù)據(jù)C時通過上述步驟203獲取到的樣本數(shù)據(jù)C 對應的隱變量的變分分布作為當前樣本數(shù)據(jù)C對應的隱變量的變分分布。依次類推,直至 得到使目標函數(shù)收斂的隱變量的變分分布。
[0207] 需要說明的是,當確定目標函數(shù)未收斂,重新根據(jù)從樣本數(shù)據(jù)中抽取的每個子樣 本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù)時,可返回步驟203,按照步驟203的方式重新根 據(jù)從樣本數(shù)據(jù)中抽取的每個子樣本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù)。當?shù)谝淮胃鶕?jù) 從樣本數(shù)據(jù)中抽取的每個子樣本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù)時,步驟203中的 公式所涉及到的t-1代表初始值,但返回步驟203重新根據(jù)從樣本數(shù)據(jù)中抽取的每個子樣 本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù)時,步驟203中的公式所涉及到的t-1代表上一 次獲取,并且需要重新從樣本數(shù)據(jù)中抽取子樣本數(shù)據(jù)。例如,首次按照上述步驟203中的公 式根據(jù)從樣本數(shù)據(jù)中抽取的每個子樣本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù)時,公式中 的t-1對應的參數(shù)使用初始值,得到首次獲取到的隱變量的變分分布及組件參數(shù)。如果首 次獲取到的隱變量的變分分布及組件參數(shù)未使目標函數(shù)收斂,則將首次獲取到的隱變量的 變分分布及組件參數(shù)作為上述步驟203中t-1對應的參數(shù)的值,再次根據(jù)從樣本數(shù)據(jù)中抽 取的每個子樣本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù),并判斷再次獲取到的隱變量的變 分分布及組件參數(shù)是否使確定的目標函數(shù)收斂。如此獲取,直至得到使目標函數(shù)收斂的隱 變量的變分分布及組件參數(shù)。
[0208] 進一步地,通過上述步驟203至步驟204即完成了根據(jù)從樣本數(shù)據(jù)中抽取的子樣 本數(shù)據(jù)確定使目標函數(shù)收斂的隱變量的變分分布及組件參數(shù),為了完成確定混合模型,本 實施例提供的方法還包括后續(xù)步驟。
[0209] 205 :根據(jù)使目標函數(shù)收斂的隱變量的變分分布及組件參數(shù)確定混合模型。
[0210] 針對該步驟,目標函數(shù)收斂時的取值接近對數(shù)似然,可通過使目標函數(shù)收斂的隱 變量的變分分布及組件參數(shù)確定混合模型。
[0211] 進一步地,可設置不同的組件個數(shù)C。例如,設置C最小取值為Cmin,C最大取值為 C_ ;在C的取值范圍內(nèi),針對C的每一種取值,根據(jù)從樣本數(shù)據(jù)中抽取的每個子樣本數(shù)據(jù)獲 取隱變量的變分分布及組件參數(shù),則在使目標函數(shù)收斂的基礎上,還可選取使目標函數(shù)取 值最大的C,并通過該C計算得到的隱變量的變分分布及組件參數(shù)確定混合模型。
[0212] 需要說明的是,設置的組件個數(shù)C與確定的混合模型的組件個數(shù)可能相同,也可 能不同,即在確定混合模型的過程中,可自動調(diào)整混合模型的結(jié)構(gòu)。
[0213] 確定的混合模型可用于數(shù)據(jù)的聚類,還可用于數(shù)據(jù)的分類。當確定的混合模型用 于數(shù)據(jù)的聚類時,確定混合模型的過程即是數(shù)據(jù)聚類的過程;當確定的混合模型用于數(shù)據(jù) 的分類時,還需要對確定的混合模型進行進一步地處理。利用數(shù)據(jù)聚類和分類的結(jié)果可以 進行客戶分析、生物分析及地理分析等,產(chǎn)生的大量的社會價值和經(jīng)濟價值。
[0214] 本發(fā)明實施例提供的方法,通過根據(jù)樣本數(shù)據(jù)、隱變量及組件參數(shù)確定的對數(shù)似 然、正則項及隱變量的變分分布的對數(shù)確定目標函數(shù),并根據(jù)使目標函數(shù)收斂的隱變量的 變分分布及組件參數(shù)確定混合模型,由于引入了正則項,因而可使得混合模型的復雜度得 到自動控制,可適用于處理超大規(guī)模數(shù)據(jù)。此外,由于隱變量和組件參數(shù)之間存在依賴關 系,因而確定的隱變量的變分分布和組件參數(shù)更加準確,確定的混合模型也更為準確。
[0215] 實施例三
[0216] 參見圖3,本發(fā)明實施例提供了一種混合模型的確定裝置,該裝置包括:
[0217] 獲取模塊301,用于獲取根據(jù)樣本數(shù)據(jù)、隱變量及組件參數(shù)確定的對數(shù)似然、正則 項及隱變量的變分分布的對數(shù);
[0218] 第一確定模塊302,用于根據(jù)對數(shù)似然、正則項及隱變量的變分分布的對數(shù)確定目 標函數(shù);
[0219] 第二確定模塊303,用于根據(jù)從樣本數(shù)據(jù)中抽取的子樣本數(shù)據(jù)確定使目標函數(shù)收 斂的隱變量的變分分布及組件參數(shù);
[0220] 第三確定模塊304,用于根據(jù)使目標函數(shù)收斂的隱變量的變分分布及組件參數(shù)確 定混合模型。
[0221] 作為一種可選實施例,獲取模塊301獲取到的對數(shù)似然為:
[0222] logp(xN,ZN| 0 );
[0223] 其中,logp〇表示對數(shù)似然,p表示聯(lián)合概率密度函數(shù),xN為樣本數(shù)據(jù),N為樣本 數(shù)據(jù)個數(shù),Z N為隱變量,0為組件參數(shù)的集合,組件參數(shù)包括a、9,a為組件混合比率, 供表示每個組件的子模型參數(shù)。
[0224] 作為一種可選實施例,獲取模塊301獲取到的正則項為:
[0225] i:f4^Z-,b(Z-)V|1〇giV; c=l ^ Vi=\ i=l J2
[0226] 其中,N為樣本數(shù)據(jù)個數(shù);C為組件個數(shù),zn。為隱變量;奪()為隱變量的變分 分布的近似值;a為組件混合比率,D a為a的維度,D。為組件的子模型參數(shù)的維度, L(a, b)=logb+(a_b)/b,a 為 ,b 為乞奪(z,K.)。 /=1
[0227] 作為一種可選實施例,獲取模塊301獲取到的隱變量的變分分布的對數(shù)為:
[0228] logq(ZN);
[0229] 其中,q(ZN)為隱變量ZN的變分分布,N為樣本數(shù)據(jù)個數(shù)。
[0230] 作為一種可選實施例,第一確定模塊302,用于根據(jù)對數(shù)似然的期望值、正則項的 期望值及隱變量的變分分布的對數(shù)的期望值確定目標函數(shù)。
[0231] 作為一種可選實施例,第一確定模塊302確定的目標函數(shù)為:
[0232] 愿5(《私 x卞 & [tog+''Z? |吩£? [l0g?(Z'v)]-£ 技導彳 Lc=i上k/=i i=\ y」 lz _
[0233] 作為一種可選實施例,參見圖4,第二確定模塊303,包括:
[0234] 獲取單元3031,用于根據(jù)從樣本數(shù)據(jù)中抽取的每個子樣本數(shù)據(jù)獲取隱變量的變分 分布及組件參數(shù);
[0235] 確定單元3032,用于根據(jù)隱變量的變分分布及組件參數(shù)確定目標函數(shù)是否收斂;
[0236] 獲取單元3031,用于當目標函數(shù)未收斂時,重新根據(jù)從樣本數(shù)據(jù)中抽取的每個子 樣本數(shù)據(jù)獲取隱變量的變分分布及組件參數(shù),直至得到使目標函數(shù)收斂的隱變量的變分分 布及組件參數(shù)。
[0237] 作為一種可選實施例,參見圖5,獲取單元3031,包括:
[0238] 第一獲取子單元30311,用于根據(jù)從樣本數(shù)據(jù)中抽取的每個子樣本數(shù)據(jù)獲取每個 子樣本數(shù)據(jù)對應的隱變量的變分分布;
[0239] 第二獲取子單元30312,用于根據(jù)每個子樣本數(shù)據(jù)對應的隱變量的變分分布獲取 每個子樣本數(shù)據(jù)對應的組件參數(shù)中間值;
[0240] 第一確定子單元30313,用于根據(jù)每個子樣本數(shù)據(jù)對應的組件參數(shù)中間值確定組 件參數(shù)的平均值;
[0241] 第三獲取子單元30314,用于根據(jù)組件參數(shù)的平均值獲取組件參數(shù)。
[0242] 作為一種可選實施例,第一獲取子單元30311,用于根據(jù)從樣本數(shù)據(jù)中抽取的每個 子樣本數(shù)據(jù)按照如下公式獲取每個子樣本數(shù)據(jù)對應的隱變量的變分分布:
[0243]
[0244] 第二獲取子單元30312,用于根據(jù)每個子樣本數(shù)據(jù)對應的隱變量的變分分布集合 按照如下公式獲取每個子樣本數(shù)據(jù)對應的組件參數(shù)中間值《丨?和:
[0248] 第一確定子單元30313,用于根據(jù)各個子樣本數(shù)據(jù)對應的組件參數(shù)中間值按照如 下公式確定組件參數(shù)的平均值式和舍:
[0250] 第三獲取子單元30314,用于根據(jù)組件參數(shù)的平均值按照如下公式獲取組件參數(shù) :
[0251] ?:={\-pt)a{:-X)^-p,ac ,^={l-p>)9^ + p>^ ,
[0252] t代表當前獲取,t_l代表上一次獲取或初始化,P為更新步長為第c個組 件下第4個子樣本數(shù)據(jù)對應的隱變量的變分分布,S為子樣本數(shù)據(jù)集合,氣1為子樣本數(shù)據(jù) 集合中的第L個子樣本數(shù)據(jù),a。為第c個組件的組件參數(shù)a,A為第c個組件的組件參 數(shù)供。
[0253] 作為一種可選實施例,參見圖6,確定單元3032,包括:
[0254] 比較子單元30321,用于比較根據(jù)隱變量的變分分布及組件參數(shù)確定的目標函數(shù) 值與上一次得到的目標函數(shù)值之間的距離是否小于閾值,上一次得到的目標函數(shù)值根據(jù)上 一次獲取到的隱變量的變分分布及組件參數(shù)確定;
[0255] 第二確定子單元30322,用于當根據(jù)隱變量的變分分布及組件參數(shù)確定的目標函 數(shù)值與上一次得到的目標函數(shù)值之間的距離小于閾值時,確定目標函數(shù)收斂。
[0256]