基于期望最大確定統(tǒng)計模型參數的方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及數據統(tǒng)計領域,尤其涉及一種基于期望最大確定統(tǒng)計模型參數的方法 和裝置。
【背景技術】
[0002] 期望最大(Expectation Maximization,EM)方法可以通過若干次迭代尋找最大后 驗概率。目前,EM方法廣泛應用于對例如高斯混合模型(Gaussian mixture models)、隱馬 爾科夫模型(hidden Markov models)等統(tǒng)計模型的參數進行估計,可不間斷地根據新的數 據中估計并學習統(tǒng)計模型的參數。
[0003] 通常,EM方法可以劃分為輸入、EM聚類和輸出這三部分。其中,輸入部分主要用于 將包括N個數據點的數據集以矩陣的形式輸入到EM聚類部分;EM聚類部分主要用于通過 將統(tǒng)計模型的參數作為已知量來求各數據點屬于K個聚類中心的后驗概率、即E步驟,基于 所求得的后驗概率來更新統(tǒng)計模型的參數、即M步驟,并通過E步驟和M步驟的反復迭代來 逐步優(yōu)化統(tǒng)計模型的參數;以及,輸出部分主要用于輸出統(tǒng)計模型的參數。
[0004] 由于在E步驟中需要計算所有數據點在所有聚類中心的后驗概率矩陣,上述EM方 法的迭代成本以及時間成本較高,尤其在數據集的規(guī)模較大、例如N > 1000000和/或聚類 中心的數量較多、例如K彡1000時。
【發(fā)明內容】
[0005] 有鑒于此,本發(fā)明要解決的技術問題是,如何盡量降低基于EM方法確定統(tǒng)計模型 的參數時的迭代成本以及時間成本。
[0006] 為了解決上述技術問題,第一方面,本發(fā)明提供了一種確定統(tǒng)計模型參數的方法, 用于基于N個數據點確定統(tǒng)計模型的參數,其中N為大于或等于2的整數,包括:
[0007] 接收包括N個數據點以及N個數據點的D個屬性的數據集以組織成輸入矩陣,其 中D為大于或等于1的整數;
[0008] 根據所述輸入矩陣,設定K個聚類中心、所述參數的初始值以及后驗概率矩陣 yNxK(yn;k)的初始值
【主權項】
1. 一種確定統(tǒng)計模型參數的方法,用于基于N個數據點確定統(tǒng)計模型的參數,其中NS 大于或等于2的整數,其特征在于,包括: 接收包括N個數據點以及N個數據點的D個屬性的數據集以組織成輸入矩陣,其中D為大于或等于1的整數; 根據所述輸入矩陣,設定K個聚類中心、所述參數的初始值以及后驗概率矩陣y_(yn,k)的初始值)?其中,后驗概率yn,k表示第n個數據點在第k個聚類中 心上的后驗概率,其中K為大于或等于2的整數,1彡n彡N,1彡k彡K,以及根據) 以及所述參數的初始值計算/ikiT(Ki); 基于)計算得到第t次循環(huán)的所述參數,并計算所述N個數據點在所述K個 聚類中心的殘差C=|/<C-其中t> 1 ; 基于所述N個數據點在所述K個聚類中心的殘差從所述N個數據點中選出M個數據點, 并從所述K個聚類中心選出L個聚類中心,其中1彡M彡N、1彡L彡K; 根據第t次循環(huán)計算得到的所述參數計算所述M個數據點在所述L個聚類中心上的后 驗概率 根據所計算出的所述后驗概率更新所述N個數據點在所述K個聚類中心上的后驗 概率矩陣,并基于計算出的所述后驗概率g更新第t+1次循環(huán)的所述參數的值; 判斷第t+1次循環(huán)的所述參數是否收斂,在所述參數為收斂時,停止循環(huán)并輸出所述 參數。
2. 根據權利要求1所述的方法,其特征在于,所述基于所述N個數據點在所述K個聚類 中心的殘差從所述N個數據點中選出M個數據點,并從所述K個聚類中心選出L個聚類中 心,包括: 計算每個所述數據點的殘差< =!>",并從所述N個數據點中選出殘差rtn最大的M k~l 個數據點; 根據各數據點在各所述聚類中心的殘差針對所述M個數據點中的每個數據點,分 別從所述K個聚類中心中選出殘差llk最大的L個聚類中心。
3. 根據權利要求1所述的方法,其特征在于,所述基于所述N個數據點在所述K個聚類 中心的殘差從所述N個數據點中選出M個數據點,并從所述K個聚類中心選出L個聚類中 心,包括: 計算每個所述數據點的殘差t匕?并從所述K個聚類中心中選出殘差y最大的L ?~lFk 個聚類中心; 根據各數據點在各所述聚類中心的殘差<k,針對所述K個聚類中心的每個聚類中心, 分別從所述N個數據點中選出殘差最大的M個數據點。
4. 根據權利要求1-3中任一項所述的方法,其特征在于,在所述接收包括N個數據點以 及N個數據點的D個屬性的數據集以組織成輸入矩陣之后,還包括: 設定比例因子、和Xk,其中〇〈Xn<〇. 5,0〈Ak彡0. 5; 根據所述比例因子入"和計算所述M和所述L的值,其中,M=XnN,L=XkK。
5. 根據權利要求1-4中任一項所述的方法,其特征在于,判斷第t+1次循環(huán)的所述參數 的值是否收斂,包括: 計算在第t+1次循環(huán)計算得到的所述參數與在第t次循環(huán)計算得到的所述參數之間的 差; 判斷所述差的絕對值是否超出預設的閾值; 若所有所述差的絕對值都小于所述預設的閾值,則確定所述第t+1次循環(huán)的所述參數 收斂; 若任一所述差的絕對值不小于所述預設的閾值,則確定所述第t+1次循環(huán)的所述參數 不收斂。
6. -種確定統(tǒng)計模型參數的裝置,用于基于N個數據點確定統(tǒng)計模型的參數,其中N為 大于或等于2的整數,其特征在于,包括: 輸入模塊,用于接收包括N個數據點以及N個數據點的D個屬性的數據集以組織成輸 入矩陣,其中D為大于或等于1的整數; 初始化模塊,與所述輸入模塊相通信,用于根據所述輸入矩陣,設定K個聚類中心、 所述參數的初始值以及后驗概率矩陣yNXK(Un,k)的初始值其中,后驗概率 Un;k表示第n個數據點在第k個聚類中心上的后驗概率,其中K為大于或等于2的整數, 1彡n彡N,1彡k彡K,以及根據以及所述參數的初始值計算?, 殘差計算模塊,與所述初始化模塊相通信,用于基于計算得到第t次循環(huán)的 所述參數,并計算所述N個數據點在所述K個聚類中心的殘差=|乂.1 -/4i|,其中t彡1 ; 選擇模塊,與所述殘差計算模塊相通信,用于基于所述N個數據點在所述K個聚類中心 的殘差從所述N個數據點中選出M個數據點,并從所述K個聚類中心選出L個聚類中心,其 中 1<M<N、KL<K; 后驗概率計算模塊,與所述選擇模塊相通信,用于根據第t次循環(huán)計算得到的所述參 數計算所述M個數據點在所述L個聚類中心上的后驗概率; 概率矩陣更新模塊,與所述后驗概率計算模塊以及所述殘差計算模塊相通信,用于根 據所計算出的所述后驗概率更新所述N個數據點在所述K個聚類中心上的后驗概率矩 陣 參數值計算模塊,與所述概率矩陣更新模塊相通信,用于基于計算出的所述后驗概率 更新第t+i次循環(huán)的所述參數的值;以及 判斷模塊,與所述殘差計算模塊以及所述參數值計算模塊相通信,用于判斷第t+i次 循環(huán)的所述參數是否收斂,在所述參數為收斂時,停止循環(huán)并輸出所述參數。
7. 根據權利要求6所述的裝置,其特征在于,所述選擇模塊被配置為:計算每個所述數 據點的殘差< =?并從所述N個數據點中選出殘差rtn最大的M個數據點; 卜I 根據各數據點在各所述聚類中心的殘差rik,針對所述M個數據點中的每個數據點,分 別從所述K個聚類中心中選出殘差ilk最大的L個聚類中心。
8. 根據權利要求6所述的裝置,其特征在于,所述選擇模塊被配置為: 計算每個所述數據點的殘差< .,并從所述K個聚類中心中選出殘差/f最大的L 曠1 個聚類中心; 根據各數據點在各所述聚類中心的殘差<.k,針對所述K個聚類中心的每個聚類中心, 分別從所述N個數據點中選出殘差最大的M個數據點。
9.根據權利要求6-8中任一項所述的裝置,其特征在于,所述初始化模塊被配置為,設 定比例因子入"和Xk,其中〇〈、彡0. 5,0〈Ak彡0. 5;根據所述比例因子入"和Ak計算 所述M和所述L的值,其中,M=XnN,L=入kK。
10. 根據權利要求6-9中任一項所述的裝置,其特征在于,所述判斷模塊被配置為: 計算在第t+1次循環(huán)計算得到的所述參數與在第t次循環(huán)計算得到的所述參數之間的 差; 判斷所述差的絕對值是否超出預設的閾值; 若所有所述差的絕對值都小于所述預設的閾值,則確定所述第t+1次循環(huán)的所述參數 收斂; 若任一所述差的絕對值不小于所述預設的閾值,則確定所述第t+1次循環(huán)的所述參數 不收斂。
【專利摘要】本發(fā)明涉及一種基于期望最大確定統(tǒng)計模型參數的方法和裝置,其中,該方法包括:根據輸入矩陣,設定K個聚類中心、參數的初始值以及后驗概率矩陣μN×K(μn,k)的初始值以及根據以及參數的初始值計算基于計算得到第t次循環(huán)的參數,并計算N個數據點在K個聚類中心的殘差根據殘差選取M個數據點的L個聚類中心;根據第t次循環(huán)計算得到的參數計算M個數據點在L個聚類中心上的后驗概率根據所計算出的后驗概率更新N個數據點在K個聚類中心上的后驗概率矩陣并基于計算出的后驗概率更新第t+1次循環(huán)的參數的值;判斷第t+1次循環(huán)的參數是否收斂,在參數為收斂時,停止循環(huán)并輸出參數。本發(fā)明可以降低確定統(tǒng)計模型的參數時的迭代成本以及時間成本。
【IPC分類】G06F17-18
【公開號】CN104809098
【申請?zhí)枴緾N201410040503
【發(fā)明人】曾嘉, 蘭亮, 陳嘉
【申請人】華為技術有限公司
【公開日】2015年7月29日
【申請日】2014年1月27日
【公告號】WO2015109781A1