本發(fā)明針對(duì)矢量變量的“非高斯”與“中性”特性,提出了一種基于距離相關(guān)系數(shù)檢驗(yàn)的非高斯中性矢量的判定方法。
背景技術(shù):
非高斯中性矢量變量的“非高斯”特性和“中性”特性是其有別于其他矢量變量的顯著特征。“非高斯”特性指矢量變量不符合高斯分布,即該變量滿足以下兩個(gè)條件:定義域有界、半有界、或者有序,變量呈非對(duì)稱形狀;“中性”特性要求矢量變量滿足以下三個(gè)條件:矢量元素非負(fù),元素加和為一,滿足可交換特性。
這兩個(gè)特殊性質(zhì)使得傳統(tǒng)的線性去相關(guān)方法,如主成分分析法法等,無法有效的對(duì)非高斯中性矢量變量進(jìn)行變換、得到一組互相獨(dú)立的分量。具體原因有:首先,傳統(tǒng)的線性去相關(guān)方法變換過程不能保持變量元素非負(fù)和范數(shù)為一的“非高斯”特性,如采用獨(dú)立成分分析(ICA-Independent Component Correlation Algorithm),雖然可以獲得獨(dú)立的分量,但無法保持“非高斯”特性;其次,即便可以獲得不相關(guān)的變量,如采用主成分分析(PCA-Principal Component Analysis),但由于非高斯中性矢量變量不服從多維高斯分布,也無法保證變量之間的相互獨(dú)立性。
因此,如何高效地對(duì)非高斯中性矢量變量進(jìn)行線性去相關(guān)獲得一組互相獨(dú)立的分量是理論研究上的難題。此外,如何快速判斷一個(gè)矢量變量是否具有非高斯和中性特性也是極具研究?jī)r(jià)值的學(xué)術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
為快速有效地判斷矢量變量是否是非高斯中性矢量,本發(fā)明提出了一種新的判定方法。首先,本發(fā)明針對(duì)非高斯中性矢量變量提出了一種新的非線性獨(dú)立成分分析方法。當(dāng)且僅當(dāng)矢量變量滿足“中性”特性時(shí),該方法才能得到一組相互獨(dú)立的變量,即矢量變量滿足“中性”特性是非線性變換后得到的變量相互獨(dú)立的充要條件。據(jù)此,可對(duì)矢量變量進(jìn)行非線性變換操作,然后檢驗(yàn)所得變量之間的獨(dú)立性,判斷其是否滿足“中性”特性。
根據(jù)上述內(nèi)容,本發(fā)明提出了一種基于距離相關(guān)系數(shù)檢驗(yàn)的非高斯中性矢量判斷方法。具體包含以下步驟:
步驟一.樣本預(yù)判斷步驟:判斷矢量變量樣本是否非負(fù)并且加和為一,若不成立,則說明變量樣本不具有“中性”特性。
步驟二.正態(tài)性檢驗(yàn)步驟:運(yùn)用正態(tài)性檢驗(yàn)生成正態(tài)概率圖,并進(jìn)行假設(shè)檢驗(yàn),以檢查輸入的矢量變量樣本是否服從正態(tài)分布。若不服從,則說明變量樣本具有“非高斯”特性。
步驟三.協(xié)方差矩陣判斷步驟:根據(jù)非高斯中性矢量滿足協(xié)方差矩陣負(fù)相關(guān)的特點(diǎn),判斷矢量變量的協(xié)方差矩陣是否負(fù)相關(guān),若不負(fù)相關(guān),則說明變量不是非高斯中性矢量。
步驟四.非線性去相關(guān)步驟:運(yùn)用“并行”方法,對(duì)矢量變量樣本進(jìn)行非線性變換,以得到一組相互獨(dú)立的非高斯矢量變量。
步驟五.置換檢驗(yàn)步驟:通過檢驗(yàn)所得變量之間是否相互獨(dú)立,判斷原矢量變量樣本是否滿足“中性”特性。
在步驟一中對(duì)樣本矢量變量進(jìn)行簡(jiǎn)單的加和計(jì)算,根據(jù)非高斯矢量的特點(diǎn),當(dāng)樣本矢量變量的和為一時(shí),該樣本才有可能為非高斯矢量。
在步驟二中基于正態(tài)性檢驗(yàn)對(duì)樣本非高斯特性的進(jìn)一步檢驗(yàn),對(duì)于已經(jīng)滿足變量加和為一的矢量樣本,再次進(jìn)行正態(tài)性檢驗(yàn),通過生成正態(tài)概率圖,查看樣本散點(diǎn)與假設(shè)回歸直線呈現(xiàn)出的圖像結(jié)果,得出樣本與正態(tài)分布的關(guān)系,不服從情況下,則說明樣本有“非高斯”特性。
在步驟三中通過計(jì)算樣本矢量的協(xié)方差矩陣,判斷其相關(guān)性,在矩陣負(fù)相關(guān)的情況下,樣本矢量變量才為中性向量。
在步驟四所述的迭代去相關(guān)步驟中,采用“并行”處理方法,對(duì)經(jīng)過歸一化的非高斯矢量變量進(jìn)行非線性變換。假設(shè)x=[x1,x2,···,xK]T是一個(gè)K維的非高斯矢量變量,通過非線性變換,可以獲得K-1維的非高斯矢量變量u=[μ1,μ2,···,μK-1]T,時(shí)間復(fù)雜度為O(log2K)。此步驟的具體計(jì)算過程如下:
1)從第二次迭代開始,每次迭代前對(duì)矢量變量樣本進(jìn)行歸一化操作,得到一組新的滿足“非高斯”特性的矢量變量x。
2)對(duì)非高斯矢量變量進(jìn)行迭代非線性變換:
以六維向量為例,首次迭代得到三個(gè)變量u1,u2,u3分別為:
第二次迭代得到向量u4:
最后一輪迭代得到向量u5:
u5=x1+x2+x3+x4
在步驟五所述的置換檢驗(yàn)中,由步驟四可得到一組矢量變量,接下來判斷該組變量中的元素是否相互獨(dú)立。距離相關(guān)系數(shù)可以測(cè)量?jī)蓚€(gè)隨機(jī)變量或任意維度的兩個(gè)隨機(jī)向量間的統(tǒng)計(jì)獨(dú)立性,當(dāng)它等于零時(shí)說明變量之間相互獨(dú)立?;诰嚯x相關(guān)系數(shù)判定變量之間獨(dú)立性的方法可通過置換檢驗(yàn)實(shí)現(xiàn)。具體步驟如下:
1)給定來自兩個(gè)不同變量的兩組樣本X=[x1,···,xN]和Y=[y1,···,yN],分別逐一計(jì)算任意兩個(gè)樣本間的歐式距離
aij=||xi-xj||2和bij=||yi-yj||2
然后計(jì)算矩陣
和
上式中,表示第i行的均值,表示第j列的均值,表示整個(gè)矩陣的均值,對(duì)和也采用同樣的計(jì)算方法。
此樣本序列的距離相關(guān)系數(shù)為
其中,
2)保持X中樣本的順序不變。通過對(duì)從1到N的序號(hào)進(jìn)行隨機(jī)置換(Random Permutation),可從Y得到新的樣本序列Y*。對(duì)于X和Y*,按照步驟一中的方法重新計(jì)算DC。
3)重復(fù)步驟二Q次(Q應(yīng)為較大的正整數(shù)),統(tǒng)計(jì)所得到的DC值小于步驟一中得到的DC的次數(shù)為P。那么P/Q即為p-value。
此檢驗(yàn)的零假設(shè)(Null Hypothesis)是兩個(gè)變量統(tǒng)計(jì)上相互不獨(dú)立。當(dāng)通過計(jì)算距離相關(guān)系數(shù)得到的p-value小于顯著性閾值(如0.05)時(shí),此零假設(shè)被拒絕,則可判定兩個(gè)變量相互獨(dú)立。K維非高斯中性矢量變量共需要計(jì)算(K-1)(K-2)/2組變量對(duì)的p-value,與K!/2相比,有效降低了計(jì)算量。
當(dāng)通過置換檢驗(yàn)判斷步驟四中所得到的變量相互獨(dú)立后,可以確定矢量變量滿足“中性”特性。結(jié)合之前步驟,可知該矢量變量是非高斯中性矢量。
附圖說明
圖1為本發(fā)明提供非高斯中性矢量判斷方法的步驟流程圖;
圖2為本發(fā)明采用“并行”方法進(jìn)行非線性去相關(guān)的步驟流程圖。
具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式進(jìn)行詳細(xì)說明。
圖1是本發(fā)明的流程圖,包括以下步驟:
第一步:樣本預(yù)判斷
步驟S1.對(duì)矢量變量樣本判斷其非負(fù)并且求和,不滿足則終止流程。
第二步:非高斯特性判斷
步驟S2.對(duì)矢量變量樣本進(jìn)行正態(tài)性檢驗(yàn),滿足正態(tài)性檢驗(yàn)則終止流程。
第三步:協(xié)方差矩陣判斷步驟
步驟S3:計(jì)算矢量變量樣本協(xié)方差矩陣,判斷其相關(guān)性,不滿足負(fù)相關(guān)則終止流程。
第四步:非線性去相關(guān)
步驟S4:運(yùn)用“并行”方法,對(duì)矢量變量樣本進(jìn)行非線性變換,以得到一組相互獨(dú)立的非高斯矢量。
第五步:置換檢驗(yàn)
步驟S5:通過檢驗(yàn)所得變量之間的相互獨(dú)立,判定原矢量變量樣本滿足“中性”特性,滿足負(fù)相關(guān)則該樣本是非高斯中性矢量,反之則不是。
下面將對(duì)每個(gè)步驟進(jìn)行具體說明:
步驟S1對(duì)輸入的矢量變量樣本進(jìn)行預(yù)判斷,判斷輸入的矢量變量樣本是否非負(fù)并且加和為一,若不成立,則說明變量樣本不具有“中性”特性,終止判斷流程。
步驟S2對(duì)輸入的矢量變量樣本進(jìn)行正態(tài)性檢驗(yàn),滿足正態(tài)性檢驗(yàn),則說明該變量不具備“非高斯”特性,終止判斷流程。
步驟S3判斷矢量變量樣本的協(xié)方差矩陣是否負(fù)相關(guān),若不負(fù)相關(guān),則說明變量不是非 高斯中性矢量,終止判斷流程。
步驟S4采用“并行”的非線性變換方法對(duì)矢量變量樣本進(jìn)行非線性變換,以得到一組相互獨(dú)立的非高斯矢量。假設(shè)x=[x1,x2,···,xK]T是一個(gè)K維的非高斯矢量變量,通過非線性變換,可以獲得K-1維的非高斯矢量變量u=[μ1,μ2,···,μK-1]T。在“并行”方法的迭代過程中,第一輪迭代產(chǎn)生約K/2個(gè)互相獨(dú)立的變量,第二輪產(chǎn)生約K/4個(gè)互相獨(dú)立的變量,時(shí)間復(fù)雜度為O(log2K)。此外,由于每一輪都采用了局部歸一化的操作,因此可以保證u中的元素分布在(0,1)區(qū)間內(nèi),使得“非高斯”特性得以保持。此外,該非線性變換是可逆的,可以從u中完全的將x恢復(fù)。
下面對(duì)每個(gè)步驟進(jìn)行具體說明:
1)從第二次迭代開始,每次迭代前對(duì)矢量變量樣本進(jìn)行歸一化操作,得到一組新的滿足“非高斯”特性的矢量變量x。
2)對(duì)非高斯矢量變量進(jìn)行迭代非線性變化:
以六維向量為例,首次迭代得到三個(gè)相互獨(dú)立的變量u1,u2,u3分別為:
第二次迭代得到向量u4:
最后一輪迭代得到向量u5:
u5=x1+x2+x3+x4
具體流程參見說明書附圖2。
步驟S5由步驟S4可以得到一組非線性去相關(guān)后的矢量變量u,在該步驟中利用距離相關(guān)系數(shù)來判斷u是否是一組互相獨(dú)立的變量。距離相關(guān)系數(shù)可以測(cè)量?jī)蓚€(gè)隨機(jī)變量或任意維度的兩個(gè)隨機(jī)向量間的統(tǒng)計(jì)獨(dú)立性,當(dāng)它等于零時(shí)說明變量之間相互獨(dú)立?;诰嚯x相關(guān)系數(shù)判定變量之間獨(dú)立性的方法可通過置換檢驗(yàn)實(shí)現(xiàn)。
下面對(duì)每個(gè)步驟進(jìn)行具體說明:
1)給定來自兩個(gè)不同變量的兩組樣本X=[x1,···,xN]和Y=[y1,···,yN],分別逐一計(jì)算樣本間的歐式距離
aij=||xi-xj||2和bij=||yi-yj||2
然后計(jì)算
和
上式中,表示第i行的均值,表示第j列的均值,表示整個(gè)矩陣的均值,對(duì)和也采用同樣的計(jì)算方法。
此樣本序列的距離相關(guān)系數(shù)為
其中,
2)保持X中樣本的順序不變。通過對(duì)從1到N的序號(hào)進(jìn)行隨機(jī)置換(Random Permutation),可從Y得到新的樣本序列Y*。對(duì)于X和Y*,按照步驟一中的方法 重新計(jì)算DC。
3)重復(fù)步驟二Q次(Q應(yīng)為較大的正整數(shù)),統(tǒng)計(jì)所得到的DC值小于步驟一中得到的DC的次數(shù)為P。那么P/Q即為p-value。
此檢驗(yàn)的零假設(shè)(Null Hypothesis)是兩個(gè)變量統(tǒng)計(jì)上相互不獨(dú)立。當(dāng)通過計(jì)算距離相關(guān)系數(shù)得到的p-value小于顯著性閾值(如0.05)時(shí),此零假設(shè)被拒絕,則可判定兩個(gè)變量相互獨(dú)立。K維非高斯中性矢量變量共需要計(jì)算(K-1)(K-2)/2組變量對(duì)的p-value,與K!/2相比,有效降低了計(jì)算量。
當(dāng)通過置換檢驗(yàn)判斷步驟S4得到的變量相互獨(dú)立后,可以確定矢量變量滿足“中性”特性。結(jié)合之前步驟,可知該矢量變量是非高斯中性矢量。