本發(fā)明涉及計算機處理領(lǐng)域,特別是涉及一種相關(guān)變量識別方法和裝置。
背景技術(shù):
:在數(shù)據(jù)建模過程中,當(dāng)變量彼此高度相關(guān)時,即相關(guān)系數(shù)的絕對值很大時,變量會表現(xiàn)出很強的共線性,這時會造成模型失真。所以在建模過程中,一定會處理變量的相關(guān)性,傳統(tǒng)的處理相關(guān)性只能將兩個變量相關(guān)的數(shù)據(jù)顯示,而三個以上的相關(guān)變量則需要人工識別,由于處理的數(shù)據(jù)往往比較多,通過人工識別無疑會耗時耗力,從而降低了數(shù)據(jù)建模的速度。技術(shù)實現(xiàn)要素:基于此,有必要針對上述問題,提出一種能夠快速識別相關(guān)變量的相關(guān)變量識別方法和裝置。一種相關(guān)變量識別方法,所述方法包括:獲取待處理的相關(guān)系數(shù)表,所述相關(guān)系數(shù)表中記載了多個變量彼此之間的相關(guān)系數(shù);查找所述相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),將所述大于預(yù)設(shè)閾值的相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),并將所述目標(biāo)相關(guān)系數(shù)進行標(biāo)記;根據(jù)所述目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號;根據(jù)分組的組號調(diào)整所述相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量;將調(diào)整后的相關(guān)系數(shù)表中的具有標(biāo)記的所述目標(biāo)相關(guān)系數(shù)進行突出顯示。在其中一個實施例中,所述根據(jù)所述目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號的步驟包括:獲取待聚類的目標(biāo)變量,判斷該目標(biāo)變量是否已經(jīng)被分組;若所述目標(biāo)變量已經(jīng)被分組,則根據(jù)所述目標(biāo)相關(guān)系數(shù)獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量,將所述第一變量和第二變量的組號修改為與所述目標(biāo)變量的組號相同;若所述目標(biāo)變量未被分組,則根據(jù)所述目標(biāo)相關(guān)系數(shù)獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量,為所述目標(biāo)變量、第一變量和第二變量分配一個新的組號。在其中一個實施例中,所述若所述目標(biāo)變量未被分組,則獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量,為所述目標(biāo)變量、第一變量和第二變量分配一個新的組號的步驟包括:若所述目標(biāo)變量未被分組,則獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量;按照組號遞增的規(guī)則將所述目標(biāo)變量、第一變量以及第二變量的組號統(tǒng)一賦值為g+1,其中,g表示當(dāng)前的總組數(shù)。在其中一個實施例中,所述根據(jù)分組的組號調(diào)整所述相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量的步驟包括:將具有同一組號的多個變量調(diào)整為相鄰的變量,并按照組號的大小從大到小的順序調(diào)整相關(guān)系數(shù)表中變量的排列順序。在其中一個實施例中,所述方法還包括:采用主成分分析從相同組號對應(yīng)的目標(biāo)相關(guān)系數(shù)中篩選出一個代表該組的相關(guān)系數(shù)。一種相關(guān)變量識別裝置,所述裝置包括:獲取模塊,用于獲取待處理的相關(guān)系數(shù)表,所述相關(guān)系數(shù)表中記載了多個變量彼此之間的相關(guān)系數(shù);查找模塊,用于查找所述相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),將所述大于預(yù)設(shè)閾值的相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),并將所述目標(biāo)相關(guān)系數(shù)進行標(biāo)記;聚類模塊,用于根據(jù)所述目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號;調(diào)整模塊,用于根據(jù)分組的組號調(diào)整所述相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量;顯示模塊,用于將調(diào)整后的相關(guān)系數(shù)表中的具有標(biāo)記的所述目標(biāo)相關(guān)系數(shù)進行突出顯示。在其中一個實施例中,所述聚類模塊包括:判斷模塊,用于獲取待聚類的目標(biāo)變量,判斷該目標(biāo)變量是否已經(jīng)被分組;組號修改模塊,用于若所述目標(biāo)變量已經(jīng)被分組,則根據(jù)所述目標(biāo)相關(guān)系數(shù)獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量,將所述第一變量和第二變量的組號修改為與所述目標(biāo)變量的組號相同;組號分配模塊,用于若所述目標(biāo)變量未被分組,則獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量,為所述目標(biāo)變量、第一變量和第二變量分配一個新的組號。在其中一個實施例中,所述組號分配模塊還用于若所述目標(biāo)變量未被分組,則獲取與所述目標(biāo)變量相關(guān)的第一變量以及和所述第一變量組號相同的第二變量,按照組號遞增的規(guī)則將所述目標(biāo)變量、第一變量以及第二變量的組號統(tǒng)一賦值為g+1,其中,g表示當(dāng)前的總組數(shù)。在其中一個實施例中,所述調(diào)整模塊還用于將具有同一組號的多個變量調(diào)整為相鄰的變量,并按照組號的大小從大到小的順序調(diào)整相關(guān)系數(shù)表中變量的排列順序。在其中一個實施例中,所述裝置還包括:篩選模塊,用于采用主成分分析從相同組號對應(yīng)的目標(biāo)相關(guān)系數(shù)中篩選出一個代表該組的相關(guān)系數(shù)。上述相關(guān)變量識別方法和裝置,通過獲取相關(guān)系數(shù)表,查找相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),將所述大于預(yù)設(shè)閾值的相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),根據(jù)目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號,根據(jù)分組的組號調(diào)整相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量,然后將調(diào)整后的相關(guān)系數(shù)表中具有標(biāo)記的目標(biāo)相關(guān)系數(shù)進行突出顯示,此時,多個相關(guān)變量聚集在了一起,通過將相應(yīng)的目標(biāo)相關(guān)系數(shù)進行突出顯示,從而實現(xiàn)了快速識別多個相關(guān)變量,從而提高了數(shù)據(jù)建模速度。附圖說明圖1為一個實施例中終端的內(nèi)部結(jié)構(gòu)框圖;圖2為一個實施例中相關(guān)變量識別方法流程圖;圖3a為傳統(tǒng)方法的部分識別結(jié)果的示意圖;圖3b為一個實施例中部分識別結(jié)果的示意圖;圖4為一個實施例中根據(jù)目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量聚類為同一組的方法流程圖;圖5為一個實施例中若目標(biāo)變量未被分組則為該目標(biāo)變量分配組號的方法流程圖;圖6為另一個實施例中相關(guān)變量識別方法流程圖;圖7為一個實施例中相關(guān)變量識別裝置的結(jié)構(gòu)框圖;圖8為一個實施例中聚類模塊的結(jié)構(gòu)框圖;圖9為另一個實施例中相關(guān)變量識別裝置的結(jié)構(gòu)框圖。具體實施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。如圖1所示,在一個實施例中,終端102的內(nèi)部結(jié)構(gòu)如圖1所示,包括通過系統(tǒng)總線連接的處理器、內(nèi)存儲器、非易失性存儲介質(zhì)、網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中,終端102的非易失性存儲介質(zhì)存儲有操作系統(tǒng),還包括一種相關(guān)變量識別裝置,該相關(guān)變量識別裝置用于實現(xiàn)一種相關(guān)變量識別方法。該處理器用于提供計算和控制能力,支撐整個終端的運行。終端中的內(nèi)存儲器為非易失性存儲介質(zhì)中的相關(guān)變量識別裝置的運行提供環(huán)境,該內(nèi)存儲器中存有計算機可讀指令,該計算機可讀指令被處理器執(zhí)行時,可使得處理器執(zhí)行一種相關(guān)變量識別方法。網(wǎng)絡(luò)接口用于連接到網(wǎng)絡(luò)進行通信。終端102的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等,輸入裝置可以是顯示屏上覆蓋的觸摸層,也可以是電子設(shè)備外殼上設(shè)置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或鼠標(biāo)等。該終端可以是平板電腦、筆記本電腦、臺式計算機等。本領(lǐng)域技術(shù)人員可以理解,圖1中示出的結(jié)構(gòu),僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對本申請方案所應(yīng)用于其上的終端的限定,具體的移動終端可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。如圖2所示,在一個實施例中,提出了一種相關(guān)變量識別方法,該方法包括:步驟202,獲取待處理的相關(guān)系數(shù)表,相關(guān)系數(shù)表中記載了多個變量彼此之間的相關(guān)系數(shù)。在本實施例中,在終端中進行數(shù)據(jù)建模的過程中往往會涉及到很多個變量,當(dāng)變量彼此之間的相關(guān)性比較高時,即變量之間的相關(guān)系數(shù)的絕對值比較大時,變量之間會表現(xiàn)出很強的共線性,容易造成模型失真。所以為了避免模型失真,需要識別出變量相關(guān)性比較高的變量進行相應(yīng)的處理。首先,獲取待處理的相關(guān)系數(shù)表,其中,相關(guān)系數(shù)表是預(yù)先通過計算多個變量兩兩之間的相關(guān)性得到的,里面記載了兩兩變量之間的相關(guān)系數(shù),相關(guān)系數(shù)的絕對值代表了兩個變量之間的相關(guān)性,絕對值越大,說明兩個變量之間的相關(guān)性越大。具體的,為了識別出相關(guān)性比較高的變量,首先,終端根據(jù)用戶的指令獲取待處理的相關(guān)系數(shù)表,相關(guān)系數(shù)表中記載了多個變量兩兩之間的相關(guān)系數(shù),表1為一個實施例中相關(guān)系數(shù)表的示意圖:表1變量名稱a1a2a3…ana110.0074820.027993…0.684049a20.00748210.835227…0.472902a30.0279930.8352271…-0.616960…………1…an0.6840490.472902-0.616960…1其中,a1,a2,a3,…an表示的是各個變量,任兩個變量都對應(yīng)一個相關(guān)系數(shù),比如,a1和a2對應(yīng)的相關(guān)系數(shù)為0.007482(即a1行和a2列對應(yīng)的值或者a2行和a1列對應(yīng)的值)。而每個相關(guān)系數(shù)的絕對值的大小代表了兩個變量彼此之間的相關(guān)性,絕對值越大,說明兩個變量之間的相關(guān)性越高。步驟204,查找相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),將大于預(yù)設(shè)閾值的相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),并將目標(biāo)相關(guān)系數(shù)進行標(biāo)記。在本實施例中,在終端中預(yù)先設(shè)置相關(guān)系數(shù)的閾值,兩個變量之間的相關(guān)系數(shù)只有大于該預(yù)設(shè)閾值才認為兩個變量相關(guān),否則,說明該兩個變量不相關(guān)。查找相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),將查找到的相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),并將這些目標(biāo)相關(guān)系數(shù)進行標(biāo)記。具體的,比如,預(yù)設(shè)閾值設(shè)為0.75,凡是相關(guān)系數(shù)的絕對值大于該預(yù)設(shè)閾值的就說明兩個變量相關(guān)。遍歷整個相關(guān)系數(shù)表,找到所有相關(guān)系數(shù)的絕對值大于該預(yù)設(shè)閾值(>0.75)的相關(guān)系數(shù),并將這些相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),然后將這些目標(biāo)相關(guān)系數(shù)進行標(biāo)記,便于后續(xù)進行對應(yīng)的處理。步驟206,根據(jù)目標(biāo)相關(guān)系數(shù)將具有相關(guān)性的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號。在本實施例中,相關(guān)系數(shù)表中的相關(guān)系數(shù)代表的是兩個變量的相關(guān)性,只有相關(guān)性大于預(yù)設(shè)閾值,兩個變量才認為是相關(guān)的,否則就是不相關(guān)的。故,兩個變量相關(guān)定義為:如果相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值,則對應(yīng)的兩個變量相關(guān);三個變量相關(guān)定義為:如果a和b的相關(guān)系數(shù)絕對值大于預(yù)設(shè)閾值,b和c的相關(guān)系數(shù)絕對值大于預(yù)設(shè)閾值,則a、b和c相關(guān)。也就是說,三個變量相關(guān)并不要求彼此都相關(guān),只需要兩兩相關(guān)的變量具有一個共同的變量即可。即當(dāng)a和b相關(guān),b和c相關(guān),兩者有共同的變量b就可以將三者關(guān)聯(lián)起來,此時不管a和c的相關(guān)系數(shù)絕對值是否大于預(yù)設(shè)閾值,a和b和c都相關(guān)。依次類推,可以得到三個以上的變量是否相關(guān)。具體的,由于目標(biāo)相關(guān)系數(shù)是指絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),所以與目標(biāo)相關(guān)系數(shù)對應(yīng)的兩個變量必然是相關(guān)的。兩個相關(guān)的變量稱為一對相關(guān)變量,如果兩對相關(guān)變量具有相同的變量,那么該兩對中包括的變量都相關(guān),進一步的,如果有其他變量與這兩對變量中的任一變量相關(guān),那么該其他變量也與這三個變量相關(guān),依次類推。比如,a和b相關(guān),b和c相關(guān)、c和d相關(guān),d和e相關(guān),那么a、b、c、d和e這多個變量相關(guān)。在本實施例中,終端通過聚類將相關(guān)的多個變量歸為同一組,即將多個相關(guān)的變量分為一組,并為該組分配一個組號,也就是說,具有相同組號的多個變量相關(guān)。步驟208,根據(jù)分組的組號調(diào)整相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量。在本實施例中,終端將相關(guān)的多個變量的組號設(shè)置為相同后,將具有同一組號的多個變量調(diào)整為相鄰的變量,即根據(jù)分組的組號重新調(diào)整相關(guān)系數(shù)表中各個變量的排列順序。這樣,具有關(guān)聯(lián)的多個變量就聚集在了一起,便于后續(xù)可以快速識別相關(guān)變量。步驟210,將調(diào)整后的相關(guān)系數(shù)表中的具有標(biāo)記的目標(biāo)相關(guān)系數(shù)進行突出顯示。在本實施例中,將具有同一組號的多個變量調(diào)整為相鄰的變量后,將調(diào)整后的相關(guān)系數(shù)表中的具有標(biāo)記的目標(biāo)相關(guān)系數(shù)進行突出顯示,圖3b為一個實施例中部分識別結(jié)果的示意圖(由于變量數(shù)目往往很多,圖3b只展示了部分識別結(jié)果),其中,加灰色底紋的為目標(biāo)相關(guān)系數(shù),即設(shè)置大于0.75的相關(guān)系數(shù)為目標(biāo)相關(guān)系數(shù)。多個目標(biāo)相關(guān)系數(shù)聚集在一起所對應(yīng)的多個變量為相關(guān)變量。為了將相關(guān)的變量聚集在一起,所以打破了原來的順序排列,這樣從圖中就可以明顯的看出多個變量之間的相關(guān)性,從而實現(xiàn)了快速識別多個相關(guān)變量,有利于提高建模過程中的速度,傳統(tǒng)的只能識別兩個變量相關(guān)的數(shù)據(jù)進行顯示,若要識別三個以上的變量,則是通過將列表中沒有目標(biāo)相關(guān)系數(shù)的行和列隱藏,如3a所示,然后通過人工識別的方法來找到三個以上的相關(guān)變量,如圖3a中所示,目標(biāo)相關(guān)系數(shù)分布的比較亂,需要人工來識別三個以上相關(guān)變量。在本實施例中,通過獲取相關(guān)系數(shù)表,查找相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的目標(biāo)相關(guān)系數(shù),根據(jù)目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號,根據(jù)分組的組號調(diào)整相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量,然后將調(diào)整后的相關(guān)系數(shù)表中具有標(biāo)記的目標(biāo)相關(guān)系數(shù)進行突出顯示,此時,多個相關(guān)變量聚集在了一起,通過將相應(yīng)的目標(biāo)相關(guān)系數(shù)進行突出顯示,從而實現(xiàn)了快速識別多個相關(guān)變量,從而提高了數(shù)據(jù)建模速度。如圖4所示,在一個實施例中,根據(jù)目標(biāo)相關(guān)系數(shù)值將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號的步驟包括:步驟206a,獲取待聚類的目標(biāo)變量,判斷該目標(biāo)變量是否已經(jīng)被分組,若已經(jīng)被分組,則進入步驟206b,若未被分組,則進入步驟206c。在本實施例中,將相關(guān)的多個變量采用遍歷的方法進行聚類,首先,確定一個待聚類的目標(biāo)變量,然后找出與這個目標(biāo)變量相關(guān)的其他變量。具體的,將要被聚類的變量稱為目標(biāo)變量,然后判斷該目標(biāo)變量是否已經(jīng)被分組,若已經(jīng)被分組,則需要根據(jù)目標(biāo)相關(guān)系數(shù)獲取與目標(biāo)變量相關(guān)的第一變量,因為目標(biāo)相關(guān)系數(shù)對應(yīng)的兩個變量是相關(guān)變量,所以首先根據(jù)目標(biāo)相關(guān)系數(shù)獲取與目標(biāo)變量相關(guān)的第一變量,然后在再查找與第一變量組號相同的第二變量,將第一變量和第二變量的組號修改為與目標(biāo)變量的組號相同。若未被分組,則獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,為該目標(biāo)變量、第一變量和第二變量分配一個新的組號。步驟206b,根據(jù)目標(biāo)相關(guān)系數(shù)獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,將第一變量和第二變量的組號修改為與目標(biāo)變量的組號相同。在本實施例中,若在終端中目標(biāo)變量已經(jīng)被分組,說明目標(biāo)變量已經(jīng)有了組號,那么查找與該目標(biāo)變量相關(guān)的第一變量,然后還要查找與該第一變量組號相同的第二變量,第一變量和第二變量組號相同說明兩者已經(jīng)是相關(guān)的變量,這樣,就可以將與目標(biāo)變量直接相關(guān)的第一變量、以及與目標(biāo)變量間接相關(guān)的第二變量全部查找到,從而就找到了與目標(biāo)變量相關(guān)的所有變量,然后將與該目標(biāo)變量相關(guān)的所有變量的組號修改為與該目標(biāo)變量的組號相同,即將第一變量和第二變量的組號修改為與目標(biāo)變量的組號相同。其中,第一變量用來表示與目標(biāo)變量直接相關(guān)的變量,第二變量用來表示通過第一變量與目標(biāo)變量相關(guān)的變量。第一變量和第二變量分別表示的是一類變量,并不用于限制數(shù)量。具體的,假設(shè)目標(biāo)變量為a,首先,查找與目標(biāo)變量a相關(guān)的第一變量,假設(shè)查找到的第一變量為b、c,然后再查找與第一變量組號相同的第二變量,比如,查找到與b組號相同的為d,與c組號相同的為e,那么將b、c、d和e的組號都設(shè)置為與目標(biāo)變量a的組號相同。步驟206c,根據(jù)目標(biāo)相關(guān)系數(shù)獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,為目標(biāo)變量、第一變量和第二變量分配一個新的組號。在本實施例中,若待聚類的目標(biāo)變量還沒有被分組,那么說明該目標(biāo)變量還沒有組號,不過,同樣要獲取與該目標(biāo)變量相關(guān)的第一變量,以及和第一變量組號相同的第二變量,然后為該目標(biāo)變量、第一變量和第二變量分配一個新的組號。具體的,可以按照遞增的順序為該目標(biāo)變量、第一變量和第二變量分配一個新的組號,比如,若g表示當(dāng)前的總組數(shù),則分配新的組號為g+1。如圖5所示,若目標(biāo)變量未被分組,則獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,為目標(biāo)變量、第一變量和第二變量分配一個新的組號的步驟包括:步驟502,若目標(biāo)變量未被分組,則獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量。在本實施例中,若目標(biāo)變量未被分組,說明當(dāng)前目標(biāo)變量還沒有組號,獲取與目標(biāo)變量相關(guān)的第一變量,即根據(jù)相關(guān)系數(shù)獲取與目標(biāo)變量直接相關(guān)的第一變量;當(dāng)?shù)谝蛔兞恳呀?jīng)被分過組,還需要獲取與該第一變量組號相同的第二變量。然后為目標(biāo)變量、第一變量以及第二變量統(tǒng)一分配一個新的組號。步驟504,將目標(biāo)變量、第一變量以及第二變量的組號統(tǒng)一賦值為g+1,其中,g表示當(dāng)前的總組數(shù)。在本實施例中,若變量還未被分組,則說明變量還沒有組號,為了便于后續(xù)可以更直觀的看到多個變量之間的關(guān)系,采用遞增的順序進行分組,即當(dāng)目標(biāo)變量還未被分組,則查找與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,然后將目標(biāo)變量、第一變量以及第二變量的組號統(tǒng)一賦值為g+1,其中,g表示當(dāng)前的總組數(shù)。在一個具體的實施例中,假設(shè)有五個變量,a1、a2、a3、a4和a5,若根據(jù)相關(guān)系數(shù)表中的相關(guān)系數(shù)可知:a1與a2相關(guān)、a2和a3相關(guān)、a4和a5相關(guān)。在開始階段a1、a2、a3、a4和a5都還未被分組,采用遍歷聚類的方法,首先,將a1作為目標(biāo)變量,查找與目標(biāo)變量a1相關(guān)的第一變量,查找到的第一變量只有a2,由于a2此時還未分組,即a2還沒有組號,所以此時不存在與a2組號相同的第二變量,即查找到的與a1相關(guān)只有a2,此時,為a1和a2分配一個組號g+1,由于之前沒有組,即g初始為0,所以分配給a1和a2的組號為1。然后將a2作為目標(biāo)變量,此時a2已經(jīng)被分組,同樣的,需要查找與目標(biāo)變量a2相關(guān)的第一變量,查找到的第一變量有a1和a3,然后再分別獲取與第一變量組號相同的第二變量,由于a3還未被分組,所以此時不存在與a3相關(guān)的第二變量,而a1已經(jīng)被分組,而與a1組號相同的只有a2本身,所以,查找到的與a2相關(guān)的只有a1和a3,那么將a2、a1和a3的組號都修改為與a2相同,即組號為1,依次類推,通過該方法將所有相關(guān)的變量聚類到同一組,當(dāng)然不相關(guān)的分別在不同的組。在一個實施例中,根據(jù)分組的組號調(diào)整相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量的步驟包括:將具有同一組號的多個變量調(diào)整為相鄰的變量,并根據(jù)組號的大小按照從大到小的順序調(diào)整相關(guān)系數(shù)表中變量的排列順序。在本實施例中,為了快速識別相關(guān)變量,將具有同一組號的多個變量調(diào)整為相鄰的變量,即將同一組號的多個變量聚集在一起,然后根據(jù)組號的大小按照從大到小的順序調(diào)整相關(guān)系數(shù)表中變量的排列順序。這樣便于更有規(guī)律的識別多個相關(guān)變量。如圖6所示,在一個實施例中,上述相關(guān)變量識別方法還包括:步驟212,采用主成分分析從相同組號對應(yīng)的目標(biāo)相關(guān)系數(shù)中篩選出一個代表該組的相關(guān)系數(shù)。在本實施例中,終端將調(diào)整后的相關(guān)系數(shù)表中的具有標(biāo)記的目標(biāo)相關(guān)系數(shù)進行突出顯示識別出多個相關(guān)變量后,為了消除共線性,采用主成分分析方法從相同組號對應(yīng)的多個目標(biāo)相關(guān)系數(shù)中篩選出一個代表該組的相關(guān)系數(shù),然后根據(jù)篩選出的相關(guān)系數(shù)進行后續(xù)的處理,比如,根據(jù)篩選出的相關(guān)系數(shù)建立線性回歸模型等。如圖7所示,在一個實施例中,提出了一種相關(guān)變量識別裝置700,該裝置包括:獲取模塊702,用于獲取待處理的相關(guān)系數(shù)表,相關(guān)系數(shù)表中記載了多個變量彼此之間的相關(guān)系數(shù)。查找模塊704,用于查找相關(guān)系數(shù)表中相關(guān)系數(shù)的絕對值大于預(yù)設(shè)閾值的相關(guān)系數(shù),將大于預(yù)設(shè)閾值的相關(guān)系數(shù)作為目標(biāo)相關(guān)系數(shù),,并將目標(biāo)相關(guān)系數(shù)進行標(biāo)記。聚類模塊706,用于根據(jù)目標(biāo)相關(guān)系數(shù)將相關(guān)的多個變量進行聚類歸為同一組,并為該組分配一個唯一的組號。調(diào)整模塊708,用于根據(jù)分組的組號調(diào)整相關(guān)系數(shù)表中變量的排列順序,將具有同一組號的多個變量調(diào)整為相鄰的變量。顯示模塊710,用于將調(diào)整后的相關(guān)系數(shù)表中的具有標(biāo)記的目標(biāo)相關(guān)系數(shù)進行突出顯示。如圖8所示,在一個實施例中,聚類模塊706包括:判斷模塊706a,用于獲取待聚類的目標(biāo)變量,判斷該目標(biāo)變量是否已經(jīng)被分組。組號修改模塊706b,用于若目標(biāo)變量已經(jīng)被分組,則根據(jù)目標(biāo)相關(guān)系數(shù)獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,將第一變量和第二變量的組號修改為與目標(biāo)變量的組號相同。組號分配模塊706c,用于若目標(biāo)變量未被分組,則獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,為目標(biāo)變量、第一變量和第二變量分配一個新的組號。在一個實施例中,組號分配模塊還用于若目標(biāo)變量未被分組,則獲取與目標(biāo)變量相關(guān)的第一變量以及和第一變量組號相同的第二變量,按照組號遞增的規(guī)則將目標(biāo)變量、第一變量以及第二變量的組號統(tǒng)一賦值為g+1,其中,g表示當(dāng)前的總組數(shù)。在一個實施例中,調(diào)整模塊還用于將具有同一組號的多個變量調(diào)整為相鄰的變量,并按照組號的大小從大到小的順序調(diào)整相關(guān)系數(shù)表中變量的排列順序。如圖9所示,在一個實施例中,提出了一種相關(guān)變量識別裝置900,除了包括模塊712至模塊710,還包括:篩選模塊712,用于采用主成分分析從相同組號對應(yīng)的目標(biāo)相關(guān)系數(shù)中篩選出一個代表該組的相關(guān)系數(shù)。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關(guān)的硬件來完成,該計算機程序可存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,前述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(read-onlymemory,rom)等非易失性存儲介質(zhì),或隨機存儲記憶體(randomaccessmemory,ram)等。以上所述實施例的各技術(shù)特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術(shù)特征所有可能的組合都進行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認為是本說明書記載的范圍。以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。當(dāng)前第1頁12