亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)矩陣中局部相似性子矩陣雙向聚類檢測(cè)方法

文檔序號(hào):6521266閱讀:254來源:國知局
數(shù)據(jù)矩陣中局部相似性子矩陣雙向聚類檢測(cè)方法
【專利摘要】本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】中的數(shù)據(jù)智能信息處理,特別涉及數(shù)據(jù)矩陣中局部相似性子矩陣雙向聚類檢測(cè)方法及其實(shí)現(xiàn),本發(fā)明有助于發(fā)掘數(shù)據(jù)矩陣中存在的重要知識(shí)和規(guī)律。本發(fā)明提出了一個(gè)新的雙向聚類檢測(cè)技術(shù)框架體系,設(shè)計(jì)實(shí)現(xiàn)了完整的基于聚類結(jié)果的局部相似性子矩陣檢測(cè)流程。將傳統(tǒng)聚類算法(如K-means,F(xiàn)CM等)與局部相似性子矩陣檢測(cè)分離為兩個(gè)獨(dú)立的順序處理過程,將局部相似性子矩陣的檢測(cè)建立在傳統(tǒng)聚類算法聚類的結(jié)果基礎(chǔ)上。這樣做的優(yōu)點(diǎn)在于,可以使得隨著對(duì)局部相似性子矩陣定義的發(fā)展而機(jī)動(dòng)靈活地采用相應(yīng)的傳統(tǒng)聚類算法來完成前期的聚類工作,很好地將已有算法與新技術(shù)有機(jī)聯(lián)系起來,知識(shí)體系的承接與連貫性得到實(shí)現(xiàn)。
【專利說明】數(shù)據(jù)矩陣中局部相似性子矩陣雙向聚類檢測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】中的數(shù)據(jù)智能信息處理,特別涉及數(shù)據(jù)矩陣中局部相似性子矩陣雙向聚類檢測(cè)方法及其實(shí)現(xiàn),本發(fā)明有助于發(fā)掘數(shù)據(jù)矩陣中存在的重要知識(shí)和規(guī)律。
【背景技術(shù)】
[0002]傳統(tǒng)的聚類或者分類算法都是以數(shù)據(jù)矩陣中的行向量或者列向量整體作為分析對(duì)象稱之為特征向量。向量中的元素又稱之為特征,它對(duì)于一般的變形和失真保持不變或幾乎不變,并且只含盡可能少的冗余信息。在決策理論中,特征提取占有重要的地位,它通過分析具體識(shí)別對(duì)象來決定選取哪些特征,特征提取過程不僅壓縮了信息量,而且易于分類。特征提取之后通過引入某種相似性度量準(zhǔn)則即判別函數(shù)來計(jì)算出相應(yīng)于各類別的判別函數(shù)值,通過判別函數(shù)值進(jìn)行特征分類,即從特征空間映射到?jīng)Q策空間。對(duì)于普通的模式識(shí)別問題而言,它是拋開具體的特征涵義而只是就向量本身來解決某種尺度下的相似性問題的。而對(duì)于局部相似性子矩陣的檢測(cè)問題而言,位于同一個(gè)局部相似性子矩陣中的所謂特征向量并不是顯式存在的,特征向量與局部相似性子矩陣矩陣在某種意義上是雞與蛋誰先有的悖論。所以對(duì)于這個(gè)問題首先要解決的是特征向量問題,也就是說什么位置的什么樣的元素組合在一起可以在原始的數(shù)據(jù)矩陣中形成有意義的局部相似性子矩陣。
[0003]所謂的雙向聚類技術(shù)是指給定一個(gè)數(shù)據(jù)矩陣,檢測(cè)其中由某些行和某些列構(gòu)成的子矩陣,這些子矩陣的行向量或者列向量滿足某種函數(shù)約束關(guān)系,這樣的子矩陣稱之為局部相似性子矩陣。由于每一個(gè)局部相似性子矩陣B都是由原始數(shù)據(jù)矩陣D中位于某些行和某些列的元素所組成的,所以B可以通過記錄這些元素所在的行號(hào)集合R和列號(hào)集合C來表征。局部相似性子矩陣B所包含的行號(hào)數(shù)目和列號(hào)數(shù)目均需滿足大于等于2,亦即最小尺寸的局部相似性子矩陣需要包含4個(gè)元素。這些局部相似性子矩陣揭示了原始數(shù)據(jù)矩陣中蘊(yùn)涵的重要知識(shí)和規(guī)律,如對(duì)某一人群進(jìn)行某項(xiàng)心理測(cè)試,將每個(gè)人的測(cè)試結(jié)果作為數(shù)據(jù)矩陣的一行可以得到針對(duì)于該人群的心理測(cè)試原始數(shù)據(jù)矩陣,該矩陣中存在的每一個(gè)局部相似性子矩陣即意味著某些人對(duì)某些問題給出了相同或者相近的選擇,從而他們有著相同或者相近的心理行為反應(yīng),這對(duì)于總體把握該人群的心理特征是非常重要的。
[0004]給定任意一個(gè)大尺寸的數(shù)據(jù)矩陣,檢測(cè)其中可能存在的局部相似性子矩陣是困難的。這是因?yàn)槲挥谕粋€(gè)局部相似性子矩陣內(nèi)的元素由于受到相同函數(shù)關(guān)系的約束呈現(xiàn)出很強(qiáng)的相關(guān)性,可是這些元素與數(shù)據(jù)矩陣中的其它元素混雜在一起,從而會(huì)受到其他非相關(guān)元素的影響。數(shù)據(jù)矩陣采集生成過程中往往會(huì)存在噪聲干擾,噪聲的存在一方面會(huì)減弱局部相似性子矩陣內(nèi)元素的相關(guān)性,另一方面也會(huì)增加局部相似性子矩陣內(nèi)元素與數(shù)據(jù)矩陣中其它元素的區(qū)分難度。如果直接應(yīng)用傳統(tǒng)的聚類或者分類算法來進(jìn)行大尺寸數(shù)據(jù)矩陣的局部相似性子矩陣檢測(cè)時(shí)就會(huì)出現(xiàn)嚴(yán)重的問題,那些被分到不同類中的向量實(shí)際上是可能存在著局部的相似性關(guān)系的,也是就是說相關(guān)元素與不相關(guān)元素相互糾纏在一起使得問題變得非常復(fù)雜。[0005]現(xiàn)有技術(shù)的缺點(diǎn)在于:(I)所能檢測(cè)的局部相似性子矩陣類型有限;(2)不能檢測(cè)輸出原始數(shù)據(jù)矩陣中存在的所有局部相似性子矩陣,由于對(duì)于任意給定的數(shù)據(jù)矩陣其中可能存在的局部相似性子矩陣數(shù)量、尺寸和位置關(guān)系都是未知的,算法是否能夠檢測(cè)輸出其中存在的所有局部相似性子矩陣是一件非常具有挑戰(zhàn)性的工作;(3)在檢測(cè)具有重疊情形的局部相似性子矩陣時(shí)面臨困難;很多現(xiàn)有已發(fā)表論文的工作都是將局部相似性子矩陣檢測(cè)轉(zhuǎn)化為一個(gè)目標(biāo)函數(shù)的優(yōu)化求解問題,這些方法無法解決的一個(gè)問題就是,當(dāng)從原始數(shù)據(jù)矩陣中檢測(cè)到某個(gè)局部相似性子矩陣之后,如何處理原始數(shù)據(jù)矩陣中被該局部相似性子矩陣所覆蓋位置處元素的值。若采用重新賦值則必然會(huì)對(duì)具有重疊情形的局部相似性子矩陣檢測(cè)產(chǎn)生嚴(yán)重影響,甚至導(dǎo)致無法繼續(xù)檢測(cè)?,F(xiàn)有的局部相似性子矩陣檢測(cè)技術(shù)無法處理復(fù)合類型的數(shù)據(jù),而在實(shí)際情況中,很多數(shù)據(jù)庫中的數(shù)據(jù)都是復(fù)合型的,這就使得這些技術(shù)的應(yīng)用范圍受到限制。

【發(fā)明內(nèi)容】

[0006]本發(fā)明既可以應(yīng)用于文本型數(shù)據(jù)矩陣也可以應(yīng)用于數(shù)值類型的數(shù)據(jù)矩陣。本發(fā)明的檢測(cè)過程沒有對(duì)任何數(shù)據(jù)進(jìn)行修改,而是基于聚類結(jié)果來一層一層檢測(cè)輸出,所以新算法從本質(zhì)上適用于重疊情形的局部相似性子矩陣檢測(cè)。本發(fā)明整個(gè)檢測(cè)過程完全自動(dòng)化,不需要人為的去選擇或設(shè)置某些參數(shù),從而大大減小技術(shù)使用者的勞動(dòng)強(qiáng)度,可以使得使用者只需關(guān)注檢測(cè)結(jié)果的分析即可。檢測(cè)結(jié)果直觀易讀。數(shù)據(jù)經(jīng)過處理以后,如果能夠檢測(cè)到局部相似性子矩陣,由于局部相似性子矩陣是直接由數(shù)據(jù)矩陣中某些滿足某種約束關(guān)系的元素構(gòu)成的,所以它具有非常好的結(jié)果可讀性。
[0007]本發(fā)明的思想是對(duì)由原始數(shù)據(jù)矩陣生成的子矩陣進(jìn)行聚類,然后對(duì)聚類結(jié)果利用局部相似性子矩陣內(nèi)數(shù)據(jù)固有的約束關(guān)系來實(shí)現(xiàn)進(jìn)一步處理,這種約束關(guān)系使得每一個(gè)局部相似性子矩陣都可以與一個(gè)完全圖對(duì)應(yīng)起來。該算法的特點(diǎn)是:算法結(jié)構(gòu)清晰,主要由聚類和倒向搜索檢測(cè)兩部分組成。
[0008]本發(fā)明的局部相似性子矩陣檢測(cè)過程如下:首先將原始數(shù)據(jù)矩陣Dmxn根據(jù)列號(hào)的所有2-組合產(chǎn)生η (η-1)/2個(gè)子矩陣,由于所有這些子矩陣的列號(hào)數(shù)目均為2,從而每個(gè)子矩陣的行向量均可以看作一個(gè)傳統(tǒng)聚類算法中的特征向量,并且是低維空間R2中的特征向量,對(duì)這些子矩陣的行向量共計(jì)mn(n-l)/2個(gè)特征向量可以進(jìn)行基于傳統(tǒng)聚類算法如K均值的聚類處理,每個(gè)類賦予一個(gè)正整數(shù)表示的類標(biāo)號(hào)。表Ti;i = 1,2,...,η-l與原始數(shù)據(jù)矩陣D有相同的尺寸,表示由矩陣D的列號(hào)2-組合{{i,i+l},{i,i+2},...,{i,n}}所導(dǎo)出的子矩陣聚類結(jié)果,Ti的元素即表示該位置處的行向量聚類以后被賦予的類標(biāo)號(hào)。
[0009]本發(fā)明給出了一種倒向局部相似性子矩陣搜索算法。當(dāng)?shù)玫奖鞹i, i = 1,2,3,...,η-l之后,問題在于如何將η-l個(gè)表中呈現(xiàn)出有規(guī)律現(xiàn)象的元素找出來,這些元素即是局部相似性子矩陣的組成。對(duì)于這個(gè)問題可以采用倒向搜索的方法進(jìn)行,將η-l個(gè)表格倒序排列起來,首先搜索Tn_1; Tn_2,...,T1尋找所有包含最大列號(hào)為η的局部相似性子矩陣,一經(jīng)搜索結(jié)束,后續(xù)搜索過程將不再檢測(cè)包含最大列號(hào)為η的局部相似性子矩陣,然后搜索Τη_2,Tn_3,...,T1尋找所有包含最大列號(hào)為η-l的局部相似性子矩陣,重復(fù)這一過程直到T1為止,此時(shí)搜索產(chǎn)生的局部相似性子矩陣最大列號(hào)為2。這一搜索過程能夠確保檢測(cè)到所有可能存在的局部相似性子矩陣,即使它們彼此之間尺寸大小各異,檢測(cè)結(jié)果按照這些局部相似性子矩陣所包含的最大列號(hào)值先后輸出。在這一過程中要注意的是如何避免重復(fù)搜索,例如如何避免出現(xiàn)檢測(cè)輸出的最大列號(hào)為η-l的局部相似性子矩陣包含于最大列號(hào)為η的局部相似性子矩陣中這樣的情形。
【專利附圖】

【附圖說明】
[0010]圖1為本發(fā)明的數(shù)據(jù)矩陣局部相似性子矩陣雙向聚類檢測(cè)方法框架圖
[0011]圖2為本發(fā)明的記錄聚類結(jié)果的表格生成過程以及局部相似性子矩陣倒向搜索過程
【具體實(shí)施方式】
[0012]本發(fā)明提出了一個(gè)新的雙向聚類檢測(cè)技術(shù)框架體系,設(shè)計(jì)實(shí)現(xiàn)了完整的基于聚類結(jié)果的局部相似性子矩陣檢測(cè)流程,將傳統(tǒng)聚類算法(如K-means,F(xiàn)CM等)與局部相似性子矩陣檢測(cè)分離為兩個(gè)獨(dú)立的順序處理過程如附圖1所示,將局部相似性子矩陣的檢測(cè)建立在傳統(tǒng)聚類算法聚類的結(jié)果基礎(chǔ)上。以下結(jié)合附圖2詳細(xì)敘述本發(fā)明的具體檢測(cè)步驟:
[0013](I)原始數(shù)據(jù)矩陣的預(yù)處理:設(shè)原始數(shù)據(jù)矩陣D由m行η列組成,如附圖2所示,首先判斷行號(hào)數(shù)目m與列號(hào)數(shù)目η的大小,如果η > m則將數(shù)據(jù)矩陣D進(jìn)行轉(zhuǎn)置,從而得到一個(gè)新的由η行m列組成的數(shù)據(jù)矩陣D'由于在D中的局部相似性子矩陣在Dt中仍然是局部相似性子矩陣,所以轉(zhuǎn)置處理對(duì)檢測(cè)結(jié)果并不產(chǎn)生影響,只是由于本發(fā)明中用于記錄聚類結(jié)果的表格總數(shù)目為數(shù)據(jù)矩陣的列號(hào)數(shù)目減一,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理之后可以減少所生成的表格數(shù)目,進(jìn)而可以減少在后續(xù)處理中的檢測(cè)步數(shù)。
[0014](2)子矩陣的生成:設(shè)原始數(shù)據(jù)矩陣D經(jīng)過預(yù)處理之后的尺寸為m行η列,D的列號(hào)集合為{1,2,...,η}。這η個(gè)數(shù)的所有2-組合為{{1,2},{1,3},...,{η-1, η}}共計(jì)η (η-1) /2個(gè),由這些2-組合中的元素作為列號(hào)可以對(duì)D截取生成η (η-1) /2個(gè)子矩陣,每個(gè)子矩陣的尺寸都是m行2列。
[0015](3)記錄聚類結(jié)果的表格生成:由于在步驟2中生成的所有子矩陣每一個(gè)都是m行2列,所以每個(gè)子矩陣的行向量均為二維向量,這些行向量每一個(gè)都可以看作一個(gè)二維特征向量從而可以使用傳統(tǒng)的聚類算法來進(jìn)行聚類處理。這樣特征向量的總數(shù)目為mn(n-l)/2。表Ti, i = 1,2,...,η-l與原始數(shù)據(jù)矩陣D有相同的尺寸,每一個(gè)表其實(shí)都是一個(gè)矩陣,表示由2-組合{{i,i+Ι},U,i+2},...,U,η}}所導(dǎo)出的子矩陣經(jīng)過聚類后的結(jié)果,Ti的元素即表示該位置處的行向量聚類以后被賦予的類標(biāo)號(hào),類標(biāo)號(hào)由整數(shù)I開始根據(jù)聚類結(jié)果進(jìn)行遞增。
[0016](4)倒向搜索算法:所謂的倒向搜索算法是指首先檢測(cè)所有包含最大列號(hào)為η的局部相似性子矩陣,在這一搜索過程中需要用到的表格為τη_1; Tn_2,...,T1共計(jì)η-l個(gè);然后檢測(cè)所有包含最大列號(hào)為η-l的局部相似性子矩陣,在這一搜索過程中需要用到的表格為Tn_2,...,T1共計(jì)η-2個(gè);最后檢測(cè)所有包含最大列號(hào)為2的局部相似性子矩陣,在這一搜索過程中需要用到的表格為T1共計(jì)I個(gè)。在算法檢測(cè)過程中必須在每次增加新表時(shí)進(jìn)行局部相似性子矩陣包含關(guān)系檢測(cè)。對(duì)于任意兩個(gè)局部相似性子矩陣A和B,如果A所在的行號(hào)集合被B所在的行號(hào)集合包含,同時(shí)A所在的列號(hào)集合被B所在的列號(hào)集合包含,我們稱之為A被B包含,為了避免局部相似性子矩陣的重復(fù)檢測(cè),對(duì)于滿足包含關(guān)系的A和Β,Α被B所取代,也就是經(jīng)過包含關(guān)系檢測(cè)之后A消失,只剩下B。下面以檢測(cè)最大列號(hào)為n的局部相似性子矩陣來進(jìn)行算法說明。
[0017](4.1)首先使用表Tlri,檢測(cè)表Tlri中所有具有相同類標(biāo)號(hào)的元素,使用一個(gè)行號(hào)集合R記錄這些元素所在的行號(hào)位置,同時(shí)使用一個(gè)列號(hào)集合C記錄列號(hào)n-1和n,這是因?yàn)楸鞹lri中的元素表示原始數(shù)據(jù)矩陣D中第n-1列和第n列元素構(gòu)成的特征向量的聚類結(jié)果。在這一過程中得到的所有局部相似性子矩陣都是尺寸待定的,有可能隨著新表的加入而發(fā)生尺寸變化。
[0018](4.2)增加新表Tn_2,對(duì)在(4.1)中得到的每一個(gè)局部相似性子矩陣如B進(jìn)行如下判斷:使用B的行號(hào)集合R和列號(hào)集合C來對(duì)表Tn_2進(jìn)行截取,判斷經(jīng)過截取后的Tn_2中第一列的元素值是否全部相等,如果全部相等緊接著判斷第二列的元素值是否全部相等,持續(xù)這一過程一直到最后一列,如果經(jīng)過截取后的Tn_2中的每一列元素值全部相等,那么意味著在增加新表Tn_2后B發(fā)生了增長(zhǎng)。對(duì)于發(fā)生增長(zhǎng)情形的B其行號(hào)集合R保持不變,而其列號(hào)集合C需要添加一個(gè)新的列號(hào)n-2。如果B沒有發(fā)生增長(zhǎng),但是經(jīng)過截取后的Tn_2中某些行所在的每一列元素值全部相等,則稱B發(fā)生了分裂。發(fā)生分裂的待定局部相似性子矩陣B就由它本身得到了一系列新的局部相似性子矩陣B1A2,...,Bp這些Byi = 1,2,...,r與B的關(guān)系是每一個(gè)Bi的行號(hào)集合均包含于B的行號(hào)集合中,Bi的行號(hào)集合之間沒有交集,但是每一個(gè)Bi的列號(hào)集合均比B的列號(hào)集合增加了一個(gè)新的列號(hào)元素n-2。如果經(jīng)過截取后的Tn_2中每一列元素值彼此之間都不相等則稱B保持不變,也就是說B并沒有因?yàn)樵黾有卤鞹n_2而發(fā)生尺寸的變化。當(dāng)完成對(duì)(4.1)中得到的所有局部相似性子矩陣的判斷以后,緊接著要檢測(cè)表Tn_2的最后一列所有具有相同類標(biāo)號(hào)的元素,分別記錄這些元素所在的行號(hào)位置,同時(shí)使用一個(gè)列號(hào)集合記錄列號(hào)n-2和n,這是因?yàn)楸鞹n_2的最后一列中的元素表示原始數(shù)據(jù)矩陣D中第n-2列和第n列元素構(gòu)成的特征向量的聚類結(jié)果。最后對(duì)在增加新表Tn_2之后得到的所有局部相似性子矩陣進(jìn)行如(4)中所述的包含關(guān)系檢測(cè),去除發(fā)生包含關(guān)系的局部相似性 子矩陣。以上檢測(cè)過程生成的所有局部相似性子矩陣即構(gòu)成新的待定局部相似性子矩陣集合。
[0019](4.3)增加新表Tn_3,使用如(4.2)所述的方法對(duì)所有的待定局部相似性子矩陣進(jìn)行檢測(cè),檢測(cè)完成后再檢測(cè)新表Tn_3中最后一列所有具有相同類標(biāo)號(hào)的元素,分別記錄這些元素所在的行號(hào)位置,同時(shí)使用一個(gè)列號(hào)集合記錄列號(hào)n-3和n,這是因?yàn)楸鞹n_3的最后一列中的元素表示原始數(shù)據(jù)矩陣D中第n-3列和第n列元素構(gòu)成的特征向量的聚類結(jié)果。最后對(duì)在增加新表Tn_3之后得到的所有局部相似性子矩陣進(jìn)行如(4)中所述的包含關(guān)系檢測(cè),去除發(fā)生包含關(guān)系的局部相似性子矩陣。
[0020](4.4)重復(fù)上述過程一直到最后一個(gè)新表T1為止,此時(shí)算法檢測(cè)得到所有包含最大列號(hào)為n的局部相似性子矩陣。
[0021](4.5)檢測(cè)最大列號(hào)為n-1的局部相似性子矩陣時(shí)如⑷所述需要用到的表格為Tn_2,? ? ?,T1共計(jì)n-2個(gè),檢測(cè)過程與(4.1) (4.2) (4.3) (4.4)相似,檢測(cè)完后需要對(duì)所有的待定局部相似性子矩陣進(jìn)行包含性檢測(cè),持續(xù)上述過程一直到檢測(cè)最大列號(hào)為2局部相似性子矩陣,此時(shí)需要用到的表格為T1共計(jì)I個(gè)。
[0022](5)算法檢測(cè)結(jié)果輸出:經(jīng)過倒向搜索檢測(cè)后得到的每一個(gè)局部相似性子矩陣都由一個(gè)行號(hào)集合和一個(gè)列號(hào)集合表不,這兩個(gè)集合標(biāo)不了存在于原始數(shù)據(jù)矩陣中滿足局部相似性關(guān)系的元素的位置。算法的檢測(cè)結(jié)果輸出既可以輸出所有經(jīng)過包含關(guān)系檢測(cè)以后的局部相似性子矩陣各自的行號(hào)集合和列號(hào)集合,也可以使用每一個(gè)局部相似性子矩陣的行號(hào)集合和列號(hào)集合來對(duì)原始數(shù)據(jù)矩陣進(jìn)行截取得到相應(yīng)的子矩陣,檢測(cè)結(jié)果也可以以這些子矩陣的方式輸出。
【權(quán)利要求】
1.數(shù)據(jù)矩陣中局部相似性子矩陣雙向聚類檢測(cè)方法,其特征在于將傳統(tǒng)聚類算法(如K-means, FCM等)與局部相似性子矩陣檢測(cè)分離為兩個(gè)獨(dú)立的順序處理過程,傳統(tǒng)的聚類算法成為新算法的一個(gè)可選參數(shù),將局部相似性子矩陣的檢測(cè)建立在傳統(tǒng)聚類算法聚類的結(jié)果基礎(chǔ)上?;诰垲惤Y(jié)果的局部相似性子矩陣檢測(cè)過程的獨(dú)特性是使用了一系列的表來記錄聚類的結(jié)果,從而使得局部相似性子矩陣的檢測(cè)過程完全獨(dú)立于原始數(shù)據(jù)。通過將局部相似性子矩陣的本質(zhì)與表的關(guān)系緊密聯(lián)系起來,提出了全新的倒向搜索檢測(cè)算法,能夠檢測(cè)輸出原始數(shù)據(jù)矩陣中所有可能存在的局部相似性子矩陣。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:首先對(duì)原始數(shù)據(jù)矩陣Dmxn,根據(jù)列號(hào)的2-組合生成總數(shù)為η (η-1) /2個(gè)子矩陣,這些子矩陣與原始數(shù)據(jù)矩陣有相同的行數(shù)目,但是列數(shù)目均為2。聚類算法是對(duì)這些子矩陣進(jìn)行的,子矩陣的每個(gè)行向量均可以作為聚類算法處理的特征向量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:使用原始數(shù)據(jù)矩陣列號(hào)數(shù)目減一個(gè)表格Ti,! = I,2,...,η-l來記錄聚類結(jié)果。每一個(gè)表Ti與原始數(shù)據(jù)矩陣D有相同的尺寸,每一個(gè)表其實(shí)都是一個(gè)矩陣,表示由2-組合{{i,i+l},{i,i+2},...,U,η}}所導(dǎo)出的子矩陣經(jīng)過聚類后的結(jié)果,Ti的元素即表示該位置處的行向量聚類以后被賦予的類標(biāo)號(hào)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:獲取記錄聚類結(jié)果的表格之后,新算法的雙向聚類檢測(cè)過程不再和原始數(shù)據(jù)矩陣的元素發(fā)生任何關(guān)系,所有的數(shù)據(jù)處理都是針對(duì)于記錄聚類結(jié)果的表格進(jìn)行的,在倒向搜索過程中,表格的使用數(shù)量和使用順序由算法的描述確定。
5.根據(jù)權(quán)利要求1所述的方法,倒向搜索算法的特征在于:在檢測(cè)生成局部相似性子矩陣的過程中是首先檢測(cè)所有包含最大列號(hào)為η的局部相似性子矩陣,在這一搜索過程中需要用到的表格為Tn_1; Tn_2,...,T1共計(jì)η-l個(gè);然后檢測(cè)所有包含最大列號(hào)為η-l的局部相似性子矩陣,在這一搜索過程中需要用到的表格為Tn_2,...,T1共計(jì)η-2個(gè);最后檢測(cè)所有包含最大列號(hào)為2的局部相似性子矩陣,在這一搜索過程中需要用到的表格為T1共計(jì)I個(gè)。`
6.根據(jù)權(quán)利要求1所述的方法,其特征在于:每當(dāng)有新的表格!\增加到檢測(cè)過程中時(shí),所有在此之前得到的待定局部相似性子矩陣的尺寸只會(huì)發(fā)生三種情形的變化,分別稱之為增長(zhǎng)、分裂和保持不變。發(fā)生增長(zhǎng)的局部相似性子矩陣行號(hào)集合保持不變而列號(hào)集合增加一個(gè)列號(hào)i ;發(fā)生分裂的局部相似性子矩陣會(huì)產(chǎn)生多個(gè)新的局部相似性子矩陣,這些新的局部相似性子矩陣列號(hào)集合均增加了一個(gè)新的列號(hào)i ;保持不變的局部相似性子矩陣尺寸沒有發(fā)生改變也不產(chǎn)生新的局部相似性子矩陣。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于:設(shè)當(dāng)前正在檢測(cè)最大列號(hào)為r的局部相似性子矩陣,2 < r ( n,對(duì)所有在增加新表Ti, I < i < r之前存在的待定局部相似性子矩陣進(jìn)行檢測(cè)處理之后,必須緊接著分析新表Ti的第i+Ι列所有具有相同類標(biāo)號(hào)的元素,分別記錄這些元素所在的行號(hào)位置,同時(shí)使用一個(gè)列號(hào)集合記錄列號(hào)i和r,這是因?yàn)楸鞹i的第i+Ι列中的元素表示原始數(shù)據(jù)矩陣D中第i列和第r列元素構(gòu)成的特征向量的聚類結(jié)果。這一檢測(cè)過程所生成的局部相似性子矩陣的特點(diǎn)是列號(hào)集合只包含兩個(gè)元素i和r,即要檢測(cè)的最大列號(hào)值和表自身的編號(hào)值。然后對(duì)所有的局部相似性子矩陣進(jìn)行包含關(guān)系檢測(cè)。
【文檔編號(hào)】G06F17/30GK103617249SQ201310625930
【公開日】2014年3月5日 申請(qǐng)日期:2013年11月22日 優(yōu)先權(quán)日:2013年11月22日
【發(fā)明者】張艷潔, 胡占義, 孫立民 申請(qǐng)人:煙臺(tái)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1