本發(fā)明涉及的是一種無線通信領(lǐng)域的技術(shù),具體是一種雷達(dá)對抗效能優(yōu)化檢測方法。
背景技術(shù):
效能評估是對系統(tǒng)在特定的條件下完成某項(xiàng)任務(wù)程度的度量,系統(tǒng)效能評估的過程實(shí)際上是一種決策制定的過程,在此過程中,輸入的數(shù)據(jù)是試驗(yàn)中采集的系統(tǒng)各指標(biāo)性能參數(shù),輸出的是綜合效能結(jié)果。在評估的過程中,首先要建立評估指標(biāo)體系,然后通過不同的試驗(yàn)條件獲取各指標(biāo)參數(shù)。然而在試驗(yàn)過程中經(jīng)常會出現(xiàn)部分指標(biāo)參數(shù)缺失的情況。例如,傳感器故障、超量程測量、隱私保護(hù)、以及文件丟失等突發(fā)事件都有可能導(dǎo)致原始數(shù)據(jù)庫的不完整,我們稱之為不完備信息系統(tǒng)。本發(fā)明基于此應(yīng)用背景,提出一種基于多屬性加權(quán)廣義信息熵的不完備信息填充方法。
現(xiàn)有的很多方法并不能很好的應(yīng)用到評估系統(tǒng)缺失數(shù)據(jù)的處理中。例如,最近鄰填充算法,其基本原理是:兩個具有最近距離的數(shù)據(jù)的關(guān)系最緊密,如果一個數(shù)據(jù)有缺失,都可以計(jì)算它與所有完全數(shù)據(jù)的距離,然后找到它的k個最近鄰數(shù)據(jù),缺失數(shù)據(jù)的值就用這k個數(shù)據(jù)對應(yīng)屬性上的平均值來代替,最近鄰算法需要計(jì)算數(shù)據(jù)間的距離,在距離度量上,最流行的是歐氏距離計(jì)算方法。另外,在計(jì)算兩個數(shù)據(jù)距離時,采用不同的方法替換最近鄰方法中的歐氏距離產(chǎn)生了其他多種方法。這類算法都是基于概率分布等假設(shè),利用整個數(shù)據(jù)集對缺失數(shù)據(jù)進(jìn)行填充,未充分考慮數(shù)據(jù)對象的類別特征,使得填充值容易受到不同類別對象的干擾,嚴(yán)重降低填充結(jié)果的準(zhǔn)確性。
從評估系統(tǒng)的角度講,由于各指標(biāo)數(shù)據(jù)之間具有相關(guān)性,在對效能評估系統(tǒng)缺失的信息填充時,應(yīng)考慮評估指標(biāo)間的相關(guān)性,區(qū)分哪些數(shù)據(jù)對缺失數(shù)據(jù)的填充支持度更高。一種基于大樣本聚類的不完備信息填充方法已經(jīng)被提出,但是這種方法在處理小樣本數(shù)據(jù)時存在聚類精度不高的問題,無法解決小樣本數(shù)據(jù)。效能評估中,由于受試驗(yàn)成本的限制,往往不可能有大量的數(shù)據(jù)樣本,因此需要從效能評估系統(tǒng)本身出發(fā),通過指標(biāo)相關(guān)性的研究,確定對缺失數(shù)據(jù)支持度高的樣本子集,有利于提高填充的精度。
在試驗(yàn)過程中,被評估系統(tǒng)測試過程中采集到的數(shù)據(jù)可能存在抽樣誤差,決策表中的單值數(shù)據(jù)并不能準(zhǔn)確的反應(yīng)各次試驗(yàn)的真實(shí)狀態(tài),準(zhǔn)確的說是一種真實(shí)情況的估計(jì),為更好的反應(yīng)真實(shí)的情況,很多時候采用區(qū)間值代替單值,因此在研究效能評估中缺失數(shù)據(jù)填充方法時,要考慮區(qū)間值信息系統(tǒng),提高算法的實(shí)用性。
效能評估系統(tǒng)是決策系統(tǒng)的一種,而信息熵能夠很好的描述決策系統(tǒng)的特征,很好的描述系統(tǒng)狀態(tài)的不確定性。信息熵具有對稱性、確定性、非負(fù)性、可加性及極值性等性質(zhì)。因此,本發(fā)明將信息熵理論擴(kuò)展到區(qū)間值系統(tǒng)中,通過研究單個數(shù)據(jù)區(qū)間長度的變化對系統(tǒng)信息熵的影響,確定數(shù)據(jù)大小與系統(tǒng)信息熵之間的關(guān)系,從而確定缺失數(shù)據(jù)的大小,很好的解決了評估系統(tǒng)中數(shù)據(jù)缺失的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種雷達(dá)對抗效能優(yōu)化檢測方法,通過利用加權(quán)廣義信息熵具有一般信息熵的性質(zhì),在解決實(shí)際問題中可以確保方法的可靠性。本發(fā)明對指標(biāo)相關(guān)性的計(jì)算方法并不依賴大樣本集,因此提高了算法的適用范圍。
本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明針對試驗(yàn)數(shù)據(jù)存在抽樣誤差等問題,將不能通過單值準(zhǔn)確描述的數(shù)據(jù)轉(zhuǎn)化為區(qū)間值。將區(qū)間相似度引入到信息熵中,建立一種廣義的信息熵。根據(jù)缺失數(shù)據(jù)的所述評估指標(biāo),確定與其相關(guān)性較強(qiáng)的指標(biāo),相關(guān)性的大小表示對填充缺失數(shù)據(jù)填充支持度的大小,因此將相關(guān)性大小歸一化處理,進(jìn)一步構(gòu)成加權(quán)信息熵,通過研究缺失數(shù)據(jù)前后評估系統(tǒng)指標(biāo)子集信息熵的變化,確定缺失數(shù)據(jù)的填充結(jié)果。
本發(fā)明通過確定包含缺失數(shù)據(jù)指標(biāo)的子集K,計(jì)算加權(quán)廣義信息熵的權(quán)重系數(shù)λl(k),然后計(jì)算初始的子系統(tǒng)K的加權(quán)廣義信息熵即原始信息熵;再確定搜索的起點(diǎn),設(shè)置搜索步長,以添加微小的區(qū)間數(shù)據(jù)替換缺失數(shù)據(jù),確定缺失數(shù)據(jù)的區(qū)間下限記為A點(diǎn),計(jì)算HλN(K)|A;按照步長增加區(qū)間長度,分別得到全局最小值位置B時的加權(quán)廣義信息熵為HλN(K)|B以及新的信息熵第一次與原始信息熵相等時的位置記為D,其對應(yīng)的加權(quán)廣義信息熵為當(dāng)則填充區(qū)間為|A~D|;當(dāng)填充區(qū)間為|A~B|,從而獲得缺失數(shù)據(jù)。
本發(fā)明具體包括如下步驟:
步驟0:采集雷達(dá)對抗效能評估試驗(yàn)中的評估指標(biāo)數(shù)據(jù)。
步驟A1:區(qū)間值信息系統(tǒng)構(gòu)建:
在區(qū)間值信息系統(tǒng)S=(U,A),對象集為U,屬性集A=C∪D,C為條件屬性集,D為決策屬性。若x∈U,a∈A,f為對象到屬性值的映射,則數(shù)據(jù)區(qū)間定義為:f(x,a)=[f(x,a)L,f(x,a)U];
可以認(rèn)為,在相同試驗(yàn)條件下,每個評估指標(biāo)中具有相同性能等級的試驗(yàn)數(shù)據(jù)是符合一定統(tǒng)計(jì)規(guī)律的。換句話說,每個條件屬性中,具有相同決策值的數(shù)據(jù)是可以用統(tǒng)計(jì)學(xué)方法來描述的。一般來說,用正態(tài)分布的樣本平均值和樣本標(biāo)準(zhǔn)差,即μ±2σ覆蓋95%以上的實(shí)值數(shù)據(jù)是可以接受的。這樣一個實(shí)值信息系統(tǒng)就可以被轉(zhuǎn)化為區(qū)間值信息系統(tǒng)了。
步驟A2:單區(qū)間值信息系統(tǒng)的分類:
上述步驟A1給出的區(qū)間值信息系統(tǒng)中的數(shù)據(jù)是無法用任何傳統(tǒng)的二元關(guān)系進(jìn)行分類的。下面我們給區(qū)間相似度的定義:
設(shè)x,y是區(qū)間系統(tǒng)中的兩個對象,則區(qū)間相似度為:其中:L|表示區(qū)間的絕對長度。
可以證明,這種區(qū)間相似度的定義滿足對稱性、自反性和局部單調(diào)性,有利于區(qū)間相似關(guān)系的定義。
設(shè)S=(U,A)為區(qū)間值信息系統(tǒng),x,y∈U,a∈A,區(qū)間相似關(guān)系為:其中:α為相似度閾值。
步驟A2:多區(qū)間值系統(tǒng)分類方法:
設(shè)S=(U,A)為區(qū)間值信息系統(tǒng),U是對象集,A=C∪D是屬性集,B是條件屬性C的一個子集,且B={b1,b2,…bn}共包含N個條件屬性,且1≤n≤|C|。當(dāng)x,y∈U,f是U到A的映射,對象x,y間關(guān)于子集B的類區(qū)間相似度定義為:
同樣我們可以得到類區(qū)間相似關(guān)系:其中:α為相似度閾值。
步驟B1,單區(qū)間值信息系統(tǒng)信息熵的建立:
設(shè)S=(U,A)是一個信息系統(tǒng),對象集為U,屬性集為A,是屬性集的一個子集,在其限定下存在分類U/R={X1,X2,…,Xm},1≤m≤|U|。根據(jù)Shannon熵的定義,此時信息系統(tǒng)的H信息熵為:
將步驟A2中給出的區(qū)間相似度添加到傳統(tǒng)的信息熵定義中,構(gòu)建一種全新的廣義信息熵,用于描述區(qū)間值信息系統(tǒng)中屬性子集的分類能力和系統(tǒng)自身的不確定性。
在區(qū)間值信息系統(tǒng)S=(U,A)中,對象集為U,屬性集為A。在屬性子集限定下,根據(jù)區(qū)間相似關(guān)系獲得分類K(B)=(SB(u1),SB(u2),...,SB(u|U|))。表示兩個對象ui和uj間最小的區(qū)間相似度:
定義一種廣義信息熵——H'信息熵為:其中:
與傳統(tǒng)的信息系統(tǒng)信息熵一樣,本發(fā)明中定義的廣義信息熵H'具有非負(fù)性、單調(diào)性和極值性。
步驟B2,類區(qū)間信息系統(tǒng)信息熵的建立:
在區(qū)間值信息系統(tǒng)S=(U,A)中,U是對象集,A=C∪D是屬性集,B是條件屬性集C的一個子集,其中:BN={b1,b2,…bn},1≤n≤|C|.,B中共有N個條件屬性。在的限制下,存在分類K'(BN)=(S1,S2,...,Sn)1≤K≤|U|,根據(jù)類區(qū)間相似度的定義,定義類區(qū)間廣義信息熵HN(B)為:其中:對象ui,uj中的最小類區(qū)間相似度,即:
步驟C,計(jì)算指標(biāo)相關(guān)性,具體步驟為:
假設(shè)決策表中的m組數(shù)據(jù),每組數(shù)據(jù)包含n個條件屬性,則條件屬性ci和cj的依賴度γij的定義為:其中:k=1,2,…,m,i=1,2,…,n,[c]R表示在等價關(guān)系下,包含元素c的等價類。
在給出條件屬性依賴性的基礎(chǔ)上,定義條件屬性ci和屬性cj間的直接相關(guān)性γ(ci,cj):
步驟D,加權(quán)廣義信息熵的建立:
上面已經(jīng)討論了基于類區(qū)間相似度的廣義信息熵,同時也討論了指標(biāo)間相關(guān)性大小的計(jì)算方法。很顯然,與含有缺失數(shù)據(jù)指標(biāo)相關(guān)性較大的指標(biāo)對缺失數(shù)據(jù)的填充支持度較高,因此,本發(fā)明進(jìn)一步將指標(biāo)(屬性)相關(guān)性與類屬性區(qū)間相識度的概念結(jié)合起來,構(gòu)成一種基于類屬性的加權(quán)廣義信息熵,簡稱加權(quán)廣義信息熵,具體如下:
在評估系統(tǒng)中,當(dāng)?shù)趉個指標(biāo)含有缺失數(shù)據(jù)時,λl(k)表示第l個指標(biāo)與第k個指標(biāo)之間的相關(guān)性,且共有n個指標(biāo)與第k個指標(biāo)存在相關(guān)性,將這n個指標(biāo)與第k個指標(biāo)構(gòu)成的屬性子集成為K,則,定義子系統(tǒng)K的加權(quán)廣義信息熵為:其中:
特別規(guī)定:指標(biāo)自身的相關(guān)性為1,即λk(k)=1,假設(shè)該指標(biāo)不存在相關(guān)性的指標(biāo),即是獨(dú)立指標(biāo)可以通過計(jì)算單個屬性的廣義信息熵進(jìn)行填充。
步驟E,不完備信息的填充:
通過區(qū)間值信息系統(tǒng)的一種加權(quán)廣義信息熵——信息熵的定義,我們發(fā)現(xiàn)每個區(qū)間的長度都與系統(tǒng)的不確定性緊密相連;
再次假設(shè)第k個指標(biāo)含有缺失數(shù)據(jù),且共有n個指標(biāo)與第k個指標(biāo)存在相關(guān)性,將這n個指標(biāo)與第k個指標(biāo)構(gòu)成的屬性子集成為K,且子系統(tǒng)的信息熵記為
為了研究區(qū)間長度的變化對信息熵大小的影響,在計(jì)算類區(qū)間相似度時,我們將子集K中的第k個指標(biāo)缺失的數(shù)據(jù)看做區(qū)間長度為零的數(shù)據(jù),進(jìn)而計(jì)算此時的信息熵,顯然該信息熵是數(shù)據(jù)缺失情況下的信息熵,稱之為原始信息熵;
用一個微小區(qū)間的數(shù)據(jù)替換區(qū)間長度為零的缺失數(shù)據(jù),此時信息熵將會顯著增大;
隨著新加入數(shù)據(jù)的區(qū)間長度的增加,在一定范圍內(nèi)信息熵逐漸減小;
隨著新加入數(shù)據(jù)的區(qū)間長度的增加,至少存在一個信息熵的最小值;
當(dāng)新加入數(shù)據(jù)的區(qū)間上/下限達(dá)到該屬性值域的最大/最小值以后,如果該數(shù)據(jù)的區(qū)間長度繼續(xù)增長,那么信息熵將隨之單調(diào)遞增。;
當(dāng)新加入數(shù)據(jù)的區(qū)間上/下限達(dá)到該屬性值域的最大/最小值以后,即便該數(shù)據(jù)的區(qū)間長度繼續(xù)增長,那么信息熵都將保持不變。
以上是關(guān)于加權(quán)廣義信息熵的一些性質(zhì)。由于各種信息熵代表的含義相同,只是不同的信息熵應(yīng)用的對象不同,計(jì)算方法不同,因此關(guān)于加權(quán)廣義信息熵的性質(zhì)可以一般信息系統(tǒng)信息熵推導(dǎo)出來。我們可以根據(jù)以上結(jié)論提出一種基于加權(quán)廣義信息熵的不完備信息填充方法。信息基于加權(quán)廣義信息熵的不完備信息填充過程是將缺失數(shù)據(jù)看做區(qū)間長度為零的數(shù)據(jù),然后用一個具有微小區(qū)間的數(shù)據(jù)替換缺失數(shù)據(jù)。逐漸增大區(qū)間長度,信息熵會逐步減小,最終保持不變或再次變大。在這個過程中,我們希望信息熵在新加入對象的區(qū)間上/下限達(dá)到該條件屬性值域內(nèi)的最大/最小值前,盡量接近于該子系統(tǒng)原始的信息熵,也就是盡量用最短的填充區(qū)間保持該屬性對系統(tǒng)的分類能力不改變。這種信息填充技術(shù)同時適用于區(qū)間值信息系統(tǒng)和單值信息系統(tǒng)。以填充第k個指標(biāo)中的缺失數(shù)據(jù)為例,具體的填充步驟如下:
步驟E1:計(jì)算其余指標(biāo)與第k個指標(biāo)的相關(guān)性,確定子系統(tǒng)K;
步驟E2:計(jì)算權(quán)重系數(shù)λl(k);
步驟E3:計(jì)算初始的子系統(tǒng)K的信息熵
步驟E4:根據(jù)理論知識,實(shí)際經(jīng)驗(yàn),或者實(shí)際觀察等輔助信息確定缺失數(shù)據(jù)的區(qū)間下限,將區(qū)間下限記為A,此時子系統(tǒng)K的信息熵記為
用微小區(qū)間數(shù)據(jù)替換缺失數(shù)據(jù),并以設(shè)定的步長逐漸增加區(qū)間長度,記錄每一步的信息熵的變化:將第一次達(dá)到全局最小值時的位置記為B,此時子系統(tǒng)K的信息熵記為將區(qū)間上限達(dá)到該缺失數(shù)據(jù)所在屬性的上限時的位置記為C,此時子系統(tǒng)K的信息熵記為將新的信息熵第一次與原始信息熵相等時的位置記為D,此時子系統(tǒng)K的信息熵記為
當(dāng)那么填充區(qū)間為|A~D|;當(dāng)填充區(qū)間為|A~B|。這樣,我們可以得到|A~D|≤|A~C|以及|A~B|≤|A~C|。顯然,填充區(qū)間較之以往的方法減小了。
技術(shù)效果
與現(xiàn)有技術(shù)相比,本發(fā)明能夠處理雷達(dá)對抗效能評估中的模糊數(shù)據(jù),通過將模糊數(shù)據(jù)轉(zhuǎn)化為區(qū)間值進(jìn)行處理;通過對相關(guān)性較強(qiáng)的數(shù)據(jù)進(jìn)行聚類,進(jìn)而剔除無用的干擾信息,提高方法的精度;可以處理小樣本數(shù)據(jù)缺失的問題。并且本發(fā)明針對效能評估中指標(biāo)相關(guān)性、小樣本及區(qū)間數(shù)據(jù)的特點(diǎn),更好的解決數(shù)據(jù)缺失的問題,在數(shù)據(jù)缺失率為10%以內(nèi),本發(fā)明提出的算法填充效果可較好的滿足效能評估需求。
附圖說明
圖1為本發(fā)明中填充方法流程圖。
圖2為本發(fā)明填充過程信息熵變化曲線圖。
圖3為實(shí)施例數(shù)據(jù)填充過程中信息熵的變化曲線圖。
具體實(shí)施方式
如圖1所示,本實(shí)施例包括以下步驟:
步驟0:采集雷達(dá)對抗效能評估試驗(yàn)中的評估指標(biāo)數(shù)據(jù)。
步驟1,單值數(shù)據(jù)轉(zhuǎn)化為區(qū)間值:
本實(shí)施例中是以雷達(dá)對抗效能評估為例,雷達(dá)采集到的單值數(shù)據(jù)如表1所示。用“*”表示缺失數(shù)據(jù),其中:c1~c6表示試驗(yàn)中采集到的評估指標(biāo)參數(shù),效能等級是指:被評估對象(雷達(dá)對抗系統(tǒng))在某種情況下的作戰(zhàn)效能等級。
以下填充過程中以填充第一組中c4的數(shù)據(jù)為例。
表1,雷達(dá)對抗效能評估單值數(shù)據(jù)
轉(zhuǎn)化后的區(qū)間值如表2所示,其中每個單元格中的數(shù)據(jù)是指效能評估試驗(yàn)中得到的某個指標(biāo)的參數(shù)。
表2,雷達(dá)對抗效能評估單值數(shù)據(jù)
步驟2:計(jì)算與指標(biāo)c4相關(guān)的指標(biāo)及加權(quán)廣義信息熵的權(quán)重系數(shù);
經(jīng)過計(jì)算與指標(biāo)c4相關(guān)的指標(biāo)分別是c1和c3。歸一化后的相關(guān)性分別為0.56和044。設(shè)c4,c1,c3,構(gòu)成子集K。計(jì)算加權(quán)廣義信息熵的權(quán)重,c1,c3的權(quán)重為0.56、0.44。假設(shè)該指標(biāo)不存在相關(guān)性的指標(biāo),即是獨(dú)立指標(biāo)可以通過計(jì)算單個屬性的廣義信息熵進(jìn)行填充。
步驟3,計(jì)算加權(quán)廣義信息熵:
步驟3.1:將指標(biāo)c4中的第一個缺失值看做區(qū)間長度為零的數(shù)據(jù),計(jì)算原始信息熵;
步驟3.2:根據(jù)判斷,以52作為區(qū)間值的下限,區(qū)間長度為極小值的數(shù)據(jù)替換缺失數(shù),計(jì)算此時的信息熵,經(jīng)過計(jì)算此時的信息熵為2.456;
步驟3.3:逐漸增大區(qū)間長度并計(jì)算每步新的信息熵;
步驟3.4:當(dāng)信息熵與原始信息熵相等時,記錄此時的區(qū)間上限值,經(jīng)過計(jì)算,當(dāng)區(qū)間上限達(dá)到58.8時,此時的信息熵與未加入數(shù)據(jù)前的信息熵相同(如圖3所示);
步驟3.5:如果不存在新的信息熵與原系統(tǒng)信息熵相等的點(diǎn),則找到第一個全局最小點(diǎn),將此點(diǎn)標(biāo)記為B,則區(qū)間上限選擇該點(diǎn)。
步驟4,重復(fù)步驟1~3,完成所有的缺失數(shù)據(jù),結(jié)果如表3所示:
表3
本實(shí)施例中,共設(shè)計(jì)缺失數(shù)據(jù)18個,缺失的數(shù)據(jù)涉及各個指標(biāo),經(jīng)過計(jì)算,采用本發(fā)明的方法,填充準(zhǔn)確16個,準(zhǔn)確率為89%。
上述具體實(shí)施可由本領(lǐng)域技術(shù)人員在不背離本發(fā)明原理和宗旨的前提下以不同的方式對其進(jìn)行局部調(diào)整,本發(fā)明的保護(hù)范圍以權(quán)利要求書為準(zhǔn)且不由上述具體實(shí)施所限,在其范圍內(nèi)的各個實(shí)現(xiàn)方案均受本發(fā)明之約束。