一種基于核函數(shù)的擴(kuò)容樣本篩選方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及噪聲源識別技術(shù)領(lǐng)域,具體設(shè)及一種基于核函數(shù)的擴(kuò)容樣本篩選方 法。
【背景技術(shù)】
[0002] 在船舶聲學(xué)故障源識別實(shí)際應(yīng)用中,由于實(shí)際典型試驗(yàn)故障樣本的獲取困難及昂 貴的試驗(yàn)成本,使其成為一個(gè)小樣本噪聲源識別問題。樣本擴(kuò)容是提高小樣本條件下故障 源識別率的一個(gè)有效方法。通常將通過了一致性檢驗(yàn)的全部擴(kuò)容樣本集直接應(yīng)用于分類器 訓(xùn)練,然而分類器系統(tǒng)的準(zhǔn)確性并不是隨擴(kuò)容樣本數(shù)量線性增加的。未對擴(kuò)容樣本質(zhì)量進(jìn) 行評價(jià)控制帶來的問題是:劣質(zhì)的擴(kuò)容樣本信息可能會"對沖"真實(shí)樣本信息,即出現(xiàn)"信息 對沖"現(xiàn)象,導(dǎo)致分類器識別性能下降。因此,如何對樣本可信度進(jìn)行評價(jià)W篩選出高質(zhì)量 的擴(kuò)容樣本是提高噪聲源識別率關(guān)鍵性的問題。
[0003] 目前關(guān)于可信度的研究主要是針對仿真模型的校驗(yàn)、驗(yàn)證和確認(rèn)(簡稱"W&A")方 面。在面向仿真試驗(yàn)數(shù)據(jù)的可信度研究方面,使用廣泛的一類數(shù)據(jù)可信度度量方法是W - 致性檢驗(yàn)為基礎(chǔ)的,在一定顯著水平下,利用Bayes公式對通過一致性檢驗(yàn)的數(shù)據(jù)計(jì)算其信 度,但該方法存在待定參數(shù)計(jì)算復(fù)雜等不足?;谛畔⑸⒍鹊目尚哦榷攘糠椒ㄊ峭ㄟ^先驗(yàn) 分布與實(shí)際試驗(yàn)樣本分布的差異進(jìn)行信息散度計(jì)算,適用于已知樣本分布的情形,否則需 計(jì)算樣本的分布函數(shù),運(yùn)將增加算法的復(fù)雜度,同時(shí)還會引入計(jì)算誤差。
[0004] 船舶聲學(xué)故障源樣本是一個(gè)高維的時(shí)間序列,且其分布函數(shù)難W確定。若采用上 述方法來度量樣本可信度,除須克服上述方法自身的不足外,還將會面臨"維數(shù)災(zāi)難"。若采 用降維處理將高維數(shù)據(jù)變換到低維的特征空間中,運(yùn)將容易損失一些有用的特征信息,對 于小樣本數(shù)據(jù)更是如此。
[000引核函數(shù)方法具有有效處理高維輸入的特性,可將m維高維空間的內(nèi)積運(yùn)算轉(zhuǎn)化為η 維低維輸入空間的核函數(shù)計(jì)算,從而巧妙地解決了在高維特征空間中計(jì)算的"維數(shù)災(zāi)難"等 問題,因此在實(shí)踐中得到了越來越廣泛的應(yīng)用。因此,如何將運(yùn)一方法應(yīng)用到小樣本情況下 噪聲源識別中,W提高噪聲源識別率也就成為研究熱點(diǎn)之一。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是提供一種基于核函數(shù)的擴(kuò)容樣本篩選方法化肥SS方法),利用核 函數(shù)方法對大量的擴(kuò)容樣本進(jìn)行自動篩選,篩選出與真實(shí)樣本盡可能相似的擴(kuò)容樣本參與 識別訓(xùn)練,實(shí)現(xiàn)訓(xùn)練集的高效擴(kuò)容,W提高小樣本條件下噪聲源識別正確率。
[0007] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0008] -種基于核函數(shù)的擴(kuò)容樣本篩選方法,利用核函數(shù)可有效處理高維輸入的特性篩 選出適合噪聲源識別模型的高效擴(kuò)容樣本;對于不同的擴(kuò)容樣本構(gòu)成的樣本集,首先通過 相容性檢驗(yàn)篩選出與真實(shí)樣本相容的擴(kuò)容樣本;然后利用徑向基核函數(shù)對已通過檢驗(yàn)的擴(kuò) 容樣本計(jì)算其可信度;進(jìn)一步W最小化緊致度為目標(biāo)進(jìn)行核參數(shù)選擇,利用梯度下降算法, 通過逐次迭代的方法,更新核函數(shù)中的核參數(shù),w保證每次迭代后樣本集緊致度的逐漸降 低,最終實(shí)現(xiàn)緊致度最小化;選擇緊致度最小狀態(tài)時(shí)對應(yīng)的核參數(shù)為最優(yōu)核函數(shù);再次計(jì)算 最優(yōu)核參數(shù)下擴(kuò)容樣本集的可信度;選取可信度排在前列的擴(kuò)容樣本正序添加參與訓(xùn)練, 完成高度適合噪聲源識別模型的擴(kuò)容樣本篩選過程。
[0009] 根據(jù)W上方案,所述相容性檢驗(yàn)是指通過MMD方法計(jì)算擴(kuò)容樣本與真實(shí)樣本集在 高維特征空間中的最大均值差異。
[0010] 根據(jù)W上方案,所述擴(kuò)容樣本的可信度通過基于核函數(shù)的樣本可信度度量方法 (邸CM方法)來度量。
[0011] 根據(jù)W上方案,包括如下具體步驟:
[001引假設(shè)真實(shí)樣本集和擴(kuò)容樣本集分別為X={xi,x2,. . .,xm}和Y={yi,y2,. . .,yN},其 中和捉.e巧d,對定義在空間巧d上的徑向基核函數(shù)K(x,y)二6邱(-0| |x-y| I2),存在核非線 性映射Φ :識4 ^ Η,初選核參數(shù)0,將X和巧自線性映射到高維特征空間中,分別得到特征向 量Φ(χ04 = 1,2,...,Μ和 Φ (yj),j = l,2,. . .,Ν;
[0013] (1)通過相容性檢驗(yàn)初步篩選擴(kuò)容樣本:
[0014] a、通過MMD方法計(jì)算兩樣本集在高維特征空間中的最大均值差異,即:
[0015] MMD[F,x,y]= I |E[ Φ (χ)]-Ε[ Φ (y)] | |η
[0016] 其中,Ε( ·)為函數(shù)期望值;Η為核特征空間;Φ( ·)為原函數(shù)在特征空間中的達(dá) 式;
[0017] b、將滿足MMD[F,x,y]=0的擴(kuò)容樣本組成新擴(kuò)容樣本集Υ' ={yi,y2, . . .,ynew};
[0018] (2)度量初步篩選后擴(kuò)容樣本可信度:
[0019] 通過基于核函數(shù)的樣本可信度度量方法計(jì)算新擴(kuò)容樣本集r的可信度qj:
[0020]
[0021]其中,W為擴(kuò)容樣本可信度;Μ為真實(shí)樣本集所含樣本數(shù)量;
[00對 (3) W最小化緊致度為目標(biāo),調(diào)整核參數(shù):
[0023] 曰、按照可信度大小對¥/中各樣本進(jìn)行重排,得到¥/。={71。,72。,...,7。6郵},其中91。 >Q2。含...含qnew。,將真實(shí)樣本與可信度較高的前L個(gè)擴(kuò)容樣本合并為新的數(shù)據(jù)集Ζ= 1X1, Χ2, · · · ,XM,yi日,y2日,· · · ,yL口};
[0024] b、計(jì)算數(shù)據(jù)集Z的緊致度c(〇):
[0025]
[0026] 其中,V為數(shù)據(jù)集Z的中屯、
;
[0027] C、為了求解緊致度最小時(shí)所對應(yīng)的核參數(shù)〇k,通過采用梯度下降的方法來對核參 數(shù)進(jìn)行逐步的調(diào)整,即:
[002引
[0029] 其中η為迭代次數(shù);εη為每一步的迭代步長;On為第η次迭代后的核參數(shù);
[0030] (4)對步驟(3)進(jìn)行反復(fù)迭代,直至核參數(shù)收斂,迭代次數(shù)為20次,確定最優(yōu)核參數(shù) 0 k及按照可信度大小重排后得到的擴(kuò)容樣本集=從&,於。,其中 (/k, 三'…;
[0031] (5)選取可信度較高的前X個(gè)擴(kuò)容樣本形成最終擴(kuò)容樣本集 取《/ =扣。,...,把。,},正序添加參與訓(xùn)練,完成擴(kuò)容樣本篩選過程。
[0032] 所述擴(kuò)容樣本化xpended Sample)是指在特征參數(shù)選擇的基礎(chǔ)上,綜合集成并有 效利用已有的相關(guān)先驗(yàn)信息(各類歷史數(shù)據(jù)、專家知識、研究對象結(jié)構(gòu)特性等),并將其轉(zhuǎn)化 為虛擬樣本,實(shí)現(xiàn)對已有小樣本訓(xùn)練集的合理擴(kuò)容所得擴(kuò)容樣本。
[0033] 所述核函數(shù)(Kernel Function)為:設(shè)原始空間樣本集Z= {zi, Z2,...,zl}, 訴",對定義在空間飛3上的核函數(shù)κ(.,.),存在核非線性映射φ ,將原始 空間奶叫央射到一個(gè)高維特征空間Η中,得到特征向量Φ (Zi),i = l,2,...,L。原始空間中任 意兩點(diǎn)的內(nèi)積Zi · zj被映射為特征向量的內(nèi)積Φ (Zi) · Φ (zj),該內(nèi)積可利用核函數(shù)K (·,·)來計(jì)算,即Φ(Ζι) · Φ佔(zhàn))=K(Zi,Zj)。核函數(shù)可W有效處理高維輸入。常用的核函 數(shù)有:(1)徑向基(RBF)核函數(shù) k(x,y)=e 邱(-| |x-y| |2/2 丫);(2)Sigmoid 核函數(shù) k(x,y) = tanh(axV+0); (3)多項(xiàng)式核函數(shù)k(x,y) = (xV+i)d,deN;其中丫,a,0,d分別為參數(shù)。
[0034] 所述梯度下降算法(Gradient Descent Algorithm)為:一種用于求解函數(shù)無約束 極值問題的基本算法,它選擇函數(shù)的負(fù)梯度方向(最速下降方向)作為迭代時(shí)的捜索方向。 [00 3引本發(fā)明的有益效果是:
[0036] 1)本發(fā)明利用核函數(shù)可有效處理高維輸入的特點(diǎn),通過相容性檢驗(yàn)、可信度度量、 核參數(shù)優(yōu)選等步驟篩選出高效擴(kuò)容樣本,有效度量擴(kuò)容樣本的可信度,并正確指導(dǎo)分類器 中訓(xùn)練樣本的選擇,能有效改善小樣本情況下噪聲源識別正確率;
[0037] 2)本發(fā)明可指導(dǎo)擴(kuò)容樣本容量選擇,避免過多的擴(kuò)容樣本信息對真實(shí)樣本信息造 成"信息對沖"現(xiàn)象。
【附圖說明】
[