一種基于核函數(shù)的擴(kuò)容樣本篩選方法

文檔序號：9727786閱讀：353來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于核函數(shù)的擴(kuò)容樣本篩選方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及噪聲源識別技術(shù)領(lǐng)域，具體設(shè)及一種基于核函數(shù)的擴(kuò)容樣本篩選方法。
【背景技術(shù)】
[0002] 在船舶聲學(xué)故障源識別實(shí)際應(yīng)用中，由于實(shí)際典型試驗(yàn)故障樣本的獲取困難及昂貴的試驗(yàn)成本，使其成為一個(gè)小樣本噪聲源識別問題。樣本擴(kuò)容是提高小樣本條件下故障源識別率的一個(gè)有效方法。通常將通過了一致性檢驗(yàn)的全部擴(kuò)容樣本集直接應(yīng)用于分類器訓(xùn)練，然而分類器系統(tǒng)的準(zhǔn)確性并不是隨擴(kuò)容樣本數(shù)量線性增加的。未對擴(kuò)容樣本質(zhì)量進(jìn) 行評價(jià)控制帶來的問題是:劣質(zhì)的擴(kuò)容樣本信息可能會"對沖"真實(shí)樣本信息，即出現(xiàn)"信息對沖"現(xiàn)象，導(dǎo)致分類器識別性能下降。因此，如何對樣本可信度進(jìn)行評價(jià)W篩選出高質(zhì)量的擴(kuò)容樣本是提高噪聲源識別率關(guān)鍵性的問題。
[0003] 目前關(guān)于可信度的研究主要是針對仿真模型的校驗(yàn)、驗(yàn)證和確認(rèn)(簡稱"W&A")方面。在面向仿真試驗(yàn)數(shù)據(jù)的可信度研究方面，使用廣泛的一類數(shù)據(jù)可信度度量方法是W - 致性檢驗(yàn)為基礎(chǔ)的，在一定顯著水平下，利用Bayes公式對通過一致性檢驗(yàn)的數(shù)據(jù)計(jì)算其信度，但該方法存在待定參數(shù)計(jì)算復(fù)雜等不足?；谛畔⑸⒍鹊目尚哦榷攘糠椒ㄊ峭ㄟ^先驗(yàn) 分布與實(shí)際試驗(yàn)樣本分布的差異進(jìn)行信息散度計(jì)算，適用于已知樣本分布的情形，否則需計(jì)算樣本的分布函數(shù)，運(yùn)將增加算法的復(fù)雜度，同時(shí)還會引入計(jì)算誤差。
[0004] 船舶聲學(xué)故障源樣本是一個(gè)高維的時(shí)間序列，且其分布函數(shù)難W確定。若采用上述方法來度量樣本可信度，除須克服上述方法自身的不足外，還將會面臨"維數(shù)災(zāi)難"。若采用降維處理將高維數(shù)據(jù)變換到低維的特征空間中，運(yùn)將容易損失一些有用的特征信息，對于小樣本數(shù)據(jù)更是如此。
[000引核函數(shù)方法具有有效處理高維輸入的特性，可將m維高維空間的內(nèi)積運(yùn)算轉(zhuǎn)化為η 維低維輸入空間的核函數(shù)計(jì)算，從而巧妙地解決了在高維特征空間中計(jì)算的"維數(shù)災(zāi)難"等問題，因此在實(shí)踐中得到了越來越廣泛的應(yīng)用。因此，如何將運(yùn)一方法應(yīng)用到小樣本情況下噪聲源識別中，W提高噪聲源識別率也就成為研究熱點(diǎn)之一。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是提供一種基于核函數(shù)的擴(kuò)容樣本篩選方法化肥SS方法），利用核函數(shù)方法對大量的擴(kuò)容樣本進(jìn)行自動篩選，篩選出與真實(shí)樣本盡可能相似的擴(kuò)容樣本參與識別訓(xùn)練，實(shí)現(xiàn)訓(xùn)練集的高效擴(kuò)容，W提高小樣本條件下噪聲源識別正確率。
[0007] 為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案如下：
[0008] -種基于核函數(shù)的擴(kuò)容樣本篩選方法，利用核函數(shù)可有效處理高維輸入的特性篩選出適合噪聲源識別模型的高效擴(kuò)容樣本;對于不同的擴(kuò)容樣本構(gòu)成的樣本集，首先通過相容性檢驗(yàn)篩選出與真實(shí)樣本相容的擴(kuò)容樣本;然后利用徑向基核函數(shù)對已通過檢驗(yàn)的擴(kuò) 容樣本計(jì)算其可信度;進(jìn)一步W最小化緊致度為目標(biāo)進(jìn)行核參數(shù)選擇，利用梯度下降算法，通過逐次迭代的方法，更新核函數(shù)中的核參數(shù)，w保證每次迭代后樣本集緊致度的逐漸降低，最終實(shí)現(xiàn)緊致度最小化;選擇緊致度最小狀態(tài)時(shí)對應(yīng)的核參數(shù)為最優(yōu)核函數(shù);再次計(jì)算最優(yōu)核參數(shù)下擴(kuò)容樣本集的可信度;選取可信度排在前列的擴(kuò)容樣本正序添加參與訓(xùn)練，完成高度適合噪聲源識別模型的擴(kuò)容樣本篩選過程。
[0009] 根據(jù)W上方案，所述相容性檢驗(yàn)是指通過MMD方法計(jì)算擴(kuò)容樣本與真實(shí)樣本集在高維特征空間中的最大均值差異。
[0010] 根據(jù)W上方案，所述擴(kuò)容樣本的可信度通過基于核函數(shù)的樣本可信度度量方法 (邸CM方法)來度量。
[0011] 根據(jù)W上方案，包括如下具體步驟：
[001引假設(shè)真實(shí)樣本集和擴(kuò)容樣本集分別為X={xi，x2,. . .，xm}和Y={yi，y2,. . .，yN}，其中和捉.e巧d，對定義在空間巧d上的徑向基核函數(shù)K(x，y)二6邱(-0| |x-y| I2)，存在核非線性映射Φ :識4 ^ Η，初選核參數(shù)0，將X和巧自線性映射到高維特征空間中，分別得到特征向量Φ(χ04 = 1，2，...，Μ和 Φ (yj)，j = l，2,. . .，Ν;
[0013] (1)通過相容性檢驗(yàn)初步篩選擴(kuò)容樣本：
[0014] a、通過MMD方法計(jì)算兩樣本集在高維特征空間中的最大均值差異，即：
[0015] MMD[F,x,y]= I |E[ Φ (χ)]-Ε[ Φ (y)] | |η
[0016] 其中，Ε( ·)為函數(shù)期望值;Η為核特征空間；Φ( ·)為原函數(shù)在特征空間中的達(dá) 式；
[0017] b、將滿足MMD[F，x，y]=0的擴(kuò)容樣本組成新擴(kuò)容樣本集Υ' ={yi，y2, . . .，ynew};
[0018] (2)度量初步篩選后擴(kuò)容樣本可信度：
[0019] 通過基于核函數(shù)的樣本可信度度量方法計(jì)算新擴(kuò)容樣本集r的可信度qj:
[0020]
[0021]其中，W為擴(kuò)容樣本可信度;Μ為真實(shí)樣本集所含樣本數(shù)量；
[00對（3) W最小化緊致度為目標(biāo)，調(diào)整核參數(shù)：
[0023] 曰、按照可信度大小對￥/中各樣本進(jìn)行重排，得到￥/。={71。，72。，...，7。6郵}，其中91。 >Q2。含...含qnew。，將真實(shí)樣本與可信度較高的前L個(gè)擴(kuò)容樣本合并為新的數(shù)據(jù)集Ζ= 1X1， Χ2, · · · ,XM,yi日,y2日,· · · ,yL口};
[0024] b、計(jì)算數(shù)據(jù)集Z的緊致度c(〇):
[0025]
[0026] 其中，V為數(shù)據(jù)集Z的中屯、
；
[0027] C、為了求解緊致度最小時(shí)所對應(yīng)的核參數(shù)〇k，通過采用梯度下降的方法來對核參數(shù)進(jìn)行逐步的調(diào)整，即：
[002引
[0029] 其中η為迭代次數(shù);εη為每一步的迭代步長;On為第η次迭代后的核參數(shù)；
[0030] (4)對步驟(3)進(jìn)行反復(fù)迭代，直至核參數(shù)收斂，迭代次數(shù)為20次，確定最優(yōu)核參數(shù) 0 k及按照可信度大小重排后得到的擴(kuò)容樣本集=從&，於。,其中 (/k, 三'…;
[0031] (5)選取可信度較高的前X個(gè)擴(kuò)容樣本形成最終擴(kuò)容樣本集取《/ =扣。，...，把。,}，正序添加參與訓(xùn)練，完成擴(kuò)容樣本篩選過程。
[0032] 所述擴(kuò)容樣本化xpended Sample)是指在特征參數(shù)選擇的基礎(chǔ)上，綜合集成并有效利用已有的相關(guān)先驗(yàn)信息(各類歷史數(shù)據(jù)、專家知識、研究對象結(jié)構(gòu)特性等），并將其轉(zhuǎn)化為虛擬樣本，實(shí)現(xiàn)對已有小樣本訓(xùn)練集的合理擴(kuò)容所得擴(kuò)容樣本。
[0033] 所述核函數(shù)（Kernel Function)為：設(shè)原始空間樣本集Z= {zi, Z2，...，zl}，訴"，對定義在空間飛3上的核函數(shù)κ(.，.），存在核非線性映射φ ，將原始空間奶叫央射到一個(gè)高維特征空間Η中，得到特征向量Φ (Zi)，i = l，2,...，L。原始空間中任意兩點(diǎn)的內(nèi)積Zi · zj被映射為特征向量的內(nèi)積Φ (Zi) · Φ (zj)，該內(nèi)積可利用核函數(shù)K (·，·）來計(jì)算，即Φ(Ζι) · Φ佔(zhàn)）=K(Zi，Zj)。核函數(shù)可W有效處理高維輸入。常用的核函數(shù)有：（1)徑向基(RBF)核函數(shù) k(x，y)=e 邱（-| |x-y| |2/2 丫）；（2)Sigmoid 核函數(shù) k(x，y) = tanh(axV+0); (3)多項(xiàng)式核函數(shù)k(x,y) = (xV+i)d，deN;其中丫，a,0,d分別為參數(shù)。
[0034] 所述梯度下降算法(Gradient Descent Algorithm)為:一種用于求解函數(shù)無約束極值問題的基本算法，它選擇函數(shù)的負(fù)梯度方向（最速下降方向）作為迭代時(shí)的捜索方向。 [00 3引本發(fā)明的有益效果是：
[0036] 1)本發(fā)明利用核函數(shù)可有效處理高維輸入的特點(diǎn)，通過相容性檢驗(yàn)、可信度度量、核參數(shù)優(yōu)選等步驟篩選出高效擴(kuò)容樣本，有效度量擴(kuò)容樣本的可信度，并正確指導(dǎo)分類器中訓(xùn)練樣本的選擇，能有效改善小樣本情況下噪聲源識別正確率；
[0037] 2)本發(fā)明可指導(dǎo)擴(kuò)容樣本容量選擇，避免過多的擴(kuò)容樣本信息對真實(shí)樣本信息造成"信息對沖"現(xiàn)象。
【附圖說明】
[

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：章林柯;魏娜;李和君;胡恒賓;李大坤;
技術(shù)所有人：章林柯;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

立式擴(kuò)容除污器樣本相關(guān)技術(shù)

樣本篩選相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于核函數(shù)的擴(kuò)容樣本篩選方法