一種基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及樣本容量優(yōu)化控制方法領(lǐng)域,具體涉及一種基于信息熵等值的擴(kuò)容樣 本容量優(yōu)化方法。
【背景技術(shù)】
[0002] 在工程應(yīng)用中經(jīng)常會遇到樣本容量優(yōu)化控制問題。張湘平等推導(dǎo)了樣本容量、驗 前信息以及Bayes決策風(fēng)險三者關(guān)系式,以此確定導(dǎo)彈落點樣本量。劉軍等針對小樣本情況 下辨識分類問題提出了基于相對熵最小的補充試驗樣本容量優(yōu)化方法,通過樣本容量優(yōu)化 設(shè)計以提高辨識分類識別率,此外,Nyamundanda等為解決代謝組學(xué)研究中的實驗次數(shù)優(yōu)化 問題,提出了 Me t S i z eR方法。
[0003] 這些樣本容量控制方法基本是針對一維樣本或高維不相關(guān)樣本展開優(yōu)化設(shè)計,而 工程實際中大量樣本是高維相關(guān)的時間序列,例如船舶聲學(xué)故障源擴(kuò)容樣本,對于這類擴(kuò) 容樣本若沒有合適的容量控制方法,將導(dǎo)致擴(kuò)容樣本信息過多從而與真實樣本發(fā)生對沖, 造成分類器識別性能下降。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,通過對高維 不相關(guān)樣本的容量優(yōu)化控制,指導(dǎo)擴(kuò)容樣本的正確選擇,避免發(fā)生"信息對沖",提高小樣本 條件下故障源識別率。
[0005] 為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
[0006] -種基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,在準(zhǔn)確度量擴(kuò)容樣本可信度的基 礎(chǔ)上,分別計算真實樣本和異可信度的擴(kuò)容樣本的融合概率密度分布,通過采用信息熵來 度量高維不相關(guān)故障樣本包含信息量的大小,根據(jù)擴(kuò)容樣本所包含的信息量與真實樣本等 值的原則,建立擴(kuò)容樣本容量的信息熵優(yōu)化模型,從而控制擴(kuò)容樣本容量。
[0007] 根據(jù)以上方案,所述擴(kuò)容樣本可信度的大小采用基于核函數(shù)的樣本可信度度量方 法(KBCM方法)來度量,并且進(jìn)行從大到小的排列。
[0008] 根據(jù)以上方案,所述基于核函數(shù)的樣本可信度度量方法的計算公式為:
[0009]
[0010] 式中,qj:擴(kuò)容樣本可信度;K( ·,·):核函數(shù)表達(dá)式;M:真實樣本集所含樣本數(shù) 量。
[0011] 根據(jù)以上方案,包括如下具體步驟為:
[0012] (1)計算真實樣本和擴(kuò)容樣本的概率密度分布:
[0013] a、計算真實樣本的概率密度分布,氣);
[0014] b、假設(shè)第k個擴(kuò)容樣本yk屬于擴(kuò)容樣本子集YWk)),該子集對應(yīng)的可信度為《〗,則 前k個擴(kuò)容樣本的融合概率密度分布為:
[0015]
[0016] 其中同可信度下擴(kuò)容樣本¥(^的服從概率分布TT2(>f,...jf);
[0017] (2)計筧直實樣本的信息熇Ho:
[0018]
[0019] (3)使用基于核函數(shù)的樣本可信度度量方法計算擴(kuò)容樣本可信度:
[0020]
[0021 ]將可信度按從大到小排列。
[0022] (4)對于排序后的前k個擴(kuò)容樣本yk,k=l,. . .,N,計算信息熵:
[0023] Μ,·.·.·.,ν+.1 ·/-.丄
η "' *·丄-丄
[0024] (5)按照信息熵等值方法,搜索滿足真實樣本集信息熵與擴(kuò)容樣本子集信息熵差 值最小的優(yōu)化樣本量1Λ
[0025]
[0026] (6)根據(jù)優(yōu)化樣本量搜索結(jié)果確定參與訓(xùn)練的擴(kuò)容樣本。
[0027] KBCM方法的有優(yōu)點在于可凸現(xiàn)數(shù)據(jù)特征差異、算法復(fù)雜度不受輸入和特征空間維 數(shù)限制、可信度度量準(zhǔn)確度高等。
[0028]本發(fā)明的有益效果是:
[0029]本發(fā)明結(jié)合樣本可信度、概率密度分布和樣本信息熵三者間的關(guān)系,設(shè)計容量控 制模型滿足真實樣本和擴(kuò)容樣本信息熵等值,從而實現(xiàn)樣本的容量優(yōu)化,指導(dǎo)擴(kuò)容樣本的 正確選擇,避免發(fā)生"信息對沖",提高小樣本條件下故障源識別率。
【附圖說明】
[0030]圖1是本發(fā)明的流程;意圖。
【具體實施方式】
[0031] 下面結(jié)合附圖與實施例對本發(fā)明的技術(shù)方案進(jìn)行說明。
[0032] 本發(fā)明提供一種基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,包括如下具體步驟為 (如圖1所示):
[0033] (1)計算真實樣本和擴(kuò)容樣本的概率密度分布:
[0034] a、計算真實樣本的概率密度分布%(弋,...,氣);
[0035] b、假設(shè)第k個擴(kuò)容樣本yk屬于擴(kuò)容樣本子集Y,該子集對應(yīng)的可信度為ω j,則 前k個擴(kuò)容樣本的融合概率密度分布為:
[0036]
[0037] 其中同可信度下擴(kuò)容樣本Υω的服從概率分布巧..,?71);
[0038] (2)計算真實樣本的信息熵Ho:
[0039]
[0040] (3)使用基于核函數(shù)的樣本可信度度量方法計算擴(kuò)容樣本可信度:
[0041] ¥ /=1
ι-i κ=ι
[0042] 將可信度按從大到小排列。
[0043] (4)對于排序后的前k個擴(kuò)容樣本yk,k=l,. . .,N,計算信息熵:
[0044]
[0045] (5)按照信息熵等值方法,搜索滿足真實樣本集信息熵與擴(kuò)容樣本子集信息熵差 值最小的優(yōu)化樣本量1Λ
[0046]
[0047] (6)根據(jù)優(yōu)化樣本量搜索結(jié)果確定參與訓(xùn)練的擴(kuò)容樣本。
[0048]將本發(fā)明應(yīng)用于聲學(xué)故障樣本識別試驗中分類器的識別性能。建模噪聲源數(shù)據(jù)為 N維正態(tài)分布Ν(μΙ,Σ),真實噪聲源樣本由兩類數(shù)據(jù)組成。根據(jù)本發(fā)明對樣本量尋優(yōu),得出 當(dāng)兩類擴(kuò)容樣本數(shù)分別取Apt時,滿足樣本信息熵相差最小。據(jù)此選擇不同組合的訓(xùn)練樣 本來設(shè)計對比試驗:
[0049] 試驗1:15個真實樣本
[0050] 試驗2:15個真實樣本+前/(./ =.1,2個擴(kuò)容樣本 [0051 ]試驗3:15個真實樣本+倒數(shù)1,2個擴(kuò)容樣本
[0052] 試驗4:15個真實樣本+前2/(./ = 1,2個擴(kuò)容樣本
[0053] 試驗5:15個真實樣本+前(/2,/ = 1,2個擴(kuò)容樣本
[0054]參與訓(xùn)練時分類器的識別正確率結(jié)果如表1所示。
[0055] 表1不同擴(kuò)容樣本參與訓(xùn)練時分類器的識別正確率
[0056]
[0057]通過表1可以看出,針對高維不相關(guān)樣本的容量控制,考慮樣本可信度因素的信息 熵等值容量優(yōu)化方法(試驗2)具有明顯效果,能指導(dǎo)分類器選擇合適數(shù)目的訓(xùn)練樣本參與 訓(xùn)練,提尚故障識別正確率。
[0058]以上實施例僅用以說明而非限制本發(fā)明的技術(shù)方案,盡管上述實施例對本發(fā)明進(jìn) 行了詳細(xì)說明,本領(lǐng)域的相關(guān)技術(shù)人員應(yīng)當(dāng)理解:可以對本發(fā)明進(jìn)行修改或者同等替換,但 不脫離本發(fā)明精神和范圍的任何修改和局部替換均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍內(nèi)。
【主權(quán)項】
1. 一種基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,其特征在于,在準(zhǔn)確度量擴(kuò)容樣本 可信度的基礎(chǔ)上,分別計算真實樣本和異可信度的擴(kuò)容樣本的融合概率密度分布,通過采 用信息熵來度量高維不相關(guān)故障樣本包含信息量的大小,根據(jù)擴(kuò)容樣本所包含的信息量與 真實樣本等值的原則,建立擴(kuò)容樣本容量的信息熵優(yōu)化模型,從而控制擴(kuò)容樣本容量。2. 根據(jù)權(quán)利要求1所述的基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,其特征在于,所述 擴(kuò)容樣本可信度的大小采用基于核函數(shù)的樣本可信度度量方法來度量,并且進(jìn)行從大到小 的排列。3. 根據(jù)權(quán)利要求2所述的基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,其特征在于,所述 基于核函數(shù)的樣本可信度度量方法的計算公式為:式中,qj:擴(kuò)容樣本可信度;K( ·,·):核函數(shù)表達(dá)式;M:真實樣本集所含樣本數(shù)量。4. 根據(jù)權(quán)利要求1或2所述的基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,其特征在于, 包括如下具體步驟為: (1) 計算真實樣本和擴(kuò)容樣本的概率密度分布: a、 計算真實樣本的概率密度分布^(Xii,…,Xij); b、 假設(shè)第k個擴(kuò)容樣本yk屬于擴(kuò)容樣本子集Y,該子集對應(yīng)的可信度為ω τ,則前k個 擴(kuò)容樣本的融合概率密度分布為:其中同可信度下擴(kuò)容樣本¥~的服從概率分布(2) 計算真實樣本的信息熵Ho:(3) 使用基于核函數(shù)的樣本可信度度量方法計算擴(kuò)容樣本可信度:將可信度按從大到小排列。 (4) 對于排序后的前k個擴(kuò)容樣本yk,k=l,. . .,N,計算信息熵:(5) 按照信息熵等值方法,搜索滿足真實樣本集信息熵與擴(kuò)容樣本子集信息熵差值最 小的優(yōu)化樣本量1Λ(6) 根據(jù)優(yōu)化樣本量搜索結(jié)果確定參與訓(xùn)練的擴(kuò)容樣本。
【專利摘要】本發(fā)明提供一種基于信息熵等值的擴(kuò)容樣本容量優(yōu)化方法,在準(zhǔn)確度量擴(kuò)容樣本可信度的基礎(chǔ)上,分別計算真實樣本和異可信度的擴(kuò)容樣本的融合概率密度分布,通過采用信息熵來度量高維不相關(guān)故障樣本包含信息量的大小,根據(jù)擴(kuò)容樣本所包含的信息量與真實樣本等值的原則,建立擴(kuò)容樣本容量的信息熵優(yōu)化模型,從而控制擴(kuò)容樣本容量,最終達(dá)到提高故障識別率的目的。本發(fā)明通過對高維不相關(guān)樣本的容量優(yōu)化控制,指導(dǎo)擴(kuò)容樣本的正確選擇,可避免發(fā)生“信息對沖”,提高小樣本條件下故障源識別率。
【IPC分類】G06Q10/04
【公開號】CN105488585
【申請?zhí)枴緾N201510818372
【發(fā)明人】章林柯, 李和君, 魏娜, 胡恒賓, 李大坤
【申請人】武漢理工大學(xué)
【公開日】2016年4月13日
【申請日】2015年12月21日