基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法
【專利摘要】本發(fā)明提供一種基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,通過已有的烤片理化數(shù)據(jù)和煙氣巴豆醛數(shù)據(jù)建立從理化指標(biāo)項到煙氣巴豆醛的模型,對于未知烤片煙氣巴豆醛樣本,可以利用其理化成分?jǐn)?shù)據(jù)直接預(yù)測烤片煙氣巴豆醛值。本發(fā)明省去了由傳統(tǒng)化學(xué)方式進(jìn)行卷制、燃燒、捕捉煙氣、檢測等步驟;同時,采用魯棒回歸模型,可以有效地避免因理化數(shù)據(jù)或煙氣數(shù)據(jù)中奇異值樣本導(dǎo)致的弊端,很大程度上保證模型的健壯性,這點正是魯棒回歸建模優(yōu)于普通線性回歸建模的優(yōu)點。實踐證明,該模型能夠有效地預(yù)測烤片的煙氣巴豆醛值,極大地提高檢測效率,降低檢測成本。
【專利說明】基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,屬于特定計算模 型【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 煙草煙氣是一種極為復(fù)雜的混合物,它是在卷煙抽吸過程中由煙草燃燒、裂解和 蒸餾而產(chǎn)生的。卷煙制品對于人體的危害性是通過燃吸過程而產(chǎn)生的。煙氣中的有害成 分主要是在燃燒過程中形成,而煙氣的化學(xué)特性是隨煙葉原料內(nèi)在化學(xué)成分的變化而變化 的。因此,卷煙煙葉原料的化學(xué)特性決定了卷煙煙氣的化學(xué)特性和安全性。巴豆醛是呼吸 道纖毛毒素,能抑制肺排泄物的清除,從而引起肺部疾病。傳統(tǒng)的烤片煙氣巴豆醛數(shù)據(jù)的獲 得方式是檢測烤片燃燒后的煙氣中的化學(xué)成分指標(biāo)。通過這種方式獲得的煙氣數(shù)據(jù),需要 將烤片卷制成卷煙燃燒后的煙氣進(jìn)行化學(xué)檢測,檢測過程費時費力且檢測成本極高。
[0003] 在線性回歸建模中,模型是建立在一定假設(shè)條件基礎(chǔ)上的,例如被觀測樣本誤差 為標(biāo)準(zhǔn)正態(tài)分布。如果誤差的分布是非對稱或者傾向于離群點,那么進(jìn)行線性回歸建模的 假設(shè)是不成立的,參數(shù)的估計、置信區(qū)間以及其他計算的統(tǒng)計量都是不可靠的。這種情況 下,用魯棒回歸進(jìn)行模型的建立是非常有效的。魯棒回歸建模包含了一種健壯的擬合方法, 與最小二乘法相比,對于數(shù)據(jù)中小部分的變異沒有那么敏感,提高了模型的可信度。
[0004] 魯棒回歸通過為每個數(shù)據(jù)點賦予一個權(quán)值進(jìn)行建模。加權(quán)是自動的并且是重復(fù) 的,這個過程叫做自動重加權(quán)最小二乘法。在第一階段,每個樣本點被賦予相同的權(quán)重,然 后利用普通的最小二乘法計算得到模型系數(shù)。在隨后的迭代中,每個樣本的點都將重新計 算,那些遠(yuǎn)離模型預(yù)測值的樣本點將被賦予較低的權(quán)重。之后利用經(jīng)過加權(quán)的最小二乘法 計算模型系數(shù)。迭代過程將一直進(jìn)行下去,一直到模型系數(shù)在一個設(shè)定的范圍波動。
[0005] 因此以魯棒回歸建立一種預(yù)測模型由烤片理化數(shù)據(jù)直接獲取煙氣巴豆醛數(shù)據(jù)的 方法勢在必行。
【發(fā)明內(nèi)容】
[0006] 為解決現(xiàn)有技術(shù)檢測烤片煙氣巴豆醛數(shù)據(jù)的過程費時、費力、成本極高等問題,本 發(fā)明提出一種基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法。
[0007] 本發(fā)明通過已有的烤片理化數(shù)據(jù)和煙氣巴豆醛數(shù)據(jù)建立從理化指標(biāo)項到煙氣巴 豆醛的魯棒回歸預(yù)測模型,對于未知烤片煙氣巴豆醛樣本,利用其理化成分?jǐn)?shù)據(jù)套用模型 直接預(yù)測烤片煙氣巴豆醛值。具體經(jīng)過下列各步驟: (1) 將已知烤片的理化數(shù)據(jù)與煙氣巴豆醛數(shù)據(jù)對應(yīng)列出,建立數(shù)據(jù)樣本集; (2) 分別計算步驟(1)所得數(shù)據(jù)樣本集中各理化數(shù)據(jù)的列向量Xl?xn和煙氣巴豆醛數(shù) 據(jù)的列向量y,通過下列公式分別計算各理化數(shù)據(jù)與煙氣巴豆醛的線性相關(guān)系數(shù)r,線性相 關(guān)系數(shù)r的絕對值大于0. 3所對應(yīng)的該項理化數(shù)據(jù)即為對煙氣巴豆醛有重要影響的特征指 標(biāo)項,作為建模用的輸入變量: (1) 式中^為某一理化數(shù)據(jù)的列向量,_7為煙氣巴豆醛數(shù)據(jù)的列向量; (3) 根據(jù)不同產(chǎn)地、品種、檔次,均勻挑選245個烤片作為訓(xùn)練樣本,運(yùn)用魯棒回歸線性 建模算法,建立煙氣巴豆醛預(yù)測模型,其表達(dá)式為下式:
【權(quán)利要求】
1. 一種基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,其特征在于經(jīng)過下列各步驟: (1) 將已知烤片的理化數(shù)據(jù)與煙氣巴豆醛數(shù)據(jù)對應(yīng)列出,建立數(shù)據(jù)樣本集; (2) 分別計算步驟(1)所得數(shù)據(jù)樣本集中各理化數(shù)據(jù)的列向量Xl?xn和煙氣巴豆醛數(shù) 據(jù)的列向量y,通過下列公式分別計算各理化數(shù)據(jù)與煙氣巴豆醛的線性相關(guān)系數(shù)r,線性相 關(guān)系數(shù)r的絕對值大于0. 3所對應(yīng)的該項理化數(shù)據(jù)即為對煙氣巴豆醛有重要影響的特征指 標(biāo)項,作為建模用的輸入變量:
(1) 式中^為某一理化數(shù)據(jù)的列向量,_7為煙氣巴豆醛數(shù)據(jù)的列向量; (3) 根據(jù)不同產(chǎn)地、品種、檔次,均勻挑選245個烤片作為訓(xùn)練樣本,運(yùn)用魯棒回歸線性 建模算法,建立煙氣巴豆醛預(yù)測模型,其表達(dá)式為下式:
(2) 式中:Y為煙氣巴豆醛的模型預(yù)測值,X為理化數(shù)據(jù)向量,b為常數(shù)項,A為回歸系數(shù)向 量; (4) 依據(jù)步驟(2)選擇的特征指標(biāo)項,將待測烤片的對應(yīng)理化數(shù)據(jù)作為輸入變量套用至 步驟(3)的預(yù)測模型中,即能測算得到待測烤片的煙氣巴豆醛的模型預(yù)測值Y。
2. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,其特征在 于:所述步驟(1)的理化數(shù)據(jù)包括總糖、還原糖、煙堿、總揮發(fā)堿、總氮、煙堿氮、蛋白質(zhì)、施 木克值、氮堿比、氯、鉀、糖堿比和氨態(tài)堿。
3. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,其特征在 于:所述步驟(3)運(yùn)用魯棒回歸線性建模算法的步驟如下: (a) 進(jìn)行局部權(quán)重回歸擬合:每一次擬合過程只考慮所有擬合點數(shù)的一部分,每一個 被擬合點的取值都由與之鄰近的局部擬合范圍的散步點所決定,在每一個擬合點處都給予 不同的權(quán)重系數(shù)
其權(quán)重系數(shù)在擬合點處為1,局部擬合范圍內(nèi)擬合點的兩邊各點的權(quán) 重系數(shù)依次以一定的規(guī)則遞減至零,超出擬合范圍的數(shù)據(jù)點處的權(quán)重均為0,其代數(shù)表達(dá)式 為:
式中
為每個擬合點的權(quán)重系數(shù),
為實測值,
為計算值; (b) 按下式計算調(diào)整殘差:
式中
為普通最小二乘法的殘差,
為殘差調(diào)整杠桿值,用于降低影響擬合值較大點 處的權(quán)重,T為轉(zhuǎn)置; 標(biāo)準(zhǔn)調(diào)整殘差由下式給出:
式中:K為調(diào)整參數(shù),取4. 685 ;s為魯棒性偏差;MAD是殘差的中值絕對偏差; (c) 按下式計算在局部擬合范圍內(nèi)每一點的魯棒性權(quán)重:
(d) 對于式(2),將常數(shù)項b納入到回歸系數(shù)向量中,則式(2)簡化為:
依據(jù)權(quán)重最小二乘法求解使得下式取最小值的回歸系數(shù)向量A,并計算在X(l處的
值:
式中:J為權(quán)重最小二乘法求解的目標(biāo)函數(shù)。
4. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,其特征在 于:所述步驟(3)的預(yù)測模型通過下列各步驟對擬合性能和推廣性能進(jìn)行評價: 根據(jù)不同產(chǎn)地、品種、檔次,均勻挑選45個與步驟(3)不同的烤片理化數(shù)據(jù)作為測試樣 本,套用至步驟(3)的預(yù)測模型中進(jìn)行性能測試,預(yù)測結(jié)果需同時滿足如下兩個條件,即判 定模型性能達(dá)到預(yù)測要求: A、 測試樣本與訓(xùn)練樣本的預(yù)測平均誤差相當(dāng),即為下式所示:
式中:errtMin為預(yù)測模型對訓(xùn)練樣本的平均誤差,en^st為預(yù)測模型對測試樣本的平 均誤差; B、 測試樣本的預(yù)測值與實際值呈顯著的線性相關(guān)關(guān)系,即為下式所示:
式中
為測試樣本的預(yù)測值,y為測試樣本的實測值。
5. 根據(jù)權(quán)利要求1所述的基于魯棒回歸建模預(yù)測烤片煙氣巴豆醛的方法,其特征在 于:所述步驟(d)的魯棒性權(quán)重若其擬合誤差未達(dá)到下列擬合誤差要求時,從步驟(b)開始 迭代計算,直至誤差達(dá)到要求或達(dá)到限定迭代次數(shù)為止:
【文檔編號】G06F19/00GK104123424SQ201410385490
【公開日】2014年10月29日 申請日期:2014年8月7日 優(yōu)先權(quán)日:2014年8月7日
【發(fā)明者】白曉莉, 彭國崗, 段如敏, 盧偉, 朱勇, 謝志強(qiáng), 周桂圓, 劉挺, 王保興 申請人:云南中煙工業(yè)有限責(zé)任公司