本發(fā)明涉及卷煙生產(chǎn)過程質(zhì)量評價技術(shù)領(lǐng)域,特別是一種基于隨機森林回歸的制絲過程參數(shù)賦權(quán)方法。
背景技術(shù):
制絲過程是凸顯卷煙感官風(fēng)格、穩(wěn)定產(chǎn)品質(zhì)量、降低原料消耗的重要環(huán)節(jié)。卷煙產(chǎn)品多點加工布局下,地域氣候、工藝布局、裝備水平差異較大,如何建立一套科學(xué)的制絲過程工藝質(zhì)量評價方法,確保產(chǎn)品質(zhì)量穩(wěn)定一致顯得尤為重要。制絲加工設(shè)備參數(shù)繁多,且內(nèi)部存在大量交互效應(yīng);此外制絲加工流程較長,上游工序的質(zhì)量指標(biāo)都直接或間接影響下游工序乃至最終產(chǎn)品的質(zhì)量控制,所以關(guān)鍵參數(shù)權(quán)重的測度是建立科學(xué)評價方法的重要環(huán)節(jié)。
綜合文獻(xiàn)調(diào)研,近年來行業(yè)內(nèi)在生產(chǎn)制造過程質(zhì)量評價方法研究方面有一些文獻(xiàn)報道,例如,發(fā)明專利申請cn101414183a公開了一種基于灰色關(guān)聯(lián)分析的卷煙工序質(zhì)量綜合評價系統(tǒng)及其方法,其技術(shù)特點是首先將各工藝參數(shù)的過程能力指數(shù)組成數(shù)列來表征評價對象,然后采用灰色關(guān)聯(lián)法對cpk進(jìn)行綜合評價,以優(yōu)劣排名作為綜合評價結(jié)果。該方法在計算灰色關(guān)聯(lián)度γ時,未對工藝參數(shù)的選擇和權(quán)重進(jìn)行詳細(xì)說明,僅對計算得出的結(jié)果進(jìn)行了一個簡單的排序;發(fā)明專利申請cn102509243a公開了一種卷煙制造過程質(zhì)量評價方法及其系統(tǒng),其技術(shù)特點是首先對單個質(zhì)量特性值進(jìn)行過程質(zhì)量評價,然后采用主成分分析法對多變量工序的過程性能指數(shù)進(jìn)行計算各主成分的權(quán)重,最后通過算數(shù)加權(quán)平均得出該工序的過程性能指數(shù),實現(xiàn)制造過程質(zhì)量的評價。主成分賦權(quán)法是以多元回歸分析為基礎(chǔ)的,在主成分分析中,首先要保證所提取的前幾個主成分的累計貢獻(xiàn)率達(dá)到一個較高的水平,其次主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點,提供一種有效避免決策者主觀意向和偏好、基于隨機森林回歸的制絲過程參數(shù)賦權(quán)方法。
本發(fā)明的目的通過以下技術(shù)方案來實現(xiàn):一種基于隨機森林回歸的制絲過程參數(shù)賦權(quán)方法,包括以下步驟:
s1、對數(shù)據(jù)樣本進(jìn)行預(yù)處理,
s2、對工序參數(shù)進(jìn)行相關(guān)性分析,
s3、對解釋變量進(jìn)行隨機森林回歸分析,
s4、對解釋變量進(jìn)行權(quán)重測度。
所述的步驟s1包括以下子步驟:
s11、剔除停機斷料批次數(shù)據(jù),停機斷料批次的判定規(guī)則為生產(chǎn)過程中某一工序入口流量降至0kg/h且持續(xù)時間超過90s的批次;
s12、剔除生產(chǎn)過程中數(shù)值為常量的設(shè)定參數(shù);
s13、根據(jù)穩(wěn)態(tài)數(shù)據(jù)截取規(guī)則進(jìn)行穩(wěn)態(tài)數(shù)據(jù)截取;
s14、根據(jù)各工序物料的停留時間,將步驟s13中得到的穩(wěn)態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)分組,并計算均值,形成穩(wěn)態(tài)數(shù)據(jù)樣本。
所述的步驟s2包括以下子步驟:
s21、以各工序出口含水率為研究變量,作為工序評價的目標(biāo);
s22、采用pearson相關(guān)系數(shù)法,按下述公式對各工序參數(shù)進(jìn)行相關(guān)性分析:
s23、采用spss統(tǒng)計軟件內(nèi)的t檢驗推斷各參數(shù)之間的pearson相關(guān)系數(shù)及其檢驗的p值;
s24、針對穩(wěn)態(tài)數(shù)據(jù)樣本中高度顯著相關(guān)(相關(guān)系數(shù)絕對值大于0.9且檢驗p值小于0.05)的參數(shù),結(jié)合設(shè)備控制原理剔除跟隨變量,剩余參數(shù)為該工序統(tǒng)計建模的解釋變量。
所述的步驟s3包括以下子步驟:
s31、首先由原始數(shù)據(jù)集d生成隨機向量序列θi(i=1,2,…k),然后采用bootstrap抽樣方法從d中有放回地隨機抽取k個子樣本集,記為di(i=1,2,…k);其次,對每個子樣本集di分別構(gòu)建研究變量的決策樹模型
其中:h(x)表示隨機森林回歸模型的預(yù)測值,i(x)表示第i個決策樹模型。
s32、采用oob估計的均方誤差平均遞減值來評價解釋變量對回歸模型的重要性程度,均方誤差(mse)的數(shù)學(xué)定義如下:
其中:
s33、采用五折交叉驗證方法來評價隨機森林回歸分析模型預(yù)測結(jié)果的可靠性,評價指標(biāo)是標(biāo)準(zhǔn)化均方誤差(nmse),如果nmse≥1,表明直接用均值預(yù)測的效果要優(yōu)于模型預(yù)測,說明所擬合的回歸模型不具有預(yù)測性。對于訓(xùn)練集而言,nmse等于1-r2;對于測試集而言,nmse與測試集的r2沒有直接關(guān)系,nmse越小,說明模型外推預(yù)測性能越好。其數(shù)學(xué)定義為:
其中:
所述的步驟s4包括以下子步驟:
將多元回歸方程中的標(biāo)準(zhǔn)化回歸系數(shù)作為解釋變量對研究變量影響程度的度量,然后通過歸一化處理得到相應(yīng)解釋變量的影響權(quán)重。其數(shù)學(xué)定義為:
其中:gi為度量參數(shù)xi(i=1,2,…m)相對重要性的均方誤差(mse)平均遞減值,wi為參數(shù)xi的影響權(quán)重。
本發(fā)明具有以下優(yōu)點:
本發(fā)明首先對制造執(zhí)行系統(tǒng)(mes)采集的制絲過程全批次數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,通過pearson相關(guān)性矩陣篩選各工序出口含水率的解釋變量,然后利用隨機森林回歸進(jìn)行建模分析,采用擬合優(yōu)度和5折交叉驗證的測試集標(biāo)準(zhǔn)化均方誤差分別驗證模型的擬合效果和外推預(yù)測性能,最終根據(jù)oob均方誤差的平均遞減值進(jìn)行解釋變量影響權(quán)重的測度。
本發(fā)明采用制絲過程全數(shù)據(jù)樣本進(jìn)行建模研究,有效避免了主觀賦權(quán)法中決策者對評價目標(biāo)的主觀意向和偏好,同時較熵值賦權(quán)法、主成分賦權(quán)法等客觀賦權(quán)方法具有更好的噪聲容忍度和外推預(yù)測性。
本發(fā)明結(jié)合pearson相關(guān)性矩陣和設(shè)備控制原理,可實現(xiàn)快速篩選解釋變量。
本發(fā)明采用全樣本數(shù)據(jù)為oob無偏估計創(chuàng)造了有利條件,通過推斷出原始數(shù)據(jù)與加入噪聲擾動后的oob準(zhǔn)確率之差度量參數(shù)的重要性。
采用五折交叉驗證方法來評價隨機森林回歸分析模型預(yù)測結(jié)果的可靠性,更客觀地評價模型的預(yù)測性能。
具體實施方式
下面結(jié)合實施例對本發(fā)明做進(jìn)一步的描述:
一種基于隨機森林回歸的制絲過程參數(shù)賦權(quán)方法,包括以下步驟::
s1、對數(shù)據(jù)樣本進(jìn)行預(yù)處理:
s11、剔除停機斷料批次數(shù)據(jù),停機斷料批次的判定規(guī)則為生產(chǎn)過程中某一工序入口流量降至0kg/h且持續(xù)時間超過90s的批次;
s12、剔除生產(chǎn)過程中數(shù)值為常量的設(shè)定參數(shù);
s13、根據(jù)穩(wěn)態(tài)數(shù)據(jù)截取規(guī)則進(jìn)行穩(wěn)態(tài)數(shù)據(jù)截?。?/p>
s14、根據(jù)各工序物料的停留時間,將步驟s13中得到的穩(wěn)態(tài)數(shù)據(jù)進(jìn)行數(shù)據(jù)分組,并計算均值,形成穩(wěn)態(tài)數(shù)據(jù)樣本。
s2、對工序參數(shù)進(jìn)行相關(guān)性分析:
s21、以各工序出口含水率為研究變量,作為工序評價的目標(biāo);
s22、采用pearson相關(guān)系數(shù)法,按下述公式對各工序參數(shù)進(jìn)行相關(guān)性分析:
s23、采用spss統(tǒng)計軟件內(nèi)的t檢驗推斷各參數(shù)之間的pearson相關(guān)系數(shù)及其檢驗的p值;
s24、針對穩(wěn)態(tài)數(shù)據(jù)樣本中高度顯著相關(guān)(相關(guān)系數(shù)絕對值大于0.9且檢驗p值小于0.05)的參數(shù),結(jié)合設(shè)備控制原理剔除跟隨變量,剩余參數(shù)為該工序統(tǒng)計建模的解釋變量;
s3、對解釋變量進(jìn)行隨機森林回歸分析:
s31、首先由原始數(shù)據(jù)集d生成隨機向量序列θi(i=1,2,…k),然后采用bootstrap抽樣方法從d中有放回地隨機抽取k個子樣本集,記為di(i=1,2,…k);其次,對每個子樣本集di分別構(gòu)建研究變量的決策樹模型
其中:h(x)表示隨機森林回歸模型的預(yù)測值,i(x)表示第i個決策樹模型。
s32、采用oob估計的均方誤差平均遞減值來評價解釋變量對回歸模型的重要性程度,均方誤差(mse)的數(shù)學(xué)定義如下:
其中:
s33、采用五折交叉驗證方法來評價隨機森林回歸分析模型預(yù)測結(jié)果的可靠性,評價指標(biāo)是標(biāo)準(zhǔn)化均方誤差(nmse),如果nmse≥1,表明直接用均值預(yù)測的效果要優(yōu)于模型預(yù)測,說明所擬合的回歸模型不具有預(yù)測性。對于訓(xùn)練集而言,nmse等于1-r2;對于測試集而言,nmse與測試集的r2沒有直接關(guān)系,nmse越小,說明模型外推預(yù)測性能越好。其數(shù)學(xué)定義為:
其中:
s4、對解釋變量進(jìn)行權(quán)重測度:
將多元回歸方程中的標(biāo)準(zhǔn)化回歸系數(shù)作為解釋變量對研究變量影響程度的度量,然后通過歸一化處理得到相應(yīng)解釋變量的影響權(quán)重。其數(shù)學(xué)定義為:
其中:gi為度量參數(shù)xi(i=1,2,…m)相對重要性的均方誤差(mse)平均遞減值,wi為參數(shù)xi的影響權(quán)重。
以下結(jié)合實施例對本發(fā)明作進(jìn)一步詳細(xì)說明:
實施例1
1、選取“云煙”某一類規(guī)格卷煙某年1月至12月的松散回潮工序全批次數(shù)據(jù),共計219批,數(shù)采頻次為每6s采集1次。
2、剔除停機斷料批次,剔除常量數(shù)據(jù),根據(jù)穩(wěn)態(tài)數(shù)據(jù)截取規(guī)則對數(shù)據(jù)進(jìn)行截頭去尾,通過數(shù)據(jù)分組得到穩(wěn)態(tài)數(shù)據(jù)樣本1627個。
3、選取出料含水率作為研究變量;pearson相關(guān)性分析表明,出料含水率與各參數(shù)的相關(guān)性t檢驗的p值均小于0.05(見表1),說明在5%的顯著性水平下,各參數(shù)與出口含水率均存在顯著相關(guān)關(guān)系。
表1松散回潮工序各參數(shù)t檢驗的p值
此外,加水比例與加水流量、加水流量與汽水混合閥門開度、加水累計量與物料累計量3組參數(shù)高度顯著相關(guān)(見表2)。綜合穩(wěn)態(tài)數(shù)據(jù)的相關(guān)性分析結(jié)論及松散回潮設(shè)備的控制原理,剔除加水流量和加水累計量。最終,松散回潮工序統(tǒng)計建模的解釋變量確定為:工藝流量、加水比例、蒸汽閥門開度、物料累計量、熱風(fēng)溫度、汽水混合閥門開度。
表2松散回潮工序各參數(shù)相關(guān)系數(shù)值
4、運用隨機森林回歸模型對松散回潮工序的參數(shù)進(jìn)行統(tǒng)計建模,模型的擬合優(yōu)度為0.90,表明該模型擬合效果較好。采用公式計算五折交叉驗證的測試集nmse為0.51,說明該模型外推預(yù)測性能較好。
5、松散回潮6個解釋變量對出口含水率的影響程度見表3。將多元回歸方程中的標(biāo)準(zhǔn)化回歸系數(shù)作為解釋變量對研究變量影響程度的度量,然后通過歸一化處理得到相應(yīng)解釋變量的影響權(quán)重。按照從大到小進(jìn)行排序,將影響權(quán)重累積達(dá)到80%以上的參數(shù)定義為關(guān)鍵參數(shù)。由表3可以看出,松散回潮工序的關(guān)鍵參數(shù)是加水比例、物料累計量和氣水混合閥門開度,影響權(quán)重分別是33.74%、31.31%和16.29%。
表3松散回潮工序解釋變量的mse平均遞減值及影響權(quán)重
實施例2
1、選取“云煙”某一類規(guī)格卷煙某年1月至12月的加料工序全批次數(shù)據(jù),共計219批,數(shù)采頻次為每6s采集1次。
2、剔除停機斷料批次,剔除常量數(shù)據(jù),根據(jù)穩(wěn)態(tài)數(shù)據(jù)截取規(guī)則對數(shù)據(jù)進(jìn)行截頭去尾,通過數(shù)據(jù)分組得到穩(wěn)態(tài)數(shù)據(jù)樣本1794個。
3、選取出料含水率作為研究變量;pearson相關(guān)性分析表明,除工藝流量、加料累計量、物料累計量和料液溫度外,加料工序出口水分與其它參數(shù)的相關(guān)系數(shù)檢驗的p值均小于0.05,說明在5%的顯著性水平下,出口水分與大多數(shù)參數(shù)之間存在顯著的相關(guān)關(guān)系。
表4加料工序各參數(shù)t檢驗的p值
此外,瞬時加料比例與瞬時加料精度、加料累計量與物料累計量的pearson相關(guān)系數(shù)絕對值達(dá)到0.9以上,且其檢驗的p值都等于0,表明這兩組參數(shù)之間存在顯著的高度線性相關(guān)關(guān)系(見表5)。結(jié)合加料設(shè)備的控制原理,瞬時加料精度和加料累計量不納入自變量范圍,篩選后的加料工序變量為:工藝流量、入口水分、加料流量、瞬時加料比例、蒸汽閥門開度、物料累計量、料液溫度。
表5加料工序各參數(shù)相關(guān)系數(shù)值
4、運用隨機森林回歸對加料工序段的參數(shù)進(jìn)行統(tǒng)計建模,所得模型的擬合優(yōu)度為0.96,表明模型擬合效果較優(yōu)。并且,推斷五折交叉驗證測試集的nmse為0.201,說明模型具有良好的預(yù)測精度。
5、加料工序7個解釋變量對出口含水率的影響程度見表6。將多元回歸方程中的標(biāo)準(zhǔn)化回歸系數(shù)作為解釋變量對研究變量影響程度的度量,然后通過歸一化處理得到相應(yīng)解釋變量的影響權(quán)重。按照從大到小進(jìn)行排序,將影響權(quán)重累積達(dá)到80%以上的參數(shù)定義為關(guān)鍵參數(shù)。由表6可以看出,加料工序的關(guān)鍵參數(shù)是入口水分和蒸汽閥門開度,影響權(quán)重分別是59.66%和23.73%。
表6加料工序解釋變量的mse平均遞減值及影響權(quán)重
實施例3
1、選取“云煙”某一類規(guī)格卷煙某年1月至12月的葉絲干燥及冷卻工序全批次數(shù)據(jù),共計219批,數(shù)采頻次為每6s采集1次。
2、剔除停機斷料批次,剔除常量數(shù)據(jù),根據(jù)穩(wěn)態(tài)數(shù)據(jù)截取規(guī)則對數(shù)據(jù)進(jìn)行截頭去尾,通過數(shù)據(jù)分組得到穩(wěn)態(tài)數(shù)據(jù)樣本2286個。
3、選取出料含水率作為研究變量;pearson相關(guān)性分析表明,出料含水率與各參數(shù)的相關(guān)性t檢驗的p值均小于0.05(見表7),說明在5%的顯著性水平下,各參數(shù)與出口含水率均存在顯著相關(guān)關(guān)系。
表7葉絲干燥及冷卻工序各參數(shù)t檢驗的p值
由上表可知,除工藝流量、膨脹單元蒸汽流量.體積、膨脹單元蒸汽流量.質(zhì)量、排潮閥門開度、ⅰ區(qū)筒壁溫度、ⅱ區(qū)筒壁溫度和熱風(fēng)溫度外,烘絲工序段的葉絲干燥.出口水分與其它參數(shù)的相關(guān)系數(shù)檢驗的p值都小于0.05,說明在5%的顯著性水平下,葉絲干燥.出口水分與大多數(shù)參數(shù)之間存在顯著的相關(guān)關(guān)系(見表8)。此外,筒壁二區(qū)蒸汽閥門開度與ⅰ區(qū)筒壁溫度、筒壁二區(qū)蒸汽閥門開度與ⅱ區(qū)筒壁溫度、ⅰ區(qū)筒壁溫度與ⅱ區(qū)筒壁溫度的pearson相關(guān)系數(shù)的絕對值均達(dá)到0.9以上,且其檢驗的p值都等于0,表明這三組參數(shù)之間存在顯著的高度線性相關(guān)關(guān)系。結(jié)合薄板烘絲機的控制原理,筒壁二區(qū)蒸汽閥門開度不納入自變量范圍。篩選后的葉絲干燥及冷卻工序變量為:切葉絲含水率、工藝流量、sx蒸汽閥門開度、物料累計量、膨脹單元蒸汽流量.體積、膨脹單元蒸汽流量.質(zhì)量、排潮閥門開度、循環(huán)風(fēng)閥門開度、循環(huán)風(fēng)蒸汽閥門開度、負(fù)壓、工藝氣速度、ⅰ區(qū)筒壁溫度、ⅱ區(qū)筒壁溫度、熱風(fēng)溫度。
表8葉絲干燥及冷卻工序各參數(shù)相關(guān)系數(shù)值
4、運用隨機森林回歸對加料工序段的參數(shù)進(jìn)行統(tǒng)計建模,所得模型的擬合優(yōu)度為0.949,表明模型擬合效果較優(yōu)。并且,推斷五折交叉驗證測試集的nmse為0.291,說明模型具有良好的預(yù)測精度。
5、葉絲干燥及冷卻工序14個解釋變量對出口含水率的影響程度見表9。將多元回歸方程中的標(biāo)準(zhǔn)化回歸系數(shù)作為解釋變量對研究變量影響程度的度量,然后通過歸一化處理得到相應(yīng)解釋變量的影響權(quán)重。按照從大到小進(jìn)行排序,將影響權(quán)重累積達(dá)到80%以上的參數(shù)定義為關(guān)鍵參數(shù)。由表9可以看出,葉絲干燥及冷卻工序的關(guān)鍵參數(shù)是循環(huán)風(fēng)蒸汽閥門開度、排潮閥門開度、循環(huán)風(fēng)閥門開度、ⅰ區(qū)筒壁溫度、ⅱ區(qū)筒壁溫度和工藝氣速度。
表9葉絲干燥及冷卻工序變量的相對重要性及影響權(quán)重