本發(fā)明涉及一種基于煙葉致香成分的多模型評價(jià)煙葉原料相似度的方法,屬于煙草技術(shù)領(lǐng)域。具體是以某一品牌卷煙涉及煙葉原料的致香成分為基礎(chǔ)數(shù)據(jù),通過構(gòu)建煙葉原料相似度多模型評價(jià)體系,實(shí)現(xiàn)新煙葉原料與原庫中煙葉原料相似度評價(jià),為挑選合適煙葉進(jìn)入原料庫,維護(hù)煙葉原料庫供需平衡,保持同一品牌卷煙的風(fēng)格特征提供輔助信息。
背景技術(shù):
面對國內(nèi)外煙草消費(fèi)市場的新形勢,“卷煙上水平”已成為我國煙草行業(yè)發(fā)展的基本方針和戰(zhàn)略任務(wù)。“卷煙上水平”就必須保證煙葉原料供應(yīng)上水平,以品牌為導(dǎo)向的煙葉原料配置在煙葉原料供應(yīng)上水平中發(fā)揮著重要的作用。品牌導(dǎo)向的煙葉原料配置就需要為同一品牌的卷煙配置特用的煙葉原料庫。當(dāng)煙葉庫存用完,進(jìn)行煙葉原料替代時(shí)需要選擇與替代樣品感官評吸相似度高,又與其它煙葉原料的感官相似度高的煙葉樣品,以保持同一品牌卷煙在抽吸風(fēng)格特征上的一致性。
煙葉致香成分的種類和含量是卷煙風(fēng)格特征的物質(zhì)基礎(chǔ)。中國專利CN201210388661采用卷煙的致香物含量進(jìn)行逐步回歸分析,建立了卷煙香型的定量化判定標(biāo)準(zhǔn)。中國專利CN201310551840通過對煙葉特征化學(xué)指標(biāo)的篩選和取舍,然后進(jìn)行主成分計(jì)算,建立了煙葉風(fēng)格特征TQ的計(jì)算公式。上述兩個(gè)專利揭示了煙葉致香成分在保持卷煙風(fēng)格特征方面發(fā)揮著重要作用。因此如何保持新挑選的煙葉原料必須與原料庫中煙葉原料在致香成分含量整體性上較高的相似度就顯得尤為重要。
中國專利CN200810030798基于煙葉的化學(xué)成分,采用主成分分析和馬氏距離搜索評價(jià)相似煙葉。中國專利CN201210344034基于煙葉的近紅外信息,采用主成分分析和馬氏距離判定相似煙葉樣品,輔助卷煙配方。上述兩個(gè)專利揭示了主成分分析能從整體性上較好的揭示多維煙草化學(xué)成分分析的整體性信息,馬氏距離能有效的計(jì)算兩個(gè)未知樣本集的相似度。
以上技術(shù)中,采用一次建模的主成分分析和馬氏距離計(jì)算和評價(jià)煙葉樣本相似度,存在以下不足:由于主成分模型中各樣本間存在一定的差異性,將所有樣品進(jìn)行一次性建模難以排除與其它樣品差異性較大的個(gè)別樣品對主成分分析模型整體性的影響。一次性建模所采用的訓(xùn)練集難以完全代表所有樣本的總體信息。
蒙特卡洛采樣是一種無放回采樣,也稱刀切法(Jack knife),機(jī)選取一定比例的樣本作為訓(xùn)練集,剩下的樣本作為獨(dú)立測試集。進(jìn)行蒙特卡洛采樣時(shí)需要設(shè)定采樣次數(shù)、訓(xùn)練集和內(nèi)部驗(yàn)證集樣品個(gè)數(shù)的比例劃分。蒙特卡洛采樣能較好兼顧數(shù)據(jù)的整體性信息和差異性信息。
馬氏距離的計(jì)算公式: ,式中:為平均得分矩陣,為馬氏矩陣M的逆矩陣, 。 為樣本集中i樣本的得分矢量,為i樣本的馬氏距離。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于建立一種基于煙葉致香成分的多模型評價(jià)煙葉原料相似度的方法。本發(fā)明的意義在于:彌補(bǔ)一次建模的不足,使煙葉原料相似度評價(jià)更加科學(xué)和合理。
本發(fā)明的方法是通過蒙特卡洛無放回采樣,隨機(jī)選取一定比例的樣本作為訓(xùn)練集,剩下的樣本作為模型內(nèi)部驗(yàn)證集;建立多個(gè)基于煙葉致香成分含量的主成分模型;利用內(nèi)部驗(yàn)證集樣本對模型的有效性進(jìn)行驗(yàn)證;將新煙葉原料的致香成分?jǐn)?shù)據(jù)輸入經(jīng)驗(yàn)證有效的主成分模型,計(jì)算樣品在多個(gè)模型中的馬氏距離,對生成的馬氏距離數(shù)據(jù)組進(jìn)行分析,評價(jià)新的煙葉原料與原料庫中煙葉原料的相似度。
為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:
基于某一品牌卷煙現(xiàn)在使用的煙葉原料,構(gòu)建以卷煙品牌為導(dǎo)向的煙葉原料庫,對原料庫中某待替換的煙葉進(jìn)行多次代表性取樣,取樣次數(shù)為N,每次取1個(gè)樣品;之后,對取樣得到N個(gè)煙葉樣品采用同時(shí)蒸餾萃取-氣相色譜/質(zhì)譜聯(lián)法測定其致香成分含量;
同時(shí)蒸餾萃取-氣相色譜/質(zhì)譜聯(lián)法)參照王玉等發(fā)表《卷煙揮發(fā)性成分的聚類分析》文章方法測定其致香成分含量。
所測得的煙葉樣品致香成分含量數(shù)據(jù)輸入Matlab軟件中構(gòu)成基礎(chǔ)數(shù)據(jù)矩陣;
基于基礎(chǔ)數(shù)據(jù)矩陣,設(shè)定蒙特卡洛采樣參數(shù):采樣次數(shù)為N/3、訓(xùn)練集樣本個(gè)數(shù)為①中所取得樣品個(gè)數(shù)的80%、內(nèi)部驗(yàn)證集樣本個(gè)數(shù)為①中所取得樣品個(gè)數(shù)的20%。根據(jù)設(shè)定好的參數(shù),在Matlab軟件采用蒙特卡洛采樣方法采樣,劃分得到N/3個(gè)主成分模型訓(xùn)練集和對應(yīng)的內(nèi)部驗(yàn)證集。
對N/3個(gè)主成分模型訓(xùn)練集進(jìn)行主成分分析,構(gòu)建主成分模型,并將對應(yīng)的內(nèi)部驗(yàn)證集樣本數(shù)據(jù)輸入構(gòu)建好的主成分模型中,計(jì)算各內(nèi)部驗(yàn)證集樣本的馬氏距離。
主成分模型內(nèi)部驗(yàn)證有效性的判定規(guī)則為:所有內(nèi)部驗(yàn)證樣本在主成分模型中計(jì)算得到馬氏距離的最大值不得超過2為有效,否則為無效。該規(guī)則用于排除原料庫中致香成分含量與其它樣品差異較大的樣品對整個(gè)主成分模型易產(chǎn)生偏差造成的影響。
根據(jù)中的判定規(guī)則,判定建立的N/3個(gè)主成分模型的有效性,得到有效的主成分模型。
將M個(gè)需要評價(jià)的新煙葉原料致香成分?jǐn)?shù)據(jù)輸入中驗(yàn)證有效的主成分模型,分別計(jì)算馬氏距離,組成M個(gè)馬氏距離數(shù)據(jù)組。
計(jì)算需要評價(jià)煙葉原料馬氏距離數(shù)據(jù)組的平均值和標(biāo)準(zhǔn)偏差。
比較不同樣品中計(jì)算得到的馬氏距離的平均值和標(biāo)準(zhǔn)偏差的大小,根據(jù)驗(yàn)證樣品相似度評價(jià)規(guī)則對樣品的相似度進(jìn)行對比評價(jià)。
驗(yàn)證樣品相似度評價(jià)規(guī)則:(1)以馬氏距離平均值小的樣品判定為相似度高;(2)當(dāng)兩樣品馬氏距離差值小于或等于±0.05時(shí),以標(biāo)準(zhǔn)偏差小的樣品判定為相似度高。本發(fā)明方法的流程圖1所示。
本發(fā)明與現(xiàn)有技術(shù)相比,其有益效果為:
(1)較一次建模計(jì)算相似度,選取所有樣品進(jìn)行分組主成分分析,建立多模型計(jì)算煙葉原料相似度方法,更能充分提取所有樣品致香成分?jǐn)?shù)據(jù)信息。
(2)較一次建模計(jì)算相似度,將樣品進(jìn)行不同組合后進(jìn)行主成分分析,建立多模型計(jì)算煙葉原料相似度方法,更能兼顧原料庫中煙葉樣品致香成分含量的差異性數(shù)據(jù)對整體數(shù)據(jù)信息的影響。
(3)采用同一訓(xùn)練集中的不同子集建立多個(gè)模型同時(shí)進(jìn)行預(yù)測,將多個(gè)預(yù)測結(jié)果通過簡單平均作為最終的預(yù)測結(jié)果,可獲得更高的預(yù)測精度和穩(wěn)定性。
附圖說明
圖1為本發(fā)明方法的流程圖。
圖2為實(shí)施例1中第1個(gè)驗(yàn)證有效主成分模型主成分得分圖。
圖3為實(shí)施例1中9個(gè)相似度評價(jià)樣本的馬氏距離分布圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)描述。
本領(lǐng)域技術(shù)人員將會理解,下列實(shí)施例僅用于說明本發(fā)明,而不應(yīng)視為限定本發(fā)明的范圍。實(shí)施例中未注明具體技術(shù)或條件者,按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件或者按照產(chǎn)品說明書進(jìn)行。所用試劑或儀器未注明生產(chǎn)廠商者,均為可以通過購買獲得的常規(guī)產(chǎn)品。
實(shí)施例1
以2014年9個(gè)云南地區(qū)煙葉與市售某品牌卷煙原料庫中某待替換煙葉取樣得到的60個(gè)煙葉樣品的相似度評價(jià)為例進(jìn)行說明。
(1)采用同時(shí)蒸餾萃取結(jié)合氣相色譜/質(zhì)譜聯(lián)用儀(GC/MS)參照王玉等發(fā)表《卷煙揮發(fā)性成分的聚類分析》文章方法測定9個(gè)云南地區(qū)煙葉及市售某品牌卷煙原料庫中某待替換煙葉取樣得到的60個(gè)煙葉樣品的致香成分含量,致香成分信息如表1所示。
表1 煙葉原料中致香成分信息
(2)將步驟(1)中測得的60個(gè)煙葉樣品的致香成分含量數(shù)據(jù)導(dǎo)入matlab軟件中,構(gòu)成基礎(chǔ)數(shù)據(jù)矩陣。
(3)設(shè)定采樣次數(shù)為20,采用蒙特卡洛采樣方法,得到20個(gè)主成分模型訓(xùn)練集及對應(yīng)的內(nèi)部驗(yàn)證集。每個(gè)訓(xùn)練集樣本個(gè)數(shù)48,內(nèi)部驗(yàn)證集樣本個(gè)數(shù)為12。
(4)分別對20個(gè)主成分模型訓(xùn)練集進(jìn)行主成分分析,構(gòu)建得到20個(gè)主成分模型;之后將與構(gòu)建主成分模型所用的訓(xùn)練集對應(yīng)的內(nèi)部驗(yàn)證集的樣本輸入該主成分模型中,計(jì)算內(nèi)部驗(yàn)證集樣本的馬氏距離;(即采用主成分模型訓(xùn)練集1構(gòu)建主成分模型1,然后將內(nèi)部驗(yàn)證集1中所有的樣本輸入到主成分模型1中,計(jì)算各個(gè)內(nèi)部驗(yàn)證集1樣本的馬氏距離;采用主成分模型訓(xùn)練集2構(gòu)建主成分模型2,然后將內(nèi)部驗(yàn)證集2中所有的樣本輸入到主成分模型2中,計(jì)算各個(gè)內(nèi)部驗(yàn)證集2樣本的馬氏距離;以此類推。)
20個(gè)主成分模型內(nèi)部驗(yàn)證集樣品馬氏距離的最大值、最小值、平均值如表2所示
表2 20個(gè)主成分模型內(nèi)部驗(yàn)證集樣品馬氏距離的最大值、最小值、平均值及模型有效性
(5)主成分模型內(nèi)部驗(yàn)證有效性判定規(guī)則:所有內(nèi)部驗(yàn)證樣本在主成分模型中計(jì)算得到馬氏距離的最大值不得超過2為有效,否則為無效。
根據(jù)主成分模型內(nèi)部驗(yàn)證有效性判定規(guī)則,判定建立的20個(gè)主成分模型的有效性,判定得到有效模型14個(gè),無效模型6個(gè)。第1個(gè)驗(yàn)證有效主成分模型第1-2主成分得分圖如圖2所示。
(6)以2014年9個(gè)云南地區(qū)煙葉作為需要評價(jià)的新煙葉原料,將2014年9個(gè)云南地區(qū)煙葉的致香成分?jǐn)?shù)據(jù)導(dǎo)入14個(gè)有效模型中計(jì)算馬氏距離,如表3所示。9個(gè)相似度評價(jià)樣本的馬氏距離分布如圖3所示。
表3 2014年9個(gè)云南地區(qū)煙葉在14個(gè)有效模型中馬氏距離的平均值及標(biāo)準(zhǔn)偏差
(7)根據(jù)驗(yàn)證樣品相似度評價(jià)判定規(guī)則:(1)以馬氏距離平均值小的樣品判定為相似度高;(2)當(dāng)兩樣品馬氏距離差值小于或等于±0.05時(shí),以標(biāo)準(zhǔn)偏差小的樣品判定為相似度高。判定2014年9個(gè)云南地區(qū)煙葉與原料庫中某葉組配方等級煙葉樣品相似度從高到低排序?yàn)椋?、2、3、5、8、9、4、1、7。上述結(jié)果表明:在致香成分含量上,6號樣品與欲被替代的樣品具有更高相似性,6號樣品為替代樣品的最優(yōu)選擇。
以上顯示和描述了本發(fā)明的基本原理、主要特征和本發(fā)明的優(yōu)點(diǎn)。本行業(yè)的技術(shù)人員應(yīng)該了解,本發(fā)明不受上述實(shí)施例的限制,上述實(shí)施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進(jìn),這些變化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其等效物界定。