本發(fā)明涉及一種用于谷氨酰胺定量分析的波長選擇方法及裝置,屬于太赫茲光譜技術(shù)領(lǐng)域。
背景技術(shù):
在對(duì)谷氨酰胺樣品進(jìn)行太赫茲吸收譜定量分析中,通過實(shí)驗(yàn)得到的谷氨酰胺樣品的原始太赫茲吸收譜通常涵蓋一段較寬的頻段,包含大量的波長點(diǎn)數(shù)據(jù),其中不僅包括信噪比較高的有用數(shù)據(jù),也包含信噪比較低的噪聲數(shù)據(jù)以及不屬于任一組分特征的冗余數(shù)據(jù),若直接將原始吸收譜用于定量分析勢必導(dǎo)致較高誤差,因此需要進(jìn)行適當(dāng)選擇。由于吸收譜是由一系列波長點(diǎn)數(shù)據(jù)組成的,對(duì)吸收譜數(shù)據(jù)的選擇實(shí)際上就是對(duì)波長的選擇,因而在光譜學(xué)中被定義為波長選擇(Wavelength selection)。對(duì)于太赫茲光譜定量分析領(lǐng)域而言,波長選擇對(duì)定量分析的準(zhǔn)確度至關(guān)重要,若選擇不恰當(dāng),會(huì)導(dǎo)致較大誤差。但是目前在太赫茲光譜定量分析中,波長選擇常用的做法是人為地依據(jù)經(jīng)驗(yàn)從原始光譜中選取某一波段數(shù)據(jù)用于定量計(jì)算,而對(duì)太赫茲光譜波長選擇的機(jī)理及方法缺乏系統(tǒng)性的深入研究。
中國計(jì)量學(xué)院的王強(qiáng)教授等人分別利用偏最小二乘法(partial least squares,PLS)、區(qū)間偏最小二乘法(interval PLS,iPLS)、向后區(qū)間偏最小二乘法(backward iPLS,biPLS)以及移動(dòng)窗口偏最小二乘法(moving window PLS,mwPLS)對(duì)噻苯咪唑位于0.3-1.6THz頻段內(nèi)的太赫茲特征光譜進(jìn)行了波長選擇,并對(duì)四種算法的性能進(jìn)行了細(xì)致的比較。桂林電子科技大學(xué)的陳濤等人就太赫茲光譜定量分析中的特征譜區(qū)篩選進(jìn)行了相關(guān)研究。除上述王強(qiáng)等人提出的波長選擇方法外,又采用了聯(lián)合區(qū)間偏最小二乘法(siPLS)并進(jìn)行了一系列對(duì)比。但是基于偏最小二乘的波長選擇方法,通過將原始光譜分割成若干區(qū)間加以篩選,難免會(huì)將部分無意義數(shù)據(jù)含入其中,甚至將一些有意義數(shù)據(jù)錯(cuò)誤地拋棄。
公布號(hào)為CN105136714A的專利申請(qǐng)文件公開了一種基于遺傳算法的太赫茲光譜波長選擇方法,該方法采用遺傳算法進(jìn)行波長選擇,其所采用的遺傳算法中交叉概率與變異概率的值為固定值,導(dǎo)致算法過早收斂,使得搜索的目標(biāo)范圍變小,影響所選取的波長的準(zhǔn)確性,最終導(dǎo)致谷氨酰胺定量分析的誤差增大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種用于谷氨酰胺定量分析的波長選擇方法及裝置,以解決目前波長選擇方法所選取到的波長不夠準(zhǔn)確的問題。
本發(fā)明為解決上述技術(shù)問題而提供一種用于谷氨酰胺定量分析的波長選擇方法,該波長選擇方法的步驟如下:
1)隨機(jī)生成一個(gè)大小為S的初始種群,利用該初始種群從谷氨酰胺樣品的太赫茲吸收譜中進(jìn)行選取,以得到種群中每個(gè)個(gè)體相對(duì)應(yīng)的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜;
2)根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應(yīng)度函數(shù);
3)利用所構(gòu)造的適應(yīng)度函數(shù)從種群中選擇出適應(yīng)度較高的個(gè)體遺傳到下一代,組成新一代種群;
4)以能夠根據(jù)適應(yīng)度自適應(yīng)調(diào)節(jié)的交叉概率和變異概率分別對(duì)新一代種群進(jìn)行交叉和變異操作;
5)以預(yù)設(shè)的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則算法終止,并挑選出具有最大適應(yīng)度值的個(gè)體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復(fù)步驟3)—4),直到滿足終止條件為止。
進(jìn)一步地,所述步驟4)中的交叉概率PC和變異概率PM為:
Δ=Faverage-Fmax
其中Faverage是種群中所有個(gè)體適應(yīng)度值的平均值,F(xiàn)max是種群中所有個(gè)體適應(yīng)度值的最大值,Δ是上述二者之差。
進(jìn)一步地,所述步驟2)構(gòu)建的適應(yīng)度函數(shù)為:
qe=|ccal-creal|
其中F是適應(yīng)度值,m是校正集中谷氨酰胺樣品的總數(shù)量(校正集是由若干個(gè)成分濃度信息已知的谷氨酰胺樣品組成的),qe是每個(gè)谷氨酰胺樣品對(duì)應(yīng)的定量分析誤差,n代表校正集中混合物樣品的某一個(gè)。
進(jìn)一步地,步驟3)中個(gè)體遺傳到下一代的個(gè)數(shù)num(i)為:
其中num(i)是第i個(gè)個(gè)體遺傳到下一代種群中的個(gè)數(shù),S0.2是種群大小的20%,i代表種群中所有個(gè)體的某一個(gè),F(xiàn)(i)代表其所對(duì)應(yīng)的適應(yīng)度值。
進(jìn)一步地,所述的收斂條件為連續(xù)N代的適應(yīng)度最大值F_Max的標(biāo)準(zhǔn)差小于設(shè)定閾值TH。
本發(fā)明還提供了一種用于谷氨酰胺定量分析的波長選擇裝置,該選擇裝置包括生成模塊、適應(yīng)度函數(shù)構(gòu)造模塊、選擇模塊、交叉和變異操作模塊和終止模塊,
所述生成模塊用于隨機(jī)生成一個(gè)大小為S的初始種群,利用該初始種群從谷氨酰胺樣品的太赫茲吸收譜中進(jìn)行選取,以得到種群中每個(gè)個(gè)體相對(duì)應(yīng)的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜;
所述適應(yīng)度函數(shù)構(gòu)造模塊用于根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應(yīng)度函數(shù);
所述選擇模塊用于利用所構(gòu)造的適應(yīng)度函數(shù)從種群中選擇出適應(yīng)度較高的個(gè)體遺傳到下一代,組成新一代種群;
所述的交叉和變異操作模塊用于以能夠根據(jù)適應(yīng)度自適應(yīng)調(diào)節(jié)的交叉概率和變異概率分別對(duì)新一代種群進(jìn)行交叉和變異操作;
所述的終止模塊用于以預(yù)設(shè)的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則算法終止,并挑選出具有最大適應(yīng)度值的個(gè)體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復(fù)執(zhí)行選擇模塊與交叉和變異操作模塊,直到滿足終止條件為止。
進(jìn)一步地,所述交叉和變異操作模塊中采用的交叉概率PC和變異概率PM為:
Δ=Faverage-Fmax
其中Faverage是種群中所有個(gè)體適應(yīng)度值的平均值,F(xiàn)max是種群中所有個(gè)體適應(yīng)度值的最大值,Δ是上述二者之差。
進(jìn)一步地,所述的適應(yīng)度函數(shù)構(gòu)造模塊構(gòu)造的適應(yīng)度函數(shù)為:
qe=|ccal-creal
其中F是適應(yīng)度值,m是校正集中谷氨酰胺樣品的總數(shù)量,qe是每個(gè)谷氨酰胺樣品對(duì)應(yīng)的定量分析誤差,n代表校正集中混合物樣品的某一個(gè),ccal和creal分別是谷氨酰胺樣品的計(jì)算濃度和真實(shí)濃度。
進(jìn)一步地,所述的選擇模塊中個(gè)體遺傳到下一代的個(gè)數(shù)num(i)為:
其中num(i)是第i個(gè)個(gè)體遺傳到下一代種群中的個(gè)數(shù),S0.2是種群大小的20%,i代表種群中所有個(gè)體的某一個(gè),F(xiàn)(i)代表其所對(duì)應(yīng)的適應(yīng)度值。
進(jìn)一步地,所述終止模塊選用的收斂條件為連續(xù)N代的適應(yīng)度最大值F_Max的標(biāo)準(zhǔn)差小于設(shè)定閾值TH。
本發(fā)明的有益效果是:本發(fā)明采用遺傳算法進(jìn)行波長選擇,通過隨機(jī)生成一個(gè)大小為S的初始種群,并得到種群中每個(gè)個(gè)體相對(duì)應(yīng)的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜,根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應(yīng)度函數(shù),利用該適應(yīng)度函數(shù)從上述種群中挑選出適應(yīng)度較高的個(gè)體遺傳到下一代,組成新一代種群,以能夠根據(jù)適應(yīng)度自適應(yīng)調(diào)節(jié)的交叉和變異概率分別對(duì)新一代種群進(jìn)行交叉和變異操作,并以預(yù)設(shè)的收斂條件作為遺傳操作的終止條件。本發(fā)明在進(jìn)行交叉和變異的遺傳操作時(shí),叉概率與變異概率的值根據(jù)算法的收斂和發(fā)散情況進(jìn)行自適應(yīng)調(diào)整,避免算法陷入過早收斂,能夠在大范圍內(nèi)尋求目標(biāo)問題的最優(yōu)解。通過上述過程,本發(fā)明從中挑選出的波長信息為具有較高信噪比的樣品有用信息,從而提高了谷氨酰胺定量分析的準(zhǔn)確度。
附圖說明
圖1是本發(fā)明用于谷氨酰胺定量分析的波長選擇方法的流程圖;
圖2是未經(jīng)波長選擇的谷氨酰胺樣品的太赫茲吸收譜;
圖3是采用本發(fā)明波長選擇后的重構(gòu)谷氨酰胺太赫茲吸收譜。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式做進(jìn)一步的說明。
本發(fā)明用于谷氨酰胺定量分析的波長選擇方法的實(shí)施例
本發(fā)明采用遺傳算法進(jìn)行波長選擇,通過隨機(jī)生成一個(gè)大小為S的初始種群,并得到種群中每個(gè)個(gè)體相對(duì)應(yīng)的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜,根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應(yīng)度函數(shù),利用該適應(yīng)度函數(shù)從上述種群中挑選出適應(yīng)度較高的個(gè)體遺傳到下一代,組成新一代種群,以能夠根據(jù)適應(yīng)度自適應(yīng)調(diào)節(jié)的交叉和變異概率分別對(duì)新一代種群進(jìn)行交叉和變異操作,并以預(yù)設(shè)的收斂條件作為遺傳操作的終止條件。該方法的流程如圖1所示,具體過程如下:
1.隨機(jī)生成一個(gè)大小為S的初始種群,并得到種群中每個(gè)個(gè)體相對(duì)應(yīng)的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜。
該步驟中的初始種群由S個(gè)長度為fl的二進(jìn)制字符串組成,該二進(jìn)制字符串與谷氨酰胺樣品的太赫茲吸收譜中的fl個(gè)頻率點(diǎn)一一對(duì)應(yīng),若二進(jìn)制字符串某位上為“1”,則對(duì)應(yīng)頻率點(diǎn)被保留,否則該頻率點(diǎn)則被拋棄,將所有保留下的頻率點(diǎn)數(shù)據(jù)整合在一起,組成經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜。
2.根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應(yīng)度函數(shù)。
本發(fā)明所構(gòu)造的適應(yīng)度函數(shù)為:
其中F是適應(yīng)度值,m是校正集中谷氨酰胺樣品的總數(shù)量(校正集是由若干個(gè)成分濃度信息已知的谷氨酰胺樣品組成的),qe是每個(gè)谷氨酰胺樣品對(duì)應(yīng)的定量分析誤差,n代表校正集中混合物樣品的某一個(gè)。
qe=|ccal-creal| (2)
ccal和creal分別是谷氨酰胺樣品的計(jì)算濃度和真實(shí)濃度,谷氨酰胺樣品的計(jì)算濃度ccal是通過對(duì)谷氨酰胺樣品的太赫茲吸收譜進(jìn)行偏最小二乘線性回歸得到,谷氨酰胺樣品的真實(shí)濃度creal是預(yù)先配制的。
3.對(duì)上述種群進(jìn)行選擇操作,利用適應(yīng)度函數(shù)從中挑選中適應(yīng)度值較高的個(gè)體組成新一代種群。
本實(shí)施例中的選擇操作個(gè)體遺傳到下一代種群中的個(gè)數(shù)為:
其中num(i)是第i個(gè)個(gè)體遺傳到下一代種群中的個(gè)數(shù),S0.2是種群大小的20%,i代表種群中所有個(gè)體的某一個(gè),F(xiàn)(i)代表其所對(duì)應(yīng)的適應(yīng)度值,直接用公式(3)計(jì)算得到的數(shù)值一般為小數(shù),為使下一代的種群個(gè)數(shù)保持不變并使盡可能多的優(yōu)秀個(gè)體遺傳下去,設(shè)計(jì)了如下操作:
對(duì)num向下取整,將其和計(jì)為n1;計(jì)算n1與S的差值,計(jì)為n2;將num的小數(shù)部分剝離出來并按照從大到小排列,取前n2個(gè),將其對(duì)應(yīng)個(gè)體的num分別加1,從而產(chǎn)生一個(gè)大小不變的新種群。
4.對(duì)新一代種群執(zhí)行交叉與變異操作,
本實(shí)施例中交叉概率PC和變異概率PM為:
Δ=Faverage-Fmax
其中Faverage是種群中所有個(gè)體適應(yīng)度值的平均值,F(xiàn)max是種群中所有個(gè)體適應(yīng)度值的最大值,Δ是上述二者之差。可見,本實(shí)施例中的交叉概率和變異概率能夠隨著個(gè)體適應(yīng)度值的變化而進(jìn)行自適應(yīng)調(diào)整。
5.以預(yù)設(shè)的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則終止,并挑選出具有最大適應(yīng)度值的個(gè)體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復(fù)步驟3—4,直到滿足終止條件為止。
本實(shí)施例中的收斂條件為當(dāng)連續(xù)N代的適應(yīng)度最大值F_Max的標(biāo)準(zhǔn)差小于設(shè)定閾值TH的時(shí)候,使得程序終止。
為了驗(yàn)證本發(fā)明的優(yōu)越性,設(shè)計(jì)了一系列定量分析的實(shí)驗(yàn)。實(shí)驗(yàn)選取了10個(gè)不同含量的谷氨酰胺樣品的太赫茲吸收譜(其中前7個(gè)為校正集,后3個(gè)為驗(yàn)證集),分別利用不經(jīng)選擇的谷氨酰胺全吸收譜以及經(jīng)過本發(fā)明提出的波長選擇方法選擇后的谷氨酰胺重構(gòu)太赫茲吸收譜對(duì)谷氨酰胺樣品進(jìn)行定量分析,谷氨酰胺樣品含量以及定量分析的誤差如表1所示。本實(shí)驗(yàn)中,谷氨酰胺樣品(具體包括谷氨酸和組氨酸)的原始太赫茲吸收譜范圍為0.3-3THz,分辨率約為4.5GHz,共有590個(gè)頻率點(diǎn),所以種群中二進(jìn)制字符串個(gè)體的長度為590,種群大小為50,收斂條件中,N為100,TH為1×10-4。
表1.樣品的組成以及定量分析的誤差
上述實(shí)驗(yàn)數(shù)據(jù)表明,利用本發(fā)明提出的波長選擇方法,能夠有效降低對(duì)谷氨酰胺樣品太赫茲吸收譜進(jìn)行定量分析的誤差,誤差大致在4%以下,取得了優(yōu)異的效果。
本發(fā)明用于谷氨酰胺定量分析的波長選擇裝置的實(shí)施例
本實(shí)施例中的波長選擇裝置包括生成模塊、適應(yīng)度函數(shù)構(gòu)造模塊、選擇模塊、交叉和變異操作模塊和終止模塊,生成模塊用于隨機(jī)生成一個(gè)大小為S的初始種群,利用該初始種群從谷氨酰胺樣品的太赫茲吸收譜中進(jìn)行選取,以得到種群中每個(gè)個(gè)體相對(duì)應(yīng)的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜;適應(yīng)度函數(shù)構(gòu)造模塊用于根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應(yīng)度函數(shù);選擇模塊用于利用所構(gòu)造的適應(yīng)度函數(shù)從種群中選擇出適應(yīng)度較高的個(gè)體遺傳到下一代,組成新一代種群;交叉和變異操作模塊用于以能夠根據(jù)適應(yīng)度自適應(yīng)調(diào)節(jié)的交叉概率和變異概率分別對(duì)新一代種群進(jìn)行交叉和變異操作;終止模塊用于以預(yù)設(shè)的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則算法終止,并挑選出具有最大適應(yīng)度值的個(gè)體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復(fù)執(zhí)行選擇模塊與交叉和變異操作模塊,直到滿足終止條件為止。
這里的波長選擇裝置可以采用單片機(jī)、DSP、PLC或MCU等,波長選擇裝置執(zhí)行有上述五個(gè)模塊,這里的模塊可以位于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤、移動(dòng)磁盤、CD-ROM或者本領(lǐng)域已知的任何其他形式的存儲(chǔ)介質(zhì),可以將該存儲(chǔ)介質(zhì)耦接至波長選擇裝置,使波長選擇裝置能夠從該存儲(chǔ)介質(zhì)讀取信息,或者該存儲(chǔ)介質(zhì)可以是波長選擇裝置的組成部分。各模塊的具體實(shí)現(xiàn)手段已在方法的實(shí)施例中進(jìn)行了詳細(xì)說明,這里不再贅述。