本發(fā)明涉及一種圖像提取方法,尤其涉及水文資料圖像中的水文曲線的提取方法,屬于圖像分割領(lǐng)域。
背景技術(shù):
在當(dāng)今信息化與數(shù)字化的時代,隨著計算機(jī)的普及以及存儲介質(zhì)的高速發(fā)展,各種研究領(lǐng)域都對數(shù)據(jù)信息的數(shù)字化愈加重視。由于歷史原因,水文水利等領(lǐng)域大多使用網(wǎng)格圖紙記錄觀測數(shù)據(jù)。然而紙質(zhì)材料由于保存不當(dāng)?shù)仍驎斐蓳p壞、污染等問題,容易對所承載的信息造成損失。且紙質(zhì)材料占據(jù)空間,又不易于信息的交換和傳遞,更可能埋沒了海量信息中可能隱藏的、有待發(fā)掘的知識。因此有必要對這些紙質(zhì)資料進(jìn)行數(shù)字化。利用圖像處理的方式將這些信息采集并建立數(shù)據(jù)庫,將避免大量的手工重復(fù)勞動,也能高效精準(zhǔn)的對這些信息進(jìn)行錄入,具有較強(qiáng)的實(shí)際應(yīng)用價值。
紙質(zhì)水文資料通常是在橘紅色的坐標(biāo)網(wǎng)格紙上繪制的藍(lán)紫色的水文曲線,在數(shù)字化過程中,獲取圖紙中的信息時就需要得到水文曲線與網(wǎng)格線的各個交點(diǎn),作為各個時刻的觀測值。這一過程要求對圖像進(jìn)行分割,涉及了網(wǎng)格線分割與水文曲線分割。
圖像分割就是把圖像按照一定的標(biāo)準(zhǔn)劃分成若干個特定的、具有獨(dú)特性質(zhì)的區(qū)域并從中提取出感興趣目標(biāo)的技術(shù)與過程。圖像分割是圖像分析的關(guān)鍵前提,其分割的質(zhì)量優(yōu)劣很大程度上決定著后續(xù)圖像分析的效果。圖像分割可分為灰度圖像分割和彩色圖像分割。與灰度圖像相比,彩色圖像不僅包含亮度信息,更包含了各種顏色信息,其分割方式更為多樣,但與之對應(yīng)的分割難度也更大。目前為止,國內(nèi)外的研究人員在彩色圖像分割領(lǐng)域已進(jìn)行了大量的研究,并提出了許多分割算法,以及針對特定圖像的分割策略,主要包括基于直方圖閾值法、基于區(qū)域方法、邊緣檢測方法、模糊聚類分割方法和神經(jīng)網(wǎng)絡(luò)法等。
在之前的研究中,對水文資料圖像的分割通常采用的是基于顏色直方圖的閾值分析方法,也考慮了梯度信息與顏色信息的融合使用。此類方法能自適應(yīng)的完成一般情況下的圖像分割,且能減少相機(jī)拍攝是光照不均的影響。但在實(shí)際使用該類方法時發(fā)現(xiàn)提取獲得的水文曲線在某些特殊情況下容易產(chǎn)生斷線,并且常常斷的很嚴(yán)重,難以用膨脹方法解決。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:針對紙質(zhì)水文資料的數(shù)字化,提供一種水文曲線提取方法,能夠準(zhǔn)確的提取出其中的水文曲線,有效的規(guī)避曲線斷線問題。
本發(fā)明的水文曲線提取方法,所涉及的水文資料圖像通過對紙質(zhì)水文資料拍攝得到。
本發(fā)明具體采用以下技術(shù)方案解決上述問題。
一種基于機(jī)器學(xué)習(xí)的水文曲線提取方法,包括以下步驟:
步驟A、選定采樣窗口的尺度及需采樣的目標(biāo)特征,并據(jù)此采集具有代表性的訓(xùn)練樣本集合;所述窗口的尺度可伸縮。窗口尺度的選擇決定了用于分類的數(shù)據(jù)量,也直接影響著計算量的規(guī)模。
步驟B、利用機(jī)器學(xué)習(xí)的方法從訓(xùn)練樣本中訓(xùn)練產(chǎn)生分類預(yù)測模型;
步驟C、對待處理圖像中的各個像素,按照采樣窗口采集得到目標(biāo)特征作為待分類樣本,利用步驟B訓(xùn)練得到的分類預(yù)測模型進(jìn)行分類;
步驟D、判斷待處理圖像中各個像素的分類結(jié)果是否較好,使得曲線提取完整且沒有其他分類錯誤明顯的區(qū)域。若是,則進(jìn)入步驟F;否則,進(jìn)入步驟E;
步驟E、從曲線斷線區(qū)域以及分類錯誤明顯的區(qū)域選取具有代表性的樣本點(diǎn),對其采樣后添加到訓(xùn)練樣本集合中,并重復(fù)步驟B;
步驟F、對處理后的圖像進(jìn)行后處理,去除可能存在的噪聲。
優(yōu)選地,步驟A中所采集的訓(xùn)練樣本集合應(yīng)至少包含“水文曲線”、“網(wǎng)格線”、“其他背景”三種類別的樣本。
優(yōu)選地,步驟F中使用的圖像后處理方法采用鏈碼跟蹤與膨脹處理相結(jié)合。其中鏈碼跟蹤水文曲線之前,先對網(wǎng)格線進(jìn)行跟蹤,確定網(wǎng)格線對應(yīng)的作圖區(qū)域;此步驟能減輕跟蹤水文曲線時的處理強(qiáng)度。
優(yōu)選地,鏈碼跟蹤后將尺寸小于特定閾值的連通域認(rèn)定為噪聲,并剔除出圖像。該閾值取值為10000。
優(yōu)選地,連通域的尺寸大小采用該連通域的最小外接矩形的面積來表示。
相比現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
一、本發(fā)明能更好的解決對細(xì)線進(jìn)行提取時容易產(chǎn)生的斷線問題;
二、本發(fā)明基于對樣本模式的分類,只要選擇充分的訓(xùn)練樣本,并不需要考慮光照等問題的影響;
三、采用離線學(xué)習(xí),并不需要對每個圖像重新采集樣本訓(xùn)練。
附圖說明
圖1、圖2和圖3為三幅拍攝得到的水文資料圖像。
圖4a和圖4b為現(xiàn)有方法對圖1和圖2提取水文曲線的結(jié)果。
圖5a和圖5b為本發(fā)明方法中訓(xùn)練分類模型的不同階段對圖2分類預(yù)測的結(jié)果。
圖6a和圖6b為本發(fā)明方法中訓(xùn)練分類模型的不同階段對圖3分類預(yù)測的結(jié)果。
圖7a和圖7b為本發(fā)明方法對圖2和圖3提取水文曲線的結(jié)果。
圖8是本發(fā)明的流程圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明:圖1和圖2分別顯示了兩幅水文資料圖像,對其進(jìn)行數(shù)字化的關(guān)鍵在于對其中的水文曲線(藍(lán)紫色)及坐標(biāo)網(wǎng)格線(橘紅色)的提取。從圖中可以看出由于保存時間長、保存條件不夠理想,圖像中除了磨壞破損、紙質(zhì)老化外,還存在著色彩暈染、褪色等問題,甚至同一份圖紙上的不圖區(qū)域顏色濃淡不一。且由于拍攝時的光照影響,部分區(qū)域的顏色信息減弱或失去了原有的特征,使得提取問題變得更為復(fù)雜。
之前的研究所采用的基于顏色直方圖的閾值分析方法,融合了梯度信息與顏色信息,對上述問題能得到較好的解決,其對圖1和圖2的處理結(jié)果如圖4a和圖4b??梢钥吹綀D像的提取結(jié)果較好,大致能完成對目標(biāo)物的識別及提取,但有時提取的水文曲線會存在斷線,屬于特例,如圖4b中的斷線處。對這些斷線處進(jìn)行細(xì)致觀察,發(fā)現(xiàn)斷線的主要原因是圖中水文曲線太細(xì),使得在與網(wǎng)格線有大量重合時(通常為曲線與網(wǎng)格線近似平行時的重合)曲線的墨色沒有徹底蓋住網(wǎng)格線的顏色,最終顯示的顏色將為二者的疊加。這種顏色的疊加導(dǎo)致了顏色信息的遷移,該處的像素不再滿足普遍的水文曲線顏色特征,提取曲線時在該處就容易產(chǎn)生斷線。更有甚者,當(dāng)曲線的某一段與網(wǎng)格線近似平行時,將會產(chǎn)生大量的重合區(qū)域,該處往往斷線嚴(yán)重,難以通過膨脹等方法進(jìn)行補(bǔ)全。由于不再滿足閾值特征,原有處理方法不再適用,而調(diào)整閾值將會導(dǎo)致噪聲點(diǎn)大量增加,圖像提取不穩(wěn)定。于是考慮采用新的思路對水文曲線進(jìn)行提取。
考慮到重合區(qū)域的顏色信息發(fā)生遷移后的結(jié)果并不與曲線特征或網(wǎng)格線特征等既有信息相同,目標(biāo)是將這些變化后的特征信息依然識別為目標(biāo)曲線。本發(fā)明提出了基于機(jī)器學(xué)習(xí)的水文曲線提取方法,通過對圖像中像素進(jìn)行多特征融合的采樣,獲得一定數(shù)量的帶標(biāo)簽的訓(xùn)練樣本,并利用機(jī)器學(xué)習(xí)的方法訓(xùn)練得到分類預(yù)測模型。利用模型可以對圖中像素進(jìn)行分類預(yù)測,將預(yù)測為水文曲線的像素提取出來。并且通過對分類錯誤像素區(qū)域進(jìn)行重采樣,可以使訓(xùn)練樣本集合更為完備,訓(xùn)練產(chǎn)生更為健壯的分類預(yù)測模型。為了不使處理過程中產(chǎn)生的噪聲影響曲線提取結(jié)果,還要利用鏈碼跟蹤的方法對提取出的水文曲線圖像進(jìn)行后處理。
具體的,本發(fā)明包含以下步驟:
步驟A、確定窗口尺度和采樣特征組合,采集訓(xùn)練樣本;
采集訓(xùn)練樣本時要先確定采樣窗口的尺度以及需要采樣的特征。采樣窗口以當(dāng)前像素點(diǎn)為窗口中心點(diǎn),同時兼顧窗口中包圍當(dāng)前像素點(diǎn)的其他像素的信息,即局部信息。由于單個像素中存有的信息相當(dāng)有限,當(dāng)把像素周圍的其他局部信息一起納入考慮時,可以使得樣本維度更高,更有利于細(xì)致的分類。窗口可以使用多種尺度,如3*3、5*5、7*7等,尺度越大則樣本中包含的信息越多,有助于更細(xì)致精準(zhǔn)的分類,但計算時間也越長;尺度越小則樣本中的信息越少,相對應(yīng)的,計算時間也越短。具體的尺度選擇應(yīng)由實(shí)際應(yīng)用的需求而定。
另一方面,對窗口采樣時所采用的局部信息也需要進(jìn)行選擇,這些信息由一些特征值組成,包括顏色特征(RGB、Lab或HSI等)、梯度特征、紋理特征(LBP或Gabor等)、SIFT特征等。具體的特征組合的選擇應(yīng)考慮這些特征對水文曲線提取效果的影響,選取其中適量的幾組特征進(jìn)行組合。過多的特征選擇會帶來信息的冗余和計算的負(fù)荷,過少的特征則可能使得分類效果下降。特征組合的選擇關(guān)系著分類的效果與計算時的負(fù)荷。
對一個像素進(jìn)行上述采樣時,應(yīng)按照事先約定的窗口大小、特征組合方式按一定順序獲取各個特征值并整合為有序的樣本向量。采集顏色特征時,應(yīng)按照從左到右、從上到下的順序依次對窗口中的各像素進(jìn)行采集。另外,對訓(xùn)練樣本要另外附加一維特征,作為當(dāng)前訓(xùn)練樣本的類別標(biāo)簽。
在采集訓(xùn)練樣本時,采樣點(diǎn)的選取尤為重要,應(yīng)注意:1、在采樣時應(yīng)兼顧各個不同的目標(biāo)類別,各自都應(yīng)取得足量的樣本點(diǎn);2、在目標(biāo)類別相同的像素點(diǎn)中,要盡量涵蓋具有不同局部特征的像素;3、在類別相同且局部特征相似的像素點(diǎn)中應(yīng)選擇幾個具有典型性的像素進(jìn)行采樣。其中,所采集的訓(xùn)練樣本集合應(yīng)至少包含“水文曲線”、“網(wǎng)格線”、“其他背景”三種類別的樣本。
步驟B、利用機(jī)器學(xué)習(xí)方法訓(xùn)練產(chǎn)生分類預(yù)測模型;
機(jī)器學(xué)習(xí)方法包括有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。由于當(dāng)前問題中分類目標(biāo)明確,只希望提取出水文曲線,故采用有監(jiān)督的學(xué)習(xí)方法,利用采集的帶類別標(biāo)簽的訓(xùn)練樣本獲得分類預(yù)測模型。此類學(xué)習(xí)方法包括決策樹、貝葉斯分類器、K近鄰、BP神經(jīng)網(wǎng)絡(luò)、感知器以及支持向量機(jī)SVM等。不同的機(jī)器學(xué)習(xí)方法有不同的特點(diǎn),應(yīng)根據(jù)實(shí)際需要選用。機(jī)器學(xué)習(xí)方法的選擇關(guān)系著曲線提取的效果及效率。
分析不同的水文資料圖像發(fā)現(xiàn),各個圖像之間的顏色及結(jié)構(gòu)特征很相似,從特征空間的角度,即使是不同的圖像也可以用特征空間上的同一組分界面大致進(jìn)行分類、提取。于是決定采用離線學(xué)習(xí)的方法,目標(biāo)為訓(xùn)練產(chǎn)生一個效果優(yōu)異的分類預(yù)測模型,用于對所有待處理圖像中的像素點(diǎn)進(jìn)行分類、提取,而不是為每一個圖像訓(xùn)練產(chǎn)生一個模型。
步驟C、對待處理圖像進(jìn)行分類預(yù)測,并補(bǔ)充訓(xùn)練樣本集;
依照上述步驟A中所約定的方式,對待處理的圖像逐像素的提取對應(yīng)的特征樣本,并作為輸入經(jīng)由所獲得的分類預(yù)測模型進(jìn)行預(yù)測分類。提取出其中預(yù)測為“水文曲線”的像素,作為此次曲線提取的結(jié)果。
如果曲線提取結(jié)果完整,效果令人滿意,即可進(jìn)入下一步驟;但通常不能立刻獲得令人滿意的提取結(jié)果,提取的曲線往往比較粗糙且會出現(xiàn)斷線,也會提取出許多噪聲點(diǎn)。解決辦法是,以增量方式不斷地獲得新的樣本加入訓(xùn)練樣本集,從而訓(xùn)練得到愈加完善而健壯的分類預(yù)測模型。每次作為增量的新訓(xùn)練樣本都來自前一次的預(yù)測分類結(jié)果,即從中找出曲線斷線處以及其他分類出錯率較大的區(qū)域,選擇區(qū)域內(nèi)在局部特征上具有典型性的像素點(diǎn)進(jìn)行采樣。此方法旨在對過去錯誤預(yù)測進(jìn)行學(xué)習(xí)彌補(bǔ),在類別分界面附近重新采樣,由此補(bǔ)償樣本空間上的遺漏和空缺,得到更為完備的訓(xùn)練集,從而獲得更為精細(xì)準(zhǔn)確的分界面和更為健壯的分類預(yù)測模型。
利用添加增量后的訓(xùn)練樣本集合重新訓(xùn)練分類預(yù)測模型并對該圖像再次進(jìn)行分類預(yù)測,若曲線提取效果令人滿意,則該圖像通過當(dāng)前處理,進(jìn)入下一步驟;否則重復(fù)上述增量添加訓(xùn)練樣本的過程。
分類預(yù)測模型的訓(xùn)練過程不是一蹴而就的,需要多次修改增加新的樣本進(jìn)行再訓(xùn)練;同時也不是在某一個涇渭分明的“訓(xùn)練階段”中完成的,而是在某圖像的分類效果不佳時才啟動“再訓(xùn)練”;也就是說,沒有一個顯式而有限的“訓(xùn)練階段”。另外,對訓(xùn)練樣本集合的增添需要人工操作的干預(yù),由手工選定新增加的采樣點(diǎn)。但由于訓(xùn)練樣本的初始積累階段通常能迅速完成,得到效果較好的模型,且只有在特殊情況下才會需要再訓(xùn)練已有的模型,實(shí)際上人工操作的工作量很小。
步驟D、鏈碼跟蹤進(jìn)行后處理。
由于原始拍攝圖像往往存在大量噪聲點(diǎn),上述步驟的曲線提取結(jié)果中仍舊存在許多難以消去的環(huán)境噪聲,它們大多是顏色偏差導(dǎo)致分類錯誤而引入的。由于本發(fā)明主要針對較細(xì)的水文曲線圖像的提取,而如果利用常用的腐蝕或是濾波方法去除噪聲,往往會把曲線變得很細(xì)甚至再次嚴(yán)重斷線,并不能得到讓人滿意的結(jié)果。理想的目標(biāo)是將噪聲點(diǎn)去除,而水文曲線不發(fā)生任何變化,為了達(dá)到這一目標(biāo)可以采取鏈碼跟蹤的方式進(jìn)行后處理。
鏈碼跟蹤方法能夠以鏈碼方式跟蹤并記錄圖中各個連通域的信息,即為各個像素標(biāo)記其所屬連通域,并記錄各個連通域的大小及邊框位置。連通域的大小不以其中像素個數(shù)為準(zhǔn),而以其最小外接矩形的面積為準(zhǔn)。
對分類提取后的結(jié)果圖像,跟蹤其中預(yù)測為“目標(biāo)曲線”的像素點(diǎn),獲得其連通域信息;即,將圖像進(jìn)行“目標(biāo)曲線/非目標(biāo)曲線”的二值化,并對其進(jìn)行上述的鏈碼跟蹤。其跟蹤結(jié)果將包括真實(shí)的水文曲線目標(biāo)區(qū)域以及噪聲點(diǎn)區(qū)域,前者所在的連通域通常很大,而后者相對而言較小。于是可以對連通域的大小設(shè)置特定閾值,從而排除那些較小的、噪聲所在的連通域。
其所以不直接取得最大的連通域,是為了防止模型分類提取后所得的圖像中曲線仍然存在斷線。這種斷線往往比較細(xì)微,容易解決,可以在除去噪聲點(diǎn)后另外對目標(biāo)曲線進(jìn)行幾次膨脹操作。
為了提高處理效果,也可以在上述“曲線追蹤”過程前先進(jìn)行一次對圖像副本的“網(wǎng)格線追蹤”,以確定網(wǎng)格線所在區(qū)域,并在該區(qū)域內(nèi)進(jìn)行上述“曲線追蹤”。即,對圖像副本進(jìn)行“網(wǎng)格線/非網(wǎng)格線”的二值化,并對其進(jìn)行鏈碼跟蹤,取得最大連通域的邊框位置,作為網(wǎng)格線的外緣線。該操作的目的在于去除網(wǎng)格線外與曲線提取無關(guān)的所有像素,降低曲線追蹤時的復(fù)雜性。
為了驗(yàn)證本發(fā)明的效果,選取多幅彩色水文資料圖像進(jìn)行實(shí)驗(yàn),對其進(jìn)行上述的分類提取過程。約定所選擇窗口尺度大小為7*7,所采樣點(diǎn)的特征組合為各個像素點(diǎn)的RGB顏色值、HSI顏色值以及Lab顏色值總共9個特征值;即,所涉及的樣本的維度均為7*7*9=441。并約定所選擇的機(jī)器學(xué)習(xí)方法為支持向量機(jī)SVM。以圖2為例,初始時訓(xùn)練樣本集合為空,首先對圖2進(jìn)行初始采樣,獲得足量的訓(xùn)練樣本后訓(xùn)練生成SVM分類器,并用于對圖2進(jìn)行分類預(yù)測,其結(jié)果如圖5a,其中黑色點(diǎn)為預(yù)測結(jié)果為“水文曲線”的點(diǎn),灰色點(diǎn)為“網(wǎng)格線”。可見,此時對圖2的分類效果并不令人滿意,存在許多斷線處,尤其出現(xiàn)了兩個較大的斷線位置。對這些斷線處重新采樣幾次,經(jīng)過幾輪重新訓(xùn)練后生成的SVM分類器效果得到提高,對圖2的分類結(jié)果中斷線處均得到解決,如圖5b。
利用當(dāng)前SVM分類器嘗試對圖3進(jìn)行分類預(yù)測,結(jié)果如圖6a,此時得到的曲線不存在斷線現(xiàn)象,但還有太多噪聲,分類效果并不算好。再次對這些噪聲點(diǎn)采樣,訓(xùn)練新一輪的分類器,再次對圖3分類的結(jié)果如圖6b。此時分類效果較好,認(rèn)為當(dāng)前分類器已經(jīng)能完成對這兩張圖的分類要求。如有需要,還可在對其他圖像重復(fù)上述操作。
對圖5b與圖6b的分類結(jié)果繼續(xù)進(jìn)行后處理,移去不需要的“網(wǎng)格線”灰色點(diǎn),利用鏈碼跟蹤的方式剔除噪聲點(diǎn),并另外對曲線進(jìn)行幾次膨脹操作,得到曲線提取結(jié)果如圖7a和圖7b??梢?,本發(fā)明對完成了對圖2和圖3中較細(xì)的水文曲線的提取。
本發(fā)明的基于機(jī)器學(xué)習(xí)方法的水文曲線提取方法,基于對樣本模式的分類,只要選擇充分的訓(xùn)練樣本,并不需要考慮光照等問題的影響;采用離線學(xué)習(xí),并不需要對每個圖像重新采集樣本訓(xùn)練;以增量方式選擇并添加訓(xùn)練樣本,能適應(yīng)不斷到來的新的分類要求。本發(fā)明能更好的解決對細(xì)線進(jìn)行提取時容易產(chǎn)生的斷線問題,具有很好的研究價值。