本發(fā)明屬于計(jì)算機(jī)視覺(jué)
技術(shù)領(lǐng)域:
,更具體地,涉及一種海量網(wǎng)絡(luò)文本與非文本圖像分類(lèi)方法。
背景技術(shù):
:隨著電視、互聯(lián)網(wǎng)的飛速發(fā)展,人類(lèi)社會(huì)已經(jīng)逐漸邁入了信息時(shí)代,今后,人類(lèi)的經(jīng)濟(jì)生活將以信息的占有、配置、生產(chǎn)、使用為主。而隨著信息時(shí)代的到來(lái),越來(lái)越多的圖像視頻數(shù)據(jù)以各式各樣的途徑傳播,而這些數(shù)據(jù)包含大量的有用信息,如何從這些海量的數(shù)據(jù)中提取出這些有用的信息,將是信息時(shí)代人類(lèi)能否快速高效地獲取更多收益的關(guān)鍵。當(dāng)前互聯(lián)網(wǎng)中提供了海量的視頻、圖像數(shù)據(jù),而這些海量的網(wǎng)絡(luò)視頻幀與網(wǎng)絡(luò)圖像中的文本作為一種極其重要的信息來(lái)源,可以被用來(lái)輔助于多種實(shí)際應(yīng)用,包括圖像檢索、人機(jī)交互和駕駛導(dǎo)航系統(tǒng)等等。現(xiàn)有的獲取圖像中的文本信息的方法主要包含文本檢測(cè)和文本識(shí)別兩部分,因此這兩個(gè)圖像文本自動(dòng)閱讀的主要技術(shù)的研究一直是計(jì)算機(jī)領(lǐng)域備受關(guān)注的課題。然而,在海量傳播的數(shù)據(jù)中,只有極少部分的圖像包含文本,而現(xiàn)有的文本檢測(cè)和文本識(shí)別方法受限于提取圖像中文本信息的速度,很難直接用于提取這些數(shù)據(jù)中的有用文本信息,因此關(guān)于文本與非文本圖像分類(lèi)算法的研究具備較高的現(xiàn)實(shí)意義和使用價(jià)值。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于提供一種海量網(wǎng)絡(luò)文本與非文本圖像分類(lèi)方法,該方法文本與非文本圖像分類(lèi)過(guò)程簡(jiǎn)單易行,且分類(lèi)準(zhǔn)確率高。為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種海量網(wǎng)絡(luò)文本與非文本圖像分類(lèi)方法,包括如下步驟:(1)多尺度空間劃分網(wǎng)絡(luò)構(gòu)建,所述的多尺度空間劃分網(wǎng)絡(luò)包括多層次特征圖生成子網(wǎng)絡(luò)、多尺度圖像塊特征生成子網(wǎng)絡(luò)以及文本與非文本圖像塊分類(lèi)子網(wǎng)絡(luò):(1.1)定義多層次特征圖生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);(1.1.1)定義圖像特征提取網(wǎng)絡(luò)結(jié)構(gòu);具體地,所述的圖像特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括五個(gè)卷積階段,其中第一個(gè)和第二個(gè)卷積階段的網(wǎng)絡(luò)結(jié)構(gòu)均為兩個(gè)卷積層和一個(gè)最大池化層,最后三個(gè)卷積階段的網(wǎng)絡(luò)結(jié)構(gòu)均為三個(gè)卷積層和一個(gè)最大池化層,對(duì)輸入圖像I,經(jīng)過(guò)該圖像特征提取網(wǎng)絡(luò)可以得到各個(gè)卷積階段的輸出特征圖,記為其中表示第s個(gè)卷積階段的輸出的特征圖序列,Ms,m表示第m個(gè)特征圖,MNums為預(yù)設(shè)的第s個(gè)卷積階段輸出特征圖的個(gè)數(shù);(1.1.2)定義多層次特征圖生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);具體地,對(duì)步驟(1.1.1)中所述的圖像特征提取網(wǎng)絡(luò)的第三個(gè)、第四個(gè)和第五個(gè)網(wǎng)絡(luò)階段之后分別接一個(gè)反卷積層,將這三個(gè)卷積階段的輸出中的所有特征圖的尺度全部縮放到Wm×Hm大小,所得尺度縮放后的特征圖序列記為其中Wm和Hm分別表示預(yù)設(shè)的特征圖尺度縮放后特征圖的寬度和高度,表示第s個(gè)卷積階段的輸出特征圖序列FMs中的每個(gè)特征圖經(jīng)過(guò)尺度縮放后得到的特征圖序列,M′s,m表示FMs中第m個(gè)特征圖經(jīng)過(guò)尺度縮放后得到的特征圖,MNums為預(yù)設(shè)的第s個(gè)卷積階段輸出特征圖的個(gè)數(shù),之后將FMS′中的所有特征圖進(jìn)行堆疊,得到多層次特征圖,記為其中M″c表示圖像的多層次特征圖的c個(gè)特征圖,MNum=MNum3+MNum4+MNum5,表示多層次特征圖中特征圖個(gè)數(shù);(1.2)定義多尺度圖像塊特征生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);(1.2.1)單一尺度圖像塊空間劃分;具體地,對(duì)步驟(1.1)所述的多層次特征圖生成子網(wǎng)絡(luò)得到的圖像多層次特征圖F,將多層次特征圖劃分為尺度為的圖像塊,劃分方法表示為:Fij(x,y)=F(x+iWmsp,y+jHmsp),0≤x<Wmsp0≤y<Hmsp]]>這樣,可以將多層次特征圖劃分為SP=sp×sp個(gè)圖像塊,對(duì)于劃分的一個(gè)圖像塊Fij,在輸入圖像I中對(duì)應(yīng)的圖像塊Iij計(jì)算方法為:Iij(x,y)=I(x+iWsp,y+jHsp),0≤x<Wsp0≤y<Hsp]]>其中Fij表示將多層次特征圖進(jìn)行圖像塊劃分后在第i列、第j行的圖像塊,x和y分別表示像素點(diǎn)在圖像塊中的橫坐標(biāo)和縱坐標(biāo),Wm和Hm分別表示多層次特征圖的寬度和高度,W和H分別表示輸入圖像I的寬度和高度,sp為預(yù)設(shè)的圖像塊劃分尺度;(1.2.2)多尺度圖像塊空間劃分;具體地,預(yù)設(shè)多個(gè)不同的圖像塊劃分尺度,記為對(duì)其中的每個(gè)劃分尺度spk,按照步驟(1.2.1)所述的方法,對(duì)多層次特征圖F進(jìn)行圖像塊空間劃分,可以得到SPk=spk×spk個(gè)圖像塊,通過(guò)多尺度圖像塊空間劃分,得到的所有圖像塊序列為PS,且其中Patchn表示第n個(gè)圖像塊,表示圖像塊總數(shù);(1.2.3)多尺度圖像塊特征提?。痪唧w地,對(duì)步驟(1.2.2)中對(duì)多層次特征圖F進(jìn)行多尺度圖像塊空間劃分得到的圖像塊序列PS中的每一個(gè)圖像塊Patch,將圖像塊按行和列分別分割為Nsp份,則每個(gè)圖像塊Patch可以分割為SPNum=Nsp×Nsp個(gè)子圖像塊,記為其中SubPnsp表示第nsp個(gè)子圖像塊,然后利用一個(gè)最大池化層將每個(gè)子圖像塊轉(zhuǎn)換為該子圖像塊對(duì)應(yīng)的特征向量,則可以得到每個(gè)圖像塊Patch對(duì)應(yīng)的子圖像塊特征向量序列,記為其中SubVnsp表示第nsp個(gè)子圖像塊對(duì)應(yīng)的特征向量,特征向量長(zhǎng)度即為所述步驟(1.1.2)中所得的多層次特征圖中特征圖個(gè)數(shù)MNum,將圖像塊中所有子圖像塊對(duì)應(yīng)的特征向量進(jìn)行拼接,可以得到圖像塊對(duì)應(yīng)的特征向量,記為V=[SubV1,...,SubVSPNum],則圖像塊特征向量長(zhǎng)度為MNum×SPNum,對(duì)多尺度圖像塊空間劃分得到的每一個(gè)圖像塊按上述方法提取圖像塊的特征向量,得到所有圖像塊的特征向量集合,記為其中Vn表示第n個(gè)圖像塊對(duì)應(yīng)的特征向量,PNum表示圖像塊總數(shù);(1.3)定義文本與非文本圖像塊分類(lèi)子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);具體地,在步驟(1.2)所述的多尺度圖像塊特征生成子網(wǎng)絡(luò)之后,接一個(gè)由三個(gè)全連接層構(gòu)成的文本與非文本圖像塊分類(lèi)網(wǎng)絡(luò),對(duì)步驟(1.2)中所得的多尺度圖像塊特征向量集合VS中的每一個(gè)圖像塊特征向量V,通過(guò)該文本與非文本圖像塊分類(lèi)網(wǎng)絡(luò)進(jìn)行分類(lèi)判決,得到的輸出Pro表示該圖像塊為文本圖像塊的概率,若Pro>tP,則該圖像塊的分類(lèi)結(jié)果記為1,否則分類(lèi)結(jié)果為0,由此可以得到所有圖像塊的分類(lèi)結(jié)果,記為其中Predn表示第n個(gè)圖像塊的分類(lèi)結(jié)果,且Predn∈{0,1},若Predn=0則表示該圖像塊為非文本圖像塊,Predn=1則表示該圖像塊為文本圖像塊;(1.4)構(gòu)建多尺度空間劃分網(wǎng)絡(luò);具體地,將步驟(1.1)至步驟(1.3)中定義的多層次特征圖生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)、多尺度圖像塊特征生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)以及文本與非文本圖像塊分類(lèi)子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)級(jí)聯(lián)在一起,即為一個(gè)完整的多尺度空間劃分網(wǎng)絡(luò);(2)多尺度空間劃分網(wǎng)絡(luò)訓(xùn)練:(2.1)對(duì)訓(xùn)練圖像集中的每一張圖像,獲取多尺度圖像塊標(biāo)簽信息;具體地,對(duì)訓(xùn)練圖像集中的每一張圖像Itr,用人工標(biāo)注的方式獲取圖像中文本區(qū)域的位置,記為其中T表示訓(xùn)練圖像的個(gè)數(shù),bbq表示圖像中第q個(gè)文本區(qū)域的包圍盒,Q為圖像中文本區(qū)域的個(gè)數(shù),然后按照步驟(1.2.1)所述的方法,根據(jù)步驟(1.2.2)中預(yù)設(shè)的多個(gè)不同的圖像塊劃分尺度中的每個(gè)劃分尺度,對(duì)圖像Itr進(jìn)行多尺度圖像塊空間劃分,對(duì)于空間劃分之后的每一個(gè)圖像塊PatchTr,記圖像塊的面積為SPatchTr,圖像塊的高度為HPatchTr,圖像塊中文本區(qū)域的面積為SText,圖像塊中文本區(qū)域的高度為HText,若該圖像塊滿足條件:STextSPatchTr>tSHTextHPatchTr>tH]]>則標(biāo)注該圖像塊為文本區(qū)域,對(duì)應(yīng)的標(biāo)簽信息為1,否則標(biāo)注該圖像塊為非文本區(qū)域,對(duì)應(yīng)的標(biāo)簽信息為0,其中tS為預(yù)設(shè)的圖像塊中文本區(qū)域占整個(gè)圖像塊面積比的閾值,tH為預(yù)設(shè)的圖像塊中文本區(qū)域的高度與圖像塊高度比的閾值,記多尺度圖像塊標(biāo)簽信息為其中l(wèi)bll表示第l個(gè)圖像塊的標(biāo)簽信息,PNum表示多尺度空間劃分后圖像塊的個(gè)數(shù);(2.2)訓(xùn)練得到多尺度空間劃分網(wǎng)絡(luò)的參數(shù);具體地,利用標(biāo)注好的訓(xùn)練圖像集χ以及標(biāo)注好的訓(xùn)練圖像集中每張訓(xùn)練圖像的多尺度圖像塊標(biāo)簽信息利用反向傳導(dǎo)的方法訓(xùn)練步驟(1)中構(gòu)建的多尺度空間劃分網(wǎng)絡(luò),其中,損失函數(shù)計(jì)算方法為:Loss=-Σl=1PNum(lblllogprol+(1-lbll)log(1-prol))]]>其中,lbll表示第l個(gè)圖像塊的標(biāo)簽信息,PNum表示多尺度空間劃分后圖像塊的個(gè)數(shù),prol表示第l個(gè)圖像塊分類(lèi)結(jié)果為文本圖像塊的概率,為多尺度空間劃分網(wǎng)絡(luò)的輸出,訓(xùn)練所得的多尺度空間劃分網(wǎng)絡(luò)參數(shù)記為θ;(3)文本與非文本圖像分類(lèi):具體地,對(duì)測(cè)試圖像Ite,首先按照步驟(1.2.1)所述的方法,根據(jù)步驟(1.2.2)中預(yù)設(shè)的多個(gè)不同的圖像塊劃分尺度中的每個(gè)劃分尺度,對(duì)圖像Itr進(jìn)行多尺度圖像塊空間劃分,記空間劃分之后得到的所有圖像塊的集合為然后利用步驟(1)中構(gòu)建的多尺度空間劃分網(wǎng)絡(luò)以及步驟(2)中訓(xùn)練得到的多尺度空間劃分網(wǎng)絡(luò)的參數(shù)θ,得到測(cè)試圖像的分類(lèi)判決結(jié)果其中PredTer表示測(cè)試圖像中第r個(gè)圖像塊的預(yù)測(cè)結(jié)果,PNum表示多尺度圖像塊空間劃分后的圖像塊個(gè)數(shù),SubPS中所有預(yù)測(cè)結(jié)果為1的圖像塊集合TextPS即為輸入圖像Ite中所有文本圖像塊集合,由此可以得到圖像中文本區(qū)域的大致位置以及文本區(qū)域的尺度信息,如果TextPS不為空,則該測(cè)試圖像的分類(lèi)結(jié)果為文本圖像,否則測(cè)試圖像的分類(lèi)結(jié)果為非文本圖像。通過(guò)本發(fā)明所構(gòu)思的以上技術(shù)方案,與現(xiàn)有技術(shù)相比,本發(fā)明具有以下技術(shù)效果:(1)現(xiàn)有的海量網(wǎng)絡(luò)文本與非文本圖像分類(lèi)方法通常首先需要提取圖像中候選的類(lèi)文字區(qū)域,然后通過(guò)分類(lèi)等方法對(duì)這些候選區(qū)域進(jìn)行過(guò)濾,最后通過(guò)對(duì)候選區(qū)域的分類(lèi)判決來(lái)完成對(duì)圖像是否為文本圖像的預(yù)測(cè);本發(fā)明方法首先構(gòu)建了一個(gè)端到端、可訓(xùn)練的多尺度空間劃分網(wǎng)絡(luò),通過(guò)這個(gè)網(wǎng)絡(luò)就能實(shí)現(xiàn)以圖像為輸入,并對(duì)圖像進(jìn)行圖像塊級(jí)別的預(yù)測(cè),最終得到圖像的分類(lèi)判別結(jié)果以及文本在圖像中的大致位置,從而可以端到端的做到文本與非文本圖像的判別;因此本發(fā)明方法實(shí)現(xiàn)更加簡(jiǎn)潔;(2)由于圖像中通常存在非常多的類(lèi)文字區(qū)域,而現(xiàn)有的海量網(wǎng)絡(luò)文本與非文本圖像分類(lèi)方法提取圖像中的候選類(lèi)文字區(qū)域,并采用聚類(lèi)、分類(lèi)等方法對(duì)所有的候選區(qū)域進(jìn)行過(guò)濾分類(lèi),得到最終的分類(lèi)結(jié)果,因此這類(lèi)方法處理速度非常慢,且這類(lèi)算法很容易受到光照等環(huán)境因素的影響;本發(fā)明方法采用對(duì)光照等外界條件有很強(qiáng)的魯棒性的卷積神經(jīng)網(wǎng)絡(luò)的方法,通過(guò)人工對(duì)圖像進(jìn)行空間劃分,并對(duì)每個(gè)劃分的圖像塊進(jìn)行分類(lèi),避免了魯棒性較差的類(lèi)文字區(qū)域提取過(guò)程;因此本發(fā)明方法具有很高的分類(lèi)準(zhǔn)確率以及非常高效的處理速度,且具有很強(qiáng)的魯棒性;(3)本發(fā)明關(guān)于海量網(wǎng)絡(luò)文本與非文本圖像的判別結(jié)果,不僅包含圖像是否為文本圖像的信息,還能夠指出文字在圖片中的大致位置和尺度信息,為后續(xù)文字檢測(cè)環(huán)節(jié)大大縮小文字搜索范圍。附圖說(shuō)明圖1是本發(fā)明方法構(gòu)建的多尺度空間劃分網(wǎng)絡(luò)結(jié)構(gòu)圖。具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互組合。本發(fā)明海量網(wǎng)絡(luò)文本與非文本圖像分類(lèi)方法包括以下步驟:(1)多尺度空間劃分網(wǎng)絡(luò)構(gòu)建,所述的多尺度空間劃分網(wǎng)絡(luò)包括多層次特征圖生成子網(wǎng)絡(luò)、多尺度圖像塊特征生成子網(wǎng)絡(luò)以及文本與非文本圖像塊分類(lèi)子網(wǎng)絡(luò):(1.1)定義多層次特征圖生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);(1.1.1)定義圖像特征提取網(wǎng)絡(luò)結(jié)構(gòu);具體地,所述的圖像特征提取網(wǎng)絡(luò)結(jié)構(gòu)包括五個(gè)卷積階段,其中第一個(gè)和第二個(gè)卷積階段的網(wǎng)絡(luò)結(jié)構(gòu)均為兩個(gè)卷積層和一個(gè)最大池化層,最后三個(gè)卷積階段的網(wǎng)絡(luò)結(jié)構(gòu)均為三個(gè)卷積層和一個(gè)最大池化層,對(duì)輸入圖像I,經(jīng)過(guò)該圖像特征提取網(wǎng)絡(luò)可以得到各個(gè)卷積階段的輸出特征圖,記為其中表示第s個(gè)卷積階段的輸出的特征圖序列,Ms,m表示第m個(gè)特征圖,MNums為預(yù)設(shè)的第s個(gè)卷積階段輸出特征圖的個(gè)數(shù);(1.1.2)定義多層次特征圖生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);具體地,對(duì)步驟(1.1.1)中所述的圖像特征提取網(wǎng)絡(luò)的第三個(gè)、第四個(gè)和第五個(gè)網(wǎng)絡(luò)階段之后分別接一個(gè)反卷積層,將這三個(gè)卷積階段的輸出中的所有特征圖的尺度全部縮放到Wm×Hm大小,所得尺度縮放后的特征圖序列記為其中Wm和Hm分別表示預(yù)設(shè)的特征圖尺度縮放后特征圖的寬度和高度,表示第s個(gè)卷積階段的輸出特征圖序列FMs中的每個(gè)特征圖經(jīng)過(guò)尺度縮放后得到的特征圖序列,M′s,m表示FMs中第m個(gè)特征圖經(jīng)過(guò)尺度縮放后得到的特征圖,MNums為預(yù)設(shè)的第s個(gè)卷積階段輸出特征圖的個(gè)數(shù),之后將FMS′中的所有特征圖進(jìn)行堆疊,得到多層次特征圖,記為其中M″c表示圖像的多層次特征圖的c個(gè)特征圖,MNum=MNum3+MNum4+MNum5,表示多層次特征圖中特征圖個(gè)數(shù);(1.2)定義多尺度圖像塊特征生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);(1.2.1)單一尺度圖像塊空間劃分;具體地,對(duì)步驟(1.1)所述的多層次特征圖生成子網(wǎng)絡(luò)得到的圖像多層次特征圖F,將多層次特征圖劃分為尺度為的圖像塊,劃分方法表示為:Fij(x,y)=F(x+iWmsp,y+jHmsp),0≤x<Wmsp0≤y<Hmsp]]>這樣,可以將多層次特征圖劃分為SP=sp×sp個(gè)圖像塊,對(duì)于劃分的一個(gè)圖像塊Fij,在輸入圖像I中對(duì)應(yīng)的圖像塊Iij計(jì)算方法為:Iij(x,y)=I(x+iWsp,y+jHsp),0≤x<Wsp0≤y<Hsp]]>其中Fij表示將多層次特征圖進(jìn)行圖像塊劃分后在第i列、第j行的圖像塊,x和y分別表示像素點(diǎn)在圖像塊中的橫坐標(biāo)和縱坐標(biāo),Wm和Hm分別表示多層次特征圖的寬度和高度,W和H分別表示輸入圖像I的寬度和高度,sp為預(yù)設(shè)的圖像塊劃分尺度;(1.2.2)多尺度圖像塊空間劃分;具體地,預(yù)設(shè)多個(gè)不同的圖像塊劃分尺度,記為對(duì)其中的每個(gè)劃分尺度spk,按照步驟(1.2.1)所述的方法,對(duì)多層次特征圖F進(jìn)行圖像塊空間劃分,可以得到SPk=spk×spk個(gè)圖像塊,通過(guò)多尺度圖像塊空間劃分,得到的所有圖像塊序列為PS,且其中Patchn表示第n個(gè)圖像塊,表示圖像塊總數(shù);(1.2.3)多尺度圖像塊特征提??;具體地,對(duì)步驟(1.2.2)中對(duì)多層次特征圖F進(jìn)行多尺度圖像塊空間劃分得到的圖像塊序列PS中的每一個(gè)圖像塊Patch,將圖像塊按行和列分別分割為Nsp份,則每個(gè)圖像塊Patch可以分割為SPNum=Nsp×Nsp個(gè)子圖像塊,記為其中SubPnsp表示第nsp個(gè)子圖像塊,然后利用一個(gè)最大池化層將每個(gè)子圖像塊轉(zhuǎn)換為該子圖像塊對(duì)應(yīng)的特征向量,則可以得到每個(gè)圖像塊Patch對(duì)應(yīng)的子圖像塊特征向量序列,記為其中SubVnsp表示第nsp個(gè)子圖像塊對(duì)應(yīng)的特征向量,特征向量長(zhǎng)度即為所述步驟(1.1.2)中所得的多層次特征圖中特征圖個(gè)數(shù)MNum,將圖像塊中所有子圖像塊對(duì)應(yīng)的特征向量進(jìn)行拼接,可以得到圖像塊對(duì)應(yīng)的特征向量,記為V=[SubV1,...,SubVSPNum],則圖像塊特征向量長(zhǎng)度為MNum×SPNum,對(duì)多尺度圖像塊空間劃分得到的每一個(gè)圖像塊按上述方法提取圖像塊的特征向量,得到所有圖像塊的特征向量集合,記為其中Vn表示第n個(gè)圖像塊對(duì)應(yīng)的特征向量,PNum表示圖像塊總數(shù);(1.3)定義文本與非文本圖像塊分類(lèi)子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu);具體地,在步驟(1.2)所述的多尺度圖像塊特征生成子網(wǎng)絡(luò)網(wǎng)絡(luò)之后,接一個(gè)由三個(gè)全連接層構(gòu)成的文本與非文本圖像塊分類(lèi)網(wǎng)絡(luò),對(duì)步驟(1.2)中所得的多尺度圖像塊特征向量集合VS中的每一個(gè)圖像塊特征向量V,通過(guò)該文本與非文本圖像塊分類(lèi)網(wǎng)絡(luò)進(jìn)行分類(lèi)判決,得到的輸出Pro表示該圖像塊為文本圖像塊的概率,若Pro>tP,則該圖像塊的分類(lèi)結(jié)果記為1,否則分類(lèi)結(jié)果為0,由此可以得到所有圖像塊的分類(lèi)結(jié)果,記為其中Predn表示第n個(gè)圖像塊的分類(lèi)結(jié)果,且Predn∈{0,1},若Predn=0則表示該圖像塊為非文本圖像塊,Predn=1則表示該圖像塊為文本圖像塊;(1.4)構(gòu)建多尺度空間劃分網(wǎng)絡(luò);具體地,將步驟(1.1)至步驟(1.3)中定義的多層次特征圖生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)、多尺度圖像塊特征生成子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)以及文本與非文本圖像塊分類(lèi)子網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)級(jí)聯(lián)在一起,如圖1所示,即為一個(gè)完整的多尺度空間劃分網(wǎng)絡(luò);(2)多尺度空間劃分網(wǎng)絡(luò)訓(xùn)練:(2.1)對(duì)訓(xùn)練圖像集中的每一張圖像,獲取多尺度圖像塊標(biāo)簽信息;具體地,對(duì)訓(xùn)練圖像集中的每一張圖像Itr,用人工標(biāo)注的方式獲取圖像中文本區(qū)域的位置,記為其中T表示訓(xùn)練圖像的個(gè)數(shù),bbq表示圖像中第q個(gè)文本區(qū)域的包圍盒,Q為圖像中文本區(qū)域的個(gè)數(shù),然后按照步驟(1.2.1)所述的方法,根據(jù)步驟(1.2.2)中預(yù)設(shè)的多個(gè)不同的圖像塊劃分尺度中的每個(gè)劃分尺度,對(duì)圖像Itr進(jìn)行多尺度圖像塊空間劃分,對(duì)于空間劃分之后的每一個(gè)圖像塊PatchTr,記圖像塊的面積為SPatchTr,圖像塊的高度為HPatchTr,圖像塊中文本區(qū)域的面積為SText,圖像塊中文本區(qū)域的高度為HText,若該圖像塊滿足條件:STextSPatchTr>tSHTextHPatchTr>tH]]>則標(biāo)注該圖像塊為文本區(qū)域,對(duì)應(yīng)的標(biāo)簽信息為1,否則標(biāo)注該圖像塊為非文本區(qū)域,對(duì)應(yīng)的標(biāo)簽信息為0,其中tS為預(yù)設(shè)的圖像塊中文本區(qū)域占整個(gè)圖像塊面積比的閾值,tH為預(yù)設(shè)的圖像塊中文本區(qū)域的高度與圖像塊高度比的閾值,記多尺度圖像塊標(biāo)簽信息為其中l(wèi)bll表示第l個(gè)圖像塊的標(biāo)簽信息,PNum表示多尺度空間劃分后圖像塊的個(gè)數(shù);(2.2)訓(xùn)練得到多尺度空間劃分網(wǎng)絡(luò)的參數(shù);具體地,利用標(biāo)注好的訓(xùn)練圖像集χ以及標(biāo)注好的訓(xùn)練圖像集中每張訓(xùn)練圖像的多尺度圖像塊標(biāo)簽信息利用反向傳導(dǎo)的方法訓(xùn)練步驟(1)中構(gòu)建的多尺度空間劃分網(wǎng)絡(luò),其中,損失函數(shù)計(jì)算方法為:Loss=-Σl=1PNum(lblllogprol+(1-lbll)log(1-prol))]]>其中,lbll表示第l個(gè)圖像塊的標(biāo)簽信息,PNum表示多尺度空間劃分后圖像塊的個(gè)數(shù),prol表示第l個(gè)圖像塊分類(lèi)結(jié)果為文本圖像塊的概率,為多尺度空間劃分網(wǎng)絡(luò)的輸出,訓(xùn)練所得的多尺度空間劃分網(wǎng)絡(luò)參數(shù)記為θ;(3)文本與非文本圖像分類(lèi):具體地,對(duì)測(cè)試圖像Ite,首先按照步驟(1.2.1)所述的方法,根據(jù)步驟(1.2.2)中預(yù)設(shè)的多個(gè)不同的圖像塊劃分尺度中的每個(gè)劃分尺度,對(duì)圖像Itr進(jìn)行多尺度圖像塊空間劃分,記空間劃分之后得到的所有圖像塊的集合為然后利用步驟(1)中構(gòu)建的多尺度空間劃分網(wǎng)絡(luò)以及步驟(2)中訓(xùn)練得到的多尺度空間劃分網(wǎng)絡(luò)的參數(shù)θ,得到測(cè)試圖像的分類(lèi)判決結(jié)果其中PredTer表示測(cè)試圖像中第r個(gè)圖像塊的預(yù)測(cè)結(jié)果,PNum表示多尺度圖像塊空間劃分后的圖像塊個(gè)數(shù),SubPS中所有預(yù)測(cè)結(jié)果為1的圖像塊集合TextPS即為輸入圖像Ite中所有文本圖像塊集合,由此可以得到圖像中文本區(qū)域的大致位置以及文本區(qū)域的尺度信息,如果TextPS不為空,則該測(cè)試圖像的分類(lèi)結(jié)果為文本圖像,否則測(cè)試圖像的分類(lèi)結(jié)果為非文本圖像。本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3