神經(jīng)網(wǎng)絡(luò)系統(tǒng)、基于神經(jīng)網(wǎng)絡(luò)系統(tǒng)的圖像解析方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)通訊技術(shù),尤其涉及一種神經(jīng)網(wǎng)絡(luò)系統(tǒng)、基于神經(jīng)網(wǎng)絡(luò)系統(tǒng)的圖 像解析方法和裝置。
【背景技術(shù)】
[0002] 行人目標(biāo)解析,就是將一幅行人圖像分解成具有特定語義的區(qū)域,例如頭發(fā)、軀 干、手臂、腿等。行人目標(biāo)進(jìn)行解析后,可以方便用于行人姿勢(shì)估計(jì)、行為分析等多種行人目 標(biāo)分析與理解任務(wù),在圖像與視頻搜索、視頻監(jiān)控等方法都有重要的應(yīng)用價(jià)值。行人目標(biāo)解 析問題具有很大的挑戰(zhàn)性,不僅由于行人在表觀、姿勢(shì)、形狀等方面具有很大的變化,而且 在視頻監(jiān)控等真實(shí)環(huán)境下拍攝到的行人圖像經(jīng)常存在大的遮擋和雜亂的背景。
[0003] 目前已有的行人目標(biāo)解析方法一般可以分為兩類:模板匹配法和貝葉斯推斷法。 模板匹配法是通過預(yù)先建立一個(gè)人體各部位的模板庫,每個(gè)部位收集若干樣本,當(dāng)輸入一 幅輸入的行人圖像進(jìn)行解析時(shí),首先,利用現(xiàn)有的圖像分割算法進(jìn)行分割,得到一組超像 素,作為備選的人體各部位區(qū)域,然后,將備選區(qū)域與模板庫中的若干樣本進(jìn)行匹配,將最 有可能是某部位的備選區(qū)域排在前面,最后,在一些約束條件下對(duì)最有可能的備選區(qū)域進(jìn) 行組合,約束條件包括上半身部位必須出現(xiàn)在下半身上面等,利用層次化的表觀模型對(duì)以 上組合進(jìn)行排序,選出最佳組合,作為行人目標(biāo)解析結(jié)果。模板匹配法缺點(diǎn)是過度依賴模 板,分解的區(qū)域邊界不準(zhǔn)確,而且沒有考慮目標(biāo)被遮擋情況。貝葉斯推斷法是利用標(biāo)注好 的訓(xùn)練圖像,首先,學(xué)習(xí)形狀模型,形狀模型是一個(gè)MSBM,可以確定圖像上每個(gè)像素的類標(biāo) 的概率,然后,學(xué)習(xí)表觀模型,表觀模型是每個(gè)人體部位在混合高斯模型下的參數(shù)統(tǒng)計(jì),可 以確定某個(gè)人體部位在某表觀下出現(xiàn)的概率,最后將形狀模型與表觀模型組合得到聯(lián)合模 型,確定出圖像、形狀、表觀、類標(biāo)四者之間的聯(lián)合概率。當(dāng)給定測試圖像,利用聯(lián)合模型,通 過圖像、形狀和表觀來推斷類標(biāo),貝葉斯推斷法的缺點(diǎn)是對(duì)雜亂的背景、復(fù)雜的姿勢(shì)和許 多種類的衣服類型敏感,推斷過程速度慢,沒有考慮遮擋情況。
[0004] 通過上述可知,現(xiàn)有的行人目標(biāo)解析方法都沒有考慮行人目標(biāo)被遮擋的情況,如 果行人目標(biāo)被遮擋,利用現(xiàn)有的方法進(jìn)行解析,會(huì)導(dǎo)致解析結(jié)果不準(zhǔn)確。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種神經(jīng)網(wǎng)絡(luò)系統(tǒng)、基于神經(jīng)網(wǎng)絡(luò)系統(tǒng)的圖像解析方法和裝置,能夠 解決目標(biāo)事物被遮擋時(shí)的解析問題,使得解析結(jié)果更加準(zhǔn)確。
[0006] 本發(fā)明第一方面提供一種基于神經(jīng)網(wǎng)絡(luò)系統(tǒng)的圖像解析方法,包括:
[0007] 所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)獲取目標(biāo)事物的第一視覺特征向量X,所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括 遮擋估計(jì)子網(wǎng)絡(luò)、遮擋補(bǔ)全子網(wǎng)絡(luò)、分解子網(wǎng)絡(luò);
[0008] 所述遮擋估計(jì)子網(wǎng)絡(luò)根據(jù)目標(biāo)事物的第一視覺特征X向量確定所述目標(biāo)事物被 遮擋部分的遮擋標(biāo)記向量χ°,所述遮擋標(biāo)記向量χ°的各分量的取值為大于〇小于1 ;
[0009] 所述遮擋補(bǔ)全子網(wǎng)絡(luò)根據(jù)所述第一視覺特征向量X與所述遮擋標(biāo)記向量x°確定 所述目標(biāo)事物的第三視覺特征向量X%所述第三視覺特征向量Xe為補(bǔ)全所述遮擋部分后所 述目標(biāo)事物的視覺特征向量;
[0010] 所述分解子網(wǎng)絡(luò)根據(jù)所述第三視覺特征向量f確定所述目標(biāo)事物的各部位的類 標(biāo)圖像,組合所述各部位的類標(biāo)圖像得到所述目標(biāo)事物的解析結(jié)果。
[0011] 在本發(fā)明第一方面的第一種可能的實(shí)現(xiàn)方式中,所述遮擋估計(jì)子網(wǎng)絡(luò)為三層網(wǎng) 絡(luò),包括:輸入層、隱含層和輸出層,所述輸入層、隱含層和輸出層依次連接;
[0012] 所述遮擋估計(jì)子網(wǎng)絡(luò)根據(jù)所述第一視覺特征向量X確定所述目標(biāo)事物被遮擋部 分的遮擋標(biāo)記向量χ°,包括:
[0013] 所述遮擋估計(jì)子網(wǎng)絡(luò)將所述第一視覺特征向量X作為所述遮擋估計(jì)子網(wǎng)絡(luò)的輸 入層的輸入?yún)?shù),根據(jù)以下公式(1)和(2)計(jì)算所述遮擋標(biāo)記向量χ°:
【主權(quán)項(xiàng)】
1. 一種基于神經(jīng)網(wǎng)絡(luò)系統(tǒng)的圖像解析方法,其特征在于,包括: 所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)獲取目標(biāo)事物的第一視覺特征向量X,所述神經(jīng)網(wǎng)絡(luò)系統(tǒng)包括遮擋 估計(jì)子網(wǎng)絡(luò)、遮擋補(bǔ)全子網(wǎng)絡(luò)、分解子網(wǎng)絡(luò); 所述遮擋估計(jì)子網(wǎng)絡(luò)根據(jù)目標(biāo)事物的第一視覺特征X向量確定所述目標(biāo)事物被遮擋 部分的遮擋標(biāo)記向量χ°,所述遮擋標(biāo)記向量χ°的各分量的取值為大于〇小于1 ; 所述遮擋補(bǔ)全子網(wǎng)絡(luò)根據(jù)所述第一視覺特征向量X與所述遮擋標(biāo)記向量χ°確定所述 目標(biāo)事物的第三視覺特征向量X%所述第三視覺特征向量Xe為補(bǔ)全所述遮擋部分后所述目 標(biāo)事物的視覺特征向量; 所述分解子網(wǎng)絡(luò)根據(jù)所述第三視覺特征向量f確定所述目標(biāo)事物的各部位的類標(biāo)圖 像,組合所述各部位的類標(biāo)圖像得到所述目標(biāo)事物的解析結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述遮擋估計(jì)子網(wǎng)絡(luò)為三層網(wǎng)絡(luò),包括: 輸入層、隱含層和輸出層,所述輸入層、隱含層和輸出層依次連接; 所述遮擋估計(jì)子網(wǎng)絡(luò)根據(jù)所述第一視覺特征向量X確定所述目標(biāo)事物被遮擋部分的 遮擋標(biāo)記向量χ°,包括: 所述遮擋估計(jì)子網(wǎng)絡(luò)將所述第一視覺特征向量X作為所述遮擋估計(jì)子網(wǎng)絡(luò)的輸入層 的輸入?yún)?shù),根據(jù)以下公式(1)和(2)計(jì)算所述遮擋標(biāo)記向量χ°: ha- =p(W^ x ^ If·) (I) x° =T(W°'-hth +h〇i) (2) 其中,公式(I)為所述遮擋估計(jì)子網(wǎng)絡(luò)的輸入層與隱含層之間的映射函數(shù),公式(2) 為所述遮擋估計(jì)子網(wǎng)絡(luò)的的隱含層與輸出層之間的映射函數(shù),PT1為所述遮擋估計(jì)子網(wǎng)絡(luò) 的輸入層與隱含層之間的權(quán)重矩陣,ΙΛ為所述遮擋估計(jì)子網(wǎng)絡(luò)的輸入層與隱含層之間的 偏置,P (X) =max(0, X)為非線性激活函數(shù),IT*是所述遮擋估計(jì)子網(wǎng)絡(luò)的隱含層與輸出 層之間的權(quán)重矩陣,是所述遮擋估計(jì)子網(wǎng)絡(luò)的隱含層與輸出層之間的偏置,τ (X) = 1/ (1+exp (-Χ)是S型函數(shù),返回值大于O小于1。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述遮擋補(bǔ)全子網(wǎng)絡(luò)為五層網(wǎng)絡(luò),包括: 輸入層、3個(gè)隱含層和輸出層,所述3個(gè)隱含層分別為第一隱含層、第二隱含層、第三隱含 層,所述輸入層、第一隱含層、第二隱含層、第三隱含層和輸出層依次連接; 所述遮擋補(bǔ)全子網(wǎng)絡(luò)根據(jù)所述第一視覺特征向量X與所述遮擋標(biāo)記向量x°確定所述 目標(biāo)事物的第三視覺特征向量X%包括: 所述遮擋補(bǔ)全子網(wǎng)絡(luò)將所述遮擋標(biāo)記向量χ°與所述第一視覺特征向量X逐分量相乘, 得到遮擋特征向量χ*χ°,其中,所述遮擋標(biāo)記向量χ°與所述第一視覺特征向量X的維度相 同; 所述遮擋補(bǔ)全子網(wǎng)絡(luò)將所述遮擋特征向量χ*χ°作為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的輸入層的 參數(shù),根據(jù)以下公式(3)、(4)、(5)、(6)計(jì)算所述第三視覺特征向量X。: Z1 = p(lV' (,\· * χ°) + b1') ( 3 ) z, - p(wc::Z] +r:) (4) z, = />(Wt: z, +?'T) (5) Xt =/>(Wt:.:3+w" (6) 其中,公式(3)為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的輸入層與第一隱含層之間映射函數(shù),公式(4) 為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的第一隱含層與第二隱含層之間的映射函數(shù),公式(5)為所述遮擋 補(bǔ)全子網(wǎng)絡(luò)的第二隱含層與第三隱含層之間的映射函數(shù),公式(6)為所述遮擋補(bǔ)全子網(wǎng)絡(luò) 的第三隱含層與輸出層之間的映射函數(shù),1^>為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的輸入層與第一隱含 層之間的權(quán)重矩陣,P為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的輸入層與第一隱含層之間的偏置,》^為 所述遮擋補(bǔ)全子網(wǎng)絡(luò)的第一隱含層與第二隱含層之間的權(quán)重矩陣,,為所述遮擋補(bǔ)全子網(wǎng) 絡(luò)的第一隱含層與第二隱含層之間的偏置,〖?!?為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的第二隱含層與第 三隱含層之間的權(quán)重矩陣,為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的第二隱含層與第三隱含層之間的 偏置,為所述遮擋補(bǔ)全子網(wǎng)絡(luò)的第三隱含層與輸出層之間的權(quán)重矩陣,P為所述遮擋補(bǔ) 全子網(wǎng)絡(luò)的第三隱含層與輸出層之間的偏置,W是m的轉(zhuǎn)置矩陣,fr 〃是fr:的轉(zhuǎn)置矩陣, P (X) = max(0,x)為非線性激活函數(shù)。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述分解子網(wǎng)絡(luò)為三層網(wǎng)絡(luò),包括:輸入 層、隱含層和輸出層,所述輸入層、隱含層和輸出層依次連接; 所述分解子網(wǎng)絡(luò)根據(jù)所述第三視覺特征向量f確定所述目標(biāo)事物的各部位的類標(biāo)圖 像,組合所述各部位的類標(biāo)圖像得到所述目標(biāo)事物的解析結(jié)果,包括: 所述分解子網(wǎng)絡(luò)將所述第三視覺特征向量f作為所述分解子網(wǎng)絡(luò)的輸入層的輸入?yún)?數(shù),根據(jù)以下公式(7)和(8)確定所述目標(biāo)事物的各部位的類標(biāo)圖像: z' = p(W