專利名稱:對象檢測系統(tǒng)和方法
對象檢測系統(tǒng)和方法技術(shù)鄰域本發(fā)明涉及視覺和模式識別領(lǐng)域。更具體地講,涉及一種基于可變形部件模型(DPM, Deformable Part Model)的對象檢測系統(tǒng)和方法。
背景技術(shù):
對象檢測是視覺技術(shù)中的一個重要技術(shù),其在智能視頻監(jiān)視、基于內(nèi)容的圖像/視頻檢索、圖像/視頻注釋、輔助的人機交互中有非常重要的應(yīng)用。由于不同類別的對象在外形上有很大不同,因此對象檢測非常困難。迄今已經(jīng)提出多種對象檢測方案,例如,Boosting方法、DPM等。Boosting方法使用特征訓(xùn)練多個簡單的弱分類器,然后將這些弱分類器構(gòu)建為級聯(lián)分類器,以在圖像中對每個滑窗進(jìn)行分類。然而,Boosting方法可以成功地檢測人臉、人眼等較為簡單的對象,但是仍不能滿足普通對象(例如,汽車等)的檢測。DPM通過圖像中每個部件的外觀以及用于獲取部件之間的空間關(guān)系的幾何模型來參數(shù)化DPM。DPM參數(shù)的學(xué)習(xí)可被表達(dá)為使用隱變量(latent variable)的分類問題,并且可使用隱支持向量機(SVM)來解決該分類問題。DPM代表了該領(lǐng)域當(dāng)前的發(fā)展水平,在關(guān)于對象檢測的2009年的PASCAL VOC中獲得冠軍。DPM相對于其他方法非常有效,對于一個類別幾秒鐘即可處理一幅圖像。然而,對于實時性要求較高的場合,這樣的速度仍不能滿足要求。此外,DPM仍存在難以檢測圖像中的重疊的多個對象實例的問題。
DPM通常包括:圖像的對象根部(root) /部件(part)的數(shù)據(jù)項;從每個部件的錨
定位置測量該部件的變形代價的變形項。對象實例在DPM的得分可被表示如下:
權(quán)利要求
1.一種對象檢測系統(tǒng),包括: 圖像接收單元,接收待檢測圖像; 特征提取單元,利用根部模板對待檢測圖像進(jìn)行掃描,以提取多個窗口區(qū)域的圖像特征; 可變形部件模型檢測單元,通過將提取的多個窗口區(qū)域的圖像特征輸入可變形部件模型,以利用可變形部件模型獲得所述多個窗口區(qū)域的置信度,其中,可變形部件模型調(diào)整每個窗口區(qū)域的大小使得每個窗口區(qū)域的置信度達(dá)到最大; 對象確定單元,根據(jù)窗口區(qū)域的置信度確定存在對象的窗口區(qū)域。
2.根據(jù)權(quán)利要求1所述的對象檢測系統(tǒng),其中,調(diào)整提取的每個窗口區(qū)域的范圍,使得調(diào)整后的每個窗口區(qū)域所對應(yīng)的卷積濾波器與在調(diào)整后的每個窗口區(qū)域上的圖像特征的點積達(dá)到最大,來使得每個窗口區(qū)域的置信度達(dá)到最大。
3.根據(jù)權(quán)利要求1所述的對象檢測系統(tǒng),其中,可變形部件模型是通過訓(xùn)練得到的,其中,在訓(xùn)練可變形部件模型時,調(diào)整作為樣本的窗口區(qū)域的大小,使得作為樣本的窗口區(qū)域的置信度達(dá)到最大。
4.根據(jù)權(quán)利要求3所述的對象檢測系統(tǒng),其中,在訓(xùn)練可變形部件模型時,調(diào)整作為樣本的窗口區(qū)域的范圍,使得調(diào)整后的作為樣本的窗口區(qū)域所對應(yīng)的卷積濾波器與在調(diào)整后的作為樣本的窗口區(qū)域上的圖像特征的點積達(dá)到最大,來使得作為樣本的窗口區(qū)域的置信度達(dá)到最大。
5.根據(jù)權(quán)利要求1所述的對象檢測系統(tǒng),其中,所述可變形部件模型是混合可變形部件模型。
6.根據(jù)權(quán)利要求5所述的對象檢測系統(tǒng),還包括:冗余抑制單元,根據(jù)所述多個窗口區(qū)域之間的交互關(guān)系從獲得了置信度的所述多個窗口區(qū)域中去除偽窗口區(qū)域, 其中,冗余抑制單元包括: 特征信息提取單元,從每個窗口區(qū)域提取特征信息; 冗余去除單元,利用提取的特征信息確定所述交互關(guān)系,以從所述多個窗口區(qū)域中去除偽窗口區(qū)域。
7.根據(jù)權(quán)利要求6所述的對象檢測系統(tǒng),其中,所述特征信息包括窗口區(qū)域的置信度、根部的位置信息和/或尺度信息、部件的位置信息和/或尺度信息、根部的置信度、部件的置信度中的至少一個。
8.根據(jù)權(quán)利要求6所述的對象檢測系統(tǒng),其中,冗余去除單元通過最大化下面的等式來判定并去除偽窗口區(qū)域:
9.根據(jù)權(quán)利要求8所述的對象檢測系統(tǒng),其中,使用預(yù)知的7,.,%)、SS通過預(yù)定結(jié)構(gòu)化分類方法進(jìn)行訓(xùn)練來獲得、CDl。
10.根據(jù)權(quán)利要求6所述的對象檢測系統(tǒng),其中,窗口區(qū)域之間的交互關(guān)系包括根部-根部交互、根部-部件交互、部件-部件交互中的至少一個。
11.根據(jù)權(quán)利要求1所述的對象檢測系統(tǒng),還包括:上下文可變形部件模型檢測單元,將獲得了置信度的窗口區(qū)域的上下文特征輸入上下文分類器,以獲得窗口區(qū)域的新的置信度,其中,上下文分類器是利用作為樣本的上下文特征訓(xùn)練得到的分類器。
12.根據(jù)權(quán)利要求11所述的對象檢測系統(tǒng),其中,上下文特征包括:形狀位置特征、鄰域特征、協(xié)同出現(xiàn)特征。
13.根據(jù)權(quán)利要求11所述的對象檢測系統(tǒng),其中,形狀位置特征表示窗口區(qū)域在待檢測圖像中的大小和位置以及窗口區(qū)域中的各部件的大小和相對位置,鄰域特征表示窗口區(qū)域與窗口區(qū)域的鄰域的圖像差異;協(xié)同出現(xiàn)特征表示窗口區(qū)域與具有最大置信度的窗口區(qū)域的關(guān)系。
14.根據(jù)權(quán)利要求12所述的對象檢測系統(tǒng),其中,窗口區(qū)域的上下文特征由向量f表示: f = ( O (sc), r, p, q, O (sm), rm)其中,o (sc) = I/(1+exp (-2sc)), 其中,sc是窗口區(qū)域的置信度,r表示窗口區(qū)域的位置和大小,p表示窗口區(qū)域中的每個部件相對于根部區(qū)域中心的位置,q表示窗口區(qū)域內(nèi)的特定區(qū)域與窗口區(qū)域的相鄰區(qū)域的圖像灰度平均差,Sm是所述多個窗口區(qū)域的置信度中的最大置信度,是具有最大置信度的窗口區(qū)域的位置和大小。
15.根據(jù)權(quán)利要求4所述的對象檢測系統(tǒng),還包括:上下文可變形部件模型檢測單元,將從所述多個窗口區(qū)域中去除偽窗口區(qū)域之后剩余的窗口區(qū)域的上下文特征輸入上下文分類器,以獲得窗口區(qū)域的新的置信度,其中,上下文分類器是利用作為樣本的上下文特征訓(xùn)練得到的分類器。
16.一種對象檢測方法,包括: 接收待檢測圖像; 利用根部模板對待檢測圖像進(jìn)行掃描,以提取多個窗口區(qū)域的圖像特征; 通過將提取的多個窗口區(qū)域的圖像特征輸入可變形部件模型,以利用可變形部件模型獲得所述多個窗口區(qū)域的置信度,其中,調(diào)整每個窗口區(qū)域的大小使得該窗口區(qū)域的置信度最大; 根據(jù)窗口區(qū)域的置信度確定存在對象的窗口區(qū)域。
全文摘要
本發(fā)明提供一種對象檢測系統(tǒng)和方法。所述對象檢測系統(tǒng)包括圖像接收單元,接收待檢測圖像;特征提取單元,利用根部模板對待檢測圖像進(jìn)行掃描,以提取多個窗口區(qū)域的圖像特征;可變形部件模型檢測單元,通過將提取的多個窗口區(qū)域的圖像特征輸入可變形部件模型,以利用可變形部件模型獲得所述多個窗口區(qū)域的置信度,其中,可變形部件模型調(diào)整每個窗口區(qū)域的大小使得每個窗口區(qū)域的置信度達(dá)到最大;對象確定單元,根據(jù)窗口區(qū)域的置信度確定存在對象的窗口區(qū)域。
文檔編號G06K9/62GK103186790SQ201110456779
公開日2013年7月3日 申請日期2011年12月27日 優(yōu)先權(quán)日2011年12月27日
發(fā)明者王強, 毛文濤, 馬賡宇, 金智淵, 金培亭 申請人:北京三星通信技術(shù)研究有限公司, 三星電子株式會社