用于跟蹤和檢測(cè)目標(biāo)對(duì)象的系統(tǒng)和方法
【專利說(shuō)明】
[0001] 相關(guān)申請(qǐng)案
[0002] 本申請(qǐng)案涉及且主張2013年1月22日申請(qǐng)的用于"跟蹤和檢測(cè)目標(biāo)對(duì)象"的美 國(guó)臨時(shí)專利申請(qǐng)案第61/755, 443號(hào)和2013年6月14日申請(qǐng)的用于"平滑運(yùn)動(dòng)跟蹤結(jié)果中 的抖動(dòng)"的美國(guó)臨時(shí)專利申請(qǐng)案第61/835, 385號(hào)的優(yōu)先權(quán)。
技術(shù)領(lǐng)域
[0003] 本發(fā)明大體上涉及電子裝置。更確切地說(shuō),本發(fā)明涉及用于跟蹤和檢測(cè)目標(biāo)對(duì)象 的系統(tǒng)和方法。
【背景技術(shù)】
[0004] 最近幾十年中,電子裝置的使用已變得普遍。具體來(lái)說(shuō),電子技術(shù)中的進(jìn)展已減少 逐漸復(fù)雜且有用的電子裝置的成本。成本減少和消費(fèi)者要求已使電子裝置的使用劇增,使 得其在現(xiàn)代社會(huì)中幾乎隨處可見(jiàn)。由于電子裝置的使用已推廣開(kāi)來(lái),因此具有對(duì)電子裝置 的新的且經(jīng)改善特征的要求。更確切地說(shuō),人們常常尋求執(zhí)行新功能和/或更快、更有效或 以更高質(zhì)量執(zhí)行功能的電子裝置。
[0005] 一些電子裝置(例如,照相機(jī)、視頻攝像機(jī)、數(shù)碼照相機(jī)、蜂窩式電話、智能電話、 計(jì)算機(jī)、電視機(jī)等)捕獲或利用圖像。舉例來(lái)說(shuō),數(shù)碼照相機(jī)可捕獲數(shù)字圖像。
[0006] 人們常常尋求電子裝置的新的和/或經(jīng)改善特征。如可從此論述觀察到,添加電 子裝置的新的和/或經(jīng)改善特征的系統(tǒng)和方法可是有益的。
【發(fā)明內(nèi)容】
[0007] 描述一種用于檢測(cè)和跟蹤目標(biāo)對(duì)象的方法。所述方法包含通過(guò)比較先前視頻幀與 當(dāng)前視頻幀對(duì)所述當(dāng)前視頻幀執(zhí)行基于運(yùn)動(dòng)的跟蹤。所述方法也包含基于所跟蹤參數(shù)在所 述當(dāng)前視頻幀中選擇性地執(zhí)行對(duì)象檢測(cè)。
[0008] 所述所跟蹤參數(shù)可為對(duì)應(yīng)于所述目標(biāo)對(duì)象處于所述當(dāng)前視頻幀中的可能性的跟 蹤置信度值。選擇性地執(zhí)行對(duì)象檢測(cè)可包含當(dāng)所述跟蹤置信度值小于或等于跟蹤閾值時(shí), 對(duì)所述當(dāng)前視頻幀執(zhí)行對(duì)象檢測(cè)。選擇性地執(zhí)行對(duì)象檢測(cè)還可包含當(dāng)所述跟蹤置信度值大 于跟蹤閾值時(shí),跳過(guò)對(duì)所述當(dāng)前視頻幀的對(duì)象檢測(cè)??稍谒龌谶\(yùn)動(dòng)的跟蹤后依序執(zhí)行 所述對(duì)象檢測(cè)。所述所跟蹤參數(shù)也可為區(qū)域。所述所跟蹤參數(shù)也可為窗口位置。所述所跟 蹤參數(shù)也可為窗口大小。所述所跟蹤參數(shù)也可為尺度層級(jí)。所述方法還可包含在觸摸屏處 接收定義所述目標(biāo)對(duì)象的輸入。
[0009] 選擇性地執(zhí)行對(duì)象檢測(cè)可包含在所述先前視頻幀中選擇窗口的第一子集。選擇性 地執(zhí)行對(duì)象檢測(cè)還可包含僅搜索窗口的所述第一子集以找到所述目標(biāo)對(duì)象。選擇性地執(zhí)行 對(duì)象檢測(cè)還可包含對(duì)應(yīng)窗口的所述第一子集中的每一所選擇窗口,選擇窗口大小的子集。 選擇性地執(zhí)行對(duì)象檢測(cè)還可包含對(duì)于窗口的所述第一子集中的每一窗口,僅搜索窗口大小 的所述子集。選擇窗口的所述第一子集可包含基于隨機(jī)數(shù)產(chǎn)生器隨機(jī)地選擇窗口的所述第 -子集°
[0010] 所述方法可進(jìn)一步包含在所述當(dāng)前視頻幀中選擇窗口的第二子集。窗口的所述第 二子集的大小可是基于是否在所述先前視頻幀中檢測(cè)到所述目標(biāo)對(duì)象。相比在并未在所述 先前視頻幀中檢測(cè)到所述目標(biāo)對(duì)象的情況下,如果在所述先前視頻幀中檢測(cè)到所述目標(biāo)對(duì) 象,那么從窗口的所述第一子集到窗口的所述第二子集的所述大小增加可較高。
[0011] 所述方法還可包含增加后續(xù)幀中所選擇的窗口百分比。所選擇的所述窗口百分比 的增加可是均勻或不均勻的。當(dāng)檢測(cè)和跟蹤置信度值高于檢測(cè)和跟蹤置信度閾值時(shí),所選 擇窗口的百分比可至少為60%。所述檢測(cè)和跟蹤置信度閾值可為0. 6、0. 65、0. 7、0. 75、0. 8 和0.85中的一者。
[0012] 所述方法還可包含基于檢測(cè)和跟蹤置信度值窄化下一視頻幀中的嘗試檢測(cè)所述 目標(biāo)對(duì)象的搜索范圍。窄化搜索范圍還可包含當(dāng)所述當(dāng)前視頻幀的所述檢測(cè)和跟蹤置信度 值大于檢測(cè)和跟蹤閾值時(shí),從減少的搜索空間選擇用于搜索的窗口位置。所述當(dāng)前視頻幀 的所述檢測(cè)和跟蹤置信度值可為指示在所述當(dāng)前視頻幀中檢測(cè)并跟蹤到所述目標(biāo)對(duì)象的 可能性的介于〇與1之間的實(shí)數(shù)。窄化搜索范圍還可包含當(dāng)所述當(dāng)前視頻幀的檢測(cè)和跟蹤 置信度值小于或等于檢測(cè)和跟蹤閾值時(shí),從整個(gè)搜索空間選擇用于搜索的窗口位置。
[0013] 也描述一種用于檢測(cè)和跟蹤目標(biāo)對(duì)象的設(shè)備。所述設(shè)備包含用于通過(guò)比較先前視 頻幀與當(dāng)前視頻幀對(duì)所述當(dāng)前視頻幀執(zhí)行基于運(yùn)動(dòng)的跟蹤的裝置。所述設(shè)備也包含用于基 于所跟蹤參數(shù)在所述當(dāng)前視頻幀中選擇性地執(zhí)行對(duì)象檢測(cè)的裝置。
[0014] 也描述一種用于檢測(cè)和跟蹤目標(biāo)對(duì)象的電子裝置。所述電子裝置包含處理器和與 所述處理器進(jìn)行電子通信的存儲(chǔ)器。所述電子裝置也包含存儲(chǔ)于存儲(chǔ)器中的指令。所述指 令可執(zhí)行以通過(guò)比較先前視頻幀與當(dāng)前視頻幀對(duì)所述當(dāng)前視頻幀執(zhí)行基于運(yùn)動(dòng)的跟蹤。所 述指令也可執(zhí)行以基于所跟蹤參數(shù)在所述當(dāng)前視頻幀中選擇性地執(zhí)行對(duì)象檢測(cè)。
[0015] 也描述一種用于檢測(cè)和跟蹤目標(biāo)對(duì)象的計(jì)算機(jī)程序產(chǎn)品。所述計(jì)算機(jī)程序產(chǎn)品包 含上面具有指令的非暫時(shí)性計(jì)算機(jī)可讀媒體。所述指令包含用于致使電子裝置通過(guò)比較先 前視頻幀與當(dāng)前視頻幀對(duì)所述當(dāng)前視頻幀執(zhí)行基于運(yùn)動(dòng)的跟蹤的代碼。所述指令也包含用 于致使所述電子裝置基于所跟蹤參數(shù)在所述當(dāng)前視頻幀中選擇性地執(zhí)行對(duì)象檢測(cè)的代碼。
【附圖說(shuō)明】
[0016] 圖1為說(shuō)明用于跟蹤和檢測(cè)目標(biāo)對(duì)象的電子裝置的框圖;
[0017] 圖2A為說(shuō)明對(duì)象跟蹤和檢測(cè)模塊的框圖;
[0018] 圖2B說(shuō)明由處理器實(shí)施的圖2A的系統(tǒng)內(nèi)的一些組件;
[0019] 圖3為說(shuō)明用于執(zhí)行基于運(yùn)動(dòng)的跟蹤和對(duì)象檢測(cè)的方法的流程圖;
[0020] 圖4為說(shuō)明用于執(zhí)行基于運(yùn)動(dòng)的跟蹤的方法的流程圖;
[0021] 圖5為說(shuō)明基于正向反向誤差估計(jì)基于運(yùn)動(dòng)的跟蹤中的跟蹤誤差的方法的流程 圖;
[0022] 圖6為說(shuō)明用于執(zhí)行對(duì)象檢測(cè)的方法的流程圖;
[0023] 圖7為說(shuō)明可與本發(fā)明系統(tǒng)和方法一起使用的不同窗口大小的框圖;和
[0024] 圖8為說(shuō)明對(duì)象跟蹤和檢測(cè)模塊的另一可能配置的框圖;
[0025] 圖9為說(shuō)明平滑模塊的框圖;
[0026] 圖10為說(shuō)明用于平滑運(yùn)動(dòng)跟蹤結(jié)果中的抖動(dòng)的方法的流程圖;和
[0027] 圖11說(shuō)明可包含于電子裝置/無(wú)線裝置內(nèi)的某些組件。
【具體實(shí)施方式】
[0028] 使用來(lái)自移動(dòng)平臺(tái)(例如,平板計(jì)算機(jī)、電話)的照相機(jī)跟蹤圖像內(nèi)或所述圖像內(nèi) 的用戶定義感興趣區(qū)域內(nèi)的對(duì)象可是困難的??梢髮?shí)時(shí)性能管理(~30幀每秒(fps))。 一些配置可組合基于光流跟蹤器與基于圖像內(nèi)容檢測(cè)器的輸出以獲得穩(wěn)定性跟蹤。然而, 移動(dòng)平臺(tái)可難以勝任現(xiàn)存算法的計(jì)算以達(dá)成實(shí)時(shí)性能管理。
[0029] 本發(fā)明系統(tǒng)和方法可實(shí)施以下技術(shù)以改善跟蹤和檢測(cè)算法的速度:(1)在每一幀 處使用可能檢測(cè)窗口的一部分(例如,隨機(jī)選擇窗口位置);(2)僅選擇接近于先前檢測(cè) 目標(biāo)大小的用于對(duì)象檢測(cè)的若干空間尺度;(3)基于先前跟蹤的置信度值,確定在部分圖 像中抑或整個(gè)圖像中搜索對(duì)象;(4)基于先前跟蹤結(jié)果,動(dòng)態(tài)地調(diào)整檢測(cè)窗口數(shù)目;(5)首 先應(yīng)用跟蹤器而非并行執(zhí)行跟蹤器和對(duì)象檢測(cè)器,這是由于跟蹤器在計(jì)算上較不昂貴;和 (6)僅當(dāng)跟蹤器的置信度低于一定閾值時(shí)執(zhí)行對(duì)象檢測(cè)器。技術(shù)優(yōu)勢(shì)中的一者為減少用于 跟蹤和/或檢測(cè)目標(biāo)對(duì)象的計(jì)算。
[0030] 如本文中所使用,術(shù)語(yǔ)"跟蹤"和其變體是指基于運(yùn)動(dòng)的過(guò)程而不識(shí)別特定對(duì)象。 舉例來(lái)說(shuō),對(duì)象跟蹤和檢測(cè)模塊可逐幀跟蹤運(yùn)動(dòng),并基于電子裝置的移動(dòng)(例如,如果照相 機(jī)水平移動(dòng))或?qū)ο蟮闹饚苿?dòng)來(lái)確定目標(biāo)對(duì)象的位置、大小或幀。術(shù)語(yǔ)"檢測(cè)"和其變體 是指(例如)通過(guò)比較幀的一部分與參考圖像來(lái)嘗試識(shí)別目標(biāo)對(duì)象的過(guò)程。舉例來(lái)說(shuō),對(duì)象 跟蹤和檢測(cè)模塊可比較所捕獲幀的部分與(目標(biāo)對(duì)象的)參考圖像以嘗試識(shí)別目標(biāo)對(duì)象。 在一個(gè)實(shí)例中,當(dāng)可不再跟蹤目標(biāo)時(shí)(例如,如果對(duì)象落于視野外部)可使用檢測(cè)。下文更 詳細(xì)地解釋執(zhí)行基于運(yùn)動(dòng)的跟蹤和對(duì)象檢測(cè)的系統(tǒng)和方法。
[0031] 圖1為說(shuō)明用于跟蹤和檢測(cè)目標(biāo)對(duì)象的電子裝置102的框圖。電子裝置102也 可被稱作無(wú)線通信裝置、移動(dòng)裝置、移動(dòng)臺(tái)、訂戶臺(tái)、客戶端、客戶端臺(tái)、用戶設(shè)備(UE)、遠(yuǎn)端 臺(tái)、接入終端、移動(dòng)終端、終端、用戶終端、訂戶單元等。電子裝置的實(shí)例包含膝上型或桌上 型計(jì)算機(jī)、蜂窩式電話、智能電話、無(wú)線調(diào)制解調(diào)器、電子書(shū)閱讀器、平板裝置、游戲系統(tǒng)等。 這些裝置中的一些可根據(jù)一或多個(gè)行業(yè)標(biāo)準(zhǔn)操作。
[0032] 例如智能電話或平板計(jì)算機(jī)的電子裝置102可包含照相機(jī)。照相機(jī)可包含圖像傳 感器114和將位于光學(xué)系統(tǒng)118的視野內(nèi)的對(duì)象的圖像聚焦于圖像傳感器114上的光學(xué)系 統(tǒng)118(例如,透鏡)。電子裝置102還可包含照相機(jī)軟件應(yīng)用程序和顯示屏。當(dāng)執(zhí)行照相 機(jī)應(yīng)用程序時(shí),可由圖像傳感器114記錄位于光學(xué)系統(tǒng)118的視野內(nèi)的對(duì)象的圖像。由圖 像傳感器114所記錄的圖像可顯示于顯示屏上??梢韵鄬?duì)高幀率快速連續(xù)顯示這些圖像, 使得在任何給定時(shí)刻處,位于光學(xué)系統(tǒng)118的視野內(nèi)的對(duì)象顯示于顯示屏上。盡管在所捕 獲視頻幀方面描述本發(fā)明系統(tǒng)和方法,但本文中所論述技術(shù)可用于任何數(shù)字圖像上。因此, 術(shù)語(yǔ)視頻幀和數(shù)字圖像可在本文中互換使用。
[0033]照相機(jī)應(yīng)用程序的用戶接口120可準(zhǔn)許跟蹤顯示于顯示屏上的一或多個(gè)對(duì)象。電 子裝置的用戶可被準(zhǔn)許選擇待跟蹤的對(duì)象。另外,所選擇對(duì)象可用作稍后檢測(cè)對(duì)象的參考。
[0034] 在一個(gè)配置中,顯示器為從物理觸摸(例如,通過(guò)手指、觸控筆或其它工具)接收 輸入的觸摸屏116。觸摸屏116可接收定義待跟蹤目標(biāo)對(duì)象的觸摸輸入。舉例來(lái)說(shuō),如果 電子裝置102正捕獲包含感興趣動(dòng)物的自然場(chǎng)景,那么(必要時(shí))用戶可圍繞動(dòng)物繪制指 示希望跟蹤或檢測(cè)動(dòng)物的限界框。可以任何合適方式選擇目標(biāo)對(duì)象。舉例來(lái)說(shuō),面部辨識(shí)、 行人辨識(shí)等可用于選擇待跟蹤、檢測(cè)或所述兩者的目標(biāo)對(duì)象。在一個(gè)配置中,可跟蹤多個(gè)對(duì) 象。用戶接口 120可允許用戶與對(duì)象跟蹤和檢測(cè)模塊104互動(dòng)(例如)以選擇(S卩,定義) 一或多個(gè)目標(biāo)對(duì)象。
[0035] 電子裝置102可包含用于跟蹤所選擇對(duì)象和/或在視頻幀中檢測(cè)對(duì)象的對(duì)象跟 蹤和檢測(cè)模塊104。對(duì)象跟蹤和檢測(cè)模塊104可包含用于跟蹤一或多個(gè)對(duì)象的運(yùn)動(dòng)跟蹤器 106。運(yùn)動(dòng)跟蹤器106可基于運(yùn)動(dòng)以用于逐幀跟蹤圖像(例如,視頻幀)上的點(diǎn)的運(yùn)動(dòng)以估 計(jì)目標(biāo)對(duì)象在先前視頻幀與當(dāng)前視頻幀之間的位置和/或位置改變。
[0036] 對(duì)象跟蹤和檢測(cè)模塊104還可包含用于檢測(cè)視頻幀上的對(duì)象的對(duì)象檢測(cè)器108。 對(duì)象檢測(cè)器108可使用對(duì)象模型而非基于運(yùn)動(dòng)模型以通過(guò)比較當(dāng)前視頻幀的全部或一部 分與所選擇對(duì)象或(例如,視頻幀序列中)所捕獲先前視頻幀112的一部分來(lái)檢測(cè)對(duì)象。對(duì) 象檢測(cè)器108可用于檢測(cè)視頻幀內(nèi)的多個(gè)對(duì)象。
[0037] 對(duì)象跟蹤和檢測(cè)模塊104還可包含存儲(chǔ)緩沖器110。存儲(chǔ)緩沖器110可存儲(chǔ)一或 多個(gè)所捕獲幀和與所捕獲視頻幀相關(guān)聯(lián)的數(shù)據(jù)。在一個(gè)實(shí)例中,存儲(chǔ)緩沖器110可存儲(chǔ)先 前所捕獲視頻幀112。對(duì)象跟蹤和檢測(cè)模塊104可使用從存儲(chǔ)緩沖器110所提供的關(guān)于