專利名稱:用來(lái)處理視頻數(shù)據(jù)的裝置和方法
用來(lái)處理^L頻數(shù)據(jù)的裝置和方法相關(guān)申請(qǐng)這份申請(qǐng)是2006年6月8日申請(qǐng)的美國(guó)臨時(shí)申請(qǐng)第60/811,890 號(hào)的部分繼續(xù)申請(qǐng)并且要求其利益。上述申請(qǐng)的全部教導(dǎo)在此通 過(guò)引證被并入。發(fā)明領(lǐng)域本發(fā)明一般地涉及數(shù)字信號(hào)處理領(lǐng)域,更具體地-說(shuō)涉及用于 信號(hào)或圖 <象數(shù)據(jù)(具體地說(shuō), 一見(jiàn)頻數(shù)據(jù))的有效表達(dá)和處理的計(jì)算才幾裝置和計(jì)算才幾實(shí)iE見(jiàn)方法。
技術(shù)背景本發(fā)明駐留其中的現(xiàn)有4支術(shù)通用系統(tǒng)描述能用
圖1表示。在這里方框圖顯示典型的現(xiàn)有4支術(shù)^L頻處理系統(tǒng)。這樣的系統(tǒng)通常 包括下列幾級(jí)輸入級(jí)102、處理級(jí)104、輸出級(jí)106和一個(gè)或多 個(gè)數(shù)據(jù)儲(chǔ)存機(jī)制108。輸入級(jí)102可以包括若干元素,例如,照相才幾敏感元件,照 相才幾敏感元件陣列、測(cè)距每丈感元件或從儲(chǔ)存機(jī)制取回凄t據(jù)的裝 置。輸入級(jí)提供表達(dá)人造的和/或自然發(fā)生的現(xiàn)象的時(shí)間相關(guān)序列 的視頻數(shù)據(jù)。該數(shù)據(jù)的顯著成份可能被噪音或其它不想要的信號(hào) 掩蓋或污染。視頻數(shù)據(jù)可以依照預(yù)先定義的轉(zhuǎn)移協(xié)議以數(shù)據(jù)流、陣列或數(shù)處理級(jí)104。處理級(jí)104可以采用專用才莫擬或凄t字器件或可編程器 件(例如,中央處理器(CPU)、 ft字信號(hào)處理器(DSP)或現(xiàn)場(chǎng)可編 程門(mén)陣列(FPGA))的形式來(lái)執(zhí)行所需要的 一 組視頻數(shù)據(jù)處理操 作。處理級(jí)104通常包括一個(gè)或多個(gè)CODEC(編碼/解碼器)。輸出級(jí)106產(chǎn)生能夠影響使用者或外部裝置的信號(hào)、顯示或 其它響應(yīng)。通常,輸出器件用來(lái)產(chǎn)生指示信號(hào)、顯示、硬拷貝、 處理過(guò)的數(shù)據(jù)在存々者器中的表達(dá),或開(kāi)始數(shù)據(jù)向遠(yuǎn)程站點(diǎn)的傳 輸。它也可以用來(lái)提供在后面的處理操作中使用的中間信號(hào)或控 制參數(shù)。存儲(chǔ)器在這個(gè)系統(tǒng)中是作為非必選元素出現(xiàn)的。在使用時(shí), 儲(chǔ)存元素108可以是非易失的,例如,只讀儲(chǔ)存媒體,或易失的, 例如,動(dòng)態(tài)隨機(jī)存取儲(chǔ)存器(RAM)。單一的視頻處理系統(tǒng)包括若 干種儲(chǔ)存元素并非是罕見(jiàn)的,這些元素對(duì)輸入級(jí)、處理級(jí)和輸出 級(jí)有各種不同的關(guān)系。這樣儲(chǔ)存元素的例子包括輸入緩沖器,輸 出緩沖器和處理高速緩沖存儲(chǔ)器。圖1所示^L頻處理系統(tǒng)的主要目的是處理輸入數(shù)據(jù),產(chǎn)生對(duì) 于特定的應(yīng)用具有顯著意義的l俞出。為了實(shí)現(xiàn)這個(gè)目標(biāo),可以利 用多種處理操作,包括減少或消除噪音、特征提取、對(duì)象拆分和 /或規(guī)范化、數(shù)據(jù)分類、事件4企測(cè)、編輯、數(shù)據(jù)選擇、數(shù)據(jù)重新編 碼和^碼變4灸。產(chǎn)生受不良約束的數(shù)據(jù)的許多數(shù)據(jù)來(lái)源(尤其是聲音和可視 圖像)對(duì)人是重要的。在大多數(shù)情況下,這些來(lái)源信號(hào)的基本特 征對(duì)有效數(shù)據(jù)處理的目標(biāo)有不利的影響。來(lái)源翁:據(jù)固有的易變性 是在不引進(jìn)起因于在推導(dǎo)工程假定中使用的未試過(guò)的經(jīng)-驗(yàn)的和:探索性的方法的誤差的情況下以可靠且有效的方式處理凄t據(jù)的 障礙。這種易變性對(duì)于某些應(yīng)用當(dāng)輸入數(shù)據(jù)凈皮自然地或故意地限 制在定義狹窄的特征組(例如, 一 組有限的符號(hào)值或狹窄的帶寬) 之中的時(shí)候被減輕。這些限制時(shí)常導(dǎo)致商業(yè)價(jià)值低的處理技術(shù)。信號(hào)處理系統(tǒng)的i殳計(jì)受該系統(tǒng)的預(yù)期用途和作為llr入4吏用 的來(lái)源信號(hào)的預(yù)期特征的影響。在大多凄t情況下,所需的完成效 率也將是重要的設(shè)計(jì)因素。完成效率依次與可用的數(shù)據(jù)儲(chǔ)存器相 比較受待處理的數(shù)據(jù)量的影響以及與可得的計(jì)算能力相比較受 該應(yīng)用程序的計(jì)算復(fù)雜性的影響。傳統(tǒng)的一見(jiàn)頻處理方法遭受許多低效率性質(zhì)的損害,這些^f氐效 率性質(zhì)是以數(shù)據(jù)通信速度慢、存儲(chǔ)需求大和干擾感性假象的形式 出現(xiàn)的。這些可能是嚴(yán)重的問(wèn)題,因?yàn)槿藗兿M褂枚喾N方法操 縱視頻數(shù)據(jù)和人們對(duì)某些形式的可視信息有先天的敏感性。"最佳的"視頻處理系統(tǒng)在完成一組預(yù)期的處理操作方面是 高效率的、可靠的和強(qiáng)健的。這樣的纟喿作可能包括數(shù)據(jù)的4諸存、 傳輸、顯示、壓縮、編輯、加密、增強(qiáng)、分類、特征檢測(cè)和確認(rèn)。 二次#:作可能包括這樣處理過(guò)的數(shù)據(jù)與其它信息來(lái)源的整合。在 一見(jiàn)頻處理系統(tǒng)的情況下同等重要的是輸出應(yīng)該通過(guò)避免知覺(jué)*支 象的引進(jìn)與人類一見(jiàn)覺(jué)相容。如果視頻處理系統(tǒng)的速度、效率和質(zhì)量不強(qiáng)烈地取決于輸入 凄史據(jù)的4壬何特定特征的細(xì)節(jié),該-現(xiàn)頻處理系統(tǒng)可以-故描述為"強(qiáng) 健的"。強(qiáng)健也與在某些輸入出現(xiàn)錯(cuò)誤的時(shí)候完成操作的能力有 關(guān)。許多#見(jiàn)頻處理系統(tǒng)不夠強(qiáng)<老,不足以考慮到應(yīng)用的一4殳類別, 僅^又適用于該系統(tǒng)研發(fā)時(shí)^f吏用的同樣受狹窄限制的數(shù)據(jù)。顯著信息可能由于輸入元素的抽樣速率與測(cè)知現(xiàn)象的信號(hào)特性不匹配在連續(xù)取值的數(shù)據(jù)來(lái)源的離散化中丟失。另外,當(dāng)信 號(hào)強(qiáng)度超過(guò)傳感器極限從而導(dǎo)致飽和的時(shí)候也存在遺失。同樣, 當(dāng)輸入數(shù)據(jù)的精度下降的時(shí)候數(shù)據(jù)也會(huì)遺失,這在輸入數(shù)據(jù)的完 整的數(shù)值范圍用 一組離散數(shù)值表達(dá),借此降低數(shù)據(jù)表達(dá)的精度的 時(shí)候發(fā)生在任何量化程序中。'總體易變性指的是一 類數(shù)據(jù)或信息來(lái)源的任何無(wú)法預(yù)測(cè)性。 因?yàn)橐曈X(jué)信息通常不受限制,所以代表視覺(jué)信息特征的數(shù)據(jù)有非 常大的總體易變性程度。視覺(jué)數(shù)據(jù)可以表達(dá)任何由于光線入射在 每丈感元件陣列上所形成的空間陣列序列或時(shí)間空間的序列。在仿制纟見(jiàn)覺(jué)現(xiàn)象時(shí),纟見(jiàn)頻處理器通常把一些限制i殳定和/或結(jié) 構(gòu)強(qiáng)加在表達(dá)或解釋數(shù)據(jù)方式上。結(jié)果,這樣的方法可能引進(jìn)將 會(huì)影響輸出質(zhì)量、可能用來(lái)考慮輸出的置信水平和能對(duì)該數(shù)據(jù)可 靠地完成的后續(xù)處理工作的類型的系統(tǒng)i吳差。一些量化方法在試圖保有那個(gè)數(shù)據(jù)的統(tǒng)計(jì)學(xué)變化的時(shí)候降 低視頻畫(huà)面的數(shù)據(jù)精度。通常,視頻數(shù)據(jù)是這樣分析的,以致數(shù)據(jù)值的分布纟皮收集到積克率分布之中。也有一些方法把^:據(jù)映射到 相空間之中,以便將數(shù)據(jù)的特色表示為空間頻率的混合,借此允 許精度下降以較少引起反對(duì)的方式擴(kuò)散。這些量化方法在被大量 地利用時(shí)往往導(dǎo)致知覺(jué)上難以相信的顏色和能在該S見(jiàn)頻畫(huà)面原 本平滑的區(qū)域中引起突然的怪異狀態(tài)。差分編碼通常也用來(lái)利用數(shù)據(jù)的局部空間相似性。在該畫(huà)面 的 一 個(gè)部分中的翁:據(jù)傾向于聚集在那個(gè)畫(huà)面的相似翁:才居周圍和 后續(xù)畫(huà)面中的相似位置。然后,該數(shù)據(jù)能根據(jù)它空間上毗連的數(shù) 據(jù)與量化組合,而最終結(jié)果是對(duì)于給定的準(zhǔn)確性表達(dá)差分比使用 凄t據(jù)的絕對(duì)值更精確。這個(gè),i定在原始^L頻數(shù)據(jù)的光^普分辨率有 限的時(shí)候(例如,在黑白圖{象或顏色少的圖<象中)4艮好地工作。隨著圖像的光譜分辨率逐漸增加,相似性假定被嚴(yán)重破壞。這種破 壞是由于無(wú)法有選擇地保護(hù)視頻數(shù)據(jù)精度造成的。殘差編碼與差分編碼類似,因?yàn)檫@種表達(dá)的誤差一皮進(jìn)一步差 分編碼,以便把原始數(shù)據(jù)的精度恢復(fù)到預(yù)期的準(zhǔn)確性水平。這些方法的變化嘗試把視頻數(shù)據(jù)變換成按空間相位和刻度 暴露數(shù)據(jù)相關(guān)關(guān)系的替代表達(dá)。 一旦視頻數(shù)據(jù)已經(jīng)以這些方式完 成變換,量化和差分編碼的方法就能適用于變換后的數(shù)據(jù),乂人而 導(dǎo)致增加顯著圖像特征的保存。這些變換視頻壓縮技術(shù)中最普遍的兩種是離散余弦變換(DCT)和離散子波變換(DWT) 。 DCT變換 的誤差出現(xiàn)在視頻數(shù)據(jù)數(shù)值的廣泛變化方面,所以,DCT通常被 用在一見(jiàn)頻數(shù)據(jù)的區(qū),爻上,為的是^f吏這些4普誤的相關(guān)關(guān)系定位。來(lái) 自這種定位的假象往往沿著這些區(qū)段的邊界出現(xiàn)。就DWT而言, 更復(fù)雜的假象在基礎(chǔ)函數(shù)和某些紋理之間有誤配的時(shí)候發(fā)生,而 且這引起才莫糊效應(yīng)。為了坤氐消DCT和DWT的負(fù)面效應(yīng),4是高表達(dá) 的準(zhǔn)確性以以寶貴的帶寬為代i <介減少失真。發(fā)明內(nèi)容本發(fā)明是一種在計(jì)算和分析兩個(gè)方面均優(yōu)于現(xiàn)有頂級(jí)纟支術(shù) 的方法的計(jì)算才幾實(shí)現(xiàn)的#見(jiàn)頻處理方法。原則上本發(fā)明的方法是線 性分解法,空間拆分法和空間規(guī)范化法的整合。從空間上限制視 頻數(shù)據(jù)大大提高線性分解法的強(qiáng)健性和適用性。此外,與空間規(guī) 范化相對(duì)應(yīng)的數(shù)據(jù)空間拆分能進(jìn)一步用來(lái)增加單獨(dú)來(lái)源于空間 頭見(jiàn)范化的利益。具體地說(shuō),本發(fā)明提供 一 種能有效地把信號(hào)數(shù)據(jù)處理成 一 個(gè) 或多個(gè)有益的表達(dá)的方法。本發(fā)明在處理許多普遍發(fā)生的邀:據(jù)組 時(shí)是有效的而且在處理^L頻和圖^f象lt據(jù)時(shí)是特別有效的。本發(fā)明的方法分析數(shù)據(jù)并且才是供那個(gè)數(shù)據(jù)的 一種或多種簡(jiǎn)潔表達(dá)以佳: 它的處理和編碼變得容易。對(duì)于許多應(yīng)用(包括但不限于視頻數(shù)據(jù)的編碼、壓縮、傳輸、分析、儲(chǔ)存和顯示),每種新的比較 簡(jiǎn)潔的數(shù)據(jù)表達(dá)都允許減少計(jì)算處理、傳輸帶寬和儲(chǔ)存需求。本發(fā)明包括用來(lái)識(shí)別和換:取^1頻#:據(jù)的顯著成<分的方法,乂人而允許區(qū)分?jǐn)?shù)據(jù)的處理和表達(dá)的優(yōu)先次序。信號(hào)中的噪音和其它 多余部分被看作是優(yōu)先權(quán)比較低的,所以進(jìn)一 步處理能集中在分 析和表達(dá)視頻信號(hào)中優(yōu)先權(quán)比較高的部分上。結(jié)果,視頻信號(hào)的 表達(dá)比先前可能的表達(dá)更簡(jiǎn)潔。而且4巴準(zhǔn)確性的損失集中在3見(jiàn)頻 信號(hào)中知覺(jué)上不重要的部分。在一個(gè)實(shí)施方案中,PCA(主成分分析)或類似的線性分解被 用于特定對(duì)象(例如,臉部)的檢測(cè)和該對(duì)象的局部變形。PCA進(jìn) 一步充當(dāng)該規(guī)范化視頻數(shù)據(jù)的經(jīng)驗(yàn)變換,表達(dá)對(duì)象外觀。在顯著 對(duì)象拆分之后,該規(guī)范化方法跟蹤某二維網(wǎng)孔并允許該網(wǎng)孔變 形。來(lái)自不同畫(huà)面的對(duì)象外7見(jiàn)是沿著一個(gè)平面失見(jiàn)范化的。在一個(gè)實(shí)施方案中,Proxy Wavelet CompressoH皮用于乂十象朝L 頻數(shù)據(jù)的逐級(jí)基礎(chǔ)編碼。本發(fā)明的方法壓縮感興趣的視頻數(shù)據(jù)的 訓(xùn)練畫(huà)面和身見(jiàn)范4b畫(huà)面。附圖i兌明上述內(nèi)容通過(guò)下面用附圖舉例說(shuō)明的本發(fā)明的示范實(shí)施方 案的更具體的描述將變得顯而易見(jiàn),在這些附圖中相似的參考符 號(hào)表示遍及不同S見(jiàn)圖的同一部分。這些附圖不必依比例癥會(huì)制,而 是改為把重點(diǎn)放在舉例說(shuō)明本發(fā)明的實(shí)施方案上。圖1是舉例說(shuō)明現(xiàn)有技術(shù)視頻處理系統(tǒng)的方框圖。的方框圖,展示用來(lái)處理影-像的主 要模塊。圖3是舉例說(shuō)明本發(fā)明的運(yùn)動(dòng)評(píng)估方法的方框圖。圖4是舉例說(shuō)明本發(fā)明的整體配準(zhǔn)方法的方框圖。圖5是舉例說(shuō)明本發(fā)明的身見(jiàn)范化方法的方框圖。圖6是舉例i兌明混合式空間失見(jiàn)范化壓縮方法的方?jīng)_匡圖。圖7是舉例說(shuō)明本發(fā)明在局部》見(jiàn)范化中使用的網(wǎng)孔生成方法 的方一醫(yī)圖。范化方法的方才匡圖。圖9是舉例it明本發(fā)明的組合式整體和局部*見(jiàn)范化方法的方框圖。圖10是本發(fā)明的實(shí)施方案在其中工作的計(jì)算機(jī)環(huán)境的示意圖。圖11是圖10所示網(wǎng)全各中的計(jì)算4幾的方4匡圖。圖12是舉例說(shuō)明背景分辨方法的方框圖。圖13是舉例說(shuō)明本發(fā)明的對(duì)象拆分方法的方框圖。圖14是舉例說(shuō)明本發(fā)明的對(duì)象插值方法的方框圖。圖15是本發(fā)明的自適應(yīng)遞增建^t程序的方框圖。1具體實(shí)施例方式
本發(fā)明的范例實(shí)施方案描述如下。在視頻信號(hào)數(shù)據(jù)中,視頻 畫(huà)面被組裝成通常描繪投影到二維成像表面上成像的三維情景 的圖像序列。每個(gè)畫(huà)面(或圖像)都由代表響應(yīng)抽樣信號(hào)的成像敏 感元件的象素組成。時(shí)常,抽才羊信號(hào)對(duì)應(yīng)于一皮二維每丈感元件陣列 抽樣的一些反射的、折射的或發(fā)射的能量(例如,電磁能、聲能 等)。連續(xù)的順序4由才羊?qū)е聲r(shí)空凄t據(jù)流,每個(gè)畫(huà)面的兩個(gè)空間維
度和一個(gè)時(shí)間維度乂于應(yīng)于該畫(huà)面在一見(jiàn)頻序列中的;欠序。
本發(fā)明如同圖2舉例說(shuō)明的那樣分析信號(hào)數(shù)據(jù)和識(shí)別顯著成 份。當(dāng)信號(hào)由視頻數(shù)據(jù)組成的時(shí)候,時(shí)空流分析揭示時(shí)常作為特 定對(duì)象(例如,臉部)的顯著成4分。識(shí)別禾呈序限定該顯著成〗分的存 在和重要性并且選4奪在那些^皮限定的顯著成^f分之中最重要的一 個(gè)或多個(gè)顯著成^f分。這不限制在現(xiàn)在描述的處理之后或同時(shí)識(shí)別 和處理其它顯著性較低的成份。然后,上述的顯著成份凈皮進(jìn)一步 分析,以便識(shí)別易變的和不變的子成〗分。不變的子成4分的識(shí)別是 給該成份的某個(gè)方面建模的程序,借此揭示允許將該成份合成到 預(yù)期的準(zhǔn)確性水平的模型參數(shù)表達(dá)法。
在本發(fā)明的一個(gè)實(shí)施方案中,才企測(cè)和^艮i 宗前景對(duì)象。該對(duì)象 的象素被識(shí)別并且被從每個(gè)視頻畫(huà)面中拆分出來(lái)?;趨^(qū)段的運(yùn) 動(dòng)評(píng)估被應(yīng)用于在多個(gè)畫(huà)面中拆分出來(lái)的對(duì)象。然后,這些運(yùn)動(dòng) 評(píng)估結(jié)果被整合成高階運(yùn)動(dòng)模型。該運(yùn)動(dòng)模型用來(lái)把該對(duì)象的例 i正隱藏到/^用的空間配置中。對(duì)于特定的婆:據(jù),在這個(gè)配置中, 該對(duì)象更多的特;f正^皮對(duì)準(zhǔn)。這種》見(jiàn)范化允許在待緊湊地表達(dá)的多 個(gè)畫(huà)面上對(duì)象象素的數(shù)值的線性分解。屬于對(duì)象外觀的顯著信息 被包含在這個(gè)緊湊表達(dá)之中。
本發(fā)明的優(yōu)選實(shí)施方案詳細(xì)描述前景^L頻對(duì)象的線性分解。該對(duì)象是按空間規(guī)范化的,借此得出緊湊的線性外觀模型。此外,
進(jìn)一步優(yōu)選的實(shí)施方案在空間規(guī)范化之前先把前景對(duì)象/人;現(xiàn)頻 畫(huà)面的背景中拆分出來(lái)。
本發(fā)明的優(yōu)選實(shí)施方案將本發(fā)明應(yīng)用于一個(gè)人對(duì)著才聶^f象才幾 邊說(shuō)話邊進(jìn)行少量運(yùn)動(dòng)的影4象。
本發(fā)明的優(yōu)選實(shí)施方案將本發(fā)明應(yīng)用于影^象中能通過(guò)空間 轉(zhuǎn)換很好地表達(dá)的任何對(duì)象。
本發(fā)明的優(yōu)選實(shí)施方案明確地使用基于區(qū)段的運(yùn)動(dòng)評(píng)估來(lái) 確定兩個(gè)或多個(gè)#見(jiàn)頻畫(huà)面之間的有限差分。為了提供更有效的線 性分解,高階運(yùn)動(dòng)模型是依據(jù)那些有限差分因式分解的。
檢測(cè)&跟蹤(C1)
技術(shù)上已知的是檢測(cè)畫(huà)面中的某個(gè)對(duì)象并在預(yù)定數(shù)目的后 續(xù)畫(huà)面中跟蹤那個(gè)對(duì)象。Viola/Jones: P. Viola和M. Jones發(fā)表在 關(guān)于可視圖像的統(tǒng)計(jì)和計(jì)算理論一建模、學(xué)習(xí)、計(jì)算和抽樣的第 二屆國(guó)際研i寸會(huì)會(huì)i義錄(Proc. 2nd Int'l Workshop on Statistical and Computational Theories of Vision畫(huà)Modeling, Learning, Computing and Sampling)(加拿大,溫哥華,2001年7月)中的"Robust Real-time Object Detection"在能用來(lái)實(shí)現(xiàn)對(duì)象4企測(cè)功能的算法和禾呈序之 中。同樣,有許多算法和程序能用來(lái)在連續(xù)的畫(huà)面中跟蹤^皮;險(xiǎn)對(duì) 象。例子包4舌C. Edwards、 C. Taylor和T. Cootes發(fā)表在Proc. Int'l Conf. Auto. Face and Gesture Recognition(1998年),260-265頁(yè)中 的 "Learning to identify and track faces in an image sequence"。
對(duì)象4企測(cè)程序的結(jié)果是一個(gè)數(shù)據(jù)組,該凄t據(jù)組詳細(xì)i兌明對(duì)象 中心在畫(huà)面中的 一般位置和關(guān)于對(duì)象比例(大小)的指示。跟蹤程序的結(jié)果是一個(gè)數(shù)據(jù)組,該數(shù)據(jù)組代表該對(duì)象的時(shí)間標(biāo)簽并保證
在連續(xù)的畫(huà)面中#r測(cè)到的對(duì)象是同 一對(duì)象的一既率達(dá)到特定水平。
對(duì)象4企測(cè)和3艮蹤算法可能適用于畫(huà)面中的單一對(duì)象或畫(huà)面 中的兩個(gè)或多個(gè)對(duì)象。
人們還知道在 一組連續(xù)的畫(huà)面中跟蹤^皮4企對(duì)象的 一 個(gè)或多 個(gè)特征。舉例來(lái)說(shuō),如果對(duì)象是人的臉部,該特征可能是眼睛或 鼻子。在一種技術(shù)中,特征是用"線"的交叉點(diǎn)表示的,該交叉 點(diǎn)能被寬松地描述為"拐角"。優(yōu)選的是將強(qiáng)壯的并且在空間上 彼此完全不同的"拐角,,選作特征。這些特征可以通過(guò)空間亮度 場(chǎng)梯,變分析來(lái)識(shí)別。^吏用光學(xué)流的分層多分辨率評(píng)估允i午確定那 些特征在連續(xù)畫(huà)面中的平移位移。M. J. Black和Y. Yacoob發(fā)表 在1995年6月于馬薩諸塞州波士頓市召開(kāi)的關(guān)于計(jì)算積"殳想的國(guó) 際會(huì)i義的會(huì)i義錄的第374-381頁(yè)中的"Tracking and recognizing rigid and non-rigid facial motions using local parametric models of image motions"是使用這項(xiàng)4支術(shù)跟蹤特征的算法的一個(gè)例子。
一旦已經(jīng)確定信號(hào)的顯著構(gòu)成成^f分,就可以保留這些成4分, 而且可以減少或除去所有其它的信號(hào)成〗分。4企測(cè)顯著成^f分的程序 展示在圖2,其中視頻畫(huà)面202是用 一個(gè)或多個(gè)檢測(cè)對(duì)象206,208 程序處理的,乂人而導(dǎo)致 一 個(gè)或多個(gè)#1識(shí)別并且隨后#皮3艮蹤的對(duì) 象。保留成份(被識(shí)別的對(duì)象)代表該-現(xiàn)頻數(shù)據(jù)的一種中間形式。 然后,這個(gè)中間數(shù)據(jù)能使用對(duì)于現(xiàn)有的^L頻處理方法通常不可得 的技術(shù)編碼。因?yàn)樵撝虚g數(shù)據(jù)以幾種形式存在,所以標(biāo)準(zhǔn)的朝L頻 編碼:技術(shù)也能用來(lái)給這些中間形式中的幾種形式編碼。對(duì)于每個(gè) 例證,本發(fā)明都先確定然后使用最有效的編碼技術(shù)。
在一個(gè)優(yōu)選實(shí)施方案中,顯著特征分析程序完成顯著信號(hào)模 式的4全測(cè)和分類。這個(gè)程序的一個(gè)實(shí)施方案<吏用為產(chǎn)生強(qiáng)度與#見(jiàn)頻畫(huà)面中被檢對(duì)象顯著特征有關(guān)的響應(yīng)信號(hào)專門(mén)設(shè)計(jì)的空間過(guò) 濾器的組合。以不同的空間刻度在4見(jiàn)頻畫(huà)面的不同位置應(yīng)用該分 類程序。來(lái)自該分類程序的響應(yīng)的強(qiáng)度指出顯著信號(hào)模式出現(xiàn)的 或然率。在:fc中心置于十分顯著的對(duì)象上的時(shí)候,該程序用對(duì)應(yīng)
的強(qiáng)烈響應(yīng)給它分類。顯著信號(hào)才莫式的4企測(cè)通過(guò)激活對(duì)該纟見(jiàn)頻序 列中顯著信息的后續(xù)處理和分析來(lái)辨別本發(fā)明。
給出顯著信號(hào)才莫式在一個(gè)或多個(gè)視頻畫(huà)面中的4企測(cè)位置,本 發(fā)明分析顯著信號(hào)才莫式的無(wú)變化特征。此外,對(duì)于無(wú)變化特征, 本發(fā)明分析該信號(hào)的殘值,"較少顯著的"信號(hào)模式。無(wú)變化特 征的識(shí)別提供用來(lái)減少冗余信息和拆分(即,分離)信號(hào)模式的基礎(chǔ)。
特;f正點(diǎn)跟蹤(C7)
在本發(fā)明一個(gè)實(shí)施方案中, 一個(gè)或多個(gè)畫(huà)面中的空間位置是 通過(guò)空間強(qiáng)度場(chǎng)梯度分析確定的。這些特征對(duì)應(yīng)于"一些線"的 一些交點(diǎn),這些交點(diǎn)能凈皮寬爭(zhēng)^地描述為"拐角"。這樣的實(shí)施方 案進(jìn)一步選擇一組這樣的拐角,這些拐角是強(qiáng)壯的而且在空間上 是4皮此完全不同的,在此稱之為特征點(diǎn)。此外,^使用光學(xué)流的分 層次多分辨率評(píng)估允許確定特征點(diǎn)隨著時(shí)間流逝的平移位移。
在圖2中,展示把來(lái)自才企測(cè)對(duì)象程序206,208的才企測(cè)例證和在 許多視頻畫(huà)面202,204上一個(gè)或多個(gè)^皮才企測(cè)對(duì)象的特征的進(jìn)一步 識(shí)別對(duì)應(yīng)關(guān)系222^立到 一起的跟蹤對(duì)象220程序。
特征跟蹤的非限制性實(shí)施方案能被這樣使用,以致這些特征 被用來(lái)限定更規(guī)則的梯度分析法(例如,基于區(qū)段的運(yùn)動(dòng)評(píng)估)。
另 一 個(gè)實(shí)施方案期待以特4正跟蹤為基礎(chǔ)的運(yùn)動(dòng)評(píng)估的預(yù)測(cè)?;趯?duì)象的^r測(cè)和跟蹤(Cl)
在本發(fā)明的 一 個(gè)非限制性實(shí)施方案中,強(qiáng)健的對(duì)象分類程序 -陂用來(lái)3艮蹤—見(jiàn)頻畫(huà)面中的臉部。這才羊的分類禾呈序以只于已在臉部上 訓(xùn)練過(guò)的定向邊緣的級(jí)聯(lián)響應(yīng)為基礎(chǔ)。在這個(gè)分類程序中,邊緣 被定義為 一組基本的Haar特征和那些特征的45度旋轉(zhuǎn)。該級(jí)聯(lián)分 類程序是AdaBoost算法的變伴。此外,響應(yīng)計(jì)算能通過(guò)使用總面 積表來(lái)優(yōu)化。
局部配準(zhǔn)
配準(zhǔn)包4舌在兩個(gè)或多個(gè)—見(jiàn)頻畫(huà)面中#皮識(shí)、別只于象的i者元素之 間的對(duì)應(yīng)關(guān)系的分配。這些對(duì)應(yīng)關(guān)系變成在該-現(xiàn)頻萄:據(jù)中4要截然 不同的時(shí)間點(diǎn)建立一見(jiàn)頻lt據(jù)之間的空間關(guān)系才莫型的基礎(chǔ)。
為了根據(jù)眾所周知的算法和那些算法的富有創(chuàng)造性的派生 算法舉例i兌明特定的實(shí)施方案和它們與實(shí)踐相關(guān)聯(lián)的縮減量,玉見(jiàn) 在描述用于本發(fā)明的各種不同的非限制性的配準(zhǔn)方法。
在時(shí)空序列中建立明顯的光學(xué)流模型的 一 種方法能通過(guò)從 兩個(gè)或多個(gè)畫(huà)面的浮見(jiàn)頻凝:據(jù)產(chǎn)生有限差分i或來(lái)實(shí)現(xiàn)。如果該對(duì)應(yīng) 關(guān)系在空間和強(qiáng)度雙重意義上符合特定的恒定性限制,則光學(xué)流 場(chǎng)能被稀疏地評(píng)估。如圖3所示,畫(huà)面302或304是可能通過(guò)十取 一程序306或一些其它的二次抽樣程序(舉例來(lái)說(shuō),低通過(guò)濾器) 按空間二次抽樣的。這些減少空間的圖^f象310,312也能^皮進(jìn)一步二 次抽樣,從而導(dǎo)致,舉例來(lái)說(shuō),畫(huà)面314,316。
每個(gè)抽樣/二次抽樣水平的畫(huà)面302、 304、 310、 312、 314、 316都處理以便確定各個(gè)畫(huà)面中被4全對(duì)象特征的對(duì)應(yīng)關(guān)系。這是 通過(guò)才目應(yīng)的運(yùn)動(dòng)"i平4古350、 354、 362、 372禾口予貞測(cè)352、 360、 370
20完成的,4妄下來(lái)將詳細(xì)描述圖3的步驟。
菱形搜尋
假定把視頻畫(huà)面分割成若干不重疊的區(qū)段,該運(yùn)動(dòng)評(píng)估程序 4叟尋先前的與每個(gè)區(qū)4殳匹配的-見(jiàn)頻畫(huà)面。以全面4叟尋區(qū)^殳為基礎(chǔ)
(FSBB)的運(yùn)動(dòng)"^N古二找出在先前的一見(jiàn)頻畫(huà)面中與當(dāng)前畫(huà)面中的區(qū) 段相比較時(shí)誤差最小的位置。完成FSBB可能是計(jì)算費(fèi)用十分浩 大的,而且往往不產(chǎn)生比以局i或化運(yùn)動(dòng),ii殳為基礎(chǔ)的其它^平估方 案更好的匹配。以菱形搜尋區(qū)段為基礎(chǔ)(DSBB)的梯度下降運(yùn)動(dòng)評(píng) 估是FSBB的常見(jiàn)的替代品,它使用各種不同尺寸的菱形搜尋圖 案朝著對(duì)于某個(gè)區(qū)段最好的匹配的方向反復(fù)地橫越誤差梯度。
在本發(fā)明的一個(gè)實(shí)施方案中,為了產(chǎn)生數(shù)值稍后被因式分解 成高階運(yùn)動(dòng)4莫型的有限差分,DSBB^皮用于一個(gè)或多個(gè)^L頻畫(huà)面 之間的圖像梯度域分析。
熟悉這項(xiàng)技術(shù)的人知道基于區(qū)段的運(yùn)動(dòng)評(píng)估能被視為規(guī)貝'J 網(wǎng)孑L頂點(diǎn)分才斤的等同物。
基于網(wǎng)孔的運(yùn)動(dòng)評(píng)估
基于網(wǎng)孔的預(yù)測(cè)使用頂點(diǎn)被邊緣連接起來(lái)的幾何網(wǎng)孔描繪 一見(jiàn)頻畫(huà)面的不連續(xù)區(qū)域,隨后通過(guò)受網(wǎng)孔頂點(diǎn)位置控制的變形才莫 型預(yù)測(cè)后續(xù)畫(huà)面中那些區(qū)域的變形和運(yùn)動(dòng)。為了預(yù)測(cè)當(dāng)前畫(huà)面, 隨著頂點(diǎn)移動(dòng),用頂點(diǎn)定義的區(qū)域內(nèi)的象素也是移動(dòng)的。原始象 素凄K直的相對(duì)運(yùn)動(dòng)和由此產(chǎn)生的近似是通過(guò)一些插4直方法完成 的,這些插值方法將象素位置與鄰近那個(gè)象素的頂點(diǎn)的位置耳關(guān)系 起來(lái)。當(dāng)這樣的運(yùn)動(dòng)存在于視頻信號(hào)中的時(shí)候,縮放和旋轉(zhuǎn)的附 加建模與純粹的平移相比較能產(chǎn)生更精確的畫(huà)面象素預(yù)測(cè)。通常,網(wǎng)孔模型能被定義為是規(guī)則的或自適應(yīng)的。規(guī)則網(wǎng)孔 模型是在不考慮基礎(chǔ)信號(hào)特性的情況下設(shè)計(jì)的,而自適應(yīng)方法嘗 試相對(duì)于基礎(chǔ)視頻信號(hào)特征按空間安排頂點(diǎn)和邊緣。
規(guī)則網(wǎng)孔表示法提供 一 種倘若影像中的成像對(duì)象有空間間 斷點(diǎn)較多地與網(wǎng)孔邊緣相對(duì)應(yīng)能用來(lái)預(yù)測(cè)或仿制運(yùn)動(dòng)或運(yùn)動(dòng)中 的固有變形的方法。
自適應(yīng)網(wǎng)孔是在實(shí)質(zhì)上比失見(jiàn)則網(wǎng)孔更多地考慮基礎(chǔ)一見(jiàn)頻信
號(hào)的特4i的情況下形成的。此外,這種網(wǎng)孔的自適應(yīng)性質(zhì)可以隨 著時(shí)間逝去考慮到網(wǎng)孔的各種不同的提煉。
為了實(shí)現(xiàn)網(wǎng)孔和等同地象素配準(zhǔn),本發(fā)明夂使用同種判據(jù)調(diào)整 頂點(diǎn)搜尋??臻g上與異種強(qiáng)度梯度相關(guān)聯(lián)的頂點(diǎn)是先于那些有比 較同種的梯度的頂點(diǎn)完成運(yùn)動(dòng)評(píng)估的。
在一個(gè)實(shí)施方案中,網(wǎng)孔的頂點(diǎn)運(yùn)動(dòng)評(píng)估是通過(guò)4十對(duì)同等或 近乎同等的同種頂點(diǎn)的運(yùn)動(dòng)評(píng)估的空間填注另外區(qū)分優(yōu)先次序 的。
在優(yōu)選實(shí)施方案中,最初的網(wǎng)孔空間配置和最后的網(wǎng)孔配置 是通過(guò)4吏用標(biāo)準(zhǔn)的圖解式填充例行程序用小平面標(biāo)識(shí)符填充映 射圖像在小平面水平上相互映射的。與每個(gè)三角形相關(guān)聯(lián)的仿射 變換能很快地從變換表中查出,而且在一個(gè)網(wǎng)孔中與小平面相關(guān) 聯(lián)的象素位置能快速地轉(zhuǎn)換成在其它網(wǎng)孔中的位置。
在優(yōu)選的實(shí)施方案中,為了評(píng)定與每個(gè)運(yùn)動(dòng)評(píng)估匹配相關(guān)聯(lián) 的殘留誤差針對(duì)頂點(diǎn)進(jìn)4亍初步的運(yùn)動(dòng)評(píng)估。另外,這個(gè)初步的評(píng) 估被用來(lái)區(qū)分頂點(diǎn)運(yùn)動(dòng)評(píng)估次序的優(yōu)先次序。這樣的殘差分析的 好處是與比較少的失真相關(guān)聯(lián)的運(yùn)動(dòng)評(píng)估將導(dǎo)致維持更看似真實(shí)的網(wǎng)孑L拓4卜。
在優(yōu)選的實(shí)施方案中,網(wǎng)孔頂點(diǎn)運(yùn)動(dòng)評(píng)估^皮依比例縮減到某 個(gè)有限范圍,而且多種運(yùn)動(dòng)評(píng)估是通過(guò)一些迭^完成的,為的是 允許網(wǎng)孔接近更全面優(yōu)化的和拓樸正確的解。
在優(yōu)選的實(shí)施方案中,考慮到內(nèi)插多角形鄰域,利用中心在 每個(gè)頂點(diǎn)上矩形瓦塊鄰域使用基于區(qū)段的運(yùn)動(dòng)評(píng)估確定頂點(diǎn)位 移。除了對(duì)于誤差梯度下降避免象素的空間插值和變形之外,這 項(xiàng)才支術(shù)也允許運(yùn)動(dòng)評(píng)估的平4于計(jì)算。
基于相位的運(yùn)動(dòng)評(píng)估
在現(xiàn)有技術(shù)中,基于區(qū)段的運(yùn)動(dòng)評(píng)估通常是作為導(dǎo)致一個(gè)或 多個(gè)空間匹配的空間4叟尋實(shí)現(xiàn)的?;谙辔坏腲見(jiàn)范4匕的互相關(guān)
(PNCC)如同圖3舉例說(shuō)明的那樣把來(lái)自當(dāng)前畫(huà)面304,312,316和先 前畫(huà)面302,310,314的區(qū)^:變換到"相空間,,中,并且尋找那兩個(gè) 區(qū)段的互相關(guān)。這種互相關(guān)被表達(dá)為位置與兩個(gè)區(qū)4殳之間的邊緣 "相移"相對(duì)應(yīng)的數(shù)值域。這些位置通過(guò)定閾值被隔離,然后被 逆變換成空間坐標(biāo)。這些空間坐標(biāo)是截然不同的邊續(xù)_位移,而且 對(duì)應(yīng)于運(yùn)動(dòng)矢量。PNCC的優(yōu)勢(shì)包括在^L頻流中預(yù)留增益/曝光調(diào) 節(jié)的允差的對(duì)比度遮掩。另外,PNCC允許來(lái)自單一步驟的結(jié)果, 該單 一 步驟或許依據(jù)以空間為基礎(chǔ)的運(yùn)動(dòng)評(píng)估程序進(jìn)4亍許多迭 代。此外,運(yùn)動(dòng)評(píng)估350,354,362,372是子象素精確的。
本發(fā)明的一個(gè)實(shí)施方案在一個(gè)或多個(gè)^L頻畫(huà)面之間的圖^f象 梯度域的分析中利用PNCC ,為的是產(chǎn)生其數(shù)值隨后被因式分解 成高階運(yùn)動(dòng)才莫型的有限差分(在352,360,370)。 一旦對(duì)象特4正對(duì)應(yīng) 關(guān)系被識(shí)別222,對(duì)應(yīng)關(guān)系模型就如同接下來(lái)討論的那樣被作出 224。整體配準(zhǔn)
在優(yōu)選實(shí)施方案中,本發(fā)明7吏用在兩個(gè)或多個(gè)視頻畫(huà)面中被 檢對(duì)象的對(duì)應(yīng)元素之間的關(guān)系產(chǎn)生對(duì)應(yīng)關(guān)系^^莫型(224,圖2)。通過(guò) 因式分解來(lái)自有限差分評(píng)估域的一個(gè)或多個(gè)線性模型分析這些 關(guān)系。術(shù)語(yǔ)"域"指的是每個(gè)有空間位置的有限差分。這些有限 差分可能是在檢測(cè)&跟蹤段落所描述的完全不同的視頻畫(huà)面中對(duì) 應(yīng)對(duì)象特征的平移位移。發(fā)生這才羊的抽樣的域在此^皮稱為有限差
分的一般總體。所描述的方法4吏用與文獻(xiàn)"M. A. Fischler, R. C. Bolles. 'Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography', Comm. of the ACM, Vol 24, pp 381-395, 1981"所描述的RANSAC
算法類似的強(qiáng)1*的評(píng)估。
如圖4所示,在建立整體運(yùn)動(dòng)才莫型的情況下,有限差分是收 集到用那些運(yùn)動(dòng)評(píng)估的隨機(jī)抽樣410迭代處理的一般總體庫(kù)404 中的平移運(yùn)動(dòng)評(píng)估402,而且線性才莫型被因式分解,才是耳又那些才羊 本的公因子420。然后,結(jié)果430被用來(lái)調(diào)節(jié)總體404以便通過(guò)排 除通過(guò)隨機(jī)處理發(fā)現(xiàn)的該模型的異己樣本更好地闡明該線性模 型。
本發(fā)明能利用一個(gè)或多個(gè)強(qiáng)健的預(yù)估程序;其中之一可能是 強(qiáng)^建的RANSAC評(píng)估程序。這些強(qiáng)#:的預(yù)估#呈序在現(xiàn)有4支術(shù)中已 得到4艮好的證明。
在線性模型評(píng)估算法的 一個(gè)實(shí)施方案中,運(yùn)動(dòng)模型評(píng)估程序 以線性最小二乘解為基礎(chǔ)。這種相關(guān)性使該評(píng)估程序擺脫異己樣 本數(shù)據(jù)。基于RANSAC,所揭示的方法是一種通過(guò)反復(fù)評(píng)估凄史據(jù) 子集抵消異己樣本的效應(yīng)從而探查將描述重要的數(shù)據(jù)子集的運(yùn) 動(dòng)模型的強(qiáng)健方法。每個(gè)探頭產(chǎn)生的模型都對(duì)它所代表的數(shù)據(jù)的百分比進(jìn)4于測(cè)試。如果有足夠的迭^次凄t,則將發(fā)現(xiàn)與最大的凄t
據(jù)子集擬合的才莫型。在文獻(xiàn)"R. Dutter和PJ. Huber, 'Numerical methods for the nonlinear robust regression problem' , Journal of Statistical and Computational Simulation, 13:79-113, 1981"中有關(guān) 于怎樣完成這樣強(qiáng)健的線性最小二乘回歸的描述。
如同圖4i殳想和舉例-說(shuō)明的那才羊,本發(fā)明揭示一些在算法變 更形式上超過(guò)R AN S A C算法的改革,包括有限差分的初始抽樣 (樣本)和線性模型的最小二乘評(píng)估。綜合誤差是使用已解的線性
模型對(duì)一般總體中的所有樣本評(píng)估的。根據(jù)殘差與預(yù)先設(shè)定的閾 值一致的樣本的數(shù)目給該線性模型分配一個(gè)等級(jí)。這個(gè)等級(jí)被看 作是"候選的共識(shí)"。
最初的抽樣、求解和歸類是通過(guò)迭代完成的,直到終止判據(jù) 得到滿足為止。 一旦該判據(jù)得到滿足,等級(jí)最高的線性模型被看 作是該總體的最后共識(shí)。
非必選的改進(jìn)步驟包括按照與候選模型擬合最好的次序反 復(fù)分析該樣本子集并且逐漸增加子集規(guī)模,直到再多加一個(gè)樣本 將超過(guò)整個(gè)子集的殘留誤差閾值。
如圖4所示,整體模型評(píng)估程序450—直重復(fù)到共識(shí)等級(jí)可接 受性測(cè)試令人滿意452為止。當(dāng)該等級(jí)尚未實(shí)現(xiàn)的時(shí)候,把有限 差分的總體相對(duì)于在設(shè)法揭示線性模型時(shí)發(fā)現(xiàn)的模型分類454。 最好的(最高等級(jí)的)運(yùn)動(dòng)4莫型被添加到該程序的解集中460 。然 后,在程序470中再次評(píng)估該沖莫型。完成后,該總體4044艮據(jù)新的 /再次評(píng)估后的才莫型#1再次分類480。
為了在將與某特定的線性模型相對(duì)應(yīng)的另一個(gè)參數(shù)矢量空 間中確定子空間簇,所描述的本發(fā)明的非限制性實(shí)施方案可以作為對(duì)矢量空間(前面被描述為有限差分矢量域)抽樣的 一般方法被 進(jìn)一步推廣。
整體配準(zhǔn)程序的進(jìn)一 步的結(jié)果是這個(gè)配準(zhǔn)程序和局部配準(zhǔn) 程序之間的差異產(chǎn)生局部配準(zhǔn)殘差。這個(gè)殘差是整體模型在近似 局部模型時(shí)的誤差。
依照上文,先前發(fā)明的實(shí)施方案優(yōu)選4吏用強(qiáng)健的"i平估#呈序?yàn)?多維投射運(yùn)動(dòng)模型的解產(chǎn)生對(duì)應(yīng)關(guān)系模型zzy。
規(guī)范化(C1)
^見(jiàn)范化指的是朝著標(biāo)準(zhǔn)的或通常的空間配置方向再次#由取 空間強(qiáng)度場(chǎng)樣本。當(dāng)這些相對(duì)空間配置在這樣的配置之間是可逆 的空間變換的時(shí)候,象素的再次抽樣和附帶插值直到拓樸極限也 都是可逆的。本發(fā)明的少見(jiàn)范化方法是用圖5舉例i兌明的并且在象 素水平上操作(即,對(duì)象素和子象素再次抽樣)。
在圖5中,《合定運(yùn)動(dòng)評(píng)估;模型510, ^見(jiàn)范4匕程序反轉(zhuǎn)520該運(yùn) 動(dòng)模型510的相對(duì)空間配置之間的空間變換。反轉(zhuǎn)的運(yùn)動(dòng)模型522 產(chǎn)生。使用該反轉(zhuǎn)的運(yùn)動(dòng)模型522,來(lái)自運(yùn)動(dòng)模型510的對(duì)象象素 530在532被再次抽樣從而導(dǎo)致伴生象素的插值。在優(yōu)選的實(shí)施方 案中,再次抽樣過(guò)濾與橫穿多幀視頻數(shù)據(jù)的空間區(qū)域的結(jié)構(gòu)、變 形、姿勢(shì)和照明相關(guān)聯(lián)的任何變化或相反提取與橫穿多幀視頻數(shù) 據(jù)的空間區(qū)域的結(jié)構(gòu)、變形、姿勢(shì)和照明相關(guān)耳關(guān)的4壬4可變化的7> 因子。剩余的變化#^見(jiàn)為成像對(duì)象的"外觀"。
當(dāng)兩個(gè)以上空間強(qiáng)度場(chǎng)被規(guī)范化的時(shí)候,提高的計(jì)算效率可 以通過(guò)保存中間的規(guī)范化計(jì)算結(jié)果來(lái)實(shí)現(xiàn)。
為了配準(zhǔn)或等效地為了失見(jiàn)范化,用來(lái)再次抽取圖傳_樣本的空間變換模型包括總體模型和局部模型。總體模型有從平移變換到 影射變換逐漸增加的階次。局部^^莫型是有限差分,該有限差分暗 示基本上用區(qū)段或更復(fù)雜地用分段線性網(wǎng)孔確定的關(guān)于鄰近象 素的內(nèi)插式。原始強(qiáng)度場(chǎng)向規(guī)范化強(qiáng)度場(chǎng)的插值增加基于強(qiáng)度場(chǎng) 子集的PCA外觀模型的直線性。
如圖2所示,在依照后面討論的模型對(duì)應(yīng)關(guān)系224從圖像數(shù)據(jù) /畫(huà)面拆分230出對(duì)象象素之后,對(duì)象象素或子象素232,234能凈皮再 次抽樣240。以象素和子象素水平再次抽才羊240產(chǎn)生對(duì)象象素和子 象素的規(guī)范化版本242,244。
基于網(wǎng)孔的少見(jiàn)范化
本發(fā)明的進(jìn)一步的實(shí)施方案^fe特征點(diǎn)鑲嵌到基于三角形的 網(wǎng)孑L中,跟蹤該網(wǎng)孔的頂點(diǎn),并且使用每個(gè)三角形的頂點(diǎn)的相對(duì) ^f立置來(lái)評(píng)估與那三個(gè)頂點(diǎn)一致的平面的三維表面法線。當(dāng)該表面 法線與攝影機(jī)的投影軸相符的時(shí)候,成像象素能提供與該三角形 相對(duì)應(yīng)的對(duì)象的4丑曲最小的透4見(jiàn)圖。創(chuàng)造傾向于支持正交表面法 線的規(guī)范化圖像能產(chǎn)生保存中間數(shù)據(jù)類型的象素,這將提高后來(lái) 以外觀為基礎(chǔ)的PCA(主成分分析)模型的直線性。除PCA以外其 它線性分解是適用的
另 一個(gè)實(shí)施方案利用傳統(tǒng)的以區(qū),爻為基礎(chǔ)的運(yùn)動(dòng)評(píng)估來(lái)含 蓄地建立整體運(yùn)動(dòng)模型。在一個(gè)非限制性實(shí)施方案中,該方法將 來(lái)自傳統(tǒng)的以區(qū),殳為基礎(chǔ)的運(yùn)動(dòng)評(píng)估/預(yù)測(cè)所描述的運(yùn)動(dòng)矢量的 整體仿射運(yùn)動(dòng)模型因式分解。
本發(fā)明的方法利用一項(xiàng)或多項(xiàng)整體運(yùn)動(dòng)評(píng)估技術(shù),包括一組 仿射投影方程的線性解。其它的投影模型和求解方法在現(xiàn)有技術(shù) 中已有描述。圖9舉例說(shuō)明整體和局部規(guī)范化的組合方法。在圖9中,禍L頻序列的第 一和第二畫(huà)面902,904(畫(huà)面A和畫(huà)面 B)是整體規(guī)范化程序906的輸入。整體規(guī)范化程序906包括下列步 驟形成整體運(yùn)動(dòng)模型(如同前面在圖4中那樣,舉例來(lái)說(shuō))和跟蹤 網(wǎng)孔的4侖廓和頂點(diǎn)的變形或運(yùn)動(dòng)。后者表現(xiàn)在畫(huà)面A和B中出現(xiàn) 的成^f象對(duì)象的整體幾何形狀902,904。整體失見(jiàn)范化程序906的結(jié)果 包括在圖9中以108表示的被整體規(guī)范化的畫(huà)面B。接下來(lái),畫(huà)面 A 904和被整體規(guī)范化的畫(huà)面B 908被送進(jìn)局部規(guī)范化程序910。 在那里,;陂整體^L范化的畫(huà)面B一皮局部^L范化。這導(dǎo)致畫(huà)面B既 被整體規(guī)范化又被局部規(guī)范化920 。
用于整體和局部^見(jiàn)范化步-驟906和910的各種不同的關(guān)見(jiàn)范化i 才支術(shù)4妾下來(lái)將^皮分別描述。
漸進(jìn)的幾^f可失見(jiàn)范化
空間間斷點(diǎn)的分類#1用來(lái)對(duì)準(zhǔn)4裏嵌的網(wǎng)孔,以 <更在它們與網(wǎng) 孔邊纟彖一致的時(shí)候含蓄地建立間斷點(diǎn)才莫型。
同種區(qū)域的邊界是用多角形4侖廓近似的。為了確定每個(gè)多角 形頂點(diǎn)的顯著優(yōu)先權(quán),該輪廓是以逐次降低的精度逐次近似的。 為了保護(hù)共享頂點(diǎn)的頂點(diǎn)優(yōu)先權(quán),頂點(diǎn)優(yōu)先權(quán)在各個(gè)區(qū)域上傳播。
在這項(xiàng)發(fā)明的一個(gè)實(shí)施方案中,多角形分解方法允i午與3見(jiàn)場(chǎng) 的同種分類相關(guān)聯(lián)的邊界的優(yōu)先排序。象素是依照一些同種標(biāo)準(zhǔn) (例如,光語(yǔ)相似性)分類的,然后把分類標(biāo)簽按空間連接到各個(gè) 區(qū)i或之中。在進(jìn)一步優(yōu)選的非限制性實(shí)施方案中,4-或8-連通性 判招4皮用來(lái)確定空間連通性。
在另一個(gè)實(shí)施方案中,這些空間區(qū)域的邊界隨后^皮離散成多角形。所有多角形對(duì)所有同種區(qū)域的空間覆蓋呈棋盤(pán)格狀并且結(jié) 合在 一起形成初步的網(wǎng)孔。使用 一 些判據(jù)將這種網(wǎng)孔的頂點(diǎn)分 解,以揭示保有最初網(wǎng)孔的大多數(shù)知覺(jué)特征的較簡(jiǎn)單的網(wǎng)孔表達(dá)。
在優(yōu)選實(shí)施方案中,圖〗象配準(zhǔn)方法與前面揭示的一樣用強(qiáng)壯 的圖像梯度向這些高優(yōu)先權(quán)頂點(diǎn)偏置。由此產(chǎn)生的變形模型傾向 于{呆護(hù)與成<象對(duì)象的幾4可形狀相關(guān)耳關(guān)的空間間斷點(diǎn)。
在一個(gè)實(shí)施方案中,活3夭的4侖廓用來(lái)改善區(qū)域邊界。每個(gè)多
角形區(qū)域的活3夭4侖廓都被允許增殖一次迭代。在不同的區(qū)域中每 個(gè)活躍輪廓頂點(diǎn)的"變形"或運(yùn)動(dòng)被結(jié)合在計(jì)算平均值的操作中, 以便考慮到隱式網(wǎng)孔受限制的增殖,對(duì)于該網(wǎng)孔它們有隸屬關(guān)系。
在另一個(gè)實(shí)施方案中,頂點(diǎn)被分配在適合也作為不同區(qū)域的 4侖廓部分的毗鄰頂點(diǎn)的網(wǎng)孑L中它有的郵匕鄰頂點(diǎn)凄t的計(jì)凄t 。這些其 它的頂點(diǎn)^皮定義為處在對(duì)立狀態(tài)。如果頂點(diǎn)計(jì)lt為l,則它有沒(méi) 有對(duì)立頂點(diǎn),因此需要得到保護(hù)。如果兩個(gè)毗鄰的對(duì)立頂點(diǎn)每個(gè) 頂點(diǎn)的計(jì)數(shù)都為l(意味著這兩個(gè)頂點(diǎn)在不同的多角形中而且彼 ot匕詳目鄰),那么一個(gè)頂點(diǎn)只于另一個(gè)是可分l淨(jìng)的。當(dāng)計(jì)凄史為l的頂點(diǎn) 與數(shù)值為2的鄰近的多角形頂點(diǎn)對(duì)立的時(shí)候,計(jì)數(shù)為1的頂點(diǎn)被分 辨為計(jì)凄t為2的頂點(diǎn),而且由此產(chǎn)生的頂點(diǎn)計(jì)凄t等于l。因此,如 果出現(xiàn)另一個(gè)鄰近的對(duì)立頂點(diǎn),那么這個(gè)頂點(diǎn)能^皮再一次分享淬。 對(duì)于這種情況,保留最初的頂點(diǎn)計(jì)數(shù)是重要的,所以在分辯頂點(diǎn) 的時(shí)候,我們能基于最初的頂點(diǎn)計(jì)數(shù)偏置求解方向。這是為了頂 點(diǎn)a變得1于頂點(diǎn)b清晰可見(jiàn),那么頂點(diǎn)b只寸頂點(diǎn)c爿尋不清晰可見(jiàn),而 頂點(diǎn)c應(yīng)該對(duì)頂點(diǎn)b變得清晰可見(jiàn),因?yàn)閎已經(jīng)被用于一種分辨率。
在優(yōu)選的實(shí)施方案中,T-接合點(diǎn)被明確地處理。這些是在一個(gè)多角形中的點(diǎn),該多角形沒(méi)有點(diǎn)在毗鄰的多角形中。在這種情 況下,每個(gè)多角形頂點(diǎn)都首先被畫(huà)在圖像點(diǎn)映射圖上,這張映射 圖識(shí)別頂點(diǎn)的空間位置及其多角形標(biāo)識(shí)符。然后才黃越和測(cè)試每個(gè) 多角形的周長(zhǎng)看看是否有任何來(lái)自另 一個(gè)多角形的毗鄰頂點(diǎn)。如 果有來(lái)自另一個(gè)區(qū)域的鄰近頂點(diǎn),那么它們每個(gè)都被測(cè)試,看看 它們是否已經(jīng)有來(lái)自當(dāng)前的多角形的鄰近頂點(diǎn)。如果它們沒(méi)有, 那么當(dāng)前的點(diǎn)作為當(dāng)前的多角形的頂點(diǎn)被添加進(jìn)去。這種額外的
測(cè)試/f呆i正在另一個(gè)多角形中的3瓜立頂點(diǎn)^皮用來(lái)產(chǎn)生T4姿合點(diǎn)。否 則,這將在這個(gè)區(qū)域已經(jīng)有匹配頂點(diǎn)的情況下^f義僅添加新的頂 點(diǎn)。所以,只有當(dāng)鄰近的頂點(diǎn)不與這個(gè)當(dāng)前區(qū)域?qū)α⒌臅r(shí)4夷才添 加對(duì)立頂點(diǎn)。在進(jìn)一步的實(shí)施方案中,通過(guò)使用掩模圖像增加檢 測(cè)T-聯(lián)接的效率。連續(xù)地訪問(wèn)多角形頂點(diǎn),而且這樣更新掩模, 以致頂點(diǎn)的象素被確認(rèn)為屬于某個(gè)多角形頂點(diǎn)。然后多角形周長(zhǎng) 的象素被詳細(xì)研究,如果它們與多角形頂點(diǎn)一致,那么它們被記 錄為在當(dāng)前的多角形之內(nèi)的頂點(diǎn)。
在一個(gè)實(shí)施方案中,當(dāng)某光i普區(qū)i或已,皮一個(gè)或多個(gè)交疊的同 種圖傳_梯度區(qū)i或再次映射,而且另 一個(gè)同種光^普區(qū)域也重疊的時(shí) 候,先前被再次映射的區(qū)域全被賦予與當(dāng)前被再次映射的那些區(qū) 域相同的標(biāo)簽。因此基本上,如果光譜區(qū)域被兩個(gè)同種區(qū)域遮住, 那么所有#皮那兩個(gè)同種區(qū)域遮住的光譜區(qū)域都將獲得同樣的標(biāo) 簽,因此一個(gè)光語(yǔ)區(qū)域真正被一個(gè)同種區(qū)域而不是兩個(gè)同種區(qū)域 覆蓋是相似的。
在本發(fā)明的一個(gè)實(shí)施方案中,為了找到鄰接歸并判據(jù),處理 區(qū)域映射圖而不是處理區(qū)域目錄是有利的。在進(jìn)一步的實(shí)施方案 中,光譜拆分分類器能被修正以便訓(xùn)練該分類器使用非同種區(qū) 域。這允許將處理集中在光譜區(qū)域的邊緣。此外,增加以使用邊 緣(例如,穩(wěn)定的邊緣檢測(cè)器)為基礎(chǔ)的不同的拆分并且把那個(gè)饋送給活躍的輪廓識(shí)別最初的那組多角形將考慮到同種區(qū)域較大 的差別。
局部^見(jiàn)范^f匕
本發(fā)明提供能以"局部"方式4吏時(shí)空流中的象素配準(zhǔn)的方法。
一種這樣的局域化方法使用幾何網(wǎng)孔的空間應(yīng)用722(圖7)提 供分析象素的方法,以致在成^f象現(xiàn)象中局域相干性在分辯與成^f象 現(xiàn)象(或明確地說(shuō)成^象對(duì)象)的局部變形有關(guān)的表^見(jiàn)圖《象亮度恒定 性模棱兩可的時(shí)候得到解釋。
這樣的網(wǎng)孔被用來(lái)提供在像平面中表面變形的分段線性模 型作為局部少見(jiàn)范化的方法。當(dāng)映 <象流的時(shí)間分辨率與映^f象中的運(yùn) 動(dòng)相比高的時(shí)候,成像現(xiàn)象可能往往與這樣的模型相對(duì)應(yīng)。模型 假設(shè)之例外是通過(guò)多種技術(shù)處理的,包括象素和圖像梯度區(qū)域 的拓樸限制、鄰近頂點(diǎn)限制和同種分析。
在一個(gè)實(shí)施方案中,《合定^L頻畫(huà)面702(圖7),同種象素區(qū)i或 是作為圖像對(duì)象位置和數(shù)值范圍706檢測(cè)的704。在同種象素區(qū)域 內(nèi),步驟708定義多角形輪廓。步驟710檢測(cè)和限定該圖像對(duì)象的 特征點(diǎn)。具體地說(shuō),使用三角形輪廓并且使用特征點(diǎn)來(lái)產(chǎn)生由其 頂點(diǎn)與特征點(diǎn)相對(duì)應(yīng)720的三角形元素組成的輪廓網(wǎng)孔722。在其 它的畫(huà)面中對(duì)應(yīng)的特征點(diǎn)暗示三角形(輪廓網(wǎng)孑L的鑲嵌式鋪 裝)724和對(duì)應(yīng)地象素的內(nèi)插"翹曲"。這導(dǎo)致局部變形才莫型(對(duì)象 網(wǎng)孔)726的產(chǎn)生。圖7舉例說(shuō)明這樣的對(duì)象網(wǎng)孑L726的產(chǎn)生。圖8 舉例說(shuō)明使用這樣的對(duì)象網(wǎng)孔806使畫(huà)面802,804局部規(guī)范化。
在圖8的局部關(guān)見(jiàn)范化程序中,對(duì)象網(wǎng)孔806(例如,用圖7的程 序產(chǎn)生的)被應(yīng)用于視頻或圖像畫(huà)面802,804(畫(huà)面A和畫(huà)面B)。對(duì)于網(wǎng)孔的每個(gè)頂點(diǎn),有各自的瓦片810將中心置于其上。在畫(huà)面A 和B 802,804之間頂點(diǎn)位置的對(duì)應(yīng)關(guān)系是借助下面進(jìn)一步討論的 并且與先前對(duì)整體運(yùn)動(dòng)討論過(guò)的那些類似的運(yùn)動(dòng)評(píng)估決定的。
鄰近點(diǎn)的運(yùn)動(dòng)"i平估纟皮用來(lái)形成頂點(diǎn)運(yùn)動(dòng)矢量812。然后,4吏 用該運(yùn)動(dòng)矢量812為每個(gè)瓦片814產(chǎn)生仿射才莫型。下面進(jìn)一步討i侖 的是三角形瓦片和對(duì)應(yīng)的運(yùn)動(dòng)矢量以及用于這些三角形的仿射模型。
繼續(xù)參照?qǐng)D8,每塊瓦片有對(duì)它進(jìn)行評(píng)估的仿射變換(在814)。 在步驟816,畫(huà)面B 804基于導(dǎo)致對(duì)應(yīng)的象素被剝奪與畫(huà)面802,804 上的局部結(jié)構(gòu)、變形、姿勢(shì)和照明相關(guān)寫(xiě)關(guān)的局部變化的逆仿射祐: 再次抽樣。換句話iJi,失見(jiàn)范化的畫(huà)面B在步驟820產(chǎn)生。
在一個(gè)優(yōu)選的實(shí)施方案中,產(chǎn)生一幅識(shí)別三角形的三角形映 射圖,該映射圖的每個(gè)象素都來(lái)自該三角形。此外,與每個(gè)三角 形相對(duì)應(yīng)的仿射變換814(圖8)是作為優(yōu)化步驟預(yù)先計(jì)算的。再者, 在產(chǎn)生局部變形模型的時(shí)候,使用空間坐標(biāo)在固定圖像(先前的) 上來(lái)回移動(dòng)以確定源象素的抽才羊坐標(biāo)。這個(gè)一皮抽樣的象素將代盧#
當(dāng)前象素位置。
在另一個(gè)實(shí)施方案中,局部變形是在整體變形之后預(yù)先形成 的。在先前揭示的i兌明書(shū)中,整體^見(jiàn)范化是作為^f吏用整體配準(zhǔn)方 法,人空間上關(guān)見(jiàn)范4匕兩幅或多幅^L頻畫(huà)面中的象素的禾呈序描述的。 由此產(chǎn)生的整體-見(jiàn)范化的#見(jiàn)頻畫(huà)面能^皮進(jìn)一步局部^見(jiàn)范化。這兩 種方法的組合把局部^見(jiàn)范化限制在整體上得到的解決辦法的細(xì) 分方面。這能大大減少求解所需要的局部方法的不明確性。
在另一個(gè)非限制性實(shí)施方案中,特征點(diǎn)或"規(guī)則網(wǎng)孔"情況 下的頂點(diǎn)是通過(guò)分析那些點(diǎn)鄰近區(qū)域的圖像梯度限定的。這個(gè)圖像梯度能被直接地或通過(guò)某種間接計(jì)算(例如,Harris響應(yīng))計(jì)算出 來(lái)。此外,這些點(diǎn)能被用與圖像梯度下降相關(guān)聯(lián)的空間限制和運(yùn) 動(dòng)評(píng)估結(jié)果誤差過(guò)濾。合格的點(diǎn)能作為網(wǎng)孔的基礎(chǔ)被許多棋盤(pán)格 化技術(shù)之一使用,從而導(dǎo)致其元素是三角形的網(wǎng)孔。對(duì)于每個(gè)三 角形,基于那些點(diǎn)和它們殘留的運(yùn)動(dòng)矢量產(chǎn)生一個(gè)仿射模型。
本發(fā)明的方法利用 一種或多種圖像強(qiáng)度梯度分析方法,包括 Harris響應(yīng)。其它的圖4象強(qiáng)度梯度分析方法在現(xiàn)有才支術(shù)中已有描述。
在優(yōu)選的實(shí)施方案中,維持三角形仿射參數(shù)的目錄。這個(gè)目 錄通過(guò)迭代構(gòu)成當(dāng)前的/早先的點(diǎn)目錄(使用頂點(diǎn)查尋映射圖)。當(dāng) 前的/早先的點(diǎn)目錄被傳送給用來(lái)評(píng)估為那個(gè)三角形計(jì)算仿射參 數(shù)的變換的例行程序。然后,這些仿射參tt或才莫型814被保存在 三角形仿射參凄t目錄中。
在進(jìn)一 步的實(shí)施方案中,該方法4黃移三角形標(biāo)識(shí)符圖 <象映射 圖,在這種情況下該映射圖中的每個(gè)象素包含在該象素對(duì)它有隸 屬關(guān)系的網(wǎng)孔中的三角形的標(biāo)識(shí)符。而且對(duì)于屬于某個(gè)三角形的 每個(gè)象素,為那個(gè)象素計(jì)算對(duì)應(yīng)的整體變形坐標(biāo)和局部變形坐 標(biāo)。那些坐標(biāo)依次用來(lái)完成對(duì)應(yīng)象素的抽樣并且把它的數(shù)值應(yīng)用 于對(duì)應(yīng)的"身見(jiàn)范化"位置(例如,圖8中的步驟816)。
在進(jìn)一步的實(shí)施方案中,以起因于圖像梯度搜尋的密度和圖 像強(qiáng)度對(duì)應(yīng)關(guān)系嚴(yán)格性為基礎(chǔ)把空間限制應(yīng)用于那些點(diǎn)。在完成 運(yùn)動(dòng)評(píng)估之后基于某種圖像強(qiáng)度殘差基準(zhǔn)將那些點(diǎn)分類。然后, 以空間密度限制為基礎(chǔ)對(duì)這些點(diǎn)進(jìn)行過(guò)濾。
在進(jìn)一步的實(shí)施方案中,使用空間光語(yǔ)拆分,而且4巴小的同 種光譜區(qū)域基于它們的強(qiáng)度和/或顏色與鄰近區(qū)域的空間仿射性和相似性合并。然后,使用同種合并把光譜區(qū)域以它們與同種紋 理(圖像梯度)區(qū)域的重疊為基礎(chǔ)組合在一起。進(jìn)一步的實(shí)施方案 然后使用中心周圍點(diǎn)(那些點(diǎn)是被較大的區(qū)域包圍的小區(qū)域)作為 合格的感興趣的點(diǎn)來(lái)支持網(wǎng)孔的頂點(diǎn)。在進(jìn)一 步的非限制性實(shí)施
方案中,中心周圍點(diǎn)的定義為其邊界沖匡在尺寸為3 x 3或5 x 5或7 x 7象素的一個(gè)象素之內(nèi)而且對(duì)于那個(gè)邊界框空間圖像梯度是角 落形狀的區(qū)域。該區(qū)域的中心能^皮歸類為角落,乂人而進(jìn)一步限定 那個(gè)位置為有利的頂點(diǎn)位置。
在進(jìn)一步的實(shí)施方案中,水平和垂直的象素有限差分圖傳4皮 用來(lái)給每個(gè)網(wǎng)孔邊緣的強(qiáng)度分類。如果邊緣有許多與它的空間位 置 一致的有限差分,那么該邊緣和那個(gè)邊緣的頂點(diǎn)被認(rèn)為是對(duì)于 成像現(xiàn)象的局部變形非常重要的。如果在邊緣的有限差分之和的 平均值之間有大的派生差異,那么該區(qū)域邊緣通常很可能對(duì)應(yīng)于 紋理變化邊纟彖,而不是量化步-驟。
在進(jìn)一步的實(shí)施方案中,空間密度才莫型終止條件^皮用來(lái)優(yōu)化 網(wǎng)孔頂點(diǎn)的處理810。當(dāng)檢查過(guò)數(shù)目足以覆蓋大部分檢測(cè)矩形始 端的空間區(qū)域的點(diǎn)的時(shí)4矣,于是可以結(jié)束該處理。終止產(chǎn)生得分。 進(jìn)入處理的頂點(diǎn)和特征點(diǎn)用這個(gè)得分來(lái)分類。如果那個(gè)點(diǎn)與現(xiàn)有 的點(diǎn)在空間上挨得太近,或著那個(gè)點(diǎn)不與圖像梯度的邊緣相對(duì) 應(yīng),則將它丟棄。否則,在那個(gè)點(diǎn)的鄰近地區(qū)中的圖l象梯度下降, 而且如果梯度的殘差超過(guò)某個(gè)界限,那么那個(gè)點(diǎn)也一皮丟棄。
在優(yōu)選實(shí)施方案中,局部變形建4莫是通過(guò)迭代完成的,,人而 隨著每次迭^J貞點(diǎn)位移減少收癥支到解上。
在另一個(gè)實(shí)施方案中,局部變形才莫型^皮完成,而且如果該整 體變形已經(jīng)提供相同的規(guī)范化利益,則該模型參數(shù)被丟棄。
34規(guī)則網(wǎng)孔規(guī)范化
本發(fā)明利用規(guī)則網(wǎng)孔擴(kuò)展上述的局部規(guī)范化方法。這種網(wǎng)孔 是不考慮潛在象素構(gòu)成的,然而它的位置和尺寸與#皮4企對(duì)象相對(duì) 應(yīng)。
給定凈皮4全對(duì)象(例如,臉部)區(qū)i或,空間畫(huà)面位置和指出對(duì)象 臉部大小的刻度在臉部區(qū)i或的始端上產(chǎn)生A見(jiàn)則網(wǎng)孔。在優(yōu)選的實(shí) 施方案中,4吏用一組不重疊的瓦片描繪矩形網(wǎng)孔,然后在810完 成瓦片的對(duì)角線分割產(chǎn)生有三角形網(wǎng)孔元素的規(guī)則網(wǎng)孔。在進(jìn)一
步的優(yōu)選實(shí)施方案中,瓦片與用于傳統(tǒng)的^L頻壓縮算法(例如, MPEG-4 AVC)的那些成比例。
在優(yōu)選的實(shí)施方案中,與上述網(wǎng)孔相關(guān)耳關(guān)810的頂點(diǎn)通過(guò)在 用于訓(xùn)練的特定碎見(jiàn)頻畫(huà)面中分析這些頂點(diǎn)周圍的象素區(qū)域區(qū)分 優(yōu)先次序。這樣的區(qū)域的梯度分析提供關(guān)于與每個(gè)頂點(diǎn)相關(guān)的將 依靠局部圖像梯度的處理(例如,基于區(qū)段的運(yùn)動(dòng)評(píng)估結(jié)果)的置 信度。
頂點(diǎn)位置在多個(gè)畫(huà)面中的對(duì)應(yīng)關(guān)系是通過(guò)簡(jiǎn)單的逐步降氐 圖像梯度找到的。在優(yōu)選實(shí)施方案中,這是通過(guò)基于區(qū)段的運(yùn)動(dòng) 評(píng)估在810實(shí)現(xiàn)的。在目前的實(shí)施方案中,高置信度的頂點(diǎn)考慮 到高置信度的對(duì)應(yīng)關(guān)系。置信度較低的頂點(diǎn)對(duì)應(yīng)關(guān)系是通過(guò)推理 經(jīng)過(guò)求解不明確的圖像梯度從置信度較高的頂點(diǎn)對(duì)應(yīng)關(guān)系獲得 的。
在一個(gè)優(yōu)選實(shí)施方案中,失見(jiàn)則網(wǎng)孔是越過(guò)3艮蹤矩形的開(kāi)端制 作的。產(chǎn)生16xl6的瓦片,并且沿著對(duì)角線切割,形成三角形網(wǎng) 孔。對(duì)這些三角形的頂點(diǎn)進(jìn)行運(yùn)動(dòng)評(píng)估810。運(yùn)動(dòng)評(píng)估結(jié)果取決 于每個(gè)點(diǎn)的紋理類型。紋理被分為三類角落、邊緣和同種,它們也定義頂點(diǎn)的處理次序。角落頂點(diǎn)使用鄰近頂點(diǎn)評(píng)估結(jié)果,即,
鄰近點(diǎn)(如果可得)的運(yùn)動(dòng)評(píng)估^皮用于預(yù)言性運(yùn)動(dòng)矢量812,而運(yùn)動(dòng) 評(píng)估結(jié)果適用于每一個(gè)。提供最低誤差的運(yùn)動(dòng)矢量是作為這個(gè)頂 點(diǎn)運(yùn)動(dòng)矢量812使用的。用于角落的搜尋策略是全部(寬的、小的 和原點(diǎn))。對(duì)于邊緣,再一次使用最近的相鄰運(yùn)動(dòng)矢量812作為預(yù) 言性運(yùn)動(dòng)矢量,而且使用誤差最小的那一個(gè)。邊緣的搜尋策略是 小的和原點(diǎn)。對(duì)于同種的,搜尋鄰近的頂點(diǎn)并且使用誤差最小的 運(yùn)動(dòng)評(píng)估。
在 一 個(gè)優(yōu)選實(shí)施方案中,每個(gè)三角形頂點(diǎn)的圖像梯度被計(jì)算 出來(lái),而且基于類別和大小被分類。所以,角落先于邊緣,邊緣 先于同種。對(duì)于角落,強(qiáng)的角落先于弱的角落,對(duì)于邊緣,強(qiáng)的 邊緣先于弱的邊緣。
在一個(gè)優(yōu)選實(shí)施方案中,每個(gè)三角形的局部變形以與那個(gè)三 角形相關(guān)耳關(guān)的運(yùn)動(dòng)評(píng)估為基礎(chǔ)。每個(gè)三角形都有對(duì)它在814評(píng)估 的仿射。如果三角形不作拓樸逆轉(zhuǎn),或變成退化的,那么作為三 角形部分的象素凈皮用來(lái)以在814獲得的評(píng)估仿射為基礎(chǔ)4由取當(dāng)前 圖像的樣本。
拆分
通過(guò)進(jìn)一 步描述的拆分程序識(shí)別的空間間斷點(diǎn)是通過(guò)它們 各自邊界的幾何參數(shù)表達(dá)法(被稱為空間間斷點(diǎn)模型)被有效地編 碼的。這些空間間斷點(diǎn)才莫型可以以漸進(jìn)的方式編碼,從而考慮到 與編碼子集相對(duì)應(yīng)的更簡(jiǎn)潔的邊界描述。漸進(jìn)式編碼提供 一 種在 保留空間間斷點(diǎn)的許多顯著方面的同時(shí)區(qū)分空間幾何學(xué)優(yōu)先次 序的強(qiáng)健方法。
本發(fā)明的優(yōu)選實(shí)施方案將多分辨率拆分分析與空間強(qiáng)度場(chǎng)的梯度分析結(jié)合起來(lái),并且進(jìn)一步使用時(shí)間穩(wěn)定性限制來(lái)實(shí)現(xiàn)強(qiáng) 健的拆分。
如圖2所示, 一旦已經(jīng)隨著時(shí)間的流逝^艮蹤對(duì)象特4正的對(duì)應(yīng)
關(guān)系220并且建立了模型224,遵守這個(gè)運(yùn)動(dòng)/變形模型能用來(lái)拆分 與那個(gè)對(duì)象相^f應(yīng)的象素230。這個(gè)禾呈序可以^^見(jiàn)頻凄t纟居/畫(huà)面 202,204中的許多被檢對(duì)象206,208重復(fù)。這個(gè)程序的結(jié)果是被拆 分對(duì)象的象素232。
本發(fā)明使用的無(wú)變化特征分析的 一種形式被集中在空間間 斷點(diǎn)的識(shí)別上。這些間斷點(diǎn)是作為邊緣、陰影、遮蔽、線、拐角 或在 一 個(gè)或多個(gè)#見(jiàn)頻成{象畫(huà)面中任何其它的引起突然的和可識(shí) 別的象素分離的4壬4可其它可見(jiàn)特^£出現(xiàn)的。此外,在顏色和/或紋 理類似的對(duì)象之間細(xì)微的空間間斷點(diǎn)可能只出現(xiàn)在視頻畫(huà)面中 的對(duì)象的象素相對(duì)于對(duì)象本身正在經(jīng)歷粘附運(yùn)動(dòng)但相對(duì)于其它 對(duì)象正在經(jīng)歷不同的運(yùn)動(dòng)之時(shí)。本發(fā)明利用頻i普拆分、紋理拆分 和運(yùn)動(dòng)拆分的組合強(qiáng)健地識(shí)別與顯著信號(hào)才莫式相關(guān)聯(lián)的空間間 斷點(diǎn)。
時(shí)間拆分
把平移運(yùn)動(dòng)矢量或在空間強(qiáng)度場(chǎng)中等價(jià)的有限差分測(cè)量結(jié) 果按時(shí)間整合成高階運(yùn)動(dòng)才莫型是現(xiàn)有技術(shù)描述的運(yùn)動(dòng)拆分形式。
在本發(fā)明的一個(gè)實(shí)施方案中,產(chǎn)生運(yùn)動(dòng)矢量的稠密域,表現(xiàn) 映像中對(duì)象運(yùn)動(dòng)的有限差分。這些導(dǎo)數(shù)是通過(guò)瓦片的規(guī)則分割或 借助某種初始化程序(例如,空間拆分)按空間集合的。每個(gè)集合 的"導(dǎo)數(shù)"被整合成使用線性最小二乘評(píng)估程序的高階運(yùn)動(dòng)模型。 然后,由此產(chǎn)生的運(yùn)動(dòng)模型作為矢量被群集在使用聚類算法 (k-means)群集技術(shù)的運(yùn)動(dòng)模型空間中。這些導(dǎo)數(shù)是基于與它們擬合最好的群分類的。然后,群標(biāo)在空間上被群集為空間分割 的演變。該程序 一 直繼續(xù)到空間分割是穩(wěn)定的。
在本發(fā)明的進(jìn)一步的實(shí)施方案中,適合》合定的孔徑的運(yùn)動(dòng)矢 量被內(nèi)插到 一組與該孔徑相對(duì)應(yīng)的象素位置。當(dāng)用這種內(nèi)插定義 的區(qū)段橫越與對(duì)象邊界相對(duì)應(yīng)的象素時(shí)候,由此產(chǎn)生的分類是該 區(qū)^殳的某種不身見(jiàn)則的對(duì)角線分割。
在現(xiàn)有技術(shù)中,用來(lái)整合導(dǎo)數(shù)的最小二乘評(píng)估程序?qū)﹄x群值 是高度敏感的。這種敏感性能產(chǎn)生使運(yùn)動(dòng)模型群集方法嚴(yán)重地偏 向迭代結(jié)果大幅度發(fā)散的點(diǎn)的運(yùn)動(dòng)模型。
在本發(fā)明中,運(yùn)動(dòng)拆分方法通過(guò)在兩個(gè)以上視頻畫(huà)面上分析 明顯的象素運(yùn)動(dòng)識(shí)別空間間斷點(diǎn)。明顯的運(yùn)動(dòng)是4十對(duì)這些-見(jiàn)頻畫(huà) 面上的一致性分析的并且纟皮整合成參數(shù)運(yùn)動(dòng)才莫型。與這種一致的
運(yùn)動(dòng)相關(guān)聯(lián)的空間間斷點(diǎn)#:識(shí)別出來(lái)。運(yùn)動(dòng)拆分也可以^^稱為時(shí) 間拆分,因?yàn)闀r(shí)間變4匕可能是由運(yùn)動(dòng)引起的。然而,時(shí)間變4匕也 可能是由一些其它的現(xiàn)象(例如,局部變形、照明變化,等等)引 起的。
通過(guò)所描述的方法,與規(guī)范化方法相對(duì)應(yīng)的顯著信號(hào)模式能 被識(shí)別而且能通過(guò)幾種背景減法之一與環(huán)境信號(hào)模式(背景或非
對(duì)象)分開(kāi)。時(shí)常,這些方法從統(tǒng)計(jì)上建立背景模型,因?yàn)橄笏?在每個(gè)時(shí)間例證都呈現(xiàn)最小的變化量。變化能凈皮i見(jiàn)為象素?cái)?shù)值差異。
基于拆分周界的整體變形模型是通過(guò)先創(chuàng)造圍繞對(duì)象的周 界,然后使該周界向被檢對(duì)象中心倒塌直到周界頂點(diǎn)已經(jīng)實(shí)現(xiàn)位 置與異種圖像梯度一致實(shí)現(xiàn)的。運(yùn)動(dòng)評(píng)估是針對(duì)這些新的頂點(diǎn)位 置推斷的,而強(qiáng)健的仿射評(píng)估被用來(lái)發(fā)現(xiàn)整體變形模型?;诒徊鸱志W(wǎng)孔頂點(diǎn)圖像梯度下降的有限差分被整合成整 體變形模型。
對(duì)象拆分
圖13所示方框圖展示對(duì)象拆分的一個(gè)優(yōu)選實(shí)施方案。所示程 序1300從規(guī)范化的視頻畫(huà)面/圖像1302的系綜開(kāi)始,該規(guī)范化的視 頻畫(huà)面/圖<象隨后在該系綜當(dāng)中一皮逐對(duì)地計(jì)算差分1304。然后,這 些差分#1逐元素地積聚到積聚纟爰沖區(qū)中1306。為了識(shí)別比4交重要 的誤差區(qū)域,該積聚l^沖區(qū)設(shè)定了閾值1310。然后,為了確定累 積誤差區(qū)域的空間支持1310,對(duì)有閾值的元素掩模進(jìn)行形態(tài)學(xué)分 析1312。然后,將形態(tài)學(xué)分析1312產(chǎn)生的提取物1314與被檢對(duì)象 位置進(jìn)行比較1320,以便將后來(lái)的處理集中在與對(duì)象一致的累積 誤差區(qū)域。然后,用形成其凸殼1324的多角形近似《瓜立空間區(qū)域 1320的邊界1322。然后,調(diào)整殼的4侖廓1330,以便更好地初始化 用于活輪廓分析1332的頂點(diǎn)位置。 一旦活3夭4侖廓分析1332已經(jīng)會(huì) 聚在累積誤差空間中的低能量解上,該輪廓被用作最后輪廓 1334,而且被限制在該輪廓之中的象素被視為最有可能是對(duì)象象 素的那些。在最后4侖廓1334之外的那些象素^皮;現(xiàn)為非對(duì)象象素。
在一個(gè)實(shí)施方案中,運(yùn)動(dòng)拆分能在給定顯著圖像模型的檢測(cè) 位置和規(guī)模的情況下實(shí)現(xiàn)。距離變換能用來(lái)確定每個(gè)象素離開(kāi)該 被檢位置的距離。如果與最大距離相關(guān)聯(lián)的象素?cái)?shù)值被保留,合 理的背景模型能被求解。換句話說(shuō),環(huán)境信號(hào)是使用信號(hào)差衡量 才示準(zhǔn)按時(shí)再次4由才羊的。
進(jìn)一步的實(shí)施方案包4舌相對(duì)于當(dāng)前的4全測(cè)位置4吏用距離變 換把距離分配給每個(gè)象素。如果到某個(gè)象素的距離大于在某個(gè)最 大象素距離表中的距離,那么該象素?cái)?shù)值被記錄下來(lái)。在適當(dāng)?shù)?訓(xùn)練周期之后,如果適合于部個(gè)象素的最大距離是大的,則假定
39該象素最有可能是背景象素。
給定環(huán)境信號(hào)模型,完全的顯著信號(hào)模態(tài)能按每個(gè)時(shí)間例證 計(jì)算差分。這些差分每個(gè)都能被再次抽樣變成空間規(guī)范化的信號(hào)
差(絕對(duì)差)。然后,這些差分#:;波此對(duì)準(zhǔn)并且#皮累積。由于這些 差分已經(jīng)相對(duì)于顯著信號(hào)模式在空間上被規(guī)范化,所以差分的峰 值將主要對(duì)應(yīng)于與顯著信號(hào)模式相關(guān)聯(lián)的象素位置。
在本發(fā)明的一個(gè)實(shí)施方案中,訓(xùn)練周期^皮限定,其中對(duì)象抬, 測(cè)位置被確定下來(lái)而且那些位置的質(zhì)心被用來(lái)以遠(yuǎn)離這個(gè)位置 的才企測(cè)位置確定最佳的畫(huà)面數(shù),這將考慮到畫(huà)面差分化以 <更產(chǎn)生 將最有可能是非對(duì)象象素的背景象素。
在本發(fā)明的一個(gè)實(shí)施方案中,活躍輪廓才莫型曾用來(lái)通過(guò)在累 積誤差"圖像"中確定輪廓頂點(diǎn)位置把前景對(duì)象從非對(duì)象背景中 拆分出來(lái)。在優(yōu)選的實(shí)施方案中,活躍輪廓邊緣被細(xì)分得與被檢 對(duì)象的比例相稱,以便得到較大的自由度。在優(yōu)選的實(shí)施方案中, 最后輪廓的位置能與最接近的規(guī)則網(wǎng)孔頂點(diǎn)對(duì)齊,以便產(chǎn)生有頭見(jiàn) 4聿地隔開(kāi)的4侖廓。
在對(duì)象拆分的一個(gè)非限制性實(shí)施方案中,使用導(dǎo)向核來(lái)為時(shí) 間上成對(duì)的圖像產(chǎn)生誤差圖像過(guò)濾響應(yīng)。對(duì)取向與總的運(yùn)動(dòng)方向 正交的過(guò)濾器的響應(yīng)傾向于在相對(duì)于背景的運(yùn)動(dòng)由于背景的遮 蔽和顯露而發(fā)生的時(shí)候增強(qiáng)誤差表面。
規(guī)范化圖像系綜的規(guī)范化圖像畫(huà)面強(qiáng)度矢量是利用 一 個(gè)或 多個(gè)參考畫(huà)面計(jì)算差分的從而產(chǎn)生殘差矢量。這些殘差矢量是逐
元素地累積的,以形成累積殘差矢量。然后,這個(gè)累積殘差矢量 被按空間探查,以便定義適合對(duì)象象素和非對(duì)象象素的空間拆分 的空間對(duì)象邊界。在一個(gè)優(yōu)選實(shí)施方案中,為了得出能用來(lái)給累積殘差矢量設(shè) 定閾值的統(tǒng)計(jì)閾值,完成了最初的累積殘差矢量統(tǒng)計(jì)分4斤。通過(guò) 先腐蝕后膨脹的形態(tài)學(xué)操作,形成初步的對(duì)象區(qū)域掩模。然后, 分析該區(qū)域的輪廓多角形點(diǎn)以揭示那些點(diǎn)的凸殼。然后,把該凸 殼作為初始輪廓用于活躍輪廓分析法。該活躍輪廓在它會(huì)聚在該 對(duì)象的累積殘差空間邊界上之前是一直增殖的。在進(jìn)一步優(yōu)選的 實(shí)施方案中,初步的輪廓邊緣通過(guò)添加中點(diǎn)頂點(diǎn)被進(jìn)一步細(xì)分到 實(shí)現(xiàn)適合于所有的邊緣長(zhǎng)度的最小邊緣長(zhǎng)度。這個(gè)進(jìn)一 步的實(shí)施 方案意味著逐漸增加活3夭l侖廓才莫型的自由度以〗更更精確地適合 該只于象的4侖廓。
在一個(gè)實(shí)施方案中,〗吏用細(xì)化的輪廓產(chǎn)生象素掩才莫乂人而通過(guò) 覆蓋該輪廓暗示的多角形和覆蓋規(guī)范化圖像中的多角形指出該 對(duì)象的象素。
非對(duì)象的分辨
圖12所示的方框圖揭示非對(duì)象拆分或同義地背景分辨的一 個(gè)優(yōu)選實(shí)施方案。通過(guò)背景緩沖區(qū)1206和初始最大距離值緩沖區(qū) 1204的初始化,該程序這樣工作,通過(guò)把"穩(wěn)定性"與距被檢對(duì) 象位置1202的最大距離1212聘系起來(lái)確定最穩(wěn)定的非對(duì)象象素。 給出新的被檢對(duì)象位置1202,該程序檢查每個(gè)象素位置1210。對(duì) 于每個(gè)象素位置1210,使用距離變換計(jì)算離開(kāi)被檢對(duì)象位置1210 的距離1212。如果那個(gè)象素的距離大于先前儲(chǔ)存在最大距離緩沖 區(qū)1204中的位置1216,那么先前的翁^f直凈皮當(dāng)前的彩j直^^替1218, 而且該象素?cái)?shù)值^皮記錄在該象素緩沖區(qū)中1220。象素3巨離與最大 存儲(chǔ)距離的比較1216是針對(duì)每個(gè)象素重復(fù)的1214。
給出清晰的背景圖像,這個(gè)圖^f象和當(dāng)前畫(huà)面之間的i吳差可以 按空間規(guī)范化并且按時(shí)間累積。這樣的清晰背景圖像是在"背景分辨"部分中描述的。通過(guò)這個(gè)方法背景的分辨率被視為基于時(shí)間的遮擋過(guò)濾禾呈序。
然后,由此產(chǎn)生的累積誤差通過(guò)閾值;H險(xiǎn)提供初始輪廓。然后,該輪廓在空間上擴(kuò)展以使殘留誤差與輪廓變形保持平衡。
在^,代實(shí)施方案中,計(jì)算在當(dāng)前畫(huà)面和^皮分辨背景畫(huà)面之間的絕對(duì)差別。然后,將元素狀態(tài)的絕對(duì)差別拆分成截然不同的空
間區(qū)域。這樣計(jì)算這些區(qū)域邊界才匡的平均象素^直,以致當(dāng)更新祐:分辨背景的時(shí)候,當(dāng)前的和已分辨的背景的平均象素值之間的差能用來(lái)實(shí)現(xiàn)反差變化,所以當(dāng)前區(qū)域能更有效地?fù)交煸赹皮分辨的背景之中。在另一個(gè)實(shí)施方案中,在規(guī)范化畫(huà)面掩才莫里面的頂點(diǎn)
是針對(duì)每個(gè)畫(huà)面進(jìn)行運(yùn)動(dòng)評(píng)估和保存的。然后,使用SVD處理這
些頂點(diǎn)以產(chǎn)生每個(gè)畫(huà)面的局部變形予貞測(cè)。梯度拆分
紋理拆分方法或同義的強(qiáng)度梯度拆分分析象素在一個(gè)或多個(gè)視頻畫(huà)面中的局部梯度。梯度響應(yīng)是一種表征空間間斷點(diǎn)的統(tǒng)
計(jì)尺度,其中所述空間間斷點(diǎn)對(duì)于該^L頻畫(huà)面中的象素位置是局部的。然后,使用幾種空間群集技術(shù)之一把這些梯度響應(yīng)組合成一些空間區(qū)域。這些區(qū)域的邊界在識(shí)別一個(gè)或多個(gè)^L頻畫(huà)面中的空間間斷點(diǎn)方面是有用的。.
在本發(fā)明的 一 個(gè)實(shí)施方案中,來(lái)自計(jì)算機(jī)圖形紋理生成的總面積表概念被用于加快強(qiáng)度場(chǎng)梯度計(jì)算的目的。累加值域的產(chǎn)生〃使通過(guò)與四次加法運(yùn)算結(jié)合的四次查詢計(jì)算{壬{可長(zhǎng)方形原始i或的總和變得容易。
進(jìn)一步的實(shí)施方案^f吏用對(duì)一個(gè)圖^f象產(chǎn)生的Harris響應(yīng),而每個(gè)象素的鄰近區(qū)域被歸類為同種的、邊緣或拐角。響應(yīng)數(shù)值是依據(jù)這個(gè)信息產(chǎn)生的并且指出畫(huà)面中每種元素的邊緣化或拐角化的程度。
多刻度梯度分析
本發(fā)明的實(shí)施方案通過(guò)以幾種空間刻度產(chǎn)生圖像梯度值進(jìn)一步約束圖像梯度支持。這個(gè)方法能幫助限定圖像梯度,以致在不同的刻度下空間間斷點(diǎn)能用來(lái)彼此相互支持,只要"邊緣"在幾種不同的空間刻度下能被區(qū)別對(duì)待即可,該邊緣應(yīng)該是"顯著的"。更合乎條件的圖像梯度將傾向于與更顯著的特征相對(duì)應(yīng)。
在一個(gè)實(shí)施方案中,紋理響應(yīng)區(qū)i或是首先產(chǎn)生的,然后,這個(gè)區(qū)域的數(shù)值以聚類算法(k-means)分區(qū)間/分割為基礎(chǔ)被量化成若干區(qū)間。然后,使用每個(gè)區(qū)間作為單一迭代能把轉(zhuǎn)捩點(diǎn)拆分應(yīng)用于它的數(shù)值間隔漸進(jìn)地處理最初的圖像梯度數(shù)值。這種方法的好處是在相對(duì)意義上用強(qiáng)烈的空間偏置限定同種。
光i普拆分
光譜拆分方法分析視頻信號(hào)中黑白象素、灰度象素或彩色象素的統(tǒng)計(jì)概率分布。頻i瞽分類程序是通過(guò)完成關(guān)于那些象素的扭無(wú)率分布的群集操作構(gòu)成的。然后,使用該分類程序把一個(gè)或多個(gè)象素分類,使之屬于某個(gè)概率類別。然后,由此產(chǎn)生的概率類別和它的象素被賦予類別標(biāo)簽。'然后,使這些類別標(biāo)簽在空間上與截然不同的邊界結(jié)合成各個(gè)象素區(qū)Jt或。這些邊界標(biāo)識(shí)在一個(gè)或多個(gè)一見(jiàn)頻畫(huà)面中的空間間斷點(diǎn)。
本發(fā)明可以利用基于光"i普分類的空間拆分來(lái)拆分^L頻畫(huà)面中的象素。此外,各個(gè)區(qū)域之間的對(duì)應(yīng)關(guān)系可能是基于各個(gè)光譜
43區(qū)域與先前拆分的區(qū)域的重疊確定的。
業(yè)已觀察到當(dāng)^L頻畫(huà)面l體上由空間上被連接成與^L頻畫(huà) 面中的對(duì)象相對(duì)應(yīng)的較大區(qū)域的連續(xù)彩色區(qū)域組成的時(shí)候,彩色 (或光譜)區(qū)域的識(shí)別和跟蹤能促進(jìn)映像序列中對(duì)象的后續(xù)拆分。
背景拆分
本發(fā)明包4舌以每個(gè)#見(jiàn)頻畫(huà)面中的4笨測(cè)對(duì)象和每個(gè)個(gè)別象素 之間的空間距離測(cè)量結(jié)果的瞬時(shí)最大值為基礎(chǔ)建立#見(jiàn)頻畫(huà)面背 景才莫型的方法。見(jiàn)前面圖12的描述。#會(huì)定#笨測(cè)到的對(duì)象位置,應(yīng) 用距離變換,產(chǎn)生適合畫(huà)面中每個(gè)象素的標(biāo)量距離數(shù)值。在所有 的#見(jiàn)頻畫(huà)面上每個(gè)象素的最大距離的映射圖^皮^呆留。當(dāng)最初分配 最大數(shù)值的時(shí)候,或后來(lái)用不同的新數(shù)值更新該最大數(shù)值的時(shí) 候,適合于那個(gè)視頻畫(huà)面的對(duì)應(yīng)的象素被保留在"清晰的背景" 畫(huà)面中。
建立外觀才莫型
4見(jiàn)頻處理的共同目標(biāo)往往是建立和保存^L頻畫(huà)面序列的外 觀才莫型。本發(fā)明以允許通過(guò)預(yù)處理的運(yùn)用以強(qiáng)健的和廣泛適用的 方式應(yīng)用強(qiáng)制性外觀建模技術(shù)為目標(biāo)。先前描述的配準(zhǔn)、拆分和 頭見(jiàn)范化明顯地適合這個(gè)目的。
本發(fā)明揭示建立外觀變化模型的方法。建立外觀變化模型的 主要基礎(chǔ)在線性模型的情況下是分析特征矢量,以揭示開(kāi)發(fā)利用 線性相關(guān)關(guān)系的堅(jiān)實(shí)基礎(chǔ)。表達(dá)空間強(qiáng)度場(chǎng)象素的特征矢量能被 組裝成外XC變化才莫型。
在替代實(shí)施方案中,外觀變化模型是依據(jù)被拆分的象素子集 計(jì)算的。此外,該特征矢量能被分成若干空間上不重疊的特征矢量。這沖羊的空間分解可以用空間鋪瓦來(lái)實(shí)現(xiàn)。計(jì)算效率可以通過(guò)
處理這些臨時(shí)總體來(lái)實(shí)現(xiàn),而不犧牲更普遍的PCA方法的維數(shù)減 少。
在產(chǎn)生外觀變化模型時(shí),空間強(qiáng)度場(chǎng)規(guī)范化能用來(lái)減少空間 變換的PCA建模。
建立變形模型
當(dāng)頂點(diǎn)位移和插值函數(shù)能用來(lái)依照與那些象素相關(guān)耳關(guān)的頂 點(diǎn)決定象素再次抽樣的時(shí)候,能建立局部變形模型。這些頂點(diǎn)位 移可以作為單 一 參數(shù)組提供很多橫越許多頂點(diǎn)看到的運(yùn)動(dòng)變化。 這些參數(shù)的相關(guān)關(guān)系能大大減少這個(gè)參數(shù)空間的維度。
PCA
產(chǎn)生外,見(jiàn)變化4莫型的優(yōu)選方法是通過(guò)4巴一見(jiàn)頻畫(huà)面作為圖案 矢量組裝成一個(gè)訓(xùn)練矩陣或總體然后把主要成份分析(PCA)應(yīng)用 在該訓(xùn)練矩陣上。當(dāng)這樣的展開(kāi)式被截取的時(shí)候,由此產(chǎn)生的 PCA變換矩陣;故用來(lái)分4斤和合成后面的一見(jiàn)頻畫(huà)面?;诮囟炙?平,改變象素的初始外^見(jiàn)質(zhì)量水平能實(shí)現(xiàn)。
圖案矢量的特定的構(gòu)成和分解方法對(duì)于熟悉這項(xiàng)技術(shù)的人 是廣為人知的。
給出來(lái)自環(huán)境信號(hào)的顯著信號(hào)模式的空間拆分和這個(gè)模式 的空間規(guī)范化,象素本身或同義的由此產(chǎn)生的規(guī)范化信號(hào)的外觀 能被因式分解成線性相關(guān)的成份,其中低級(jí)參數(shù)表達(dá)考慮到適合 表達(dá)象素外XC的近似值誤差和比特率之間的直4妄交4灸。用來(lái)實(shí)現(xiàn) 低等級(jí)近似的 一種方法是通過(guò)舍棄編碼數(shù)據(jù)的 一 些字節(jié)和/或位。 低等級(jí)近似值被視為原始數(shù)據(jù)的壓縮,如同這項(xiàng)技術(shù)的特定應(yīng)用所確定的那樣。舉例來(lái)i兌,在^L頻壓縮中,如果數(shù)據(jù)的舍棄并非 不適當(dāng)?shù)?-使感知質(zhì)量降^[氐,那么該應(yīng)用的特定目標(biāo)將連同壓縮一 起實(shí)現(xiàn)。
如圖2所示,為了得到量綱上簡(jiǎn)明的數(shù)據(jù)版本252和254,規(guī) 范化的對(duì)象象素242和244能才殳射到矢量空間中而且線性對(duì)應(yīng)關(guān) 系能使用分解程序250建立模型。
連續(xù)的PCA
PC A使用PC A變換把圖案編碼成PC A系數(shù)。用PC A變換表達(dá) 的圖案越好,給該圖案編碼所需要的系數(shù)就越少。承認(rèn)圖案矢量 可能隨著時(shí)間在獲得訓(xùn)練圖案和待編碼圖案之間流逝降級(jí),更新 變換能幫助抵消這種降級(jí)。作為產(chǎn)生新變換的替代品,現(xiàn)有圖案 的連續(xù)更新在特定的情況下是計(jì)算上更有效的。
許多最新技術(shù)的^L頻壓縮算法依據(jù)一個(gè)或多個(gè)其它畫(huà)面預(yù) 測(cè)某^L頻畫(huà)面。預(yù)測(cè)才莫型通?;?巴每個(gè)預(yù)測(cè)畫(huà)面分割成與在另 一畫(huà)面中對(duì)應(yīng)的補(bǔ)丁相匹配6々不重疊的瓦片和相關(guān)^:的用偏移 運(yùn)動(dòng)矢量參數(shù)化的平移位移。這個(gè)非必選地與畫(huà)面索引耦合的空 間位移提供瓦片的"運(yùn)動(dòng)預(yù)測(cè)"版本。如果預(yù)測(cè)的誤差在特定的 閾Y直以下,則瓦片的象素適合殘差編石馬;而且在壓縮歲丈率方面有 對(duì)應(yīng)的增益。否則,瓦片的象素被直接編碼。這種基于瓦片的換 句話i兌基于區(qū)#殳的運(yùn)動(dòng)預(yù)測(cè)方法通過(guò)平移包含象素的瓦片建立 影像模型。當(dāng)影像中的成像現(xiàn)象堅(jiān)持這種建模的時(shí)候,對(duì)應(yīng)的編 碼效率增加。為了與在基于區(qū)段的預(yù)測(cè)中固有的平移假定 一 致,
這個(gè)建模限制為了與在基于區(qū)段的預(yù)測(cè)中固有的平移假設(shè) 一 致 虧叚定特定的時(shí)間分辨率水平(或幀頻)對(duì)于正在運(yùn)動(dòng)的成<象對(duì)象是 存在的。這種平移模型的另 一個(gè)必要條件是對(duì)于特定的時(shí)間分辨 率空間位移必須受到限制;換言之,用來(lái)推導(dǎo)預(yù)測(cè)結(jié)果的畫(huà)面和#皮預(yù)測(cè)的畫(huà)面之間的時(shí)間差必須是比4交短的絕對(duì)時(shí)間。這些時(shí)間 分辨率和運(yùn)動(dòng)限制4吏存在于#見(jiàn)頻流中的某些多余的#見(jiàn)頻4言號(hào)成 Y分的識(shí)別和建才莫變得容易。
在本發(fā)明的方法中,連續(xù)的PCA與嵌零樹(shù)子波結(jié)合以進(jìn)一步 提高混合壓縮法的實(shí)用性。連續(xù)的PCA技術(shù)提供能針對(duì)有時(shí)間相 干性或時(shí)間局部平滑性的信號(hào)提高傳統(tǒng)的PCA的方法。嵌零樹(shù)子 波提供能為了提高特定處理的強(qiáng)健性和該算法的計(jì)算效率把局 部平滑的空間信號(hào)分解成空間刻度表達(dá)的方法。對(duì)于本發(fā)明,將 這兩種技術(shù)結(jié)合起來(lái),增加變異模型的表達(dá)能力和提供那些緊湊 且安排好的模型的表達(dá),以致該基礎(chǔ)的許多表達(dá)能力是由該基礎(chǔ) 的舍棄提供的。
在另一個(gè)實(shí)施方案中,連續(xù)的PCA是與固定的輸入?yún)^(qū)段大小 和固定的允差一起應(yīng)用的,以增加乂于第 一個(gè)和大多tt有力的PCA 成寸分的加^又偏移。對(duì)于較長(zhǎng)的凄t據(jù)序列,這第一個(gè)PCA成〗分往往 是唯一的PCA成份。這影響重建的畫(huà)面質(zhì)量而且能以某種方式限 制所述方法的實(shí)效。本發(fā)明將不同的基準(zhǔn)用于PCA成^f分的選擇, 這種選擇對(duì)慣常使用的最小二乘基準(zhǔn)是優(yōu)選的。這種模型選擇形 式避免用第一個(gè)PCA成份過(guò)度近似。
在另一個(gè)實(shí)施方案中,區(qū)段PCA程序連同每個(gè)數(shù)據(jù)區(qū)段的固 定的輸入?yún)^(qū)4殳大小和身見(jiàn)定的PCA成4分?jǐn)?shù)目 一起用來(lái)4是供有益的 統(tǒng)一重建代替<吏用相對(duì)較多的成<分。在進(jìn)一步的實(shí)施方案中,區(qū) 段PCA被用于與連續(xù)的PCA組合,在這種情況下區(qū)段PCA在一組 步驟數(shù)目之后用 一個(gè)區(qū)段PCA步驟重新初始化連續(xù)的PCA。這通 過(guò)減少PCA成份的數(shù)目提供有益的統(tǒng)一近似值。
在另一個(gè)實(shí)施方案中,本發(fā)明利用PCA成4分在編碼-解碼之前 和之后一見(jiàn)覺(jué)上相似的情形。圖^f象序列重建質(zhì)量在編碼-解碼之前
47和在之后也可能在—見(jiàn)覺(jué)上相似,這往往耳又決于所用的量化禾呈度。
本發(fā)明的方法先將PCA成份解碼,然后再次規(guī)范化它們使之有個(gè) 體基準(zhǔn)。對(duì)于適度的量化,解碼后的PCA成份是近似正交的。在 較高的量化水平,解碼后的PCA成份被SVD的應(yīng)用程序部分地恢 復(fù)以獲得 一 正交基礎(chǔ)和 一 組修改過(guò)的重建系數(shù)。
在另一個(gè)實(shí)施方案中,可變的自適應(yīng)的區(qū)段大小被應(yīng)用于混 合的繼續(xù)PCA方法,為的是產(chǎn)生對(duì)于合成質(zhì)量有所改善的結(jié)果。 本發(fā)明將區(qū)段大小建立在PCA成份的最大數(shù)目和對(duì)于那些區(qū)段 纟合定的容"i午誤差的基礎(chǔ)上。然后,該方法擴(kuò)充當(dāng)前的區(qū)l更大小, 直到達(dá)到PCA成份的最大數(shù)目。在進(jìn)一步的實(shí)施方案中,PCA成 份的序列被視為數(shù)據(jù)流,這導(dǎo)致維數(shù)進(jìn)一步減少。該方法完成后 處理步驟,在那里可變的數(shù)據(jù)區(qū)段是為來(lái)自每個(gè)區(qū)段的第一個(gè) PCA成份收集的,而SVD被應(yīng)用,為的是進(jìn)一步減少維度。然后, 相同的程序被應(yīng)用于第二個(gè)、第三個(gè)等成份的收集。
對(duì)稱的分解
在本發(fā)明的一個(gè)實(shí)施方案中,分解是基于對(duì)稱總體完成的。 這個(gè)總體^1奪正方形圖〗象表示成六個(gè)正交成份之和。每個(gè)成4分對(duì)應(yīng) 于該正方形的一種不同的對(duì)稱。由于對(duì)稱,每個(gè)正交成^f分都是用 "基本區(qū)域"確定的,該基本區(qū)域借助對(duì)稱作用被映入完全的成 份。假定輸入圖像本身沒(méi)有特別的對(duì)稱性,那么基本區(qū)域之和有 與輸入圖像一樣的集容量。
基于殘差的分解
在MPEG視頻壓縮中,當(dāng)前的畫(huà)面是通過(guò)先使用運(yùn)動(dòng)矢量對(duì) 先前的畫(huà)面進(jìn)4亍運(yùn)動(dòng)補(bǔ)償,然后4巴殘差更新應(yīng)用于那些補(bǔ)償區(qū) ^殳,最后將任何沒(méi)有充份匹配的區(qū)段作為新區(qū)4殳完成編碼構(gòu)成的。
對(duì)應(yīng)于殘留區(qū)段的象素通過(guò)運(yùn)動(dòng)矢量映射到先前畫(huà)面的象 素上。結(jié)果是象素通過(guò)能通過(guò)連續(xù)應(yīng)用殘值合成的影像的瞬時(shí)路
徑。這些象素被確認(rèn)為能使用PCA最明確地表達(dá)的象素。 基于遮擋的分解
本發(fā)明的進(jìn)一步提高確定適用于多個(gè)區(qū)段的運(yùn)動(dòng)矢量是否 將導(dǎo)致來(lái)自先前畫(huà)面的任何象素被移動(dòng)象素遮擋(覆蓋)。對(duì)于每 個(gè)遮擋事件,都把遮擋象素劈成新層。沒(méi)有歷史的象素也將暴露 出來(lái)。暴露出來(lái)的泉素被放到任何將在當(dāng)前畫(huà)面中與它們擬合而 且歷史擬合也能在那層上完成的層上。
象素的時(shí)間連續(xù)性是通過(guò)象素對(duì)不同層的接合和移植得到 支持的。 一旦獲得穩(wěn)定的層模型,每層中的象素就能基于對(duì)條理 分明的運(yùn)動(dòng)模型的隸屬關(guān)系編組。
分波,殳時(shí)間量4b
本發(fā)明的替代實(shí)施方案<吏用離散余弦變換(DCT)或離散子波 變換(DWT)4巴每個(gè)畫(huà)面分解成分波,殳圖〗象。然后,將主要成^f分分 析(PCA)應(yīng)用于這些"分波段"影像之中的每個(gè)影像。概念是視 頻畫(huà)面的分波段分解與原始纟見(jiàn)頻畫(huà)面相比較減少任何一個(gè)分波 ,爻中的空間變化。
就移動(dòng)對(duì)象(人)的影〗象而言,空間變化傾向于支配用PCA建 模的變化。分波段分解減少任何一個(gè)分解影像中的空間變化。
就DCT而言,任4可一個(gè)分波段的分解系數(shù)都4要空間安排在分 波段影像之中。舉例來(lái)說(shuō),DC系數(shù)是從每個(gè)區(qū)段獲取的并且被安排在看起來(lái)像原始影像的郵票版本一樣的分波段影像之中。這
將對(duì)所有其它的分波-歐重復(fù),而且4吏用PCA處理每個(gè)由此產(chǎn)生的
分波段影像。
就DWT而言,分波,殳已經(jīng)4姿針對(duì)DCT描述的方式排列好。 在非限制性實(shí)施方案中,P C A系數(shù)的截取是變化的。 子波
當(dāng)使用離散子波變換(DWT)分解數(shù)據(jù)的時(shí)候,多個(gè)帶通數(shù)據(jù) 組以4交^f氐的空間分辨率為結(jié)果。變換:禾呈序能^皮遞歸J4應(yīng)用于導(dǎo)出 數(shù)據(jù)直到僅僅產(chǎn)生單一 的標(biāo)量數(shù)值為止。在已分解的結(jié)構(gòu)中標(biāo)量 元素通常以分等級(jí)的父母/孩子方式相關(guān)。由此產(chǎn)生的凄t據(jù)包含多 分辨率的分等級(jí)結(jié)構(gòu)以及有限差分。
當(dāng)DWT被應(yīng)用于空間強(qiáng)度場(chǎng)的時(shí)候,許多自然發(fā)生的圖像現(xiàn) 象由于空間頻率低是用第 一或第二低帶通導(dǎo)出數(shù)據(jù)結(jié)構(gòu)以樣吏不 足道的知覺(jué)損失表達(dá)的。截短該分等級(jí)結(jié)構(gòu)在高頻率空間數(shù)據(jù)不 是不存在就是被視為噪音的時(shí)候提供簡(jiǎn)明的表達(dá)。
盡管PCA可以用來(lái)以為數(shù)不多的系數(shù)實(shí)現(xiàn)精確的重建,但是 這種變換本身可能是相當(dāng)大的。為了減少這個(gè)"初始"變換的頭見(jiàn) 模,可以使用子波分解的嵌零樹(shù)(EZT)結(jié)構(gòu)來(lái)建立變換矩陣的越 來(lái)越精確的版本。
子空間分類
如同實(shí)踐這項(xiàng)技術(shù)的人充分理解的那樣,離散抽樣的現(xiàn)象數(shù) 據(jù)和導(dǎo)出數(shù)據(jù)能被表達(dá)成一組與代凄史矢量空間相對(duì)應(yīng)的tt據(jù)矢 量。這些數(shù)據(jù)矢量以非限制性方式包括拆分后對(duì)象的規(guī)范化外表中的象素、運(yùn)動(dòng)參數(shù)和特征或頂點(diǎn)的任何二或三維結(jié)構(gòu)位置。這 些矢量都存在于矢量空間之中,而且該空間的幾^可分沖斤能用來(lái)產(chǎn) 生樣本或參數(shù)矢量的簡(jiǎn)潔表達(dá)。有益的幾何條件是借助形成緊湊 子空間的參凄t矢量代表的。當(dāng)一個(gè)或多個(gè)子空間混合,形成表面 上更復(fù)雜的單一子空間的時(shí)候,那些要素子空間可能難以辨別。 有幾種拆分方法考慮到通過(guò)4全查通過(guò)原始矢量的一些交互作用 (例如,內(nèi)積)產(chǎn)生的高維矢量空間中的數(shù)據(jù)分離這樣的子空間。
特征子空間分類
特征子空間是使用與對(duì)象相關(guān)聯(lián)的區(qū)域的DCT分解構(gòu)成的。 每個(gè)由此產(chǎn)生的系數(shù)矩陣都被轉(zhuǎn)換成一個(gè)特征矢量。然后,這些 特征矢量按空間聚集在由此產(chǎn)生的矢量空間中。這種聚集提供能
整體地和局部地向 一 些參考對(duì)象例i正*見(jiàn)范化的圖 <象對(duì)象例i正
群體。然后,這些規(guī)范化的對(duì)象例證能被用作用于PCA的總體。
在一個(gè)優(yōu)選實(shí)施方案中,DCT矩陣系數(shù)是作為矩陣的上三角 形和下三角形求和的。這些總數(shù)被認(rèn)為是二維矢量的元素。
在一個(gè)優(yōu)選實(shí)施方案中,最密集的群^皮識(shí)別,而且與該群最 緊密關(guān)聯(lián)的矢量被選定。與對(duì)應(yīng)于這些象素的對(duì)象例證相關(guān)聯(lián)的
象素祐:i人為彼此最相似。然后,選定的矢量能乂人該子空間中除去,
而且再次群集能產(chǎn)生另 一組與相關(guān)的對(duì)象例i正相對(duì)應(yīng)的相關(guān)矢量。
在進(jìn)一步的實(shí)施方案中,與確認(rèn)的群的矢量相關(guān)聯(lián)的圖像對(duì) 象例證被整體地向群矩心規(guī)范化。如果由此產(chǎn)生的規(guī)范化滿足扭
曲需求,那么該乂于象例i正^皮i人為與該矩心類4以。進(jìn)一步的實(shí)施方 案考慮到要回到該矢量空間的對(duì)象例證無(wú)法作為適合進(jìn)一步群 集的候選者。在另一個(gè)實(shí)施方案中,群是通過(guò)測(cè)試它們對(duì)其它群集的對(duì)象 例證的矩心的從屬關(guān)系精練的。結(jié)果是群的隸屬關(guān)系可能改變并 因此產(chǎn)生考慮到產(chǎn)生最相似的對(duì)象例證圖像的群的精練。
總體處理
本發(fā)明的方法可能利用總體選才奪和處理。該方法乂人候選者訓(xùn)
練池中以來(lái)自該池的關(guān)4建圖像的圖^f象變形距離為基礎(chǔ)選擇小的 圖像子集。
在一個(gè)優(yōu)選實(shí)施方案中,DCT群間距離被用作決定哪個(gè)候選 圖^f象將用來(lái)表現(xiàn)群的變異的的方法。
進(jìn)一步的實(shí)施方案將圖像從不同的群投影到不同的PCA空 間,為的是確定剩余圖像的總體隸屬關(guān)系。投影之前是圖像關(guān)于 關(guān)4建總體圖像或總體平均的整體和局部^L范化。
對(duì)象編碼
本發(fā)明的 一 個(gè)實(shí)施方案完成對(duì)#皮#r對(duì)象例i正的{專立葉子空 間分類,為的是識(shí)別用來(lái)給該對(duì)象例證編碼的一個(gè)或多個(gè)候選總 體。最接近的匹配總體然后通過(guò)與關(guān)鍵總體圖像或總體平均相關(guān) 的圖〗象整體和局部^見(jiàn)范化^皮進(jìn)一步限定。然后,在確認(rèn)某圖〗象的 總體之時(shí),該規(guī)范化的圖像是使用總體基礎(chǔ)矢量完成拆分和分解
的。由此產(chǎn)生的系邀:按與包含對(duì)象的畫(huà)面相對(duì)應(yīng)的時(shí)間的例證#: 分解為與最初的對(duì)象相對(duì)應(yīng)的系凄史。這些系數(shù)也^皮稱為外^見(jiàn)系數(shù)。
序列;咸少
本發(fā)明的方法有利用分解后系數(shù)的插值進(jìn)一步減少圖像的
52編碼的方法。時(shí)間流被分析,以確定外觀和/或變形參數(shù)的序列是 否有線性的微分。如果是這種情況,那么只有第一個(gè)和最后一個(gè) 參數(shù)與中間參數(shù)將被線性插值的指示一起被發(fā)送。
樹(shù)形總體
本發(fā)明有 一 優(yōu)選的實(shí)施方案,其中總體被組織成以式樣矢量 的相似性為基礎(chǔ)分支的從屬樹(shù)。樹(shù)的"根"是作為總體的主要式 樣建立的。附加的總體式樣被加到樹(shù)上并且變成樹(shù)的"樹(shù)葉,,。 附加的式樣作為從屬物被放到最類似于該式樣的任何 一 個(gè)樹(shù)節(jié) 點(diǎn)上。這樣,總體式樣是這樣組織的,以致從屬結(jié)構(gòu)是基于相似 性產(chǎn)生的。利用這種結(jié)構(gòu)作為"序列減少"的替代品,提供相同 的方法,其中用差分代替給式樣矢量的序列插值,樹(shù)的穿程被用 作時(shí)間排序的替代品。
混合空間^L范化壓縮
本發(fā)明通過(guò)把拆分4見(jiàn)頻流添加到"規(guī)范化"的一見(jiàn)頻流之中充 分發(fā)揮以區(qū)段為基礎(chǔ)的運(yùn)動(dòng)預(yù)測(cè)編碼方案的效率。然后,這些視 頻流分開(kāi)編碼以允"i午傳統(tǒng)的編碼解碼器的平移運(yùn)動(dòng)l艮i殳是有歲文 的。在完成規(guī)范化視頻流的解碼之時(shí),纟見(jiàn)頻流解除身見(jiàn)范化,進(jìn)入 它們適當(dāng)?shù)奈恢貌⑶襘皮組合在一起產(chǎn)生原始的^L頻序列。
在 一 個(gè)實(shí)施方案中, 一 個(gè)或多個(gè)對(duì)象是在#見(jiàn)頻流中4果測(cè)到 的,而與探測(cè)到的每個(gè)個(gè)別對(duì)象有關(guān)的象素隨后被拆分,離開(kāi)非 對(duì)象象素。接下來(lái),針對(duì)對(duì)象象素和非對(duì)象象素產(chǎn)生整體空間運(yùn) 動(dòng)模型。這個(gè)整體模型用來(lái)完成對(duì)象象素和非對(duì)象象素的空間規(guī) 范化。這樣的規(guī)范化已經(jīng)有效地把非平移的運(yùn)動(dòng)從視頻流中除去 并且已經(jīng)^是供一組映Y象,這組映^象的相互遮擋經(jīng)纟皮減到最少。這 些是本發(fā)明的方法的兩個(gè)有益的特4正。象素已按空間規(guī)范化的對(duì)象和非對(duì)象的新映像是作為輸入 提供給傳統(tǒng)的以區(qū)段為基礎(chǔ)的壓縮算法的。在給這些映像解碼 時(shí),整體運(yùn)動(dòng)4莫型的參凄W皮用來(lái)還原失見(jiàn)范化的解碼畫(huà)面,對(duì)象象 素 一起合成到非對(duì)象象素之上,產(chǎn)生最初的 一見(jiàn)頻流的近似。
如圖6所示,先前對(duì)一個(gè)或多個(gè)對(duì)象630,650^r測(cè)到的對(duì)象例 證206,208(圖2)每個(gè)都是用傳統(tǒng)視頻壓縮方法632的獨(dú)立例證處 理的。此外,乂人對(duì)象的拆分230產(chǎn)生的非對(duì)象602也是〗吏用傳統(tǒng)的 視頻壓縮632壓縮的。這些獨(dú)立的壓縮編石馬632之中每一個(gè)的結(jié)果 分別是每個(gè)纟見(jiàn)頻流的象素凄t據(jù)的獨(dú)立的傳統(tǒng)編碼流634。在某個(gè) 點(diǎn),可能在傳f斬之后,象素凄t據(jù)的這些中間編碼流234凈皮解壓縮 636變成》見(jiàn)范化非對(duì)象610和"i午多^見(jiàn)范化對(duì)象638,658的合成物。這 些合成后的象素能被解除規(guī)范化640,變成它們各自的已解除規(guī) 范化的版本622,642,662,把這些象素按空間放置在彼此相對(duì)正確 的位置,以致合成程序670能把對(duì)象象素和非對(duì)象象素結(jié)合成完 整的合成畫(huà)面672。
在優(yōu)選實(shí)施方案中,編碼模式之間的切換是基于諸如PSNR 之類將允許傳統(tǒng)的隨子空間方法改變的統(tǒng)計(jì)的變形度量標(biāo)準(zhǔn)完 成的,以1更完成纟見(jiàn)頻畫(huà)面的編石馬。
在本發(fā)明的另一個(gè)實(shí)施方案中,外貌、整體變形和局部變形 的編碼參數(shù)是內(nèi)插的,為的是產(chǎn)生將不必以別的方式編碼的中間 畫(huà)面的預(yù)測(cè)。該插值方法可以是任4可標(biāo)準(zhǔn)的插<直方法,例如,線 性插值、三次插值、樣條內(nèi)插,等等。
如圖14所示,對(duì)象插值方法能通過(guò)一 系列用外貌參數(shù)和變形 參數(shù)表達(dá)的規(guī)范化對(duì)象1402,1404,1406的插值分析1408實(shí)現(xiàn)。該 分才斤1408確定能應(yīng)用4#<直函#:1412的時(shí)間范圍1410。然后,該范 圍的規(guī)^各1410能與^見(jiàn)范4b只t象的規(guī)^各1414,1420結(jié)合,以1更近々乂和
54最后合成過(guò)渡期間的失見(jiàn)范化對(duì)象1416,1418。 其它的實(shí)施方案都是預(yù)想的。 混合編碼解碼的整合 [bbp:凄t才居結(jié)構(gòu)和傳llr]
在把傳統(tǒng)的基于區(qū)段的壓縮算法和本發(fā)明描述的規(guī)范化-拆 分方案結(jié)合起來(lái)時(shí), 一些本發(fā)明的方法已經(jīng)產(chǎn)生。首先,有專門(mén) 的數(shù)據(jù)結(jié)構(gòu)和必要的通信協(xié)議。
主要的數(shù)據(jù)結(jié)構(gòu)包括整體空間變形參數(shù)和對(duì)象拆分少見(jiàn)范掩 模。主要的通信協(xié)議是包括傳輸整體空間變形參數(shù)和對(duì)象拆分規(guī) 范掩模的各個(gè)層面。
漸進(jìn)的計(jì)算環(huán)境《MLW: 一大態(tài)4 }
依照上文,本發(fā)明的以對(duì)象為基礎(chǔ)的編碼和視頻數(shù)據(jù)處理的 特定實(shí)施方案如下。由眾多或 一 系列 一見(jiàn)頻畫(huà)面202,204組成的#見(jiàn)頻 流作為輸入被送到本發(fā)明的系統(tǒng),如圖2所示。對(duì)象檢測(cè)器206,208 在兩個(gè)或多個(gè)一見(jiàn)頻畫(huà)面202,204之中(之上)才企測(cè)至少 一個(gè)對(duì)象。跟 蹤才莫塊220在多個(gè)畫(huà)面202,204上識(shí)別和跟蹤該^皮4企對(duì)象。
該視頻流也用結(jié)構(gòu)模型發(fā)生器進(jìn)行分析。結(jié)構(gòu)模型發(fā)生器根 據(jù)帶寬消耗、結(jié)構(gòu)和運(yùn)動(dòng)分析該視頻流。產(chǎn)生幾種結(jié)構(gòu)的模型。 能進(jìn) 一 步縮減的結(jié)構(gòu)模型被增強(qiáng)以便包括運(yùn)動(dòng)、變形和照明模型。
結(jié)構(gòu)模型用來(lái)將視頻畫(huà)面202,204的空間區(qū)域分類,使之屬于 一個(gè)才莫型或另 一個(gè)才莫型。才莫型分配有效地暗示浮見(jiàn)頻流的空間拆分。這是在圖2中舉例說(shuō)明的,因?yàn)椴鸱殖绦?30將與#皮4企對(duì)象相 對(duì)應(yīng)的象素?cái)?shù)據(jù)從兩個(gè)或多個(gè)3見(jiàn)頻畫(huà)面202,204的其它象素?cái)?shù)據(jù) 中(按空間和/或按時(shí)間)拆分出來(lái)。對(duì)象象素?cái)?shù)據(jù)232,234產(chǎn)生。
對(duì)應(yīng)關(guān)系模型制作器224識(shí)別在一個(gè)視頻畫(huà)面202中被檢對(duì) 象的元素(特征)并且識(shí)別在第二視頻畫(huà)面204中該被檢對(duì)象分別 對(duì)應(yīng)的元素222。接下來(lái),該對(duì)應(yīng)關(guān)系模型制作器224分析已識(shí)別
選使用視頻畫(huà)面202,204之間的以外觀為基礎(chǔ)的運(yùn)動(dòng)評(píng)估。已確定 的關(guān)系定義工作對(duì)應(yīng)關(guān)系才莫型224。優(yōu)選的是,(用于前面用圖4 討^侖過(guò)的整體運(yùn)動(dòng)和整體配準(zhǔn)的)多維投射運(yùn)動(dòng)才莫型的強(qiáng)健評(píng)估 被用來(lái)產(chǎn)生對(duì)應(yīng)關(guān)系模型224。
此外,本發(fā)明的系統(tǒng)整合已確定的對(duì)應(yīng)元素之間的關(guān)系以便 形成被檢對(duì)象的整體運(yùn)動(dòng)模型。優(yōu)選這是作為規(guī)范化(再次抽樣) 程序240的一部分完成的。規(guī)范化程序240提取有與整體結(jié)構(gòu)、局 部變形、整體運(yùn)動(dòng)和姿勢(shì)以及照明相關(guān)聯(lián)的任何變化的#見(jiàn)頻畫(huà)面 202,204的空間區(qū)域的公因子。剩余的變化被視為被4全對(duì)象的"外 觀"。請(qǐng)注意多樣的規(guī)范化平面用來(lái)建立外觀模型。
當(dāng)使用最佳的線性技術(shù)建立模型的時(shí)候,被檢對(duì)象的規(guī)范化 外觀呈現(xiàn)高度線性的特征。這些外觀才莫型是使用(前面討論過(guò)的) 適當(dāng)?shù)?、連續(xù)的和"廣義的"PCA產(chǎn)生的,該P(yáng)CA產(chǎn)生非常緊湊 的對(duì)象外^見(jiàn)編碼。優(yōu)選,這種處理是在子波計(jì)算環(huán)境內(nèi)完成的; 這將允許以類似于傳統(tǒng)的纟見(jiàn)頻壓縮的方式處理4壬<可復(fù)雜的對(duì)象 模型(即,被檢對(duì)象的結(jié)構(gòu)模型、外觀模型、運(yùn)動(dòng)模型)。
使用已知的用來(lái)依據(jù)運(yùn)動(dòng)評(píng)估結(jié)構(gòu)的4支術(shù)與運(yùn)動(dòng)評(píng)估相結(jié) 合確定用于結(jié)構(gòu)部分(隨著時(shí)間逝去視頻畫(huà)面202,204的被檢對(duì)象) 的候選結(jié)構(gòu)。這導(dǎo)致定義被檢對(duì)象的空間位置和取向并因此^是供結(jié)構(gòu)模型和運(yùn)動(dòng)模型。
然后,外觀模型表現(xiàn)未用結(jié)構(gòu)模型和運(yùn)動(dòng)模型集體建模的被 檢對(duì)象的特征和各個(gè)方面。在一個(gè)實(shí)施方案中,外觀模型是隨著 時(shí)間逝去結(jié)構(gòu)變化的線性分解而且是通過(guò)vMv結(jié)構(gòu)才莫型中除去整 體運(yùn)動(dòng)和局部變形定義的。申請(qǐng)人乂人每個(gè)^L頻畫(huà)面獲得對(duì)象外 觀,并且使用結(jié)構(gòu)模型,向"規(guī)范化姿勢(shì)"再次投影。"規(guī)范化 姿勢(shì)"也將被稱為一個(gè)或多個(gè)"主要"姿勢(shì)。再次投影表達(dá)對(duì)象 的規(guī)范化版本而且產(chǎn)生任何外觀變化。當(dāng)給定的對(duì)象在視頻畫(huà)面
202,204之間出現(xiàn)轉(zhuǎn)動(dòng)或空間平移的時(shí)候,外觀將被放置在單一主 要姿勢(shì)(即,平均的規(guī)范化表達(dá))中。外觀模型也考慮到主要姿勢(shì) 的主要變形(例如,崢眼/閉眼,張嘴/閉嘴,等等)。因此,外觀模 型AM(a)是用主要姿勢(shì)Pc和主要姿勢(shì)Pc的主要變形Ac表達(dá)的,
<formula>formula see original document page 57</formula>此外,關(guān)于外觀和照明建模,圖像處理的永久挑戰(zhàn)之一是在 變動(dòng)的照明條件下跟蹤對(duì)象。在圖像處理中,反差規(guī)范化是給可
動(dòng))的圖素亮度值變化建^t的程序。優(yōu)選實(shí)施方案評(píng)估捕捉映傳^ 的照明條件下^皮;險(xiǎn)對(duì)象的任意變化(即,給入射到該對(duì)象上的照 明建才莫)。這是通過(guò)3奪來(lái)自Lambertian Reflectance Linear Subspace(朗伯反射系數(shù)線性子空間)(LRLS)理i侖的原則與光學(xué)流 結(jié)合實(shí)現(xiàn)的。依照LRLS理-論,當(dāng)對(duì)象^皮固定,優(yōu)選只考慮照明 改變的時(shí)候,那組反射圖像能用頭九個(gè)球形諧波的線性組合近 似;因此該圖像在周圍的"圖^象"矢量空間中接近9D線性子空間。 除此之外,圖像象素(x,y)的反射亮度能被近似地表達(dá)如下。
取力=S <formula>formula see original document page 57</formula><吏用LRLS和光學(xué)流,計(jì)算期望<直以確定燈光與3于象如^f可互 動(dòng)。這些期望值用來(lái)限制能解釋光學(xué)流場(chǎng)變化的可能的對(duì)象運(yùn) 動(dòng)。當(dāng)使用LRLS描述使用照明模型的對(duì)象外觀的時(shí)候,允許外 觀模型處理可能落在照明模型預(yù)測(cè)結(jié)果之外的任何外觀變化仍 然是必要的。
結(jié)構(gòu)模型、運(yùn)動(dòng)(變形)模型、照明模型和外觀模型組合被統(tǒng) 稱為"對(duì)象模型"。當(dāng)給視頻畫(huà)面序列解碼所需的對(duì)象模型在傳 輸?shù)?接收器" 一邊不可得的時(shí)候,外觀建模退回到完成視頻流 的子波編碼。同時(shí),發(fā)送器和4妻收器建立用一見(jiàn)頻流的子波編碼暗 示的對(duì)象模型的有限態(tài)模型。這考慮到隨著視頻流前進(jìn)來(lái)自視頻 流的對(duì)象沖莫型的預(yù)測(cè)結(jié)果和以對(duì)象為基礎(chǔ)的壓縮的才幾會(huì)主義應(yīng) 用。
關(guān)于運(yùn)動(dòng)(變形)模型,評(píng)估運(yùn)動(dòng)通常是計(jì)算無(wú)效的根源和導(dǎo) 出計(jì)算的偏差。在特定的實(shí)^4方案中,運(yùn)動(dòng)評(píng)估受運(yùn)動(dòng)(變形)才莫 型、結(jié)構(gòu)模型和照明模型限制。這導(dǎo)致逐漸增加的計(jì)算效率和準(zhǔn) 確性。LRLSi^艮蹤器^皮用來(lái)確定用于每個(gè)^L頻畫(huà)面202,204的對(duì)象 姿勢(shì)/位置變化作為對(duì)2D(網(wǎng)孔)運(yùn)動(dòng)評(píng)估的預(yù)測(cè)結(jié)果。為了通過(guò)姿 勢(shì)評(píng)估預(yù)測(cè)所有象素的運(yùn)動(dòng),反成分算法^皮應(yīng)用于LRLS。
此外,申請(qǐng)人將子波處理從圖#>序列分析擴(kuò)充到其它空間領(lǐng) 域/矢量的序列。子波表達(dá)使部分處理能增加計(jì)算效率。對(duì)于外觀 模型,子波處理在本發(fā)明的編碼器中被延伸,以便處理外觀模型 基礎(chǔ)矢量的編碼。該程序使象素在外觀模型中根據(jù)入射的距離和 角度偏向來(lái)源照相積^殳影軸線。4妄下來(lái),運(yùn)動(dòng)評(píng)估用來(lái)決定適合 一見(jiàn)頻畫(huà)面202某個(gè)部分的"結(jié)構(gòu)"。該程序隨著時(shí)間逝去3艮蹤那 個(gè)結(jié)構(gòu),使所有象素的運(yùn)動(dòng)能依據(jù)姿勢(shì)、運(yùn)動(dòng)和變形的評(píng)估含蓄 地預(yù)測(cè)。因此,進(jìn)一步的運(yùn)動(dòng) 評(píng)估被設(shè)定初值。優(yōu)選,這個(gè)結(jié)構(gòu) 是借助上述的LRLS跟蹤器跟蹤的。在一 個(gè)優(yōu)選實(shí)施方案中,變形(運(yùn)動(dòng))建模和照明建模是在子 波處理里面完成的。壓縮抽樣與照明建;f莫結(jié)合。照明建^f莫用來(lái)定 義稀疏的^由樣空間和在到達(dá)優(yōu)化閾值的時(shí)4美結(jié)束抽樣程序。當(dāng)前 的凄t據(jù)樣本用來(lái)預(yù)測(cè)保真度4交高的圖^f象。
對(duì)象模型在視頻場(chǎng)景上、獨(dú)立的視頻文件上和在接收器節(jié)點(diǎn) 的網(wǎng)絡(luò)上的持久性進(jìn)一 步呈現(xiàn)用來(lái)大大影響憑經(jīng)驗(yàn)導(dǎo)出對(duì)象模 型的能力的機(jī)會(huì)。這些對(duì)象模型的管理在類似模型的鞏固,對(duì)象 模型的再次瞄準(zhǔn),復(fù)雜拓樸關(guān)系的確認(rèn),模型的改版、檢索和儲(chǔ) 存方面為更大幅度地提高壓縮和計(jì)算效率提供豐富的環(huán)境。
舉例來(lái)說(shuō),當(dāng)PCA被應(yīng)用于視頻數(shù)據(jù)時(shí)候,數(shù)據(jù)的編碼由于 分析的經(jīng)-驗(yàn)性質(zhì)可能是相當(dāng)緊湊的。這個(gè)經(jīng)一驗(yàn)方面也〗吏用來(lái)癥會(huì)數(shù) 據(jù)解碼的"模型"變得相當(dāng)大,借此將數(shù)據(jù)存儲(chǔ)量從編碼數(shù)據(jù)"偏 移"到經(jīng)驗(yàn)?zāi)P?。通過(guò)這些模型的連續(xù)分辨,預(yù)測(cè)算法能夠產(chǎn)生 經(jīng)騶"漠型而不需要明確地傳輸它們。
此外,當(dāng)目標(biāo)是明確:t也產(chǎn)生在^L頻畫(huà)面中出現(xiàn)的對(duì)象的結(jié)
構(gòu)、變形、姿勢(shì)、運(yùn)動(dòng)和照明的非常精確的模型的時(shí)候,從視頻 流以經(jīng)-險(xiǎn)為主地產(chǎn)生對(duì)象才莫型是困難的。另一方面,只要最終目
標(biāo)被限制在原始^L頻流的合成,用這些相同的分析4支術(shù)產(chǎn)生暗示 模型就能產(chǎn)生非常有效的以對(duì)象為基礎(chǔ)的壓縮算法。
以對(duì)象為基礎(chǔ)的壓縮^皮期望當(dāng)幾個(gè)(時(shí)常是一個(gè))對(duì)象呈現(xiàn) 在3見(jiàn)頻凄t據(jù)中而且該對(duì)象和背景顯才莫型可得的時(shí)候起最最理想 的作用。通過(guò)在子波計(jì)算環(huán)境中使用對(duì)象的暗示模型的概率表 達(dá),本發(fā)明能"降低,,到相對(duì)于傳統(tǒng)壓縮非常有竟?fàn)幜Φ木幋a水平。
最后,許多視頻處理系統(tǒng)嘗試?yán)貌东@照相機(jī)的校準(zhǔn)幾何
59學(xué),以便"解釋,,捕獲的視頻數(shù)據(jù)。反之,以視頻流本身為基礎(chǔ) 給虛擬照相機(jī)的幾何學(xué)含蓄地建模在壓縮算法的"解釋"能力方 面甚至產(chǎn)生更大的增益。本發(fā)明的壓縮系統(tǒng)和方法能夠過(guò)濾大量 的捕獲數(shù)據(jù)而且能夠以"原始的"照相機(jī)捕獲能力不提供的空間 和時(shí)間分辨率"預(yù)測(cè)"凄t據(jù)的抽樣。
以特^正為基礎(chǔ)的壓縮
在其它的改進(jìn)實(shí)施方案中,"密集的"對(duì)象模型將與概率公 式組合。這種組合在保真度非常高的模型的使用(在這種情況下 殘留誤差無(wú)i侖如何都被傳輸,而且剩余部分的范圍不因保真度增 加超過(guò)特定點(diǎn)而發(fā)生重大改變)和從前面討^侖過(guò)的對(duì)應(yīng)關(guān)系和對(duì) 象建才莫(這往往是有噪聲的而且不必要地需要大量的的處理位)獲 得的估計(jì)(舉例來(lái)說(shuō)。整體配準(zhǔn)和運(yùn)動(dòng))的 <吏用之間產(chǎn)生妥協(xié)。
簡(jiǎn)要地說(shuō),從前面討論過(guò)的建模算法獲得的對(duì)象才莫型為了除 去高頻噪聲被過(guò)濾。這種過(guò)濾是在三個(gè)維度(即,二維網(wǎng)孔空間 平面和整體運(yùn)動(dòng)平面)中^f昔助通過(guò)凄t據(jù)點(diǎn)的平面擬合完成的。這 是減少對(duì)象模型的不必要的變化的聚集方式。紋理被映射到這些
平面上而且誤差^皮計(jì)算出來(lái)。隨著新的^L頻畫(huà)面進(jìn)來(lái),該i吳差可 能開(kāi)始增加,因?yàn)樵撈矫婺P筒灰宰銐虻姆直媛时憩F(xiàn)新的映像。 在這個(gè)階段,平面的數(shù)目被適當(dāng)?shù)馗淖儭_@能在閉環(huán)中進(jìn)行,直 到誤差落到閾值以下。因此,對(duì)象模型僅僅必要時(shí)才被逐漸地改 進(jìn)。這在視頻圖像的重建中以含蓄的方式提供傳輸比特率和失真 之間的折衷。
總的方法是產(chǎn)生低分辨率的對(duì)象模型(例如,對(duì)應(yīng)關(guān)系和整體 運(yùn)動(dòng)才莫型),然后繼續(xù)地精煉它。圖15的方?jīng)_匡圖描述該程序。3艮 蹤和形狀評(píng)估1501接受主題^L頻數(shù)據(jù)(例如,^L頻畫(huà)面202,204)。 感興趣的圖像對(duì)象如同先前描述的那樣被確認(rèn)。在為數(shù)不多的畫(huà)面中跟蹤被檢對(duì)象的特征點(diǎn)并且建立粗糙的對(duì)象模型(對(duì)應(yīng)關(guān)系
和整體運(yùn)動(dòng))1510。在一個(gè)實(shí)施方案中,這個(gè)三維才莫型1510是4吏 用上述的因式分解法為剛性對(duì)象的3D(空間和運(yùn)動(dòng))模型建造的。
跟蹤和形狀評(píng)估模塊1501將粗糙的對(duì)象模型1510輸出到平 面近似器1503。因?yàn)榇植诘哪P?510通常不是非常精確,所以平 面近似器1503使用許多平面近似某對(duì)象模型。平面的數(shù)目是從自 適應(yīng)單元1507獲得的。對(duì)于平面近似,對(duì)象才莫型的群集(^皮表達(dá) 為可變形的網(wǎng)孔模型)是首先完成的。然后,穿過(guò)每個(gè)群的中心 畫(huà)3D平面。這產(chǎn)生該主題對(duì)象才莫型的近似值。
在回應(yīng)中,誤差單元1505計(jì)算再次才殳影誤差。第一誤差單元 1505把紋理映射到該平面近似上。然后,該紋理映射平面近似4皮 投影到圖像平面上,而且關(guān)于原始圖像的誤差1508被計(jì)算出來(lái)。 才艮據(jù)再次^L影誤差1508,決定是否需要增加用來(lái)表現(xiàn)對(duì)象一莫型的 平面凄t目。如果決定增加平面^目,增量^L則是^f昔助自適應(yīng)單元 15074刀始^f匕的(例3口,增力口N)。
最后的輸出是按需要的保真度改進(jìn)的對(duì)象模型。再次投影誤 差計(jì)算15 05能用以特定應(yīng)用的需求為基礎(chǔ)的專用模塊代替。舉例 來(lái)"i兌,在通信應(yīng)用中,它能以對(duì)于有效地表達(dá)凄t據(jù)必不可少的位 數(shù)為基礎(chǔ)。
因此,本發(fā)明的改進(jìn)實(shí)施方案提供下列各項(xiàng)
1. 能根據(jù)應(yīng)用或用戶的需求以不同的分辨率獲得工作對(duì) 象模型的3D建模方法。
2. 雖然大多凄t方法試著乂人來(lái)源4見(jiàn)頻數(shù)據(jù)得到可能的最好 的對(duì)象模型,但是申請(qǐng)者逐漸增加地和自適應(yīng)地精煉該對(duì)象才莫型。這與精確的對(duì)象建模程序相比計(jì)算要少得多。
3. 本發(fā)明的方法不需要預(yù)先的圖像對(duì)象知識(shí)而且能用于 整個(gè)對(duì)象、宏模塊或整個(gè)場(chǎng)景。
4. 再次投影誤差的計(jì)算能在不需要影響本發(fā)明程序(圖15) 的其它步驟的情況下以應(yīng)用為基礎(chǔ)被其它措施代替。
5. 專用判據(jù)能被合并以便決定用于對(duì)象模型的平面數(shù)目, 這也是停止判據(jù)。
6. 該程序自動(dòng)地通過(guò)群集程序插入噪音彈性。
圖10舉例說(shuō)明能實(shí)現(xiàn)本發(fā)明的計(jì)算才幾網(wǎng)絡(luò)或類似的#t字處 理環(huán)境。
客戶計(jì)算機(jī)/裝置50和服務(wù)器計(jì)算機(jī)60提供運(yùn)行應(yīng)用程序的 處理裝置、存儲(chǔ)裝置和輸入/輸出裝置。客戶計(jì)算機(jī)/裝置50也能 通過(guò)通信網(wǎng)絡(luò)70與其它的計(jì)算才幾裝置(包括其它的客戶裝置/程序 50和服務(wù)器計(jì)算機(jī)60)鏈接。通信網(wǎng)絡(luò)70可能是現(xiàn)在使用各自的 協(xié)議(TCP/IP, Bluetooth,等等)4皮此通信的遠(yuǎn)程存取網(wǎng)絡(luò)、全球 網(wǎng)絡(luò)(例如,英特網(wǎng))、全世界的計(jì)算機(jī)集合、局域網(wǎng)或廣域網(wǎng)和 網(wǎng)關(guān)的一部分。其它的電子裝置/計(jì)算機(jī)網(wǎng)絡(luò)體系結(jié)構(gòu)是適當(dāng)?shù)摹?br>
圖11是在圖10的計(jì)算機(jī)系統(tǒng)中計(jì)算機(jī)(例如,客戶處理器/裝 置50或服務(wù)器計(jì)算機(jī)60)的內(nèi)部結(jié)構(gòu)圖。每臺(tái)計(jì)算機(jī)50,60都包含 系統(tǒng)總線79,該總線是一組在計(jì)算才幾組成部分或處理系統(tǒng)當(dāng)中用 來(lái)傳輸數(shù)據(jù)的硬件線??偩€79本質(zhì)上是把計(jì)算機(jī)系統(tǒng)的不同元素 (例如,處理器、磁盤(pán)存儲(chǔ)器,存儲(chǔ)器、輸入/輸出口、網(wǎng)口,等 等)連接起來(lái)準(zhǔn)許傳輸數(shù)據(jù)的共享導(dǎo)線。附著到系統(tǒng)總線79上的 是用來(lái)把各種不同的輸入和輸出裝置(例如,4建盤(pán)、鼠標(biāo)、顯示器、打印機(jī)、揚(yáng)聲器,等等)與計(jì)算機(jī)50,60連接起來(lái)的輸入/輸 出裝置4妄口82。網(wǎng)結(jié)-接口86允許計(jì)算才幾與附著在網(wǎng)絡(luò)(例如,圖 IO的網(wǎng)絡(luò)70)上的各種不同的其它裝置連接。存儲(chǔ)器90為用來(lái)實(shí) 現(xiàn)本發(fā)明的實(shí)施方案(例如,在圖2和其它附圖中前面詳細(xì)說(shuō)明過(guò) 的線性分解、空間拆分、空間的/可變形的網(wǎng)孔A見(jiàn)范化和其它基于 對(duì)象的編碼處理)的計(jì)算機(jī)軟件指令9 2和數(shù)據(jù)9 4準(zhǔn)備易失性存 儲(chǔ)。磁盤(pán)存儲(chǔ)器9 5為用來(lái)實(shí)現(xiàn)本發(fā)明的實(shí)施方案的計(jì)算機(jī)軟件指 令92和數(shù)據(jù)94準(zhǔn)備非易失性存儲(chǔ)。中央處理器84也附著在系統(tǒng)總 線79上并且準(zhǔn)備運(yùn)行計(jì)算機(jī)指令。
在一個(gè)實(shí)施方案中,處理器例行程序92和數(shù)據(jù)94是電腦程序 產(chǎn)品(通常參考數(shù)字為92),包括為本發(fā)明的系統(tǒng)至少準(zhǔn)備一部分 軟件指令的計(jì)算才幾易讀的J 某體(例如,可移開(kāi)的存4諸々某體,例如, 一個(gè)或多個(gè)DVD-ROM、 CD-ROM、軟盤(pán)、 -磁帶,等等)。電腦程 序產(chǎn)品9 2能借助技術(shù)上眾所周知的任何適當(dāng)?shù)能浖惭b程序安 裝。在另一個(gè)實(shí)施方案中,至少一部分軟件指令也可能是從電纜、 通信和/或無(wú)線連4妄上下載的。在其它的實(shí)施方案中,本發(fā)明的程 序是在傳播媒體(例如,在英特網(wǎng)之類的全球網(wǎng)絡(luò)或其它網(wǎng)絡(luò)上 傳播的無(wú)線電波、紅外波、激光波、音波或電波)上用傳播信號(hào) 具體表達(dá)的電腦程序傳播信號(hào)產(chǎn)品107。這樣的載體々某體或信號(hào) 至少為本發(fā)明的例行程序/程序92準(zhǔn)備一部分軟件指令。
在替代實(shí)施方案中,傳播信號(hào)是在傳播媒體上運(yùn)送的模擬載 波或數(shù)字信號(hào)。舉例來(lái)說(shuō),傳播信號(hào)可能是在全球網(wǎng)絡(luò)(例如, 英特網(wǎng))、遠(yuǎn)程通^f言網(wǎng)絡(luò)或其'它網(wǎng)絡(luò)上傳^燔的^t字化信號(hào)。在一 個(gè)實(shí)施方案中,傳播信號(hào)是在傳播^^某體上遍及某個(gè)時(shí)間周期傳輸 的信號(hào),例如,在網(wǎng)絡(luò)上按毫秒、秒、數(shù)分鐘或更長(zhǎng)的周期打包 發(fā)送的軟件應(yīng)用程序的指令。在另一個(gè)實(shí)施方案中,電腦程序產(chǎn) 品92的計(jì)算機(jī)易讀4某體是計(jì)算機(jī)系統(tǒng)50可能接受和讀出的傳播媒體,例如,通過(guò)接受該傳播媒體并且識(shí)別在該傳播:煤體上具體 表達(dá)的傳播信號(hào),如同前面針對(duì)電腦程序傳播信號(hào)產(chǎn)品所描述那樣。
一般地說(shuō),術(shù)語(yǔ)"載體媒體"或短暫的載體包括上述的瞬態(tài) 信號(hào)、傳播信號(hào)、傳播媒體、存儲(chǔ)媒體,等等。
雖然這項(xiàng)發(fā)明已參照其優(yōu)選實(shí)施方案^皮具體i也展示和描述, 但是熟悉這項(xiàng):技術(shù)的人將理解在形式和細(xì)節(jié)方面各種不同的改 變可以在不脫離權(quán)利要求書(shū)所嚢括的發(fā)明范圍的情況下完成。
舉例來(lái)i兌,不同的計(jì)算才幾體系結(jié)構(gòu)是適當(dāng)?shù)?。上述的?jì)算才幾 網(wǎng)絡(luò)和系統(tǒng)組成部分是為了舉例說(shuō)明的目的而不是作為限制。
6權(quán)利要求
1. 一種用來(lái)處理來(lái)自眾多視頻畫(huà)面的視頻信號(hào)數(shù)據(jù)的計(jì)算機(jī)實(shí)現(xiàn)方法,該方法包括檢測(cè)在兩個(gè)或多個(gè)給定的視頻畫(huà)面中的對(duì)象,每個(gè)視頻畫(huà)面都是由象素?cái)?shù)據(jù)構(gòu)成的;通過(guò)那兩個(gè)或多個(gè)視頻畫(huà)面跟蹤被檢對(duì)象;將與被檢對(duì)象相對(duì)應(yīng)的象素?cái)?shù)據(jù)與那兩個(gè)或多個(gè)視頻畫(huà)面中的其它象素?cái)?shù)據(jù)分割開(kāi)來(lái),以便產(chǎn)生該視頻信號(hào)數(shù)據(jù)的第一中間形式,該分割利用象素?cái)?shù)據(jù)的空間分割;產(chǎn)生被檢對(duì)象的元素對(duì)應(yīng)關(guān)系模型,每個(gè)對(duì)應(yīng)關(guān)系模型使被檢對(duì)象在一個(gè)視頻畫(huà)面中的元素與該被檢對(duì)象在另一個(gè)視頻畫(huà)面中的對(duì)應(yīng)元素發(fā)生關(guān)系;以及使用該對(duì)應(yīng)關(guān)系模型,使分割后的象素?cái)?shù)據(jù)規(guī)范化,所述的規(guī)范化包括建立被檢對(duì)象的整體運(yùn)動(dòng)模型和導(dǎo)致對(duì)在兩個(gè)或多個(gè)視頻畫(huà)面中與被檢對(duì)象相對(duì)應(yīng)的象素?cái)?shù)據(jù)再次抽樣,再次抽樣的象素?cái)?shù)據(jù)提供作為輸出規(guī)范化的視頻信號(hào)數(shù)據(jù)的以對(duì)象為基礎(chǔ)的編碼形式;以對(duì)象為基礎(chǔ)的編碼形式能借助下列步驟解碼(i)利用對(duì)應(yīng)關(guān)系模型恢復(fù)再次抽樣象素?cái)?shù)據(jù)的空間位置,借此產(chǎn)生與被檢對(duì)象相對(duì)應(yīng)的恢復(fù)象素;以及(ii)以視頻信號(hào)數(shù)據(jù)的第一中間形式將恢復(fù)的象素?cái)?shù)據(jù)與其它象素?cái)?shù)據(jù)再次結(jié)合在一起再次形成最初的視頻畫(huà)面;而且其中產(chǎn)生對(duì)應(yīng)關(guān)系模型包括評(píng)估多維投影運(yùn)動(dòng)模型。
2. 根據(jù)權(quán)利要求1的方法,其中產(chǎn)生對(duì)應(yīng)關(guān)系模型的步驟包括識(shí)別^皮4全對(duì)象在^會(huì)定的兩個(gè)或多個(gè)^L頻畫(huà)面中的對(duì)應(yīng)元素;分沖斤乂于應(yīng)元素產(chǎn)生乂于應(yīng)元素之間的關(guān)系;以及^使用所產(chǎn)生的對(duì)應(yīng)元素之間的關(guān)系形成對(duì)應(yīng)關(guān)系才莫型;其中分沖斤對(duì)應(yīng)元素包括在兩個(gè)或多個(gè)^L頻畫(huà)面之間使用 以外觀為基礎(chǔ)的運(yùn)動(dòng)評(píng)估。
3. 根據(jù)權(quán)利要求2的方法,其中建立整體運(yùn)動(dòng)模型包括將所產(chǎn) 生的對(duì)應(yīng)元素之間的關(guān)系整合成整體運(yùn)動(dòng)才莫型。
4. 根據(jù)權(quán)利要求1的方法,其中檢測(cè)和跟蹤包括使用臉部才企測(cè) 算法。
5. 根據(jù)權(quán)利要求l的方法,進(jìn)一步包括壓縮再次抽樣的象素?cái)?shù) l居,該壓縮包4舌將再次抽樣的象素lt據(jù)分解成編碼表達(dá),截去該編碼表 達(dá)的零或多個(gè)字節(jié);以及利用截短的編碼表達(dá)重組再次抽樣的象素?cái)?shù)據(jù);其中分解和重組每個(gè)都4吏用主成分分析。
6. 根據(jù)權(quán)利要求l的方法,進(jìn)一步包括將對(duì)應(yīng)關(guān)系模型因素因 式分解成多個(gè)整體模型,包括將對(duì)應(yīng)元素之間的關(guān)系整合成整體運(yùn)動(dòng)模型;將再次抽樣的象素?cái)?shù)據(jù)分解成編碼表達(dá);截掉該編碼表達(dá)的零或多個(gè)字節(jié);以及利用截短的編碼表達(dá)重組再次抽樣的象素lt據(jù);其中分解和重組每一個(gè)都4吏用主成4分分沖斤;其中產(chǎn)生對(duì)應(yīng)關(guān)系才莫型包括 使用以兩個(gè)或多個(gè)3見(jiàn)頻畫(huà)面之間基于區(qū)#殳的運(yùn)動(dòng)評(píng)估所產(chǎn)生的有限差分為基礎(chǔ)的抽樣 總體來(lái)分析對(duì)應(yīng)的元素。
7. 根據(jù)權(quán)利要求6的方法,其中兩個(gè)或多個(gè)視頻畫(huà)面每個(gè)都有 對(duì)象象素和非對(duì)象象素,該方法進(jìn)一步包括識(shí)別在兩個(gè)或多個(gè)視J貞畫(huà)面中非乂寸象象素的只于應(yīng)元素;分析非對(duì)象象素中的對(duì)應(yīng)元素和產(chǎn)生非對(duì)象象素的對(duì)應(yīng) 元素之間的關(guān)系;以及4吏用所產(chǎn)生的非對(duì)象象素的對(duì)應(yīng)元素之間的關(guān)系形成第 二對(duì)應(yīng)關(guān)系模型;其中分析非對(duì)象象素的對(duì)應(yīng)元素的步驟-使用基于時(shí)間的 遮擋濾波器。
8. 根據(jù)權(quán)利要求l的方法,進(jìn)一步包括將對(duì)應(yīng)關(guān)系模型因式分解成整體變形模型;將對(duì)應(yīng)元素之間的關(guān)系整合成整體運(yùn)動(dòng)才莫型;將再次抽樣的象素?cái)?shù)據(jù)分解成編碼表達(dá),截4卓該編碼表 達(dá)的零或多個(gè)字節(jié);以及依據(jù)截短的編碼表達(dá)重組再次抽樣的象素?cái)?shù)據(jù);其中分解和重組每個(gè)都Y吏用傳統(tǒng)的浮見(jiàn)頻壓縮/解壓縮禾呈 序;而且其中產(chǎn)生乂十應(yīng)關(guān)系才莫型包括 使用以兩個(gè)或多個(gè)朝L頻畫(huà)面 之間基于區(qū)段的運(yùn)動(dòng)評(píng)估所產(chǎn)生的有限差分為基礎(chǔ)的抽樣 總體來(lái)分析對(duì)應(yīng)的元素。
9. 根據(jù)權(quán)利要求l的方法,其中規(guī)范化步驟借助下列步驟將對(duì) 應(yīng)關(guān)系模型因式分解成局部變形模型定義覆蓋與被檢對(duì)象相對(duì)應(yīng)的象素?cái)?shù)據(jù)的二維網(wǎng)孔,該 網(wǎng)孑L以有頂點(diǎn)和邊纟彖的^見(jiàn)則4冊(cè)格為基礎(chǔ);以及依據(jù)對(duì)應(yīng)元素之間的關(guān)系創(chuàng)造局部運(yùn)動(dòng)模型,該關(guān)系包 括以依據(jù)兩個(gè)或多個(gè)視頻畫(huà)面之間基于區(qū)段的運(yùn)動(dòng)評(píng)估所 產(chǎn)生的有限差分為基礎(chǔ)的頂點(diǎn)位移。
10. 根據(jù)權(quán)利要求9的方法,其中頂點(diǎn)與離散的圖像特征相對(duì)應(yīng), 定義二維網(wǎng)孔的步驟以對(duì)象在視頻畫(huà)面中的圖像亮度梯度 為基礎(chǔ)進(jìn)一 步識(shí)別與被;險(xiǎn)對(duì)象相對(duì)應(yīng)的重要圖 <象特4正。
11. 根據(jù)權(quán)利要求9的方法,其中所創(chuàng)造的局部運(yùn)動(dòng)模型以不能 用整體運(yùn)動(dòng)模型近似的剩余運(yùn)動(dòng)為基礎(chǔ)。
12. —種依據(jù)眾多#見(jiàn)頻畫(huà)面產(chǎn)生視頻信號(hào)數(shù)據(jù)的編碼形式的計(jì) 算才幾實(shí)3見(jiàn)方法,該方法包4舌在眾多 一見(jiàn)頻畫(huà)面中的兩個(gè)或多個(gè)^L頻畫(huà)面中才全測(cè)乂寸象, 每個(gè)一見(jiàn)頻畫(huà)面都是由象素ft據(jù)構(gòu)成的;通過(guò)兩個(gè)或多個(gè)纟見(jiàn)頻畫(huà)面3艮蹤#皮4全對(duì)象,該#皮纟企對(duì)象有 一個(gè)或多個(gè)元素;對(duì)于在一個(gè)#見(jiàn)頻畫(huà)面中被4全對(duì)象的元素,識(shí)別在其它牙見(jiàn) 頻畫(huà)面中^皮才全對(duì)象的對(duì)應(yīng)元素;分才斤該只于應(yīng)元素以產(chǎn)生對(duì)應(yīng)元素之間的關(guān)系;使用所產(chǎn)生的對(duì)應(yīng)元素之間的關(guān)系形成用于該一皮4全對(duì)象 的對(duì)應(yīng)關(guān)系模型;利用所形成的對(duì)應(yīng)關(guān)系才莫型和可變形的網(wǎng)孔4吏在兩個(gè)或 多個(gè)4見(jiàn)頻畫(huà)面中與祐:才全對(duì)象相對(duì)應(yīng)的象素凄t據(jù)^見(jiàn)范化,所述的頭見(jiàn)范化產(chǎn)生表現(xiàn)一見(jiàn)頻信號(hào)數(shù)據(jù)的以對(duì)象為基礎(chǔ)的編碼形式的再次^由沖羊象素凄t據(jù);以及呈遞該頻信號(hào)tt據(jù)的基于對(duì)象的編碼形式供以后^f吏用, 該基于對(duì)象的編碼形式準(zhǔn)許利用對(duì)應(yīng)關(guān)系模型恢復(fù)再次抽 樣象素?cái)?shù)據(jù)的空間位置和產(chǎn)生恢復(fù)后的被檢對(duì)象象素?cái)?shù)據(jù);其中檢測(cè)和跟蹤都包括使用Viola/Jones臉部4企測(cè)算法和 主成分分析中的任何一項(xiàng)或組合。
13. 根據(jù)權(quán)利要求12的方法,進(jìn)一步包括在兩個(gè)或多個(gè)3見(jiàn)頻畫(huà)面中^!奪與^皮^r^f象相對(duì)應(yīng)的象素翁: 據(jù)與其它的象素?cái)?shù)據(jù)分割開(kāi),從而導(dǎo)致該視頻信號(hào)tt據(jù)的第 一中間形式,該分割利用時(shí)間整合;而且該基于對(duì)象的編碼形式進(jìn)一步準(zhǔn)許將恢復(fù)的象素lt據(jù)與 該-現(xiàn)頻信號(hào)凄t據(jù)的第 一 中間形式的一部分重新組合在一起 再次產(chǎn)生最#刀的^見(jiàn)步貞畫(huà)面。
14. 根據(jù)權(quán)利要求12的方法,進(jìn)一步包括通過(guò)將所產(chǎn)生的對(duì)應(yīng) 元素之間的關(guān)系整合成整體運(yùn)動(dòng)模型將對(duì)應(yīng)關(guān)系模型因式 分解成整體^t型的步驟;其中形成對(duì)應(yīng)關(guān)系模型的步驟使用適合求解二維仿射 運(yùn)動(dòng)沖莫型的強(qiáng)健的抽樣共識(shí),而分4斤對(duì)應(yīng)元素的步艱M吏用以 依據(jù)兩個(gè)或多個(gè) 一見(jiàn)頻畫(huà)面之間的基于區(qū)l殳的運(yùn)動(dòng);平估產(chǎn)生 的有限差分為基礎(chǔ)的抽樣總體。
15. 4艮據(jù)權(quán)利要求12的方法,進(jìn)一步包括通過(guò)下列步-驟壓縮再 次抽樣的象素?cái)?shù)據(jù)將再次抽樣的象素?cái)?shù)據(jù)分解成編碼表達(dá), 截掉該編碼表達(dá)的零或多個(gè)字節(jié),以及利用截短的編碼表達(dá)重組再次抽樣的象素?cái)?shù)據(jù); 其中分解和重組都4吏用主成分分坤斤。
16. 4艮據(jù)權(quán)利要求12的方法,進(jìn)一步包括通過(guò)下列步驟將對(duì)應(yīng) 關(guān)系模型因式分解成整體變形模型將所產(chǎn)生的對(duì)應(yīng)元素之間的關(guān)系整合成整體運(yùn)動(dòng)才莫型,將再次抽樣的象素?cái)?shù)據(jù)分解成編碼表達(dá),截掉編碼表達(dá)的零或多個(gè)字節(jié),以及利用截短的編碼表達(dá)重組再次抽樣的象素?cái)?shù)據(jù);其中分解和重組都4吏用主成分分4斤;形成對(duì)應(yīng)關(guān)系模型的步驟使用適合求解二維仿射運(yùn)動(dòng)模 型的強(qiáng)健的^由才羊共識(shí),而分析對(duì)應(yīng)元素的步駛《使用以,人兩個(gè) 或多個(gè)視頻畫(huà)面之間的基于區(qū)段的運(yùn)動(dòng)評(píng)估中產(chǎn)生的有限 差分為基礎(chǔ)的抽樣總體。
17. 根據(jù)權(quán)利要求16的方法,其中兩個(gè)或多個(gè)一見(jiàn)頻畫(huà)面之中的 每個(gè)畫(huà)面都包^l舌對(duì)象象素婆t據(jù)和非對(duì)象象素^:據(jù),該方法進(jìn) 一步包括識(shí)別在兩個(gè)或多個(gè)3見(jiàn)頻畫(huà)面中非對(duì)象象素凄史據(jù)的乂寸應(yīng)元素;分析非對(duì)象象素?cái)?shù)據(jù)的對(duì)應(yīng)元素產(chǎn)生非對(duì)象象素?cái)?shù)據(jù)中 只于應(yīng)元素之間的關(guān)系;使用非對(duì)象象素?cái)?shù)據(jù)中對(duì)應(yīng)元素之間的關(guān)系產(chǎn)生第二對(duì) 應(yīng)關(guān)系模型;其中分析非對(duì)象象素凄史據(jù)中的對(duì)應(yīng)元素包括以時(shí)間為基 礎(chǔ)的遮擋濾波器。
18. 根據(jù)權(quán)利要求12的方法,進(jìn)一步包括將對(duì)應(yīng)關(guān)系模型因式分解成整體變形模型;將對(duì)應(yīng)元素之間的關(guān)系整合成整體運(yùn)動(dòng)模型;將再次抽樣的象素lt據(jù)分解成編碼表達(dá),截掉編碼表達(dá) 的零或多個(gè)字節(jié);以及利用截短的編碼表達(dá)重組再次抽樣的象素?cái)?shù)據(jù);其中分解和重組都4吏用傳統(tǒng)的#見(jiàn)頻壓縮/解壓縮處理;其中形成對(duì)應(yīng)關(guān)系模型使用適合求解二維仿射運(yùn)動(dòng)模型 的強(qiáng)健的抽樣共識(shí),而且其中分4斤對(duì)應(yīng)元素4吏用以/人兩個(gè)或多個(gè)一見(jiàn)頻畫(huà)面之間的 基于區(qū)段的運(yùn)動(dòng)評(píng)估中所產(chǎn)生的有限差分為基礎(chǔ)的抽樣總體。
19. 根據(jù)權(quán)利要求12的方法,進(jìn)一步包括將對(duì)應(yīng)關(guān)系模型因式 分解成局部變形模型,包括定義覆蓋與^皮;險(xiǎn)對(duì)象相對(duì)應(yīng)的象素的二維網(wǎng)孔,該網(wǎng)孔 以有頂點(diǎn)和邊緣的A見(jiàn)則一冊(cè)才各為基礎(chǔ);以及利用對(duì)應(yīng)元素之間的關(guān)系產(chǎn)生局部運(yùn)動(dòng)才莫型,該關(guān)系包 4舌以依才居兩個(gè)或多個(gè)^L步頁(yè)畫(huà)面之間的以區(qū),炎為基石出的運(yùn)動(dòng) 評(píng)估所產(chǎn)生的有限差分為基礎(chǔ)的頂點(diǎn)位移。
20. 根據(jù)權(quán)利要求19的方法,其中頂點(diǎn)與離散的圖像特征相對(duì) 應(yīng),該方法包括通過(guò)使用圖像梯度Harris響應(yīng)分析識(shí)別與被 才企對(duì)象相對(duì)應(yīng)的重要的圖^f象特征。
21. 根據(jù)權(quán)利要求19的方法,其中所產(chǎn)生的局部運(yùn)動(dòng)模型以不 能用整體運(yùn)動(dòng)模型近似的剩余運(yùn)動(dòng)為基礎(chǔ)。
全文摘要
這項(xiàng)發(fā)明描述用來(lái)處理視頻數(shù)據(jù)的裝置和方法。本發(fā)明提供一種視頻數(shù)據(jù)的表達(dá),該數(shù)據(jù)表達(dá)能用來(lái)評(píng)定數(shù)據(jù)與用于數(shù)據(jù)的特定參數(shù)表達(dá)的擬合模型之間的一致性。這允許比較不同的參數(shù)化技術(shù)和選擇適合該特定數(shù)據(jù)的連續(xù)視頻處理的最佳技術(shù)。該表達(dá)能以中間形式作為較大程序的一部分或作為反饋機(jī)制被用于處理視頻數(shù)據(jù)。當(dāng)以它的中間形式被利用的時(shí)候,本發(fā)明能被用于視頻數(shù)據(jù)的儲(chǔ)存、增強(qiáng)、提煉、特征提取、壓縮、編碼和傳輸?shù)某绦?。本發(fā)明可用來(lái)以強(qiáng)健有效的方式提取顯著的信息,同時(shí)確定通常與視頻數(shù)據(jù)來(lái)源相關(guān)聯(lián)的問(wèn)題的地址。
文檔編號(hào)H04N7/26GK101536525SQ200780025671
公開(kāi)日2009年9月16日 申請(qǐng)日期2007年6月7日 優(yōu)先權(quán)日2006年6月8日
發(fā)明者查爾斯·保羅·佩斯 申請(qǐng)人:歐幾里得發(fā)現(xiàn)有限責(zé)任公司