專利名稱:基于視位的視頻編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻編碼和解碼,更具體而言涉及基于視位(visemebased)的視頻幀編碼系統(tǒng)和方法。
隨著遠(yuǎn)程視頻處理應(yīng)用(例如,視頻會議,視頻電話等等)需求不斷的增長,對這種能有效地通過有限帶寬傳送視頻數(shù)據(jù)的系統(tǒng)的需求已經(jīng)十分緊迫。減少頻帶寬度消耗的一種解決方案是利用能編碼和解碼壓縮的視頻信號的視頻處理系統(tǒng)。
目前有兩類用于獲得視頻壓縮的技術(shù)基于波形壓縮和基于模型壓縮?;诓ㄐ螇嚎s是一種相對成熟的技術(shù),它利用一些壓縮算法,例如由MPEG和ITU標(biāo)準(zhǔn)(如,MPEG-2,MPEG-4,H.263,等等)提供的一些算法。另一方面,基于模型壓縮是一種相對不成熟的技術(shù)。在基于模型壓縮中使用的典型方法包含產(chǎn)生人臉的三維模型,然后導(dǎo)出形成新一幀視頻數(shù)據(jù)幀之基底的兩維圖象。如果許多的被傳送視頻圖象數(shù)據(jù)是重復(fù)的,例如頭部和肩部圖象的視頻圖象數(shù)據(jù),則基于模型譯碼可以獲得更大程度的壓縮。
因此,盡管目前的基于模型壓縮技術(shù)可以在例如視頻會議和視頻電話中得到很好的應(yīng)用,但是在產(chǎn)生和處理三維圖象中所涉及到的計算復(fù)雜性往往使這種系統(tǒng)難于實施并且難以控制成本。因此,對于可以獲得基于模型系統(tǒng)的壓縮水平而又不需要處理三維圖象的計算開銷的編碼系統(tǒng)存在著需求。
本發(fā)明通過一個新穎的基于模型編碼的系統(tǒng)解決了上述問題和其他一些問題。特別是,輸入的視頻幀被抽取(decimate),以便僅僅是全部幀的一個子集被實際編碼。這些被編碼的幀使用來自以前編碼的幀或視位庫動態(tài)產(chǎn)生的幀的預(yù)測而被編碼。
在第一個方面,本發(fā)明提供一個用于處理視頻數(shù)據(jù)幀流的視頻處理系統(tǒng),該視頻處理系統(tǒng)包含一個打包系統(tǒng),這個系統(tǒng)包括如下部分視位識別系統(tǒng),用于確定輸入的視頻數(shù)據(jù)幀是否對應(yīng)于至少一個預(yù)定視位;視位庫,用于存儲對應(yīng)于該至少一個預(yù)定視位的幀;以及編碼器,用于編碼對應(yīng)于該至少一個預(yù)定視位的每一幀,其中,該編碼器利用在視位庫中以前存儲的幀來編碼當(dāng)前幀。
在第二方面,本發(fā)明提供一種用于處理視頻數(shù)據(jù)幀流的方法,包含以下步驟確定輸入的視頻數(shù)據(jù)的每一幀是否對應(yīng)于至少一個預(yù)定視位;存儲對應(yīng)于視位庫中的該至少一個預(yù)定視位的幀;以及編碼對應(yīng)于該至少一個預(yù)定視位的每一幀,其中,該編碼步驟利用在視位庫中以前存儲的幀來編碼當(dāng)前幀。
在第三方面,本發(fā)明提供一種存儲在可記錄介質(zhì)上的程序產(chǎn)品,當(dāng)運行時,它處理視頻數(shù)據(jù)幀流,該程序產(chǎn)品包含一個用于確定輸入的視頻數(shù)據(jù)幀是否對應(yīng)于至少一個預(yù)定視位的系統(tǒng);視位庫,用于存儲對應(yīng)于該至少一個預(yù)定視位的幀;以及用于編碼對應(yīng)于該至少一個預(yù)定視位的每一幀的系統(tǒng),其中,該編碼系統(tǒng)利用在視位庫中以前存儲的幀來編碼當(dāng)前幀。
在第四方面,本發(fā)明提供了一種解碼器,用于解碼已被編碼的視頻數(shù)據(jù)幀,所述被編碼的視頻數(shù)據(jù)幀是使用與至少一個預(yù)定視位相關(guān)聯(lián)的幀來進行編碼的,該解碼器包含幀參考庫,用于存儲被解碼的幀,其中解碼器利用幀參考庫中原來存儲的幀來解碼當(dāng)前的編碼幀,并且其中,以前存儲的幀和當(dāng)前的編碼幀屬于同一視位;一個變換(morphing)系統(tǒng),它重建在編碼過程中已消除的視頻數(shù)據(jù)幀。
以下將參考附圖描述本發(fā)明的優(yōu)選實施方案,在附圖中類似標(biāo)記指示類似的元件,以及附
圖1描述了具有本發(fā)明優(yōu)選實施方案的編碼器的視頻打包系統(tǒng);附圖2描述了具有本發(fā)明優(yōu)選實施方案的解碼器的視頻接收機系統(tǒng)。
現(xiàn)在參看圖,圖1和圖2描述了一個用于編碼視頻圖象的視頻處理系統(tǒng)。盡管在這里所述的實施方案主要集中在涉及人臉圖象處理的應(yīng)用上,可以理解的是此發(fā)明并不局限于編碼人臉圖象。圖1描述了一個視頻打包系統(tǒng)10,該系統(tǒng)包含一個編碼器14,它將輸入的視頻數(shù)據(jù)幀32和音頻數(shù)據(jù)幀33編碼為視頻數(shù)據(jù)50。圖2描述了一個視頻接收機系統(tǒng)40,該系統(tǒng)包含一個解碼器42,用于解碼由圖1的視頻打包系統(tǒng)10編碼的視頻數(shù)據(jù)50,并產(chǎn)生被解碼過的視頻數(shù)據(jù)52。
在圖1中的視頻打包系統(tǒng)10使用視位識別系統(tǒng)12、編碼器14和視位庫16來處理輸入的視頻數(shù)據(jù)幀32。在示例的應(yīng)用中,輸入的視頻數(shù)據(jù)幀32可包含大量的人臉圖象,例如典型地由視頻會議系統(tǒng)處理過的人臉圖象。輸入幀32由視位識別系統(tǒng)12檢測以確定哪一幀對應(yīng)于一個或多個預(yù)定視位。視位可以被定義為一般的人臉圖象,能被用來描述一種特別的聲音(例如,形成當(dāng)發(fā)音“sh”時的口形)。視位是語音或發(fā)某一音位的視覺等價。
確定哪個圖象對應(yīng)于視位的過程是由語音分段器18來完成,它識別在音頻數(shù)據(jù)33中的音位。每次音位被識別時,相應(yīng)的視頻圖象被標(biāo)記為屬于相應(yīng)的視位。例如。每次音位“sh”在音頻數(shù)據(jù)中被檢測到時,相應(yīng)的視頻幀被識別為屬于一個“sh”視位。標(biāo)記視頻幀的過程由映射系統(tǒng)20處理,它將識別過的音位映射到視位。注意不需要給定姿勢或表情的明確識別。相反地是使用音位含蓄地識別和分類屬于已知視位的視頻幀??梢岳斫獾氖强梢援a(chǎn)生任意數(shù)目或類型的視位,包含無聲視位,該視位包含在一段固定時期(例如1秒)上沒有相應(yīng)發(fā)音的圖象。
當(dāng)幀被識別為屬于一視位時,幀被存儲在視位庫16中。視位庫16按視位被物理或邏輯排列,以使得標(biāo)記為屬于同一視位的幀被一起存儲在多個模型集合之一中(例如V1,V2,V3,V4)。在開始時,每個模型集合包含幀的一個空集。當(dāng)更多的幀被處理時,每個模型集合將增長。對于給定的模型集合大小要設(shè)置一個閾值以避免出現(xiàn)過大的模型集合。在達(dá)到閾值后利用一個用于刪除幀的先入先出系統(tǒng)來消除超過閾值的幀。
如果輸入的幀沒有對應(yīng)的視位時,于是幀抽取系統(tǒng)22抽取或刪除該幀,也就是將幀送到垃圾箱34中。在這種情況下幀既不被存儲在視位庫16中也不被編碼器14編碼。然而值得注意的是有關(guān)任意抽取幀位置的信息會被明確地或含蓄地包含到編碼的視頻數(shù)據(jù)50中。接收系統(tǒng)使用這些信息來確定在何處重建被抽取的幀,這一點將在下文描述。
假定輸入的幀對應(yīng)于某一視位,則編碼器14編碼幀,例如,使用逐塊預(yù)測的策略,然后將幀作為編碼視頻數(shù)據(jù)50輸出。編碼器14包含一個誤差預(yù)測系統(tǒng)24、詳細(xì)運動信息25和幀預(yù)測系統(tǒng)26。誤差預(yù)測系統(tǒng)24按照已知的方法例如由MPEG-2標(biāo)準(zhǔn)提供的方法對預(yù)測誤差進行編碼。產(chǎn)生的詳細(xì)運動信息25作為附加信息,在接收系統(tǒng)40(圖2)中變換系統(tǒng)48使用此信息。幀預(yù)測系統(tǒng)預(yù)測來自兩個圖象的幀;也就是,(1)編碼器14產(chǎn)生的運動補償?shù)囊郧暗囊丫幋a幀,(2)由檢索系統(tǒng)28自視位庫16檢索的圖象。特別地,從視位庫16中檢索的圖象是從含有與被編碼的幀相同的視位的模型集合中檢索的。例如,如果幀包含人發(fā)“sh”聲音時的面部表情圖象,那么來自同一視位的先前圖象將被選擇和檢索。檢索系統(tǒng)28檢索在最小均方的意義上最為接近的圖像。因此,本發(fā)明并非依賴于在時間上接近(也就是鄰近幀),而是選擇最接近匹配的先前幀,而不管其時間上的接近。依靠定位十分相似的先前幀,預(yù)測誤差將很小,并且可以很容易地獲得很高的壓縮程度。
現(xiàn)在參看圖2,顯示的是視頻接收系統(tǒng)40,該系統(tǒng)包含解碼器42、參考幀庫44、緩沖器46和變換系統(tǒng)48。解碼器42使用和視頻打包系統(tǒng)10一樣的并行策略來解碼輸入的編碼視頻數(shù)據(jù)幀50。特別地是,使用(1)緊挨的前一解碼幀以及(2)來自參考幀庫44的圖象來解碼被編碼的幀。來自參考幀庫的圖象同用于編碼該幀的圖像相同,并且可以利用存儲在編碼幀的參考數(shù)據(jù)被很容易地識別。幀被解碼后,幀被存在參考幀庫44(用于解碼以后的幀)并且被發(fā)送到緩沖器4 6中。
如果一個或者多個幀被初始抽取(例如,在緩沖器46中顯示的??),則可以利用變換系統(tǒng)48來重建被抽取的幀,例如通過在編碼幀53和55之間進行內(nèi)插。例如在Ezzat和Poggio于1998年在費城巴拿馬計算機動畫制作會議學(xué)報第96-102頁發(fā)表的“Miketalk基于變換視位的講話面部顯示”中教導(dǎo)了這種內(nèi)插技術(shù)。變換系統(tǒng)48同樣可以使用由編碼器14(圖1)提供的詳細(xì)運動信息。在幀被重建之后,它們可以連同被解碼的幀一起輸出,作為被解碼視頻數(shù)據(jù)52的完整集合。
可以理解的是此處所述的系統(tǒng)、功能、方法和模型可以在硬件、軟件或軟件和硬件的組合中實現(xiàn)。它們可以由任意類型的計算機系統(tǒng)或用于執(zhí)行此處所述的方法的其它設(shè)備來實現(xiàn)。典型的硬件和軟件組合應(yīng)該是帶有計算機程序的通用計算機系統(tǒng),當(dāng)計算機程序被加載和執(zhí)行時,控制計算機系統(tǒng)以使它能執(zhí)行在這里所描述的方法。備選地,可以利用專用的計算機,該計算機包含了用于執(zhí)行本發(fā)明的一個或更多功能任務(wù)的專門硬件。本發(fā)明同樣可以被嵌入到計算機程序產(chǎn)品中,該產(chǎn)品包含了能使在此所描述的方法和功能得以執(zhí)行的所有特性,并且當(dāng)被加載到計算機系統(tǒng)時,該計算機程序產(chǎn)品能執(zhí)行這些方法和功能。在上下文中計算機程序、軟件程序、程序、程序產(chǎn)品或軟件意味著以任意語言、代碼或標(biāo)記表示的一組指令,該指令使得具有信息處理能力的系統(tǒng)能直接地或者在以下兩種處理之一或者兩者之后(即(a)轉(zhuǎn)換為另一種語言、代碼或標(biāo)記;和/或(b)以不同材料形式復(fù)制)執(zhí)行特定的功能。
為了示例和描述,已經(jīng)給出了對發(fā)明優(yōu)選實施方案的以上描述。它們并不意味很詳盡或者是將發(fā)明限制到所公開的精確形式,而且很顯然,根據(jù)以上教導(dǎo),可能有許多更改和變化。對熟練技術(shù)人員來說很明顯這種更改和變化被預(yù)定包括在有附加的權(quán)利要求所定義的發(fā)明范圍中。
權(quán)利要求
1.用于處理視頻數(shù)據(jù)幀流的視頻處理系統(tǒng),包含一個打包系統(tǒng)(10),該打包系統(tǒng)包括視位識別系統(tǒng)(12),用于確定輸入的視頻數(shù)據(jù)幀(32)是否對應(yīng)于至少一個預(yù)定視位;視位庫(16),用于存儲對應(yīng)于該至少一個預(yù)定視位的幀;以及編碼器(14),用于編碼對應(yīng)于該至少一個預(yù)定視位的每一幀,其中,該編碼器(14)利用在視位庫(16)中以前存儲的幀來編碼當(dāng)前幀。
2.權(quán)利要求1的視頻處理系統(tǒng),其中視位識別系統(tǒng)(12)包含一個語音分段器(18),該語音分段器識別在音頻數(shù)據(jù)流(33)中和視頻數(shù)據(jù)幀(32)相關(guān)的音位。
3.權(quán)利要求2的視頻處理系統(tǒng),其中視位識別系統(tǒng)(12)把被識別的音位映射到所述至少一個預(yù)定視位。
4.權(quán)利要求2的視頻處理系統(tǒng),其中視位識別系統(tǒng)(12)用相關(guān)的音位來標(biāo)記幀。
5.權(quán)利要求1的視頻處理系統(tǒng),還包含一個幀抽取系統(tǒng)(22)用于消除不與該至少一個視位相對應(yīng)的幀。
6.權(quán)利要求5的視頻處理系統(tǒng),還包含一個接收機系統(tǒng)(40),該接收系統(tǒng)含有解碼器(42),用于解碼被編碼過的視頻數(shù)據(jù)幀;幀參考庫(44),用于存儲被解碼的幀;而且其中解碼器(42)利用來自幀參考庫中的原來被解碼過的幀來解碼當(dāng)前的編碼幀,并且其中該以前被解碼過的幀和當(dāng)前的編碼幀屬于同一視位。
7.權(quán)利要求6的視頻處理系統(tǒng),其中接收系統(tǒng)(40)還包含一個變換系統(tǒng)(48)用來重建被抽取系統(tǒng)(22)消除的幀。
8.權(quán)利要求7的視頻處理系統(tǒng),其中編碼器(14)產(chǎn)生被變換系統(tǒng)(48)用來重建幀的詳細(xì)運動信息。
9.處理視頻數(shù)據(jù)幀流的方法,包含以下步驟確定輸入的視頻數(shù)據(jù)的每一幀是否對應(yīng)于至少一個預(yù)定視位;存儲對應(yīng)于視位庫(16)中該至少一個預(yù)定視位的幀;以及編碼對應(yīng)于該至少一個視位的每一幀,其中,該編碼步驟利用在視位庫(16)中以前存儲的幀來編碼當(dāng)前幀。
10.權(quán)利要求9的方法,還包含以下步驟解碼被編碼的視頻數(shù)據(jù)幀;提供一個用于存儲被解碼幀的幀參考庫;并且其中,解碼步驟利用來自幀參考庫(44)中先前被解碼的幀來解碼當(dāng)前的編碼幀,而且其中先前被解碼的幀和當(dāng)前的編碼的幀屬于同一視位;
11.一種存儲在可記錄介質(zhì)上的程序產(chǎn)品,當(dāng)它被執(zhí)行時可以處理視頻數(shù)據(jù)幀流,該程序產(chǎn)品包含一個用于確定輸入的視頻數(shù)據(jù)幀是否對應(yīng)于至少一個預(yù)定視位的系統(tǒng)(12);視位庫(16),用于存儲對應(yīng)于該至少一個預(yù)定視位的幀;以及用于編碼對應(yīng)于該至少一個預(yù)定視位的每一幀的系統(tǒng)(14),其中,該編碼系統(tǒng)利用在視位庫中以前存儲的幀來編碼當(dāng)前幀。
12.權(quán)利要求11的程序產(chǎn)品,其中該確定系統(tǒng)(12)包含一個語言分段器(18),用來識別在音頻數(shù)據(jù)流中與視頻數(shù)據(jù)幀相關(guān)的音位。
13.權(quán)利要求11的程序產(chǎn)品,其中確定系統(tǒng)(12)把被識別的音位映射到至少一個預(yù)定的視位。
14.用于解碼被編碼的視頻數(shù)據(jù)幀的解碼器(42),所述被編碼的視頻數(shù)據(jù)幀是使用與至少與一個預(yù)定視位相關(guān)聯(lián)的幀來進行編碼的,該解碼器包含幀參考庫(44),用于存儲被解碼的幀;其中解碼器(42)利用幀參考庫中的原來被存儲的幀來解碼當(dāng)前的編碼幀,并且以前被存儲的幀和當(dāng)前的編碼幀屬于同一視位,以及變換系統(tǒng)(48),用來重建在編碼處理中被消除的視頻數(shù)據(jù)幀。
全文摘要
用于處理視頻數(shù)據(jù)幀流的視頻處理系統(tǒng)和方法。該系統(tǒng)包含一個打包系統(tǒng),該打包系統(tǒng)包括視位識別系統(tǒng)(10),它確定輸入視頻數(shù)據(jù)幀是否對應(yīng)于至少一個預(yù)定視位;視位庫(16),用于存儲對應(yīng)于該至少一個預(yù)定視位的幀;編碼器(14),用于編碼對應(yīng)于該至少一個預(yù)定視位的每一幀,其中,編碼器利用在視位庫中以前存儲的幀來編碼當(dāng)前的幀。同時也提供一個接收系統(tǒng),它包括解碼器,用于解碼被編碼的視頻數(shù)據(jù)幀;參考幀庫,用于存儲被解碼的幀;其中解碼器利用來自幀參考庫中的先前解碼的幀來解碼當(dāng)前的編碼幀,并且先前解碼的幀和當(dāng)前的編碼幀屬于同一視位。
文檔編號G06T9/00GK1557100SQ02818636
公開日2004年12月22日 申請日期2002年9月6日 優(yōu)先權(quán)日2001年9月24日
發(fā)明者K·S·查爾拉帕里, K S 查爾拉帕里 申請人:皇家飛利浦電子股份有限公司