專利名稱:圖象通信設備的制作方法
技術領域:
本發(fā)明涉及圖象編碼和圖象通信設備,例如可視電話和錄象設備。
通常,作為傳輸話音的通信設備,已采用了一種可視電話系統(tǒng)(A.N.Netravali,B.G.Haskell“數(shù)字圖象”,第115-119頁,AT&TBellLab.(貝爾實驗室)(1988))。此設備包括發(fā)射系統(tǒng),它包括攝象裝置、話音輸入裝置以及用于對圖象和話音進行編碼的編碼電路;接收系統(tǒng),它包括用于對編碼的圖象和話音信號進行譯碼的譯碼器;顯示器,它包括揚聲器和CRT(陰極射線管);以及通信控制器,用于通過一網(wǎng)絡傳輸圖象和話音。在這種傳統(tǒng)的設備中,由攝象機形成的圖象的內(nèi)容全部被編碼并通過一傳輸線傳輸,這導致必需傳輸大量數(shù)據(jù)。結(jié)果,通過一根低速模擬通信線實現(xiàn)通信的這類低成本可視電話產(chǎn)生了這樣的問題圖象質(zhì)量顯著變劣或者圖象的移動變得不協(xié)調(diào)和不自然。
為解決上述問題,已做了各種嘗試。例如,根據(jù)JP-A-57-129076中記載的可視電話設備,為使背景清晰,將事先制備的背景圖象與新形成的電視圖象相比較,從而實現(xiàn)保密控制并將要傳輸?shù)膱D象信號量減至最少。
然而,當該系統(tǒng)的用戶進行通信并同時觀視彼此的圖象時,在通常情況下,通信人的圖象是最重要的。也就是說,在許多情況下各通信人的背景圖象是不重要的。考慮到有限數(shù)量的編碼的有效配置,它可被認為對一所得幀中的圖象之組元進行均勻編碼是無效的,也就是說,對于通信的用戶而言,對具有不同重要性的目標均勻地分配相同數(shù)量的編碼是無效的。
另外,JP-A-57-129076中描述的可視電話設備需要事先發(fā)射背景圖象的程序。也就是說,未考慮到用戶的可操作性和適用性。
因此,本發(fā)明的目的是要提供一種圖象通信設備,即使通過諸如模擬電話線的低速傳輸路徑,此設備也可使用,并且保持優(yōu)異的圖象質(zhì)量。
為實現(xiàn)本發(fā)明的目的,本發(fā)明的圖象通信設備設有圖象提取裝置,用于提取目標的特定部分的圖象;編碼裝置,用于對所提取圖象部分進行編碼,以及用于向?qū)Ψ絺鬏攬D象數(shù)據(jù)的裝置。
圖象提取裝置提取目標的特定部分的圖象。每一所提取圖象按一種編碼方法或通過改變編碼參數(shù)編碼,以根據(jù)相關圖象部分的重要性產(chǎn)生適量的碼。這可將編碼最優(yōu)化地分布主屏圖象的各部分。
另外,在可視電話設備和電視會議系統(tǒng)中,由攝象設備產(chǎn)生的視頻信號被編碼,以便能通過諸如綜合業(yè)務數(shù)字網(wǎng)(ISDN)的傳輸路徑傳輸。例如,就全國電視制式委員會(NISC)標準的信號而言,當信號未進行傳輸數(shù)據(jù)壓縮時,根據(jù)彩色電視的演播標準,傳送速度為216兆比特/秒(Mbps)。這使得需要更有效地對信號進行編碼,以減少傳輸數(shù)據(jù)的比特數(shù)。至于編碼方法,主要采用“日本電視工程師協(xié)會月刊”第45卷第7期(1991)第793-799頁描述的方法。也就是說,基本上采用以幀內(nèi)估算或預測為基礎的條件象素補充方法(CondiTionalpixelsupplementingmethod),其中僅傳輸移動部分,以便諸如離散余弦變換(DCT)的其它編碼方法與條件象素補充方法組合使用。由于這類高效編碼技術的發(fā)展,使用ISDN線的可視電話和電視會議系統(tǒng)已在商務和工業(yè)領域得到了廣泛應用。將圖象轉(zhuǎn)換為用于傳輸?shù)木幋a來實現(xiàn)通信的方法已有公開,例如,JP-A-62-120179中以及在名稱為“系統(tǒng)圖象編碼技術”的文章中已有描述,所述文章由MakotoMiyahara撰寫,發(fā)表于IPC的1-14頁。
雖然諸如可視電話之類的采用模擬傳輸?shù)牡统杀就ㄐ畔到y(tǒng)已經(jīng)公知,但是,為了以低傳輸率實現(xiàn)傳輸,圖象質(zhì)量要受到相當程度的損害。這便會導致產(chǎn)生下列問題。人面部的表情無法很好地傳輸和顯示,表情的變化無法以實時方式傳輸,造成面部的動作不夠自然。
本發(fā)明的另一個目的是要提供一種可視電話系統(tǒng),即使在傳輸線具有低的傳輸率情況下,例如模擬電話線,此系統(tǒng)也能以實時方式產(chǎn)生高質(zhì)量電視圖象,從而解決了上述的問題。
為實現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種系統(tǒng),此系統(tǒng)包括數(shù)據(jù)庫,它存儲與目標相關的模型的內(nèi)容;攝象機,它包括提取處理裝置和編碼裝置,提取處理裝置用于提取由攝象機拍攝的目標并計算其特征,編碼裝置用于分析由提取處理裝置算出的特征并將這些特征轉(zhuǎn)換為與數(shù)據(jù)庫相應的公知表達方式;接口裝置,用于將由編碼裝置產(chǎn)生的公知表達方式轉(zhuǎn)換為符合信號傳輸路徑的信號系統(tǒng)的信號,將公知表達方式傳送到接收機,并將發(fā)射機發(fā)送的信號轉(zhuǎn)換成公知表達方式;以及譯碼裝置,用于根據(jù)來自發(fā)射機側(cè)的公知表達方式并通過參照數(shù)據(jù)庫來合成視頻信號。
為實現(xiàn)本發(fā)明的目的,上述裝置以下述方式工作。
除提取處理裝置和編碼裝置外,攝象機還包括通常用于數(shù)字式攝象機的信號處理電路和控制電路,當發(fā)射機發(fā)送一圖象時,攝象機對信號進行處理,處理方法為公知的處理由攝象設備產(chǎn)生的視頻信號的方法,以便產(chǎn)生諸如視頻信號的圖象信號。提取處理裝置從由信息處理電路產(chǎn)生的視頻信號中提取目標,以計算所提取目標的組元的特征,這些特征為(例如)尺寸、輪廓、重心座標和斜率。包括微機或類似裝置的編碼裝置分析由提取裝置算出的特征的信息,識別構(gòu)成目標的組元及其狀態(tài),并將所識別的信息項轉(zhuǎn)換成公知表達方式,此公知表達方式與數(shù)據(jù)庫相對應,后者包括與目標相關的模型的內(nèi)容。接口裝置將由編碼裝置產(chǎn)生的公知表達方式轉(zhuǎn)換成信號,此信號符合傳輸路徑的信號系統(tǒng),接口裝置還通過傳輸路徑傳輸所合成的信號。
通過傳輸路徑接收的信號由接口裝置轉(zhuǎn)換成公知表達式。譯碼裝置解譯公知表達方式,以重構(gòu)所傳輸?shù)膱D象。在這個程序中,譯碼裝置訪問存儲有大量的與目標有關的模型圖象的數(shù)據(jù)庫,爾后選擇與組元相關的視頻數(shù)據(jù)項,而這些組元構(gòu)成從發(fā)射機發(fā)送的圖象,以便再現(xiàn)原始圖象。
也就是說,發(fā)射機并不發(fā)送圖象本身。要傳輸諸如人面部之類的目標圖象事先要轉(zhuǎn)換成表示圖象的公知表達方式,這樣的公知表達方式便可作為傳輸數(shù)據(jù)發(fā)送。在接收機中,正如上面所述的那樣,公知表達方式被解譯成目標的圖象。
采用這種方法,傳輸數(shù)據(jù)量可以顯著地減少,因此,構(gòu)成這樣一種可視電話系統(tǒng)是可能的,即使采用諸如模擬電話線之類的具有低傳輸率的通信線,這種可視電話系統(tǒng)也能夠以實時方式傳輸高質(zhì)量的圖象。
通過參考以下說明和附圖,本發(fā)明的這些和其它目的和優(yōu)點將變得更為清楚,附圖中
圖1是表示根據(jù)本發(fā)明的圖象通信設備的第一實施例的示意圖;
圖2是表示根據(jù)本發(fā)明的圖象通信設備的總體結(jié)構(gòu)的示意圖;
圖3是表示第一實施例的圖象提取電路的結(jié)構(gòu)的示意圖;
圖4是用于解釋第一實施例的編碼方法的示意圖;
圖5是用于解釋第一實施例的編碼方法的示意圖;
圖6是表示根據(jù)本發(fā)明的第二實施例的示意圖;
圖7是表示第二實施例的編碼裝置的結(jié)構(gòu)的示意圖;
圖8是表示存儲器中的視頻數(shù)據(jù)的存儲變換的示意圖;
圖9是用于解釋第二實施例的編碼方法的示意圖;
圖10是表示第二實施例的顯示器構(gòu)造的示意圖;
圖11A至11C是用于解釋人口部的圖象模型的示意圖;
圖12是表示根據(jù)本發(fā)明的第三實施例的示意圖;
圖13是表示存儲器中的視頻數(shù)據(jù)的存儲變換的示意圖;
圖14是表示第三實施例的編碼方法的示意圖;
圖15A和15B是用于解釋將圖象轉(zhuǎn)換成公知表達方式的方法的一個例子的示意圖;
圖16是表示數(shù)據(jù)庫的內(nèi)容的一個例子的示意圖;
圖17是表示公知表達式的一個例子的示意圖;
圖18是表示在發(fā)射機和接收機之間剛建立通信線之后在接收機側(cè)得到的圖象示意圖;
圖19A和19B是用于解釋接收圖象的方法的示意圖。
下面描述根據(jù)本發(fā)明的圖象通信設備的一個實施例。
圖2示出諸如可視電話系統(tǒng)之類的圖象通信設備的結(jié)構(gòu),此設備包括用戶1,他通過此設備實施通信;視頻輸入裝置2;話音輸入裝置(麥克風)3;顯示裝置4;編譯碼器5;以及通信網(wǎng)絡6。
此通信設備的用戶1通過一通信網(wǎng)絡與對方進行通信,后者采用位于遠處的一個相同通信設備。攝象裝置2拍攝用戶1的圖象,爾后將圖象的視頻信號輸入編碼器5。麥克風3將用戶1的話音轉(zhuǎn)化為要饋入編碼器5的音頻信號。編碼器5被視頻和音頻信號編碼成適合網(wǎng)絡6的編碼信號(通信信號)并隨后將信號供給網(wǎng)絡6。除了通信信號從用戶1至網(wǎng)絡6的傳輸之外,譯碼器5通過網(wǎng)絡6接收從通信對方1發(fā)送的通信信號,爾后解譯此信號,以再現(xiàn)對方1的視頻和音頻信號。所得到的通信對方1的視頻和音頻信號送至顯示器4,以再現(xiàn)圖象和聲音。
圖1示出圖2的編碼裝置5的結(jié)構(gòu)的一個例子。它包括輸入端20;輸出端21、22;輸入和輸出端23;在提取處理之前的輸入信號25a;提取處理之后的輸入信號25b;編碼電路27a、27b;多路復用電路28;發(fā)射/接收單元29;多路分解器30;譯碼器31a、31b;以及信號合成單元32。根據(jù)本發(fā)明,話音是按常規(guī)的公知方法處理的,因此不再說明。由攝象裝置和麥克風產(chǎn)生的用戶1的視頻信號通過輸入端20接收。此信號由發(fā)射機側(cè)的編碼裝置編碼,此裝置包括提取電路24、編碼電路27a和27b,以及多路復用器28。編碼信號由發(fā)射和接收部分29轉(zhuǎn)換成通信信號,后者要通過輸入和輸出端15輸出至網(wǎng)絡。發(fā)射和接收部分14同時進行傳輸和接收,并通過輸入和輸出端23接收包含來自通信對方的圖象和話音的通信信號。此信號由譯碼裝置解譯,此裝置包括分離電路30、譯碼電路31a和31b、以及合成電路32,以便再現(xiàn)對方的圖象信號。此圖象信號從輸出端22傳送出去。此視頻信號送到顯示器4,以再現(xiàn)對方的圖象。雖未示出,但當用戶1的圖象要在顯示器4上顯示以確認時,僅需在發(fā)射和接收單元29中進行轉(zhuǎn)換操作,以將傳輸信號作為接收信號處理。另一種方式是,輸入視頻信號僅需供給合成電路32與所接收的圖象混合,以合成要在顯示4上呈現(xiàn)的圖象。
當從提取電路24接收信號時,控制電路26向攝象裝置發(fā)送一個控制信號,以獲得最佳輸入圖象。輸入圖象信號首先饋入提取電路24,以提取目標的部分圖象。在此實施例中,攝取目標為此設備的用戶。部分圖象包括用戶的眼部、口部等等。由于眼部和口部的輪廓比該目標的其它部分變化得更為頻繁,因此需要對其配置較多的信息項目。所提取部分圖象(提取信號25b)和其余部分圖象(未提取信號25a)分別輸入編碼器27a和27b,以便于其編碼。雖然編碼方法是不受限制的,但為再現(xiàn)所提取圖象的高質(zhì)量圖象,要由編碼電路27b產(chǎn)生大量的編碼。對于編碼電路27a而言,可使用通常用于可視電話的任一種編碼方法(參考ITU-T推薦方法H.261,用于P×64千比特的音象業(yè)務的視頻編碼(1993),并“用于可視電話和電視會議的編碼技術”,此文載于日本電視工程師協(xié)會月刊(JournalofInstituteofTelevisionEngineersofJapan)第47卷(1991)、第7期的793頁)。編碼器27b可按諸如熵編碼方法之類的編碼方法工作(參考“電子攝象系統(tǒng)基礎第106頁,此書作者為W.F.Schreiber,由Springer-Verlag于1993年出版)。
多路復用器28將由前級的編碼器27a和27b產(chǎn)生的編碼信號多路復用,并向發(fā)射和接收部分29發(fā)送多路復用的信息。除了提取部分圖象之外,提取電路24還進行運算,以計算每個提取部分的尺寸、輪廓、參考點位置或多個提取部分的重心座標,爾后將所算出的數(shù)據(jù)項輸出至控制器26。
為探測目標并獲取其特征,例如,可采用JP-A-59-208983中描述的方法,其中目標的特征是從在固定時間間隔中取樣的圖象間的差異中獲取的。另外,也可采用JP-A-4-205070中描述的方法,其中,將滿足預定條件的視頻信號部分,例如滿足根據(jù)亮度信號和色差信號確定的條件的視頻信號部分作為目標的選取部分。將如此選取的新選取范圍與在一預定時間周期之前得到的目標范圍相比較,并存儲于存儲裝置中,以確定一個這些范圍相互重疊的區(qū)域,并由此最終提取一個圍繞重疊區(qū)域的區(qū)域作為目標的范圍。
根據(jù)來自提取電路24的數(shù)據(jù)項,控制電路26由輸出端21傳送出一個控制信號,以調(diào)節(jié)攝象裝置2的方向或取向以及放大率。結(jié)果,攝象裝置2按所要求的方式自動地相對于用戶1取向,以攝取具有適當尺寸的圖象。此處理程序是需要執(zhí)行的,以便攝象裝置2自動跟隨其前方的通信者移動。為調(diào)節(jié)攝象裝置2的取向和放大率,可以機械方式或電子方式操作此裝置。在包括諸如電荷耦合器件的攝象器件的攝象裝置中,可采用CCD(電荷耦合器件)實現(xiàn)上述的取向的電子調(diào)節(jié),所述CCD包括除用于此攝象裝置的輸出之外的邊緣象素。此外,可通過統(tǒng)稱為電子變焦的操作實現(xiàn)放大率的電子調(diào)節(jié)。在編碼電路27b中,為了以后要實現(xiàn)的譯碼操作,提取圖象的尺寸和位置與所提取圖象一起進行編碼。
在接收機側(cè)運作時,所接收的信號由分離電路30分離成所提取部分和其它部分的編碼。被分離的編碼分別由對應于編碼器27a和27b的譯碼器31a和31b譯碼。結(jié)果得到所提取部分和非提取部分的圖象。這些圖象饋入合成電路32,以根據(jù)所提取的圖象的尺寸和位置的信號項形成圖象。
圖3示出圖1中提取電路24的結(jié)構(gòu)的一個例子。提取方法與JP-A-4-205070中描述的方法基本相同。在此結(jié)構(gòu)中,標號40和43表示輸入端,標號41表示存儲裝置,它包括對應于每一輸入象素的一比特數(shù)據(jù)并在其中保持提取區(qū)域判定的結(jié)果,標號42表示判定電路,標號44表示地址生成電路,標號46和47表示輸出端。視頻信號通過輸入端40饋入判定電路42。輸入端43用于輸入每一提取部分的提取條件。在這種情況下,允許將亮度和色度信號作為提取條件。對于每一提取位置設定多個條件項目,例如,對于口部,設定亮度和色度信號電平的多種組合作為紅的唇部和白的齒部。由于唇色因人而異,因此亮度和色度電平分別具有容差范圍。判定電路42確定與從輸入端40接收的圖象中提取條件相符的圖象區(qū)域。存儲裝置41存儲判定電路42的處理結(jié)果,即對應每幀的提取圖象區(qū)域。另外,存儲裝置41存儲對應每一提取部分的提取圖象區(qū)域。判定結(jié)果再次輸入判定電路42,以用作下一幀的提取范圍的選擇部分。也就是說,判定電路42通過稍微擴展存儲于存儲裝置41中的對應每一提取部分的在先前提取區(qū)域產(chǎn)生一圖象范圍,從而在所產(chǎn)生的范圍中決定每個提取部分。判定電路42計算對應每一提取部分的圖象的尺寸和位置,并將結(jié)果從輸出端46送出。尺寸和位置的數(shù)據(jù)項用于控制攝象裝置。根據(jù)控制程序,用戶面部的圖象可按固定輪廓形成。每一提取部分的位置數(shù)據(jù)項被傳送至地址生成電路44,以在存儲器41中生成一個地址,從而分別將各提取部分存儲在分離位置中。圖4示出地址生成結(jié)果的一個例子,其中,各提取部分的視頻相互組合,構(gòu)成諸如CIF(公用交換格式)的一幀,以便傳輸。存儲于存儲裝置45中的圖象數(shù)據(jù),爾后讀出,并從輸出端47傳送出。
圖5示出將包括提取部分(碼A)和非提取部分(碼B)的視頻數(shù)據(jù)項在內(nèi)的兩種視頻數(shù)據(jù)項多路復用的方法。信號的多路復用以下列方式實現(xiàn)。對于提取部分的碼A來說,傳輸?shù)氖敲恳粠淖钚聰?shù)據(jù);而對于非提取部分而言,在預定數(shù)量的幀的間隔中傳輸?shù)氖且粋€圖象。另外,由于提取部分包括部分圖象,當以后由譯碼器對圖象進行譯碼時,就需要再現(xiàn)位置的信息。結(jié)果,碼A還包括每一提取的圖象位置信息。
根據(jù)此實施例,在諸如與口部和眼部相關的具有大量信息的圖象中可配置大量編碼。結(jié)果,為實現(xiàn)優(yōu)質(zhì)圖象所需的總傳輸數(shù)據(jù)量可以減少,或者說,在不增加傳輸數(shù)據(jù)量的情況下,可獲得高質(zhì)量的圖象。
圖6示出根據(jù)本發(fā)明的另一實施例。與前述實施例相比較,此實施例包括一個用于人頭的圖象(Solidimagc)顯示器,它取代了前述實施例的顯示器。標號90表示圖象顯示器,標號91表示編碼裝置。
圖7示出編碼電路12的結(jié)構(gòu),它包括輸入端120;輸出端121、122;輸入端123;輸入和輸出端124;提取處理電路125;控制電路126;編碼電路127;多路復用電路128;發(fā)射和接收部分129;分離電路130;譯碼電路131;以及合成電路132。各電路方框的功能與前述實施例的對應構(gòu)件相同。提取電路125提取面部組元和整體面部,以在顯示器90上呈現(xiàn)人的面部。假設要提取的組元為整體面部、眼部、口部、鼻部、眉毛等等。為進行編碼操作,各組元被賦予優(yōu)先等級。例如,在整體面部圖象中的變化小于口部圖象中的變化,因此整體面部被賦予較低的優(yōu)先等級。從這方面看,眼部和口部是同等重要的,相應地賦予它們相同優(yōu)先等級,以為此配置較多的編碼。
當不可能按面部情況改變圖象顯示器的形狀時,顯示器90按具有平均特征的面部模型化,以固定面部各組元的位置。例如,在JP-A-5-27346和JP-A-3-22753中已描述了圖象顯示器的一個例子。在平面或二維顯示器中,在成象時僅需使各組元的尺寸大致反映目標的真實組元的尺寸。但是,在三維顯示器中,要求組元的位置正確地反映固象顯示器的真實組元的位置。為此,首先要調(diào)節(jié)眼部和口部位置使之符合顯示器,以最終按自動方式?jīng)Q定組元的尺寸。在這種連接方式中,提取電路125在提取操作過程中運算組元間的位置關系,以獲得眼部和口部的位置。在位置調(diào)節(jié)過程中,控制電路105根據(jù)由提取電路125獲得的位置工作,以調(diào)節(jié)在攝象裝置側(cè)的攝象位置和放大率。調(diào)節(jié)過程是通過所謂的電子變焦功能改變垂直和水平變焦因子實現(xiàn)的。面部圖象在發(fā)送機側(cè)調(diào)節(jié),以與固象顯示器90相配合;此后,提取組元。
提取電路125按與圖3中所示的前述實施例相同的方式構(gòu)成。不過,如果所提取的面部包括多個組元或可變化數(shù)量的組元,那么就難以將所提取組元組合而符合上述的傳輸幀之格式(圖4)。因此,這里將引入如圖8所示的存儲裝置45的另一種配置格式。這僅僅包括在預定尺寸的存儲區(qū)中的相應組元??墒峭ㄟ^向存儲裝置45發(fā)送一個讀出指令,來獲取從提取電路125中輸出的數(shù)據(jù)項。換言之,所獲取的數(shù)據(jù)項構(gòu)成每個提取部分的圖象。
編碼器127對提取電路125的輸出進行編碼。數(shù)據(jù)編碼中采用的編碼方法或各種參數(shù)根據(jù)每個提取圖象的種類和優(yōu)先等級確定,正如結(jié)合前述實施例所描述的那樣。每一被編碼的圖象由多路復用器128根據(jù)其優(yōu)先等級多路復用。
圖9示出的多路復用程序的一個例子。每幀包括一個標題碼字段,此字段包括(例如)指示相關幀的內(nèi)部格式和用于識別該幀的幀識別器(ID)的信息,以及每一提取部分的視頻數(shù)據(jù)字段。各組元的視頻數(shù)據(jù)項按優(yōu)先等級分布,以便預定數(shù)量幀的相關部分構(gòu)成一幀的信息。根據(jù)圖9的分布方式,只有具有較低優(yōu)先等級的面部被分布成預定數(shù)量的幀,以便于其傳輸。將編碼分布到多幀中的方法要求在多路復用器128中有一數(shù)據(jù)緩沖操作。
多路復用碼通過發(fā)射和接收部分129傳輸至網(wǎng)絡。在接收機側(cè),復用碼主要由多路分解器電路130、譯碼器電路131和合成單元132處理。多路分解器電路130將對應每一優(yōu)先等級的碼從發(fā)射機側(cè)的多路復用碼中分離出來。被分離的碼分別由譯碼器131譯碼,以便重新構(gòu)成各組元的圖象。對于各優(yōu)先等級而言,由于所接收的視頻數(shù)據(jù)項間的幀頻變化,譯碼器131包括用于更新對應各組元的視頻數(shù)據(jù)的存儲裝置。此內(nèi)部存儲裝置可以圖8中所示的提取電路的存儲格式構(gòu)成。從存儲裝置中讀出的信號用作譯碼器器31的輸出信號。
當接收到來自譯碼器131的視頻輸出時,合成單元132包含每一組元的圖象。由于各組元的位置符合來自顯示器90的信息,因此,對于發(fā)射機側(cè)來說,與視頻數(shù)據(jù)一起傳送位置信息是不必要的。不過如果用于顯示器90的格式是單一的,顯示器90不必傳送上述的信息。
圖10示出固象顯示器90的結(jié)構(gòu),它包括顯示單元140;用于將圖象投射至顯示單元140的投影單元141;存儲裝置142;以及輸入和輸出(I/O)端143。存儲裝置142存儲與顯示單元140的格式相關的數(shù)據(jù)。此數(shù)據(jù)包括表示面部的組元的三維位置和尺寸的數(shù)據(jù)。由于如果顯示器的形狀是不可變的話,這樣的數(shù)據(jù)項是不改變的,因此僅需要一個固定于顯示器的只讀存儲器。格式信息通過I/O端143發(fā)送至編碼裝置,以便編碼器向顯示器供給與之相符合的圖象。如上所述,如果信息在顯示器與編碼裝置之間傳輸,則可采用另一種類型的顯示器。
當圖象通信系統(tǒng)包括上述的固象顯示器時,除前述實施例的效果外,還可獲得下述有利特征,即通信對方以三維方式再現(xiàn)于用戶附近。結(jié)果,即使對方就在此設備的用戶前方,通信也可實現(xiàn)。另外,根據(jù)本實施例,僅需傳輸人面部的圖象,也就是說,背景圖象不包括在傳輸數(shù)據(jù)中。此外,對應于每一部分分配的碼數(shù)根據(jù)優(yōu)先等級或重要性等級分配。結(jié)果,即使是低傳輸率的傳輸路徑,也可傳輸高質(zhì)量的圖象。
圖12示出了本發(fā)明的另一實施例。此圖特別示出了編碼裝置的構(gòu)成,在此圖中,與前述實施例相同的部分用相同標號表示。圖12的設備包括存儲裝置180a、180b;位移估算器181;編碼電路182;以及譯碼電路183。
在此實施例中,除提取面部的部分圖象外,還設有用于對與面部的各部分的結(jié)構(gòu)相關的信息進行編碼的程序。如上所述,人的面部包括多個部分,每一部分有其自身的結(jié)構(gòu)。圖11示出了人面部結(jié)構(gòu)的一個例子。
口部的圖象可視為包括上唇、下唇、上齒、下齒和口內(nèi)部分,如圖11所示。這些圖象對于通信中的人而言基本不變。因此,信息可分為基本圖象信息(基本信息)和變化或變形的信息(變化信息)。對于口部圖象來說,基本信息包括如圖11B所示的唇部圖象數(shù)據(jù),而變化信息可由如圖11C所示的表示上下唇之間的口內(nèi)部分的開口表示??诓孔兓囊曨l數(shù)據(jù)可通過按照變化信息修改基本信息來構(gòu)成。相同處理過程也適用于其它提取部分。
通過輸入端120提供的圖象饋入提取電路125并經(jīng)歷提取過程。所得到的作為提取結(jié)果的基本信息存儲于存儲裝置180a中,以連續(xù)方式變化的所提取的圖象供給位移計算電路181??诓康幕拘畔⒖砂磧煞N方法判定。在第一種方法中獲得基本信息的時間點由用戶規(guī)定。在第二種方法中,基本信息通過設備獲取。在口部的一個例子中,與處于常規(guī)閉合狀態(tài)的口部圖象相關的信息被設定為基本信息,而其變化幅度用作變化信息。在第一種方法中,當獲得處于閉合狀態(tài)的口部圖象時的時間點由用戶確定。在第二種方法中,只有口部的圖象由提取程序獲得??诓康拈_口幅度在通信開始后或從預定時間點開始的固定時間段內(nèi)是受監(jiān)控的,以確定幅度取最小值時的時間點。這個時間點假定為口部閉合時,由此可得到基本信息。
由上述任一種方法獲取的口部的基本信息,通過位移計算電路181與特定時間點提取的圖象相比較,從而得到位移信息。編碼電路182接收基本信息和變化或位移信息,并對這些信息進行編碼。對于每一所提取的圖象而言,所得到的分別對應于基本和變化信息項的編碼由多路復用器182多路復用,以通過發(fā)射和接收部分129傳輸。
圖13示出存儲裝置180a中的數(shù)據(jù)項的存儲格式。此格式與提取電路125中的存儲裝置的存儲格式相似。
圖14示出由多路復用器128采用的多路復用數(shù)據(jù)格式?;拘畔⑹菍拷M預定數(shù)量的幀傳輸?shù)?。不含有基本信息的一幀用于發(fā)送變化信息。每一基本和變化信息項包括相應的提取部分項。
在數(shù)據(jù)接收時,所接收的偏碼由多路分解器130分解為各提取塊的編碼。另外,編碼被分成基本信息碼和位移信息碼。所分離的信息的每一單元由譯碼器183解譯為基本或位移信息的數(shù)據(jù)?;竞臀灰菩畔㈨楇S后分別送至存儲裝置180b和合成電路132。合成電路132從存儲裝置180b中讀出基本信息,以執(zhí)行根據(jù)位移信息變換基本信息來再現(xiàn)提取部分的程序,然后將各提取部分按相關位置排列而合成為一個圖象。所合成的圖象作為輸出圖象從輸出端122送出。
根據(jù)上述實施例,每一提取部分分解為包含基本圖象數(shù)據(jù)的基本信息和相對于基本信息的包含位移數(shù)據(jù)的位移信息,以傳輸所合成的編碼。包含大量編碼的基本信息不是在每一幀內(nèi)傳輸。也就是說,基本信息以預定數(shù)量的幀的間隔傳輸,而包括較少量的編碼的位移信息則包含在要傳輸?shù)拿恳粠?。這就顯著地減少了傳輸碼的數(shù)量。
下面描述轉(zhuǎn)換過程,在此過程中,由攝象裝置得到的圖象被轉(zhuǎn)換成公知表達方式,以便于傳輸,所接收的包含公知表示方式的視頻數(shù)據(jù)根據(jù)含有公知表達方式數(shù)據(jù)的數(shù)據(jù)庫轉(zhuǎn)換成原始圖象。
特別是,當用提取電路24提取的圖象由編碼器27b編碼時,數(shù)據(jù)庫40用于將提取的圖象轉(zhuǎn)換為公知表達方式。
另外,當以公知表達方式接收圖象數(shù)據(jù)時,譯碼器31b根據(jù)公知表達方式訪問數(shù)據(jù)庫,從而將視頻數(shù)據(jù)解譯成原始圖象。在此過程中,對應于構(gòu)成由發(fā)射機側(cè)發(fā)送的圖象的相應組元的視頻數(shù)據(jù)項被選擇性地從數(shù)據(jù)庫中讀出,此數(shù)據(jù)庫包含與要攝象的目標有關的多種圖象模型。所選的視頻數(shù)據(jù)項相互組合,從而再現(xiàn)原始視頻圖象。下面詳細描述公知表達方式。對于描述公知技術的方法而言,可參考(例如)“智能圖象處理技術”一書的第8章(132-139頁),此書由Agui和Nagasaki著并于1994年由Shokodo出版。
下面將參照圖15A和15B描述將人的圖象轉(zhuǎn)換成公知表達方式的方法的一個例子。圖15A示出由攝象裝置攝取一個人所得到的目標圖象。從這個圖象看,一個與人相關的圖象可提取并分解成諸如頭發(fā)、面部、眼部、口部和身體的組元,以便得到包含各組元的重心坐標、寬度、高度、體積和顏色的特征。還可得到諸如每個眼的寬度和虹彩、口內(nèi)部分的寬度和高度,以及眼和眉毛的斜率之類的特征。這些特征被轉(zhuǎn)換成數(shù)據(jù)項,這些項分別被賦予與數(shù)據(jù)庫相配的組元數(shù),如圖16所示。
圖17示出公知表達方式的一個例子。對于每一組元,以組元數(shù)、色彩(r-y、b-y)、位置(△x、△y)和尺寸的形式規(guī)定了一組公知表達項。在此表達方式中,位置(△x、△y)表示相關目標的重心座標與各組元的重心座標之間的差異。正如可從圖17中所看到的,目標的各組元的公知表達方式的數(shù)據(jù)項緊隨在幀分界碼之后。假設目標包括(例如)10個組元且每一組元(例如組元數(shù))由一個8比特數(shù)據(jù)項表示。每一幀需要的數(shù)據(jù)量最終變?yōu)?80比特。正如上述,通過將圖象轉(zhuǎn)換為公知表達方式可顯著地減少傳輸數(shù)據(jù)量。此外,當系統(tǒng)以僅傳輸在數(shù)據(jù)傳輸之前改變的組元的公知表達方式時,傳輸數(shù)量可減少更多。
為了從公知表達方式再現(xiàn)原始圖象,對應于公知表達方式的組元數(shù)的圖象被從數(shù)據(jù)庫中讀出,并被相互組合,以便合成目標圖象。當將每一組元排列于屏上時,在公知表達方式中由(0,0)表示的組元位置設在屏的中心位置。如上所述,由于位置表示目標的重心座標與各組元的重心座標之間的差距,因此位置(0,0)表示目標的重心。采用這種方法,可實現(xiàn)位置校正,以使目標在任何情況下均連續(xù)地處在屏的中心位置。
在屏的深度方向上,各圖象是以這樣的位置關系呈現(xiàn)的,即較小項目處于較上層。此外,當數(shù)據(jù)庫中的諸如皮膚和各眼的虹彩膜之類的組元的圖象色彩由表示為公知表達方式的色彩代替時,在再現(xiàn)圖象將變得更接近于發(fā)射機的原始圖象。
如上所述,圖象本身不能用作傳輸數(shù)據(jù)。傳輸目標(諸如人的面部)的圖象要轉(zhuǎn)換成表示圖象的公知表達式,以便向通信對方發(fā)送公知表達方式的數(shù)據(jù)。在接收機側(cè),目標的原始圖象根據(jù)所接收的公知表達方式再現(xiàn)。因此,傳輸數(shù)據(jù)量得以顯著降低,并可提供一種可視電話系統(tǒng),即使采用諸如模擬電話線之類的具有低傳輸率的通信線,此系統(tǒng)也能以實時方式產(chǎn)生高質(zhì)量的圖象。
此外,下述方式在數(shù)據(jù)通信中,也是可能的,即目標的重要組元以公知表達方式之形式傳輸,其它組元作為視頻信號傳輸。在這個程序中,公知表達方式是以實時方式傳輸?shù)?,而整個屏的圖象信息是在通信路徑的傳輸速率范圍內(nèi)以低傳輸速率傳輸?shù)?。當傳?例如)人面部的圖象時,對于通信而言重要的眼部和口部圖象以實時方式發(fā)送。另外,當由攝象裝置攝取目標的圖象由提取電路從目標的整體圖象中提取并且剩余部分的圖象由一種顏色替代時,傳輸數(shù)據(jù)可更有效地壓縮。
但是,由于在上述方法中整個屏的信息是以低傳輸速率傳輸?shù)?,因此,在通信線剛建立之后,僅僅是眼部和口部顯示于屏上,如圖18所示。為克服這種困難,可以數(shù)據(jù)庫1中準備一個人頭部分的模型圖象。在通信線剛建立之后,眼部和口部根據(jù)按實時方式接收的公知表達方式合成,以便眼部和口部的圖象與模型圖象組合而在屏上顯示如圖19A所示的合成圖象。正如可從圖19B中看到的,當模型圖象隨后由從發(fā)射機側(cè)依次接收的圖象替代時,即使在通信線剛接通之后,也能連續(xù)地顯示逼真的圖象。也就是說,所顯示的圖象從模型圖象逐漸變化為發(fā)送者的人體圖象,且不會造成任何不希望的人為表現(xiàn)狀態(tài),因此,觀視者可獲得逼真的再現(xiàn)圖象。
如上所述,即使在采用諸如模擬電話線之類的低傳輸速率的傳輸線的情況下,對通信極為重要的人的面部的表示組元或類似的組元也可以實時方式傳輸,同時轉(zhuǎn)換整個屏圖象的視頻數(shù)據(jù)。這帶來一個與圖1所示的實施例相似的有益效果。
盡管已參照特定實施例對本發(fā)明進行了描述,但本發(fā)明不受這些實施例的限制,而是僅由所附加的權利要求限定。在不脫離本發(fā)明的范圍和精神的情況下,本領域的普通技術人員可改變或修正這些實例。
權利要求
1.一種圖象通信設備,其特征在于包括用于輸入視頻數(shù)據(jù)的輸入裝置;提取裝置,用于從由輸入裝置輸入的視頻數(shù)據(jù)中提取目標的至少一部分的視頻數(shù)據(jù);編碼裝置,用于以獨立方式對由提取裝置提取的部分的視頻數(shù)據(jù)和輸入的視頻數(shù)據(jù)進行編碼;以及多路復用裝置,用于對由編碼裝置編碼的視頻數(shù)據(jù)進行多路復用。
2.根據(jù)權利要求1的圖象通信設備,其中,編碼裝置給所提取的視頻數(shù)據(jù)配置第一編碼量,給輸入的視頻數(shù)據(jù)配置第二編碼量,第一編碼量大于第二編碼量。
3.根據(jù)權利要求1的圖象通信設備,其中所述輸入裝置輸入人的面部的視頻數(shù)據(jù);所述提取裝置提取人面部的眼部和口部的視頻數(shù)據(jù)作為所述部分的視頻數(shù)據(jù)。
4.根據(jù)權利要求1的圖象通信設備,其特征在于還包括計算裝置,用于根據(jù)所提取部分的視頻數(shù)據(jù)計算表示所提取部分的基本信息的視頻數(shù)據(jù);用于計算相對于表示基本信息的視頻數(shù)據(jù)的位移量的裝置;第二編碼裝置,用于對表示基本信息和位移量的視頻數(shù)據(jù)進行編碼;和再現(xiàn)裝置,用于根據(jù)表示基本信息和位移量的視頻數(shù)據(jù)再現(xiàn)圖象。
5.根據(jù)權利要求4的圖象通信設備,其中所述的所提取部分的視頻數(shù)據(jù)包括眼部和口部的視頻數(shù)據(jù);所述位移量包括每個眼部或口部的開口的幅度。
6.一種圖象通信設備,其特征在于包括攝象裝置;話音輸入裝置;提取裝置,用于從由所述攝象裝置形成的圖象中提取目標的至少一部分的圖象;編碼裝置,用于分別對由所述提取裝置提取的部分的圖象和由所述話音輸入裝置輸入的話音進行編碼;通信裝置,用于通過通信網(wǎng)絡傳輸通過由所述編碼裝置對圖象和話音進行編碼而獲得的數(shù)據(jù);譯碼裝置,用于對從所述的通信裝置中接收的數(shù)據(jù)進行譯碼,并因此再現(xiàn)所提取部分的圖象和話音;合成裝置,用于合成由譯碼裝置解譯的所提取部分的圖象,從而合成一圖象;和顯示器,它具有包括凹部和凸部的表面,用于顯示由合成裝置合成的圖象,其中所述合成裝置根據(jù)顯示器的凹部和凸部合成再現(xiàn)圖象。
7.根據(jù)權利要求6的圖象通信設備,其中所述顯示器包括用于存儲與凹部和凸部相關的信息的存儲器。
8.根據(jù)權利要6的圖象通信設備,其中所提取部分的圖象是人的面部;顯示器表面的凹部和凸部具有類似于人面部的輪廓。
9.根據(jù)權利要求1的圖象通信設備,其中目標的組元相對于整個目標的重心的相對位置的信息被加至組元的公知表達式上;組元是這樣安排的,當對公知表達方式進行譯碼時整個目標的重心設定在屏中心位置。
10.一種圖象通信設備,其特征在于包括包含與目標有關的模型的內(nèi)容的數(shù)據(jù)庫;攝象機,它包括提取裝置和編碼裝置,提取裝置用于從電視圖象中提取目標的圖象,并計算諸如輪廓、尺寸和重心的目標特征,編碼裝置用于分析從提取裝置中輸出的目標的特征,并將目標的特征組元轉(zhuǎn)換成與數(shù)據(jù)庫相配的公知表達方式;接口裝置,用于將電視圖象的視頻信號和由編碼裝置產(chǎn)生的公知表達式轉(zhuǎn)換成符合與傳輸路徑匹配的信號系統(tǒng)的信號、將視頻信號和公知表達式傳送至接收機、以及將由發(fā)射機發(fā)射的信號轉(zhuǎn)換成視頻信號和公知表達方式;和譯碼裝置,用于根據(jù)來自于發(fā)射機的與目標特征相關的公知表達方式訪問數(shù)據(jù)庫,并由此產(chǎn)生與公知表達方式相關的圖象,其中,譯碼裝置包括合成裝置,后者用于將輸出的圖象與總電視圖象合成。
11.根據(jù)權利要求10的圖象通信設備,其中表示目標的特征的公知表達方式從實時方式傳輸;整個電視圖象的視頻信號從低傳輸速率傳輸。
12.根據(jù)權利要求3的圖象通信設備,其中在視頻信號到達接收機之前顯示一模型圖象;模型圖象逐步由發(fā)射機發(fā)送的圖象代替。
13.根據(jù)權利要求3的圖象通信設備,其中該設備傳輸人的圖象;數(shù)據(jù)庫存儲有多種模型圖象,這些圖象為人頭的面部類型、眼、口和眉毛的圖象;一個包括目標提取裝置和圖象表達裝置的攝象機,用于提取諸如眼和眉毛的決定其表達方式的面部之各部分,并用于將所提取部分轉(zhuǎn)換成公知表達方式,從而僅向接收機發(fā)送公知表達方式;接收機參照數(shù)據(jù)庫將所傳輸?shù)膱D象相互組合成一圖象。
全文摘要
一種圖象通信設備包括提取電路,用于從輸入的視頻數(shù)據(jù)中提取至少一部分視頻數(shù)據(jù);編碼器,用于分別對所提取的視頻數(shù)據(jù)和其余視頻數(shù)據(jù)進行編碼;和多路復用器,用于多路復用編碼的視頻數(shù)據(jù)。當對視頻數(shù)據(jù)編碼時,將預定編碼量分配給相應視頻數(shù)據(jù)。當通過具有低傳輸率的傳輸路徑進行圖象通信時,這種編碼方式能抑制圖象質(zhì)量劣化。
文檔編號H04N7/26GK1112326SQ9510510
公開日1995年11月22日 申請日期1995年4月13日 優(yōu)先權日1994年4月15日
發(fā)明者市毛健志, 今出宅哉, 西村龍志, 谷津田則夫, 栗山裕之, 織田真愉子 申請人:株式會社日立制作所