專利名稱:再現(xiàn)運(yùn)動圖像的方法和通信裝置及在視頻會議系統(tǒng)的使用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于再現(xiàn)運(yùn)動圖像的方法和通信裝置,此運(yùn)動圖像一方面是由攝像頭捕獲的一系列圖像構(gòu)成的,另一方面是由與所述圖像同時捕獲的單聲道聲音構(gòu)成的。
背景技術(shù):
在配有顯示器和揚(yáng)聲器的經(jīng)典通信裝置上再現(xiàn)運(yùn)動圖像時,存在的問題是,觀看該運(yùn)動圖像的人不能正確識別顯示圖像上的哪些區(qū)域?qū)?yīng)這些聲音。
然而,對于人們重要的是,能夠?qū)⒙牭降穆曇艉屯瑫r看到的畫面在空間上關(guān)聯(lián)起來,以便完全理解當(dāng)時的情景。
前面提到的問題主要?dú)w因于所捕獲的聲音是單聲道的。
解決這個問題的一種可能方案是,在捕獲運(yùn)動圖像時使用具有多個麥克風(fēng)的多音軌編碼系統(tǒng),以及在再現(xiàn)所述運(yùn)動圖像的通信裝置中為聲音使用多個信道。然而,這種解決方案又出現(xiàn)幾個其他的問題—首先,這是一種昂貴的解決方案,因為錄音機(jī)必須配備幾個麥克風(fēng);—另外,使用多信道意味著需要極大地增加帶寬;—這種解決方案不能用于標(biāo)準(zhǔn)的使用單聲道聲音的場合(例如視頻會議系統(tǒng)),或者在移動電話(“移動電視”)上傳輸電視節(jié)目的場合。
發(fā)明內(nèi)容
本發(fā)明的目的在于,通過提出一種廉價的解決方案,其能夠很好地再現(xiàn)運(yùn)動圖像,盡管此運(yùn)動圖像是由單聲道聲音構(gòu)成的,來補(bǔ)救前述缺陷。
出于這個目的,本發(fā)明提供了一種用于再現(xiàn)運(yùn)動圖像的方法,其中該運(yùn)動圖像一方面由攝像頭捕獲的一系列圖像構(gòu)成,另一方面由與所述圖像同時捕獲的單聲道聲音構(gòu)成,其特征在于,包括下列步驟—通過分析連續(xù)圖像來確定在將被再現(xiàn)的所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域(zone in motion)的空間位置;—將所述運(yùn)動區(qū)域識別為對應(yīng)于發(fā)出聲音的源;—在顯示器上再現(xiàn)所述一系列圖像并使得聲音對應(yīng)到至少一個左揚(yáng)聲器和一個右揚(yáng)聲器上,同時將作為所述空間位置的函數(shù)的至少3D音效施加到所述聲音。
在一個可能的實施例中,確定所述至少一個運(yùn)動區(qū)域的空間位置的步驟可以進(jìn)一步包括步驟對比連續(xù)圖像并在對應(yīng)于顯示圖像的2D參考系中確定所述區(qū)域的至少兩個坐標(biāo)。
另外,確定在所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置的所述步驟可以包括步驟檢測在所述運(yùn)動圖像中捕獲的人嘴的活動,以及確定對應(yīng)于檢測到的嘴的活動的區(qū)域的空間位置。
將3D音效施加到聲音的步驟在于使得所述左右揚(yáng)聲器的相對增益作為所述空間位置的函數(shù),和/或使得所述左右揚(yáng)聲器的相對相位和時間延遲作為所述空間位置的函數(shù),和/或使得所述左和/或右揚(yáng)聲器的頻率增益作為所述空間位置的函數(shù)。
本發(fā)明的另一個目的涉及前述任一種方法在視頻會議系統(tǒng)中的使用,其特征在于,所述將被再現(xiàn)的運(yùn)動圖像已經(jīng)被視頻會議發(fā)射機(jī)所捕獲,所述視頻會議發(fā)射機(jī)包括所述攝像頭和用于捕獲單聲道聲音的麥克風(fēng),以及在于,在包括所述顯示器和所述左右揚(yáng)聲器的視頻會議接收機(jī)的層次進(jìn)行通過所述再現(xiàn)步驟確定空間位置的所述步驟。
本發(fā)明的第三個目的在于,提供一種用于再現(xiàn)運(yùn)動圖像的通信裝置,其包括顯示器、至少一個左揚(yáng)聲器和一個右揚(yáng)聲器,其中該運(yùn)動圖像一方面由攝像頭捕獲的一系列圖像構(gòu)成,另一方面由與所述圖像同時捕獲的單聲道聲音構(gòu)成,其特征在于,進(jìn)一步包括軟件單元,其用于
—通過分析連續(xù)圖像來確定在將被再現(xiàn)的所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置;—將所述運(yùn)動區(qū)域識別為對應(yīng)于發(fā)出聲音的源;—在所述顯示器上再現(xiàn)所述一系列圖像并使得聲音對應(yīng)到所述左和右揚(yáng)聲器,同時將作為所述空間位置的函數(shù)的至少3D音效施加到所述聲音。
從僅借助于非限制性實例以及參照附圖對本發(fā)明的以下描述中,本發(fā)明的特點和優(yōu)點是很明顯的,其中圖1示意性地示出了視頻會議系統(tǒng),其具有發(fā)射機(jī)和接收機(jī),執(zhí)行根據(jù)本發(fā)明的方法;圖2示意性地示出了根據(jù)本發(fā)明的一個可能實施例中的通信裝置,例如圖1的視頻會議接收機(jī)。
具體實施例方式
以下將在視頻會議的具體情況下描述本發(fā)明。然而,本發(fā)明也能用于所捕獲的與運(yùn)動圖像關(guān)聯(lián)的聲音是單聲道的其他領(lǐng)域。
在圖1的左部示出了用于捕獲將被再現(xiàn)的運(yùn)動圖像的視頻會議系統(tǒng)的視頻會議發(fā)射機(jī)1。發(fā)射機(jī)1包括用于捕獲情景(scene)作為一系列圖像的攝像頭10,以及用于捕獲單聲道聲音的麥克風(fēng)11。
這個情景是由桌子T前面的三個人P1、P2和P3構(gòu)成的。
如此獲得的運(yùn)動圖像然后被經(jīng)由無線鏈路L發(fā)送到遠(yuǎn)程接收機(jī)2。然而,這種發(fā)送也可以經(jīng)由有線鏈路進(jìn)行。
接收機(jī)2是通信裝置,其包括顯示器20和至少兩個揚(yáng)聲器,在顯示器上將顯示由攝像頭10捕獲的一系列圖像,所述揚(yáng)聲器是左揚(yáng)聲器21和右揚(yáng)聲器22,它們在該裝置上的位置導(dǎo)致產(chǎn)生立體聲效果。
現(xiàn)在讓我們假設(shè),在圖1左部的捕獲的情景中,P3正在講話。按照本發(fā)明的方法,通信裝置2能夠在顯示器20上再現(xiàn)這個情景并使聲音對應(yīng)于揚(yáng)聲器21和22,同時在所述聲音上應(yīng)用3D音效,這樣在人們在觀看在裝置2上再現(xiàn)的攝像頭圖像時就能知道聽到的聲音來自在顯示器20的右部看到的P3。這些都是可由裝置2的軟件單元23實現(xiàn)的,該軟件單元按照以下步驟執(zhí)行本發(fā)明的方法—通過分析連續(xù)圖像來確定將被再現(xiàn)的所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置;在示出的例子中,這將對應(yīng)于諸如對被捕獲的人P1到P3的嘴的活動的檢測以及對這些檢測到的活動的空間位置的確定。由于只有P3在講話,因此將在顯示器20上顯示的圖像的相應(yīng)區(qū)域上檢測到嘴的活動。這個步驟包括在與所顯示的圖像相對應(yīng)的2D參考系上確定所述區(qū)域的至少兩個坐標(biāo)??蛇x地,這個步驟包括給出空間位置(例如該圖像的右側(cè))的指示;—將所述運(yùn)動區(qū)域識別為對應(yīng)于發(fā)出聲音的源;在示出的例子中,由于只有P3在講話,這很自然地導(dǎo)致認(rèn)為與P3相對應(yīng)的區(qū)域就是所聽到的聲音的源。在前述步驟中檢測到的多個區(qū)域的情況下,為了選擇最可能是所聽到的聲音的源的區(qū)域,有必要應(yīng)用一些規(guī)則;—在顯示器20上再現(xiàn)所述系列圖像并使得聲音對應(yīng)于左揚(yáng)聲器21和右揚(yáng)聲器22,同時將作為所述空間位置的函數(shù)的至少3D音效應(yīng)用到所述聲音。在當(dāng)前情景中,觀看者必須有聲音來自右邊的感覺,這與看到的圖像是真實空間相關(guān)的。
圖2給出了通信裝置的一些細(xì)節(jié),例如圖1所示的視頻會議接收機(jī)2經(jīng)由鏈路L發(fā)送的運(yùn)動圖像被在接收器25上經(jīng)由天線24接收。假設(shè)在發(fā)射機(jī)側(cè)的音頻和視頻信號在空中發(fā)送之前以相關(guān)的文件格式已經(jīng)首先進(jìn)行了編碼、壓縮和復(fù)用,由接收機(jī)25接收的音視頻文件必須在分用器26中被經(jīng)典地解復(fù)用,然后分別被音頻解碼器27和視頻解碼器28解壓縮和解碼,以傳送音頻和視頻信號。按照本發(fā)明的方法,通過活動檢測器和定位器模塊230,也能夠處理視頻信號,該定位器模塊傳送所分析的圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置信息。此信息被提供給3D音效模塊31,該模塊31也接收來自音頻解碼器27的音頻信號,并施加作為空間位置信息的函數(shù)的3D音效。具有給定3D音效的聲音然后被通過功率放大器29傳送到相應(yīng)的揚(yáng)聲器21和22。與此同步,在顯示器20上顯示視頻信號。同步的機(jī)制在此并沒有被詳細(xì)說明,這是因為本領(lǐng)域技術(shù)人員應(yīng)當(dāng)知道如何使得顯示圖像與聲音同步,而無論是否對視頻信號和音頻信號分別作出處理。
第一個可能的3D音效在于使得左右揚(yáng)聲器的相對增益作為所述空間位置的函數(shù)。
可選地或者相結(jié)合,其在于使左右揚(yáng)聲器的相對相位和時間延遲作為所述空間位置的函數(shù)。
可選地或者相結(jié)合,其在于使左和/或右揚(yáng)聲器的頻率增益作為所述空間位置的函數(shù)。
根據(jù)本發(fā)明的方法也能夠用于其他不同的源和情景(例如自然情景中的活動的檢測,或者利用任何物體的運(yùn)動以及根據(jù)圖像內(nèi)的活動來聚焦聲音)。
權(quán)利要求
1.一種再現(xiàn)運(yùn)動圖像的方法,其中所述運(yùn)動圖像一方面由攝像頭(10)捕獲的一系列圖像構(gòu)成,另一方面由與所述圖像同時捕獲的單聲道聲音構(gòu)成,其特征在于,所述方法包括下列步驟通過分析連續(xù)圖像來確定在將被再現(xiàn)的所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置;將所述運(yùn)動區(qū)域識別為對應(yīng)于發(fā)出聲音的源(P3);在顯示器(20)上再現(xiàn)所述一系列圖像并使得聲音對應(yīng)到至少一個左揚(yáng)聲器(21)和一個右揚(yáng)聲器(22),同時將作為所述空間位置的函數(shù)的至少3D音效施加到所述聲音。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述至少一個運(yùn)動區(qū)域的空間位置的所述步驟進(jìn)一步包括對比連續(xù)圖像并在對應(yīng)于顯示圖像的2D參考系中確定所述區(qū)域的至少兩個坐標(biāo)。
3.根據(jù)前述權(quán)利要求中任何一個所述的方法,其特征在于,確定在所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置的所述步驟包括檢測在所述運(yùn)動圖像中捕獲的人嘴的活動,以及確定對應(yīng)于檢測到的嘴的活動的區(qū)域的空間位置。
4.根據(jù)前述權(quán)利要求中任何一個所述的方法,其特征在于,將至少3D音效施加到所述聲音,至少在于,使得所述左右揚(yáng)聲器(21,22)的相對增益作為所述空間位置的函數(shù)。
5.根據(jù)前述權(quán)利要求中任何一個所述的方法,其特征在于,將至少3D音效施加到所述聲音,至少在于,使得所述左右揚(yáng)聲器(21,22)的相對相位和時間延遲作為所述空間位置的函數(shù)。
6.根據(jù)前述權(quán)利要求中任何一個所述的方法,其特征在于,將至少3D音效施加到所述聲音,至少在于,使得所述左和/或右揚(yáng)聲器(21,22)的頻率增益作為所述空間位置的函數(shù)。
7.根據(jù)前述權(quán)利要求中任何一個所述的方法在視頻會議系統(tǒng)中的使用,其特征在于,所述將被再現(xiàn)的運(yùn)動圖像已經(jīng)被視頻會議發(fā)射機(jī)(1)所捕獲,所述視頻會議發(fā)射機(jī)包括所述攝像頭(10)和用于捕獲單聲道聲音的麥克風(fēng)(11);以及在于,在包括所述顯示器(20)和所述左右揚(yáng)聲器(21,22)的視頻會議接收機(jī)的層次上進(jìn)行通過所述再現(xiàn)步驟來確定空間位置的所述步驟。
8.一種用于再現(xiàn)運(yùn)動圖像的通信裝置(2),包括顯示器(20)、至少一個左揚(yáng)聲器(21)和一個右揚(yáng)聲器(22),其中所述運(yùn)動圖像一方面由攝像頭(10)捕獲的一系列圖像構(gòu)成,另一方面由與所述圖像同時捕獲的單聲道聲音構(gòu)成,其特征在于,所述通信裝置進(jìn)一步包括軟件單元(23),其用于通過分析連續(xù)圖像來確定在將被再現(xiàn)的所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置;將所述運(yùn)動區(qū)域識別為對應(yīng)于發(fā)出聲音的源;在所述顯示器(20)上再現(xiàn)所述一系列圖像并使得聲音對應(yīng)到所述左和右揚(yáng)聲器(21,22),同時將作為所述空間位置的函數(shù)的至少3D音效施加到所述聲音。
9.根據(jù)權(quán)利要求8所述的通信裝置,其特征在于,其進(jìn)一步包括接收單元(25),其用于從捕獲所述運(yùn)動圖像的遠(yuǎn)程發(fā)射機(jī)(1)接收所述將被再現(xiàn)的運(yùn)動圖像。
10.根據(jù)權(quán)利要求9所述的通信裝置,其特征在于,所述通信裝置構(gòu)成視頻會議系統(tǒng)的一部分,所述接收單元適合于接收由所述視頻會議系統(tǒng)的遠(yuǎn)程視頻會議發(fā)射機(jī)所捕獲的運(yùn)動圖像。
全文摘要
本發(fā)明涉及一種用于再現(xiàn)運(yùn)動圖像的方法,該運(yùn)動圖像由一系列圖像和單聲道聲音構(gòu)成,該方法包括以下步驟通過分析連續(xù)圖像來確定將被再現(xiàn)的所述運(yùn)動圖像內(nèi)的至少一個運(yùn)動區(qū)域的空間位置;將所述運(yùn)動區(qū)域識別為對應(yīng)于發(fā)出聲音的源(P3);以及在顯示器(20)上再現(xiàn)所述一系列圖像并使得聲音對應(yīng)到至少一個左揚(yáng)聲器(21)和一個右揚(yáng)聲器(22),同時將作為所述空間位置的函數(shù)的至少3D音效施加到所述聲音。應(yīng)用于視頻會議、移動電視。
文檔編號H04N7/24GK1984310SQ20061017292
公開日2007年6月20日 申請日期2006年11月8日 優(yōu)先權(quán)日2005年11月8日
發(fā)明者V·隆巴, S·杜弗斯 申請人:Tcl通訊科技控股有限公司