視頻會議裝置及其唇形同步的方法
【專利摘要】一種唇形同步的方法,執(zhí)行于視頻會議裝置。根據(jù)擷取的影像與聲音數(shù)據(jù)分析預(yù)定影像與預(yù)定聲音起始出現(xiàn)時間,計算起始出現(xiàn)時間差值,并根據(jù)所述時間差值調(diào)整視頻會議裝置所傳送之語音實時傳輸封包中的時間戳值。所述方法還提供用戶輸入微調(diào)值,根據(jù)所述微調(diào)值調(diào)整視頻會議裝置所接收之語音實時傳輸封包中的時間戳值。本發(fā)明還提供一種視頻會議裝置。本發(fā)明之視頻會議裝置及其唇形同步的方法,不論所述視頻會議裝置作為傳送端裝置或接收端裝置時,皆可以確保影像數(shù)據(jù)與關(guān)聯(lián)聲音數(shù)據(jù)的同步。
【專利說明】視頻會議裝置及其唇形同步的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻會議,尤其涉及一種視頻會議裝置及唇形同步的方法。
【背景技術(shù)】
[0002]視頻會議中,同時間在傳送終端擷取的影像數(shù)據(jù)及聲音數(shù)據(jù)必須在接收終端播放時保持同步關(guān)系,以達(dá)到所謂的唇形同步(Lip Synchronization)。
[0003]—般解決唇形同步的方法,在傳送終端利用實時傳輸協(xié)議(Real-time TransportProtocol,簡稱RTP)表頭中的時間戳(Time Stamp)值記載連續(xù)性影像數(shù)據(jù)及聲音數(shù)據(jù)的產(chǎn)生時間,在接收終端則根據(jù)時間戳值,對關(guān)聯(lián)的影像及聲音數(shù)據(jù)進(jìn)行同步控制。然而,所述方法可能受限于傳送終端或是接收終端裝置的處理器能力、或是硬件組件的偏差而導(dǎo)致時間戳不能如預(yù)期地被處理。
【發(fā)明內(nèi)容】
[0004]有鑒于此,需提供一種視頻會議裝置及其唇形同步的方法,增加用戶的可操作性,使得時間戳值可加以調(diào)整,保證唇形同步的結(jié)果。
[0005]本發(fā)明實施方式中提供一種唇形同步的方法,執(zhí)行于視頻會議裝置,所述視頻會議裝置包含儲存媒介及通信連接至所述視頻會議裝置的攝影機(jī)與麥克風(fēng),所述儲存媒介用于儲存通過所述攝影機(jī)與麥克風(fēng)所擷取并經(jīng)所述視頻會議裝置編碼壓縮的視頻流及音頻流,其中所述音頻流由所述視頻會議裝置封裝成語音實時傳輸協(xié)議封包且所述語音實時傳輸協(xié)議封包包含一時間戳值,所述方法包括下列步驟:通過所述攝影機(jī)擷取一預(yù)定影像;通過所述麥克風(fēng)擷取與所述預(yù)定影像同步播放的一預(yù)定聲音;分析所述預(yù)定影像于已儲存視頻流之第一起始出現(xiàn)時間;分析所述預(yù)定聲音于已儲存音頻流之第二起始出現(xiàn)時間;計算所述第一起始出現(xiàn)時間與所述第二起始出現(xiàn)時間的一時間差值;以及若所述第一起始出現(xiàn)時間早于所述第二起始出現(xiàn)時間,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值減去所述時間差值;若所述第一起始出現(xiàn)時間晚于所述第二起始出現(xiàn)時間,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值加上所述時間差值。
[0006]優(yōu)選地,所述預(yù)定影像包含閃光或連續(xù)性閃光的影像。
[0007]優(yōu)選地,所述預(yù)定聲音包含高分貝嗶聲、長嗶聲或連續(xù)性短嗶聲。
[0008]本發(fā)明實施方式中還提供一種唇形同步的方法,執(zhí)行于視頻會議裝置,所述視頻會議裝置包含儲存媒介,所述視頻會議裝置用于接收語音實時傳輸協(xié)議封包,所述語音實時傳輸協(xié)議封包包含一時間戳值,所述方法包括下列步驟:接收用戶輸入的微調(diào)值;儲存所述微調(diào)值于所述儲存媒介;以及根據(jù)已儲存的所述微調(diào)值調(diào)整所述視頻會議裝置所接收到之所述語音實時傳輸協(xié)議封包中的時間戳值,其中所述調(diào)整之方法為所述語音實時傳輸協(xié)議封包中的原始的時間戳值加上所述已儲存的微調(diào)值。
[0009]優(yōu)選地,用戶輸入的微調(diào)值以毫秒為單位。
[0010]優(yōu)選地,用戶輸入的微調(diào)值包含正值或負(fù)值。[0011]本發(fā)明實施方式中還提供一種唇形同步的方法,執(zhí)行于視頻會議裝置,所述視頻會議裝置包含儲存媒介,所述視頻會議裝置用于接收語音實時傳輸協(xié)議封包,所述語音實時傳輸協(xié)議封包包含一時間戳值,所述方法包括下列步驟:接收多個用戶輸入的多個微調(diào)值;儲存多個微調(diào)值于所述儲存媒介;計算已儲存之多個微調(diào)值的平均數(shù);儲存多個微調(diào)值的所述平均數(shù)于所述儲存媒介;以及根據(jù)已儲存的平均數(shù)調(diào)整所述視頻會議裝置所接收到之所述語音實時傳輸協(xié)議封包中的時間戳值,其中調(diào)整之方法為所述語音實時傳輸協(xié)議封包中的原始的時間戳值加上所述已儲存的平均數(shù)。
[0012]優(yōu)選地,多個用戶輸入的多個微調(diào)值以毫秒為單位。
[0013]優(yōu)選地,多個用戶輸入的多個微調(diào)值包含正值或負(fù)值。
[0014]本發(fā)明實施方式中提供的視頻會議裝置,包括:攝影機(jī),用于擷取預(yù)定影像;麥克風(fēng),用于擷取與所述預(yù)定影像同步播放的預(yù)定聲音;儲存媒介,用于儲存通過所述攝影機(jī)與麥克風(fēng)所擷取并經(jīng)所述視頻會議裝置編碼壓縮的視頻流及音頻流,其中所述音頻流由所述視頻會議裝置封裝成語音實時傳輸協(xié)議封包且所述語音實時傳輸協(xié)議封包包含時間戳值;
[0015]分析模塊,用于分析所述預(yù)定影像于已儲存視頻流之第一起始出現(xiàn)時間與所述預(yù)定聲音于已儲存音頻流之第二起始出現(xiàn)時間,并計算所述預(yù)定影像與所述預(yù)定聲音于視頻流及音頻流中的第一起始出現(xiàn)時間及第二起始出現(xiàn)時間的時間差值;以及調(diào)整模塊,用于當(dāng)所述第一起始出現(xiàn)時間早于所述第二起始出現(xiàn)時間時,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值減去所述時間差值,若所述第一起始出現(xiàn)時間晚于所述第二起始出現(xiàn)時間,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值加上所述時間差值。
[0016]利用所述唇形同步的方法,于所述視頻會議裝置作為傳送端裝置時,可以確保傳送之視頻流與音頻流的同步,所述視頻會議裝置作為接收端裝置時,可以根據(jù)用戶設(shè)定的微調(diào)值,調(diào)整音頻流的播放時間,以確保`播放時影像數(shù)據(jù)與關(guān)聯(lián)聲音數(shù)據(jù)的同步。
[0017]通過以下對【具體實施方式】詳細(xì)的描述結(jié)合附圖,將可輕易的了解所述內(nèi)容及此項發(fā)明之諸多優(yōu)點(diǎn)。
【專利附圖】
【附圖說明】
[0018]圖1為本發(fā)明一實施方式的視頻會議裝置的方塊圖。
[0019]圖2為本發(fā)明一實施方式中視頻會議裝置作為接收終端裝置時的唇形同步方法的流程圖。
[0020]圖3為本發(fā)明一實施方式中視頻會議裝置作為傳送終端裝置時的唇形同步方法的流程圖。
[0021]主要元件符號說明
[0022]視頻會議裝置100
[0023]處理器102
[0024]視頻編譯碼器104
[0025]音頻編譯碼器106
[0026]儲存媒介108[0027]用戶接口模塊110
[0028]校準(zhǔn)模塊112
[0029]分析模塊114
[0030]調(diào)整模塊116
[0031]攝影機(jī)120
[0032]麥克風(fēng)130
[0033]顯示設(shè)備140
[0034]揚(yáng)聲器150
【具體實施方式】
[0035]請參閱圖1,所示為本發(fā)明的一種實施方式中視頻會議裝置100的方塊圖,用戶可通過所述視頻會議裝置100與其他用戶之視頻會議裝置建立連線,進(jìn)行視頻會議。所述視頻會議裝置100可以包含處理器102、視頻編譯碼器104、音頻編譯碼器106、儲存媒介108、用戶接口模塊110、校準(zhǔn)模塊112、分析模塊114及調(diào)整模塊116。所述處理器102為所述視頻會議裝置100的中央處理器,可以由集成電路(Integrated Circuit,簡稱IC)組成,用于處理數(shù)據(jù)及執(zhí)行計算機(jī)程序。所述視頻編譯碼器104以及音頻編譯碼器106用于將原始的影像數(shù)據(jù)及其伴隨的聲音數(shù)據(jù)分別編碼壓縮后,通過網(wǎng)絡(luò)接口傳送,并將由網(wǎng)絡(luò)接口接收到的封包進(jìn)行譯碼還原成原始的影像數(shù)據(jù)及其伴隨的聲音數(shù)據(jù)。所述儲存媒介108可以是任何形式的計算機(jī)可讀取的儲存 媒介,包含揮發(fā)性和/或非揮發(fā)性形式之內(nèi)存,例如隨機(jī)存取內(nèi)存(Radom Access Memory,簡稱RAM)以及只讀存儲器(Read Only Memory,簡稱ROM)等。所述模塊11(T116可以用硬件電路實現(xiàn),亦可以用可編程硬設(shè)備實現(xiàn),還可以通過各種所述處理器102執(zhí)行的計算機(jī)程序?qū)崿F(xiàn)。為建立完整的視頻會議環(huán)境,所述視頻會議裝置100可以通信連接攝影機(jī)120及麥克風(fēng)130等捕獲設(shè)備,還可以通信連接顯示設(shè)備140及揚(yáng)聲器150等播放裝置。圖1僅作為舉例,在一實施方式中,所述視頻會議裝置100也可以包含捕獲設(shè)備以及播放裝置,亦即,將捕獲設(shè)備以及播放裝置整合至視頻會議裝置100。
[0036]所述視頻會議裝置100作為視頻會議的終端裝置可以是傳送終端,也可以是接收終端。所述視頻會議裝置100作為視頻會議的接收終端時,在一實施方式中,所述顯示設(shè)備140可以包含所述揚(yáng)聲器150,例如電視機(jī)。在另一實施方式中,所述顯示設(shè)備140與所述揚(yáng)聲器150也可以是分開獨(dú)立運(yùn)作的兩個裝置。所述視頻會議裝置100接收到視頻流及音頻流時,分別由所述視頻編譯碼器104與所述音頻編譯碼器106進(jìn)行譯碼解壓縮,再通過所述顯示設(shè)備140以及所述揚(yáng)聲器150播放。如此一來,可能因為譯碼解壓縮所需的處理時間不一致,或是所述顯示設(shè)備140與所述揚(yáng)聲器150為獨(dú)立的兩個裝置而導(dǎo)致不可預(yù)期的播放延遲,造成最終播放的影像數(shù)據(jù)與聲音數(shù)據(jù)不同步的情形。
[0037]為確保接收終端播放影像與聲音數(shù)據(jù)的同步,所述視頻會議裝置100作為接收終端裝置時,可以提供用戶針對時間戳值進(jìn)行微調(diào)的功能?,F(xiàn)在回到圖1,所述用戶接口模塊110用于提供用戶視頻會議的相關(guān)操作接口以及時間戳值微調(diào)的操作接口。其中時間戳值微調(diào)的操作接口提供用戶以毫秒為單位對時間戳值進(jìn)行增減。所述調(diào)整模塊116用于根據(jù)用戶所設(shè)定的微調(diào)值調(diào)整每一個接收到的語音RTP封包中之時間戳值。
[0038]請參閱圖2,所示為本發(fā)明一實施方式中視頻會議裝置100作為接收終端裝置時的唇形同步方法200的流程圖,所述唇形同步方法200可通過所述處理器102執(zhí)行圖1所示的模塊110及116而實現(xiàn)。在步驟S202中,開始視頻會議后,通過播放裝置(如所述顯示設(shè)備140及所述揚(yáng)聲器150)播放聲音及影像。在一實施方式中,所述顯示設(shè)備140可以包含所述揚(yáng)聲器150,例如電視機(jī)。在另一實施方式中,所述顯不設(shè)備140與所述揚(yáng)聲器150也可以是分開獨(dú)立運(yùn)作的兩個裝置。在步驟S204中,用戶判斷播放的影像及聲音數(shù)據(jù)是否同步。若用戶判斷播放的影像及關(guān)聯(lián)的聲音數(shù)據(jù)同步,則不需進(jìn)行時間戳值的微調(diào)。若用戶判斷播放的影像及關(guān)聯(lián)的聲音數(shù)據(jù)不同步,在步驟S206中,用戶可通過所述用戶接口模塊110輸入微調(diào)值。所述微調(diào)值的單位為毫秒,用以調(diào)整關(guān)聯(lián)聲音數(shù)據(jù)的播放時間,可為提前播放或延遲播放。具體來說,所述調(diào)整模塊116根據(jù)所述用戶輸入的微調(diào)值調(diào)整所述視頻會議裝置100所接收到的語音RTP封包之時間戳值。若所述微調(diào)值為正值,代表關(guān)聯(lián)聲音數(shù)據(jù)的播放時間應(yīng)延遲,則所述視頻會議裝置100將所接收到的語音RTP封包之時間戳值調(diào)整為原始時間戳值加上所述微調(diào)值。若所述微調(diào)值為負(fù)值,代表關(guān)聯(lián)聲音數(shù)據(jù)的播放時間應(yīng)提前,則所述視頻會議裝置100將所接收到的語音RTP封包之時間戳值調(diào)整為原始時間戳值加上所述微調(diào)值。在所述微調(diào)值為負(fù)值時,調(diào)整后的時間戳值實為原始時間戳值減去所述微調(diào)值的絕對值。所述步驟S204與S206可反復(fù)執(zhí)行,直到用戶對于影像與關(guān)聯(lián)的聲音數(shù)據(jù)之同步情形感到滿意,以確保影像與關(guān)聯(lián)的聲音數(shù)據(jù)于接收終端的播放同步。在一實施方式中,用戶最終輸入的微調(diào)值可儲存于所述儲存媒介108中,所述微調(diào)值可套用于所述視頻會議裝置100所接收到語音封包RTP的時間戳值的微調(diào)。在另一實施方式中,所述儲存媒介108可以儲存多個用戶的微調(diào)值,所述調(diào)整模塊116可以根據(jù)儲存的多個微調(diào)值的平均數(shù)進(jìn)行時間戳值之微調(diào),以彌補(bǔ)不同用戶間對于影音同步感受的差異性。
[0039]所述視頻會議裝置100作為視頻會議的傳送終端時,原始的影像與聲音數(shù)據(jù)是各別被所述攝影機(jī)120及所述麥克風(fēng)130所擷取,并由所述視頻編譯碼器104以及所述音頻編譯碼器106分別進(jìn)行編碼壓縮。如此一來,有可能因為捕獲設(shè)備的硬件組件處理能力不一致或編碼壓縮所需的處理時間不一致,導(dǎo)致在所述視頻編譯碼器104以及所述音頻編譯碼器106于視頻流及音頻流加入用于同步的時間戳值前,即存在有影像數(shù)據(jù)與伴隨的聲音數(shù)據(jù)不同步的情形。
[0040]為確保傳送終端所傳送之視頻流以及音頻流的同步,所述視頻會議裝置100作為傳送終端裝置時,可以提供自動校準(zhǔn)的功能。所述用戶接口模塊110用于提供用戶視頻會議的相關(guān)操作接口以及執(zhí)行自動校準(zhǔn)功能的操作接口。當(dāng)視頻會議開始后,用戶可以通過操作所述用戶接口模塊110,執(zhí)行傳送終端自動校準(zhǔn)功能。所述預(yù)定影像用于所述視頻會議裝置100自動校準(zhǔn)時之參考,可以是閃光或是連續(xù)性閃光的影像。所述預(yù)定聲音用于所述視頻會議裝置100自動校準(zhǔn)時之參考,可以是高分貝嗶聲、長嗶聲或連續(xù)性短嗶聲。所述預(yù)定影像于所述顯示設(shè)備140與所述預(yù)定聲音于所述揚(yáng)聲器150同步播放。在不同的實施方式中,可以使用一校準(zhǔn)裝置同步播放所述預(yù)定影像與所述預(yù)定聲音,所述校準(zhǔn)裝置可以與所述視頻會議裝置100電氣連接或通信連接,通過所述用戶接口模塊110控制所述預(yù)定影像與所述預(yù)定聲音的同步播放。所述校準(zhǔn)裝置也可以是一獨(dú)立運(yùn)作的裝置,通過設(shè)置開關(guān)、按鍵、按鈕或觸摸屏等操作接口,提供用戶控制所述預(yù)定影像與所述預(yù)定聲音的同步播放。所述預(yù)定影像與所述預(yù)定聲音由所述攝影機(jī)120與所述麥克風(fēng)130擷取后,分別由所述視頻編譯碼器104以及所述音頻編譯碼器106進(jìn)行編碼壓縮成視頻流及音頻流,并儲存于所述儲存媒介108。所述分析模塊114用于從儲存于所述儲存媒介108的視頻流中分析所述預(yù)定影像的第一起始出現(xiàn)時間及音頻流中分析所述預(yù)定聲音的第二起始出現(xiàn)時間,并計算所述預(yù)定影像與所述預(yù)定聲音于視頻流及音頻流中的第一起始出現(xiàn)時間及第二起始出現(xiàn)時間的時間差值。所述調(diào)整模塊116用于根據(jù)所述時間差值,調(diào)整封裝音頻流之RTP封包中的時間戳值,以確保視頻流與音頻流于傳送終端的同步。
[0041]請參閱圖3,所示為本發(fā)明一實施方式中視頻會議裝置100作為傳送終端裝置時之唇形同步方法300的流程圖,所述唇形同步方法300可通過所述處理器102執(zhí)行圖1所示的模塊11(T116而實現(xiàn)。用戶首先通過所述用戶接口模塊110啟動所述攝影機(jī)120與所述麥克風(fēng)130,用于擷取影像與聲音數(shù)據(jù)。在步驟S302中,用戶可以通過所述用戶接口模塊110,執(zhí)行傳送終端自動校準(zhǔn)功能,使所述自動校準(zhǔn)模塊112傳送預(yù)定的視頻信號與音頻信號給所述顯示設(shè)備140以及所述揚(yáng)聲器150,用于同時播放預(yù)定影像與預(yù)定聲音。所述預(yù)定影像作為分析唇形不同步之參考,不同于一般視頻會議的影像,可以是閃光或是連續(xù)性閃光的影像。所述預(yù)定聲音作為分析唇形不同步之參考,可以是高分貝嗶聲、長嗶聲或連續(xù)性短嗶聲。所述視頻會議裝置100執(zhí)行傳送終端自動校準(zhǔn)功能前,可以先進(jìn)行視頻會議裝置100作為接收終端裝置時的唇形同步方法200,以確保所述預(yù)定影像與所述預(yù)定聲音的同步播放。在另一實施方式中,所述視頻會議裝置100可以電氣連接或通信連接于校準(zhǔn)裝置,所述校準(zhǔn)裝置用于同步播放所述預(yù)定影像與所述預(yù)定聲音。用戶可以通過所述用戶接口模塊110,使所述自動校準(zhǔn)模塊112傳送控制信號給所述校準(zhǔn)模塊進(jìn)行所述預(yù)定影像與所述預(yù)定聲音的同步播放。在不同的實施方式中,所述校準(zhǔn)裝置也可以獨(dú)立于所述視頻會議裝置100而運(yùn)作,所述校準(zhǔn)裝置可以設(shè)置開關(guān)、按鍵、按鈕或觸摸屏等用戶接口,用戶可以通過操作所述開關(guān)、按鍵、按鈕或觸摸屏等用戶接口控制所述校準(zhǔn)裝置同步播放所述預(yù)定影像與所述預(yù)定聲音。在步驟S304中,所述預(yù)定影像與所述預(yù)定聲音通過所述攝影機(jī)120與所述麥克風(fēng)130擷取后,分別由所述視頻編譯碼器104與所述音頻編譯碼器106進(jìn)行編碼壓縮成視頻流及音頻流并儲存于所述儲存媒介108。在步驟S306中,所述分析模塊114分析儲存于所述儲存媒介108中的視頻流中分析所述預(yù)定影像的第一起始出現(xiàn)時間及音頻流中分析所述預(yù)定聲音的第二起始出現(xiàn)時間,并計算所述預(yù)定影像與所述預(yù)定聲音于視頻流及音頻流中的第一起始出現(xiàn)時間及第二起始出現(xiàn)時間的時間差值并儲存于所述儲存媒介108。在步驟S308中,所述調(diào)整模塊116根據(jù)所述分析模塊114分析計算而得的時間差值,調(diào)整封裝音頻流之RTP封包中的時間戳值。舉例來說,若所述預(yù)定影像于已儲存視頻流之第一起始出現(xiàn)時間晚于所述預(yù)定聲音于已儲存音頻流之第二起始出現(xiàn)時間,則所述調(diào)整模塊116調(diào)整封裝語音流之RTP封包中的時間戳值為原始的時間戳值加上所述分析模塊114計算所得的時間差值。若所述預(yù)定影像于已儲存視頻流之第一起始出現(xiàn)時間早于所述預(yù)定聲音于已儲存音頻流之第二起始出現(xiàn)時間,則所述調(diào)整模塊116調(diào)整封裝語音流之RTP封包中的時間戳值為原始的時間戳值減去所述分析模塊114計算所得的時間差值。通過步驟S308調(diào)整每一個所述視頻會議裝置100欲傳送的語音RTP封包中的時間戳值,以確保視頻流與音頻流于傳送終端的同步。
[0042]本發(fā)明之唇形同步的方法,不論所述視頻會議裝置100作為接收端裝置或傳送端裝置時,皆可以確保影像數(shù)據(jù)與關(guān)聯(lián)聲音數(shù)據(jù)的同步。
【權(quán)利要求】
1.一種唇形同步的方法,執(zhí)行于視頻會議裝置,所述視頻會議裝置包含儲存媒介及通信連接至所述視頻會議裝置的攝影機(jī)與麥克風(fēng),所述儲存媒介用于儲存通過所述攝影機(jī)與所述麥克風(fēng)所擷取并經(jīng)所述視頻會議裝置編碼壓縮的視頻流及音頻流,其中所述音頻流由所述視頻會議裝置封裝成語音實時傳輸協(xié)議封包且所述語音實時傳輸協(xié)議封包包含時間戳值,其特征在于,所述方法包括下列步驟: 通過所述攝影機(jī)擷取預(yù)定影像; 通過所述麥克風(fēng)擷取與所述預(yù)定影像同步播放的預(yù)定聲音; 分析所述預(yù)定影像于已儲存視頻流之第一起始出現(xiàn)時間; 分析所述預(yù)定聲音于已儲存音頻流之第二起始出現(xiàn)時間; 計算所述第一起始出現(xiàn)時間與所述第二起始出現(xiàn)時間的時間差值;以及若所述第一起始出現(xiàn)時間早于所述第二起始出現(xiàn)時間,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值減去所述時間差值; 若所述第一起始出現(xiàn)時間晚于所述第二起始出現(xiàn)時間,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值加上所述時間差值。
2.如權(quán)利要求1所述之唇形同步的方法,其特征在于,所述預(yù)定影像包含閃光或連續(xù)性閃光的影像。
3.如權(quán)利要求1所述之 唇形同步的方法,其特征在于,所述預(yù)定聲音包含高分貝嗶聲、長嗶聲或連續(xù)性短嗶聲。
4.一種唇形同步的方法,執(zhí)行于視頻會議裝置,所述視頻會議裝置包含儲存媒介,所述視頻會議裝置用于接收語音實時傳輸協(xié)議封包,所述語音實時傳輸協(xié)議封包包含時間戳值,其特征在于,所述方法包括下列步驟: 接收用戶輸入的微調(diào)值; 儲存所述微調(diào)值于所述儲存媒介;以及 根據(jù)已儲存的所述微調(diào)值調(diào)整所述視頻會議裝置所接收到之所述語音實時傳輸協(xié)議封包中的時間戳值,其中所述調(diào)整之方法為所述語音實時傳輸協(xié)議封包中的原始的時間戳值加上所述已儲存的微調(diào)值。
5.如權(quán)利要求4所述之唇形同步的方法,其特征在于,所述用戶輸入的微調(diào)值以毫秒為單位。
6.如權(quán)利要求4所述之唇形同步的方法,其特征在于,所述用戶輸入的微調(diào)值包含正值或負(fù)值。
7.一種唇形同步的方法,執(zhí)行于視頻會議裝置,所述視頻會議裝置包含儲存媒介,所述視頻會議裝置用于接收語音實時傳輸協(xié)議封包,所述語音實時傳輸協(xié)議封包包含時間戳值,其特征在于,所述方法包括下列步驟: 接收多個用戶輸入的多個微調(diào)值; 儲存所述多個微調(diào)值于所述儲存媒介; 計算已儲存之多個微調(diào)值的平均數(shù); 儲存多個微調(diào)值的所述平均數(shù)于所述儲存媒介;以及 根據(jù)已儲存的所述平均數(shù)調(diào)整所述視頻會議裝置所接收到之所述語音實時傳輸協(xié)議封包中的時間戳值,其中調(diào)整之方法為所述語音實時傳輸協(xié)議封包中的原始的時間戳值加上所述已儲存的平均數(shù)。
8.如權(quán)利要求7所述之唇形同步的方法,其特征在于,所述多個用戶輸入的多個微調(diào)值以毫秒為單位。
9.如權(quán)利要求8所述之唇形同步的方法,其特征在于,所述多個用戶輸入的多個微調(diào)值包含正值或負(fù)值。
10.一種視頻會議裝置,其特征在于,包括: 攝影機(jī),用于擷取預(yù)定影像; 麥克風(fēng),用于擷取與所述預(yù)定影像同步播放的預(yù)定聲音; 儲存媒介,用于儲存通過所述攝影機(jī)與麥克風(fēng)所擷取并經(jīng)所述視頻會議裝置編碼壓縮的視頻流及音頻流,其中所述音頻流由所述視頻會議裝置封裝成語音實時傳輸協(xié)議封包且所述語音實時傳輸協(xié)議封包包含時間戳值; 分析模塊,用于分析所述預(yù)定影像于已儲存視頻流之第一起始出現(xiàn)時間與所述預(yù)定聲音于已儲存音頻流之第二起始出現(xiàn)時間,并計算所述預(yù)定影像與所述預(yù)定聲音于視頻流及音頻流中的第一起始出現(xiàn)時間及第二起始出現(xiàn)時間的時間差值;以及 調(diào)整模塊,用于當(dāng)所述第一起始出現(xiàn)時間早于所述第二起始出現(xiàn)時間時,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值減去所述時間差值,若所述第一起始出現(xiàn)時間晚于所述第二起始出現(xiàn)時間,則將所述語音實時傳輸協(xié)議封包之時間戳值調(diào)整為原始時間戳值加上所述時間差值。`
【文檔編號】H04N7/56GK103517044SQ201210210446
【公開日】2014年1月15日 申請日期:2012年6月25日 優(yōu)先權(quán)日:2012年6月25日
【發(fā)明者】粟紀(jì)中 申請人:鴻富錦精密工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司