專利名稱:圖像聲音通信裝置以及其通信方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像聲音通信裝置以及其通信方法,尤其涉及用于進行視頻會議 的圖像聲音通信裝置以及其通信方法。
背景技術(shù):
近幾年,隨著ADSL (Asymmetric Digital Subscriber line 非對稱數(shù)字用戶線 路)以及光纖網(wǎng)絡(luò)的迅速普及,能夠利用低價格的高速的互聯(lián)網(wǎng)連接。此外,通過利用這樣 低價格的高速互聯(lián)網(wǎng)來進行遠距離的據(jù)點間的影像聲音數(shù)據(jù)的雙方向傳輸,從而也能夠簡 單地建立視頻會議系統(tǒng)。并且,作為能夠建立的視頻會議系統(tǒng),存在面對感且臨場感強的視頻會議系統(tǒng), 例如,由于能夠以HD(High Definition:高清晰度)分辨率拍攝的攝像機的出現(xiàn)和以 PDP(Plasma Display Panel 等離子顯示板)為代表的顯示器的大型化,從而能夠在大畫面 的顯示屏上顯示等身大的人物等。在這樣存在面對感且臨場感強的大畫面視頻會議系統(tǒng)中,例如在1920X1080像 素的全高清(full HD)中能夠?qū)⒚棵?0幀的高清晰的運動平穩(wěn)的影像以等身大進行顯示。 因此,影像的中斷或者聲音的中斷會導(dǎo)致品質(zhì)的劣化。此外,與影像聲音的單方向的傳播不同,在視頻會議裝置系統(tǒng)中進行影像聲音的 雙方向通信,但是,卻不能使作為發(fā)送終端的視頻會議裝置和作為接收終端的視頻會議終 端的系統(tǒng)時鐘同步。因此,視頻會議裝置會出現(xiàn)以下問題,即作為接收終端的視頻會議裝置雖然按 照由作為發(fā)送終端的視頻會議裝置方向每個數(shù)據(jù)包賦予的時間標記,來進行AV(Audic) Video 音頻/視頻)的再生,但是,由于發(fā)送終端和接收終端的系統(tǒng)時鐘不同步,因此,出現(xiàn) 再生時刻發(fā)生的不一致的情況。在例如接收終端方的視頻會議裝置中的系統(tǒng)時鐘比作為發(fā)送終端方的視頻會議 裝置中的系統(tǒng)時鐘快(提前)的情況下,在接收終端方的視頻會議裝置中AV再生定時比作 為發(fā)送終端方的視頻會議裝置快,因此,就會出現(xiàn)再生數(shù)據(jù)不足(下溢)的狀態(tài)。相反,在 例如接收終端方的視頻會議裝置中的系統(tǒng)時鐘比作為發(fā)送終端方的視頻會議裝置中的系 統(tǒng)時鐘慢(遲延)的情況下,在接收終端方的視頻會議裝置中AV生成定時比作為發(fā)送終端 方的視頻會議裝置慢,因此,就會出現(xiàn)再生數(shù)據(jù)累積(上溢)的狀態(tài)。在以往的技術(shù)中公開了用于對應(yīng)以上情況的視頻會議裝置(參照下述專利文獻 1。)。在此視頻會議裝置中,需要根據(jù)被輸入的流中的時間標記和自動時間標記之間的時 刻差,計算輸入時間標記的精度,并且,在計算出的精度的誤差在范圍之外的情況下,對圖 像數(shù)據(jù)進行跳過或重播的控制。由此,對再生的圖像數(shù)據(jù)進行校正。[專利文獻1]日本國特開2004-15553號公報然而,在所述專利文獻1中所公開的以視頻會議終端來構(gòu)成的存在面對感且臨場 感強的視頻會議系統(tǒng)中,若例如對幀的跳過或幀的重播等圖像數(shù)據(jù)的跳過或重播進行控制,就會例如在會話中出現(xiàn)影像暫時停止以及圖像暫時中斷的現(xiàn)象。也就是說,專利文獻1 所公開的視頻會議終端出現(xiàn)如下情況,即雖然能夠抑制發(fā)送終端和接收終端的再生時刻發(fā) 生不一致的現(xiàn)象,但是,會導(dǎo)致影像的中斷等品質(zhì)的劣化。如上所述,在專利文獻1所公開的視頻會議終端中,由于品質(zhì)的劣化,會導(dǎo)致通信 受到阻礙,因此,作為以存在面對感且臨場感強的視頻會議系統(tǒng)所代表的通信用途來適用 是不適當(dāng)?shù)摹?br>
發(fā)明內(nèi)容
于是,鑒于所述內(nèi)容,本發(fā)明的目的在于提供一種圖像聲音通信裝置以及其通信 方法,能夠針對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。為了實現(xiàn)上述目的,本發(fā)明涉及的圖像聲音通信裝置為一種圖像聲音通信裝置, 其中包括收發(fā)部,經(jīng)由網(wǎng)絡(luò),收發(fā)圖像以及聲音;定時判斷部,根據(jù)由所述收發(fā)部發(fā)送的 聲音的內(nèi)容、由所述收發(fā)部接收的圖像的內(nèi)容、或由所述收發(fā)部接收的聲音的內(nèi)容,判斷應(yīng) 更新該接收的圖像或接收的聲音的顯示時間標記(presentation Time Stamp :PTS)的校正 量的定時;顯示時間標記校正部,通過在由所述定時判斷部所判斷的定時,更新該接收的圖 像或接收的聲音的顯示時間標記的校正量,從而校正該顯示時間標記;以及圖像聲音輸出 部,輸出與已被校正的顯示時間標記相對應(yīng)的該接收的圖像以及接收的聲音,所述已被校 正的顯示時間標記是所述圖像聲音通信裝置所示出的與當(dāng)前時刻相對應(yīng)的顯示時間標記。根據(jù)此構(gòu)成,能夠判斷用戶很難認識到的定時,并輸出在判斷出的定時上進行了 PTS校正的圖像或聲音。因此,能夠針對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘 不一致的現(xiàn)象。并且,可以是,所述圖像聲音通信裝置還包括用戶輸入部,該用戶輸入部通過用戶 操作輸入用戶操作信息,所述定時判斷部,在被輸入到所述用戶輸入部的用戶操作信息表 示是伴有所述接收的圖像的畫面配置變更的用戶操作的情況下,將伴有該畫面配置變更的 用戶操作的定時判斷為應(yīng)更新所述校正量的定時。根據(jù)此構(gòu)成,在變更畫面配置的定時上進行圖像的PTS校正,從而能夠進行例如 幀的跳過等圖像的PTS校正,而使用戶很難察覺到。因此,能夠針對用戶不產(chǎn)生圖像/聲音 的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。并且,也可以是,所述定時判斷部,在由所述收發(fā)部接收的圖像與在時間上處于該 接收的圖像之前的圖像之間的相關(guān)值比預(yù)先設(shè)定的閾值大的情況下,將所述圖像聲音輸出 部輸出該接收的圖像的定時判斷為應(yīng)更新所述校正量的定時。根據(jù)此構(gòu)成,在顯示的畫面的時間相關(guān)性高且畫面內(nèi)的運動少的定時上進行圖像 的PTS校正,從而能夠進行例如幀的跳過或者幀的重播等的圖像的PTS校正,而使用戶很難 察覺到。因此,能夠針對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。并且,也可以是,所述定時判斷部,在由所述收發(fā)部接收的圖像的數(shù)據(jù)量比預(yù)先設(shè) 定的閾值小的情況下,將所述圖像聲音輸出部輸出所述接收的圖像的定時判斷為應(yīng)更新所 述校正量的定時。根據(jù)此構(gòu)成,在預(yù)測為輸出的圖像的數(shù)據(jù)量小且畫面內(nèi)的運動少的定時上進行圖 像的PTS校正,從而能夠進行例如幀的跳過或者幀的重播等的圖像的PTS校正,而使用戶很難察覺到。因此,能夠針對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。并且,也可以是,所述定時判斷部,在由所述收發(fā)部接收的聲音的大小比預(yù)先設(shè)定 的閾值小的情況下,將所述圖像聲音輸出部輸出所述接收的聲音的定時判斷為應(yīng)更新所述 校正量的定時。根據(jù)此構(gòu)成,在再生的聲音的大小小的定時進行PTS校正,從而能夠進行例如因 聲音的跳過等引起的聲音的PTS校正,而使用戶很難察覺到。因此,能夠針對用戶不產(chǎn)生圖 像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。并且,也可以是,所述圖像聲音通信裝置還包括聲音輸入部,該聲音輸入部被輸入 有由所述收發(fā)部發(fā)送的聲音,該聲音是利用麥克風(fēng)拾音的,所述定時判斷部,在被輸入到所 述聲音輸入部的聲音的大小比預(yù)先設(shè)定的閾值大的情況下,將所述圖像聲音輸出部輸出被 輸入的所述聲音的定時判斷為應(yīng)更新所述校正量的定時。根據(jù)此構(gòu)成,在例如使周邊的聲音大,或者,使用戶等的說話者處于發(fā)聲狀態(tài)來輸 入的聲音的大小大的定時進行PTS校正,從而能夠進行例如因聲音的跳過等引起的聲音的 PTS校正,而使用戶很難察覺到。因此,能夠針對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除 系統(tǒng)時鐘不一致的現(xiàn)象。并且,也可以是,所述圖像聲音通信裝置還包括緩沖器,暫時存儲由所述收發(fā)部 接收的圖像或接收的聲音;以及顯示時間標記校正量計算部,監(jiān)視所述緩沖器的容量的余 量,根據(jù)該余量計算顯示時間標記校正量,所述顯示時間標記校正部,通過對在由所述定時 判斷部判斷的定時的圖像或聲音的顯示時間標記與由所述顯示時間標記校正量計算部計 算出的顯示時間標記校正量進行加法運算,從而對被判斷的該定時的圖像或聲音的顯示時 間標記進行校正。根據(jù)此構(gòu)成,能夠計算PTS校正量,以便抵消系統(tǒng)時鐘不一致的量。因此,能夠針 對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。另外,本發(fā)明不僅能夠作為裝置來實現(xiàn),還可以作為具備這樣的裝置所包括的處 理單元的集成電路來實現(xiàn),也可以作為將構(gòu)成此裝置的處理單元作為步驟的方法來實現(xiàn), 也可以作為將這些步驟在計算機執(zhí)行的程序來實現(xiàn)。并且,這些程序也可以經(jīng)由CD-ROW等 記錄介質(zhì)或互聯(lián)網(wǎng)等通信介質(zhì)來進行傳輸。根據(jù)本發(fā)明的圖像聲音通信裝置以及其通信方法能夠取得如下效果,即能夠針對 用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象。具體地,通過對用戶很難認識到的且應(yīng)更新PTS(!Presentation Time Stamp :PTS) 的校正量的定時進行判斷,并在此定時校正圖像或聲音的PTS,從而能夠使用戶不產(chǎn)生因?qū)?PTS進行校正所帶來的例如聲音跳過或幀的跳過等而引起的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一 致的現(xiàn)象。
圖1是示出具備本發(fā)明的圖像聲音通信裝置的視頻會議系統(tǒng)的構(gòu)成例子的圖。圖2是示出本發(fā)明涉及的圖像聲音通信裝置的構(gòu)成的框圖。圖3是用于說明本發(fā)明涉及的圖像聲音通信裝置的發(fā)送方的處理的流程圖。
圖4是用于說明本發(fā)明涉及的圖像聲音通信裝置的接收方的處理的流程圖。圖5是用于說明本發(fā)明涉及的PTS校正量決定處理的一個例子的流程圖。圖6是用于說明本發(fā)明涉及的圖像差分值計算處理的流程圖。圖7是用于說明本發(fā)明涉及的畫面配置判斷處理的流程圖。圖8是用于說明本發(fā)明涉及的輸入聲音大小檢測處理的流程圖。圖9是用于說明本發(fā)明涉及的接收聲音大小檢測處理的流程圖。圖10是用于說明本發(fā)明涉及的圖像聲音通信裝置的圖像的PTS校正定時判斷處 理的流程圖。圖11是用于說明本發(fā)明涉及的圖像聲音通信裝置的聲音的PTS校正定時判斷處 理的流程圖。圖12是示出本發(fā)明涉及的圖像聲音通信裝置的最小構(gòu)成的框圖。
具體實施例方式以下,針對本發(fā)明的實施例,參照附圖進行詳細的說明。(實施例1)圖1是示出具備本發(fā)明的圖像聲音通信裝置的視頻會議系統(tǒng)構(gòu)成例子的圖。如圖1所示在視頻會議系統(tǒng)中,圖像聲音通信裝置100經(jīng)由網(wǎng)絡(luò)207與其他的圖 像聲音通信裝置300進行圖像聲音數(shù)據(jù)的雙方向的傳輸。圖像聲音通信裝置100經(jīng)由網(wǎng)絡(luò)207將由攝像機/麥克風(fēng)101所拍攝的圖像聲音 發(fā)送給其他的圖像聲音通信裝置300,且從其他的圖像聲音通信裝置300接收圖像聲音數(shù) 據(jù)。此外,圖像聲音通信裝置100通過對接收的圖像聲音數(shù)據(jù)進行PTS校正,從而防止因其 他的圖像聲音通信裝置300間即裝置間的時鐘的不一致而引起的上溢或下溢,并且,將圖 像聲音數(shù)據(jù)輸出到顯示器/揚聲器103。其他的圖像聲音通信裝置300經(jīng)由網(wǎng)絡(luò)207將由攝像機/麥克風(fēng)301所拍攝的圖 像聲音發(fā)送給其他的圖像聲音通信裝置300。此外,其他的圖像聲音通信裝置300從圖像 聲音通信裝置100接收圖像聲音數(shù)據(jù),并且,將接收的圖像聲音數(shù)據(jù)輸出到顯示器/揚聲器 303。圖2是示出本發(fā)明涉及的圖像聲音通信裝置的構(gòu)成的框圖。如圖2所示,圖像聲音通信裝置100包括圖像聲音輸入部104、編碼部105、發(fā)送 部106、接收部108、PTS校正量計算部109、解碼部110、PTS校正量定時判斷部111、PTS校 正部112、圖像聲音輸出部113、接收緩沖器114、以及輸出緩沖器115。此外,圖像聲音通信 裝置100與用戶輸入部102相連接,并且,用于拍攝圖像的攝像機/麥克風(fēng)101被連接于外 部,所述用戶輸入部102為輸入作為來自用戶操作的⑶I (Graphical User Interface 圖 形用戶接口)操作的用戶接口。此外,圖像聲音通信裝置100與用于再生圖像聲音數(shù)據(jù)的 顯示器/揚聲器103相連接。圖像聲音輸入部104為從拍攝圖像的攝像機/麥克風(fēng)101輸入非壓縮的圖像以及 聲音數(shù)據(jù)的接口。圖像聲音輸入部104將由攝像機/麥克風(fēng)101以幀單位輸入的圖像以及 聲音數(shù)據(jù)(以下稱為自身裝置圖像聲音數(shù)據(jù)。)輸出到編碼部105、圖像聲音輸出部113、 PTS校正定時判斷部111。
編碼部105對由圖像聲音輸入部104輸入的自身裝置圖像聲音數(shù)據(jù)進行編碼(壓 縮編碼),將進行了編碼的自身裝置圖像聲音數(shù)據(jù)輸出到發(fā)送部106。在此,編碼部105例 如利用H. 264以及MPEG-4ACC等壓縮編碼方式對自身裝置圖像聲音數(shù)據(jù)進行壓縮編碼。發(fā)送部106將由編碼部105輸入的編碼后的自身裝置圖像聲音數(shù)據(jù)輸出到網(wǎng)絡(luò) 207。在此,例如發(fā)送部106將自身裝置圖像聲音數(shù)據(jù)例如進行RTP(Realtime Transport Protocol 實時傳送協(xié)議)數(shù)據(jù)包化,并進行輸出。具體地,發(fā)送部106將作為輸出時刻的 PTS (Presentation Time Mamp 顯示時間標記)寫入到RTP數(shù)據(jù)包的RTP頭的時間標記區(qū) 域,并將進行了 RTP數(shù)據(jù)包化的自身裝置圖像聲音數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)207輸出到其他的圖像聲 音通信裝置300。接收部108包括接收緩沖器114,經(jīng)由網(wǎng)絡(luò)207接收從其他的圖像聲音通信裝置 300發(fā)送來的圖像以及聲音數(shù)據(jù)(以下稱為對方裝置圖像聲音數(shù)據(jù)。),并將接收的對方裝 置圖像數(shù)據(jù)輸出到解碼部110,并且,將接收數(shù)據(jù)量輸出到PTS校正量計算部109。具體地, 接收部108將接收的對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù)包暫時保存到接收緩沖器114。接 收部108將從存儲在接收緩沖器114的對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù)包中抽出的接收 時刻和接收數(shù)據(jù)量輸出到PTS校正量計算部109,并將存儲在接收緩沖器114的對方裝置圖 像聲音數(shù)據(jù)的RTP數(shù)據(jù)包輸出到解碼部110。接收緩沖器114暫時存儲由接收部108接收的對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù) 包。接收緩沖器114所存儲的對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù)包經(jīng)由接收部108輸出到 解碼部110。PTS校正量計算部109對接收數(shù)據(jù)量進行觀測,并根據(jù)正在觀測的接收數(shù)據(jù)量計 算PTS校正量。具體地,PTS校正量計算部109利用由接收部108輸入的接收數(shù)據(jù)量和由 解碼部110輸入的接收緩沖器114的容量的余量,計算PTS校正量,并將計算出的PTS校正 量輸出到PTS校正定時判斷部111。解碼部110對由接收部108輸入的對方裝置圖像聲音數(shù)據(jù)進行解碼,并將解碼后 的對方裝置圖像聲音數(shù)據(jù)輸出到PTS校正部112以及PTS校正定時判斷部111。此外,解碼 部110確認接收緩沖器114的容量的余量,并且,一邊向PTS校正量計算部109輸出接收緩 沖器114的容量的余量,一邊確認是否處于可解碼狀態(tài),所述可解碼狀態(tài)為輸出緩沖器115 內(nèi)有空余的狀態(tài)。并且,解碼部110在處于可解碼狀態(tài)的情況下,進行解碼處理。也就是說, 在解碼部110處于作為輸出緩沖器115內(nèi)有空余的狀態(tài)的可解碼狀態(tài)的情況下,從接收緩 沖器114接受對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù)包,并進行解碼處理。具體地,解碼部110作為RTP數(shù)據(jù)包的解碼處理,將從接收緩沖器114接受的RTP 數(shù)據(jù)包變換為編碼圖像數(shù)據(jù)形式以及編碼聲音數(shù)據(jù)形式,并計算作為輸出時刻的PTS。進 一步,解碼部110針對編碼圖像數(shù)據(jù)以H. 264進行解碼,針對編碼聲音數(shù)據(jù)以MPEG-4AAC進 行解碼,并將解碼后的圖像數(shù)據(jù)以及聲音數(shù)據(jù)(以下稱為對方裝置解碼后圖像聲音數(shù)據(jù)。) 輸出到PTS校正定時判斷部111。與此同時,解碼部110將對方裝置解碼后圖像聲音數(shù)據(jù)和 PTS相關(guān)聯(lián)地保存到輸出緩沖器115。PTS校正定時判斷部111根據(jù)由發(fā)送部106發(fā)送的聲音、由接收部108接收的圖像 的內(nèi)容或聲音的內(nèi)容,即至少利用由圖像聲音輸入部104輸入的自身裝置圖像聲音數(shù)據(jù)、 由用戶輸入部102輸入的用戶操作信息以及由解碼部110輸入的解碼后圖像聲音數(shù)據(jù)中的任一個,來判斷作為應(yīng)更新PTS的校正量的定時的PTS校正定時,并將由PTS校正量計算部 109計算出的PTS校正量和PTS校正請求一同輸出到PTS校正部112。也就是說,PTS校正 定時判斷部111將用戶很難認識到的定時判斷為應(yīng)更新PTS的校正量的定時,以作為對時 鐘的不一致進行校正的定時,并以PTS校正請求將PTS校正定時通知給PTS校正部112。PTS校正部112按照由PTS校正定時判斷部111輸入的PTS校正請求,對與對方裝 置解碼后圖像聲音數(shù)據(jù)相關(guān)聯(lián)的PTS進行校正。具體地,PTS校正部112針對由解碼部110 保存到輸出緩沖器115的與對方裝置解碼后圖像聲音數(shù)據(jù)相關(guān)聯(lián)的PTS信息,利用由PTS 校正定時判斷部111輸出的PTS校正量,對PTS信息進行校正,并將校正后的PTS信息輸出 到圖像聲音輸出部113。圖像聲音輸出部113按照由PTS校正部112輸入的校正后的PTS信息,將保存在 輸出緩沖器115的對方裝置解碼后圖像聲音數(shù)據(jù)輸出到顯示器/揚聲器103。也就是說,圖 像聲音輸出部113對由PTS校正部112輸入的校正后的PTS值與圖像聲音通信裝置100的 系統(tǒng)時鐘(當(dāng)前時刻)進行比較,并將接近于此系統(tǒng)時鐘的PTS的對方裝置解碼后圖像以 及聲音數(shù)據(jù)從輸出緩沖器115輸出到顯示器/揚聲器103。以上,構(gòu)成圖像聲音通信裝置100。接著,針對具有上述構(gòu)成的圖像聲音通信裝置100的工作,利用附圖進行說明。另 外,以下說明的工作作為控制程序被存儲在圖像聲音通信裝置100的圖沒有示出的例如 ROM或內(nèi)存器等的記憶裝置內(nèi),并由CPU來進行控制。圖3是用于說明本發(fā)明涉及的圖像聲音通信裝置的發(fā)送處理的流程圖。首先,圖像聲音通信裝置100進行圖像聲音輸入處理(S201)。具體地,圖像聲音輸 入部104從被連接于外部的攝像機/麥克風(fēng)101以幀單位輸入非壓縮的自裝置圖像聲音, 并將輸入的自身裝置圖像聲音數(shù)據(jù)輸出到編碼部105、PTS校正定時判斷部111以及圖像聲 音輸出部113。接著,圖像聲音通信裝置100進行圖像聲音編碼處理620 。具體地,編碼部105 針對由圖像聲音輸入部104輸入的非壓縮的自身裝置圖像聲音數(shù)據(jù),例如利用H. 264以及 MPEG-4AAC等的壓縮編碼方式,進行壓縮編碼,并將編碼后的自身裝置圖像聲音數(shù)據(jù)輸出到 發(fā)送部106。接著,圖像聲音通信裝置100進行發(fā)送處理(S203)。具體地,發(fā)送部106將由編碼 部105輸入的編碼后的自裝置圖像聲音數(shù)據(jù)例如進行RTP(Realtime Transport Protocol 實時傳送協(xié)議)數(shù)據(jù)包化。也就是說,發(fā)送部106將作為輸出時刻的PTSO^esentation Time Stamp 顯示時間標記)描述到RTP頭的時間標記區(qū)域,并將進行了 RTP數(shù)據(jù)包化的自 身裝置圖像聲音數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)207輸出到其他的圖像聲音通信裝置300。如上所述,圖像聲音通信裝置100將自身裝置圖像聲音數(shù)據(jù)經(jīng)由網(wǎng)絡(luò)207輸出到 其他的圖像聲音通信裝置300。圖4是用于說明本發(fā)明涉及的圖像聲音通信裝置的接收方處理的流程圖。首先,圖像聲音通信裝置100進行數(shù)據(jù)包接收處理(S301)。具體地,接收部108經(jīng) 由網(wǎng)絡(luò)207接收從其他的圖像聲音通信裝置300發(fā)送來的對方裝置圖像聲音數(shù)據(jù)的RTP數(shù) 據(jù)包,并將接收的對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù)包暫時保存到接收緩沖器114。并且, 將從保存在接收緩沖器114的接收的對方裝置圖像聲音數(shù)據(jù)中抽出的接收時刻和接收數(shù)據(jù)量輸出到PTS校正量計算部109,并且,在解碼部110處于可解碼狀態(tài)的情況下,將接收的 對方裝置圖像聲音數(shù)據(jù)的RTP數(shù)據(jù)包輸出到解碼部110。接著,圖像聲音通信裝置100進行數(shù)據(jù)包解碼處理630 。具體地,解碼部110確 認接收緩沖器114的容量的余量,并且,一邊向PTS校正量計算部109輸出接收緩沖器114 的容量的余量,一邊確認是否處于作為輸出緩沖器115內(nèi)有空余的狀態(tài)的可解碼狀態(tài)。并 且,在處于可解碼狀態(tài)的情況下,對從接收緩沖器114接受的對方裝置圖像聲音數(shù)據(jù)的RTP 數(shù)據(jù)包進行解碼處理,計算作為輸出時刻的PTS,并且,將解碼后的對方裝置圖像聲音數(shù)據(jù) 輸出到PTS校正定時判斷部111。此外,解碼部110將解碼圖像數(shù)據(jù)以及解碼聲音數(shù)據(jù)分別 與PTS相關(guān)聯(lián)地存儲到輸出緩沖器115。接著,圖像聲音通信裝置100進行PTS校正量計算處理(S303)。具體地,PTS校正 量計算部109利用由接收部108輸入的接收數(shù)據(jù)量和由解碼部110輸入的接收緩沖器114 的容量的余量,計算PTS校正量,并將計算出的PTS校正量輸出到PTS校正定時判斷部111。 另外,針對PTS校正量計算處理的詳細操作在后述中加以說明,因此,在此予以省略。接著,圖像聲音通信裝置100進行PTS校正定時判斷處理(S304)。具體地,PTS校 正定時判斷部111至少利用由圖像聲音輸入部104輸入的自身裝置圖像聲音數(shù)據(jù)、由用戶 輸入部102輸入的用戶操作信息以及由解碼部110輸入的解碼后圖像聲音數(shù)據(jù)中的任一 個,來判斷PTS校正定時。另外,針對PTS校正定時判斷的詳細操作在后述中加以說明,因 此,在此予以省略。在步驟S304中判斷PTS校正定時的情況下(在步驟S304中“是”的情況下),PTS 校正定時判斷部111將由PTS校正量計算部109計算出的PTS校正量和PTS校正請求一同 輸出到PTS校正部112。接著,圖像聲音通信裝置100進行PTS偏移變更630 以及PTS校正(S306)。具 體地,PTS校正部112針對由解碼部110保存到輸出緩沖器115的與對方裝置解碼后圖像 聲音數(shù)據(jù)相關(guān)聯(lián)的PTS信息,利用由PTS校正定時判斷部111輸出的PTS校正量,來對PTS 信息進行校正。并且,將校正后的PTS信息輸出到圖像聲音輸出部113。在此,針對PTS校正部112所進行的PTS校正處理方法的例子進行說明。PTS校正 部112根據(jù)以下(公式1) (公式4),進行PTS的校正。(算式1)0ffset_A = Offset_A_prev+Correct_A (公式 1)(算式2)0ffset_V = Offset_V_prev+Correct_V (公式 2)(算式3)PTS_V' (t) = PTS_V (t)+Offset_V(公式 3)(算式4)PTS_A' (t) = PTS_A (t)+Offset_A(公式 4)在(公式1)以及(公式2)中,0ffset_V以及0ffset_A分別表示圖像數(shù)據(jù)以及 聲音數(shù)據(jù)的PTS偏移值,Offset_V_prev以及Offset_A_prev分別表示圖像數(shù)據(jù)以及聲音 數(shù)據(jù)的PTS偏移值的上次的值。此外,Correct_V以及Correct_A分別表示圖像數(shù)據(jù)以及 聲音數(shù)據(jù)的PTS校正值。此外,在(公式3)以及(公式4)中,PTS_V’ (t)以及PTS_A’ (t)
10分別表示幀t的圖像以及聲音的PTS校正后的PTS值,PTS_V(t)以及PTS_A(t)分別表示 幀t的圖像以及聲音的PTS值。PTS校正部112根據(jù)(公式1) (公式4),對保存在輸出緩沖器115的幀t的圖 像以及聲音數(shù)據(jù)的PTS值(PTS_V(t)以及PTS_A(t))和PTS偏移值(0ffset_V以及0ffset_ Α)進行加法運算,從而校正PTS值。進一步,PTS校正部112利用由PTS校正定時判斷部111輸出的PTS校正量 (Correct_V以及Correct_A),來對用于校正PTS的偏移值(0ffset_V以及0ffset_A)進行 更新。如上所述,PTS校正部112通過利用PTS校正量,在由PTS校正定時判斷部111所 決定的定時,對偏移進行更新,從而能夠?qū)TS進行間斷性更新。接著,圖像聲音通信裝置100進行圖像聲音輸出處理(S307)。具體地,圖像聲音 輸出部113對由PTS校正部112輸入的校正后的PTS值和圖像聲音通信裝值100的系統(tǒng)時 鐘(當(dāng)前時刻)進行比較,并將接近于此系統(tǒng)時鐘(當(dāng)前時刻)的PTS的對方裝置解碼后 圖像聲音數(shù)據(jù)從輸出緩沖器115輸出到顯示器/揚聲器103。另外,在步驟S304中沒有判斷PTS校正定時的情況下(在步驟S304中“否”的情 況下),PTS校正定時判斷部111向PTS校正部112不進行任何輸出。在此情況下,PTS校正部112不進行PTS的偏移變更(S306)。并且,圖像聲音輸 出部113對由PTS校正部112輸入的PTS值和圖像聲音通信裝置100的系統(tǒng)時鐘(當(dāng)前時 刻)進行比較,并將接近于此系統(tǒng)時鐘(當(dāng)前時刻)的PTS的對方裝置解碼后圖像聲音數(shù) 據(jù)從輸出緩沖器115輸出到顯示器/揚聲器103。如上所述,圖像聲音通信裝置100進行接收方的處理。圖5是用于說明本發(fā)明涉及的圖像聲音通信裝置的PTS校正量計算處理的一個例 子的流程圖。首先,圖像聲音通信裝置100進行平均接收速率計算處理(S3031)。具體地,利用 由接收部108輸入的接收數(shù)據(jù)量,PTS校正量計算部109計算平均接收速率(AverageBps)。 雖然在(公式5)中示出平均接收速率的計算公式,但是,接收速率的計算方法并不限定于 在(公式5)所示出的計算公式。(算式δ)AverageBps = SUM(RecvBits)/N (公式 5)在此,AverageBps表示平均接收速率(bit/s),RecvBits表示接收數(shù)據(jù)量(bit)。 N表示預(yù)先設(shè)定的統(tǒng)計區(qū)間N(秒),SUM(RecvBits)表示在統(tǒng)計區(qū)間N(秒)由接收部108 接收的接收數(shù)據(jù)量的合計值。如(公式5)所示,PTS校正量計算部109利用在統(tǒng)計區(qū)間N(秒)由接收部108接 收的數(shù)據(jù)量的平均值,計算平均接收速率。接著,圖像聲音通信裝置100進行接收緩沖器114的余量統(tǒng)計處理(S303》。具體 地,PTS校正量計算部109,進行由解碼部110輸入的接收緩沖器114的容量的余量的統(tǒng)計 處理,并判斷緩沖器余量是處于增加趨勢還是減少趨勢。在此,作為增減趨勢的評價值,利 用作為受到緩沖器容量的余量增減的影響的其中之一的延遲時間進行說明。(公式6)中示 出作為增減趨勢的評價值的當(dāng)前延遲時間(CurrDelay)的計算公式。
(算式6)CurrDelay = (BufferLevel/AverageBps)-INIT_DELAY (公式 6)在此,CurrDelay表示當(dāng)前延遲時間,BufferLevel表示當(dāng)前的接收緩沖器114的 容量的余量(bit)。AverageBps表示平均接收速率(bit/s),INIT_DELAY表示預(yù)先設(shè)定的 初始延遲時間。如(公式6)所示,PTS校正量計算部109通過將緩沖器容量的余量除以平均接收 速率,從而計算出消耗緩沖器所需要的時間,取計算出的消耗緩沖器所需要的時間與初始 延遲時間的差分,以作為當(dāng)前遲延時間。也就是說,通過觀察當(dāng)前延遲時間的趨勢,從而觀 測接收緩沖器114的容量的余量影響遲延時間的趨勢。但是,在此為了簡單地進行說明,設(shè) 為不進行當(dāng)前遲延時間的增減趨勢的統(tǒng)計處理,而以一定間隔根據(jù)公式6計算當(dāng)前遲延時 間(CurrDelay)來進行說明。另外,平均接收速率,由于與平均編碼速率等效,因此,使用在 計算用于消耗緩沖器的時間。接著,圖像聲音通信裝置100,進行PTS校正量決定處理(S303!3)。具體地,PTS校 正量計算部109利用平均接收速率(AveregeBps)和接收緩沖器114的容量的余量,計算 PTS校正量。在(公式7)中示出PTS校正量的計算公式。(算式 7) if ((CurrDelay > 0)&&( | CurrDelay |-TH_H > 0)) {Correct_A = -(CurrDelay-TH_H)X SCALE (公式7)Correct_V = -(CurrDelay-TH_H)X SCALE ;}else if ((CurrDelay < 0)&&( | CurrDelay |-TH_L > 0)) {Correct_A = (|CurrDelay|_TH_L)X SCALE ;Correct_V = (| GurrDelay | _ _ X SCALE ;}else{Correct_A = 0 ;Correct_V = 0 ;}在此,CurrDelay表示當(dāng)前延遲時間,Correct_A表示聲音的PTS校正量,Correct
V表示圖像的PTS校正量。TH_H以及TH_L表示預(yù)先決定的閾值(但是設(shè)為THvL < INIT_ DELAY < TH_L。),SCALE表示用于從秒變換為作為PTS單位的90kHZ的常數(shù)。此外,(公式7)表示以下1至3。1、在當(dāng)前延遲時間為正值且絕對值大于閾值(TH_ H)的情況下,PTS校正量設(shè)為負值。2、在當(dāng)前延遲時間為負值且絕對值大于閾值(TH_L)的 情況下,PTS校正量設(shè)為正值。3、在上述1以及2以外的情況下,PTS校正量設(shè)為0。如上所述,PTS校正量計算部109,如(公式7)所示,根據(jù)當(dāng)前延遲時間的閾值判 斷,決定PTS校正量。另外,雖然PTS校正量計算部109,根據(jù)(公式7),在圖像和聲音中將PTS校正量 作為相同的值而計算出,但是計算PTS校正量的方法并不限定于(公式7)。也可以例如通 過在圖像和聲音中將當(dāng)前延遲時間以及平均接收速率分別進行處理,從而在圖像和聲音中 個別地計算出PTS校正量。如上所述,圖像聲音通信裝置100進行PTS校正量計算處理。
接著,利用圖6-圖11,針對圖像聲音通信裝置100中的PTS校正定時判斷處理的 例子進行說明。圖6是用于說明本發(fā)明涉及的圖像差分值計算處理的流程圖。首先,PTS校正定時判斷部111利用由解碼部110輸入的解碼圖像數(shù)據(jù),在連續(xù)的 圖像之間進行差分處理,并作為圖像差分值計算出差分值絕對和(SAD) (S401)。接著,PTS校正定時判斷部111判斷計算出的圖像差分值是否小于預(yù)先規(guī)定的閾 值(S402)。PTS校正定時判斷部111在計算出的圖像差分值小于預(yù)先規(guī)定的閾值的情況下 (在S402中“是”的情況下),判斷為PTS校正定時(S403)。如上所述,PTS校正定時判斷部 111將顯示圖像的運動小且用戶很難認識到的控制幀的跳過等的跳過或重播的定時判斷為 應(yīng)更新PTS校正量的PTS校正定時。另一方面,PTS校正定時判斷部111,在計算出的圖像差分值大于預(yù)先規(guī)定的閾值 的情況下(在S402中“否”的情況下),判斷不是PTS校正定時(S404)。如上所述,利用由解碼部110輸入的解碼圖像數(shù)據(jù),PTS校正定時判斷部111對 PTS校正定時進行判斷。作為所述的圖像差分值的差分值絕對和(SAD)是,例如根據(jù)(公式8)計算的。
權(quán)利要求
1.一種圖像聲音通信裝置,包括 收發(fā)部,經(jīng)由網(wǎng)絡(luò),收發(fā)圖像以及聲音;定時判斷部,根據(jù)由所述收發(fā)部發(fā)送的聲音的內(nèi)容、由所述收發(fā)部接收的圖像的內(nèi)容、 或由所述收發(fā)部接收的聲音的內(nèi)容,判斷應(yīng)更新該接收的圖像或接收的聲音的顯示時間標 記的校正量的定時;顯示時間標記校正部,通過在由所述定時判斷部所判斷的定時,更新該接收的圖像或 接收的聲音的顯示時間標記的校正量,從而校正該顯示時間標記;以及圖像聲音輸出部,輸出與已被校正的顯示時間標記相對應(yīng)的該接收的圖像以及接收的 聲音,所述已被校正的顯示時間標記是所述圖像聲音通信裝置所示出的與當(dāng)前時刻相對應(yīng) 的顯示時間標記。
2.如權(quán)利要求1所述的圖像聲音通信裝置,所述圖像聲音通信裝置還包括用戶輸入部,該用戶輸入部通過用戶操作輸入用戶操作 fn息,所述定時判斷部,在被輸入到所述用戶輸入部的用戶操作信息表示是伴有所述接收的 圖像的畫面配置變更的用戶操作的情況下,將伴有該畫面配置變更的用戶操作的定時判斷 為應(yīng)更新所述校正量的定時。
3.如權(quán)利要求1所述的圖像聲音通信裝置, 所述定時判斷部,在由所述收發(fā)部接收的圖像與在時間上處于該接收的圖像之前的圖像之間的相關(guān)值 比預(yù)先設(shè)定的閾值大的情況下,將所述圖像聲音輸出部輸出該接收的圖像的定時判斷為應(yīng) 更新所述校正量的定時。
4.如權(quán)利要求1所述的圖像聲音通信裝置, 所述定時判斷部,在由所述收發(fā)部接收的圖像的數(shù)據(jù)量比預(yù)先設(shè)定的閾值小的情況下,將所述圖像聲音 輸出部輸出所述接收的圖像的定時判斷為應(yīng)更新所述校正量的定時。
5.如權(quán)利要求1所述的圖像聲音通信裝置, 所述定時判斷部,在由所述收發(fā)部接收的聲音的大小比預(yù)先設(shè)定的閾值小的情況下,將所述圖像聲音輸 出部輸出所述接收的聲音的定時判斷為應(yīng)更新所述校正量的定時。
6.如權(quán)利要求1所述的圖像聲音通信裝置,所述圖像聲音通信裝置還包括聲音輸入部,該聲音輸入部被輸入有由所述收發(fā)部發(fā)送 的聲音,該聲音是利用麥克風(fēng)拾音的, 所述定時判斷部,在被輸入到所述聲音輸入部的聲音的大小比預(yù)先設(shè)定的閾值大的情況下,將所述圖像 聲音輸出部輸出被輸入的所述聲音的定時判斷為應(yīng)更新所述校正量的定時。
7.如權(quán)利要求1所述的圖像聲音通信裝置, 所述圖像聲音通信裝置還包括緩沖器,暫時存儲由所述收發(fā)部接收的圖像或接收的聲音;以及 顯示時間標記校正量計算部,監(jiān)視所述緩沖器的容量的余量,根據(jù)該余量計算顯示時間標記校正量,所述顯示時間標記校正部,通過對在由所述定時判斷部判斷的定時的圖像或聲音的顯 示時間標記與由所述顯示時間標記校正量計算部計算出的顯示時間標記校正量進行加法 運算,從而對被判斷的該定時的圖像或聲音的顯示時間標記進行校正。
8.如權(quán)利要求7所述的圖像聲音通信裝置,所述顯示時間標記校正量計算部,在該余量處于單調(diào)增加的情況下,計算負值的顯示 時間標記校正量,在該余量處于單調(diào)減少的情況下,計算正值的顯示時間標記校正量。
9.一種通信方法,是圖像聲音通信裝置的通信方法,包括收發(fā)步驟,經(jīng)由網(wǎng)絡(luò),收發(fā)圖像以及聲音;定時判斷步驟,根據(jù)在所述收發(fā)步驟中發(fā)送的聲音,或者,根據(jù)由所述收發(fā)部接收的圖 像的內(nèi)容或接收的聲音的內(nèi)容,判斷應(yīng)更新該接收的圖像或接收的聲音的顯示時間標記的 校正量的定時;顯示時間標記校正步驟,通過在所述定時判斷步驟中所判斷的定時,更新該接收的圖 像或接收的聲音的顯示時間標記的校正量,從而校正該顯示時間標記;以及圖像聲音輸出步驟,輸出與已被校正的顯示時間標記相對應(yīng)的該接收的圖像以及接收 的聲音,所述已被校正的顯示時間標記是所述圖像聲音通信裝置所示出的與當(dāng)前時刻相對 應(yīng)的顯示時間標記。
10.一種程序,用于圖像聲音通信裝置的通信,該程序使計算機執(zhí)行以下程序收發(fā)步驟,經(jīng)由網(wǎng)絡(luò),收發(fā)圖像以及聲音;定時判斷步驟,根據(jù)在所述收發(fā)步驟中發(fā)送的聲音,或者,根據(jù)由所述收發(fā)部接收的圖 像的內(nèi)容或接收的聲音的內(nèi)容,判斷應(yīng)更新該接收的圖像或接收的聲音的顯示時間標記的 校正量的定時;顯示時間標記校正步驟,通過在所述定時判斷步驟中所判斷的定時,更新該接收的圖 像或接收的聲音的顯示時間標記的校正量,從而校正該顯示時間標記;以及圖像聲音輸出步驟,輸出與已被校正的顯示時間標記相對應(yīng)的該接收的圖像以及接收 的聲音,所述已被校正的顯示時間標記是所述圖像聲音通信裝置所示出的與當(dāng)前時刻相對 應(yīng)的顯示時間標記。
11.一種集成電路,是圖像聲音通信裝置的集成電路,包括收發(fā)部,經(jīng)由網(wǎng)絡(luò),收發(fā)圖像以及聲音;定時判斷部,根據(jù)由所述收發(fā)部發(fā)送的聲音的內(nèi)容、由所述收發(fā)部接收的圖像的內(nèi)容、 或由所述收發(fā)部接收的聲音的內(nèi)容,判斷應(yīng)更新該接收的圖像或接收的聲音的顯示時間標 記的校正量的定時;顯示時間標記校正部,通過在由所述定時判斷部所判斷的定時,更新該接收的圖像或 接收的聲音的顯示時間標記的校正量,從而校正該顯示時間標記;以及圖像聲音輸出部,輸出與已被校正的顯示時間標記相對應(yīng)的該接收的圖像以及接收的 聲音,所述已被校正的顯示時間標記是所述圖像聲音通信裝置所示出的與當(dāng)前時刻相對應(yīng) 的顯示時間標記。
全文摘要
一種圖像聲音通信裝置,能夠針對用戶不產(chǎn)生圖像/聲音的不協(xié)調(diào)感而解除系統(tǒng)時鐘不一致的現(xiàn)象,并且,包括收發(fā)部(106/108),經(jīng)由網(wǎng)絡(luò),收發(fā)圖像以及聲音;顯示時間標記校正定時判斷部(111),根據(jù)由所述收發(fā)部發(fā)送的聲音的內(nèi)容,或者,根據(jù)由所述收發(fā)部接收的圖像的內(nèi)容或接收的聲音的內(nèi)容,判斷應(yīng)更新該接收的圖像或接收的聲音的顯示時間標記的校正量的定時;顯示時間標記校正部(112),通過在由所述顯示時間標記校正定時判斷部所判斷的定時,更新該接收的圖像或接收的聲音的顯示時間標記的校正量,從而校正該顯示時間標記;以及圖像聲音輸出部(113),輸出與已被校正的顯示時間標記相對應(yīng)的該接收的圖像以及接收的聲音,所述已被校正的顯示時間標記是所述圖像聲音通信裝置所示出的與當(dāng)前時刻相對應(yīng)的顯示時間標記。
文檔編號H04N7/15GK102067595SQ201080001568
公開日2011年5月18日 申請日期2010年3月1日 優(yōu)先權(quán)日2009年3月16日
發(fā)明者本田義雅 申請人:松下電器產(chǎn)業(yè)株式會社