專利名稱:音頻通信方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及經(jīng)由網(wǎng)絡(luò)發(fā)送和接收音頻的音頻通信方法和裝置。
背景技術(shù):
近些年來,其中音頻數(shù)據(jù)經(jīng)網(wǎng)絡(luò)通過分組接收和發(fā)送的音頻通信,也就是所謂的VoIP(Voice over IP,IP語音),已被廣泛使用。這種音頻通信利用預(yù)定編碼格式對音頻(包括音樂、各種音效等)進(jìn)行編碼,并且經(jīng)編碼的音頻數(shù)據(jù)被發(fā)送和接收,從而使得能夠進(jìn)行具有很少音頻質(zhì)量劣化的通信,而不占用寬的傳輸頻帶。
作為音頻編碼格式的代表性示例,已知G.711、G.729、AMR-NB(自適應(yīng)多速率-窄帶)、AMR-WB(適應(yīng)性多速率-寬帶)、MPEG(運(yùn)動圖象專家組)-4ACC(高級音頻編解碼器)等。用于對根據(jù)這些編碼格式編碼的音頻數(shù)據(jù)(在下文中被稱為音頻編碼數(shù)據(jù))進(jìn)行分發(fā)的技術(shù)是VoIP(例如,見日本專利申請早期公開No.2004-072242),其使用了采用分組交換方法的IP(因特網(wǎng)協(xié)議)網(wǎng)絡(luò)。VoIP預(yù)期會在諸如PHS(個人手持電話系統(tǒng))和移動電話網(wǎng)絡(luò)這樣的移動通信系統(tǒng)中迅速變得流行。
另外,當(dāng)分組交換方法的網(wǎng)絡(luò)被用于數(shù)據(jù)發(fā)送/接收時,在接收側(cè)生成了到達(dá)波動(抖動)。音頻通信裝置需要緩沖器,其臨時存儲接收到的數(shù)據(jù)以吸收抖動。當(dāng)緩沖器的尺寸較大時,可以應(yīng)對較大的抖動,然而,音頻通信的延遲變得較長,因為在音頻被再現(xiàn)之前需要時間。另一方面,當(dāng)使緩沖器的尺寸較小時,延遲變得較短,然而,抖動無法被充分吸收,因此存在再現(xiàn)的音頻不連貫的問題。作為緩沖控制方法,已知當(dāng)存儲在緩沖器中的分組數(shù)據(jù)的量超過預(yù)定閾值時暫停解碼過程的方法(見日本專利申請早期公開No.2002-204258)和在接收側(cè)調(diào)節(jié)解碼過程的周期的方法(見日本專利申請早期公開No.2003-087318)。此外,存在這樣一種方法,其中根據(jù)來自接收側(cè)的通知,在發(fā)送側(cè)調(diào)節(jié)分組發(fā)送周期(見日本專利申請早期公開No.2003-249977)。
在上述利用VoIP技術(shù)的音頻通信中,雖然作為編碼過程的速率的編碼比特率可以被改變,但是每一個會話所使用的編碼格式是固定的,因此,并非總是根據(jù)用戶的需要和網(wǎng)絡(luò)的狀態(tài)來選擇最佳的編碼格式。
作為使得能夠在通信期間選擇編碼格式的技術(shù),可以涉及到一種方法,其中在接收側(cè)例如通過發(fā)送各種音頻編碼數(shù)據(jù)來選擇最佳的編碼格式。然而,難于采用這種方法,除非具有足夠可用傳輸頻帶的傳輸路徑。
另外,當(dāng)在以上專利文獻(xiàn)中描述的緩沖控制方法被應(yīng)用于音頻通信時,在日本專利申請早期公開No.2002-204258中,當(dāng)接收到的數(shù)據(jù)的量大于要再現(xiàn)的數(shù)據(jù)的量時有可能音頻將被來自緩沖器的溢出數(shù)據(jù)暫停。此外,在日本專利申請早期公開No.2003-087318中,存在著延遲被增加的問題,因為必須保證足夠的緩沖器尺寸以調(diào)節(jié)編碼過程的周期。此外,在日本專利申請早期公開No.2003-249977中,當(dāng)類似盡力而為(best-effort)型網(wǎng)絡(luò)和無線網(wǎng)絡(luò)這樣的不穩(wěn)定的傳輸路徑被使用時,在通知消息本身中發(fā)生抖動或丟失。另外,當(dāng)抖動的波動大時,難于響應(yīng)于這些波動來通知和控制消息。
另外,在使用VoIP技術(shù)的音頻通信中,當(dāng)執(zhí)行音頻通信的音頻通信裝置之間存在特性差異時,在音頻捕捉或再現(xiàn)周期中發(fā)生差異,并且造成被再現(xiàn)的音頻不連貫。
另外,因為由編碼過程造成的延遲是除由網(wǎng)絡(luò)造成的傳輸延遲之外而產(chǎn)生的,所以在一些編碼格式中存在一些情況,其中編碼所需的樣本的數(shù)目被增加而保證采樣點(diǎn)所需的時間不滿足用于音頻通信的延遲要求。
另外,當(dāng)音頻通信中的上行鏈路和下行鏈路在通信環(huán)境中不同時,例如可用頻帶和延遲,為了在執(zhí)行通信的音頻通信裝置之間匹配通信環(huán)境,音頻編碼數(shù)據(jù)必須以低比特率來發(fā)送和接收,以符合低處理能力,因此存在再現(xiàn)音頻的質(zhì)量將被降低的問題。
另外,當(dāng)編碼格式被任意切換以便僅利用切換來靈活響應(yīng)延遲和關(guān)于音頻質(zhì)量的用戶要求時,音頻數(shù)據(jù)在切換期間變得不連貫,因此存在發(fā)生諸如再現(xiàn)音頻中的停頓這樣的音頻劣化的問題。
發(fā)明內(nèi)容
因此,本發(fā)明的一個目的是提供一種音頻通信方法和一種裝置,其使得即使在音頻通信期間也能夠轉(zhuǎn)變到不同的編碼格式,并且可以抑制音頻質(zhì)量的劣化和延遲的增加。
為達(dá)到上述目的,根據(jù)本發(fā)明,音頻通信裝置包括多個編碼單元和解碼單元以便處理多種編碼格式,并且編碼格式和采樣頻率按照可用傳輸頻帶或者基于與音頻質(zhì)量和延遲有關(guān)的用戶要求而被轉(zhuǎn)變。
根據(jù)這種安排,因為即使在音頻通信期間也可以轉(zhuǎn)變到不同的編碼格式,所以音頻質(zhì)量的劣化和延遲的增加可以被抑制。此外,即使音頻通信的通信環(huán)境中的下上行鏈路和下行鏈路不同,也可以按照上行鏈路和下行鏈路的通信環(huán)境來最佳地選擇要發(fā)送的音頻數(shù)據(jù)的編碼格式和接收到的音頻數(shù)據(jù)的編碼格式,因此更高質(zhì)量的穩(wěn)定的音頻通信可以被實現(xiàn)。
然后,考慮到每個編碼格式的編碼過程的起始時刻和每個編碼格式的幀長度的差異來調(diào)節(jié)轉(zhuǎn)變時刻,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻被同步,從而在編碼格式的轉(zhuǎn)變期間再現(xiàn)音頻而不停頓。
圖1是示出了音頻通信系統(tǒng)的配置示例的框圖。
圖2是示出了根據(jù)本發(fā)明的音頻通信裝置的配置示例的框圖。
圖3是示出了通過圖2所示的第一編碼單元和第二編碼單元進(jìn)行的編碼過程的時序的時序圖。
圖4是示出了布置在本發(fā)明的音頻通信裝置中的根據(jù)第一實施例的緩沖控制單元的配置的框圖。
圖5是示出了布置在本發(fā)明的音頻通信裝置中的根據(jù)第二實施例的緩沖控制單元的配置的框圖。
具體實施例方式
接下來,參照附圖來說明本發(fā)明。
(第一實施例)圖1是示出了音頻通信系統(tǒng)的配置示例的框圖,圖2是示出了根據(jù)本發(fā)明的音頻通信裝置的配置示例的框圖。此外,圖3是示出了通過圖2所示的第一編碼單元和第二編碼單元的編碼過程的時序的時序圖,圖4是示出了布置在本發(fā)明的音頻通信裝置中的根據(jù)第一實施例的緩沖控制單元的配置的框圖。附帶地,圖2所示的音頻通信裝置201是可用于音頻通信裝置101和音頻通信裝置103的共同配置示例。
如圖1所示,音頻通信系統(tǒng)是通過連接音頻通信裝置101和103來配置的,音頻通信裝置101和103互相通過作為IP(因特網(wǎng)協(xié)議)網(wǎng)絡(luò)的網(wǎng)絡(luò)102發(fā)送和接收音頻數(shù)據(jù)。音頻通信裝置101和音頻通信裝置103執(zhí)行已知的呼叫連接過程來建立呼叫和執(zhí)行音頻通信。
呼叫連接服務(wù)器104可以被連接到網(wǎng)絡(luò)102,其向音頻通信裝置101和音頻通信裝置103提供建立呼叫所需的信息(呼叫連接數(shù)據(jù))。在這種情況下,音頻通信裝置101和音頻通信裝置103預(yù)先從呼叫連接服務(wù)器104獲得呼叫連接數(shù)據(jù),然后通過使用所獲得的呼叫連接數(shù)據(jù)建立呼叫。
音頻通信裝置101和音頻通信裝置103可以通過諸如移動電話和個人計算機(jī)這樣的信息處理裝置來實現(xiàn),其根據(jù)分組交換方法發(fā)送和接收編碼音頻數(shù)據(jù)和呼叫連接數(shù)據(jù)。另外,呼叫連接服務(wù)器104的功能可以通過類似服務(wù)器計算機(jī)這樣的信息處理裝置來實現(xiàn),其向音頻通信裝置101和音頻通信裝置103提供呼叫連接數(shù)據(jù),并且建立彼此的呼叫(通信)。當(dāng)移動電話被用作音頻通信裝置101和音頻通信裝置103時,它們通過未示出的無線基站裝置被連接到網(wǎng)絡(luò)102。
如圖2所示,音頻通信裝置201包括音頻獲取單元205、采樣頻率變換單元206、設(shè)置/呼叫連接單元204、第一編碼單元207、第二編碼單元208、分組化單元209、發(fā)送單元210、接收單元211、載荷提取單元212、第一解碼單元213、第二解碼單元214、緩沖控制單元215、音頻數(shù)據(jù)緩沖器216,以及音頻再現(xiàn)單元217。如上所述,當(dāng)信息處理裝置被用作音頻通信裝置201時,圖2中的每個元件的功能是通過包括CPU的信息處理裝置和LSI或邏輯電路的組合來實現(xiàn)的。在這種情況下,例如,音頻獲取單元205或音頻再現(xiàn)單元217的功能是通過LSI(A(模擬)/D(數(shù)字)轉(zhuǎn)換器,D/A轉(zhuǎn)換器)、晶體管電路等實現(xiàn)的。此外,包括在信息處理裝置中的CPU按照預(yù)定的程序執(zhí)行稍后描述的每個元件的過程,從而其他元件的功能被實現(xiàn)。附帶地,音頻通信裝置201可以通過實現(xiàn)了圖2所示的每個元件的功能的LSI或邏輯電路來配置。
按照由設(shè)置/呼叫連接單元204指定的采樣頻率和量化比特(quantization bit)的數(shù)目或者預(yù)先設(shè)置的采樣頻率和量化比特的數(shù)目,音頻獲取單元205將從類似麥克風(fēng)這樣的音頻輸入單元202輸入的音頻信號(模擬信號)轉(zhuǎn)換為音頻數(shù)字?jǐn)?shù)據(jù)。
按照由設(shè)置/呼叫連接單元204指定的編碼格式和采樣頻率或者按照預(yù)先設(shè)置的編碼格式和采樣頻率,第一編碼單元207和第二編碼單元208對在音頻獲取單元205中經(jīng)A/D轉(zhuǎn)換的音頻數(shù)據(jù)進(jìn)行編碼。
第一實施例中的描述涉及了其中第一編碼單元207通過使用MPEG-4ACC格式對音頻數(shù)據(jù)進(jìn)行編碼且第二編碼單元208通過使用AMR-WB格式對音頻數(shù)據(jù)進(jìn)行編碼的情況。對第一編碼單元207和第二編碼單元所使用的編碼格式?jīng)]有限制,任何格式都是可用的。此外,第一編碼單元207和第二編碼單元208不是必須使用不同種類的編碼格式,而是也可以使用相同的編碼格式,只要采樣頻率不同。在第一實施例中,雖然兩個編碼單元被示出以簡化說明,但是編碼單元的數(shù)目不限于兩個,并且可以是任意數(shù)目。當(dāng)具有足夠可用的傳輸頻帶的傳輸路徑被使用時,音頻通信裝置可以傳輸由多個編碼單元編碼的音頻編碼數(shù)據(jù)。
分組化單元209將由設(shè)置/呼叫連接單元204指定的編碼格式的標(biāo)識符(編碼格式標(biāo)識符)或預(yù)設(shè)的編碼格式標(biāo)識符添加到由第一編碼單元和第二編碼單元208編碼的音頻編碼數(shù)據(jù)中的至少一個,并分組化。假定音頻編碼數(shù)據(jù)的編碼格式和編碼格式標(biāo)識符是互相對應(yīng)的關(guān)系。
發(fā)送單元210按照目的地地址,通過由設(shè)置/呼叫連接單元204指定的端口或通過預(yù)設(shè)的端口,將分組化單元209中生成的分組發(fā)送到網(wǎng)絡(luò)102。例如,當(dāng)音頻編碼數(shù)據(jù)按照RTP(實時傳輸協(xié)議)被分組化并發(fā)送時,分組化單元209將數(shù)據(jù)分組化,被包括在要被添加RTP頭中的載荷類型和SSRC(同步源標(biāo)識符)或CSRC(貢獻(xiàn)源標(biāo)識符)被用作編碼格式標(biāo)識符。關(guān)于RTP,例如,在H.Schulzrinne,S.Casner,R.Frederick,V.Jacobson,“RTPA Transport protocol for Real-Time Applications”,RFC1889,1996年1月,Internet<URLhttp//www.ietf.org/rfc/rfc1889.txt>,H.Schulzrinne,“RTP Profile for Audio and Video Conferences with MinimalControl”,RFC 1890,1996年1月等中有詳細(xì)的描述。
至少多個分組化單元209或多個發(fā)送單元210可以被布置,以對應(yīng)于多個編碼單元。在這種情況下,例如,發(fā)送單元210可以通過由設(shè)置/呼叫連接處理部分204指定的目的地地址和端口或者通過預(yù)設(shè)的目的地地址和預(yù)設(shè)的端口,將在相應(yīng)的分組化單元209中生成的分組發(fā)送到網(wǎng)絡(luò)102。
受設(shè)置/呼叫連接單元204控制的根據(jù)第一實施例的音頻通信裝置201通過使用已知的SIP(會話啟動協(xié)議)和SDP(會話描述協(xié)議)發(fā)送和接收用于與通信伙伴的音頻通信裝置通信的必要信息。在這種情況下,類似a)通信伙伴的地址和接收端口號;b)要被發(fā)送的音頻編碼數(shù)據(jù)的編碼格式和編碼設(shè)置(選項),以及c)載荷類型和載荷格式的設(shè)置信息可以被發(fā)送到通信伙伴。例如,當(dāng)編碼格式是AMR-NB并且RTP的載荷類型是97時,根據(jù)SDP,被描述為a=rtpmap97AMR/8000的信息被發(fā)送,從而編碼格式與編碼格式標(biāo)識符之間的對應(yīng)關(guān)系可以被通知給通信伙伴。此時,編碼格式與編碼格式標(biāo)識符之間的對應(yīng)關(guān)系可以是在執(zhí)行音頻通信的音頻通信裝置之間預(yù)先確定的。然而,載荷類型是取決于編碼格式已經(jīng)由RFC 1890確定的。例如,在G.729的音頻編碼格式中,“18”的數(shù)值被使用。利用該值,編碼格式可以被指定。
設(shè)置/呼叫連接單元204將每個所需的指令給予音頻獲取單元205、采樣頻率變換單元206、第一編碼單元207、第二編碼單元208、分組化單元209、發(fā)送單元210、接收單元211、載荷提取單元212、第一解碼單元213、第二解碼單元214和音頻再現(xiàn)單元217,以便執(zhí)行所確定的編碼格式的過程。
第一實施例的音頻通信裝置201可以設(shè)有輸入單元(未示出),該輸出單元被用于由用戶輸入期望的指令。當(dāng)關(guān)于音頻質(zhì)量或時間延遲的要求通過輸入單元被輸入時,設(shè)置/呼叫連接單元204按照通過可用傳輸頻帶輸入或通過輸入單元輸入的來自用戶的要求,來選擇最佳的編碼格式或采樣頻率。然后,每個所需的指令被給予音頻獲取單元205、采樣頻率變換單元206、第一編碼單元207、第二編碼單元208、分組化單元209、發(fā)送單元210、接收單元211、載荷提取單元212、第一解碼單元213、第二解碼單元214和音頻再現(xiàn)單元217,以便按照所選擇的編碼格式執(zhí)行過程。
接收單元211通過使用由設(shè)置/呼叫連接單元204指定的端口或通過使用預(yù)設(shè)的端口經(jīng)網(wǎng)絡(luò)102接收被發(fā)送的分組。
載荷提取單元212從由接收單元211接收的分組中提取音頻編碼數(shù)據(jù)和編碼格式標(biāo)識符,并且按照來自設(shè)置/呼叫連接單元204的指令,向第一解碼單元213或第二解碼單元214提供被提取的音頻編碼數(shù)據(jù)。
第一解碼單元213和第二解碼單元214按照由設(shè)置/呼叫連接單元204指定的解碼格式或按照預(yù)設(shè)的解碼格式,對從載荷提取單元212提供的音頻編碼數(shù)據(jù)進(jìn)行解碼。
第一實施例中的描述涉及了其中第一解碼單元213通過使用MPEG-4AAC格式對音頻編碼數(shù)據(jù)進(jìn)行解碼且第二解碼單元214通過使用AMR-WB格式對音頻編碼數(shù)據(jù)進(jìn)行解碼的情況。與上述編碼單元類似,對第一解碼單元213和第二解碼單元214所使用的解碼格式?jīng)]有限制,并且任意格式都是可用的。此外,第一解碼單元213和第二解碼單元214不是必須使用不同種類的解碼格式,而是也可以使用相同的解碼格式,只要采樣頻率不同。雖然在第一實施例中,兩個解碼單元被示出以簡化說明,但是解碼單元的數(shù)目不限于兩個,并且可以是任何數(shù)目。
設(shè)置/呼叫連接單元204按照從通信伙伴的音頻通信裝置通知的編碼格式和被添加到分組的編碼格式標(biāo)識符的組合,來判斷接收到的音頻編碼數(shù)據(jù)的編碼格式,并且根據(jù)從分組提取的音頻編碼數(shù)據(jù)選擇最佳的解碼單元,并向載荷提取單元212提供指令。
因此,在第一實施例中,因為在發(fā)送側(cè)的音頻通信裝置中的編碼單元中被編碼的音頻編碼數(shù)據(jù)是通過接收側(cè)的音頻通信裝置中與編碼格式相對應(yīng)的解碼單元來再現(xiàn)的,所以即使音頻編碼數(shù)據(jù)的編碼格式在通信期間被轉(zhuǎn)變,數(shù)據(jù)也可以被正確地解碼。
緩沖控制單元215收縮或擴(kuò)張在第一解碼單元213或第二解碼單元214中解碼的音頻數(shù)據(jù),以適應(yīng)音頻數(shù)據(jù)緩沖器216的大小,并且將音頻數(shù)據(jù)存儲在音頻數(shù)據(jù)緩沖器216中。
音頻再現(xiàn)單元217順序讀取存儲在音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)(數(shù)字?jǐn)?shù)據(jù)),并將該音頻數(shù)據(jù)變換為由模擬信號構(gòu)成的音頻信號。此外,音頻再現(xiàn)單元217對經(jīng)A/D轉(zhuǎn)換的音頻信號按需進(jìn)行功率放大。經(jīng)音頻再現(xiàn)單元217D/A轉(zhuǎn)換的音頻信號被從充當(dāng)例如揚(yáng)聲器的音頻輸出單元203輸出。
附帶地,至少多個接收單元211或多個載荷提取單元212可以被布置,以對應(yīng)于多個解碼單元。在這種情況下,每個會話的編碼格式和設(shè)置信息(或端口號)是通過設(shè)置/呼叫連接單元204從通信伙伴的音頻通信裝置接收的,或者這些是在執(zhí)行音頻通信的音頻通信裝置之間預(yù)先確定的,從而即使沒有編碼格式標(biāo)識符,載荷提取單元212也可以基于接收到的會話(或端口號)將音頻編碼數(shù)據(jù)傳給合適的解碼單元。
如上所述,第一實施例的音頻通信裝置201按照例如SDP向通信伙伴的音頻通信裝置通知關(guān)于可用的編碼格式和解碼格式。當(dāng)可用的編碼格式和解碼格式是通過SDP通知時,編碼格式和解碼格式是通過由類似a=sendonly,a=recvonly這樣的描述列出的信息來表示的。在使用SDP的通信中,發(fā)送側(cè)的編碼格式可以與接收側(cè)的解碼格式不同,并且執(zhí)行音頻通信的音頻通信裝置可以不設(shè)有相似的編碼格式和相似的解碼格式。具體而言,當(dāng)SDP被使用時,即使執(zhí)行音頻通信的音頻通信裝置與相同編碼格式和解碼格式的組合不匹配,消息也可以被發(fā)送和接收。
另一方面,當(dāng)呼叫連接過程是通過使用SIP執(zhí)行時,圖1所示的音頻通信裝置101和音頻通信裝置103各自從呼叫連接服務(wù)器104獲得通信伙伴的音頻通信裝置的地址,并且通過使用SDP獲得相應(yīng)的編碼格式的信息等,以開始音頻通信。
關(guān)于SDP,在M.Handley,V.Jacobson,“SDPSession DescriptionProtocol”,RFC 2327,1998年4月,Internet<URLhttp//www.ietf.org/rfc/rfc2327.txt>等中給出了詳細(xì)的描述。此外,關(guān)于SIP,在M.Handley,H.Schulzrinne,E.Schooler,J.Rosenberg,“SIPSessionInitiation Protocol”,RFC 2543,1999年3月,Internet<URLhttp//www.ietf.org/rfc/rfc2543.txt>等中給出了詳細(xì)的描述。
現(xiàn)在,在圖2所示的音頻通信裝置201中,編碼格式被轉(zhuǎn)變使得它們在呼叫期間不造成音頻通信的停頓,在音頻獲取單元205中經(jīng)A/D轉(zhuǎn)換的音頻數(shù)據(jù)必須分別在第一編碼單元207和第二編碼單元208中被編碼。
這里,當(dāng)?shù)谝痪幋a單元207和第二編碼單元208在編碼格式和采樣頻率上不同時,在第一實施例中,在音頻獲取單元205中經(jīng)A/D轉(zhuǎn)換的音頻數(shù)據(jù)通過使用采樣頻率變換單元206被變換為與每個編碼格式相對應(yīng)的采樣頻率的音頻數(shù)據(jù)。
例如,考慮涉及了其中音頻獲取單元205在32kHz處執(zhí)行采樣,第一編碼單元207以32kHz的采樣頻率通過使用MPEG-4AAC格式對音頻數(shù)據(jù)進(jìn)行編碼,并且第二編碼單元208以16kHz的采樣頻率通過使用AMR-WB格式對音頻數(shù)據(jù)進(jìn)行編碼的情況。在這種情況下,采樣頻率變換單元206將音頻數(shù)據(jù)輸出到第一編碼單元207而不改變采樣頻率,并且在采樣頻率被變換為16kHz(下采樣)之后,將音頻數(shù)據(jù)輸出到第二編碼單元208。根據(jù)該操作,由一個音頻獲取單元205獲得的音頻數(shù)據(jù)可以按照每個編碼格式在多個編碼單元中被編碼。
當(dāng)在每個編碼單元中采樣頻率不同而編碼格式相似時,采樣頻率變換單元206執(zhí)行相同的過程。任何已知的技術(shù)都可用作采樣頻率的變換格式,因此省略了詳細(xì)說明。
在音頻數(shù)據(jù)的編碼格式中,存在一種格式,其中先前的音頻數(shù)據(jù)被使用并且編碼被執(zhí)行以編提高編碼效率。在這樣一種編碼格式中,從音頻信號被輸入到音頻編碼數(shù)據(jù)被輸出的時間里發(fā)生延遲。例如,在AMR-WB格式中,因為5ms前接收到的音頻數(shù)據(jù)被用于編碼過程,所以從音頻信號被輸入到音頻編碼數(shù)據(jù)被輸出的時間里發(fā)生5ms的延遲。此外,在MPEG-4 AAC格式中,因為在編碼過程中發(fā)生兩幀的延遲,所以當(dāng)采樣頻率為32kHz時,從音頻信號被輸入到音頻編碼數(shù)據(jù)被輸出的時間里發(fā)生64ms的延遲。因此,當(dāng)編碼格式在發(fā)送側(cè)被轉(zhuǎn)變時,每個編碼過程的起始點(diǎn)被調(diào)節(jié),以便使與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻同步。具體而言,如圖3所示,當(dāng)?shù)谝痪幋a單元207在相對于通過第二編碼單元208的AMR-WB格式的編碼起始點(diǎn)(t=0)的59ms延遲之后開始MPEG-4AAC格式的編碼過程時,從這些音頻編碼數(shù)據(jù)再現(xiàn)的兩個音頻信號重合。
另外,AMR-WB格式和MPEG-4AAC格式在編碼單元的幀長度上不同,在第一實施例中,考慮到每個編碼格式的幀長度的差異來調(diào)節(jié)改變時刻,以使與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號同步。具體而言,如圖3所示,當(dāng)相對于AMR-WB格式的八幀(AMR輸出編碼幀),MPEG-4AAC格式的五幀(AAC輸出編碼幀)被輸出時,編碼格式被轉(zhuǎn)變,從而從這些音頻編碼數(shù)據(jù)再現(xiàn)的兩個音頻信號重合。
在第一實施例的音頻通信裝置中,第一編碼單元207和第二編碼單元208不需要同時開始編碼過程,然而如上所述,考慮到通過每個編碼單元的編碼過程的開始(重新開始)的時間間隔或考慮到幀長度的差異來轉(zhuǎn)變編碼格式。另一方面,在接收側(cè)的音頻通信裝置中,每個解碼單元以幀為單位轉(zhuǎn)變解碼格式,從而音頻被再現(xiàn)而沒有停頓。
另外,在第一實施例的音頻通信裝置中,可以考慮到音頻數(shù)據(jù)的樣本數(shù)目來轉(zhuǎn)變編碼格式,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號按照由設(shè)置/呼叫連接單元204指定的編碼格式和采樣頻率或按照預(yù)先設(shè)置的編碼格式和采樣頻率而被同步。例如,當(dāng)采樣頻率為32kHz時,在AMR-WB格式中,每1[ms]的樣本的數(shù)目是16,并且在MPEG-4AAC編碼格式中,每1[ms]的樣本的數(shù)目是32。具體而言,可以在這樣的定時處轉(zhuǎn)變編碼格式,使得樣本數(shù)目的關(guān)系被維持。
在切換到具有不同頻率的相同編碼格式的情況中,當(dāng)相同的過程被執(zhí)行時,由轉(zhuǎn)變編碼格式造成的音頻質(zhì)量的劣化可以被抑制。
接下來,參照圖4對根據(jù)第一實施例的圖2所示的音頻通信裝置中的緩沖控制單元給出說明。
如圖4所示,第一實施例的緩沖控制單元215包括緩沖量監(jiān)視單元401、變換參數(shù)確定單元402和采樣頻率變換單元403。
如上所述,存儲在音頻數(shù)據(jù)緩沖器216中的數(shù)據(jù)的量根據(jù)由接收單元211接收的分組的到達(dá)時間的波動,并根據(jù)發(fā)送側(cè)的音頻獲取單元205的音頻獲取周期與接收側(cè)的音頻再現(xiàn)單元217的再現(xiàn)周期之間的差異而增加或減少。
存在音頻數(shù)據(jù)緩沖器216,為了應(yīng)對分組到達(dá)時間的波動以及音頻獲取周期與再現(xiàn)周期之間的差異,并為了應(yīng)對到達(dá)時間的大波動,而且因為緩沖器大小和要被存儲在音頻數(shù)據(jù)緩沖器216中的預(yù)期d音頻數(shù)據(jù)量(在下文中被稱為標(biāo)準(zhǔn)量)必須設(shè)得大,所以音頻通信的延遲將會增加。
在第一實施例中,音頻編碼數(shù)據(jù)的到達(dá)時間的波動在接收單元211中被測量,并且要被存儲在音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)的標(biāo)準(zhǔn)量被優(yōu)選地設(shè)置為適應(yīng)預(yù)期不會大的波動的幅度。
另外,為了應(yīng)對音頻數(shù)據(jù)緩沖器216的更小大小,緩沖控制單元215對經(jīng)解碼的音頻數(shù)據(jù)進(jìn)行處理,并且將其存儲在音頻數(shù)據(jù)緩沖器216中。此外,緩沖控制單元215通過緩沖量監(jiān)視單元401對存儲在音頻數(shù)據(jù)緩沖器216中的數(shù)據(jù)的量進(jìn)行監(jiān)視。
變換參數(shù)確定單元402按照音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)剩余量和由設(shè)置/呼叫連接單元204指定的編碼格式來確定變換后的采樣頻率。
采樣頻率變換單元403將被輸入緩沖控制單元215的音頻數(shù)據(jù)的采樣頻率變換為由變換參數(shù)確定單元401確定的采樣頻率,并將該采樣頻率輸出到音頻數(shù)據(jù)緩沖器216。例如,當(dāng)不存在到不同編碼格式和到不同采樣頻率的音頻數(shù)據(jù)的轉(zhuǎn)變時,并且當(dāng)音頻數(shù)據(jù)緩沖器216中的數(shù)據(jù)量趨于減少時,采樣頻率變換單元403執(zhí)行頻率變換(上采樣),使得采樣頻率按照其比而變高。在這種情況下,因為音頻數(shù)據(jù)的樣本數(shù)目增加了,所以存儲在音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的減少可以被補(bǔ)償。另一方面,當(dāng)音頻數(shù)據(jù)緩沖器216中的數(shù)據(jù)量趨于增加時,采樣頻率變換單元403執(zhí)行頻率變換(下采樣)使得采樣頻率變低。在這種情況下,因為音頻數(shù)據(jù)的樣本數(shù)目減少了,故存儲在音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)的增加可以被抑制。
為了轉(zhuǎn)變從第一解碼單元213輸出的音頻數(shù)據(jù)和從第二解碼單元214輸出的音頻數(shù)據(jù)而不停頓,這些音頻數(shù)據(jù)必須被存儲在單獨(dú)的音頻數(shù)據(jù)緩沖器216中并被再現(xiàn)。
當(dāng)解碼格式被轉(zhuǎn)變時,緩沖控制單元215按照解碼格式執(zhí)行稍后描述的采樣頻率的變換過程,以便除了執(zhí)行變換采樣頻率的過程,還調(diào)節(jié)數(shù)據(jù)緩沖器216中的數(shù)據(jù)的量,如上所述。
具體而言,頻率變換被執(zhí)行,使得由AMR-WB格式解碼并從第二解碼單元214輸出的音頻數(shù)據(jù)的采樣頻率(16kHz)與由MPEG-4AAC格式解碼并從第一解碼單元213輸出的音頻數(shù)據(jù)的采樣頻率(32kHz)一致。然而,當(dāng)采樣頻率不同時,可對其應(yīng)用編碼過程和解碼過程的音頻信號的頻帶不同。因此,當(dāng)音頻數(shù)據(jù)被轉(zhuǎn)變?yōu)椴煌慕獯a格式時,再現(xiàn)的音頻信號的頻帶差異在一些情況下造成收聽的不適。
在按照恒定采樣周期執(zhí)行編碼過程的方法中,類似MPEG-4AAC格式,由編碼過程造成的延遲是通過提高采樣頻率來減少的,然而,雖然編碼比特率是相同的,但是要被發(fā)送到網(wǎng)絡(luò)102的分組的數(shù)量增加了,因此(RTP/)UDP(用戶數(shù)據(jù)報協(xié)議)/IP頭所需的開銷量增加了。因此,在可用傳輸頻帶較低的傳輸路徑中,雖然延遲較大,但是采樣頻率通過較小的開銷量被降低,以維持音頻質(zhì)量。此外,在具有足夠的可用傳輸頻帶的傳輸路徑中,雖然開銷量較大,但是也存在一種可用技術(shù),其中采樣頻率被提高并且有較小延遲量的傳輸被執(zhí)行。
然而,雖然有這樣一種技術(shù),但是無法除去由再現(xiàn)音頻頻帶的差異而造成的不適。因此,為了抑制這種不適,第一實施例的音頻通信裝置,a)變換采樣頻率以適應(yīng)更低的采樣頻率,并且b)將每個編碼單元中的碼字(code word)分配給具有最低采樣頻率的音頻數(shù)據(jù)的頻帶。
特別地,當(dāng)只有語音而非音樂被發(fā)送時,限制在第一編碼單元207和第二編碼單元208中被分配給碼字的頻帶可以帶來音頻質(zhì)量的提高。此外在第一實施例中,當(dāng)多種編碼格式和采樣頻率的音頻編碼數(shù)據(jù)被接收時,僅對一個音頻編碼數(shù)據(jù)執(zhí)行解碼過程,因此,解碼過程所需的操作量的增加可以被抑制到最小。
當(dāng)要被存儲在音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)有可能將為空時,緩沖量監(jiān)視單元401指示填充數(shù)據(jù)插入單元404將無聲音頻數(shù)據(jù)插入音頻數(shù)據(jù)緩沖器216,以補(bǔ)償音頻數(shù)據(jù)??商鎿Q的,緩沖量監(jiān)視單元401指示再現(xiàn)音頻數(shù)據(jù)的解碼單元按照解碼單元的解碼格式,通過差錯消隱(隱藏)過程輸出音頻數(shù)據(jù),并將該音頻數(shù)據(jù)插入音頻數(shù)據(jù)緩沖器216。根據(jù)這些過程,可以防止當(dāng)音頻數(shù)據(jù)緩沖器216變空時造成的再現(xiàn)音頻的停頓。
另外,當(dāng)存儲在音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)將要溢出時,緩沖量監(jiān)視單元401給出指令以保證被輸入采樣頻率更改單元403的音頻數(shù)據(jù)將被丟棄,這防止了再現(xiàn)音頻信號的停頓。這時,按照輸入音頻數(shù)據(jù)的音量(電功率)和幅度中的至少一個而被確定為無聲的音頻數(shù)據(jù)被丟棄,從而將再現(xiàn)音頻信號的劣化抑制到最小。
緩沖量監(jiān)視單元401可以按照來自設(shè)置/呼叫連接單元204、音頻再現(xiàn)單元217、第一解碼單元213和第二解碼單元214中的至少一個的指令來執(zhí)行上面的過程,或者可以通過利用定時器等按照預(yù)定的時間來執(zhí)行上面的過程。音頻再現(xiàn)單元217的指令是每當(dāng)音頻再現(xiàn)單元217再現(xiàn)了恒定量的音頻數(shù)據(jù)就指示緩沖量監(jiān)視單元401檢查音頻數(shù)據(jù)緩沖器216中的剩余數(shù)據(jù)量的指令,并且上面的過程可以按照監(jiān)視結(jié)果來執(zhí)行。
另外,第一實施例的音頻通信裝置201可以在接收單元211之后的單元處設(shè)有接收緩沖器218,并且由接收緩沖器218接收的音頻編碼數(shù)據(jù)可以被臨時存儲。在這種情況下,每當(dāng)恒定量的音頻數(shù)據(jù)被再現(xiàn),音頻再現(xiàn)單元217就可以指示接收緩沖器218將所存儲的音頻編碼數(shù)據(jù)的第一數(shù)據(jù)輸出到載荷提取單元212。此時,當(dāng)接收緩沖器218為空時,再現(xiàn)音頻數(shù)據(jù)的解碼單元被指示按照解碼單元的解碼格式通過使用差錯消隱過程輸出音頻數(shù)據(jù)。在這種情況下,音頻再現(xiàn)單元217中的音頻再現(xiàn)變成了使過程開始的觸發(fā),并且與音頻數(shù)據(jù)消耗量相對應(yīng)的后續(xù)音頻編碼數(shù)據(jù)被從接收緩沖器218輸出。因此,因為要被存儲在音頻數(shù)據(jù)緩沖器216中的音頻數(shù)據(jù)的標(biāo)準(zhǔn)量可以被設(shè)置為最小,所以音頻通信可以被幾乎不延遲地執(zhí)行。
轉(zhuǎn)變音頻數(shù)據(jù)的編碼格式的優(yōu)點(diǎn)如下,類似第一實施例的音頻通信裝置,編碼格式可以按照用戶所要求的音頻質(zhì)量和延遲時間或按照通信期間傳輸路徑的可用頻帶來被最佳地轉(zhuǎn)變。
在第一實施例中,第一編碼單元207和第一解碼單元213所使用的MPEG-4AAC格式是不但可以傳輸音頻而且可以傳輸音樂的高質(zhì)量編碼格式,并且編碼和解碼所需的處理時間變得較長。另一方面,因為第二編碼單元208和第二解碼單元214所使用的AMR-WB格式是專用于語音信號的編碼格式,而不適于傳輸象音樂這樣的寬帶信號。然而,在AMR-WB格式中,因為編碼和解碼所需的處理時間短并且編碼比特率低,故即使在傳輸頻帶受限的通信環(huán)境中也可以實現(xiàn)穩(wěn)定的音頻通信。
第一實施例的音頻通信裝置設(shè)有用于音頻數(shù)據(jù)的多個編碼單元和解碼單元,因此,即使用于發(fā)送和接收的編碼格式和解碼格式不一致,音頻通信也變得可能。例如,雖然在上行鏈路(發(fā)送)與下行鏈路(接收)之間的傳輸路徑或頻帶方面具有非對稱穩(wěn)定性的網(wǎng)絡(luò)被使用,但是音頻通信是可能的。具體而言,在上行鏈路的頻帶受限且下行鏈路的頻帶充足的通信環(huán)境中,通過使用第二編碼單元208通過AMR-WB格式編碼的音頻編碼數(shù)據(jù)通過上行鏈路被發(fā)送,通過MPEG-4AAC格式編碼的音頻編碼數(shù)據(jù)通過下行鏈路被接收,并且音頻數(shù)據(jù)可以在第一解碼單元213中被解碼和再現(xiàn)。因此,更高質(zhì)量的穩(wěn)定的音頻通信可以被實現(xiàn)。
如上所述,編碼格式不但可以按照如上所述的來自設(shè)置/呼叫連接單元204的指令或者預(yù)先設(shè)置的指令被轉(zhuǎn)變,而且,通過使用設(shè)置/呼叫連接單元204,例如類似分組到達(dá)時間的波動和分組丟失這樣的分組到達(dá)狀態(tài)被通知到通信伙伴的音頻通信裝置,并且可以按照分組到達(dá)狀態(tài)來轉(zhuǎn)變編碼格式。另外,一種指示發(fā)送側(cè)的音頻通信裝置轉(zhuǎn)變編碼格式的方法也可以使用。
(第二實施例)接下來,參照附圖對根據(jù)本發(fā)明的第二實施例的音頻通信裝置給出說明。
圖5是示出了本發(fā)明的音頻通信裝置中的根據(jù)第二實施例的緩沖控制單元的配置的框圖。
第二實施例的音頻通信裝置在緩沖控制器215的配置上與第一實施例不同。其他配置和操作與第一實施例的那些類似,因此其詳細(xì)說明被省略。
如圖5所示,第二實施例的緩沖控制單元具有數(shù)據(jù)選擇確定單元501來代替在第一實施例中示出的參數(shù)確定單元402和采樣頻率變換單元403。緩沖量監(jiān)視單元401和填充數(shù)據(jù)插入單元404與第一實施例的那些類似,并且其說明被省略。
按照被緩沖量監(jiān)視單元401監(jiān)視的音頻數(shù)據(jù)緩沖器216的結(jié)果,當(dāng)存儲在音頻數(shù)據(jù)緩沖器216中的數(shù)據(jù)的量趨于增加時,數(shù)據(jù)選擇確定單元501對由第一解碼單元213或第二解碼單元214解碼的音頻進(jìn)行挑選,并且將音頻數(shù)據(jù)存儲在音頻數(shù)據(jù)緩沖器216中。此時,數(shù)據(jù)選擇確定單元501確定音頻數(shù)據(jù)的量,并且把被確定為無聲的音頻數(shù)據(jù)丟棄,從而使再現(xiàn)音頻信號的劣化最小化。
因為第二實施例的音頻通信裝置對音頻數(shù)據(jù)進(jìn)行了挑選,所以再現(xiàn)音頻質(zhì)量與第一實施例的音頻通信裝置的質(zhì)量相比有可能會劣化。然而,因為沒有執(zhí)行諸如采樣頻率變換這樣需要大量操作的過程,所以當(dāng)移動電話等被用作音頻通信裝置時,很容易應(yīng)用。
權(quán)利要求
1.一種音頻通信方法,包括以下步驟通過使用多種可用編碼格式對要被發(fā)送的每項音頻數(shù)據(jù)進(jìn)行編碼;發(fā)送音頻編碼數(shù)據(jù)中的至少一種音頻編碼數(shù)據(jù),所述音頻編碼數(shù)據(jù)是編碼后的所述音頻數(shù)據(jù);當(dāng)所述音頻編碼數(shù)據(jù)被接收到時,通過多種可用解碼格式中的用于所述音頻編碼數(shù)據(jù)的合適編碼格式對所述音頻編碼數(shù)據(jù)進(jìn)行解碼;將編碼后的所述音頻數(shù)據(jù)臨時存儲在音頻數(shù)據(jù)緩沖器中;以及從所述音頻數(shù)據(jù)緩沖器順序地讀取所述音頻數(shù)據(jù),并再現(xiàn)所述音頻數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,所述多種編碼格式是互不相同的采樣頻率。
3.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,用于要被發(fā)送的音頻編碼數(shù)據(jù)的編碼格式不同于與用于所接收的音頻編碼數(shù)據(jù)的解碼格式相對應(yīng)的編碼格式。
4.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,每個編碼格式的過程開始時刻被移動,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號被同步。
5.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,每個編碼格式中的音頻數(shù)據(jù)的樣本數(shù)目被設(shè)置為使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號被同步。
6.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,所述編碼格式的轉(zhuǎn)變時刻按照在每個編碼格式中不同的將成為編碼單位的幀長度被調(diào)節(jié),使得與編碼后的音頻信號編碼數(shù)據(jù)相對應(yīng)的音頻被同步。
7.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,所述音頻編碼數(shù)據(jù)是通過幀單位編碼的,所述幀單位在每個編碼格式中不同。
8.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,要被發(fā)送的每種音頻數(shù)據(jù)的采樣頻率被變換為與每個編碼格式相對應(yīng)的采樣頻率。
9.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,為每個編碼格式分配的碼字頻帶被設(shè)置為在多種編碼格式中具有最低采樣頻率的音頻數(shù)據(jù)的頻帶。
10.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,音頻編碼數(shù)據(jù)被另外提供了與所述音頻編碼數(shù)據(jù)的編碼格式相對應(yīng)的編碼格式標(biāo)識符,并被發(fā)送。
11.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,要被發(fā)送的音頻編碼數(shù)據(jù)按照可用傳輸路徑的頻帶和來自用戶的通過輸入格式輸入的要求中的至少一個被選擇。
12.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,解碼后的音頻數(shù)據(jù)的采樣頻率按照存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)量被變換。
13.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,作為存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的目標(biāo)量的標(biāo)準(zhǔn)量被設(shè)置為適應(yīng)音頻編碼數(shù)據(jù)的到達(dá)時間的波動。
14.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,當(dāng)存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的量超過所述音頻數(shù)據(jù)緩沖器的大小時,被確定為無聲的音頻數(shù)據(jù)被丟棄。
15.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,當(dāng)存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的量變空時,音頻數(shù)據(jù)被補(bǔ)償。
16.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,所接收的音頻編碼數(shù)據(jù)被臨時存儲在接收緩沖器中,每當(dāng)預(yù)定量的音頻數(shù)據(jù)被再現(xiàn)時,存儲在所述接收緩沖器中的第一音頻編碼數(shù)據(jù)就被輸出,并且當(dāng)所述接收緩沖器為空時,音頻數(shù)據(jù)被補(bǔ)償。
17.根據(jù)權(quán)利要求15所述的音頻通信方法,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是無聲音頻數(shù)據(jù)。
18.根據(jù)權(quán)利要求15所述的音頻通信方法,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是按照所述解碼格式的差錯消隱編碼數(shù)據(jù)。
19.根據(jù)權(quán)利要求16所述的音頻通信方法,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是無聲音頻數(shù)據(jù)。
20.根據(jù)權(quán)利要求16所述的音頻通信方法,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是按照所述解碼格式的差錯消隱編碼數(shù)據(jù)。
21.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,用于所接收的音頻編碼數(shù)據(jù)的解碼格式是按照以下至少一種信息來選擇的被添加到所接收的音頻編碼數(shù)據(jù)的標(biāo)識編碼格式的編碼格式標(biāo)識符、通過呼叫連接過程得到的編碼格式信息、通過所述呼叫連接過程得到并且與編碼有關(guān)的設(shè)置信息、以及用于接收音頻編碼數(shù)據(jù)的會話。
22.根據(jù)權(quán)利要求1所述的音頻通信方法,其中,到達(dá)狀態(tài)被發(fā)送到通信伙伴,所述到達(dá)狀態(tài)包括所接收的音頻編碼數(shù)據(jù)的丟失率或到達(dá)時間的波動,并且,當(dāng)所述到達(dá)狀態(tài)被接收到時,要被發(fā)送的音頻編碼數(shù)據(jù)的編碼格式和采樣頻率中的至少一個按照所述到達(dá)狀態(tài)被轉(zhuǎn)變。
23.一種音頻通信裝置,包括音頻獲取單元,用于生成從要被發(fā)送的音頻信號通過預(yù)定采樣頻率被數(shù)字化的音頻數(shù)據(jù);多個編碼單元,每個通過使用多種可用編碼格式對所述音頻數(shù)據(jù)進(jìn)行編碼;發(fā)送單元,用于發(fā)送音頻編碼數(shù)據(jù)中的至少一種音頻編碼數(shù)據(jù),所述音頻編碼數(shù)據(jù)是編碼后的所述音頻數(shù)據(jù);多個解碼單元,當(dāng)所述音頻編碼數(shù)據(jù)被接收到時,多個解碼單元中的每個通過使用多種可用解碼格式中的用于所述音頻編碼數(shù)據(jù)的合適解碼格式,對所述音頻編碼數(shù)據(jù)進(jìn)行解碼,并且通過使用不同的解碼格式,對所述音頻編碼數(shù)據(jù)中的每個進(jìn)行解碼;音頻數(shù)據(jù)緩沖器,所述音頻數(shù)據(jù)緩沖器臨時存儲被所述解碼單元解碼的音頻數(shù)據(jù);音頻再現(xiàn)單元,所述音頻再現(xiàn)單元用于從所述音頻數(shù)據(jù)緩沖器順序地讀取所述音頻數(shù)據(jù),并再現(xiàn)所述音頻數(shù)據(jù);以及設(shè)置/呼叫連接單元,用于控制所述編碼格式和所述解碼格式的轉(zhuǎn)變。
24.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述多個編碼單元中的每個單元利用不同采樣頻率執(zhí)行編碼。
25.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,要通過所述發(fā)送單元發(fā)送的音頻編碼數(shù)據(jù)的編碼格式不同于與用于對所接收的音頻編碼數(shù)據(jù)解碼的解碼格式相對應(yīng)的編碼格式。
26.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述多個編碼單元的每個將過程開始時刻移動,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號被同步。
27.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述多個編碼單元設(shè)置用于音頻數(shù)據(jù)的樣本的每個數(shù)目,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號被同步。
28.根據(jù)權(quán)利要求22所述的音頻通信裝置,其中,所述多個編碼單元按照在每個編碼格式中不同的將成為編碼單位的幀長度來調(diào)節(jié)所述編碼格式的轉(zhuǎn)變時刻,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻信號被同步。
29.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述多個解碼單元通過使用每個編碼格式中的不同幀單位對音頻編碼數(shù)據(jù)進(jìn)行解碼。
30.根據(jù)權(quán)利要求23所述的音頻通信裝置,還包括采樣頻率變換單元,采樣頻率變換單元將要被發(fā)送的音頻數(shù)據(jù)的采樣頻率變換為與所述編碼單元的編碼格式相對應(yīng)的每個采樣頻率。
31.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述多個編碼單元將被分配給每個編碼格式的碼字頻帶設(shè)置為直到在多種編碼格式中具有最低采樣頻率的音頻數(shù)據(jù)的頻帶。
32.根據(jù)權(quán)利要求23所述的音頻通信裝置,還包括分組化單元,用于添加與所述音頻編碼數(shù)據(jù)的編碼格式相對應(yīng)的編碼格式標(biāo)識符,并發(fā)送所述音頻編碼數(shù)據(jù)。
33.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述設(shè)置/呼叫連接單元允許所述發(fā)送單元按照可用傳輸路徑的頻帶和來自用戶的通過輸入裝置輸入的要求中的至少一個來選擇要被發(fā)送的音頻編碼數(shù)據(jù)。
34.根據(jù)權(quán)利要求23所述的音頻通信裝置,還包括緩沖控制單元,用于按照存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)量,對解碼后的音頻數(shù)據(jù)的采樣頻率進(jìn)行變換。
35.根據(jù)權(quán)利要求34所述的音頻通信裝置,其中,所述緩沖控制單元將作為存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的目標(biāo)量的標(biāo)準(zhǔn)量設(shè)置為適應(yīng)音頻編碼數(shù)據(jù)的到達(dá)時間的波動。
36.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,當(dāng)存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的量超過所述音頻數(shù)據(jù)緩沖器的大小時,所述緩沖控制單元丟棄被確定為無聲的音頻數(shù)據(jù)。
37.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,當(dāng)存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)變空時,所述緩沖控制單元補(bǔ)償音頻數(shù)據(jù)。
38.根據(jù)權(quán)利要求23所述的音頻通信裝置,還包括接收緩沖器,所述接收緩沖器臨時存儲所接收的音頻編碼數(shù)據(jù);其中,每當(dāng)預(yù)定量的音頻數(shù)據(jù)被再現(xiàn)時,所述音頻再現(xiàn)單元給出指令以輸出存儲在所述接收緩沖器中的第一音頻編碼數(shù)據(jù),并且當(dāng)所述接收緩沖器為空時,所述音頻再現(xiàn)單元給出指令以輸出補(bǔ)償音頻數(shù)據(jù)。
39.根據(jù)權(quán)利要求37所述的音頻通信裝置,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是無聲音頻數(shù)據(jù)。
40.根據(jù)權(quán)利要求37所述的音頻通信裝置,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是按照所述解碼格式的差錯消隱編碼數(shù)據(jù)。
41.根據(jù)權(quán)利要求38所述的音頻通信裝置,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是無聲音頻數(shù)據(jù)。
42.根據(jù)權(quán)利要求38所述的音頻通信裝置,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是按照所述解碼格式的差錯消隱編碼數(shù)據(jù)。
43.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述設(shè)置/呼叫連接單元按照以下至少一條信息來選擇用于所接收的音頻編碼數(shù)據(jù)的解碼格式被添加到所接收的音頻編碼數(shù)據(jù)的標(biāo)識編碼格式的編碼格式標(biāo)識符、通過呼叫連接過程得到的編碼格式信息、通過所述呼叫連接過程得到并且與編碼有關(guān)的設(shè)置信息、以及用于接收音頻編碼數(shù)據(jù)的會話。
44.根據(jù)權(quán)利要求23所述的音頻通信裝置,其中,所述設(shè)置/呼叫連接單元將所接收的數(shù)據(jù)的到達(dá)狀態(tài)發(fā)送到通信伙伴,所述到達(dá)狀態(tài)包括所接收的音頻編碼數(shù)據(jù)的丟失率或到達(dá)時間的波動,并且,當(dāng)所述到達(dá)狀態(tài)被接收到時,所述設(shè)置/呼叫連接單元按照所述到達(dá)狀態(tài),轉(zhuǎn)變要被發(fā)送的音頻編碼數(shù)據(jù)的編碼格式和采樣頻率中的至少一個。
45.一種具有通過網(wǎng)絡(luò)互相連接的根據(jù)權(quán)利要求23的音頻通信裝置的音頻通信系統(tǒng)。
46.根據(jù)權(quán)利要求45所述的音頻通信系統(tǒng),還包括呼叫連接服務(wù)器,所述呼叫連接服務(wù)器提供在音頻通信裝置之間建立呼叫所需的信息,并且被連接使得能夠通過網(wǎng)絡(luò)與所述音頻通信裝置通信。
47.一種使計算機(jī)執(zhí)行過程的程序,所述計算機(jī)對于每條音頻數(shù)據(jù)通過網(wǎng)絡(luò)互相發(fā)送和接收音頻數(shù)據(jù),所述過程包括通過使用多種可用編碼格式對作為要發(fā)送的對象的通過預(yù)定采樣頻率被數(shù)字化的每項音頻數(shù)據(jù)進(jìn)行編碼;從發(fā)送單元發(fā)送音頻編碼數(shù)據(jù)中的至少一種音頻編碼數(shù)據(jù),所述音頻編碼數(shù)據(jù)是編碼后的所述音頻數(shù)據(jù);當(dāng)所述音頻編碼數(shù)據(jù)被接收到時,通過多種可用解碼格式中的適合用于所述音頻編碼數(shù)據(jù)的解碼格式,對所述音頻編碼數(shù)據(jù)進(jìn)行解碼;將編碼后的所述音頻數(shù)據(jù)臨時存儲在音頻數(shù)據(jù)緩沖器中;以及從所述音頻數(shù)據(jù)緩沖器順序地讀取所述音頻數(shù)據(jù),并再現(xiàn)所述音頻數(shù)據(jù)。
48.根據(jù)權(quán)利要求47所述的程序,其中,多種編碼格式是互不相同的采樣頻率。
49.根據(jù)權(quán)利要求47所述的程序,其中,要被發(fā)送的音頻編碼數(shù)據(jù)的編碼格式不同于與用于對所接收的音頻編碼數(shù)據(jù)進(jìn)行解碼的解碼格式相對應(yīng)的編碼格式。
50.根據(jù)權(quán)利要求47所述的程序,其中,每個編碼格式的過程開始時刻被移動,使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻被同步。
51.根據(jù)權(quán)利要求47所述的程序,其中,每個編碼格式中的音頻數(shù)據(jù)的樣本數(shù)目被各自設(shè)置為使得與編碼后的音頻編碼數(shù)據(jù)相對應(yīng)的音頻被同步。
52.根據(jù)權(quán)利要求47所述的程序,其中,所述編碼格式的轉(zhuǎn)變時刻按照在每個編碼格式中不同的將成為編碼單位的幀長度被調(diào)節(jié),使得與編碼后的音頻信號編碼數(shù)據(jù)相對應(yīng)的音頻被同步。
53.根據(jù)權(quán)利要求47所述的程序,其中,所述音頻編碼數(shù)據(jù)是通過幀單位編碼的,所述幀單位在每個編碼格式中不同。
54.根據(jù)權(quán)利要求47所述的程序,其中,要被發(fā)送的每條音頻數(shù)據(jù)的采樣頻率被各自變換為與每個編碼格式相對應(yīng)的采樣頻率。
55.根據(jù)權(quán)利要求47所述的程序,其中,為每個編碼格式分配的碼字頻帶被設(shè)置為在多種編碼格式中具有最低采樣頻率的音頻數(shù)據(jù)的頻帶。
56.根據(jù)權(quán)利要求47所述的程序,其中,音頻編碼數(shù)據(jù)被另外提供了與所述音頻編碼數(shù)據(jù)的編碼格式相對應(yīng)的編碼格式標(biāo)識符,并被從發(fā)送單元發(fā)送。
57.根據(jù)權(quán)利要求47所述的程序,其中,要被發(fā)送的音頻編碼數(shù)據(jù)按照可用傳輸路徑的頻帶和來自用戶的通過輸入裝置輸入的要求中的至少一個被選擇。
58.根據(jù)權(quán)利要求47所述的程序,其中,編碼后的音頻數(shù)據(jù)的采樣頻率按照存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)量被變換。
59.根據(jù)權(quán)利要求47所述的程序,其中,作為存儲在所述音頻數(shù)據(jù)緩沖器中的目標(biāo)的音頻數(shù)據(jù)的量的標(biāo)準(zhǔn)量被設(shè)置為適應(yīng)音頻編碼數(shù)據(jù)的到達(dá)時間的波動。
60.根據(jù)權(quán)利要求47所述的程序,其中,當(dāng)存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)的量超過所述音頻數(shù)據(jù)緩沖器的大小時,被確定為無聲的音頻數(shù)據(jù)被丟棄。
61.根據(jù)權(quán)利要求47所述的程序,其中,當(dāng)存儲在所述音頻數(shù)據(jù)緩沖器中的音頻數(shù)據(jù)量為空時,音頻數(shù)據(jù)被補(bǔ)償。
62.根據(jù)權(quán)利要求47所述的程序,其中,所接收的音頻編碼數(shù)據(jù)被臨時存儲在接收緩沖器中,每當(dāng)預(yù)定量的音頻數(shù)據(jù)被再現(xiàn)時,存儲在所述接收緩沖器中的第一音頻編碼數(shù)據(jù)就被輸出,并且當(dāng)所述接收緩沖器為空時,音頻數(shù)據(jù)被補(bǔ)償。
63.根據(jù)權(quán)利要求61所述的程序,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是無聲音頻數(shù)據(jù)。
64.根據(jù)權(quán)利要求61所述的程序,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是按照所述解碼格式的差錯消隱編碼數(shù)據(jù)。
65.根據(jù)權(quán)利要求62所述的程序,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是無聲音頻數(shù)據(jù)。
66.根據(jù)權(quán)利要求62所述的程序,其中,所述要被補(bǔ)償?shù)囊纛l數(shù)據(jù)是按照所述解碼格式的差錯消隱編碼數(shù)據(jù)。
67.根據(jù)權(quán)利要求47所述的程序,其中,用于所接收的音頻編碼數(shù)據(jù)的解碼格式是按照如下至少一條信息來選擇的被添加到所接收的音頻編碼數(shù)據(jù)的標(biāo)識編碼格式的編碼格式標(biāo)識符、通過呼叫連接過程得到的編碼格式信息、通過所述呼叫連接過程得到并且與編碼有關(guān)的設(shè)置信息、以及用于接收音頻編碼數(shù)據(jù)的會話。
68.根據(jù)權(quán)利要求47所述的程序,其中,所接收的數(shù)據(jù)的到達(dá)狀態(tài)被發(fā)送單元發(fā)送到通信伙伴,所述到達(dá)狀態(tài)包括所接收的音頻編碼數(shù)據(jù)的丟失率或到達(dá)波動,并且,當(dāng)所述到達(dá)狀態(tài)被接收到時,要被發(fā)送的音頻編碼數(shù)據(jù)的編碼格式和采樣頻率中的至少一個按照所述到達(dá)狀態(tài)被轉(zhuǎn)變。
全文摘要
一種音頻通信裝置(201)包括多個編碼單元和解碼單元,并按照可用傳輸頻帶或用戶音頻質(zhì)量要求或延遲要求,將編碼格式從一個轉(zhuǎn)變?yōu)榱硪粋€。通過根據(jù)被添加到數(shù)據(jù)的編碼格式標(biāo)識符或從通信伙伴的音頻通信裝置(201)通知的設(shè)置信息選擇最佳的解碼單元,接收到的音頻編碼數(shù)據(jù)被解碼。解碼后的音頻數(shù)據(jù)被臨時存儲在音頻數(shù)據(jù)緩沖器(216)中并被再現(xiàn)。存儲在音頻數(shù)據(jù)緩沖器(216)中的音頻數(shù)據(jù)的量被控制為使得音頻被再現(xiàn)而不停頓。
文檔編號G10L19/00GK1947407SQ200580012878
公開日2007年4月11日 申請日期2005年4月8日 優(yōu)先權(quán)日2004年4月9日
發(fā)明者出井洋明, 小澤一范, 中澤達(dá)也, 小山和廣 申請人:日本電氣株式會社