專利名稱:對于語音代碼進(jìn)行數(shù)據(jù)嵌入/抽取方法、裝置以及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及將分組語音(音頻)通信或數(shù)字語音存儲等作為適用領(lǐng)域的數(shù)字語音信號處理技術(shù),特別是涉及通過在保持遵照數(shù)據(jù)格式標(biāo)準(zhǔn)的同時,并且不損害語音質(zhì)量地將用語音編碼技術(shù)所壓縮的語音代碼(數(shù)字代碼)的一部分替換為任意的數(shù)據(jù),將該數(shù)據(jù)嵌入到語音代碼的數(shù)據(jù)嵌入技術(shù)。
背景技術(shù):
相關(guān)的數(shù)據(jù)嵌入技術(shù),與適用于數(shù)字移動無線系統(tǒng)或以VoIP所代表的分組語音傳送系統(tǒng)、數(shù)字語音存儲等的語音編碼技術(shù)關(guān)聯(lián)起來,作為通過不對傳送比特序列帶來影響地嵌入著作權(quán)或ID信息使通話的保密性提高的電子水印技術(shù)或者功能擴(kuò)展技術(shù),它的需要以及重要性正日益增高。
以因特網(wǎng)的爆炸式的普及為背景對用IP分組來傳送語音數(shù)據(jù)的因特網(wǎng)電話的需要正日益增高。通過分組傳送語音數(shù)據(jù),就產(chǎn)生能夠一體地傳送命令或圖像數(shù)據(jù)等不同媒體的優(yōu)點(diǎn)。但是,迄今為止以用不同的信道獨(dú)立地進(jìn)行傳送的多媒體通信為主。另外,通過插入廣告等來降低用戶的通話費(fèi)用的服務(wù)也在進(jìn)行,但僅是在開始了通話的起始部分。另外,通過分組傳送語音數(shù)據(jù),就能夠一體地傳送命令或圖像數(shù)據(jù)等不同的媒體,但由于傳送格式為公眾所知,在保密性上就會出問題。以這些為背景,將著作權(quán)信息等嵌入到語音壓縮數(shù)據(jù)(代碼)中的“電子水印”技術(shù)就得以提案。
另一方面,在傳送時,作為提高傳送效率的目的采用高效率地壓縮語音的語音編碼技術(shù)。特別是在VoIP領(lǐng)域中,作為國際標(biāo)準(zhǔn)化機(jī)構(gòu)的ITU-T(國際電信聯(lián)盟電信電話標(biāo)準(zhǔn)化部門)所規(guī)定的G.729等的語音編碼技術(shù)正成為主流。另外,在移動通信的領(lǐng)域中也采用G.729或3GPP(The Third Generation Partnership Project)所規(guī)定的AMR(Adaptive Multi Rate)等的語音編碼技術(shù)。它們當(dāng)中的共通點(diǎn)是以稱作GLEP(Code Excited Linear Prediction)算法為基礎(chǔ)。G.729的編碼方式以及解碼方式如下面那樣。
·編碼器的構(gòu)成以及動作圖41是ITU-T建議的G.729方式的編碼器的結(jié)構(gòu)圖。在圖41中,相當(dāng)于每1幀的預(yù)定采樣數(shù)(=N)的輸入信號(語音信號)X以幀為單位輸入到LPC分析單元。如果將采樣速度設(shè)為8kHz、1幀期間設(shè)為10msec,1幀就是80個采樣。LPC分析單元1,將人的聲道看作是用下面公式所表示的全極式濾波器,H(z)=1/[1+∑αi·z-i](i=1~P)(1)并求出此濾波器的系數(shù)αi(i=1,…,p)。這里,P是濾波器次數(shù)。一般在電話頻帶語音的情況下,作為p使用10~20的值。在LPC(線性預(yù)測)分析單元1中,使用輸入信號80個采樣和先讀部分的40個采樣以及過去的信號120個采樣的合計(jì)240采樣來進(jìn)行LPC分析并求出LPC系數(shù)。
參數(shù)變換單元2,將LPC系數(shù)變換成LSP(線性頻譜對)參數(shù)。這里,LSP參數(shù)是,能夠與LPC系數(shù)相互進(jìn)行變換的頻率區(qū)域的參數(shù),由于量化特性比LPC系數(shù)還要出色,故量化在LSP的區(qū)域進(jìn)行。LSP量化單元3對所變換的LSP參數(shù)進(jìn)行量化并求出LSP代碼和LSP逆量化值。LSP內(nèi)插單元4,從由當(dāng)前幀所求出的LSP逆量化值和由前一幀所求出的LSP逆量化值來求出LSP內(nèi)插值。即,1幀被分割成5msec的第1、第2的2個子幀,LPC分析單元1決定第2子幀的LPC系數(shù),但不決定第1子幀的LPC系數(shù)。所以,LSP內(nèi)插單元4,使用由當(dāng)前幀所求出的LSP逆量化值和由前一幀所求出的LSP逆量化值通過內(nèi)插運(yùn)算來預(yù)測第1子幀的LSP逆量化值。
參數(shù)逆變換單元5,分別將LSP逆量化值和LSP內(nèi)插值變換成LPC系數(shù)并設(shè)定到LPC合成濾波器6。在此情況下,作為LPC合成濾波器6的濾波器系數(shù),在幀的第1子幀中使用從內(nèi)插值所變換的LPC系數(shù),在第2子幀中使用從逆量化值變換了的LPC系數(shù)。此外,在此之后l中有添加字符,例如在lspi,li(n),…中的l就是字母表的l。
當(dāng)LSP參數(shù)lspi(i=1,…,p)在LSP量化單元3中通過矢量量化進(jìn)行量化以后,量化索引(LSP代碼)就向解碼器方進(jìn)行傳送。
接著,進(jìn)行音源和增益的搜索處理。音源和增益以子幀為單位進(jìn)行處理。首先,將音源信號2分為音調(diào)周期成分和噪聲成分,對音調(diào)周期成分的量化使用保存了過去的音源信號序列的自適應(yīng)碼本7,對噪聲成分的量化使用代數(shù)代碼本或噪聲代碼本8。在下面,就作為音源代碼本使用自適應(yīng)碼本7和噪聲代碼本8的語音編碼方式進(jìn)行說明。
自適應(yīng)碼本7,依照索引1~L依次輸出延遲了1個采樣的N個采樣部分的音源信號(叫做周期性信號)。N是1個子幀的采樣數(shù)(N=40),并具有保存最新的(L+39)個采樣的音調(diào)周期成分的緩存。從索引1來確定第1~第40個采樣的周期性信號,從索引2來確定第2~第41個采樣的周期性信號,…從索引L來確定第L~第L+39個采樣的周期性信號。在初始狀態(tài),自適應(yīng)碼本7的內(nèi)部全部輸入振幅為0的信號,進(jìn)行動作以使對每個子幀將時間上最舊的信號拋棄子幀長部分,并將由當(dāng)前子幀所求出的音源信號保存到自適應(yīng)碼本7。
自適應(yīng)碼本搜索使用保存有過去的音源信號的自適應(yīng)碼本7來識別音源信號的周期性成分。即,對每個采樣一邊改變從自適應(yīng)碼本7讀出的原始點(diǎn)一邊將自適應(yīng)碼本7內(nèi)的過去的音源信號取出子幀長(=40采樣)部分,并輸入到LPC合成濾波器6生成音調(diào)合成信號β APL。但是,PL是相當(dāng)于從自適應(yīng)碼本7所取出的延遲L的過去的音調(diào)周期性信號(自適應(yīng)代碼矢量),A是LPC合成濾波器6的脈沖應(yīng)答,B是自適應(yīng)碼本增益。
運(yùn)算單元9由下面公式求出輸入語音X和βAPL的誤差功率EL。
EL=|X-βAPL|2(2)當(dāng)將自適應(yīng)碼本輸出的加權(quán)合成輸出設(shè)為APL,APL的自相關(guān)值設(shè)為Rpp,APL和輸入信號X的互相關(guān)值設(shè)為Rxp后,(2)式的誤差功率成為最小的音調(diào)遲延Lopt中的自適應(yīng)代碼矢量PL就由下面公式來表示。
PL=argmax(Rxp2/Rpp)(3)即,將用音調(diào)合成信號的自相關(guān)值Rpp對音調(diào)合成信號APL和輸入信號X的互相關(guān)值Rxp后進(jìn)行了標(biāo)準(zhǔn)化的值為成為最大的讀出開始點(diǎn)設(shè)為最優(yōu)開始點(diǎn)。通過上面處理,誤差功率評價單元10求出滿足(3)式的音調(diào)遲延Lopt。這時,最優(yōu)音調(diào)增益βopt由下面的公式給出。
βopt=Rxp/Rpp(4)接著,使用噪聲代碼本8對包含在音源信號中的噪聲成分進(jìn)行量化。噪聲代碼本8由振幅為1或者-1的多個脈沖構(gòu)成。作為例子,在表1中示出子幀長為40個采樣的情況的脈沖位置。
G.729的噪聲代碼本
噪聲代碼本8,將構(gòu)成1個子幀的N(=40)個采樣點(diǎn)分割為多個脈沖層次組1~4,對于從各脈沖層次組取出1個采樣點(diǎn)m0~m3形成的全體組合,將在各采樣點(diǎn)中有+1或者-1的脈沖的脈沖信號作為噪聲成分依次輸出。在此例中,基本上是每1個子幀配置4個脈沖。
圖42是分配給各脈沖層次組1~4的采樣點(diǎn)的說明圖。
(1)在脈沖層次組1中,分配了8個采樣點(diǎn)0,5,10,15,20,25,30,35;(2)在脈沖層次組2中,分配了8個采樣點(diǎn)1,6,11,16,21,26,31,36;(3)在脈沖層次組3中,分配了8個采樣點(diǎn)2,7,12,17,22,27,32,37;(4)在脈沖層次組4中,分配了16個采樣點(diǎn)3,4,8,9,13,14,18,19,23,24,28,29,33,34,38,39。
為了表現(xiàn)脈沖層次組1~3的采樣點(diǎn)需要3位,表現(xiàn)脈沖的正負(fù)需要1位,總共是需要4位,另外,為了表現(xiàn)脈沖層次組4的采樣點(diǎn)需要4位,表現(xiàn)脈沖的正負(fù)需要1位,總共是需要5位。因此,為了確定從具有表1的脈沖配置的噪聲代碼本8輸出的脈沖性的音源信號就需要17位,脈沖性音源信號的種類將存在217(=24×24×24×25)。
如圖1所示那樣限定好各脈沖層次的脈沖位置,在噪聲代碼本搜索中,從各脈沖體系的脈沖位置的組合之中,決定在再生區(qū)域中與輸入語音的誤差功率為最小的脈沖的組合。即,取通過自適應(yīng)碼本搜索所求出的最優(yōu)音調(diào)增益βopt,將該增益βopt乘以自適應(yīng)碼本輸出PL后輸入到加法器11。與此同時從噪聲代碼本8依次將脈沖性音源信號輸入到加法器11,并確定將加法器輸出輸入到LPC合成濾波器6所得到的再生信號與輸入信號X的差為最小的脈沖性音源信號。具體就是,首先從輸入信號X、通過自適應(yīng)碼本搜索所求出的最優(yōu)自適應(yīng)碼本輸出PL、最優(yōu)音調(diào)增益βopt,由下面公式生成用于噪聲代碼本搜索的目標(biāo)矢量X′。
X′=X-βoptAPL(5)在此例中,由于如前面說明那樣用17位來表現(xiàn)脈沖的位置和振幅(正負(fù)),故該組合存在2的17方組。這里。當(dāng)設(shè)第k遍的噪聲代碼輸出矢量為Ck后,就在噪聲代碼本搜索中,求出使下面公式的評價函數(shù)誤差功率D為最小的代碼矢量Ck。
D=|X′-GcACk|2(6)Gc是噪聲代碼本增益。誤差功率評價單元10在噪聲代碼本的搜索中,搜索用噪聲合成信號的自相關(guān)值Rcc對噪聲合成信號ACk的和輸入信號X′的互相關(guān)值Rcx進(jìn)行標(biāo)準(zhǔn)化所得到的標(biāo)準(zhǔn)化互相關(guān)值(Rcx*Rcx/Rcc)為最大的脈沖位置和極性的組合。
接著就增益量化進(jìn)行說明。在G.729中噪聲代碼本增益不直接進(jìn)行增益,對自適應(yīng)碼本增益Ga(=βopt)和噪聲代碼本增益Gc的修正系數(shù)γ進(jìn)行矢量量化。這里,噪聲代碼本增益Gc和修正系數(shù)γ之間有Gc=g′×γ的關(guān)系。g′是從過去的4個子幀的對數(shù)增益所預(yù)測的當(dāng)前幀的增益。
在增益量化器12的沒有圖示的增益量化表中,對于自適應(yīng)碼本增益和噪聲代碼本增益的修正系數(shù)γ的組合準(zhǔn)備了128組(=27)。增益代碼本的搜索方法是,①對于自適應(yīng)碼本輸出矢量和噪聲代碼本輸出矢量,從增益量化表之中取出1組的表值并設(shè)定到增益可變單元13、14,②在增益可變單元13、14中將增益Ga、Gc乘以各自的矢量并輸入到LPC合成濾波器6,③在誤差功率評價單元10中選擇與輸入信號X的誤差功率為最小的組合,由此來進(jìn)行的。
通過上面處理,線路多路化單元15對,①作為LSP的量化索引的LSP代碼,②作為自適應(yīng)碼本的量化索引的音調(diào)遲延代碼Lopt,③作為噪聲代碼本索引的噪聲代碼,④作為增益量化索引的增益代碼進(jìn)行多路化并生成線路數(shù)據(jù)。實(shí)際上在向傳輸線路送出之前有必要進(jìn)行線路編碼或者打包處理。
·解碼器的構(gòu)成以及動作圖43是G.729方式的解碼器的框圖。從線路接收到的線路數(shù)據(jù)向線路分離單元21輸入后分離輸出LSP代碼、音調(diào)遲延代碼、噪聲代碼、增益代碼。在解碼器中,基于這些代碼對語音數(shù)據(jù)進(jìn)行解碼。關(guān)于解碼器的動作,由于解碼器的功能包含在編碼器中一部分相重復(fù),故在下面簡單地進(jìn)行說明。
LSP逆量化單元22當(dāng)LSP代碼輸入后進(jìn)行逆量化,輸出LSP逆量化值。LSP內(nèi)插單元23,從當(dāng)前幀的第2子幀中的LSP逆量化值和前一幀的第2子幀中的LSP逆量化值對當(dāng)前幀的第1子幀的LSP進(jìn)行內(nèi)插運(yùn)算。接著,參數(shù)逆變換單元24,將LSP內(nèi)插值和LSP逆量化值變換成各自的LPC合成濾波器系數(shù)。G.729方式的LPC合成濾波器25,在最初的第1子幀中使用從LSP內(nèi)插值變換的LPC系數(shù),在緊接的第2子幀中使用從LSP逆量化值變換的LPC系數(shù)。
自適應(yīng)碼本26,從音調(diào)遲延代碼指示的讀出開始位置輸出子幀長(=40個采樣)的音調(diào)信號,噪聲代碼本27從對應(yīng)噪聲代碼的讀出位置輸出脈沖位置和脈沖的極性。另外,增益逆量化單元28由所輸入的增益代碼計(jì)算出自適應(yīng)碼本增益逆量化值和噪聲代碼本增益逆量化值,并設(shè)定到增益可變單元29、30。加法器31將自適應(yīng)碼本增益逆量化值乘以自適應(yīng)碼本輸出所得到的信號,和噪聲代碼本增益逆量化值乘以噪聲代碼本輸出所得到的信號相加起來生成音源信號,并將此音源信號輸入到LPC合成濾波器25。由此,就能夠從LPC合成濾波器25得到再生語音。
此外,在初始狀態(tài)中,解碼器方的自適應(yīng)碼本26的內(nèi)部全部輸入振幅為0的信號,進(jìn)行動作以使對每個子幀將時間上最舊的信號拋棄子幀長部分,另一方面,將由當(dāng)前子幀所求出的音源信號保存到自適應(yīng)碼本26。也就是,編碼器和解碼器的自適應(yīng)碼本26始終維持為最新的相同狀態(tài)。
·電子水印技術(shù)作為以上述的CELP為對象的電子水印技術(shù),有在日本專利公開特開平11-272299中所公開的“語音編碼時的水印位的嵌入方法”。圖44是相關(guān)的電子水印技術(shù)說明圖。在表1中著眼于第4脈沖層次i3。第4脈沖層次i3的脈沖位置m3,與其他第1~第3脈沖層次i0~i2的脈沖位置m0~m2不同,持有相鄰接的候補(bǔ)對象。如果根據(jù)G.729的標(biāo)準(zhǔn),第4脈沖層次i3中的脈沖位置,即使選擇相鄰接的脈沖位置也不會有什么妨礙。例如,第4脈沖層次i3中的脈沖位置m3=4,可以替換成脈沖位置m3′=3,即使替換后進(jìn)行再生也根本不會對人的聽覺帶來影響。因此,為了對m3的候補(bǔ)進(jìn)行標(biāo)號附加導(dǎo)入8位的密鑰Kp。例如,如圖45所示那樣,設(shè)Kp=00001111,使Kp的各個位分別對應(yīng)m3的各個候補(bǔ)3,8,13,18,23,28,33,38,且設(shè)*Kp=11110000,使*Kp的各個位分別對應(yīng)m3的各個候補(bǔ)4,9,14,19,24,29,34,39。如果這樣進(jìn)行對應(yīng),按照密鑰Kp就能夠?qū)3的全部候補(bǔ)進(jìn)行“0”和“1”的標(biāo)號附加。在相關(guān)的狀況中,在將水印位“0”嵌入到語音代碼的情況下,按照密鑰Kp從附加了“0”的標(biāo)號的候補(bǔ)之中選擇m3。另一方面,在嵌入水印位“1”的情況下,按照密鑰Kp從附加了“1”的標(biāo)號的候補(bǔ)之中選擇m3。利用此方法就能夠?qū)⒁?值化的水印信息嵌入到語音代碼之中。所以,通過在收發(fā)信息設(shè)備中互相持有上述密鑰Kp就能夠進(jìn)行水印信息的嵌入以及抽取。由于對每個5msec的子幀能夠嵌入1位的水印信息故每秒就能夠嵌入200位。
可是,當(dāng)使用相同的密鑰Kp對全部代碼嵌入水印信息后,被非法的第3方破譯的可能性就變高。因此,就有必要謀求保密性的提高。如果設(shè)m0~m3的合計(jì)值為Cp,合計(jì)值就是圖45(a)所示的58個中某一個。于是,導(dǎo)入58位的第2密鑰Kcon,如圖45(b)所示那樣使58個合計(jì)值Cp對應(yīng)該密鑰的各個位。然后,計(jì)算出語音編碼時的噪聲代碼中的m0~m3的合計(jì)值(圖中是72),并檢查符合該合計(jì)值的密鑰Kcon的位值Cpb是“0”還是“1”,當(dāng)Cpb=“1”時,按照圖44將水印位嵌入到語音代碼,如果是“0”將不嵌入水印位。這樣一來,不知道密鑰Kcon的第3方要破譯水印信息就會困難。
在通過與語音信道獨(dú)立的信道傳送其他的媒體的情況下,最低也需要兩端的終端設(shè)備是多信道對應(yīng)。在此情況下,例如當(dāng)前正在普及的第2代攜帶電話機(jī)等,在連接于現(xiàn)有的通信網(wǎng)絡(luò)的終端中,就有加以限制的問題。另外,即使兩端的終端設(shè)備是多信道對應(yīng),可以傳送多個媒體在分組交換的情況下,通路分散,途中的中繼設(shè)備中的同步/協(xié)同動作難。特別是在使用了附加于特定的用戶所發(fā)聲的語音本身的數(shù)據(jù)的協(xié)同動作中,會存在有必要進(jìn)行路徑設(shè)定或同步處理等復(fù)雜的控制的問題。
另外,在現(xiàn)有的電子水印技術(shù)中,密鑰的使用是必須的。為此在收發(fā)雙方就有必要共有特定的密鑰。再加上,數(shù)據(jù)嵌入對象被限定于噪聲碼本的第4脈沖層次的脈沖位置。由此,用戶能夠知道鍵的存在的可能性就高,由于在能夠知道的情況下,就可以確定嵌入位置,就存在可能發(fā)生數(shù)據(jù)的泄漏、篡改的問題。
另外,在現(xiàn)有的電子水印技術(shù)中,由于數(shù)據(jù)的嵌入的實(shí)施、不實(shí)施是由脈沖位置候補(bǔ)的合計(jì)值來進(jìn)行的“隨機(jī)的”控制,就存在利用數(shù)據(jù)嵌入的音質(zhì)劣化的影響變大的可能性高的問題。作為通信標(biāo)準(zhǔn)不去意識數(shù)據(jù)嵌入,即,希望即使在終端進(jìn)行解碼(語音再生)的情況下也不會產(chǎn)生音質(zhì)劣化的數(shù)據(jù)嵌入技術(shù),但在現(xiàn)有技術(shù)中就存在由于會發(fā)生音質(zhì)劣化而不能應(yīng)答相關(guān)的要求的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是,即使在編碼器、解碼器雙方不互相持有密鑰,也能夠在編碼器方將數(shù)據(jù)嵌入到語音代碼,而且在解碼器能夠正確地抽取該嵌入數(shù)據(jù)。
本發(fā)明的另外的目的是,即使將數(shù)據(jù)嵌入到語音代碼,也不會有音質(zhì)劣化,并使再生語音的聽取者意識不到數(shù)據(jù)嵌入。
本發(fā)明的另外的目的是,使嵌入數(shù)據(jù)的泄漏、篡改困難。
本發(fā)明的另外的目的是,使得能夠嵌入數(shù)據(jù)和控制碼二者,由此使解碼器方執(zhí)行按照控制碼的處理。
本發(fā)明的另外的目的是,能夠增大嵌入數(shù)據(jù)的傳送容量。
本發(fā)明的另外的目的是,使得能夠僅使用語音信道進(jìn)行語音、圖像、個人信息等的多媒體傳送。
本發(fā)明的另外的目的是,能夠?qū)V告信息等的任意信息提供給互相進(jìn)行語音數(shù)據(jù)通信的最終用戶。
本發(fā)明的另外的目的是,能夠?qū)l(fā)送者、接收者、接收時刻、談話分類等嵌入在已接收的語音數(shù)據(jù)中并進(jìn)行存儲。
本發(fā)明的第1實(shí)施形式是,在語音代碼中嵌入任意數(shù)據(jù)時,使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;在滿足的情況下,通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼。具體就是,第1元素代碼是噪聲碼本增益代碼,第2元素代碼是作為噪聲碼本的索引信息的噪聲代碼;當(dāng)該噪聲碼本增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件,并通過以任意的數(shù)據(jù)來替換上述噪聲代碼將數(shù)據(jù)嵌入到語音代碼。作為另外的具體例子就是,第1元素代碼是音調(diào)增益代碼,第2元素代碼是作為自適應(yīng)碼本的索引信息的音調(diào)遲延代碼;當(dāng)該音調(diào)增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件,并通過以任意的數(shù)據(jù)來替換上述音調(diào)遲延代碼將數(shù)據(jù)嵌入到語音代碼。
當(dāng)著眼于音源信號的2個種類的代碼字后,即,對應(yīng)音調(diào)音源的自適應(yīng)代碼字和對應(yīng)噪聲音源的固定代碼字(噪聲代碼)后,就能夠認(rèn)為增益是表示各個代碼字P、C的貢獻(xiàn)度的因數(shù)。也就是,在增益小的情況下相對應(yīng)的代碼字的貢獻(xiàn)度就小。因此,作為判定參數(shù)來定義增益,在成為某臨界值以下的情況下,判斷為相對應(yīng)的音源代碼字的貢獻(xiàn)度小,用任意的數(shù)據(jù)序列來替換該音源代碼字的索引。由此,就能夠一邊微小地抑制替換的影響,一邊嵌入任意的數(shù)據(jù)。另外,通過控制臨界值,就能夠一邊考慮對再生音質(zhì)的影響一邊調(diào)整嵌入數(shù)據(jù)量。
本發(fā)明的第2實(shí)施形式是,對嵌入在以預(yù)定的語音編碼方式所編碼的語音代碼中的數(shù)據(jù)進(jìn)行抽取時,使用上述構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;在滿足的情況下,判斷為在語音代碼的第2元素代碼部分中嵌入有任意的數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取。具體就是,第1元素代碼是噪聲碼本增益代碼,第2元素代碼是作為噪聲碼本的索引信息的噪聲代碼;當(dāng)該噪聲碼本增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件,并從上述噪聲代碼抽取嵌入數(shù)據(jù)。作為另外的具體例子就是,第1元素代碼是音調(diào)增益代碼,第2元素代碼是作為自適應(yīng)碼本的索引信息的音調(diào)遲延代碼;當(dāng)該音調(diào)增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件,并從上述音調(diào)遲延代碼抽取嵌入數(shù)據(jù)。
如上述那樣進(jìn)行處理,即使在編碼器、解碼器雙方不互相持有密鑰也能夠在編碼器方將數(shù)據(jù)嵌入到語音代碼,而且在解碼器能夠正確地抽取該嵌入數(shù)據(jù)。另外,即使將數(shù)據(jù)嵌入到語音代碼,也不會有音質(zhì)劣化,并能夠使再生語音的聽取者意識不到數(shù)據(jù)嵌入。另外,通過變更臨界值,就能夠使嵌入數(shù)據(jù)的泄漏、篡改困難。
本發(fā)明的第3實(shí)施形式是,在置備語音編碼裝置和語音解碼裝置的系統(tǒng)中,語音編碼裝置以預(yù)定的語音編碼方式對語音進(jìn)行編碼并在所得到的語音代碼中嵌入任意的數(shù)據(jù),語音解碼裝置從該語音代碼抽取嵌入數(shù)據(jù)并從該語音代碼再生語音。在相關(guān)的系統(tǒng)中,分別定義好為了判定在語音編碼裝置以及語音解碼裝置中是否嵌入有數(shù)據(jù)而使用的上述第1元素代碼和臨界值、以及基于該判定結(jié)果來嵌入數(shù)據(jù)的上述第2元素代碼。在相關(guān)的狀態(tài)中,在語音編碼裝置嵌入數(shù)據(jù)時,用上述構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件,如果滿足,就通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼。另一方面,在語音再生裝置進(jìn)行數(shù)據(jù)抽取時,使用上述構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件,在滿足的情況下,判斷為在語音代碼的第2元素代碼部分中嵌入有任意的數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取,然后對語音代碼施行解碼處理。
如上述那樣進(jìn)行處理,如果預(yù)先在收發(fā)雙方僅定義好臨界值的初始值,就能夠不使用密鑰來進(jìn)行數(shù)據(jù)的嵌入、抽取。另外,如果對嵌入數(shù)據(jù)定義好控制碼,就能夠使用該控制碼進(jìn)行臨界值的變更,通過該臨界值的變更就能夠調(diào)整嵌入數(shù)據(jù)的傳送量。另外,由于依照增益值來決定是僅嵌入數(shù)據(jù)序列或者以能夠識別數(shù)據(jù)和控制碼的類別的形式嵌入數(shù)據(jù)/控制碼序列,在僅嵌入數(shù)據(jù)序列的情況下就沒有必要包含數(shù)據(jù)類別信息,故能夠改善傳送容量。
本發(fā)明的第4實(shí)施形式是,一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行發(fā)送的數(shù)字語音通信系統(tǒng),包括分析對輸入語音進(jìn)行了編碼的語音數(shù)據(jù)的裝置,依照該分析結(jié)果將任意的代碼嵌入到語音數(shù)據(jù)的一部分的特定部分的裝置,以及將上述所嵌入的數(shù)據(jù)作為語音數(shù)據(jù)進(jìn)行發(fā)送的裝置;同時發(fā)送通常的語音通話和附加信息。另外,數(shù)字語音通信系統(tǒng),進(jìn)而包括分析已接收到的語音數(shù)據(jù)的裝置,以及依照該分析結(jié)果從語音數(shù)據(jù)的一部分的特定部分抽取代碼的裝置;同時接收通常的語音通話和附加信息并進(jìn)行輸出。
通過作為附加信息選用圖像信息(所在地周圍的圖象、地像等)、個人信息(容貌照片、聲波紋、指紋)等,多媒體通信就成為可能。另外,通過作為附加信息選用終端的序列編號、聲波紋,就能夠提高是否是正當(dāng)用戶的認(rèn)證性能,并且提高語音數(shù)據(jù)的保密性能就成為可能。
另外,通過設(shè)置中轉(zhuǎn)語音數(shù)據(jù)的服務(wù)器裝置,就能夠?qū)V告信息等的任意信息提供給互相進(jìn)行語音數(shù)據(jù)通信的最終用戶。
另外,通過將發(fā)送者、接收者、接收時刻、談話分類等嵌入在已接收的語音數(shù)據(jù)中并存儲到存儲裝置,語音數(shù)據(jù)的文件化就成為可能,就能夠容易地在今后利用。
本發(fā)明的其他的特征和優(yōu)點(diǎn),通過以下的附圖以及基于附圖的詳細(xì)說明將會更加明了。
圖1是在本發(fā)明的編碼器一方中的一般的構(gòu)成圖。
圖2是嵌入判定單元的構(gòu)成圖。
圖3是使用按照G.729的編碼方式進(jìn)行編碼的編碼器的情形的第1實(shí)施例的構(gòu)成圖。
圖4是嵌入判定單元的構(gòu)成圖。
圖5是語音代碼的標(biāo)準(zhǔn)格式。
圖6是利用嵌入控制的傳送代碼的說明圖。
圖7是區(qū)別數(shù)據(jù)和控制碼進(jìn)行嵌入情形的說明圖。
圖8是使用按照G.729的編碼方式進(jìn)行編碼的編碼器的情形的第2實(shí)施例的構(gòu)成圖。
圖9是嵌入判定單元的構(gòu)成圖。
圖10是語音代碼的標(biāo)準(zhǔn)格式。
圖11是利用嵌入控制的傳送代碼的說明圖。
圖12是在本發(fā)明的解碼器一方中的一般的構(gòu)成圖。
圖13是嵌入判定單元的構(gòu)成圖。
圖14是在噪聲代碼中嵌入數(shù)據(jù)的情形的第1實(shí)施例的構(gòu)成圖。
圖15是在噪聲代碼中嵌入數(shù)據(jù)的情形的嵌入判定單元的構(gòu)成圖。
圖16是接收語音代碼的標(biāo)志格式。
圖17是利用數(shù)據(jù)嵌入判定單元的判定結(jié)果說明圖。
圖18是在音調(diào)遲延代碼中嵌入數(shù)據(jù)的情形的第2實(shí)施例的構(gòu)成圖。
圖19是在音調(diào)遲延代碼中嵌入數(shù)據(jù)的情形的嵌入判定單元的構(gòu)成圖。
圖20是接收語音代碼的標(biāo)志格式。
圖21是利用數(shù)據(jù)嵌入判定單元的判定結(jié)果說明圖。
圖22是多級地設(shè)定了臨界值的編碼器一方的實(shí)施例的構(gòu)成圖。
圖23是可進(jìn)行數(shù)據(jù)嵌入的范圍說明圖。
圖24是多級地設(shè)定了臨界值情形的嵌入判定單元的構(gòu)成圖。
圖25是數(shù)據(jù)嵌入的說明圖。
圖26是多級地設(shè)定了臨界值的解碼器一方的實(shí)施例的構(gòu)成圖。
圖27是嵌入判定單元的構(gòu)成圖。
圖28是通過嵌入圖像來實(shí)現(xiàn)同時傳送語音和圖像的多媒體傳送的數(shù)字語音通信系統(tǒng)的構(gòu)成圖。
圖29是圖像傳送服務(wù)中的發(fā)送方終端的發(fā)送處理流程。
圖30是圖像傳送服務(wù)中的接收方終端的接收處理流程。
圖31是通過嵌入認(rèn)證信息同時傳送語音和認(rèn)證信息的數(shù)字語音通信系統(tǒng)的構(gòu)成圖。
圖32是認(rèn)證傳送服務(wù)中的發(fā)送方終端的發(fā)送處理流程。
圖33是認(rèn)證傳送服務(wù)中的接收方終端的接收處理流程。
圖34是通過嵌入鍵信息同時傳送語音和鍵信息的數(shù)字語音通信系統(tǒng)的構(gòu)成圖。
圖35是通過嵌入IP電話地址信息同時傳送語音和IP電話地址信息的數(shù)字語音通信系統(tǒng)的構(gòu)成圖。
圖36是實(shí)現(xiàn)廣告信息嵌入服務(wù)的數(shù)字語音通信系統(tǒng)的構(gòu)成圖。
圖37是在因特網(wǎng)電話服務(wù)中的IP分組的構(gòu)成例子。
圖38是在服務(wù)中廣告信息插入處理流程。
圖39是在廣告信息嵌入服務(wù)中接收方終端的廣告信息接收處理流程圖。
圖40是在數(shù)字語音通信系統(tǒng)中協(xié)同動作的信息存儲系統(tǒng)的構(gòu)成圖。
圖41是ITU-T建議G.729方式的編碼器的構(gòu)成圖。
圖42是分配給各脈沖層次組的采樣點(diǎn)的說明圖。
圖43是G.729方式的解碼器的框圖。
圖44是現(xiàn)有的電子水印技術(shù)說明圖。
圖45是現(xiàn)有的電子水印技術(shù)的另一說明圖。
具體實(shí)施例方式(A)本發(fā)明的原理在CELP算法的解碼器中,通過指定音源序列的索引和增益信息來生成音源信號,用由線性預(yù)測系數(shù)所構(gòu)成的合成濾波器來生成(再生)語音,再生語音由下面公式來表現(xiàn)。
Srp=H·R=H(Gp·P+Gc·C)=H·Gp·P+H·Gc·C這里,Srp是再生語音,H是LPC合成濾波器,Gp是自適應(yīng)代碼字增益(音調(diào)增益),P是自適應(yīng)代碼字(音調(diào)遲延代碼),Gc是噪聲代碼字增益(噪聲碼本增益),C是噪聲代碼字。另外,右邊第1項(xiàng)是音調(diào)周期合成信號,第2項(xiàng)是噪聲合成信號。
如上所述,通過CELP所編碼的數(shù)字代碼(傳送參數(shù))與語音生成系的特征參數(shù)相對應(yīng)。當(dāng)著眼于此特征后,就能夠把握各個傳送參數(shù)的狀態(tài)。例如,當(dāng)著眼于音源信號的2個種類的代碼字后,即,對應(yīng)音調(diào)音源的自適應(yīng)代碼字和對應(yīng)噪聲音源的噪聲代碼字,就能夠認(rèn)為增益Gp、Gc是表示各個代碼字P、C的貢獻(xiàn)度的因數(shù)。也就是,在增益Gp、Gc小的情況下相對應(yīng)的代碼字P、C的貢獻(xiàn)度就小。因此,作為判定參數(shù)來定義增益Gp、Gc,在成為某臨界值以下的情況下,判斷為相對應(yīng)的音源代碼字P、C的貢獻(xiàn)度小,用任意的數(shù)據(jù)序列來替換音源代碼字的索引。由此,就能夠一邊微小地抑制替換的影響,一邊嵌入任意的數(shù)據(jù)。另外,通過控制臨界值,就能夠一邊考慮對再生音質(zhì)的影響一邊調(diào)整嵌入數(shù)據(jù)量。
本技術(shù),如果預(yù)先在收發(fā)雙方僅定義好臨界值的初始值,僅通過判定參數(shù)(音調(diào)增益、噪聲碼本增益)以及嵌入對象參數(shù)(音調(diào)遲延、噪聲代碼),嵌入數(shù)據(jù)的有無和嵌入位置,以及嵌入數(shù)據(jù)的寫入/讀出就成為可能。即,特定的密鑰的傳送就不需要。另外,如果對嵌入數(shù)據(jù)定義好控制碼,僅通過用控制碼指示臨界值的變更就能夠調(diào)整嵌入數(shù)據(jù)的傳送量。
這樣,通過本技術(shù)的適用,就能夠編碼格式不作變更地進(jìn)行任意數(shù)據(jù)的嵌入。也就是,能夠不損害通信/存儲的用途中必須的互換性地,且不對用戶進(jìn)行通知地將ID或其他媒體的信息嵌入到語音信息來進(jìn)行傳送/存儲。再加上,在本發(fā)明中由于通過對CELP共通的參數(shù)來規(guī)定控制方法,就能夠不限定于特定的方式地適用于廣泛的方式。例如,也能夠?qū)?yīng)針對VoIP的G.729或針對移動通信的AMR等。
(B)編碼器一方的實(shí)施例(a)一般的構(gòu)成圖1是在本發(fā)明的編碼器一方中的一般的構(gòu)成圖。語音/聲音CODEC(編碼器)51,按照預(yù)定的編碼方式對輸入語音進(jìn)行編碼,并輸出所得到的語音代碼(代碼數(shù)據(jù))。語音代碼由多個元素代碼構(gòu)成。嵌入數(shù)據(jù)發(fā)生單元52,產(chǎn)生用于嵌入到語音代碼的預(yù)定的數(shù)據(jù)。數(shù)據(jù)嵌入控制單元53,置備有嵌入判定單元54和選擇器結(jié)構(gòu)的數(shù)據(jù)嵌入單元55,適宜地將數(shù)據(jù)嵌入到語音代碼。嵌入判定單元54使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值TH來判定是否滿足數(shù)據(jù)嵌入條件,數(shù)據(jù)嵌入單元55,在滿足數(shù)據(jù)嵌入條件的情況下,通過用任意的嵌入數(shù)據(jù)替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼,在不滿足數(shù)據(jù)嵌入條件的情況下,原封不動地輸出第2元素代碼。多路單元56,多路傳送構(gòu)成語音代碼的各元素代碼。
圖2是嵌入判定單元的構(gòu)成圖,逆量化單元54a對第1元素代碼進(jìn)行逆量化并輸出逆量化值G,臨界值發(fā)生單元54b輸出臨界值TH。比較單元54c對逆量化值G和臨界值TH進(jìn)行比較,并將比較結(jié)果輸入到數(shù)據(jù)嵌入判定單元54d。數(shù)據(jù)嵌入判定單元54d,例如如果G≥TH就判定為不能進(jìn)行數(shù)據(jù)嵌入,并產(chǎn)生用于選擇從編碼器51輸出的第2元素代碼的選擇信號SL,如果G<TH就判定為能夠進(jìn)行數(shù)據(jù)嵌入,并產(chǎn)生用于選擇從嵌入數(shù)據(jù)發(fā)生單元52輸出的嵌入數(shù)據(jù)的選擇信號SL。此結(jié)果是數(shù)據(jù)嵌入單元55基于選擇信號SL有選擇地輸出第2元素代碼和嵌入數(shù)據(jù)中的一個。
此外,在圖2中對第1元素代碼進(jìn)行逆量化并與臨界值進(jìn)行比較,但也有通過用代碼來設(shè)定臨界值能夠以代碼等級進(jìn)行比較的情形,在相關(guān)的情況下就未必需要進(jìn)行逆量化。
(b)第1實(shí)施例圖3是使用按照G.729的編碼方式進(jìn)行編碼的編碼器的情形的第1實(shí)施例的構(gòu)成圖,對與圖1相同的部分附加相同的標(biāo)記。與圖1的不同點(diǎn)是,作為第1元素代碼使用增益代碼(噪聲碼本增益),作為第2元素代碼使用作為噪聲碼本的索引的噪聲代碼這一點(diǎn)。
編碼器51按照G.729對輸入語音進(jìn)行編碼,并將所得到的語音代碼輸入到數(shù)據(jù)嵌入單元53。G.729的語音代碼如表2所示,作為元素代碼具有LSP代碼、自適應(yīng)碼本索引(音調(diào)遲延代碼)、噪聲碼本索引(噪聲代碼)、增益代碼。增益代碼是對音調(diào)增益和噪聲代碼增益進(jìn)行組合并編碼的代碼。
表1 ITU-T G.729的各部分
數(shù)據(jù)嵌入單元53的嵌入判定單元54,使用增益代碼的逆量化值和臨界值TH來判斷是否滿足數(shù)據(jù)嵌入條件,數(shù)據(jù)嵌入單元55,在滿足數(shù)據(jù)嵌入條件的情況下,通過用預(yù)定的數(shù)據(jù)替換噪聲代碼將數(shù)據(jù)嵌入到語音代碼,在不滿足數(shù)據(jù)嵌入條件的情況下,原封不動地輸出噪聲代碼。多路單元56,多路傳送構(gòu)成語音代碼的各元素代碼。
嵌入判定單元54置備圖4所示的結(jié)構(gòu),逆量化單元54a對增益代碼進(jìn)行逆量化,比較單元54c對逆量化值(噪聲碼本增益)Gc和臨界值TH進(jìn)行比較,數(shù)據(jù)嵌入判定單元54d,在逆量化值Gc比臨界值TH小時,就判定為滿足數(shù)據(jù)嵌入條件,并產(chǎn)生用于選擇從嵌入數(shù)據(jù)發(fā)生單元52輸出的嵌入數(shù)據(jù)的選擇信號SL。此外,數(shù)據(jù)嵌入判定單元54d,在逆量化值Gc比臨界值TH大時,就判定為不滿足數(shù)據(jù)嵌入條件,并產(chǎn)生用于選擇從編碼器51輸出的噪聲代碼的選擇信號SL。數(shù)據(jù)嵌入單元55基于選擇信號SL有選擇地輸出噪聲代碼和嵌入數(shù)據(jù)中的一個。
圖5是語音代碼的標(biāo)準(zhǔn)格式,圖6是利用嵌入控制的傳送代碼的說明圖,示出語音代碼由5個代碼(LSP代碼、自適應(yīng)碼本索引、自適應(yīng)碼本增益、噪聲碼本索引、噪聲碼本增益)構(gòu)成的情形。在噪聲碼本增益Gc比臨界值TH大的情況下,如圖6(1)所示那樣在語音代碼中不嵌入數(shù)據(jù)。但是,在噪聲碼本增益Gc比臨界值TH小的情況下,如圖6(2)所示那樣在語音代碼的噪聲碼本索引部分中嵌入數(shù)據(jù)。
圖6的例子是,將任意的數(shù)據(jù)嵌入到用于噪聲代碼薄索引(噪聲代碼)M(=17)位全部的情形的例子,但如圖7所示那樣通過將最高有效位(MSB)設(shè)為數(shù)據(jù)類別位,就能夠?qū)?shù)據(jù)和控制碼區(qū)別嵌入到剩下的(M-1)位。這樣,通過在嵌入數(shù)據(jù)的一部分中定義識別數(shù)據(jù)/控制碼的位,使用控制碼進(jìn)行臨界值的變更、同步控制等就成為可能。
在表3中示出,在G.729語音編碼方式中,在某增益值以下的情況下用任意的數(shù)據(jù)替換作為噪聲碼本索引的噪聲代碼(17位)的情形的模擬結(jié)果。設(shè)任意的數(shù)據(jù)為隨機(jī)產(chǎn)生的數(shù)據(jù),用SNR對將此隨機(jī)數(shù)據(jù)看作是噪聲代碼再生了的情況下的音質(zhì)的變化進(jìn)行了評價的結(jié)果,并用數(shù)據(jù)來測定替換幀的比率。此外,表中的臨界值是增益索引編號,數(shù)字越大作為臨界值得增益就越大。另外,SNR是不用數(shù)據(jù)替換語音代碼中的噪聲代碼情況下的音源信號,和作為不替換的情形與替換了的情形的音源信號的差的誤差信號的比(dB)。SNRseg是每一幀的SNR,SNRtot是語音區(qū)間全體的平均SNR。比率(%)是,作為語音信號輸入標(biāo)準(zhǔn)信號時,增益成為相對應(yīng)的臨界值以下數(shù)據(jù)被嵌入的比率。
臨界值(增益索引)、對音質(zhì)的影響和變更幀的比率
如表3那樣,例如通過將噪聲碼本增益的臨界值設(shè)定為12,就能夠以任意的數(shù)據(jù)替換噪聲碼本索引(噪聲代碼)的總傳送容量的43%,且,即使用解碼器原封不動地進(jìn)行解碼,也能夠抑制為與不嵌入數(shù)據(jù)的情形(臨界值為0的情形)相比僅0.1dB(=11.60-11.50)的音質(zhì)的差。這就意味著在G.729中沒有音質(zhì)劣化,實(shí)際上意味著能夠進(jìn)行1462bits/s(=0.43×17×(1000/5))的任意數(shù)據(jù)的傳送。另外,通過使此臨界值增多減小,也能夠一邊考慮對音質(zhì)的影響一邊調(diào)整嵌入數(shù)據(jù)的傳送容量(比率)。例如,如果允許0.2dB的音質(zhì)變換,就能夠通過將臨界值設(shè)定為20增加傳送容量直到46%(1546bits/s)。
(c)第2實(shí)施例圖8是使用按照G.729的編碼方式進(jìn)行編碼的編碼器的情形的第2實(shí)施例的構(gòu)成圖,對與圖1相同的部分附加相同的標(biāo)記。與圖1的不同點(diǎn)是,作為第1元素代碼使用增益代碼(音調(diào)增益代碼),作為第2元素代碼使用作為自適應(yīng)碼本索引的音調(diào)遲延代碼這一點(diǎn)。
編碼器51按照G.729對輸入語音進(jìn)行編碼,并將所得到的語音代碼輸入到數(shù)據(jù)嵌入單元53。數(shù)據(jù)嵌入單元53的嵌入判定單元54,使用增益代碼的逆量化值(音調(diào)增益)和臨界值TH來判斷是否滿足數(shù)據(jù)嵌入條件,數(shù)據(jù)嵌入單元55,在滿足數(shù)據(jù)嵌入條件的情況下,通過用預(yù)定的數(shù)據(jù)替換音調(diào)遲延代碼將數(shù)據(jù)嵌入到語音代碼,在不滿足數(shù)據(jù)嵌入條件的情況下,原封不動地輸出音調(diào)遲延代碼。多路單元56,多路傳送構(gòu)成語音代碼的各元素代碼。
嵌入判定單元54置備圖9所示的結(jié)構(gòu),逆量化單元54a對增益代碼進(jìn)行逆量化,比較單元54c對逆量化值(音調(diào)增益)Gp和臨界值TH進(jìn)行比較,數(shù)據(jù)嵌入判定單元54d,在逆量化值Gp比臨界值TH小時,就判定為滿足數(shù)據(jù)嵌入條件,并產(chǎn)生用于選擇從嵌入數(shù)據(jù)發(fā)生單元52輸出的嵌入數(shù)據(jù)的選擇信號SL。此外,數(shù)據(jù)嵌入判定單元54d,在逆量化值Gp比臨界值TH大時,就判定為不滿足數(shù)據(jù)嵌入條件,并產(chǎn)生用于選擇從編碼器51輸出的音調(diào)遲延代碼的選擇信號SL。數(shù)據(jù)嵌入單元55基于選擇信號SL有選擇地輸出音調(diào)遲延代碼和嵌入數(shù)據(jù)中的一個。
圖10是語音代碼的標(biāo)準(zhǔn)格式,圖11是利用嵌入控制的傳送代碼的說明圖,示出語音代碼由5個代碼(LSP代碼、自適應(yīng)碼本索引、自適應(yīng)碼本增益、噪聲碼本索引、噪聲碼本增益)構(gòu)成的情形。在音調(diào)增益Gp比臨界值TH大的情況下,如圖11(1)所示那樣在語音代碼中不嵌入數(shù)據(jù)。但是,在音調(diào)增益Gp比臨界值TH小的情況下,如圖11(2)所示那樣在語音代碼的自適應(yīng)碼本索引部分中嵌入數(shù)據(jù)。
在表4中示出,在G.729語音編碼方式中,在某增益值以下的情況下用任意的數(shù)據(jù)替換作為自適應(yīng)碼本索引的音調(diào)遲延代碼(13位/10msec)的情形的模擬結(jié)果。設(shè)任意的數(shù)據(jù)為隨機(jī)產(chǎn)生的數(shù)據(jù),在表4中示出用SNR對將此隨機(jī)數(shù)據(jù)作為音調(diào)遲延代碼再生了的情況下的音質(zhì)的變化進(jìn)行了評價的結(jié)果和替換幀的比率。
以自適應(yīng)碼本為對象的增益臨界值、對音質(zhì)的影響和變更幀的比率
如表4那樣,示出例如當(dāng)將臨界值設(shè)定為增益0.5,就能夠以任意的數(shù)據(jù)替換作為自適應(yīng)碼本索引的音調(diào)遲延的總傳送容量的45%,且,即使用解碼器原封不動地進(jìn)行解碼,也能夠抑制為僅0.24dB(=11.60-11.36)的音質(zhì)的差的情況。
(C)解碼器一方的實(shí)施例(a)一般的構(gòu)成圖12是在本發(fā)明的解碼器一方中的一般的構(gòu)成圖。分離單元61如果接收到語音代碼,就將該語音代碼分離為元素代碼并輸入到數(shù)據(jù)抽取單元62。數(shù)據(jù)抽取單元62在從所分離的元素代碼中的第1元素代碼抽取數(shù)據(jù)并輸入到數(shù)據(jù)處理單元63的同時,將所輸入的各元素代碼原封不動地輸入到語音/聲音CODEC(解碼器)64。解碼器64解碼所輸入的語音代碼并再生輸出語音。
數(shù)據(jù)抽取單元62,置備有嵌入判定單元65和分配單元66,適宜地從語音代碼抽取數(shù)據(jù)。嵌入判定單元65,使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值TH判斷是否滿足數(shù)據(jù)嵌入條件,如果滿足數(shù)據(jù)嵌入條件,分配單元66將元素代碼中的第2元素代碼看作是嵌入代碼進(jìn)行抽取,并將該嵌入數(shù)據(jù)發(fā)送到數(shù)據(jù)處理單元63。另外,分配單元66與是否滿足數(shù)據(jù)嵌入條件沒有關(guān)系地將所輸入的第2元素代碼原封不動地輸入到編碼器64。
圖13是嵌入判定單元的構(gòu)成圖,逆量化單元65a對第1元素代碼進(jìn)行逆量化并輸出逆量化值G,臨界值發(fā)生單元65b輸出臨界值TH。比較單元65c比較逆量化值G和臨界值TH,并將比較結(jié)果輸入到數(shù)據(jù)嵌入判定單元65d。數(shù)據(jù)嵌入判定單元65d,如果G≥TH就判定為沒有嵌入數(shù)據(jù),如果G<TH就判定為嵌入數(shù)據(jù),并產(chǎn)生分配信號BL。分配單元66基于分配信號BL,如果嵌入數(shù)據(jù)就在從第2元素代碼抽取該數(shù)據(jù)并輸入到數(shù)據(jù)處理單元63的同時,將該第2元素代碼原封不動地輸入到解碼器64。另外,如果沒有嵌入數(shù)據(jù),分配單元66就原封不動地將第2元素代碼輸入到解碼器64。此外,在圖13中對第1元素代碼進(jìn)行逆量化并與臨界值進(jìn)行比較,但也有通過用代碼來設(shè)定臨界值能夠以代碼等級進(jìn)行比較的情形,在相關(guān)的情況下就未必需要進(jìn)行逆量化。
(b)第1實(shí)施例圖14是在G.729的噪聲代碼中嵌入數(shù)據(jù)的情形的第1實(shí)施例的構(gòu)成圖,對與圖12相同的部分附加相同的標(biāo)記。與圖12的不同點(diǎn)是,作為第1元素代碼使用增益代碼(噪聲碼本增益),作為第2元素代碼使用作為噪聲碼本的索引的噪聲代碼這一點(diǎn)。
分離單元61如果接收到語音代碼,就將該語音代碼分離為元素代碼并輸入到數(shù)據(jù)抽取單元62。如果是按照G.729進(jìn)行編碼,分離單元61就將語音代碼分離為LSP代碼、音調(diào)遲延代碼、噪聲代碼和增益代碼并輸入到數(shù)據(jù)抽取單元62。此外,增益代碼是組合音調(diào)增益和噪聲碼本增益,并使用量化表進(jìn)行了量化(編碼)的代碼。
數(shù)據(jù)抽取單元62的嵌入判定單元65,使用增益代碼的逆量化值和臨界值TH來判斷是否滿足數(shù)據(jù)嵌入條件,如果滿足數(shù)據(jù)嵌入條件,分配單元66就將噪聲代碼看作是嵌入代碼進(jìn)行抽取,并在將該嵌入數(shù)據(jù)輸入到數(shù)據(jù)處理單元63的同時,將該噪聲代碼照所輸入的原樣輸入到解碼器64。另外,如果不滿足數(shù)據(jù)嵌入條件,分配單元66就將該噪聲代碼照所輸入的原樣輸入到解碼器64。
嵌入判定單元65置備圖15所示的構(gòu)成,逆量化單元65a對增益代碼進(jìn)行逆量化,比較單元65c比較逆量化值(噪聲碼本增益)Gc和臨界值TH,數(shù)據(jù)嵌入判定單元65d在逆量化值Gc比臨界值TH小時,就判斷為嵌入有數(shù)據(jù),在逆量化值Gc比臨界值TH大時,就判斷為沒有嵌入數(shù)據(jù),并分別產(chǎn)生分配信號BL。分配單元66基于分配信號BL,將嵌入在噪聲代碼中的數(shù)據(jù)輸入到數(shù)據(jù)處理單元63。另外,將噪聲代碼輸入到解碼器64。
圖16是接收語音代碼的標(biāo)準(zhǔn)格式,圖17是利用數(shù)據(jù)嵌入判定單元的判定結(jié)果說明圖,示出語音代碼由5個代碼(LSP代碼、自適應(yīng)碼本索引、自適應(yīng)碼本增益、噪聲碼本索引、噪聲碼本增益)構(gòu)成的情形。在接收時,不清楚在語音代碼的噪聲碼本索引部分(噪聲代碼部分)中是否嵌入有數(shù)據(jù)(圖16)。但是,通過判斷噪聲碼本增益Gc和臨界值TH的大小來判斷是否嵌入有數(shù)據(jù)。即,如果噪聲碼本增益Gc比臨界值TH大,如圖17(1)所示那樣在噪聲碼本索引部分中沒有嵌入數(shù)據(jù)。但是,如果噪聲碼本增益Gc比臨界值TH小,如圖17(2)所示那樣在噪聲碼本索引部分中嵌入有數(shù)據(jù)。
如圖7所示那樣通過將最高有效位(MSB)設(shè)為數(shù)據(jù)類別位,如果將數(shù)據(jù)和控制碼區(qū)別嵌入到剩下的(M-1)位,數(shù)據(jù)處理單元63參照該最高有效位,如果是控制碼,就執(zhí)行符合該命令的處理,例如執(zhí)行臨界值的變更、同步控制處理等。
(b)第2實(shí)施例圖18是在G.729的音調(diào)遲延代碼中嵌入數(shù)據(jù)的情形的第2實(shí)施例的構(gòu)成圖,對與圖12相同的部分附加相同的標(biāo)記。與圖12的不同點(diǎn)是,作為第1元素代碼使用增益代碼(音調(diào)增益代碼),作為第2元素代碼使用作為自適應(yīng)碼本的索引的音調(diào)遲延代碼這一點(diǎn)。
分離單元61如果接收到語音代碼,就將該語音代碼分離為元素代碼并輸入到數(shù)據(jù)抽取單元62。如果是按照G.729進(jìn)行編碼,分離單元61就將語音代碼分離為LSP代碼、音調(diào)遲延代碼、噪聲代碼和增益代碼并輸入到數(shù)據(jù)抽取單元62。此外,增益代碼是組合音調(diào)增益和噪聲碼本增益,并使用量化表進(jìn)行了量化(編碼)的代碼。
數(shù)據(jù)抽取單元62的嵌入判定單元65,使用增益代碼的逆量化值和臨界值TH來判斷是否滿足數(shù)據(jù)嵌入條件,如果滿足數(shù)據(jù)嵌入條件,分配單元66就將音調(diào)遲延代碼看作是嵌入代碼進(jìn)行抽取,并在將該嵌入數(shù)據(jù)輸入到數(shù)據(jù)處理單元63的同時,將該音調(diào)遲延代碼照所輸入的原樣輸入到解碼器64。另外,如果不滿足數(shù)據(jù)嵌入條件,分配單元66就將該音調(diào)遲延代碼照所輸入的原樣輸入到解碼器64。
嵌入判定單元65置備圖19所示的構(gòu)成,逆量化單元65a對增益代碼進(jìn)行逆量化,比較單元65c比較逆量化值(音調(diào)增益)Gp和臨界值TH,數(shù)據(jù)嵌入判定單元65d在逆量化值Gp比臨界值TH小時,就判斷為嵌入有數(shù)據(jù),在逆量化值Gp比臨界值TH大時,就判斷為沒有嵌入數(shù)據(jù),并分別產(chǎn)生分配信號BL。分配單元66基于分配信號BL,將嵌入在音調(diào)遲延代碼中的數(shù)據(jù)輸入到數(shù)據(jù)處理單元63。另外,將音調(diào)遲延代碼輸入到解碼器64。
圖20是接收語音代碼的標(biāo)準(zhǔn)格式,圖21是利用數(shù)據(jù)嵌入判定單元的判定結(jié)果說明圖,示出語音代碼由5個代碼(LSP代碼、自適應(yīng)碼本索引、自適應(yīng)碼本增益、噪聲碼本索引、噪聲碼本增益)構(gòu)成的情形。在接收時,不清楚在語音代碼的自適應(yīng)碼本索引部分(音調(diào)遲延代碼部分)中是否嵌入有數(shù)據(jù)(圖20)。但是,通過判斷自適應(yīng)碼本增益Gp和臨界值TH的大小來判斷是否嵌入有數(shù)據(jù)。即,如果自適應(yīng)碼本增益Gp比臨界值TH大,如圖21(1)所示那樣在自適應(yīng)碼本索引部分中沒有嵌入數(shù)據(jù)。但是,如果自適應(yīng)碼本增益Gp比臨界值TH小,如圖21(2)所示那樣在噪聲碼本索引部分中嵌入有任意的數(shù)據(jù)。
(D)多級地設(shè)定了臨界值的實(shí)施例(a)編碼器一方的實(shí)施例圖22是多級地設(shè)定了臨界值的編碼器一方的實(shí)施例的構(gòu)成圖,對與圖1相同的部分附加相同的標(biāo)記。不同點(diǎn)是,①設(shè)定有2個臨界值這一點(diǎn),②依照第1元素代碼的逆量化值的大小,決定是僅嵌入數(shù)據(jù)序列,或者是嵌入具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列這一點(diǎn),③基于該決定嵌入數(shù)據(jù)這一點(diǎn)。
語音/聲音CODEC(編碼器)51按照預(yù)定的編碼方式,例如G.729編碼輸入語音,并輸出所得到的語音代碼(代碼數(shù)據(jù))。語音代碼由多個元素代碼構(gòu)成。嵌入數(shù)據(jù)發(fā)生單元52,產(chǎn)生嵌入到語音代碼的2個種類的數(shù)據(jù)序列。第1的數(shù)據(jù)序列是,例如僅由媒體數(shù)據(jù)形成的數(shù)據(jù)序列,第2數(shù)據(jù)序列是具有圖7所示的數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列,通過數(shù)據(jù)類別位的“1”、“0”就能夠混合存在媒體代碼和控制碼。
數(shù)據(jù)嵌入控制單元53,置備有嵌入判定單元54和選擇器結(jié)構(gòu)的數(shù)據(jù)嵌入單元55,適宜地將媒體數(shù)據(jù)或者控制碼嵌入到語音代碼。嵌入判定單元54使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值TH1、TH2(TH2>TH1)來判定是否滿足數(shù)據(jù)嵌入條件,同時在滿足的情況下,判定是滿足僅由媒體數(shù)據(jù)形成的數(shù)據(jù)序列的嵌入條件,還是滿足具有圖7所示的數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列的嵌入條件。例如,如圖23所示那樣第1元素代碼的逆量化值G,①如果TH2<G就判定為不滿足數(shù)據(jù)嵌入條件,②如果TH1≤G<TH2就判定為滿足具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列的嵌入條件,③如果G<TH1就判定為滿足僅由媒體數(shù)據(jù)形成的數(shù)據(jù)序列的嵌入條件。
數(shù)據(jù)嵌入單元55,①如果TH1≤G<TH2,就通過以從嵌入數(shù)據(jù)發(fā)生單元52產(chǎn)生的具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼,②如果G<TH1,就通過以從嵌入數(shù)據(jù)發(fā)生單元52產(chǎn)生的媒體數(shù)據(jù)序列替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼③如果TH2<G,就原封不動地輸出第2元素代碼。多路單元56,多路傳送構(gòu)成語音代碼的各元素代碼。
圖24是嵌入判定單元54的構(gòu)成圖,逆量化單元54a對第1元素代碼進(jìn)行逆量化并輸出逆量化值G,臨界值發(fā)生單元54b輸出第1、第2臨界值TH1、TH2。比較單元54c對逆量化值G和臨界值TH1、TH2進(jìn)行比較,并將比較結(jié)果輸入到數(shù)據(jù)嵌入判定單元54d。數(shù)據(jù)嵌入判定單元54d,依照是①TH2<G,還是②TH1≤G<TH2,還是③G<TH1輸出預(yù)定的選擇信號SL。此結(jié)果是數(shù)據(jù)嵌入單元55基于選擇信號SL選擇并輸出第2元素代碼、具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列和媒體數(shù)據(jù)序列中的任何一個。
在作為編碼器采用G.729編碼方式的編碼器的情況下,符合上述第1元素代碼的值是噪聲碼本增益或者音調(diào)增益,第2元素代碼是噪聲代碼或者音調(diào)遲延代碼。
圖25是取噪聲碼本增益Gp為符合第1元素代碼的逆量化值的值,取噪聲代碼為第2元素代碼據(jù)的情形的數(shù)據(jù)嵌入說明圖,如果Gp<TH1,就將媒體數(shù)據(jù)等的任意數(shù)據(jù)全部嵌入到17位的噪聲代碼部分。另外,如果TH1≤Gp<TH2,就設(shè)最高有效位為“1”在剩下的16位中嵌入控制碼,設(shè)最高有效位為“0”在剩下的16位中嵌入任意的數(shù)據(jù)。
(b)解碼器一方的實(shí)施例圖26是多級地設(shè)定了臨界值的解碼器一方的實(shí)施例的構(gòu)成圖,對與圖12相同的部分附加相同的標(biāo)記。不同點(diǎn)是,①設(shè)定有2個臨界值這一點(diǎn),②依照第1元素代碼的逆量化值的大小,決定是僅嵌入數(shù)據(jù)序列,或者是嵌入具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列這一點(diǎn),③基于該判定來分配數(shù)據(jù)這一點(diǎn)。
分離單元61如果接收到語音代碼,就將該語音代碼分離為元素代碼并輸入到數(shù)據(jù)抽取單元62。數(shù)據(jù)抽取單元62在從所分離的元素代碼中的第1元素代碼抽取數(shù)據(jù)序列或者數(shù)據(jù)/控制碼序列并輸入到數(shù)據(jù)處理單元63的同時,將所輸入的各元素代碼原封不動地輸入到語音/聲音CODEC(解碼器)64。解碼器64解碼所輸入的語音代碼并再生輸出語音。
數(shù)據(jù)抽取單元62,置備有嵌入判定單元65和分配單元66,適宜地從語音代碼抽取數(shù)據(jù)序列或者數(shù)據(jù)/控制碼序列。嵌入判定單元65,使用符合構(gòu)成語音代碼的元素代碼中的第1元素代碼的值和圖23所示的臨界值TH1、TH2(TH2>TH1)判斷是否滿足數(shù)據(jù)嵌入條件,同時在滿足的情況下,判定是滿足僅由媒體數(shù)據(jù)形成的數(shù)據(jù)序列的嵌入條件,還是滿足具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列的嵌入條件。例如,第1元素代碼的逆量化值G,①如果TH2<G就判定為不滿足數(shù)據(jù)嵌入條件,②如果TH1≤G<TH2就判定為滿足具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列的嵌入條件,③如果G<TH1就判定為滿足僅由媒體數(shù)據(jù)形成的數(shù)據(jù)序列的嵌入條件。
分配單元66,①如果TH1≤G<TH2,就將第2元素代碼看作是具有數(shù)據(jù)類別位的數(shù)據(jù)/控制碼序列輸入到數(shù)據(jù)處理單元63,同時將該第2元素代碼輸入到解碼器64,②如果G<TH1,就將第2元素代碼看作是僅由媒體數(shù)據(jù)形成的數(shù)據(jù)序列輸入到數(shù)據(jù)處理單元63,同時將該第2元素代碼輸入到解碼器64,進(jìn)而③如果TH2<G,就看作是數(shù)據(jù)沒有嵌入在第2元素代碼中將該第2元素代碼輸入到解碼器64。
圖27是嵌入判定單元65的構(gòu)成圖,逆量化單元65a對第1元素代碼進(jìn)行逆量化并輸出逆量化值G,臨界值發(fā)生單元65b輸出第1、第2臨界值TH1、TH2。比較單元65c對逆量化值G和臨界值TH1、TH2進(jìn)行比較,并將比較結(jié)果輸入到數(shù)據(jù)嵌入判定單元65d。數(shù)據(jù)嵌入判定單元65d,依照是①TH2<G,還是②TH1≤G<TH2,還是③G<TH1輸出預(yù)定的分配信號BL。此結(jié)果是分配單元66基于分配信號BL進(jìn)行上述的分配。
在接受由G.729編碼方式所編碼的聲音代碼的情況下,符合上述第1元素代碼的值是噪聲碼本增益或者音調(diào)增益,第2元素代碼是噪聲代碼或者音調(diào)遲延代碼。
上面就在從具有編碼器的發(fā)送裝置將語音代碼發(fā)送給具有解碼器的接收裝置的語音通信系統(tǒng)中適用了本發(fā)明的情形進(jìn)行了說明。但是,本發(fā)明并不限于有關(guān)的語音通信系統(tǒng),在其他的系統(tǒng)中,例如,在用具有編碼器的記錄裝置編碼語音并記錄在存儲介質(zhì)中,用具有解碼器的再生裝置從該存儲介質(zhì)再生語音的記錄/再生系統(tǒng)等中也可以適用。
(E)數(shù)字語音通信系統(tǒng)(a)實(shí)現(xiàn)圖像傳送服務(wù)的系統(tǒng)圖28是通過嵌入圖像來實(shí)現(xiàn)同時傳送語音和圖像的多媒體傳送的數(shù)字語音通信系統(tǒng)的構(gòu)成圖,示出通過公用網(wǎng)絡(luò)300連接著終端A100和終端B200的狀況。各終端A、B具有相同的構(gòu)成。在終端A100中,語音編碼單元101,例如按照G.729方式對從麥克風(fēng)MIC輸入的語音代碼進(jìn)行語音編碼并輸入到嵌入單元103,圖像數(shù)據(jù)生成單元102,生成應(yīng)該發(fā)送的圖像數(shù)據(jù)并輸入到嵌入單元103。圖像數(shù)據(jù)生成單元102,壓縮編碼例如用沒有圖示的數(shù)碼相機(jī)所拍攝的周圍的照片或用戶自身的容貌照片的數(shù)據(jù)并保存在存儲器中,對這些圖像數(shù)據(jù)或者說話者周圍的地像數(shù)據(jù)進(jìn)行編碼并輸入到嵌入單元103。嵌入單元103是與圖3或者圖8的實(shí)施例中所示的數(shù)據(jù)嵌入控制單元53相對應(yīng)的部分,按照與該實(shí)施例相同的嵌入判定基準(zhǔn)將圖像數(shù)據(jù)嵌入到從語音編碼單元101輸入的語音代碼數(shù)據(jù)并進(jìn)行輸出。傳送處理單元104通過公用網(wǎng)絡(luò)300將嵌入了圖像數(shù)據(jù)的語音代碼數(shù)據(jù)發(fā)送到對方終端。
對方終端B200的傳送處理單元204,從公用網(wǎng)絡(luò)300接收語音代碼數(shù)據(jù)并輸入到抽取單元205。抽取單元205,是與圖14或者圖18的實(shí)施例中所示的數(shù)據(jù)抽取單元62相對應(yīng)的部分,按照與該實(shí)施例相同的嵌入判定基準(zhǔn)抽取圖像數(shù)據(jù)并輸入到圖像輸出單元206,另外,將語音代碼數(shù)據(jù)輸入到語音解碼單元207。圖像輸出單元206,解碼所輸入的圖像數(shù)據(jù)生成圖像并顯示到顯示單元。語音解碼單元207,解碼所輸入的語音代碼數(shù)據(jù)由揚(yáng)聲器SP輸出。
此外,將圖像數(shù)據(jù)嵌入在語音代碼數(shù)據(jù)中從終端B發(fā)送到終端A,在終端A也同樣地進(jìn)行輸出圖像的控制。
圖29是圖像傳送服務(wù)中的發(fā)送方終端的發(fā)送處理流程。按照所希望的編碼方式,例如G.729對輸入語音進(jìn)行語音編碼并進(jìn)行壓縮(步驟1001),分析所編碼的語音幀內(nèi)的信息(步驟1002),基于分析的結(jié)果檢查是否可以嵌入(步驟1003),如果可以嵌入就將圖像數(shù)據(jù)嵌入到語音代碼數(shù)據(jù)(步驟1004),傳送嵌入了圖像數(shù)據(jù)的語音代碼數(shù)據(jù)(步驟1005),反復(fù)上述動作直到發(fā)送完成(步驟1006)。
圖30是圖像傳送服務(wù)中的接收方終端的接收處理流程。如果接收到語音代碼數(shù)據(jù)(步驟1101),分析所編碼的語音幀內(nèi)的信息(步驟1102),基于分析的結(jié)果檢查是否嵌入有圖像數(shù)據(jù)(步驟1103),如果沒有嵌入就對語音代碼數(shù)據(jù)進(jìn)行解碼并由揚(yáng)聲器輸出再生語音(步驟1104),另一方面,如果嵌入有圖像數(shù)據(jù),就與步驟1104的語音再生并行抽取圖像數(shù)據(jù)(步驟1105),解碼該圖像數(shù)據(jù)對圖像進(jìn)行再生并顯示到顯示單元(步驟1106)。此后,反復(fù)上述動作直到再生完成(步驟1107)。
上面,利用圖28的數(shù)字語音通信系統(tǒng),就能夠照通常的語音傳送協(xié)議那樣同時傳送語音和附加信息。另外,由于附加信息嵌入在語音數(shù)據(jù)里面,沒有聽覺上的重疊,也不會有攪擾的存在或者異常噪音的情形。而且,通過作為附加信息選用圖像信息(所在地周圍的圖象、地像等)、個人信息(容貌照片、指紋)等,多媒體通信就成為可能。
(b)實(shí)現(xiàn)認(rèn)證信息傳送服務(wù)的系統(tǒng)圖31是通過嵌入認(rèn)證信息同時傳送語音和認(rèn)證信息的數(shù)字語音通信系統(tǒng)的構(gòu)成圖,對與圖28相同的部分附加相同的標(biāo)記。不同點(diǎn)是,取代圖像數(shù)據(jù)生成單元102、202設(shè)置認(rèn)證數(shù)據(jù)生成單元111、211這一點(diǎn),取代圖像輸出單元106、206設(shè)置認(rèn)證確認(rèn)單元112、212這一點(diǎn)。在圖31中示出作為認(rèn)證信息,嵌入聲波紋的情形。認(rèn)證數(shù)據(jù)生成單元111使用數(shù)據(jù)嵌入前的語音編碼數(shù)據(jù)或者原語音數(shù)據(jù)生成并保存聲波紋信息。然后將此聲波紋信息嵌入到語音編碼數(shù)據(jù)并進(jìn)行發(fā)送。在接收方中認(rèn)證確認(rèn)單元112、212抽取聲波紋信息,通過比較是否是預(yù)先登錄的本人的聲波紋來進(jìn)行認(rèn)證,如果是本人就允許語音解碼。此外,作為認(rèn)證信息并不限于聲波紋,也可以是終端的唯一碼(序列編號),或者用戶自己相信的唯一碼,或者是組合這兩個碼的唯一碼等。
圖32是認(rèn)證傳送服務(wù)中的發(fā)送方終端的發(fā)送處理流程。按照所希望的編碼方式,例如G.729對輸入語音進(jìn)行語音編碼并進(jìn)行壓縮(步驟2001),分析所編碼的語音幀內(nèi)的信息(步驟2002),基于分析的結(jié)果檢查是否可以嵌入(步驟2003),如果可以嵌入就將個人認(rèn)證數(shù)據(jù)嵌入到語音代碼數(shù)據(jù)(步驟2004),傳送嵌入了認(rèn)證數(shù)據(jù)的語音代碼數(shù)據(jù)(步驟2005),反復(fù)上述動作直到發(fā)送完成(步驟2006)。
圖33是認(rèn)證傳送服務(wù)中的接收方終端的接收處理流程。如果接收到語音代碼數(shù)據(jù)(步驟2101),分析所編碼的語音幀內(nèi)的信息(步驟2102),基于分析的結(jié)果檢查是否嵌入有認(rèn)證數(shù)據(jù)(步驟2103),如果沒有嵌入就對語音代碼數(shù)據(jù)進(jìn)行解碼并由揚(yáng)聲器輸出再生語音(步驟2104),另一方面,如果嵌入有認(rèn)證數(shù)據(jù),就與步驟2104的語音再生并行抽取認(rèn)證數(shù)據(jù)(步驟2105),進(jìn)行認(rèn)證處理(步驟2106)。例如,與預(yù)先登錄的本人的認(rèn)證信息相比較來判別認(rèn)證的NG、OK(步驟2107),如果認(rèn)證結(jié)果是NG,即如果不是本人,就中止語音編碼數(shù)據(jù)的解碼(再生、擴(kuò)展)(步驟2108)。如果認(rèn)證結(jié)果OK,即如果是本人,就允許語音代碼數(shù)據(jù)的解碼,對語音進(jìn)行再生并由揚(yáng)聲器輸出(步驟2104)。此后,反復(fù)上述動作直到來自對方的發(fā)送完成(步驟2109)。
上面,利用圖31的數(shù)字語音通信系統(tǒng),就能夠照通常的語音傳送協(xié)議那樣同時傳送語音和附加信息。另外,由于附加信息嵌入在語音數(shù)據(jù)里面,沒有聽覺上的重疊,也不會有攪擾的存在或者異常噪音的情形。而且,通過作為附加信息嵌入認(rèn)證信息,就能夠提高是否是正當(dāng)用戶的認(rèn)證性能,并且提高語音數(shù)據(jù)的保密性能就成為可能。
(c)實(shí)現(xiàn)鍵信息傳送服務(wù)的系統(tǒng)圖34是通過嵌入鍵信息同時傳送語音和鍵信息的數(shù)字語音通信系統(tǒng)的構(gòu)成圖,對與圖28相同的部分附加相同的標(biāo)記。不同點(diǎn)是,取代圖像數(shù)據(jù)生成單元102、202設(shè)置鍵生成單元121、221這一點(diǎn),取代圖像輸出單元106、206設(shè)置鍵認(rèn)證單元122、222這一點(diǎn)。鍵生成單元121將預(yù)先設(shè)定的鍵信息預(yù)先保存到內(nèi)置的存儲單元。然后,嵌入單元103,按照與圖3或者圖8的實(shí)施例相同的嵌入判定基準(zhǔn)將從鍵生成單元121輸入的鍵信息嵌入到從語音編碼單元101輸入的語音代碼數(shù)據(jù)并進(jìn)行輸出。傳送處理單元104通過公用網(wǎng)絡(luò)300將嵌入了鍵信息的語音代碼數(shù)據(jù)發(fā)送到對方終端。
對方終端B200的傳送處理單元204,從公用網(wǎng)絡(luò)300接收語音代碼數(shù)據(jù)并輸入到抽取單元205。抽取單元205,按照與圖14或者圖18的實(shí)施例相同的嵌入判定基準(zhǔn)抽取鍵數(shù)據(jù)并輸入到鍵比較單元222,同時將語音代碼數(shù)據(jù)輸入到語音解碼單元207。鍵比較單元222通過比較所輸入的信息是否是預(yù)先登錄的鍵來進(jìn)行認(rèn)證,如果鍵信息相一致就允許語音解碼。如果不一致就禁止語音解碼。如以上那樣來做,就能夠做到僅來自特定用戶的語音數(shù)據(jù)的再生。
(d)實(shí)現(xiàn)IP電話地址傳送服務(wù)的系統(tǒng)圖35是通過嵌入IP電話地址信息同時傳送語音和IP電話地址信息的數(shù)字語音通信系統(tǒng)的構(gòu)成圖,對與圖28相同的部分附加相同的標(biāo)記。不同點(diǎn)是,取代圖像數(shù)據(jù)生成單元102、202設(shè)置IP電話地址輸入單元131、231這一點(diǎn),取代圖像輸出單元106、206設(shè)置IP電話存儲單元132、232這一點(diǎn),以及設(shè)置顯示/鍵單元DPK這一點(diǎn)。
預(yù)先設(shè)定的IP電話地址保存在IP電話地址輸入單元131內(nèi)置的存儲單元中。此IP電話地址也可以是終端A的IP電話地址,也可以是終端A以外的其他設(shè)施、其他站點(diǎn)的電話號碼。嵌入單元103,按照與圖3或者圖8的實(shí)施例相同的嵌入判定基準(zhǔn)將從IP電話地址輸入單元131輸入的IP電話地址嵌入到從語音編碼單元101輸入的語音代碼數(shù)據(jù)并進(jìn)行輸出。傳送處理單元104通過公用網(wǎng)絡(luò)300將嵌入了IP電話地址的語音代碼數(shù)據(jù)發(fā)送到對方終端。
對方終端B200的傳送處理單元204,從公用網(wǎng)絡(luò)300接收語音代碼數(shù)據(jù)并輸入到抽取單元205。抽取單元205,按照與圖14或者圖18的實(shí)施例相同的嵌入判定基準(zhǔn)抽取IP電話地址并輸入到IP電話地址存儲單元232,另外將語音代碼數(shù)據(jù)輸入到語音解碼單元207。IP電話地址存儲單元232存儲所輸入的IP電話地址。
由于顯示/鍵單元DPK顯示存儲在IP電話地址存儲單元232的IP電話地址,故能夠選擇此IP電話地址通過點(diǎn)擊來打電話。
(e)實(shí)現(xiàn)廣告數(shù)據(jù)嵌入服務(wù)的系統(tǒng)圖36是實(shí)現(xiàn)廣告信息嵌入服務(wù)的數(shù)字語音通信系統(tǒng)的構(gòu)成圖,設(shè)置服務(wù)器(網(wǎng)關(guān)),在該服務(wù)器中,通過將廣告信息嵌入到語音編碼數(shù)據(jù),直接將廣告信息提供給互相進(jìn)行通信的最終用戶。在圖36中對與圖28相同的部分附加相同的標(biāo)記。與圖28的不同點(diǎn)是,①從終端100、200除去了圖像數(shù)據(jù)生成單元102、202以及嵌入單元103、203這一點(diǎn),②取代圖像輸出單元106、206設(shè)置廣告信息再生單元142、242這一點(diǎn),③設(shè)置顯示/鍵單元DPK這一點(diǎn),以及④設(shè)置將終端間的語音數(shù)據(jù)轉(zhuǎn)發(fā)給公用網(wǎng)絡(luò)300的服務(wù)器(網(wǎng)關(guān))400這一點(diǎn)。
在服務(wù)器400中,比特流分解/生成單元401,從輸入自發(fā)送方終端100的比特流截出傳送分組,并從該分組的IP標(biāo)題確定發(fā)送人、發(fā)信人,另外從RTP標(biāo)題確定媒體類別和編碼方式并基于這些信息判別是否滿足廣告信息插入條件,如果滿足就將傳送分組的語音代碼數(shù)據(jù)輸入到嵌入單元402。嵌入單元402,按照與圖3或者圖8的實(shí)施例相同的嵌入判定基準(zhǔn),判別可否嵌入,如果可以嵌入,就將廣告主另外進(jìn)行提供保存在存儲器403中的廣告信息嵌入到語音代碼數(shù)據(jù)并輸入到比特流分解/生成單元401。比特流分解/生成單元401使用該語音代碼數(shù)據(jù)生成傳送分組并發(fā)送給接收方終端B200。
接收方終端B200的傳送處理單元204,從公用網(wǎng)絡(luò)300接收語音代碼數(shù)據(jù)并輸入到抽取單元205。抽取單元205,按照與圖14或者圖18的實(shí)施例相同的嵌入判定基準(zhǔn)抽取廣告信息并輸入到廣告信息再生單元242,另外將語音代碼數(shù)據(jù)輸入到語音解碼單元207。廣告信息再生單元242再生所輸入的廣告信息并顯示到顯示/鍵單元DPK,語音解碼單元207對語音進(jìn)行再生并由揚(yáng)聲器SP輸出。
圖37是在因特網(wǎng)電話服務(wù)中的IP分組的構(gòu)成例子,標(biāo)題由IP標(biāo)題、UDP(User Datagram Protocol)標(biāo)題、RTP(Real-time TransportProtocol)標(biāo)題構(gòu)成,在IP標(biāo)題中包含沒有圖示的發(fā)信訪地址、發(fā)送方地址,由RTP標(biāo)題的有效負(fù)荷類別PT來確定媒體類別和CODEC類別。因此,比特流分解/生成單元401,通過參照傳送分組的標(biāo)題,就能夠識別發(fā)送者、接收者、媒體類別和編碼方式。
圖38是在服務(wù)中廣告信息插入處理流程。
服務(wù)器400,當(dāng)比特流輸入后就進(jìn)行傳送分組的標(biāo)題以及編碼語音數(shù)據(jù)的分析(步驟3001)。即,從比特流截取傳送分組(步驟3001a),從IP標(biāo)題抽取發(fā)送地址、接收地址(步驟3001b),檢查發(fā)送者、接收者是否簽定了廣告提供合同(步驟3001c),如果簽定了廣告提供合同就參照RTP標(biāo)題來識別媒體類別和CODEC類別(步驟3001d)。這里例如媒體類別為語音、CODEC類別為G.729(步驟3001e),接著按照與圖3或者圖8的實(shí)施例相同的嵌入判定基準(zhǔn),判別是否可以嵌入(步驟3001f),按照判別結(jié)果設(shè)為可以嵌入、不可嵌入(步驟3001g,步驟3001h)。此外,在步驟3001c中沒有簽定廣告提供合同的情況下,在步驟3001e媒體類別不是語音的情況下或者COEDC類別不是G.729的情況下,設(shè)為不可嵌入(步驟3001h)。
然后,服務(wù)器400如果可以嵌入(步驟3002),就將廣告主(信息提供者)提供的廣告數(shù)據(jù)嵌入到語音代碼(步驟3003),如果不可嵌入就不將廣告數(shù)據(jù)嵌入到語音代碼數(shù)據(jù)地發(fā)送到接收方的終端(步驟3004),此后,反復(fù)上述動作直到發(fā)送完成(步驟3005)。
圖39是在廣告信息嵌入服務(wù)中接收方終端的廣告信息接收處理流程圖。如果接收到語音代碼數(shù)據(jù)(步驟3101),分析所編碼的語音幀內(nèi)的信息(步驟3102),基于分析的結(jié)果檢查是否嵌入有廣告信息(步驟3103),如果沒有嵌入就對語音代碼數(shù)據(jù)進(jìn)行解碼并由揚(yáng)聲器輸出再生語音(步驟3104),另一方面,如果嵌入有廣告信息,就與步驟3104的語音再生并行抽取廣告信息(步驟3105),將該廣告信息顯示/鍵單元DPK(步驟3106)。此后,反復(fù)上述動作直到再生完成(步驟3107)。
此外,盡管在實(shí)施例中就嵌入廣告信息的情形進(jìn)行了說明,但并不限于廣告信息,可以嵌入任意的信息。另外,通過同時插入廣告信息和IP電話地址就能夠通過單擊給該IP電話地址方打電話并輸入詳細(xì)的廣告信息或者其他的詳細(xì)信息這樣來進(jìn)行構(gòu)成。
以上利用圖36的數(shù)字語音通訊系統(tǒng),設(shè)置中轉(zhuǎn)語音數(shù)據(jù)的服務(wù)器裝置,就能夠通過該服務(wù)器將廣告信息等的任意信息提供給互相進(jìn)行語音數(shù)據(jù)通信的最終用戶。
(f)信息存儲系統(tǒng)圖40是在數(shù)字語音通信系統(tǒng)中協(xié)同動作的信息存儲系統(tǒng)的構(gòu)成圖,示出通過公用網(wǎng)絡(luò)300連接終端A100和中心500的狀態(tài)。中心500作為例如企業(yè)的呼叫中心,是接受投訴或商談維修、來自其他用戶的要求進(jìn)行應(yīng)答的設(shè)施。在終端A100中語音編碼單元101對從麥克風(fēng)MIC輸入的語音進(jìn)行編碼并通過傳送處理單元104發(fā)送網(wǎng)絡(luò)300,同時語音解碼單元107對通過傳送處理單元104從網(wǎng)絡(luò)300輸入的語音代碼數(shù)據(jù)進(jìn)行解碼并從揚(yáng)聲器SP輸出再生語音。在中心500中語音通信終端方B具備與終端A同樣的結(jié)構(gòu)。即,語音編碼單元501對從麥克風(fēng)MIC輸入的語音進(jìn)行編碼并通過傳送處理單元發(fā)送給網(wǎng)絡(luò)單元300,同時語音解碼單元507對通過傳送處理單元504從網(wǎng)絡(luò)300輸入的語音代碼數(shù)據(jù)進(jìn)行解碼并從揚(yáng)聲器SP輸出再生語音。通過上述的結(jié)構(gòu),當(dāng)從終端A(用戶)打來電話后,操作者就對該用戶進(jìn)行應(yīng)答。
在中心500的數(shù)字語音存儲方,附加數(shù)據(jù)嵌入單元510將附加數(shù)據(jù)嵌入到從終端A發(fā)送來的語音編碼數(shù)據(jù)并存儲到語音數(shù)據(jù)單元520,附加數(shù)據(jù)抽取單元530抽取通過從語音數(shù)據(jù)存儲單元520所讀出的預(yù)定的語音編碼數(shù)據(jù)進(jìn)行嵌入的信息,并顯示到操作單元540的顯示單元,同時將語音編碼數(shù)據(jù)輸入到語音解碼單元550,語音解碼單元550對所輸入的語音代碼數(shù)據(jù)進(jìn)行解碼,并由揚(yáng)聲器560進(jìn)行輸出。
在附加數(shù)據(jù)嵌入單元510中,附加數(shù)據(jù)發(fā)生單元511將從操作單元540輸入的發(fā)送者姓名、接收者姓名、接收時刻、談話分類(投訴、商談、維修委托等類別)作為附加數(shù)據(jù)進(jìn)行編碼,并輸入到嵌入單元512。嵌入單元512,按照與圖3或圖8的實(shí)施例相同的嵌入判定基準(zhǔn),來判別在通過傳送處理單元504從終端A100發(fā)送來的語音代碼數(shù)據(jù)中是否可以嵌入附加信息。然后如果可以嵌入就將從附加數(shù)據(jù)發(fā)生單元511輸入的代碼的信息嵌入到語音代碼數(shù)據(jù)并作為語音文件存儲到語音數(shù)據(jù)存儲單元520。
在附加抽取單元530中抽取單元531,按照與圖14或者圖18的實(shí)施例相同的嵌入判定基準(zhǔn),來判定是否在語音代碼數(shù)據(jù)中嵌入有信息,在有嵌入的情況下,抽取嵌入代碼并輸入到附加數(shù)據(jù)利用單元532,同時將語音代碼數(shù)據(jù)輸入到語音解碼單元550。附加數(shù)據(jù)利用單元532對所抽取的代碼進(jìn)行解碼并將發(fā)送者姓名、接收者姓名、接收時刻、談話分類等顯示到操作單元540的顯示單元。另外,語音解碼單元550對語音進(jìn)行再生并由揚(yáng)聲器進(jìn)行輸出。
此外,在從語音數(shù)據(jù)存儲單元520讀出語音代碼數(shù)據(jù)時,能夠使用所嵌入的信息來檢索并輸出所希望的語音代碼數(shù)據(jù)。即,由操作單元540輸入檢索關(guān)鍵字例如發(fā)送者姓名,指示輸出嵌入此發(fā)送者姓名的語音文件。由此,抽取單元531檢索嵌入有所指定發(fā)送者姓名的語音文件,輸出嵌入信息,同時將語音代碼數(shù)據(jù)輸入到語音解碼單元550,并由揚(yáng)聲器輸出解碼語音。
利用上述圖40的實(shí)施例,將發(fā)送者、接收者、接收時刻、談話分類等嵌入語音代碼數(shù)據(jù)并存儲到存儲裝置,就能夠適宜地讀出并再生所存儲的語音代碼數(shù)據(jù),同時抽取并顯示嵌入信息。另外,使用嵌入數(shù)據(jù)進(jìn)行語音數(shù)據(jù)的文件化就成為可能,而且將嵌入作為檢索關(guān)鍵字就能夠迅速地檢索所希望的語音文件并進(jìn)行再生輸出。
利用上述的本發(fā)明,即使在編碼器、解碼器雙方不互相持有密鑰也能夠在編碼器方將數(shù)據(jù)嵌入到語音代碼,而且在解碼器能夠正確地抽取該嵌入數(shù)據(jù)。
另外,利用本發(fā)明,即使將數(shù)據(jù)嵌入到語音代碼,也不會有音質(zhì)劣化,并使再生語音的聽取者意識不到數(shù)據(jù)嵌入。
另外,利用本發(fā)明,如果在收發(fā)雙方僅預(yù)先定義好臨界值的初始值,數(shù)據(jù)的嵌入、抽取就成為可能。
另外,利用本發(fā)明,如果在嵌入數(shù)據(jù)中定義好控制碼就能夠通過該控制碼進(jìn)行臨界值的變更等,能夠調(diào)整其他通路的附加信息的傳送或嵌入數(shù)據(jù)的傳送量。
另外,利用本發(fā)明,由于依照增益值來決定是僅嵌入數(shù)據(jù)序列或者以能夠識別數(shù)據(jù)和控制碼的類別的形式嵌入數(shù)據(jù)/控制碼序列,在僅嵌入數(shù)據(jù)序列的情況下就沒有必要包含數(shù)據(jù)類別信息,故能夠改善傳送容量。
另外,利用本發(fā)明,就能夠編碼格式不作變更地進(jìn)行任意數(shù)據(jù)的嵌入。也就是,能夠不損害通信/存儲的用途中必須的互換性地,且不對用戶進(jìn)行通知地將ID或其他媒體的信息嵌入到語音信息來進(jìn)行傳送/存儲。再加上,在本發(fā)明中由于通過對CELP共通的參數(shù)來規(guī)定控制方法,就能夠不限定于特定的方式地適用于寬廣的方式。例如,也能夠?qū)?yīng)針對VoIP的G.729或針對移動通信的AMR等。
另外,利用本發(fā)明的數(shù)據(jù)語音通信系統(tǒng),如果在發(fā)送端或者通路途中將任意的代碼嵌入到壓縮語音數(shù)據(jù)的特定部分,在接收端或者通路途中通過分析傳送語音數(shù)據(jù)抽取從特定部分嵌入的代碼,就能夠照通常的語音傳送協(xié)議那樣同時傳送語音和附加信息。另外,由于附加信息嵌入在語音數(shù)據(jù)里面,沒有聽覺上的重疊,也不會有攪擾的存在或者異常噪音的情形。另外,通過作為附加信息選用圖像信息(所在地周圍的圖象、地像等)、個人信息(容貌照片、聲波紋、指紋)等,多媒體通信就成為可能。另外,通過作為附加信息選用終端的序列編號、聲波紋,就能夠提高是否是正當(dāng)用戶的認(rèn)證性能,并且提高語音數(shù)據(jù)的保密性能就成為可能。
另外,利用本發(fā)明,通過設(shè)置中轉(zhuǎn)語音數(shù)據(jù)的服務(wù)器裝置,就能夠?qū)V告信息等的任意信息提供給互相進(jìn)行語音數(shù)據(jù)通信的最終用戶。
另外,利用本發(fā)明,通過將發(fā)送者、接收者、接收時刻、談話分類等嵌入在已接收的語音數(shù)據(jù)中并存儲到存儲裝置,語音數(shù)據(jù)的文件化就成為可能,就能夠容易地在今后利用。
由于不違背本發(fā)明的精神和范圍能實(shí)現(xiàn)本發(fā)明的許多明顯地廣泛不同的實(shí)施形式,故應(yīng)理解為本發(fā)明并不限于除權(quán)利要求書以外的特定實(shí)施形式。
權(quán)利要求
1.一種在以預(yù)定的語音編碼方式對語音進(jìn)行編碼所得到的語音代碼中嵌入任意數(shù)據(jù)的數(shù)據(jù)嵌入方法,其特征在于使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;在滿足的情況下,通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼。
2.一種對嵌入在以預(yù)定的語音編碼方式所編碼的語音代碼中的數(shù)據(jù)進(jìn)行抽取的數(shù)據(jù)抽取方法,其特征在于使用構(gòu)成上述語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;在滿足的情況下,判斷為在語音代碼的第2元素代碼部分中嵌入有任意的數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取。
3.一種在語音編碼裝置中以預(yù)定的語音編碼方式對語音進(jìn)行編碼,同時在所得到的語音代碼中嵌入任意的數(shù)據(jù),在語音再生裝置中從語音代碼抽取嵌入數(shù)據(jù),同時由該語音代碼對語音進(jìn)行再生的系統(tǒng)中的數(shù)據(jù)嵌入/抽取方法,其特征在于預(yù)先,對為了判定是否嵌入有數(shù)據(jù)而使用的第1元素代碼和臨界值、以及基于該判定結(jié)果來嵌入數(shù)據(jù)的第2元素代碼分別進(jìn)行定義;在數(shù)據(jù)嵌入時,使用第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件,在滿足的情況下,通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼;在數(shù)據(jù)抽取時,使用第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件,在滿足的情況下,判斷為在語音代碼的第2元素代碼部分中嵌入有任意數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取。
4.如權(quán)利要求1至3所述的數(shù)據(jù)嵌入或者數(shù)據(jù)抽取方法,其特征在于對第1元素代碼的逆量化值和臨界值進(jìn)行比較,基于比較結(jié)果來判斷是否滿足數(shù)據(jù)嵌入條件。
5.如權(quán)利要求1至3所述的數(shù)據(jù)嵌入或者數(shù)據(jù)抽取方法,其特征在于上述的第1元素代碼是噪聲碼本增益代碼,第2元素代碼是作為噪聲碼本的索引信息的噪聲代碼;當(dāng)該噪聲碼本增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件,并通過以任意的數(shù)據(jù)來替換上述噪聲代碼將數(shù)據(jù)嵌入到語音代碼,或者判斷為在上述噪聲代碼部分中嵌入有任意的數(shù)據(jù),并對該嵌入數(shù)據(jù)進(jìn)行抽取。
6.如權(quán)利要求1至3所述的數(shù)據(jù)嵌入或者數(shù)據(jù)抽取方法,其特征在于上述的第1元素代碼是音調(diào)增益代碼,第2元素代碼是作為自適應(yīng)碼本的索引信息的音調(diào)遲延代碼;當(dāng)該音調(diào)增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件,并通過以任意的數(shù)據(jù)來替換上述音調(diào)遲延代碼將數(shù)據(jù)嵌入到語音代碼,或者判斷為在上述音調(diào)遲延代碼部分中嵌入有任意的數(shù)據(jù),并對該嵌入數(shù)據(jù)進(jìn)行抽取。
7.如權(quán)利要求1至3所述的數(shù)據(jù)嵌入或者數(shù)據(jù)抽取方法,其特征在于設(shè)上述嵌入數(shù)據(jù)的一部分為數(shù)據(jù)類別識別信息,由該數(shù)據(jù)類別識別信息來確定嵌入數(shù)據(jù)的類別。
8.如權(quán)利要求1至3所述的數(shù)據(jù)嵌入或者數(shù)據(jù)抽取方法,其特征在于設(shè)定多個上述臨界值,基于第1元素代碼或者第1元素代碼的逆量化值,來區(qū)別是全部為嵌入數(shù)據(jù)的數(shù)據(jù)序列,還是能夠識別數(shù)據(jù)和控制碼的類別的形式的數(shù)據(jù)/控制碼序列。
9.一種在以預(yù)定的語音編碼方式對語音進(jìn)行編碼所得到的語音代碼中嵌入任意數(shù)據(jù)的數(shù)據(jù)嵌入裝置,其特征在于,包括嵌入判定單元,使用構(gòu)成上述語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;數(shù)據(jù)嵌入單元,在滿足數(shù)據(jù)嵌入條件的情況下,通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼。
10.一種對嵌入在以預(yù)定的語音編碼方式所編碼的語音代碼中的數(shù)據(jù)進(jìn)行抽取的數(shù)據(jù)抽取裝置,其特征在于,包括分離單元,對構(gòu)成上述語音代碼的元素代碼進(jìn)行分離;嵌入判斷單元,使用上述元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;嵌入數(shù)據(jù)抽取單元,在滿足數(shù)據(jù)嵌入條件的情況下,判斷為在語音代碼的第2元素代碼部分中嵌入有任意的數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取。
11.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼,同時在所得到的語音代碼中嵌入任意的數(shù)據(jù),從該語音代碼抽取嵌入數(shù)據(jù),同時由該語音代碼對語音進(jìn)行再生的語音編碼/解碼系統(tǒng),其特征在于,包括在以預(yù)定的語音編碼方式對語音進(jìn)行編碼所得到的語音代碼中嵌入任意的數(shù)據(jù)的語音編碼裝置,以及對以預(yù)定的語音編碼方式所編碼的語音代碼施行解碼處理并對語音進(jìn)行再生,同時對嵌入在該語音代碼中的數(shù)據(jù)進(jìn)行抽取的語音解碼裝置;上述語音編碼裝置,置備有,編碼器,以預(yù)定的語音編碼方式對語音進(jìn)行編碼,嵌入判定單元,使用上述構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件,數(shù)據(jù)嵌入單元,在滿足數(shù)據(jù)嵌入條件的情況下,通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼;上述語音解碼裝置,置備有,分離單元,將語音代碼分離為元素代碼,嵌入判斷單元,使用構(gòu)成接收語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件,嵌入數(shù)據(jù)抽取單元,在滿足數(shù)據(jù)嵌入條件的情況下,判斷為在語音代碼的第2元素代碼部分中嵌入有任意的數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取,解碼器,對接收語音代碼進(jìn)行解碼并再生語音;預(yù)先,分別定義好為了判定在語音編碼裝置以及語音解碼裝置中是否嵌入有數(shù)據(jù)而使用的上述第1元素代碼和臨界值、以及基于該判定結(jié)果來嵌入數(shù)據(jù)的上述第2元素代碼。
12.如權(quán)利要求9或者10所述的數(shù)據(jù)嵌入裝置或者數(shù)據(jù)抽取裝置,其特征在于上述嵌入判定單元具有,對上述第1元素代碼進(jìn)行逆量化的逆量化單元;對由逆量化所得到的逆量化值和上述臨界值進(jìn)行比較的比較單元;基于比較結(jié)果,判定是否滿足數(shù)據(jù)嵌入條件的判定單元。
13.如權(quán)利要求12所述的數(shù)據(jù)嵌入裝置或者數(shù)據(jù)抽取裝置,其特征在于上述的第1元素代碼是噪音碼本增益代碼,第2元素代碼是作為噪音碼本的索引信息的噪音代碼;上述嵌入判定單元,當(dāng)該噪音碼本增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件。
14.如權(quán)利要求12所述的數(shù)據(jù)嵌入裝置或者數(shù)據(jù)抽取裝置,其特征在于上述的第1元素代碼是音調(diào)增益代碼,第2元素代碼是作為自適應(yīng)碼本的索引信息的音調(diào)遲延代碼;上述嵌入判定單元,當(dāng)該音調(diào)增益代碼的逆量化值比上述臨界值小時,判斷為滿足上述數(shù)據(jù)嵌入條件。
15.如權(quán)利要求9所述的數(shù)據(jù)嵌入裝置,其特征在于產(chǎn)生一部分是確認(rèn)數(shù)據(jù)的類別的類別信息的嵌入數(shù)據(jù)的嵌入數(shù)據(jù)發(fā)生單元。
16.如權(quán)利要求9所述的數(shù)據(jù)嵌入裝置,其特征在于上述數(shù)據(jù)嵌入單元,基于上述或者符合該第1元素代碼的值,決定是以能夠識別數(shù)據(jù)和控制碼的類別的形式嵌入數(shù)據(jù)/控制碼序列,或者是僅嵌入數(shù)據(jù)序列。
17.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行發(fā)送的數(shù)字語音通信系統(tǒng),其特征在于,包括分析對輸入語音進(jìn)行編碼后的語音數(shù)據(jù)的裝置,依照該分析結(jié)果將任意的代碼嵌入到語音數(shù)據(jù)的一部分的特定部分的裝置,以及將上述所嵌入的數(shù)據(jù)作為語音數(shù)據(jù)進(jìn)行發(fā)送的裝置;同時發(fā)送通常的語音通話和附加信息。
18.一種接收以預(yù)定的語音編碼方式對語音進(jìn)行編碼并發(fā)送了的語音數(shù)據(jù)的數(shù)字語音通信系統(tǒng),其特征在于,包括分析已接收到的語音數(shù)據(jù)的裝置,以及依照該分析結(jié)果從語音數(shù)據(jù)的一部分的特定部分抽取代碼的裝置;同時接收通常的語音通話和附加信息。
19.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行收發(fā)的數(shù)字語音通信系統(tǒng),其特征在于終端裝置置備有,發(fā)送單元和接收單元;上述發(fā)送單元置備有,分析對輸入語音進(jìn)行編碼后的數(shù)據(jù)的裝置,依照該分析結(jié)果將任意的代碼嵌入到語音數(shù)據(jù)的一部分的特定部分的裝置,以及將上述所嵌入的數(shù)據(jù)作為語音數(shù)據(jù)進(jìn)行發(fā)送的裝置;上述接收單元置備有,分析已接收到的語音數(shù)據(jù)的裝置,以及依照該分析結(jié)果從語音數(shù)據(jù)的一部分的特定部分抽取代碼的裝置;在終端裝置間通過網(wǎng)絡(luò)同時雙向傳送通常的語音通話和附加信息。
20.如權(quán)利要求19所述的數(shù)字語音通信系統(tǒng),其特征在于上述發(fā)送單元置備有,使用用戶終端所保存的圖像或者個人信息來生成上述嵌入用的代碼的裝置;上述接收單元置備有,抽取并輸出上述所嵌入的代碼的裝置;能夠以語音通話的形式進(jìn)行多媒體傳送。
21.如權(quán)利要求19所述的數(shù)字語音通信系統(tǒng),其特征在于上述發(fā)送單元置備有,將在發(fā)送方用戶使用的終端唯一碼或者使用者自身的唯一碼作為上述嵌入用的代碼的裝置;上述接收單元置備有,抽取嵌入代碼并判別內(nèi)容的裝置;
22.如權(quán)利要求19所述的數(shù)字語音通信系統(tǒng),其特征在于上述發(fā)送單元置備有,將鍵信息作為上述嵌入用的代碼的裝置;上述接收單元置備有,抽取該鍵信息的裝置,和使用該所抽取的鍵信息就使只有特定用戶的語音數(shù)據(jù)的解壓成為可能的裝置。
23.如權(quán)利要求19所述的數(shù)字語音通信系統(tǒng),其特征在于上述發(fā)送單元置備有,將IP電話地址信息作為上述嵌入用的代碼的裝置;上述接收單元置備有,抽取該IP電話地址信息的裝置,和使用該IP電話地址信息通過點(diǎn)擊給信息發(fā)送者打電話的裝置。
24.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行收發(fā)的數(shù)字語音通信系統(tǒng),其特征在于,包括終端裝置,和連接到網(wǎng)絡(luò)并對終端裝置間的語音數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)的服務(wù)器裝置;終端裝置置備有,對輸入語音進(jìn)行編碼的語音編碼裝置,發(fā)送語音編碼數(shù)據(jù)的裝置,分析已接收到的語音數(shù)據(jù)的裝置,以及依照該分析結(jié)果從語音數(shù)據(jù)的一部分的特定部分取出代碼的裝置;上述服務(wù)器裝置置備有,接收在終端裝置間互相進(jìn)行交換的數(shù)據(jù),并判定該數(shù)據(jù)是否是語音數(shù)據(jù)的裝置,如果是語音數(shù)據(jù)就對該數(shù)據(jù)進(jìn)行分析的裝置,以及依照該分析結(jié)果將任意的代碼嵌入到一部分的特定部分并進(jìn)行發(fā)送的裝置;通過服務(wù)器裝置接收到數(shù)據(jù)的終端裝置,抽取并輸出在該服務(wù)器裝置中所嵌入的代碼。
25.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行存儲的數(shù)字語音存儲系統(tǒng),其特征在于,包括分析對輸入語音進(jìn)行編碼后的語音數(shù)據(jù)的裝置,依照該分析結(jié)果將任意的代碼嵌入到語音數(shù)據(jù)的一部分的特定部分的裝置,以及將上述所嵌入的數(shù)據(jù)作為語音數(shù)據(jù)進(jìn)行存儲的裝置;與通常的數(shù)字語音的存儲同時地還存儲附加信息。
26.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行存儲的數(shù)字語音存儲系統(tǒng),其特征在于將任意的代碼嵌入到編碼語音數(shù)據(jù)的一部分并進(jìn)行存儲的裝置;在解碼該所存儲的語音數(shù)據(jù)時,分析該存儲語音數(shù)據(jù)的裝置;依照該分析結(jié)果從該存儲數(shù)據(jù)的特定部分抽取上述所嵌入的代碼的裝置。
27.一種以預(yù)定的語音編碼方式對語音進(jìn)行編碼并進(jìn)行存儲的數(shù)字語音存儲系統(tǒng),其特征在于分析對輸入語音進(jìn)行編碼后的語音數(shù)據(jù)的裝置;依照該分析結(jié)果將任意的代碼嵌入到語音數(shù)據(jù)的一部分的特定部分的裝置;將上述所嵌入的數(shù)據(jù)作為語音數(shù)據(jù)進(jìn)行存儲的裝置;在解碼該所存儲的語音數(shù)據(jù)時,分析該語音數(shù)據(jù)的裝置;依照該分析結(jié)果從該語音數(shù)據(jù)的特定部分抽取上述所嵌入的代碼的裝置。
28.如權(quán)利要求27所述的數(shù)字語音存儲系統(tǒng),其特征在于上述嵌入代碼是,說話者特定信息或者存儲時間信息;置備對應(yīng)該使用這些信息進(jìn)行解壓的存儲語音數(shù)據(jù)進(jìn)行檢索的裝置。
全文摘要
本發(fā)明提供對于語音代碼進(jìn)行數(shù)據(jù)嵌入/抽取方法、裝置以及系統(tǒng)。在將任意的數(shù)據(jù)嵌入到語音代碼時,使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;如果滿足,就通過以任意的數(shù)據(jù)來替換第2元素代碼將數(shù)據(jù)嵌入到語音代碼。在對嵌入在語音代碼中的數(shù)據(jù)進(jìn)行抽取時,使用構(gòu)成語音代碼的元素代碼中的第1元素代碼和臨界值來判斷是否滿足數(shù)據(jù)嵌入條件;如果滿足,就判斷為在語音代碼的第2元素代碼部分中嵌入有任意的數(shù)據(jù)并對該嵌入數(shù)據(jù)進(jìn)行抽取。
文檔編號G10L19/14GK1437169SQ0310232
公開日2003年8月20日 申請日期2003年1月30日 優(yōu)先權(quán)日2002年2月4日
發(fā)明者大田恭士, 鈴木政直, 土永義照, 田中正清, 佐佐木繁 申請人:富士通株式會社