專利名稱:用于適應(yīng)音頻信號的裝置和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及到用于適應(yīng)音頻信號的裝置和方法;并且,更具體的說,涉及到使音頻信號適應(yīng)諸如用戶特性,用戶的自然環(huán)境,和用戶終端性能等不同使用環(huán)境的裝置和方法。
背景技術(shù):
運動圖象專家組(MPEG)提出了新標(biāo)準(zhǔn)工作項,數(shù)字項適應(yīng)(DIA)。數(shù)字項(DI)是具有標(biāo)準(zhǔn)表示、身份認(rèn)證和元數(shù)據(jù)的結(jié)構(gòu)化數(shù)字對象,并且DIA是指用于通過在源適應(yīng)機和/或描述符適應(yīng)機中通過修改DI生成適應(yīng)的DI的過程。
這里,源是指能夠單獨標(biāo)識的資產(chǎn),諸如視頻或音頻剪輯,圖象或原文資產(chǎn)。源也可以代表物理目標(biāo)(physical object)。描述符是指涉及到DI的組件或其一些項的信息。同樣,用戶被指定為包括DI的所有生產(chǎn)者,所有人,發(fā)布者和消費者。媒體源是指能夠直接被數(shù)字化表示的內(nèi)容。在此說明書中,術(shù)語“內(nèi)容”與DI,媒體源和源作為同樣的意思使用。
傳統(tǒng)的技術(shù)有個問題,它們不能提供單源復(fù)用(single-source multi-use)的環(huán)境,即在此環(huán)境中通過利用數(shù)字音頻內(nèi)容使用信息,也就是用戶特性、用戶的自然環(huán)境和用戶終端的性能,將一項數(shù)字內(nèi)容適應(yīng)和使用在不同的使用環(huán)境。
這里,‘單源’表示為在多媒體源中生成的內(nèi)容,并且‘復(fù)用’是指各種具有不同的使用環(huán)境的用戶終端以適應(yīng)于它們使用環(huán)境的方式消費‘單源’。
單源復(fù)用是有益的,因為它能夠通過將內(nèi)容適應(yīng)于不同的使用環(huán)境而僅以一項內(nèi)容提供多樣化的內(nèi)容,此外當(dāng)它提供適應(yīng)于各種使用環(huán)境的單源時能有效的降低網(wǎng)絡(luò)的帶寬。
因此,內(nèi)容的提供者能夠節(jié)約用于生產(chǎn)和傳輸多項內(nèi)容以將音頻信號匹配使用環(huán)境的不必要的開支。另一方面,內(nèi)容消費者能被提供不同環(huán)境下對他們的聽力和愛好最優(yōu)的音頻內(nèi)容。
傳統(tǒng)技術(shù)甚至在能夠支持單源復(fù)用的通用多媒體訪問(UMA)環(huán)境下也不能利用單源復(fù)用。即,傳統(tǒng)技術(shù)不考慮使用環(huán)境,比如用戶的自然環(huán)境和用戶終端的性能,而無區(qū)別地傳輸音頻內(nèi)容。用戶終端有音頻播放器軟件,比如windows媒體播放器,MP3播放器,real播放器等等,它以不改變從多媒體源接收到的格式消費音頻內(nèi)容。因此,傳統(tǒng)技術(shù)不能支持單源復(fù)用環(huán)境。
如果多媒體源考慮到不同使用環(huán)境提供多媒體內(nèi)容去解決傳統(tǒng)技術(shù)的問題并支持單源復(fù)用環(huán)境,那么許多工作量(load)增加到內(nèi)容的生成和傳輸上。
發(fā)明內(nèi)容
因此,本發(fā)明的目標(biāo)是提供用于通過利用預(yù)先描述消費音頻內(nèi)容的用戶終端的使用環(huán)境的信息將音頻內(nèi)容適應(yīng)于使用環(huán)境的裝置和方法。
依照本發(fā)明的一個方面,提供了一種用于將音頻信號適應(yīng)于單源復(fù)用的裝置,包括音頻使用環(huán)境信息管理部件,用于獲取、描述和管理從消費音頻信號的用戶終端來的音頻使用環(huán)境信息;和音頻適應(yīng)部件,用于將音頻信號適應(yīng)于音頻使用環(huán)境信息以生成適應(yīng)的音頻信號并且輸出適應(yīng)的音頻信號到用戶終端,并且其中音頻使用環(huán)境信息包括描述用戶對音頻信號優(yōu)選的用戶特性信息。
依照本發(fā)明的另一個方面,提供了一種用于為單源復(fù)用適應(yīng)音頻信號的方法,包括步驟a)從消費音頻信號的用戶終端獲取、描述和管理音頻使用環(huán)境信息;和b)將音頻信號適應(yīng)于音頻使用環(huán)境信息以生成適應(yīng)的音頻信號并輸出適應(yīng)的音頻信號到用戶終端,并且其中音頻使用環(huán)境信息包括描述用戶對音頻信號優(yōu)選的用戶特性信息。
本發(fā)明的技術(shù)能夠提供單源復(fù)用的環(huán)境,即在該環(huán)境中一項音頻信號通過利用關(guān)于消費音頻內(nèi)容的環(huán)境的信息,比如用戶的特性,用戶的自然環(huán)境,和用戶終端的性能,適應(yīng)于不同的使用環(huán)境。
本發(fā)明的上述和其它特點根據(jù)下面對優(yōu)選的實施例與相應(yīng)附圖的描述是顯而易見的,其中圖1是說明提供了依據(jù)本發(fā)明的實施例的音頻適應(yīng)裝置的用戶終端的方塊圖;
圖2是描述依據(jù)本發(fā)明的實施例能夠用圖1的音頻適應(yīng)裝置實施的用戶終端的方塊圖;圖3是說明圖1中,在音頻適應(yīng)裝置中執(zhí)行的音頻適應(yīng)過程的流程圖;和圖4是描述圖3的適應(yīng)過程的流程圖。
具體實施例方式
本發(fā)明的其它目標(biāo)和方面根據(jù)下面參照后面所列出的附圖對實施例的描述是顯而易見的。
下面的描述僅提供本發(fā)明的原理的范例。甚至在本說明書中它們沒有被明確的描述或說明時,本領(lǐng)域的一般技術(shù)人員能夠在本發(fā)明的概念和范圍之內(nèi)具體實現(xiàn)本發(fā)明的原理和發(fā)明各種裝置。
本說明書中介紹的條件項和實施例僅僅試圖使得本發(fā)明的概念易于理解,并且它們并不限制本說明書中提到的實施例和條件。
此外,所有對原理、觀點和實施例以及本發(fā)明具體的實施例的詳細(xì)描述應(yīng)當(dāng)理解為包括它們結(jié)構(gòu)和功能上的等價物。等價物不僅包括目前已知的等價物,而且包括將在將來發(fā)展起來的等價物,即,不管其結(jié)構(gòu),所有發(fā)明出的執(zhí)行同樣功能的設(shè)備。
例如,本發(fā)明的方塊圖應(yīng)被理解為作為范例的具體實現(xiàn)本發(fā)明原理的電路的概念性觀點。相似的,所有的流程圖、狀態(tài)變換圖、偽碼等等能夠充分的表示在計算機可讀的媒體上,并且不論在說明書中是否明確的提到計算機或處理器,它們應(yīng)被理解為表示被計算機或處理器操作的過程。
圖中說明的各種設(shè)備的功能包括表示為處理器或不僅能夠通過利用專用的硬件,也能夠通過利用能夠運行正確的軟件的硬件所提供的相似的概念。當(dāng)功能是由處理器提供的時,提供者可以是單個的專用處理器、單個的共享處理器、或部分共享的多個分立的處理器。
明確的術(shù)語使用,“處理器”、“控制”或相似的概念,應(yīng)當(dāng)不能理解為只涉及到能運行軟件的一塊硬件,而應(yīng)當(dāng)毫無疑問的理解為包括數(shù)字信號處理器(DSP)、硬件、以及只讀存儲器(ROM)、隨機存儲器(RAM)和用于存儲軟件的非易失性內(nèi)存。其它已知和通常使用的硬件也包含在其中。
在本說明書中的權(quán)利要求中,用于執(zhí)行在詳細(xì)描述中描述的功能并表示為“部件”的單元要包括所有用于執(zhí)行包括所有形式的軟件的功能的方法,比如實現(xiàn)功能的電路組合,固件/微碼等等。為實現(xiàn)預(yù)期的功能,該單元與用于運行該軟件的適當(dāng)?shù)碾娐泛献鳌R髾?quán)利的發(fā)明包括各種用于執(zhí)行特定功能的方法,并且這些方法以權(quán)利聲明中要求的方式互相連結(jié)。因此,任意能夠提供功能的方法應(yīng)當(dāng)理解為等價于根據(jù)本說明書所領(lǐng)會到的方法。
本發(fā)明的其它目的和方面根據(jù)下面對實施例參照后面的附圖的描述是清楚的。盡管單元在不同的圖中出現(xiàn),同一附圖標(biāo)記給了同一單元。此外,如果關(guān)于相關(guān)背景技術(shù)的更多的詳細(xì)描述被認(rèn)為使得本發(fā)明的要點不清楚時,描述將被省略。下面,本發(fā)明優(yōu)選的實施例將被詳細(xì)描述。
圖1是說明提供了依據(jù)本發(fā)明實施例的音頻適應(yīng)裝置的用戶終端的方塊圖。參照圖1,本發(fā)明實施例的音頻適應(yīng)裝置100包括音頻適應(yīng)部分13和音頻使用環(huán)境信息管理部分107。音頻適應(yīng)部分103和音頻使用環(huán)境信息管理部分107的任意一個能夠彼此獨立地提供給音頻處理系統(tǒng)。
音頻處理系統(tǒng)包括膝上型計算機、筆記本計算機、桌上型計算機、工作站、大型計算機和其它類型的計算機。數(shù)據(jù)處理或信號處理系統(tǒng),比如個人數(shù)字助理(PDA)和無線通信移動站,也包含在音頻處理系統(tǒng)中。
音頻系統(tǒng)可以是從形成網(wǎng)絡(luò)路由的節(jié)點中任意選擇的一個節(jié)點,例如,多媒體源節(jié)點系統(tǒng)、多媒體中繼節(jié)點和最終(end)用戶終端。
最終用戶終端包括音頻播放器,例如windows媒體播放器,MP3播放器和Real播放器。
例如,如果將音頻適應(yīng)裝置100安裝在多媒體源節(jié)點并運行,它接收關(guān)于使用環(huán)境的預(yù)先描述的信息,在此環(huán)境下音頻內(nèi)容被消費,將音頻內(nèi)容適應(yīng)于使用環(huán)境,并且傳送適應(yīng)后的內(nèi)容到最終用戶終端。
對于音頻編碼過程,即音頻適應(yīng)裝置100處理音頻數(shù)據(jù)的過程,國際標(biāo)準(zhǔn)化組織(ISO)/國際電工技術(shù)委員會(IEC)的技術(shù)委員會的ISO/IEC標(biāo)準(zhǔn)文件也作為本說明書的一部分包括在本說明書中,只要它有助于描述本發(fā)明實施例的功能和操作。
音頻數(shù)據(jù)源部分101接收在多媒體源中生成的音頻數(shù)據(jù)。音頻數(shù)據(jù)源部分101可以包含在多媒體源節(jié)點系統(tǒng)中,或者接收通過有線/無線網(wǎng)絡(luò)從多媒體源節(jié)點系統(tǒng)傳輸?shù)囊纛l數(shù)據(jù)的多媒體中繼節(jié)點系統(tǒng)中,或者在最終用戶終端中。
音頻適應(yīng)部分103從音頻數(shù)據(jù)源部分101接收音頻數(shù)據(jù)并通過利用由音頻使用環(huán)境信息管理部分107預(yù)先描述的使用環(huán)境信息將音頻數(shù)據(jù)適應(yīng)于使用環(huán)境,例如,用戶的特性,用戶的自然環(huán)境和用戶終端的性能。這里,圖中所說的音頻適應(yīng)部分103的功能并不需要在形成網(wǎng)絡(luò)路由的任意一個節(jié)點系統(tǒng)中都包括,但是能夠被分布到節(jié)點系統(tǒng)中。
例如,音頻適應(yīng)單元具有控制音量的功能,它不涉及到網(wǎng)絡(luò)帶寬,包含在最終用戶終端處,但是音頻適應(yīng)單元具有在時間(temporal)區(qū)域上控制音頻信號的強度的功能,即,音頻信號的電平,它涉及到網(wǎng)絡(luò)的帶寬,可以包括在多媒體源節(jié)點系統(tǒng)中。
音頻使用環(huán)境信息管理部分107從用戶,用戶終端和用戶的自然環(huán)境收集信息,然后提前預(yù)先描述和管理使用環(huán)境信息。
涉及到音頻適應(yīng)部分103的功能的使用環(huán)境信息能夠分布到形成網(wǎng)絡(luò)路由的節(jié)點系統(tǒng)中,這正如音頻適應(yīng)部分103那樣。
音頻內(nèi)容/元數(shù)據(jù)輸出部分105輸出被音頻適應(yīng)部分103適應(yīng)后的音頻數(shù)據(jù)。輸出的音頻數(shù)據(jù)可以通過有線/無線網(wǎng)絡(luò)傳輸?shù)阶罱K用戶終端的音頻播放器,或者到多媒體中繼節(jié)點系統(tǒng)或最終用戶終端。
圖2是描述依據(jù)本發(fā)明的實施例能夠用圖1的音頻適應(yīng)裝置實施的用戶終端的方塊圖。如圖中所述,音頻數(shù)據(jù)源部分101包括音頻元數(shù)據(jù)201和音頻內(nèi)容203。
音頻數(shù)據(jù)源部分101從多媒體源中收集音頻內(nèi)容和元數(shù)據(jù)并存儲它們。這里,音頻內(nèi)容203包括接各種編碼方式存儲的多種音頻格式,比如MPEG-1Layer III(MP3)、Audio Coder-3,(AC-3)、高級音頻編碼(AAC)、Windows媒體音頻(WMA)、Real音頻(RA)、Code Excited Linear Predictive(CELP)等等,或者以流的形式傳輸。
音頻元數(shù)據(jù)201是涉及到相應(yīng)音頻內(nèi)容的描述數(shù)據(jù),比如音頻內(nèi)容的編碼方法,采樣速率,通道數(shù)(例如單聲道/立體聲,5.1通道等)和比特率。音頻元數(shù)據(jù)能夠基于擴展標(biāo)簽語言(extensible Markup Language,XML)計劃定義和描述。
音頻使用環(huán)境信息管理部分107包括用戶特性信息管理單元207,用戶特性信息輸入單元217,用戶自然環(huán)境信息管理單元209,使用自然環(huán)境信息輸入單元219,音頻終端性能信息管理單元211和音頻終端性能信息輸入單元221。
用戶特性信息管理單元207通過用戶特性信息輸入單元217從用戶終端接收用戶特性的信息,比如能聽度特性,優(yōu)選的(preferred)聲音音量,頻率頻譜的優(yōu)選均衡模式等等,并且管理用戶特性的信息。輸入的用戶特性信息以能夠被機器可讀的語言管理,例如,XML格式。
使用自然環(huán)境信息管理單元209通過使用自然環(huán)境信息輸入單元219接收消費音頻內(nèi)容處的自然環(huán)境的信息(它被稱為‘自然環(huán)境信息’)并且管理自然環(huán)境信息。自然環(huán)境信息以能夠被機器可讀的語言管理,例如,XML格式。
使用自然環(huán)境信息輸入單元219傳輸能夠通過在特定位置收集數(shù)據(jù),分析和處理數(shù)據(jù)預(yù)先確定或得到的噪聲環(huán)境分類表所定義的噪聲環(huán)境信息。
音頻終端性能信息管理單元211通過音頻終端性能信息輸入單元221接收終端的性能信息。輸入的終端性能信息以能夠被機器可讀的語言管理,例如,XML格式。
音頻終端性能信息輸入單元221將預(yù)先建立在用戶終端或通過用戶輸入的終端性能信息傳輸?shù)揭纛l終端性能信息管理單元211。
音頻適應(yīng)部分103包括音頻元數(shù)據(jù)適應(yīng)單元213和音頻內(nèi)容適應(yīng)單元215。
音頻內(nèi)容適應(yīng)單元215析取(parse)被使用自然環(huán)境信息管理單元209管理的自然環(huán)境信息,并基于使用自然環(huán)境信息執(zhí)行音頻信號處理過程,比如噪聲屏蔽,以使音頻內(nèi)容適應(yīng)于自然環(huán)境并且對噪聲環(huán)境是清晰響亮(strong)的。
類似的,音頻內(nèi)容適應(yīng)單元215分別析取在用戶特性信息輸入單元217和音頻終端性能信息管理單元211中管理的用戶特性信息和音頻終端性能信息,然后將音頻信號合適的適應(yīng)于用戶特性和用戶終端性能。
音頻元數(shù)據(jù)適應(yīng)處理單元213提供在音頻內(nèi)容適應(yīng)過程中所需的元數(shù)據(jù),并基于音頻內(nèi)容適應(yīng)的結(jié)果去適應(yīng)相應(yīng)的音頻元數(shù)據(jù)信息的內(nèi)容。
圖3是說明在圖1的音頻適應(yīng)裝置中執(zhí)行的音頻適應(yīng)過程的流程圖。參照圖3,在步驟S301,音頻使用環(huán)境信息管理部分107從用戶、用戶終端和自然環(huán)境獲取音頻使用環(huán)境信息,并且指定用戶特性、用戶的自然環(huán)境和用戶終端性能的信息。
然后,在步驟S303,音頻數(shù)據(jù)源部分101接收音頻內(nèi)容/元數(shù)據(jù)。在步驟S305,音頻適應(yīng)部分103將在步驟S303接收到的音頻內(nèi)容/元數(shù)據(jù)通過利用在步驟S301描述的使用環(huán)境信息合適地適應(yīng)于使用環(huán)境,即用戶特性、用戶的自然環(huán)境和用戶終端性能。在步驟S307,音頻內(nèi)容/元數(shù)據(jù)輸出部分105輸出在步驟S305適應(yīng)后的音頻數(shù)據(jù)。
圖4是描述圖3中的適應(yīng)過程(S305)的流程圖。如圖4所示,在步驟S401,音頻適應(yīng)部分103標(biāo)識(identify)音頻數(shù)據(jù)源部分101接收的音頻內(nèi)容和音頻元數(shù)據(jù)。在步驟S403,音頻適應(yīng)部分103適應(yīng)那些需要被合適地適應(yīng)于用戶特性、用戶的自然環(huán)境和用戶終端性能的音頻內(nèi)容。在步驟S405,音頻適應(yīng)部分103基于在步驟S403中執(zhí)行的音頻內(nèi)容適應(yīng)的結(jié)果去適應(yīng)相應(yīng)于音頻內(nèi)容的音頻元數(shù)據(jù)。
在此將描述在音頻使用環(huán)境信息管理部分107中管理的描述信息的結(jié)構(gòu)。
依據(jù)本發(fā)明,為了將音頻內(nèi)容通過利用預(yù)先描述的使用環(huán)境即音頻內(nèi)容消耗處的信息來適應(yīng)使用環(huán)境,使用環(huán)境信息,例如,用戶特性、用戶的自然環(huán)境和用戶終端性能的信息,應(yīng)當(dāng)被管理。
表1描述了依據(jù)本發(fā)明實施例,用于結(jié)構(gòu)化地適應(yīng)音頻信號的描述信息。
表1
下面所示是基于XML Schema的定義,表達(dá)被圖1所示的音頻使用環(huán)境信息管理部分107管理的使用環(huán)境的描述信息結(jié)構(gòu)的語法的例子。
<element name=“UsageEnvironment”>
<complexType>
<all>
<element ref=“USERCHARACTERISTICS”/>
<elementref=“NATURALENVIRONMENTCHARACTERISTICS”/>
<element ref=“TERMINALCAPABILITIES”/>
</all>
</complexType>
</element>
表1中,用戶特性描述用戶的能聽度和其優(yōu)選結(jié)果。下面展示了基于XMLSchema的定義,表達(dá)被圖1的音頻使用環(huán)境信息管理部分107管理的描述信息結(jié)構(gòu)的語法的例子。
<element name=“USERCHARACTERISTICS”>
<complexType>
<all>
<elementname=“LeftAudibility”type=”Audibility”/>
<elementname=“RightAudibility”type=”Audibility”/>
<element name=“AudioPower”type=“integer”/>
<element name=“FrequencyEqualizer”>
<complexType>
<sequence>
<element name=Period type=“mpeg7vector”/>
<element name=Level type=“float”/>
</sequence>
</complexType>
</element>
<element name=“PresetEqualizer”>
<complexType>
<sequence>
<enumeration Item=“Rock”>
<enumeration Item=“Classic”>
<eumeration Item=“POP>
</sequence>
</complexType>
</element>
<element name=“Mute”type=“boolean”/>
</all>
</complexType>
</element>
<complexType name=“Audibility”>
<sequence>
<element name=“AudibleFrequencyRange”>
<complexType>
<mpeg7vector dim=“2”type=“positiveInteger”/>
</complexType>
</element>
<element name=“AudibleLevelRange”>
<complexType>
<mpeg7vector dim=“2”type=“positiveInteger”/>
</complexType>
</element>
</sequence>
</complexType>
表2展示了用戶特性的元素。
表2
表2中,左邊能聽度和右邊能聽度都有聽覺的數(shù)據(jù)類型,并代表了關(guān)于用戶左邊和右邊耳朵的音頻優(yōu)選。
聽覺的數(shù)據(jù)類型有兩個元素AudibleFrequencyRange和AudibleLevelRange。
AudibleFrequencyRange描述用戶對特定頻率范圍的優(yōu)先選擇。StartFrequency是特定頻率范圍的起點而EndFrequency是頻率范圍的終點并且單位給定為赫茲(Hz)。AudibleFrequencyRange描述信息表示用戶優(yōu)選的聽覺頻率范圍。如果給用戶的網(wǎng)絡(luò)帶寬是安裝的,當(dāng)使用AudibleFrequencyRange描述信息對音頻信號編碼時,音頻適應(yīng)部分103能通過對聽覺頻率范圍內(nèi)的音頻信號分配比位于頻率范圍外的音頻信號更多的比特以提供給用戶改善了品質(zhì)的音頻信號。同樣,音頻適應(yīng)部分103基于AudibleFrequencyRange描述信息能減少網(wǎng)絡(luò)帶寬或通過在描述的頻率范圍內(nèi)傳輸音頻信號以增加諸如文本、圖象和視頻信號等額外的信息到剩余的帶寬。
下面的例子展示了用戶優(yōu)選的聽覺頻率范圍是從20Hz到2000Hz。
<AudibleFrequencyRange>
<StartFrequency>20</StartFrequency>
<EndFrequency>2000</EndFrequency>
</AudibleFrequencyRange>
AudibleLevelRange描述用戶在時間區(qū)域內(nèi)對音頻信號的特定電平范圍的優(yōu)選。信號電平值低于音頻信號的電平范圍下限LowLimitedLevel變?yōu)殪o音,并且信號電平值高于音頻信號電平范圍的上限HighLimitLevel被限制為上限拐角(corner)電平。LowLimitLevel和HighLimitLevel有從0.0到1.0的規(guī)格化的度量范圍,這里0.0和1.0分別代表了靜音和最大信號電平。應(yīng)注意AudibleLevelRange描述信息提供了用戶想聽到的音頻電平的最大值和最小值。
音頻適應(yīng)部分103能夠使用AudibleLevelRange描述信息以使用戶能夠以最好的品質(zhì)體驗音頻內(nèi)容。例如,如果給用戶的網(wǎng)絡(luò)帶寬是安裝的并且最大電平和最小電平的絕對差較小,音頻適應(yīng)部分103能夠通過利用AudibleLevelRange描述信息提高采樣速率或量化階的數(shù)目并且傳輸音頻信號。同樣,音頻適應(yīng)部分103能夠通過消除超出能聽度范圍的音頻信號來有效地使用網(wǎng)絡(luò)帶寬。同樣,它能夠增加其它類型的附加消息,比如文本,圖象和視頻信號到剩余的帶寬。
下面的例子表示被用戶優(yōu)選的音頻信號電平范圍從值為0.30的最小電平到最大電平0.70。
<AudibleLevelRange>
<LowLimitLevel>0.30</LowLimitLevel>
<HighLimitLevel>0.70</HighLimitLevel>
</AudibleLevelRange>
AudioPower描述用戶對音頻音量的優(yōu)選。AudioPower能夠表示為整數(shù)值,或者它是一個取值在0.0到1.0的規(guī)格化的數(shù)字范圍內(nèi)的值,其中0.0代表靜音而1.0表示最大值。音頻適應(yīng)部分103基于在音頻使用環(huán)境信息管理部分107中管理的AudioPower描述信息控制音頻信號。
下面的例子展示了用戶優(yōu)選的音頻音量是0.85。
<AudioPower>0.85</AudioPower>
這里描述的描述元素代表了用戶關(guān)于音頻信號的優(yōu)選。這些描述元素能夠使用在沒有音頻處理能力的用戶終端。
FrequencyEqualizer描述關(guān)于以頻率范圍和減小或放大值表示的特定均衡合成的優(yōu)選。FrequencyEqualizer描述信息表示用戶對特定頻率的優(yōu)選。FrequencyEqualizer描述信息描述了頻率波段和相應(yīng)的用戶優(yōu)選值。
如果用戶終端不具備均衡性能,音頻適應(yīng)部分103能夠使用FrequencyEqualizer描述信息以對用戶提供期望的品質(zhì)。為有效的分配比特,F(xiàn)requencyEqualizer描述信息能夠基于人類頻率掩蔽現(xiàn)象而應(yīng)用在音頻編碼過程。同樣,音頻適應(yīng)部分103基于FrequencyEqualizer描述信息執(zhí)行均衡,并將適應(yīng)后的音頻信號作為均衡結(jié)果傳輸?shù)接脩艚K端。
Period,F(xiàn)requencyEqualizer的固有屬性,定義了表示為Hz的均衡范圍的拐角頻率的下限和上限。Level,F(xiàn)requencyEqualizer的一項屬性,定義了表示為分貝(decibel,dB)這個單位的頻率范圍的減小或放大。Level指出了用戶均衡的最優(yōu)值。
下面的例子展示了用戶優(yōu)選的特定的均衡合成。
<FrequencyEqualizer>
<FrequencyBand>
<Period>
<StartFrequency>20</StartFrequency>
<EndFrequency>499</EndFrequency>
</Period>
<Level>0.8</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>500</StartFrequency>
<EndFrequency>1000</EndFrequency>
</Period>
<Level>0.5</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>1000</StartFrequency>
<EndFrequency>10000</En dFrequency>
</Period>
<Level>0.5</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>10000</StartFrequency>
<EndFrequency>20000</EndFrequency>
</Period>
<Level>0.0</Level>
</FrequencyBand>
</FrequencyEqualizer>
PresetEqualizer描述了表示用均衡器預(yù)置文字(verbal)描述表示的對特定均衡合成的優(yōu)選。即,PresetEqualizer描述信息代表了用戶對清楚分辨出的特定類型的音頻的優(yōu)選,比如搖滾、古典音樂和流行音樂。如果用戶終端不具備預(yù)置最優(yōu)均衡器的能力,音頻適應(yīng)部分103能夠利用PresetEqualizer描述信息以使用戶能以最好的品質(zhì)體驗音頻內(nèi)容。
如下面的例子所示,音頻適應(yīng)部分103能夠執(zhí)行均衡器預(yù)置功能,這里設(shè)置為搖滾音效,并且將適應(yīng)后的音頻信號傳輸?shù)接脩艚K端。
<PresetEqualizer>Rock</PresetEqualizer>
Mute描述了用于將DI的音頻部分處理為靜音的優(yōu)選。即,Mute描述信息代表了是否消費內(nèi)容的音頻部分的優(yōu)選。該功能在大多數(shù)音頻設(shè)備中都有提供,即最終用戶終端的音頻播放器,但是音頻適應(yīng)部分103能夠利用該信息不去傳輸音頻信號以確保網(wǎng)絡(luò)的帶寬。
下面的例子代表了不使用DI的音頻內(nèi)容。
<Mute>true</Mute>
同時,表1的自然環(huán)境特性描述特定用戶的自然環(huán)境。根據(jù)由圖1中音頻使用環(huán)境信息管理部分107管理的自然環(huán)境特性的描述信息的結(jié)構(gòu),基于XML Schema定義的示范的語法表達(dá)如下。
<element name=“NATURALENVIRONMENTCHARACTERISTICS”>
<complexType>
<element name=“NoiseLevel”type=“integer”/>
<element name=“NoiseFrequencySpectrum”>
<complexType>
<sequence>
<element name=FrequencyPeriodtype=“mpeg7vector”/>
<element name=FrequencyValue type=“float”/>
</sequence>
</complexType>
</element>
</complexType>
</element>
NoiseLevel描述了噪聲的電平。NoiseLevel描述信息能夠通過從用戶終端處理噪聲信號得到。它表示為基于dB的聲壓電平。
音頻適應(yīng)部分103能夠通過利用NoiseLevel描述信息自動地為用戶終端控制音頻信號的電平。同時,音頻適應(yīng)部分103能夠安裝在最終用戶終端并能夠應(yīng)付位于終端處的自然環(huán)境的不同噪聲電平。如果噪聲相對較高,音頻適應(yīng)部分103提高音頻信號的規(guī)模以使用戶能夠在嘈雜的的環(huán)境下聽到音頻信號。如果增加的信號電平到達(dá)了用戶預(yù)定的極限,音頻適應(yīng)部分103停止傳輸音頻信號并分配可用的帶寬到其它的媒體,比如文本、圖象、圖形和視頻。
例如,如果自然環(huán)境的噪聲是20dB,NoiseLevel描述如下。
<NoiseLevel>20</NoiseLevel>
NoiseFrequencySpectrum描述信息能夠通過處理從用戶終端輸入的噪聲信號得到,并且噪聲電平用基于dB的聲壓電平來衡量。
為基于頻率掩蔽現(xiàn)象有效地完成音頻編碼,音頻適應(yīng)部分103能夠使用NoiseFrequencySpectrum描述信息。音頻適應(yīng)部分103能夠基于NoiseFrequencySpectrum描述信息通過對含較多的噪聲的頻率衰減噪聲或增大音頻信號來有效地完成音頻編碼,然后它傳輸適應(yīng)后的信號到用戶終端。
例如,在下面的例子中,F(xiàn)requency Period的第一個和第二個值分別代表了起始頻率和終止頻率值。隨后,F(xiàn)requency Value是音頻的功率并且它以dB為單位表示?;贔requency Value信息,音頻適應(yīng)部分103完成均衡器的功能并將合成的音頻信號傳輸?shù)接脩艚K端。
<NoiseFrequencySpectrum>
<FrequencyPeriod>20 499</FrequencyPeriod>
<FrequencyValue>30</FrequencyValue>
<FrequencyPeriod>500 1000</FrequencyPeriod>
<FrequencyValue>10</FrequencyValue>
<FrequencyPeriod>1000 10000</FrequencyPeriod>
<FrequencyValue>50</FrequencyValue>
<FrequencyPeriod>10000 20000</FrequencyPeriod>
<FrequencyValue>10</FrequencyValue>
</NoiseFrequencySpectrum>
同時,表1的終端能力描述了終端在處理音頻上的性能,諸如音頻數(shù)據(jù)格式,類(profile)和不同的電平,動態(tài)范圍和揚聲器的合成。下面是基于XMLSchema定義,描述在圖1中音頻使用環(huán)境信息管理部分107內(nèi)管理的終端性能的描述信息的結(jié)構(gòu)的示范性語法。
<element name=″TERMINALCAPABILITIES″>
<complexType>
<element name=″AudioChanneINumer″type=integer/>
<element name=”Headphone”type=”boolean″/>
<element name=″DecodersType″type=”DecodersType”/>
</complexType>
</element>
<complexType name=”DecodersType″>
<sequence>
<element name=″DecoderType″/>
<enumeration Item=″AAC″/>
<enumeration Item=″MP3″/>
<enumeration Item=″TTS″/>
<enumeration Item=″SAOL″/>
<element name=″Profile″type=″string″/>
<element name=″Level″type=″string″>
</element>
</sequence>
</complexType>
這里,AudioChannelNumber信息指示了由用戶終端處理的輸出通道的數(shù)目。音頻適應(yīng)部分103基于AudioChannelNumber信息傳輸音頻信號。
HeadPhone是表達(dá)為被呼叫的值(called value)的信息。如果耳機未使用,音頻適應(yīng)部分103能夠用關(guān)于自然環(huán)境的噪聲電平的信息和頻率頻譜的信息完成屏蔽編碼。如果耳機使用了,從自然環(huán)境來的噪聲能被衰減。
DecoderType是代表終端的音頻格式和類/電平處理能力的信息。音頻適應(yīng)部分103通過利用DecoderType信息傳輸最適合于用戶終端的音頻信號。
如上所述,本發(fā)明的技術(shù)能夠通過基于用戶的噪聲環(huán)境信息和用戶的能聽度和優(yōu)選的信息將音頻內(nèi)容適應(yīng)于不同的使用環(huán)境和不同特性與品位的用戶以對多個使用環(huán)境提供一個單源。
盡管本發(fā)明用某些優(yōu)選的實施例進行了描述,不偏離由下面的權(quán)利要求定義的本發(fā)明的精神和范圍,各種修改和改變都對本領(lǐng)域技術(shù)人員是顯而易見的。
權(quán)利要求
1.一種用于將音頻信號適應(yīng)于單源復(fù)用的裝置,包括音頻使用環(huán)境信息管理部件,用于獲取、描述和管理從消費音頻信號的用戶終端來的音頻使用環(huán)境信息;和音頻適應(yīng)部件,用于將音頻信號適應(yīng)于音頻使用環(huán)境信息以生成適應(yīng)的音頻信號并且輸出適應(yīng)的音頻信號到用戶終端,并且其中音頻使用環(huán)境信息包括描述用戶對音頻信號優(yōu)選的用戶特性信息。
2.如權(quán)利要求1所述的裝置,其中用戶特性信息包括表明對音頻信號而言用戶右耳和左耳每一個優(yōu)選的能聽度信息。
3.如權(quán)利要求2所述的裝置,其中能聽度信息包括用戶對音頻信號特定頻率范圍的優(yōu)選。
4.如權(quán)利要求2所述的裝置,其中能聽度信息包括用戶對音頻信號的特定電平范圍的優(yōu)選。
5.如權(quán)利要求1所述的裝置,其中用戶特性信息包括用戶對音頻信號音量的優(yōu)選。
6.如權(quán)利要求1所述的裝置,其中用戶特性信息包括表示為用戶對音頻信號特定頻率范圍衰減或放大的優(yōu)選。
7.如權(quán)利要求1所述的裝置,其中用戶特性信息包括用戶對特定類型的音頻,包括搖滾、古典音樂和流行音樂的優(yōu)選。
8.如權(quán)利要求1所述的裝置,其中用戶特性信息包括用戶是否消費多媒體內(nèi)容中的音頻部分的優(yōu)選。
9.如權(quán)利要求3所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻適應(yīng)部件基于用戶對特定頻率范圍的優(yōu)選適應(yīng)音頻信號以使在特定頻率范圍之內(nèi)的音頻信號比在特定頻率范圍之外的信號被分配給更多的比特。
10.如權(quán)利要求3所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻適應(yīng)部件基于用戶對特定頻率范圍的優(yōu)選適應(yīng)音頻信號以使僅有在特定頻率范圍之內(nèi)的音頻信號傳輸?shù)接脩艚K端。
11.如權(quán)利要求4所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中,在用戶優(yōu)選的特定電平范圍中,如果特定電平范圍的最大電平和最小電平的絕對差較小,音頻適應(yīng)部件適應(yīng)音頻信號以使采樣速率增加或量化階增加的音頻信號被傳輸?shù)接脩艚K端。
12.如權(quán)利要求4所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻適應(yīng)部件適應(yīng)音頻信號以使在用戶優(yōu)選的特定電平范圍內(nèi),在特定電平范圍之外的音頻信號不傳輸?shù)接脩艚K端。
13.如權(quán)利要求6所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給不含均衡功能的用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻適應(yīng)部件適應(yīng)音頻信號以使基于表示為對音頻信號的特定頻率范圍衰減或放大的優(yōu)選進行編碼的音頻信號能傳輸?shù)接脩艚K端。
14.如權(quán)利要求7所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給不含預(yù)置均衡器功能的用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻適應(yīng)部件基于用戶對特定音樂類型的優(yōu)選適應(yīng)音頻信號以使含有預(yù)置均衡器的音頻信號能傳輸?shù)接脩艚K端。
15.如權(quán)利要求8所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中如果優(yōu)選顯示多媒體內(nèi)容的音頻部分未被消費,音頻適應(yīng)部件適應(yīng)音頻信號以使多媒體內(nèi)容的音頻部分不被傳輸?shù)接脩艚K端。
16.如權(quán)利要求1所述的裝置,其中音頻使用環(huán)境信息進一步包括描述音頻信號被用戶消費處的自然環(huán)境的自然環(huán)境特性信息。
17.如權(quán)利要求16所述的裝置,其中自然環(huán)境特性信息包括通過處理從用戶終端輸入的噪聲信號得到的噪聲電平信息。
18.如權(quán)利要求16所述的裝置,其中自然環(huán)境特性信息包括通過處理從用戶終端輸入的噪聲信號得到的噪聲頻率頻譜信息。
19.如權(quán)利要求18所述的裝置,其中音頻適應(yīng)部件包含在將適應(yīng)后的音頻信號提供給用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻適應(yīng)部件基于噪聲電平信息適應(yīng)音頻信號以使在噪聲電平中可聽的音頻信號被傳輸?shù)接脩艚K端,并且如果噪聲的電平增加并到達(dá)預(yù)先確定的極限,音頻適應(yīng)部件適應(yīng)音頻信號使之不被傳輸?shù)接脩艚K端。
20.如權(quán)利要求1所述的裝置,其中音頻使用環(huán)境信息進一步包括描述關(guān)于處理音頻信號的用戶終端的性能的終端性能信息。
21.如權(quán)利要求20所述的裝置,其中終端性能信息包括用戶終端輸出通道數(shù)目。
22.一種用于為單源復(fù)用適應(yīng)音頻信號的方法,包括步驟a)從消費音頻信號的用戶終端獲取、描述和管理音頻使用環(huán)境信息;和b)將音頻信號適應(yīng)于音頻使用環(huán)境信息以生成適應(yīng)的音頻信號并輸出適應(yīng)的音頻信號到用戶終端,并且其中音頻使用環(huán)境信息包括描述用戶對音頻信號優(yōu)選的用戶特性信息。
23.如權(quán)利要求22所述的方法,其中用戶特性信息包括表明對音頻信號而言用戶右耳和左耳中每一個優(yōu)選的能聽度信息。
24.如權(quán)利要求23所述的方法,其中能聽度信息包括用戶對音頻信號的特定頻率范圍的優(yōu)選。
25.如權(quán)利要求23所述的方法,其中能聽度信息包括用戶對音頻信號的特定電平范圍的優(yōu)選。
26.如權(quán)利要求22所述的方法,其中用戶特性信息包括用戶對音頻信號音量的優(yōu)選。
27.如權(quán)利要求22所述的方法,其中用戶特性信息包括表示為音頻信號的特定頻率范圍衰減或放大的用戶優(yōu)選。
28.如權(quán)利要求22所述的方法,其中用戶特性信息包括用戶對特定音頻類型,包括搖滾、古典音樂和流行音樂的優(yōu)選。
29.如權(quán)利要求22所述的方法,其中用戶特性信息包括用戶對是否消費多媒體內(nèi)容的音頻部分的優(yōu)選。
30.如權(quán)利要求24所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻信號基于用戶對特定頻率范圍的優(yōu)選被適應(yīng)以使在特定頻率范圍之內(nèi)的音頻信號比在特定頻率范圍之外的信號分配給更多的比特。
31.如權(quán)利要求24所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻基于用戶對特定的頻率范圍被適應(yīng)以使僅有在特定頻率范圍內(nèi)的音頻信號被傳輸?shù)接脩艚K端。
32.如權(quán)利要求25所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中,在用戶優(yōu)選的特定電平范圍中,如果特定電平范圍的最大電平和最小電平的決定差較小,音頻適應(yīng)部件適應(yīng)音頻信號以使采樣速度增加或量化階增加的音頻信號被傳輸?shù)接脩艚K端。
33.如權(quán)利要求25所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中步驟b)適應(yīng)音頻信號以使在用戶對特定電平范圍的優(yōu)選內(nèi)的特定電平范圍之外的音頻信號不被傳輸?shù)接脩艚K端。
34.如權(quán)利要求27所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到不具均衡功能用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中在步驟b)中,音頻信號被適應(yīng)以使基于表示為對音頻信號的特定頻率范圍減小或放大的優(yōu)選進行編碼的音頻信號能傳輸?shù)接脩艚K端。
35.如權(quán)利要求28所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到不含預(yù)置均衡器功能的用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻信號基于用戶對具體的音樂類型的優(yōu)選被適應(yīng)以使含有預(yù)置均衡器的音頻信號能被傳輸?shù)接脩艚K端。
36.如權(quán)利要求29所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中如果優(yōu)選表明多媒體內(nèi)容的音頻部分未被消費,音頻信號被適應(yīng)以使多媒體的音頻部分不被傳輸?shù)接脩艚K端。
37.如權(quán)利要求22所述的方法,其中音頻使用環(huán)境信息進一步包括描述用戶消費音頻信號處的自然環(huán)境的自然環(huán)境特性信息。
38.如權(quán)利要求22所述的方法,其中自然環(huán)境特性信息包括通過處理從用戶終端輸入的噪聲信號得到的噪聲電平信息。
39.如權(quán)利要求37所述的方法,其中自然環(huán)境特性信息包括通過處理從用戶終端輸入的噪聲信號得到的噪聲頻率頻譜信息。
40.如權(quán)利要求38所述的方法,其中步驟b)執(zhí)行在將適應(yīng)后的信號提供到用戶終端的網(wǎng)絡(luò)系統(tǒng)中,并且其中音頻信號基于噪聲電平信息被適應(yīng)以使在噪聲電平中可聽的音頻信號被傳輸?shù)接脩艚K端,并且如果噪聲的電平增大并到達(dá)預(yù)先確定的極限,音頻信號被適應(yīng)為不被傳輸?shù)接脩艚K端。
41.如權(quán)利要求22所述的方法,其中音頻使用環(huán)境信息包括描述關(guān)于處理音頻信號的用戶終端的性能的終端性能信息。
42.如權(quán)利要求41所述的方法,其中終端性能信息包括用戶終端的輸出通道的數(shù)目。
全文摘要
提供了用戶適應(yīng)(adapt)音頻信號的裝置和方法。該裝置將音頻信號適應(yīng)于包含了對應(yīng)于用戶適應(yīng)請求的用戶特性、終端性能和用戶自然環(huán)境,從而有效地將高質(zhì)量的數(shù)字內(nèi)容提供給用戶。
文檔編號H04L29/06GK1659507SQ03813037
公開日2005年8月24日 申請日期2003年4月26日 優(yōu)先權(quán)日2002年4月26日
發(fā)明者南濟鎬, 金海光, 金在俊, 洪鎮(zhèn)佑, 金鎮(zhèn)雄, 金炯中, 趙南翊, 金鱗澈, 金萬培 申請人:韓國電子通信研究院