專利名稱:用于僅文本的應用的娛樂音頻的制作方法
技術領域:
本發(fā)明一般地涉及在例如SMS、電子郵件、書籍和報紙的僅文 本的應用中使用和生成音頻。
背景技術:
盡管對移動設備的多媒體能力的不斷關注,但大部分的文本內(nèi) 容不太可能被升級到包含圖形和聲音。例如書籍和報紙的"存檔" 格式以及例如SMS和電子郵件的消息格式將在很長的時間內(nèi)以它們 的當前形式而保持受青睞。當前開始發(fā)展這樣的技術,即該技術可 以將多媒體的吸引力添加到就其本身而言不是太令人興奮的文本格 式。
針對該問題的最顯而易見的方法是將添加的多媒體內(nèi)容與原始 的文本內(nèi)容一起存儲和/或傳輸。然而,這將數(shù)據(jù)量增加了至少一個 數(shù)量級,因為文本格式比圖形和聲音更為緊湊。美國專利NO.7103548 公開了 一種用于將文本消息轉(zhuǎn)化為音頻形式的系統(tǒng),其中文本消息 具有嵌入的情感指示符和特征類型指示,后者用于確定多種音頻形 式呈現(xiàn)特征類型中的哪 一 種將被用于以文本消,包、的音頻形式來表達 由所述情感指示符來指示的情感。另外當前MSN Messenger允許發(fā) 送方在文本中寫標簽,接著該文本在接收端處被翻譯成圖片。然而, 預先準備內(nèi)容消除了與環(huán)境相關的"意外效果"的可能性。另外, 如果某個周圍的音景(比方說雨聲和風聲)被添加到語音并通過常 規(guī)移動設備中的單個揚聲器進行回放時,其聽起來就像干擾的背景 噪聲并且減小了可理解性。
有適于存儲和呈現(xiàn)多媒體內(nèi)容的若干種格式。最為熟知的是 SMIL (同步多媒體集成語言)。對于旨在在萬維網(wǎng)上公開的素材,ACSS (音頻層疊樣式表)可用于定義聲音的某些屬性。結(jié)合SSML (語音合成標記語言,由W3推薦),可以#1行聲音和語音的一些 基本實時渲染(rendering )。
因此,還不存在適于在基于文本的應用中執(zhí)行實時聲音合成和 音效渲染(尤其是立體聲或3D聲音)的標記語言或相應的軟件架構(gòu)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種使用娛樂聲音(尤其是立體聲或3D音 頻)以使得例如SMS和電子郵件的文本應用更為有趣和娛樂的方法。
為了實現(xiàn)上述目的,本發(fā)明提供一種針對僅文本的應用生成音 頻的方法,該方法包括將標簽添加到輸入文本,所述標簽可用于 向生成的音頻添加音效;處理標簽以形成用于生成音頻的指令;基 于指令生成帶有所述音效的音頻,同時呈現(xiàn)文本。
本發(fā)明還提供一種針對僅文本的應用生成音頻的設備,該設備 包括標簽添加器,用于將標簽添加到輸入文本,所述標簽可用于 向生成的音頻添加音效;標簽處理器,用于處理標簽以形成用于生 成音頻的指令;音頻生成器,用于基于指令生成帶有所述音效的音 頻,同時呈現(xiàn)文本。
本發(fā)明還提供一種能夠針對僅文本的應用生成音頻的通信終 端,該通信終端包括標簽處理器,用于處理添加在輸入文本中并 且可用于向生成的音頻添加音效的標簽,從而形成用于生成音頻的 指令;音頻生成器,用于基于指令生成帶有音效的音頻,同時呈現(xiàn) 文本。
通信終端可另外包括標簽添加器,用于將標簽添加到輸入文本。 本發(fā)明的使用可以產(chǎn)生3 D 、空間感的增強和效果的形式的音頻。 例如,立體聲或3D音頻的使用允許聲音被不間斷地添加到語音,使 得如果音景被處理成立體聲或3D效果并且通過立體聲耳機或者兩 個間隔很近的揚聲器回放,則其可被以不干擾語音的方式來空間化。 例如,如果收聽者在兩側(cè)聽到雨聲和風聲,而語音在中央,則可理解性不會受到影響。
另外,本發(fā)明旨在通過向生成的音頻效果添加隨機性來增加環(huán) 境相關的"意外效果或值",使得例如當在飛行中生成音頻時,渲 染算法可考慮關于時間(早晨/白天/夜晚,工作曰/周末,夏季/冬季) 或用戶位置(房間/汽車/辦公室,國家)的信息。
另外,本發(fā)明完全可以允許對文本應用定制和添加娛樂值,并 且向純文本添加多媒體"類"。本發(fā)明還提供相比較于常規(guī)多媒體 很緊湊的格式。因為本發(fā)明不是特定于平臺的,所以本發(fā)明的設備 決定如何進行渲染。
附圖i兌明
根據(jù)下面結(jié)合附圖閱讀的示例性的實施方式的詳細描述,本發(fā) 明的上述和其他目的、特征和優(yōu)勢將變得明顯。
圖;以及
圖2是根據(jù)本發(fā)明的針對僅文本的應用生成音頻的設備的框圖。
具體實施例方式
參考附圖,現(xiàn)在詳細描述本發(fā)明。
圖1表示根據(jù)本發(fā)明的針對僅文本的應用生成音頻的方法的流程圖。
在步驟100中,輸入例如SMS、電子郵件、音頻書籍等的文本 應用。在步驟110中,從輸入文本生成標簽。優(yōu)選地,針對音頻處 理生成兩組標簽(稍后描述)。在特定的情況下,這些標簽可手工 插入,例如由用戶輸入,或由終端生成,所述終端包括移動電話、 PDA(個人數(shù)字助理)、膝上型計算機和能夠向文本中添加標簽的 任何其他設備。為了實施該步驟,可以使用多種標記語言,這些標 記語言包括但不限于VoiceXML(用于網(wǎng)頁的話音UI和音頻渲染)、 JSML (JSpeech標記語言(Sun 乂>司的java ) ) 、 STML (語音文本標記語言)、Sable (試圖結(jié)合JSML和STML ) 、 SSML (由W3推 薦的語音合成標記語言)、SMIL (用于多媒體呈現(xiàn)的同步多媒體集 成語言)。在該步驟中也可包括ACSS (音頻層疊樣式表)。其可被 用于定義一些聲音的屬性,規(guī)定語音合成和音頻,以及將話音和音 頻進行重疊。此外,ACSS具有一些空間音頻特征(例如方位、高度)。 根據(jù)本發(fā)明,新的標記語言(例如包括應用于語音、音樂和音頻效 果的標簽的音頻XML格式)可以被建立用以將例如立體聲或3D音 效添加到音頻。例如,輸入消息是"對不起,我沒有收聽你的電話。 那時我正在打乒乓球,我贏了"。示例性的偽標簽是 <持續(xù)播放 背景音樂>對不起,我沒有收聽你的<音頻替換電話>。那時我正在 打乒乓球<音頻圖標乒乓球〉我贏了 ! <音頻圖標煙火x結(jié)束播放 扭旦立工、
S ,7、首'卞>。
在步驟120中,在步驟110中添加的標簽被轉(zhuǎn)化成可被用于合 成聲音的指令以及生成控制音頻處理的消息,二者中的任何一個可 以用作音頻處理的輸入。對于聲音合成,可以使用MIDI消息。對于 語音合成,則可以使用SSML的擴展版本(因而參考圖1中的 SSML+)。步驟120可以包括一種特征隨機化(randomization)。 對于收聽者來說,準確重復聲音很快將使人變得厭煩,甚至令人討 厭。在游戲的音頻設計中,例如,通常會記錄多次重復相同線路的 人物,從而用戶不需要多次精確地收聽相同的樣本??梢栽S多種不 同的方式插入隨機性。 一些例子如下 .通用
. 改變低級的渲染參數(shù)(話音、樂器)
. 改變"聲音圖標"(等同于"笑聲"的短促聲音)的選 擇
. 改變空間感效果和后處理 . 語音
. 清晰度. 改變事件的同步(語音節(jié)奏、暫停)
. 修改文本但不修改意思 .音樂
. 使用算法的音樂生成
. 修改聲音樣本的音調(diào)和/或速度 效果
. 不同地渲染類似的聲音
音頻渲染可支持一些渲染參數(shù)(例如,嵌入在MIDI消息中的值)的 低級控制,例如腳步聲可以在同步、音調(diào)和持續(xù)時間上改變,使得 聲音聽起來總像同 一事件的不同發(fā)生。
隨機化的優(yōu)勢是明顯的,其添加了意外值并防止了用戶由于準 確重復而變得厭倦或厭煩,并阻止了渲染的音頻太容易預測,以及 獲得了用于根據(jù)個人喜好調(diào)整設置的完全可能性。
在步驟130中,來自步驟120的輸入被處理以輸出音頻。對于 語音合成,可以使用TTS (文本到語音)引擎來將標簽化的文本(例 如,SSML+)轉(zhuǎn)化為語音。TTS系統(tǒng)在過去的幾年中得到明顯的改 進'制品(artifact)使得語音聽起來"精細化"而不是"機器人式" 的,3語音的質(zhì)量可以被做得很自然,但好質(zhì)量的TTS意味著在MIPS 和存儲方面的強度更大的計算。對于音頻合成,需要包括音樂和效 果(例如腳步聲、海濱和鳥鳴聲)的兩種類型的合成音頻。適用于 作為控制語言的MIDI可包括效果設置(混響、合聲等),優(yōu)先級 (SP-MIDI)、時間戳和影響聲音的低級參數(shù)。在MIDI中使用的波 表合成能夠很好地執(zhí)行音樂和效果。波表合成引擎(音頻合成引擎) (參見圖1 )是服從GM1 (通用MIDI)的并可使得其服從GM2, 支持DLS (可下載聲音)和所有主要的采樣率。
接著流程前進到步驟140,進一步處理來自步驟130的輸出音頻。
現(xiàn)在參考圖2,其示出根據(jù)本發(fā)明的針對僅文本的應用生成音頻 的設備,該設備相應地執(zhí)行圖1的流程圖中的方法。在接收到僅文本的應用后,標簽添加裝置針對輸入的文本生成多組標簽。在特定 的情況下,這些標簽可手工插入,例如由用戶輸入,或由終端生成, 所述終端包括移動電話、PDA(個人數(shù)字助理)、膝上型計算機和 能夠向文本中添加標簽的任何其他設備。優(yōu)選地,可由標簽添加裝
置生成兩組標簽。 一組標簽有效地用于TTS引擎,為此目的,可以 使用例如SSML的格式。另一組標簽可有效地用于音頻合成引擎, 該引擎可生成音效和音樂。這樣的格式可以被表示為音頻XML (參 見圖2)。在例如SMS應用的情況下,標簽添加裝置可以運行在發(fā) 送方或接收方的終端上。
接著標簽處理裝置可以將標簽轉(zhuǎn)化為可被用于合成聲音的低級 指令并生成控制音頻處理的消息,以及添加"意外值"。對于聲音 合成,可以使用MIDI消息。對于TTS,則可以使用SSML的擴展版 本(因而參考圖2中的SSML+)。標簽處理裝置必須運行在收聽者 的終端上。標簽處理裝置可以包括一種特征隨機化。利用聲音合 成引擎,通過低級指令中的小的改變可以實施微妙的變化。例如腳 步聲可以在同步、音調(diào)和持續(xù)時間上改變,從而聲音聽起來總像同
一事件的不同發(fā)生。
音頻生成裝置(參見圖2的虛線部分)接收來自標簽處理裝置 的輸出。對于語音合成,使用TTS引擎執(zhí)行處理是有利的。對于音 頻合成,則使用波表合成引擎來很好地執(zhí)行音樂和效果是有利的。
音頻處理裝置利用來自TTS和音頻合成引擎的輸出執(zhí)行例如3D 算法和后處理。音頻處理裝置能夠執(zhí)行下面功能中的至少一項定 位音頻、Mono到3D空間感增強、立體聲擴音、混響、均衡(均衡 器)和DRC (動態(tài)范圍控制)。另外,音頻處理裝置可選地支持采 樣率轉(zhuǎn)化、混頻、參數(shù)的實時改變(3D位置、針對混響的T60)。
本發(fā)明的設備可以應用在能夠針對僅文本的應用生成音頻的通 信終端中,該通信終端包括標簽處理裝置,用于處理添加在輸入文 本中并且可用于向生成的音頻添加音效的標簽,從而形成用于生成 音頻的指令;音頻生成裝置,用于基于指令生成帶有音效的音頻,同時呈現(xiàn)文本??蛇x地,通信終端可另外包括標簽添加裝置,用于 將標簽添加到輸入文本。通信終端例如是移動終端。
盡管已經(jīng)公開了本發(fā)明的特定實施方式,但本領域技術人員將 理解可針對特定的實施方式做出改變而不會偏離本發(fā)明的精神和范 圍。本發(fā)明專注于音頻,但也可以執(zhí)行針對用于向文本的應用中添 加圖形的等同情況。因此,本發(fā)明不限于特定的實施方式,并且意 圖在于所附權(quán)利要求包含本發(fā)明的范圍內(nèi)的任何和所有這樣的應 用、修改和實施方式。
權(quán)利要求
1.一種針對僅文本的應用生成音頻的方法,包括向輸入的文本添加標簽,所述標簽可用于向生成的音頻添加音效;處理所述標簽以形成用于生成所述音頻的指令;基于所述指令生成帶有所述音效的音頻,同時呈現(xiàn)文本。
2. 根據(jù)權(quán)利要求1所述的方法,其中所述音效是立體聲效果。
3. 根據(jù)權(quán)利要求1所述的方法,其中所述音效是3D音效。
4. 根據(jù)權(quán)利要求1所述的方法,其中通過顯示或以文本到語音轉(zhuǎn) 換的方式來呈現(xiàn)文本。
5. 根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述輸入的文本生成所 述標簽,或手工插入所述標簽。
6. 根據(jù)權(quán)利要求1所述的方法,其中所述標簽用于語音、音樂或 音頻效果。
7. 根據(jù)權(quán)利要求1所述的方法,其中在生成帶有音效的音頻步驟 中,使用所述指令來合成聲音以及控制音頻處理。
8. 根據(jù)權(quán)利要求1所述的方法,其中所述處理標簽的步驟還包括 添加隨機性的步驟。
9. 根據(jù)權(quán)利要求8所述的方法,其中通過指令中的變化來實施所 述添加隨機性的步驟,所述變化改變用于生成音頻的方式或參數(shù)。
10. 根據(jù)權(quán)利要求9所述的方法,其中所述方式或參數(shù)包括下面 內(nèi)容中的至少一項低級渲染參數(shù)、聲音圖標的選擇、空間感效果 和后處理、清晰度、事件的同步、修改文本但不修改意思、使用算 法的音樂生成以及不同地渲染類卩以的聲音。
11. 根據(jù)權(quán)利要求1所述的方法,其中所述生成帶有音效的音頻 的步驟還包括利用TTS引擎執(zhí)行語音合成的步驟。
12. 根據(jù)權(quán)利要求1所述的方法,其中所述生成帶有音效的音頻的步驟還包括利用音頻合成引擎執(zhí)行音頻合成的步驟。
13. 根據(jù)權(quán)利要求1所述的方法,其中所述生成帶有音效的音頻 的步驟還包括執(zhí)行音頻處理的步驟。
14. 一種針對僅文本的應用生成音頻的設備,包括 標簽添加器,用于向輸入的文本添加標簽,所述標簽可用于向生成的音頻添加音效;標簽處理器,用于處理所述標簽以形成用于生成所述音頻的指令;標簽生成器,用于基于所述指令生成帶有所述音效的音頻,同時 呈現(xiàn)文本。
15. 根據(jù)權(quán)利要求14所述的設備
16. 根據(jù)權(quán)利要求14所述的設備
17. 根據(jù)權(quán)利要求14所述的設備 轉(zhuǎn)換的方式來呈現(xiàn)文本。
18. 根據(jù)權(quán)利要求14所述的設備 所述標簽,或手工插入所述標簽。
19. 根據(jù)權(quán)利要求14所述的設備 或音頻效果。
20. 根據(jù)權(quán)利要求14所述的設備 指令來合成聲音以及控制音頻處理。
21. 根據(jù)權(quán)利要求14所述的設備性。
22. 根據(jù)權(quán)利要求21所述的設備 中的變化來實施所述隨機性,所述變化改變用于生成音頻的方式或參數(shù)。
23. 根據(jù)權(quán)利要求22所述的設備,其中所述方式或參數(shù)包括下面 內(nèi)容中的至少一項低級渲染參數(shù)、聲音圖標的選擇、空間感效果 和后處理、清晰度、事件的同步、修改文本但不修改意思、使用算 法的音樂生成以及不同地渲染類似的聲音。,其中所述音效是立體聲效果。 ,其中所述音效是3D音效。 ,其中通過顯示或以文本到語音,其中根據(jù)所述輸入的文本生成,其中所述標簽用于語音、音樂,其中所述音頻生成器使用所述,其中所述標簽處理器添加隨機,其中所述標簽處理器通過指令
24. 根據(jù)權(quán)利要求14所述的設備,其中所述音頻發(fā)生器還包括用于執(zhí)行語音合成的TTS引擎和用于執(zhí)行音頻合成的音頻合成引擎中的至少一個。
25. 根據(jù)權(quán)利要求14所述的設備,其中所述生成音頻發(fā)生器還包 括用于執(zhí)行音頻處理的音頻處理器。
26. —種能夠針對僅文本的應用生成音頻的通信終端,包括 標簽處理器,用于處理添加在輸入的文本中并且可用于向生成的音頻添加音效的標簽,從而形成用于生成音頻的指令;音頻生成器,用于基于指令生成帶有音效的音頻,同時呈現(xiàn)文本。
27. 根據(jù)權(quán)利要求26所述的通信終端,還包括用于將所述標簽添 加到所述輸入的文本的標簽添加器。
全文摘要
一種針對僅文本的應用生成音頻的方法,包括步驟向輸入的文本添加標簽,所述標簽可用于向生成的音頻添加音效,處理所述標簽以形成用于生成所述音頻的指令,基于所述指令生成帶有所述音效的音頻,同時呈現(xiàn)文本。本發(fā)明向文本應用中添加娛樂值并提供相比較于常規(guī)多媒體很緊湊的格式,以及使用娛樂聲音以使得例如SMS和電子郵件的僅文本的應用更為有趣和娛樂性。
文檔編號G10L13/04GK101295504SQ200710107719
公開日2008年10月29日 申請日期2007年4月28日 優(yōu)先權(quán)日2007年4月28日
發(fā)明者O·基爾克比 申請人:諾基亞公司