一種背景音可選的朗讀系統(tǒng)及其實現(xiàn)方法

文檔序號：2823809閱讀：215來源：國知局

專利名稱：一種背景音可選的朗讀系統(tǒng)及其實現(xiàn)方法
技術(shù)領域：
本發(fā)明涉及一種朗讀系統(tǒng)，尤其是一種可以基于文本內(nèi)容或者用戶指定來選擇背景音的朗讀系統(tǒng)。本發(fā)明還涉及該朗讀系統(tǒng)的實現(xiàn)方法。
背景技術(shù)：
當前的語音合成系統(tǒng)，不管是基于參數(shù)的，還是基于單元挑選的合成系統(tǒng)，合成出來的語音都比較枯燥乏味，缺乏足夠的表現(xiàn)力，因此，單純以這樣的語音合成系統(tǒng)作為網(wǎng)站朗讀新聞或者小說的朗讀系統(tǒng)，缺乏對用戶的吸引力，聽眾在長時間聽取朗讀后會因其單調(diào)而失去繼續(xù)聽的興趣。為了克服上述缺陷，有的朗讀系統(tǒng)的作者會為朗讀文本添加背景音，即在播放合成語音的同時播放音樂或者其他聲音作為背景音，以提高朗讀的效果和聽眾的興趣。但是，目前，這類帶有背景音的朗讀系統(tǒng)可以選擇的背景音種類很少，通常只有單調(diào)的一種或者幾種，并且背景音相對固定，不會隨著文本內(nèi)容的不同而改變，因此，有時背景音表現(xiàn)的氣氛或者情感可能會與朗讀文本所蘊含的情感不符，甚至產(chǎn)生沖突，例如，文本表達的是非常喜悅的情感，而配的背景音卻非常悲傷，這樣，聽眾就會感覺到不協(xié)調(diào)，甚至可能產(chǎn)生抵觸情緒。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種背景音可選的朗讀系統(tǒng)，它富有表現(xiàn)力，可以提升用戶的體驗和對朗讀系統(tǒng)的興趣。為解決上述技術(shù)問題，本發(fā)明的朗讀系統(tǒng)，包括語音合成裝置，用于生成朗讀文本的合成語音，該語音合成裝置包括文本分析模塊和語音合成模塊，文本分析模塊用于對朗讀文本進行分析，并將分析結(jié)果傳給語音合成模塊，語音合成模塊用于生成朗讀文本的合成語音；背景音庫，存儲有用作朗讀系統(tǒng)背景音的聲音片段，該聲音片段為音樂或者非音樂的聲音；背景音生成模塊，用于生成當前朗讀文本對應的背景音；朗讀音合成模塊，分別連接語音合成裝置及背景音生成模塊，用于將合成語音和背景音合并生成朗讀音。本發(fā)明要解決的另一技術(shù)問題是提供上述朗讀系統(tǒng)的實現(xiàn)方法。為解決上述技術(shù)問題，本發(fā)明的朗讀系統(tǒng)的實現(xiàn)方法，包括下列步驟(A)收集音樂或者非音樂的聲音，制作背景音庫；(B)對朗讀系統(tǒng)中需要朗讀的文本進行標注，設定各文本需要配置的背景音的種類，并以此作為朗讀系統(tǒng)推薦的背景音；當用戶進入該朗讀系統(tǒng)時，朗讀系統(tǒng)按照下列步驟實現(xiàn)朗讀功能(1)提示用戶輸入需要進行朗讀的文本；
(2)用戶輸入了朗讀文本后，文本分析模塊分析該朗讀文本，然后，語音合成模塊根據(jù)文本分析模塊的分析結(jié)果，生成該朗讀文本的合成語音；(3)提示用戶選擇朗讀系統(tǒng)推薦的背景音或者背景音庫中的其他聲音片段作為該朗讀文本的背景音。(4)朗讀音合成模塊將合成語音和步驟(3)中用戶選擇的背景音合并，生成一個朗讀音，并進行播放。所述步驟(3)中還包括如下步驟若用戶選擇的是朗讀系統(tǒng)推薦的背景音，則執(zhí)行步驟(31)；若用戶選擇的是背景音庫中的其他聲音片段，則執(zhí)行步驟(32)；(31)背景音生成模塊根據(jù)步驟(B)中文本標注的結(jié)果，到背景音庫中挑選該朗讀文本所需要的背景音片斷，并根據(jù)步驟O)中得到的合成語音各段的長度，調(diào)整對應的背景音片段的長度，然后，將各背景音片斷拼接起來，生成該朗讀文本的背景音；(32)背景音生成模塊到背景音庫中調(diào)出相應的聲音片段，并根據(jù)步驟O)中得到的合成語音的長度，調(diào)整背景音的長度，生成該朗讀文本的背景音。本發(fā)明的朗讀系統(tǒng)及其實現(xiàn)方法，結(jié)合使用了用戶指定和系統(tǒng)基于文本內(nèi)容推薦兩種方式，來確定朗讀系統(tǒng)的背景音，用戶不僅可以選擇系統(tǒng)推薦的或者默認的背景音，而且可以在朗讀系統(tǒng)現(xiàn)有的背景音文件中指定自己喜歡的背景音，甚至還可以上傳朗讀系統(tǒng)中沒有的背景音，從而豐富了背景音的種類和朗讀系統(tǒng)的表現(xiàn)力，提高了文本朗讀的效果和用戶使用朗讀系統(tǒng)聽取文本朗讀的興趣。

下面結(jié)合附圖與具體實施方式
對本發(fā)明作進一步詳細的說明圖1是本發(fā)明的朗讀系統(tǒng)的模塊示意圖；圖2是本發(fā)明在用戶選擇系統(tǒng)推薦背景音情況下的流程圖；圖3是本發(fā)明在用戶指定背景音情況下的流程圖。
具體實施例方式為對本發(fā)明的技術(shù)內(nèi)容、特點與功效有更具體的了解，現(xiàn)結(jié)合圖示的實施方式，詳述如下本發(fā)明的背景音可選的朗讀系統(tǒng)，可用于自動朗讀文本，例如，小說網(wǎng)站朗讀小說，或者新聞網(wǎng)站朗讀新聞等。該朗讀系統(tǒng)包含有一個背景音庫，背景音庫中存儲有可用作朗讀文本背景音的聲音片段，這些聲音片段可以是音樂，例如一首完整的歌曲或者歌曲中的部分片段，也可以是非音樂的聲音，例如雨聲、風聲、馬路噪音等環(huán)境音。此外，該朗讀系統(tǒng)還包括下列模塊語音合成裝置，用于根據(jù)朗讀文本的內(nèi)容生成該文本的合成語音，語音合成裝置又進一步包括前端的文本分析模塊和后端的語音合成模塊，前端的文本分析模塊用于對朗讀文本進行分析，例如，分析文本中的每個文字怎么讀，如何斷句等，然后將分析結(jié)果傳給后端的語音合成模塊，由語音合成模塊生成該朗讀文本的合成語音；背景音生成模塊，用于生成當前朗讀文本對應的背景音；
朗讀音合成模塊，分別連接語音合成裝置及背景音合成模塊，用于將語音合成裝置生成的合成語音和背景音生成模塊生成的背景音合并起來，生成朗讀音。為了使最終生成的朗讀音更和諧，音量更合適，還可以在朗讀系統(tǒng)中進一步設置一個音量調(diào)節(jié)接口，供用戶分別調(diào)節(jié)背景音和合成語音的音量，然后由朗讀音合成模塊根據(jù)背景音和合成語音的音量關系，將背景音和合成語音合并成最終的朗讀音。下面結(jié)合實施例對本發(fā)明的朗讀系統(tǒng)的實現(xiàn)方法做進一步詳細的說明。首先，收集各種表達不同情感(例如，喜悅、悲傷等)的背景音樂或其他可以作為背景音的聲音(例如，可以錄下雨聲、風聲、海浪聲、馬路噪聲、集市嘈雜聲等各種不同環(huán)境下的聲音)，制作成背景音庫，該背景音庫是開放式的數(shù)據(jù)庫，在音庫建成后，仍可以對其進行補充完善，即允許用戶向背景音庫上傳聲音文件。然后，對朗讀系統(tǒng)中的各個文本進行標注。標注以段落為單位進行，標注每段文本需要配置的背景音的種類。由于現(xiàn)在文本自動分析技術(shù)還達不到穩(wěn)定的、可以接收的效果，所以本發(fā)明采用人工的方法進行文本標注，可以由文本的作者、編輯或者其他人，根據(jù)文本的內(nèi)容，選擇他們認為合適的背景音，標注在文本中，由于標注是以段落為單位進行的，所以標注的工作量很小。例如，以下為一段原始朗讀文本此時，站在河提上的李鄉(xiāng)長的手機響了，是從抗洪搶險總指揮部打過來的。“李鄉(xiāng)長，我們這邊是抗洪搶險指揮部，我是總指揮范進，根據(jù)指揮部的數(shù)據(jù)分析結(jié)果，洪峰將在兩個小時后到達你們鄉(xiāng)，以防萬一，請你在兩個小時內(nèi)疏散河提兩岸附近的居民，確保人民群眾的生命財產(chǎn)安全”?！胺犊傊笓]請放心，我保證完成任務，另外，請派一隊人來支援，我們這里想加固河提，可是人手不夠”?！昂?，李鄉(xiāng)長，我馬上去聯(lián)系”。對上述原始朗讀文本以段落為單位進行標注后，得到如下標注文本〈B 4>此時，站在河提上的李鄉(xiāng)長的手機響了，是從抗洪搶險總指揮部打過來的。
<E 4>〈B 11> “李鄉(xiāng)長，我們這邊是抗洪搶險指揮部，我是總指揮范進，根據(jù)指揮部的數(shù)據(jù)分析結(jié)果，洪峰將在兩個小時后到達你們鄉(xiāng)，以防萬一，請你在兩個小時內(nèi)疏散河提兩岸附近的居民，確保人民群眾的生命財產(chǎn)安全”。<E:11><B 4> “范總指揮請放心，我保證完成任務，另外，請派一隊人來支援，我們這里想加固河提，可是人手不夠”。<E:4><B:11> “好，李鄉(xiāng)長，我馬上去聯(lián)系”。<E 11>上述標注文本中，各符號的含義分別是符號“B”表示此段文本的背景音開始，符號“E”表示此段文本的背景音結(jié)束，編號(即阿拉伯數(shù)字)表示背景音的種類，其中，編號 4表示在大河邊，而編號11表示在辦公室。文本經(jīng)過標注后，標注的背景音即作為朗讀系統(tǒng)推薦的背景音，并且在用戶首次使用該朗讀系統(tǒng)時，作為該朗讀文本默認的背景音。當用戶進入該朗讀系統(tǒng)后，朗讀系統(tǒng)首先提示用戶輸入需要進行朗讀的文本。用戶確定朗讀文本后，朗讀系統(tǒng)的語音合成裝置利用前端的文本分析模塊對該朗讀文本進行分析，確定文本中每個文字的讀法，分析如何斷句等，然后由后端的語音合成模塊根據(jù)分析結(jié)果，生成該朗讀文本的合成語音。接著，朗讀系統(tǒng)提示用戶選擇配合該文本朗讀的背景音。此時，用戶可以選擇朗讀系統(tǒng)推薦的背景音，也可以在背景音庫中選擇其他聲音片段作為背景音，如果背景音庫中沒有用戶想要的背景音，用戶也可以將自己喜歡的歌曲或者其他聲音文件上傳到朗讀系統(tǒng)中，由朗讀系統(tǒng)將該上傳的聲音文件保存到背景音庫中。如果用戶選擇了朗讀系統(tǒng)推薦的背景音，即該朗讀文本標注的背景音，則背景音生成模塊根據(jù)文本標注的結(jié)果，到背景音庫中挑選朗讀文本所需要的背景音片段，并根據(jù)該朗讀文本的合成語音各段的長度，調(diào)整對應的背景音片段的長度，最后拼接起來生成整個朗讀文本的背景音。調(diào)整背景音片段長度的方法是如果當前的背景音片段長度大于其對應的那段合成語音的長度，按照該段合成語音的長度，保留該背景音片段的前面部分，刪除后面部分；如果當前的背景音片段的長度小于對應的那段合成語音的長度，則反復拷貝該背景音片斷，直至達到該段合成語音的長度。如果用戶不喜歡朗讀系統(tǒng)推薦的背景音，而在背景音庫中指定了其他聲音片段 (包括用戶自己上傳到背景音庫的聲音文件)作為背景音，朗讀系統(tǒng)的背景音生成模塊會根據(jù)用戶的指定結(jié)果，直接到背景音庫中調(diào)出相應的背景音片斷，然后根據(jù)朗讀文本的合成語音的長度，調(diào)整背景音的長度，生成朗讀文本的背景音。背景音長度調(diào)整的方法是如果用戶只指定了一個聲音片段，則反復拷貝該聲音片段，直至達到該朗讀文本的合成語音的長度；如果用戶指定了多個聲音片段，則按照順序循環(huán)拷貝這些聲音片段，直至達到該朗讀文本的合成語音的長度。例如，用戶準備使用該朗讀系統(tǒng)給孩子將故事，并希望使用孩子喜歡的兩首兒歌作為朗讀故事時的背景音，用戶可以將這兩首兒歌上傳給朗讀系統(tǒng)，朗讀系統(tǒng)根據(jù)故事合成語音的長度，在兩首兒歌的總長度小于合成語音長度時，按序循環(huán)拷貝這兩首兒歌，最后拼接起來生成故事的背景音，而在兒歌總長度大于合成語音長度時，截取前面的兒歌片斷作為背景音，后面超過合成語音長度的片斷則刪掉。不管用戶如何選擇背景音，朗讀系統(tǒng)都會將用戶的選擇結(jié)果記錄下來，作為該用戶下次登陸朗讀系統(tǒng)時默認的背景音提供給該用戶選擇。最后，朗讀系統(tǒng)還可以進一步要求用戶分別調(diào)整合成語音和背景音的音量，在音量確定后，再由朗讀語音合成模塊將合成語音和背景音合并生成一個朗讀音，進行播放。當然，不調(diào)整兩音的音量，而直接合成朗讀音，也是可以的，但有時會影響合成出來的朗讀音的效果。綜上所述，本發(fā)明的背景音可選的朗讀系統(tǒng)及其實現(xiàn)方法，不僅可以由朗讀文本的作者、編輯或者其他人基于朗讀文本的內(nèi)容，為文本配上合適的背景音，而且還允許用戶根據(jù)自己的喜好指定背景音，從而豐富了背景音的種類，提高了朗讀系統(tǒng)在朗讀文本時的表現(xiàn)力。
權(quán)利要求
1.一種背景音可選的朗讀系統(tǒng)，包括語音合成裝置，用于生成朗讀文本的合成語音，該語音合成裝置包括文本分析模塊和語音合成模塊，文本分析模塊用于對朗讀文本進行分析，并將分析結(jié)果傳給語音合成模塊，語音合成模塊用于生成朗讀文本的合成語音；其特征在于，該朗讀系統(tǒng)還包括背景音庫，存儲有用作朗讀系統(tǒng)背景音的聲音片段，該聲音片段為音樂或者非音樂的聲音；背景音生成模塊，用于生成當前朗讀文本對應的背景音；朗讀音合成模塊，分別連接語音合成裝置及背景音生成模塊，用于將合成語音和背景音合并生成朗讀音。
2.如權(quán)利要求1所述的朗讀系統(tǒng)，其特征在于所述非音樂的聲音為環(huán)境音。
3.如權(quán)利要求1所述的朗讀系統(tǒng)，其特征在于該朗讀系統(tǒng)還包括一音量調(diào)節(jié)接口，用于調(diào)節(jié)背景音和合成語音的音量。
4.一種權(quán)利要求1所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于，包括下列步驟(A)收集音樂或者非音樂的聲音，制作背景音庫；(B)對朗讀系統(tǒng)中需要朗讀的文本進行標注，設定各文本需要配置的背景音的種類，并以此作為朗讀系統(tǒng)推薦的背景音；當用戶進入該朗讀系統(tǒng)時，朗讀系統(tǒng)按照下列步驟實現(xiàn)朗讀功能(1)提示用戶輸入需要進行朗讀的文本；(2)用戶輸入了朗讀文本后，文本分析模塊分析該朗讀文本，然后，語音合成模塊根據(jù)文本分析模塊的分析結(jié)果，生成該朗讀文本的合成語音；(3)提示用戶選擇朗讀系統(tǒng)推薦的背景音或者背景音庫中的其他聲音片段作為該朗讀文本的背景音。(4)朗讀音合成模塊將合成語音和步驟(3)中用戶選擇的背景音合并，生成一個朗讀音，并進行播放。
5.如權(quán)利要求4所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于所述標注采用人工的方法，以段落為單位進行。
6.如權(quán)利要求4所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于，所述步驟(3)中還包括如下步驟若用戶選擇的是朗讀系統(tǒng)推薦的背景音，則執(zhí)行步驟(31)；若用戶選擇的是背景音庫中的其他聲音片段，則執(zhí)行步驟(32)；(31)背景音生成模塊根據(jù)步驟(B)中文本標注的結(jié)果，到背景音庫中挑選該朗讀文本所需要的背景音片斷，并根據(jù)步驟O)中得到的合成語音各段的長度，調(diào)整對應的背景音片段的長度，然后，將各背景音片斷拼接起來，生成該朗讀文本的背景音；(32)背景音生成模塊到背景音庫中調(diào)出相應的聲音片段，并根據(jù)步驟O)中得到的合成語音的長度，調(diào)整背景音的長度，生成該朗讀文本的背景音。
7.如權(quán)利要求6所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于所述步驟(31)中，調(diào)整背景音片段長度的方法是當背景音片段長度大于對應的合成語音的長度時，按照該段合成語音的長度，保留該背景音片段的前面部分，刪除后面部分；當該背景音片段的長度小于對應的合成語音的長度時，反復拷貝該背景音片斷，直至達到該段合成語音的長度。
8.如權(quán)利要求6所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于所述步驟(32)中，調(diào)整背景音長度的方法是當用戶只指定了一個聲音片段時，反復拷貝該聲音片段，直至達到該朗讀文本的合成語音的長度；當用戶指定了兩個以上的聲音片段時，按照順序循環(huán)拷貝這些聲音片段，直至達到該朗讀文本的合成語音的長度。
9.如權(quán)利要求6所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于所述步驟(31)或(32)完成后，朗讀系統(tǒng)提示用戶分別調(diào)整合成語音和背景音的音量，在用戶確定了合成語音和背景音的音量后，再執(zhí)行步驟(4)。
10.如權(quán)利要求4所述的朗讀系統(tǒng)的實現(xiàn)方法，其特征在于所述步驟(3)中的其他聲音片段包括用戶上傳給朗讀系統(tǒng)的聲音文件。
全文摘要
本發(fā)明公開了一種背景音可選的朗讀系統(tǒng)，包括背景音庫、語音合成裝置、背景音生成模塊以及朗讀音合成模塊。本發(fā)明還公開了該朗讀系統(tǒng)的實現(xiàn)方法，包括制作背景音庫、文本標注、生成文本的合成語音、生成背景音以及合成朗讀音等步驟。該朗讀系統(tǒng)極富表現(xiàn)力，可以提升用戶的體驗和對朗讀系統(tǒng)的興趣。當用戶使用該朗讀系統(tǒng)聽取文本朗讀時，可以選擇系統(tǒng)推薦的或者默認的背景音，也可以指定自己喜歡的背景音，甚至可以向朗讀系統(tǒng)上傳背景音，從而擴大了背景音的選擇范圍，提高了文本朗讀的效果和用戶使用朗讀系統(tǒng)的興趣。
文檔編號G10L13/02GK102402982SQ20101028119
公開日2012年4月4日申請日期2010年9月14日優(yōu)先權(quán)日2010年9月14日
發(fā)明者王玉平申請人:盛樂信息技術(shù)(上海)有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王玉平
技術(shù)所有人：盛樂信息技術(shù)（上海）有限公司
我是此專利的發(fā)明人

相關技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種背景音可選的朗讀系統(tǒng)及其實現(xiàn)方法