語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法

文檔序號(hào)：2835063閱讀：1320來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及語音識(shí)別以及語音合成，具體地涉及一種語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法。
背景技術(shù)：
在現(xiàn)有語音識(shí)別處理及反饋系統(tǒng)中，通常包括三個(gè)重要的組成部分:語音識(shí)別、語音理解和語音回復(fù)。在第三部分語音回復(fù)這個(gè)模塊，所采用的是單一語音語調(diào)和無差別回復(fù)，基本只能分為男聲和女聲，用戶對(duì)于不同語音的需求也只能通過提前設(shè)置來進(jìn)行選擇。無法滿足用戶對(duì)于多樣性語音回復(fù)的需求，更無法針對(duì)當(dāng)前說話用戶來自動(dòng)地轉(zhuǎn)換為用戶喜好的語首回復(fù)。傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)，操作平臺(tái)可為帶有網(wǎng)絡(luò)功能的各種多媒體平臺(tái)如手機(jī)，或者移動(dòng)終端等，此處以電視平臺(tái)為例。傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)主要分為如下三個(gè)模塊:語音識(shí)別模塊、語音理解和處理模塊、語音回復(fù)模塊。系統(tǒng)預(yù)先設(shè)置固定語音語調(diào)回復(fù)，一般分為男聲和女聲，需要在系統(tǒng)設(shè)置由用戶自行選擇，回復(fù)內(nèi)容男女生一致。圖1為傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)中的語音回復(fù)方法示意圖。如圖1所示，當(dāng)任何一類用戶(如男人，女人或者兒童)首先對(duì)系統(tǒng)進(jìn)行語音輸入，明確各自的指令。系統(tǒng)對(duì)用戶的語音輸入進(jìn)行識(shí)別，將語音信息轉(zhuǎn)化為文字信息。然后進(jìn)入語音理解和處理模塊，對(duì)文字信息進(jìn)一步理解和分析，得出相應(yīng)的文字反饋。最終轉(zhuǎn)入語音回復(fù)模塊，文字反饋會(huì)被輸入語音合成庫，語音庫一般分為男聲和女聲，用戶需要提前設(shè)置選擇，被選擇的語音庫可以生成語音文件，最終將語音反饋給用戶。這種語音回復(fù)和反饋服務(wù)是:1，同樣的發(fā)音；2，同樣的反饋。

發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn)，現(xiàn)有技術(shù)存在的問題至少包括:1、語音回復(fù)單一傳統(tǒng)的系統(tǒng)一般只會(huì)集成I到2個(gè)語音庫，使用時(shí)需要用戶自行選擇。因此無論哪一類用戶所聽到的語音反饋都只有一種語音語調(diào)。用戶在長期使用的過程中，會(huì)產(chǎn)生聽覺疲勞。即使再有的語音系統(tǒng)中加入了身份識(shí)別功能，但是在最終的語音回復(fù)模塊也只是增加了個(gè)性化服務(wù)，并沒有對(duì)語音和語調(diào)進(jìn)行過相應(yīng)的調(diào)整。2、無法吸引兒童群體對(duì)于兒童群體來說，語音系統(tǒng)的吸引力更多的體現(xiàn)在聽說的互動(dòng)的體驗(yàn)上，對(duì)于當(dāng)前傳統(tǒng)的語音系統(tǒng)，無法滿足兒童群體對(duì)于多樣性和趣味性的要求。因此無法調(diào)動(dòng)這個(gè)群體的使用興趣。從某種意義上阻礙了將語音系統(tǒng)拓展為一種教育方式的潛在功能。

發(fā)明內(nèi)容
本發(fā)明的目的在于，克服現(xiàn)有技術(shù)的不足，提供一種語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法，以便于在語音系統(tǒng)中向用戶提供多種個(gè)性化的、差異化的語音回復(fù)功能，能夠根據(jù)說話者年齡和性別進(jìn)行有差別的、不同語調(diào)的語音回復(fù)。一方面，為達(dá)上述目的，本發(fā)明實(shí)施例提供了一種語音識(shí)別處理及反饋系統(tǒng)，所述系統(tǒng)包括:語音采集單元，用于采集用戶的語音信息；語音識(shí)別單元，用于對(duì)采集的用戶的語音信息進(jìn)行識(shí)別，將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；語音理解和處理單元，所述語音理解和處理單元包括:文字反饋模塊，用于生成地應(yīng)于所述文字信息的文字反饋；性別檢測(cè)模塊，用于檢測(cè)用戶的性別；以及，年齡檢測(cè)模塊，用于檢測(cè)用戶的年齡；存儲(chǔ)單元，用于存儲(chǔ)語音庫，所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫；語音回復(fù)單元，包括語音合成模塊和語音播放模塊，所述語音合成模塊用于當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí)，選擇所述女性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成女聲語音文件；當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí)，選擇所述男性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成男聲語音文件；當(dāng)檢測(cè)出的用戶為兒童時(shí)，選擇所述兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成卡通語音文件；所述語音播放單元，用于播放所述語音合成模塊生成的相應(yīng)的語音文件。另一方面，為達(dá)上述目的，本發(fā)明實(shí)施例提供了一種語音識(shí)別處理及反饋系統(tǒng)的語音回復(fù)方法，所述方法包括:采集用戶的語音信息；對(duì)采集的用戶的語音信息進(jìn)行識(shí)別，將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；生成地應(yīng)于所述文字信息的文字反饋；檢測(cè)用戶的性別；檢測(cè)用戶的年齡；獲取并存儲(chǔ)語音庫，所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫；當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí)，選擇女性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成女聲語音文件回復(fù)所述用戶；當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí)，選擇男性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成男聲語音文件回復(fù)所述用戶；當(dāng)檢測(cè)出的用戶為兒童時(shí)，選擇兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成卡通語音文件回復(fù)所述用戶。本發(fā)明實(shí)施例的上述技術(shù)方案的有益技術(shù)效果在于:1，在語音系統(tǒng)中，本發(fā)明提供用戶多種個(gè)性化的，差異化的語音回復(fù)功能，將原本只有2種語音回復(fù)的單一選擇，提升到η種選擇，增強(qiáng)用戶的好感度和用戶體驗(yàn)，提高用戶使用該產(chǎn)品的興趣，增加購買該產(chǎn)品的機(jī)率。2，本發(fā)明對(duì)于兒童群體來說，多樣性和趣味性的語音調(diào)動(dòng)了這個(gè)群體的使用興趣。將語音系統(tǒng)拓展為一種潛在的教育系統(tǒng)。同時(shí)在識(shí)別兒童身份信息的基礎(chǔ)上，還可以對(duì)J L童的視聽內(nèi)容進(jìn)行監(jiān)控。

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖做一簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)性的前提下，還可以根據(jù)這些附圖獲得其他的附圖。圖1為傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)中的語音回復(fù)方式的示意圖；圖2為本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)的系統(tǒng)功能框圖；圖3為本發(fā)明另一實(shí)施例中語音識(shí)別處理及反饋系統(tǒng)的具體功能框圖；圖4為本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)檢測(cè)使用者性別及年齡來自動(dòng)選擇回復(fù)語音的示意圖；圖5為本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)采集喜好對(duì)象的聲音特征由系統(tǒng)合成作為回復(fù)語音的示意圖；圖6為本發(fā)明實(shí)施例的語音回復(fù)方法的流程圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例提供了一種語音識(shí)別處理及反饋系統(tǒng)。圖2為本發(fā)明實(shí)施例的系統(tǒng)功能框圖，如圖2所示，該系統(tǒng)100包括:語音采集單元110，用于采集用戶的語音信息；語音識(shí)別(Speech Recognition)單元120,用于對(duì)采集的用戶的語音進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；語音理解和處理(LanguageUnderstanding and Processing)單兀 130,其包括:文字反饋模塊131，用于生成地應(yīng)于所述文字信息的文字反饋；性別檢測(cè)(genderdetection)模塊132,用于檢測(cè)用戶的性別；以及,年齡檢測(cè)(age detection,兒童或者成人)模塊133，用于檢測(cè)用戶的年齡；存儲(chǔ)單元140，用于存儲(chǔ)語音庫，所述語音庫包括:男性語音庫、女性語音庫和兒
童語音庫；語音回復(fù)單元150,包括語音合成(Text to Speech)模塊151和語音播放模塊152，所述語音合成模塊151用于當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí)，選擇所述女性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成女聲語音文件；當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí)，選擇所述男性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成男聲語音文件；當(dāng)檢測(cè)出的用戶為兒童時(shí)，選擇所述兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成卡通語音文件；所述語音播放單元152，用于播放所述語音合成模塊生成的相應(yīng)的語音文件。該系統(tǒng)100的工作過程如下:系統(tǒng)通過語音采集單元110接收用戶的語音輸入，經(jīng)過語音識(shí)別單元120轉(zhuǎn)換成文字，進(jìn)入語音理解和處理單元130進(jìn)行處理，確定用戶身份并得到回復(fù)文字，然后由語音回復(fù)單元確定用哪個(gè)語音庫(男聲/女聲/卡通聲音/用戶自定義聲音/名人聲音等)，從存儲(chǔ)單元140調(diào)用相應(yīng)語音庫，經(jīng)語音合成模塊151將回復(fù)文字合成為語音，由語音播放模塊152播放出聲音。
具體地，語音識(shí)別單元生成的文字信息，進(jìn)入文字反饋模塊后，生成回復(fù)文字；得到的聲音特征信息，經(jīng)性別檢測(cè)模塊和年齡檢測(cè)模塊判斷用戶性別和年齡段，并將檢測(cè)結(jié)果輸出到語音合成模塊，由該語音合成模塊決定采用哪個(gè)語音庫。在一較佳實(shí)施例中，所述語音回復(fù)單元150，還可以用于在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后，回復(fù)所述用戶。在又一較佳實(shí)施例中，提供了另一種語音識(shí)別處理及反饋系統(tǒng)200，請(qǐng)參閱圖3，所述系統(tǒng)200還包括:模式設(shè)置單元160，用于接收外部指令，設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式；在所述多語調(diào)語音回復(fù)模式下，性別檢測(cè)模塊132和年齡檢測(cè)模塊133處于工作狀態(tài)，在其他模式下，性別檢測(cè)模塊132和年齡檢測(cè)模塊133處于不工作狀態(tài)。所述語音理解和處理單元130還可以進(jìn)一步包括:聲音特征提取及合成(speechfeature extraction and synthesis)模塊134,用于在喜好對(duì)象語音回復(fù)模式下,采集指定用戶的喜好對(duì)象的語音特征，并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫。所述語音合成模塊151，還可以用于當(dāng)所述用戶為指定用戶時(shí)，選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成喜好對(duì)象語音文件，并由該語音播放單元152回復(fù)所述指定用戶。在又一較佳實(shí)施例中，所述存儲(chǔ)單元140，還存儲(chǔ)有特色語音庫。所述語音合成模塊151，還可以用于在特色語音回復(fù)模式下，選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成特色語音文件，并由該語音播放模塊152回復(fù)所述用戶。其中，該多語調(diào)語音回復(fù)模式為之前圖2中所描述的工作模式，根據(jù)用戶性別、年齡執(zhí)行相應(yīng)的多語調(diào)語音回復(fù)。具體地，在自動(dòng)選擇男性/女性/兒童語音回復(fù)模式(多語調(diào)語音回復(fù)模式)中，模塊131、132、133工作，模塊134不工作；在喜好對(duì)象語音回復(fù)模式中，模塊131、134工作，模塊132、133不工作；在特殊語音(如名人)回復(fù)模式中，模塊131工作，模塊132、133、134不工作。本發(fā)明實(shí)施例可以增強(qiáng)用戶的對(duì)于整個(gè)語音識(shí)別系統(tǒng)的好感度和用戶體驗(yàn)，使得整個(gè)系統(tǒng)的在提供服務(wù)的同時(shí)更加豐富了用戶的感官體驗(yàn)和使用樂趣，并且衍生了新的服務(wù)模式。以下對(duì)本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)進(jìn)行更為詳細(xì)的描述:本發(fā)明實(shí)施例通過下列多種方式來實(shí)現(xiàn)針對(duì)用戶性別、年齡、身份、喜好的多語調(diào)語首回復(fù)。1、檢測(cè)使用者性別及年齡來自動(dòng)選擇回復(fù)語音。通過在語音理解和處理單元中加入性別識(shí)別，年齡識(shí)別(成人或兒童)，特定身份識(shí)別此類已成熟的關(guān)鍵技術(shù)，來獲得說話人信息，并且提前集成多種語音包，針對(duì)不同身份(指年齡和性別)的人自動(dòng)切換到相對(duì)符合其喜好的語音回復(fù)，例如用女聲回復(fù)男用戶，男聲回復(fù)女用戶，卡通聲音回復(fù)兒童用戶。在第一種實(shí)現(xiàn)方式中，如圖4所示，本發(fā)明實(shí)施例在語音理解和處理單元中加入性別檢測(cè)、年齡檢測(cè)等功能模塊，同時(shí)在系統(tǒng)中再添加一個(gè)針對(duì)兒童喜好的卡通語音庫。系統(tǒng)在識(shí)別語音和處理的同時(shí)，可以把說話者身份信息傳給語音回復(fù)模塊，語音回復(fù)單元自動(dòng)根據(jù)提供的身份信息來選擇對(duì)應(yīng)的語音庫進(jìn)行語音合成。這樣就可以實(shí)現(xiàn)針對(duì)不同群體的三種回復(fù)效果。其中，性別檢測(cè)模塊、年齡檢測(cè)模塊、身份檢測(cè)模塊可分別檢測(cè)出說話者的年齡、性別、身份。在該語音識(shí)別及語音處理單元中，載入三種語音包，分別為男性語音包、女性語音包和針對(duì)兒童的卡通語音包。以上都屬于成熟技術(shù)。在該具體實(shí)現(xiàn)方式中，系統(tǒng)可以自動(dòng)提供針對(duì)性的語音、稱謂和服務(wù)反饋。例如:針對(duì)女性用戶，自動(dòng)提供男性語音回復(fù)。對(duì)女性的尊稱以及針對(duì)其喜好回復(fù)。針對(duì)男性用戶，自動(dòng)提供女性語音回復(fù)。對(duì)男性的尊稱以及針對(duì)其喜好回復(fù)。針對(duì)兒童用戶，自動(dòng)提供卡通語音回復(fù)。對(duì)兒童的稱呼以及針對(duì)其喜好回復(fù)。另外，該具體實(shí)現(xiàn)方式中，能夠提供的個(gè)性化服務(wù)包括:1)針對(duì)不同群體的分類推薦等；2)對(duì)兒童的觀看和收聽進(jìn)行監(jiān)控和保護(hù)。2、采集喜好對(duì)象的聲音特征由系統(tǒng)合成作為回復(fù)語音。通過集成喜歡對(duì)象的聲音來替代，在系統(tǒng)中加入聲音合成模塊，利用此系統(tǒng)將自己喜歡的人或者身邊親人的聲音進(jìn)行特征采樣，然后利用樣本采集發(fā)音特征，可以最大限度的模仿采樣人的發(fā)聲，從而來取代
單一的語音回復(fù)。在第二種實(shí)現(xiàn)方式中，如圖5所示，針對(duì)某些用戶更喜歡聽到自己熟悉或者喜好者的聲音作為語音回復(fù)，本發(fā)明可以提供用戶選擇喜好對(duì)象語音回復(fù)選項(xiàng)。本發(fā)明實(shí)施例加入聲音特征提取及合成模塊，喜好對(duì)象可以通過2種方式來對(duì)系統(tǒng)進(jìn)行聲音采樣:1)，非系統(tǒng)工作狀態(tài)采樣，即在不使用語音系統(tǒng)的情況下，打開輸入端口，在系統(tǒng)的指導(dǎo)下進(jìn)行語音收集。2)，系統(tǒng)工作狀態(tài)采樣，即當(dāng)通過方式I已采得喜好對(duì)象樣本的前提下，如果喜好對(duì)象也正在使用語音系統(tǒng)，那么系統(tǒng)在在處理的過程中可以通過身份檢測(cè)的功能來確認(rèn)此聲音來源于喜好對(duì)象，自動(dòng)·為其進(jìn)行語音收集，由于越多語音信息的收集，可以使得最終生成的語音更接近采集者的語調(diào)，方式2)可以作為一種學(xué)習(xí)的功能。系統(tǒng)通過以上2種方式采集對(duì)象的語音特征并且自動(dòng)生成喜好對(duì)象的語音庫。在最終語音回復(fù)的模塊，系統(tǒng)就自動(dòng)采用此喜好人的語音庫來生成語音，將喜歡對(duì)象的語音回復(fù)反饋給發(fā)言人。在該具體實(shí)現(xiàn)方式中，語音識(shí)別及語音處理單元包括:性別檢測(cè)模塊、年齡檢測(cè)模塊、身份檢測(cè)模塊，分別用于檢測(cè)出說話者的性別、年齡、身份；以及，語音特征采集合成模塊，用于采集喜好對(duì)象的語音特征，自動(dòng)生成喜好對(duì)象的語音包括，并保存在系統(tǒng)內(nèi)。3、提供名人或者特色語音下載服務(wù)。提供名人或者特色語音(例如機(jī)器人，外星人)下載服務(wù)，來豐富系統(tǒng)自身的語音回復(fù)。在第三種實(shí)現(xiàn)方式中，本發(fā)明實(shí)施例在方式1，2的基礎(chǔ)上再提供名人或者特色語音回復(fù)的選項(xiàng)?？梢詫⒚嘶蛘咭恍┯刑厣恼Z音(例如機(jī)器人發(fā)聲，外星人發(fā)聲等)預(yù)先合成放在云端。由用戶自行在有網(wǎng)絡(luò)的條件下下載語音庫文件，并且安裝到指定位置。同樣，在最終語音回復(fù)的模塊，系統(tǒng)采用下載的庫文件生成語音回復(fù)給發(fā)言人。以上三種方式作為選項(xiàng)可以同時(shí)存在，并不互相影響，供用戶選擇其中一種。第三種方式可由用戶觸發(fā)，即系統(tǒng)提供名人或特色語音庫選項(xiàng)，用戶可選擇某一種特色語音作為系統(tǒng)回復(fù)的語音。系統(tǒng)根據(jù)用戶所選的語音庫來將反饋文本合成語音，回復(fù)讓用戶聽到。圖6為本發(fā)明實(shí)施例的一種語音識(shí)別處理及反饋系統(tǒng)的語音回復(fù)方法的流程圖。如圖6所示，所述方法包括如下步驟:
610、采集用戶的語音信息；620、對(duì)采集的用戶的語音信息進(jìn)行識(shí)別，將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；630、生成地應(yīng)于所述文字信息的文字反饋；640、檢測(cè)用戶的性別；650、檢測(cè)用戶的年齡；660、獲取并存儲(chǔ)語音庫，所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫；670、當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí)，選擇女性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成女聲語音文件回復(fù)所述用戶；當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí)，選擇男性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成男聲語音文件回復(fù)所述用戶；當(dāng)檢測(cè)出的用戶為兒童時(shí)，選擇兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成卡通語音文件回復(fù)所述用戶。在一個(gè)較佳實(shí)施例中，所述方法還可以包括如下步驟:在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后，回復(fù)所述用戶。在又一個(gè)較佳實(shí)施例中，所述方法還可以包括如下步驟:接收外部指令，設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式；

在喜好對(duì)象語音回復(fù)模式下，采集指定用戶的喜好對(duì)象的語音特征，并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫；當(dāng)所述用戶為指定用戶時(shí)，選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成喜好對(duì)象語音文件回復(fù)所述指定用戶。在又一個(gè)較佳實(shí)施例中，所述方法還可以包括如下步驟:在特色語音回復(fù)模式下，獲取特色語音庫；根據(jù)用戶指令選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成特色語音文件回復(fù)所述用戶。本發(fā)明實(shí)施例的有益技術(shù)效果:1，在語音系統(tǒng)中，本發(fā)明提供用戶多種個(gè)性化的，差異化的語音回復(fù)功能，將原本只有2種語音回復(fù)的單一選擇，提升到η種選擇，增強(qiáng)用戶的好感度和用戶體驗(yàn)，提高用戶使用該產(chǎn)品的興趣，增加購買該產(chǎn)品的機(jī)率。2，在語音系統(tǒng)中，本發(fā)明提供了用戶選擇不同語音回復(fù)的多種選項(xiàng)，相對(duì)于傳統(tǒng)的只能在選項(xiàng)中選擇語音的方式，用戶可以根據(jù)自我興趣選擇想要的語音，也可以由系統(tǒng)通過識(shí)別身份信息來自動(dòng)為用戶選擇。提供了更多的選擇空間，同時(shí)系統(tǒng)的自動(dòng)選擇也方便了用戶的使用，使操作更便利。3，本發(fā)明對(duì)于兒童群體來說，多樣性和趣味性的語音調(diào)動(dòng)了這個(gè)群體的使用興趣。將語音系統(tǒng)拓展為一種潛在的教育系統(tǒng)。同時(shí)在識(shí)別兒童身份信息的基礎(chǔ)上，還可以對(duì)J L童的視聽內(nèi)容進(jìn)行監(jiān)控。4，本發(fā)明針對(duì)在傳統(tǒng)語音回復(fù)方式種，無法針對(duì)說話者身份進(jìn)行有差別的回復(fù)缺點(diǎn)，也進(jìn)行了改進(jìn)，根據(jù)身份信息識(shí)別，系統(tǒng)不但能夠提供不同語調(diào)的語音回復(fù)，同時(shí)還可以加入不同的稱謂以及使用者可能感興趣的回復(fù)內(nèi)容。本領(lǐng)域技術(shù)人員還可以了解到本發(fā)明實(shí)施例列出的各種說明性邏輯塊(illustrative logical block),單元,和步驟可以通過電子硬件、電腦軟件,或兩者的結(jié)合進(jìn)行實(shí)現(xiàn)。為清楚展示硬件和軟件的可替換性(interchangeability),上述的各種說明性部件(illustrative components),單元和步驟已經(jīng)通用地描述了它們的功能。這樣的功能是通過硬件還是軟件來實(shí)現(xiàn)取決于特定的應(yīng)用和整個(gè)系統(tǒng)的設(shè)計(jì)要求。本領(lǐng)域技術(shù)人員可以對(duì)于每種特定的應(yīng)用，可以使用各種方法實(shí)現(xiàn)所述的功能，但這種實(shí)現(xiàn)不應(yīng)被理解為超出本發(fā)明實(shí)施例保護(hù)的范圍。本發(fā)明實(shí)施例中所描述的各種說明性的邏輯塊，或單元都可以通過通用處理器，數(shù)字信號(hào)處理器，專用集成電路(ASIC)，現(xiàn)場(chǎng)可編程門陣列(FPGA)或其它可編程邏輯裝置，離散門或晶體管邏輯，離散硬件部件，或上述任何組合的設(shè)計(jì)來實(shí)現(xiàn)或操作所描述的功能。通用處理器可以為微處理器，可選地，該通用處理器也可以為任何傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以通過計(jì)算裝置的組合來實(shí)現(xiàn)，例如數(shù)字信號(hào)處理器和微處理器，多個(gè)微處理器，一個(gè)或多個(gè)微處理器聯(lián)合一個(gè)數(shù)字信號(hào)處理器核，或任何其它類似的配置來實(shí)現(xiàn)。本發(fā)明實(shí)施例中所描述的方法或算法的步驟可以直接嵌入硬件、處理器執(zhí)行的軟件模塊、或者這兩者的結(jié)合。軟件模塊可以存儲(chǔ)于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤、可移動(dòng)磁盤、⑶-ROM或本領(lǐng)域中其它任意形式的存儲(chǔ)媒介中。示例性地，存儲(chǔ)媒介可以與處理器連接，以使得處理器可以從存儲(chǔ)媒介中讀取信息，并可以向存儲(chǔ)媒介存寫信息?？蛇x地，存儲(chǔ)媒介還可以集成到處理器中。處理器和存儲(chǔ)媒介可以設(shè)置于ASIC中，ASIC可以設(shè)置于用戶終端中?？蛇x地，處理器和存儲(chǔ)媒介也可以設(shè)置于用戶終端中的不同的部件中。在一個(gè)或多個(gè)示例性的設(shè)計(jì)中，本發(fā)明實(shí)施例所描述的上述功能可以在硬件、軟件、固件或這三者的任意組合來實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn)，這些功能可以存儲(chǔ)與電腦可讀的媒介上，或以一個(gè)或多個(gè)指令或代碼形式傳輸于電腦可讀的媒介上。電腦可讀媒介包括電腦存儲(chǔ)媒介和便于使得讓電腦程序從一個(gè)地方轉(zhuǎn)移到其它地方的通信媒介。存儲(chǔ)媒介可以是任何通用或特殊電腦可以接入訪問的可用媒體。例如，這樣的電腦可讀媒體可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盤存儲(chǔ)、磁盤存儲(chǔ)或其它磁性存儲(chǔ)裝置，或其它任何可以用于承載或存儲(chǔ)以指令或數(shù)據(jù)結(jié)構(gòu)和其它可被通用或特殊電腦、或通用或特殊處理器讀取形式的程序代碼的媒介。此外，任何連接都可以被適當(dāng)?shù)囟x為電腦可讀媒介，例如，如果軟件是從一個(gè)網(wǎng)站站點(diǎn)、服務(wù)器或其它遠(yuǎn)程資源通過一個(gè)同軸電纜、光纖電腦、雙絞線、數(shù)字用戶線(DSL)或以例如紅外、無線和微波等無線方式傳輸?shù)囊脖话谒x的電腦可讀媒介中。所述的碟片(disk)和磁盤(disc)包括壓縮磁盤、鐳射盤、光盤、DVD、軟盤和藍(lán)光光盤，磁盤通常以磁性復(fù)制數(shù)據(jù)，而碟片通常以激光進(jìn)行光學(xué)復(fù)制數(shù)據(jù)。上述的組合也可以包含在電腦可讀媒介中。以上所述的具體實(shí)施方式
，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施方式
而已，并不用于限定本發(fā)明的保護(hù)范圍，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種語音識(shí)別處理及反饋系統(tǒng)，其特征在于，所述系統(tǒng)包括: 語音采集單元，用于采集用戶的語音信息；語音識(shí)別單元，用于對(duì)采集的用戶的語音信息進(jìn)行識(shí)別，將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；語音理解和處理單元，所述語音理解和處理單元包括:文字反饋模塊，用于生成地應(yīng)于所述文字信息的文字反饋；性別檢測(cè)模塊，用于檢測(cè)用戶的性別；以及，年齡檢測(cè)模塊，用于檢測(cè)用戶的年齡；存儲(chǔ)單元，用于存儲(chǔ)語音庫，所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫；語音回復(fù)單元，包括語音合成模塊和語音播放模塊，所述語音合成模塊用于當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí)，選擇所述女性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成女聲語音文件；當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí)，選擇所述男性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成男聲語音文件；當(dāng)檢測(cè)出的用戶為兒童時(shí)，選擇所述兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成卡通語音文件；所述語音播放單元，用于播放所述語音合成模塊生成的相應(yīng)的語音文件。
2.根據(jù)權(quán)利要求1所述的系統(tǒng)，其特征在于，所述語音合成模塊，還用于在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后，由所述語音播放單元回復(fù)所述用戶。
3.根據(jù)權(quán)利要求1或2所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括:模式設(shè)置單元，用于接收外部指令，設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式；在所述多語調(diào)語音回復(fù)模式下，所述性別檢測(cè)模塊和所述年齡檢測(cè)模塊處于工作狀態(tài)，在其他模式下，所述性別檢測(cè)模塊和所述年齡檢測(cè)模塊處于不工作狀態(tài)；所述語音理解和處理單元還包括: 聲音特征提取及合成模塊，用于在喜好對(duì)象語音回復(fù)模式下，采集指定用戶的喜好對(duì)象的語音特征，并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫；所述語音合成模塊，還用于當(dāng)所述用戶為指定用戶時(shí)，選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成喜好對(duì)象語音文件，并由所述語音播放單元回復(fù)所述指定用戶。
4.根據(jù)權(quán)利要求1或2所述的系統(tǒng)，其特征在于，所述存儲(chǔ)單元，還存儲(chǔ)有特色語音庫；所述語音合成模塊，還用于在特色語音回復(fù)模式下，選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成特色語音文件，并由所述語音播放單元回復(fù)所述用戶。
5.一種語音識(shí)別處理及反饋系統(tǒng)的語音回復(fù)方法，其特征在于，所述方法包括: 采集用戶的語音信息；對(duì)采集的用戶的語音信息進(jìn)行識(shí)別，將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；生成地應(yīng)于所述文字信息的文字反饋；檢測(cè)用戶的性別；檢測(cè)用戶的年齡；獲取并存儲(chǔ)語音庫，所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫；當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí)，選擇女性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成女聲語音文件回復(fù)所述用戶；當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí)，選擇男性語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成男聲語音文件回復(fù)所述用戶；當(dāng)檢測(cè)出的用戶為兒童時(shí)，選擇兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成卡通語音文件回復(fù)所述用戶。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述方法還包括: 在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后，回復(fù)所述用戶。
7.根據(jù)權(quán)利要求5或6所述的方法，其特征在于，所述方法還包括: 接收外部指令，設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式；在喜好對(duì)象語音回復(fù)模式下，采集指定用戶的喜好對(duì)象的語音特征，并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫；當(dāng)所述用戶為指定用戶時(shí)，選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成喜好對(duì)象語音文件回復(fù)所述指定用戶。
8.根據(jù)權(quán)利要求5或6所述的方法，其特征在于，所述方法還包括: 在特色語音回復(fù)模式下，獲取特色語音庫；根據(jù)用戶指令選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成，生成特色語音文件回復(fù)所述用戶。
全文摘要
本發(fā)明提供一種語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法，該方法包括采集用戶的語音信息；對(duì)用戶的語音信息進(jìn)行識(shí)別，將識(shí)別出的語音信息轉(zhuǎn)化為文字信息；生成對(duì)應(yīng)于文字信息的文字反饋；檢測(cè)用戶的性別；檢測(cè)用戶的年齡；獲取并存儲(chǔ)男性語音庫、女性語音庫和兒童語音庫；當(dāng)檢測(cè)出用戶為男性且不是兒童時(shí)，選擇女性語音庫對(duì)文字反饋進(jìn)行語音合成，生成女聲語音文件回復(fù)用戶；當(dāng)檢測(cè)出用戶為女性且不是兒童時(shí)，選擇男性語音庫對(duì)文字反饋進(jìn)行語音合成，生成男聲語音文件回復(fù)用戶；當(dāng)檢測(cè)出用戶為兒童時(shí)，選擇兒童語音庫對(duì)文字反饋進(jìn)行語音合成，生成卡通語音文件回復(fù)用戶。該方法能夠根據(jù)說話者年齡和性別進(jìn)行有差別的、不同語調(diào)的語音回復(fù)。
文檔編號(hào)G10L13/08GK103236259SQ201310095659
公開日2013年8月7日申請(qǐng)日期2013年3月22日優(yōu)先權(quán)日2013年3月22日
發(fā)明者毛惟謙, 王玨, 彭培源, 鄭園蓁申請(qǐng)人:樂金電子研發(fā)中心(上海)有限公司

完整全部詳細(xì)技術(shù)資料下載