亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法

文檔序號(hào):2835063閱讀:1320來源:國知局
專利名稱:語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別以及語音合成,具體地涉及一種語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法。
背景技術(shù)
在現(xiàn)有語音識(shí)別處理及反饋系統(tǒng)中,通常包括三個(gè)重要的組成部分:語音識(shí)別、語音理解和語音回復(fù)。在第三部分語音回復(fù)這個(gè)模塊,所采用的是單一語音語調(diào)和無差別回復(fù),基本只能分為男聲和女聲,用戶對(duì)于不同語音的需求也只能通過提前設(shè)置來進(jìn)行選擇。無法滿足用戶對(duì)于多樣性語音回復(fù)的需求,更無法針對(duì)當(dāng)前說話用戶來自動(dòng)地轉(zhuǎn)換為用戶喜好的語首回復(fù)。傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng),操作平臺(tái)可為帶有網(wǎng)絡(luò)功能的各種多媒體平臺(tái)如手機(jī),或者移動(dòng)終端等,此處以電視平臺(tái)為例。傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)主要分為如下三個(gè)模塊:語音識(shí)別模塊、語音理解和處理模塊、語音回復(fù)模塊。系統(tǒng)預(yù)先設(shè)置固定語音語調(diào)回復(fù),一般分為男聲和女聲,需要在系統(tǒng)設(shè)置由用戶自行選擇,回復(fù)內(nèi)容男女生一致。圖1為傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)中的語音回復(fù)方法示意圖。如圖1所示,當(dāng)任何一類用戶(如男人,女人或者兒童)首先對(duì)系統(tǒng)進(jìn)行語音輸入,明確各自的指令。系統(tǒng)對(duì)用戶的語音輸入進(jìn)行識(shí)別,將語音信息轉(zhuǎn)化為文字信息。然后進(jìn)入語音理解和處理模塊,對(duì)文字信息進(jìn)一步理解和分析,得出相應(yīng)的文字反饋。最終轉(zhuǎn)入語音回復(fù)模塊,文字反饋會(huì)被輸入語音合成庫,語音庫一般分為男聲和女聲,用戶需要提前設(shè)置選擇,被選擇的語音庫可以生成語音文件,最終將語音反饋給用戶。這種語音回復(fù)和反饋服務(wù)是:1,同樣的發(fā)音;2,同樣的反饋。

發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),現(xiàn)有技術(shù)存在的問題至少包括:1、語音回復(fù)單一傳統(tǒng)的系統(tǒng)一般只會(huì)集成I到2個(gè)語音庫,使用時(shí)需要用戶自行選擇。因此無論哪一類用戶所聽到的語音反饋都只有一種語音語調(diào)。用戶在長期使用的過程中,會(huì)產(chǎn)生聽覺疲勞。即使再有的語音系統(tǒng)中加入了身份識(shí)別功能,但是在最終的語音回復(fù)模塊也只是增加了個(gè)性化服務(wù),并沒有對(duì)語音和語調(diào)進(jìn)行過相應(yīng)的調(diào)整。2、無法吸引兒童群體對(duì)于兒童群體來說,語音系統(tǒng)的吸引力更多的體現(xiàn)在聽說的互動(dòng)的體驗(yàn)上,對(duì)于當(dāng)前傳統(tǒng)的語音系統(tǒng),無法滿足兒童群體對(duì)于多樣性和趣味性的要求。因此無法調(diào)動(dòng)這個(gè)群體的使用興趣。從某種意義上阻礙了將語音系統(tǒng)拓展為一種教育方式的潛在功能。

發(fā)明內(nèi)容
本發(fā)明的目的在于,克服現(xiàn)有技術(shù)的不足,提供一種語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法,以便于在語音系統(tǒng)中向用戶提供多種個(gè)性化的、差異化的語音回復(fù)功能,能夠根據(jù)說話者年齡和性別進(jìn)行有差別的、不同語調(diào)的語音回復(fù)。一方面,為達(dá)上述目的,本發(fā)明實(shí)施例提供了一種語音識(shí)別處理及反饋系統(tǒng),所述系統(tǒng)包括:語音采集單元,用于采集用戶的語音信息;語音識(shí)別單元,用于對(duì)采集的用戶的語音信息進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息;語音理解和處理單元,所述語音理解和處理單元包括:文字反饋模塊,用于生成地應(yīng)于所述文字信息的文字反饋;性別檢測(cè)模塊,用于檢測(cè)用戶的性別;以及,年齡檢測(cè)模塊,用于檢測(cè)用戶的年齡;存儲(chǔ)單元,用于存儲(chǔ)語音庫,所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫;語音回復(fù)單元,包括語音合成模塊和語音播放模塊,所述語音合成模塊用于當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí),選擇所述女性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成女聲語音文件;當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí),選擇所述男性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成男聲語音文件;當(dāng)檢測(cè)出的用戶為兒童時(shí),選擇所述兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成卡通語音文件;所述語音播放單元,用于播放所述語音合成模塊生成的相應(yīng)的語音文件。另一方面,為達(dá)上述目的,本發(fā)明實(shí)施例提供了一種語音識(shí)別處理及反饋系統(tǒng)的語音回復(fù)方法,所述方法包括:采集用戶的語音信息;對(duì)采集的用戶的語音信息進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息;生成地應(yīng)于所述文字信息的文字反饋;檢測(cè)用戶的性別;檢測(cè)用戶的年齡;獲取并存儲(chǔ)語音庫,所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫;當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí),選擇女性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成女聲語音文件回復(fù)所述用戶;當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí),選擇男性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成男聲語音文件回復(fù)所述用戶;當(dāng)檢測(cè)出的用戶為兒童時(shí),選擇兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成卡通語音文件回復(fù)所述用戶。本發(fā)明實(shí)施例的上述技術(shù)方案的有益技術(shù)效果在于:1,在語音系統(tǒng)中,本發(fā)明提供用戶多種個(gè)性化的,差異化的語音回復(fù)功能,將原本只有2種語音回復(fù)的單一選擇,提升到η種選擇,增強(qiáng)用戶的好感度和用戶體驗(yàn),提高用戶使用該產(chǎn)品的興趣,增加購買該產(chǎn)品的機(jī)率。2,本發(fā)明對(duì)于兒童群體來說,多樣性和趣味性的語音調(diào)動(dòng)了這個(gè)群體的使用興趣。將語音系統(tǒng)拓展為一種潛在的教育系統(tǒng)。同時(shí)在識(shí)別兒童身份信息的基礎(chǔ)上,還可以對(duì)J L童的視聽內(nèi)容進(jìn)行監(jiān)控。


為了更清楚地說明 本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖做一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為傳統(tǒng)語音識(shí)別處理以及反饋系統(tǒng)中的語音回復(fù)方式的示意圖;圖2為本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)的系統(tǒng)功能框圖;圖3為本發(fā)明另一實(shí)施例中語音識(shí)別處理及反饋系統(tǒng)的具體功能框圖;圖4為本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)檢測(cè)使用者性別及年齡來自動(dòng)選擇回復(fù)語音的示意圖;圖5為本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)采集喜好對(duì)象的聲音特征由系統(tǒng)合成作為回復(fù)語音的示意圖;圖6為本發(fā)明實(shí)施例的語音回復(fù)方法的流程圖。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明實(shí)施例提供了一種語音識(shí)別處理及反饋系統(tǒng)。圖2為本發(fā)明實(shí)施例的系統(tǒng)功能框圖,如圖2所示,該系統(tǒng)100包括:語音采集單元110,用于 采集用戶的語音信息;語音識(shí)別(Speech Recognition)單元120,用于對(duì)采集的用戶的語音進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息;語音理解和處理(LanguageUnderstanding and Processing)單兀 130,其包括:文字反饋模塊131,用于生成地應(yīng)于所述文字信息的文字反饋;性別檢測(cè)(genderdetection)模塊132,用于檢測(cè)用戶的性別;以及,年齡檢測(cè)(age detection,兒童或者成人)模塊133,用于檢測(cè)用戶的年齡;存儲(chǔ)單元140,用于存儲(chǔ)語音庫,所述語音庫包括:男性語音庫、女性語音庫和兒
童語音庫;語音回復(fù)單元150,包括語音合成(Text to Speech)模塊151和語音播放模塊152,所述語音合成模塊151用于當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí),選擇所述女性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成女聲語音文件;當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí),選擇所述男性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成男聲語音文件;當(dāng)檢測(cè)出的用戶為兒童時(shí),選擇所述兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成卡通語音文件;所述語音播放單元152,用于播放所述語音合成模塊生成的相應(yīng)的語音文件。該系統(tǒng)100的工作過程如下:系統(tǒng)通過語音采集單元110接收用戶的語音輸入,經(jīng)過語音識(shí)別單元120轉(zhuǎn)換成文字,進(jìn)入語音理解和處理單元130進(jìn)行處理,確定用戶身份并得到回復(fù)文字,然后由語音回復(fù)單元確定用哪個(gè)語音庫(男聲/女聲/卡通聲音/用戶自定義聲音/名人聲音等),從存儲(chǔ)單元140調(diào)用相應(yīng)語音庫,經(jīng)語音合成模塊151將回復(fù)文字合成為語音,由語音播放模塊152播放出聲音。
具體地,語音識(shí)別單元生成的文字信息,進(jìn)入文字反饋模塊后,生成回復(fù)文字;得到的聲音特征信息,經(jīng)性別檢測(cè)模塊和年齡檢測(cè)模塊判斷用戶性別和年齡段,并將檢測(cè)結(jié)果輸出到語音合成模塊,由該語音合成模塊決定采用哪個(gè)語音庫。在一較佳實(shí)施例中,所述語音回復(fù)單元150,還可以用于在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后,回復(fù)所述用戶。在又一較佳實(shí)施例中,提供了另一種語音識(shí)別處理及反饋系統(tǒng)200,請(qǐng)參閱圖3,所述系統(tǒng)200還包括:模式設(shè)置單元160,用于接收外部指令,設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式;在所述多語調(diào)語音回復(fù)模式下,性別檢測(cè)模塊132和年齡檢測(cè)模塊133處于工作狀態(tài),在其他模式下,性別檢測(cè)模塊132和年齡檢測(cè)模塊133處于不工作狀態(tài)。所述語音理解和處理單元130還可以進(jìn)一步包括:聲音特征提取及合成(speechfeature extraction and synthesis)模塊134,用于在喜好對(duì)象語音回復(fù)模式下,采集指定用戶的喜好對(duì)象的語音特征,并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫。所述語音合成模塊151,還可以用于當(dāng)所述用戶為指定用戶時(shí),選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成喜好對(duì)象語音文件,并由該語音播放單元152回復(fù)所述指定用戶。在又一較佳實(shí)施例中,所述存儲(chǔ)單元140,還存儲(chǔ)有特色語音庫。所述語音合成模塊151,還可以用于在特色語音回復(fù)模式下,選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成特色語音文件,并由該語音播放模塊152回復(fù)所述用戶。其中,該多語調(diào)語音回復(fù)模式為之前圖2中所描述的工作模式,根據(jù)用戶性別、年齡執(zhí)行相應(yīng)的多語調(diào)語音回復(fù)。具體地,在自動(dòng)選擇男性/女性/兒童語音回復(fù)模式(多語調(diào)語音回復(fù)模式)中,模塊131、132、133工作,模塊134不工作;在喜好對(duì)象語音回復(fù)模式中,模塊131、134工作,模塊132、133不工作;在特殊語音(如名人)回復(fù)模式中,模塊131工作,模塊132、133、134不工作。本發(fā)明實(shí)施例可以增強(qiáng)用戶的對(duì)于整個(gè)語音識(shí)別系統(tǒng)的好感度和用戶體驗(yàn),使得整個(gè)系統(tǒng)的在提供服務(wù)的同時(shí)更加豐富了用戶的感官體驗(yàn)和使用樂趣,并且衍生了新的服務(wù)模式。以下對(duì)本發(fā)明實(shí)施例的語音識(shí)別處理及反饋系統(tǒng)進(jìn)行更為詳細(xì)的描述:本發(fā)明實(shí)施例通過下列多種方式來實(shí)現(xiàn)針對(duì)用戶性別、年齡、身份、喜好的多語調(diào)語首回復(fù)。1、檢測(cè)使用者性別及年齡來自動(dòng)選擇回復(fù)語音。通過在語音理解和處理單元中加入性別識(shí)別,年齡識(shí)別(成人或兒童),特定身份識(shí)別此類已成熟的關(guān)鍵技術(shù),來獲得說話人信息,并且提前集成多種語音包,針對(duì)不同身份(指年齡和性別)的人自動(dòng)切換到相對(duì)符合其喜好的語音回復(fù),例如用女聲回復(fù)男用戶,男聲回復(fù)女用戶,卡通聲音回復(fù)兒童用戶。在第一種實(shí)現(xiàn)方式中,如圖4所示,本發(fā)明實(shí)施例在語音理解和處理單元中加入性別檢測(cè)、年齡檢測(cè)等功能模塊,同時(shí)在系統(tǒng)中再添加一個(gè)針對(duì)兒童喜好的卡通語音庫。系統(tǒng)在識(shí)別語音和處理的同時(shí),可以把說話者身份信息傳給語音回復(fù)模塊,語音回復(fù)單元自動(dòng)根據(jù)提供的身份信 息來選擇對(duì)應(yīng)的語音庫進(jìn)行語音合成。這樣就可以實(shí)現(xiàn)針對(duì)不同群體的三種回復(fù)效果。其中,性別檢測(cè)模塊、年齡檢測(cè)模塊、身份檢測(cè)模塊可分別檢測(cè)出說話者的年齡、性別、身份。在該語音識(shí)別及語音處理單元中,載入三種語音包,分別為男性語音包、女性語音包和針對(duì)兒童的卡通語音包。以上都屬于成熟技術(shù)。在該具體實(shí)現(xiàn)方式中,系統(tǒng)可以自動(dòng)提供針對(duì)性的語音、稱謂和服務(wù)反饋。例如:針對(duì)女性用戶,自動(dòng)提供男性語音回復(fù)。對(duì)女性的尊稱以及針對(duì)其喜好回復(fù)。針對(duì)男性用戶,自動(dòng)提供女性語音回復(fù)。對(duì)男性的尊稱以及針對(duì)其喜好回復(fù)。針對(duì)兒童用戶,自動(dòng)提供卡通語音回復(fù)。對(duì)兒童的稱呼以及針對(duì)其喜好回復(fù)。另外,該具體實(shí)現(xiàn)方式中,能夠提供的個(gè)性化服務(wù)包括:1)針對(duì)不同群體的分類推薦等;2)對(duì)兒童的觀看和收聽進(jìn)行監(jiān)控和保護(hù)。2、采集喜好對(duì)象的聲音特征由系統(tǒng)合成作為回復(fù)語音。通過集成喜歡對(duì)象的聲音來替代,在系統(tǒng)中加入聲音合成模塊,利用此系統(tǒng)將自己喜歡的人或者身邊親人的聲音進(jìn)行特征采樣,然后利用樣本采集發(fā)音特征,可以最大限度的模仿采樣人的發(fā)聲,從而來取代
單一的語音回復(fù)。在第二種實(shí)現(xiàn)方式中,如圖5所示,針對(duì)某些用戶更喜歡聽到自己熟悉或者喜好者的聲音作為語音回復(fù),本發(fā)明可以提供用戶選擇喜好對(duì)象語音回復(fù)選項(xiàng)。本發(fā)明實(shí)施例加入聲音特征提取及合成模塊,喜好對(duì)象可以通過2種方式來對(duì)系統(tǒng)進(jìn)行聲音采樣:1),非系統(tǒng)工作狀態(tài)采樣,即在不使用語音系統(tǒng)的情況下,打開輸入端口,在系統(tǒng)的指導(dǎo)下進(jìn)行語音收集。2),系統(tǒng)工作狀態(tài)采樣,即當(dāng)通過方式I已采得喜好對(duì)象樣本的前提下,如果喜好對(duì)象也正在使用語音系統(tǒng),那么系統(tǒng)在在處理的過程中可以通過身份檢測(cè)的功能來確認(rèn)此聲音來源于喜好對(duì)象,自動(dòng)·為其進(jìn)行語音收集,由于越多語音信息的收集,可以使得最終生成的語音更接近采集者的語調(diào),方式2)可以作為一種學(xué)習(xí)的功能。系統(tǒng)通過以上2種方式采集對(duì)象的語音特征并且自動(dòng)生成喜好對(duì)象的語音庫。在最終語音回復(fù)的模塊,系統(tǒng)就自動(dòng)采用此喜好人的語音庫來生成語音,將喜歡對(duì)象的語音回復(fù)反饋給發(fā)言人。在該具體實(shí)現(xiàn)方式中,語音識(shí)別及語音處理單元包括:性別檢測(cè)模塊、年齡檢測(cè)模塊、身份檢測(cè)模塊,分別用于檢測(cè)出說話者的性別、年齡、身份;以及,語音特征采集合成模塊,用于采集喜好對(duì)象的語音特征,自動(dòng)生成喜好對(duì)象的語音包括,并保存在系統(tǒng)內(nèi)。3、提供名人或者特色語音下載服務(wù)。提供名人或者特色語音(例如機(jī)器人,外星人)下載服務(wù),來豐富系統(tǒng)自身的語音回復(fù)。在第三種實(shí)現(xiàn)方式中,本發(fā)明實(shí)施例在方式1,2的基礎(chǔ)上再提供名人或者特色語音回復(fù)的選項(xiàng)??梢詫⒚嘶蛘咭恍┯刑厣恼Z音(例如機(jī)器人發(fā)聲,外星人發(fā)聲等)預(yù)先合成放在云端。由用戶自行在有網(wǎng)絡(luò)的條件下下載語音庫文件,并且安裝到指定位置。同樣,在最終語音回復(fù)的模塊,系統(tǒng)采用下載的庫文件生成語音回復(fù)給發(fā)言人。以上三種方式作為選項(xiàng)可以同時(shí)存在,并不互相影響,供用戶選擇其中一種。第三種方式可由用戶觸發(fā),即系統(tǒng)提供名人或特色語音庫選項(xiàng),用戶可選擇某一種特色語音作為系統(tǒng)回復(fù)的語音。系統(tǒng)根據(jù)用戶所選的語音庫來將反饋文本合成語音,回復(fù)讓用戶聽到。圖6為本發(fā)明實(shí)施例的一種語音識(shí)別處理及反饋系統(tǒng)的語音回復(fù)方法的流程圖。如圖6所示,所述方法包括如下步驟:
610、采集用戶的語音信息;620、對(duì)采集的用戶的語音信息進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息;630、生成地應(yīng)于所述文字信息的文字反饋;640、檢測(cè)用戶的性別;650、檢測(cè)用戶的年齡;660、獲取并存儲(chǔ)語音庫,所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫;670、當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí),選擇女性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成女聲語音文件回復(fù)所述用戶;當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí),選擇男性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成男聲語音文件回復(fù)所述用戶;當(dāng)檢測(cè)出的用戶為兒童時(shí),選擇兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成卡通語音文件回復(fù)所述用戶。在一個(gè)較佳實(shí)施例中,所述方法還可以包括如下步驟:在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后,回復(fù)所述用戶。在又一個(gè)較佳實(shí)施例中,所述方法還可以包括如下步驟:接收外部指令,設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式;

在喜好對(duì)象語音回復(fù)模式下,采集指定用戶的喜好對(duì)象的語音特征,并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫;當(dāng)所述用戶為指定用戶時(shí),選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成喜好對(duì)象語音文件回復(fù)所述指定用戶。在又一個(gè)較佳實(shí)施例中,所述方法還可以包括如下步驟:在特色語音回復(fù)模式下,獲取特色語音庫;根據(jù)用戶指令選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成特色語音文件回復(fù)所述用戶。本發(fā)明實(shí)施例的有益技術(shù)效果:1,在語音系統(tǒng)中,本發(fā)明提供用戶多種個(gè)性化的,差異化的語音回復(fù)功能,將原本只有2種語音回復(fù)的單一選擇,提升到η種選擇,增強(qiáng)用戶的好感度和用戶體驗(yàn),提高用戶使用該產(chǎn)品的興趣,增加購買該產(chǎn)品的機(jī)率。2,在語音系統(tǒng)中,本發(fā)明提供了用戶選擇不同語音回復(fù)的多種選項(xiàng),相對(duì)于傳統(tǒng)的只能在選項(xiàng)中選擇語音的方式,用戶可以根據(jù)自我興趣選擇想要的語音,也可以由系統(tǒng)通過識(shí)別身份信息來自動(dòng)為用戶選擇。提供了更多的選擇空間,同時(shí)系統(tǒng)的自動(dòng)選擇也方便了用戶的使用,使操作更便利。3,本發(fā)明對(duì)于兒童群體來說,多樣性和趣味性的語音調(diào)動(dòng)了這個(gè)群體的使用興趣。將語音系統(tǒng)拓展為一種潛在的教育系統(tǒng)。同時(shí)在識(shí)別兒童身份信息的基礎(chǔ)上,還可以對(duì)J L童的視聽內(nèi)容進(jìn)行監(jiān)控。4,本發(fā)明針對(duì)在傳統(tǒng)語音回復(fù)方式種,無法針對(duì)說話者身份進(jìn)行有差別的回復(fù)缺點(diǎn),也進(jìn)行了改進(jìn),根據(jù)身份信息識(shí)別,系統(tǒng)不但能夠提供不同語調(diào)的語音回復(fù),同時(shí)還可以加入不同的稱謂以及使用者可能感興趣的回復(fù)內(nèi)容。本領(lǐng)域技術(shù)人員還可以了解到本發(fā)明實(shí)施例列出的各種說明性邏輯塊(illustrative logical block),單元,和步驟可以通過電子硬件、電腦軟件,或兩者的結(jié)合進(jìn)行實(shí)現(xiàn)。為清楚展示硬件和軟件的可替換性(interchangeability),上述的各種說明性部件(illustrative components),單元和步驟已經(jīng)通用地描述了它們的功能。這樣的功能是通過硬件還是軟件來實(shí)現(xiàn)取決于特定的應(yīng)用和整個(gè)系統(tǒng)的設(shè)計(jì)要求。本領(lǐng)域技術(shù)人員可以對(duì)于每種特定的應(yīng)用,可以使用各種方法實(shí)現(xiàn)所述的功能,但這種實(shí)現(xiàn)不應(yīng)被理解為超出本發(fā)明實(shí)施例保護(hù)的范圍。本發(fā)明實(shí)施例中所描述的各種說明性的邏輯塊,或單元都可以通過通用處理器,數(shù)字信號(hào)處理器,專用集成電路(ASIC),現(xiàn)場(chǎng)可編程門陣列(FPGA)或其它可編程邏輯裝置,離散門或晶體管邏輯,離散硬件部件,或上述任何組合的設(shè)計(jì)來實(shí)現(xiàn)或操作所描述的功能。通用處理器可以為微處理器,可選地,該通用處理器也可以為任何傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以通過計(jì)算裝置的組合來實(shí)現(xiàn),例如數(shù)字信號(hào)處理器和微處理器,多個(gè)微處理器,一個(gè)或多個(gè)微處理器聯(lián)合一個(gè)數(shù)字信號(hào)處理器核,或任何其它類似的配置來實(shí)現(xiàn)。本發(fā)明實(shí)施例中所描述的方法或算法的步驟可以直接嵌入硬件、處理器執(zhí)行的軟件模塊、或者這兩者的結(jié)合。軟件模塊可以存儲(chǔ)于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤、可移動(dòng)磁盤、⑶-ROM或本領(lǐng)域中其它任意形式的存儲(chǔ)媒介中。示例性地,存儲(chǔ)媒介可以與處理器連接,以使得處理器可以從存儲(chǔ)媒介中讀取信息,并可以向存儲(chǔ)媒介存寫信息??蛇x地,存儲(chǔ)媒介還可以集成到處理器中。處理器和存儲(chǔ)媒介可以設(shè)置于ASIC中,ASIC可以設(shè)置于用戶終端中??蛇x地,處理器和存儲(chǔ)媒介也可以設(shè)置于用戶終端中的不同的部件中。在一個(gè)或多個(gè)示例性的設(shè)計(jì)中,本發(fā)明實(shí)施例所描述的上述功能可以在硬件、軟件、固件或這三者的任意組合來實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn),這些功能可以存儲(chǔ)與電腦可讀的媒介上,或以一個(gè)或多個(gè)指令或代碼形式傳輸于電腦可讀的媒介上。電腦可讀媒介包括電腦存儲(chǔ)媒介和便于使得讓電腦程序從一個(gè)地方轉(zhuǎn)移到其它地方的通信媒介。存儲(chǔ)媒介可以是任何通用或特殊電腦可以接入訪問的可用 媒體。例如,這樣的電腦可讀媒體可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盤存儲(chǔ)、磁盤存儲(chǔ)或其它磁性存儲(chǔ)裝置,或其它任何可以用于承載或存儲(chǔ)以指令或數(shù)據(jù)結(jié)構(gòu)和其它可被通用或特殊電腦、或通用或特殊處理器讀取形式的程序代碼的媒介。此外,任何連接都可以被適當(dāng)?shù)囟x為電腦可讀媒介,例如,如果軟件是從一個(gè)網(wǎng)站站點(diǎn)、服務(wù)器或其它遠(yuǎn)程資源通過一個(gè)同軸電纜、光纖電腦、雙絞線、數(shù)字用戶線(DSL)或以例如紅外、無線和微波等無線方式傳輸?shù)囊脖话谒x的電腦可讀媒介中。所述的碟片(disk)和磁盤(disc)包括壓縮磁盤、鐳射盤、光盤、DVD、軟盤和藍(lán)光光盤,磁盤通常以磁性復(fù)制數(shù)據(jù),而碟片通常以激光進(jìn)行光學(xué)復(fù)制數(shù)據(jù)。上述的組合也可以包含在電腦可讀媒介中。以上所述的具體實(shí)施方式
,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式
而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種語音識(shí)別處理及反饋系統(tǒng),其特征在于,所述系統(tǒng)包括: 語音采集單元,用于采集用戶的語音信息; 語音識(shí)別單元,用于對(duì)采集的用戶的語音信息進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息; 語音理解和處理單元,所述語音理解和處理單元包括:文字反饋模塊,用于生成地應(yīng)于所述文字信息的文字反饋;性別檢測(cè)模塊,用于檢測(cè)用戶的性別;以及,年齡檢測(cè)模塊,用于檢測(cè)用戶的年齡; 存儲(chǔ)單元,用于存儲(chǔ)語音庫,所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫; 語音回復(fù)單元,包括語音合成模塊和語音播放模塊,所述語音合成模塊用于當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí),選擇所述女性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成女聲語音文件;當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí),選擇所述男性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成男聲語音文件;當(dāng)檢測(cè)出的用戶為兒童時(shí),選擇所述兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成卡通語音文件;所述語音播放單元,用于播放所述語音合成模塊生成的相應(yīng)的語音文件。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,所述語音合成模塊,還用于在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后,由所述語音播放單元回復(fù)所述用戶。
3.根據(jù)權(quán)利要求1或2所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:模式設(shè)置單元,用于接收外部指令,設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式; 在所述多語調(diào)語音回復(fù)模式下,所述性別檢測(cè)模塊和所述年齡檢測(cè)模塊處于工作狀態(tài),在其他模式下,所述性別檢測(cè)模塊和所述年齡檢測(cè)模塊處于不工作狀態(tài); 所述語音理解和處理單元還包括: 聲音特征提取及合成模塊,用于在喜好對(duì)象語音回復(fù)模式下,采集指定用戶的喜好對(duì)象的語音特征,并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫; 所述語音合成模塊,還用于當(dāng)所述用戶為指定用戶時(shí),選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成喜好對(duì)象語音文件,并由所述語音播放單元回復(fù)所述指定用戶。
4.根據(jù)權(quán)利要求1或2所述的系統(tǒng),其特征在于,所述存儲(chǔ)單元,還存儲(chǔ)有特色語音庫; 所述語音合成模塊,還用于在特色語音回復(fù)模式下,選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成特色語音文件,并由所述語音播放單元回復(fù)所述用戶。
5.一種語音識(shí)別處理及反饋系統(tǒng)的語音回復(fù)方法,其特征在于,所述方法包括: 采集用戶的語音信息; 對(duì)采集的用戶的語音信息進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息; 生成地應(yīng)于所述文字信息的文字反饋; 檢測(cè)用戶的性別; 檢測(cè)用戶的年齡;獲取并存儲(chǔ)語音庫,所述語音庫包括:男性語音庫、女性語音庫和兒童語音庫; 當(dāng)檢測(cè)出的用戶為男性且不是兒童時(shí),選擇女性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成女聲語音文件回復(fù)所述用戶;當(dāng)檢測(cè)出的用戶為女性且不是兒童時(shí),選擇男性語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成男聲語音文件回復(fù)所述用戶;當(dāng)檢測(cè)出的用戶為兒童時(shí),選擇兒童語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成卡通語音文件回復(fù)所述用戶。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法還包括: 在生成的語音文件中加入與用戶的身份相關(guān)聯(lián)的稱謂和/或用戶感興趣的回復(fù)內(nèi)容后,回復(fù)所述用戶。
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述方法還包括: 接收外部指令,設(shè)置所述系統(tǒng)的工作模式為多語調(diào)語音回復(fù)模式、喜好對(duì)象語音回復(fù)模式、或者特色語音回復(fù)模式; 在喜好對(duì)象語音回復(fù)模式下,采集指定用戶的喜好對(duì)象的語音特征,并根據(jù)采集的語音特征生成喜好對(duì)象的語音庫; 當(dāng)所述用戶為指定用戶時(shí),選擇所述指定用戶的喜好對(duì)象的語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成喜好對(duì)象語音文件回復(fù)所述指定用戶。
8.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述方法還包括: 在特色語音回復(fù)模式下,獲取特色語音庫; 根據(jù)用戶指令選擇所述特色語音庫對(duì)所述文字反饋進(jìn)行語音合成,生成特色語音文件回復(fù)所述用戶。
全文摘要
本發(fā)明提供一種語音識(shí)別處理及反饋系統(tǒng)、語音回復(fù)方法,該方法包括采集用戶的語音信息;對(duì)用戶的語音信息進(jìn)行識(shí)別,將識(shí)別出的語音信息轉(zhuǎn)化為文字信息;生成對(duì)應(yīng)于文字信息的文字反饋;檢測(cè)用戶的性別;檢測(cè)用戶的年齡;獲取并存儲(chǔ)男性語音庫、女性語音庫和兒童語音庫;當(dāng)檢測(cè)出用戶為男性且不是兒童時(shí),選擇女性語音庫對(duì)文字反饋進(jìn)行語音合成,生成女聲語音文件回復(fù)用戶;當(dāng)檢測(cè)出用戶為女性且不是兒童時(shí),選擇男性語音庫對(duì)文字反饋進(jìn)行語音合成,生成男聲語音文件回復(fù)用戶;當(dāng)檢測(cè)出用戶為兒童時(shí),選擇兒童語音庫對(duì)文字反饋進(jìn)行語音合成,生成卡通語音文件回復(fù)用戶。該方法能夠根據(jù)說話者年齡和性別進(jìn)行有差別的、不同語調(diào)的語音回復(fù)。
文檔編號(hào)G10L13/08GK103236259SQ201310095659
公開日2013年8月7日 申請(qǐng)日期2013年3月22日 優(yōu)先權(quán)日2013年3月22日
發(fā)明者毛惟謙, 王玨, 彭培源, 鄭園蓁 申請(qǐng)人:樂金電子研發(fā)中心(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1