基于編組方式的語音庫實現語音識別系統及其方法

文檔序號：2833230閱讀：287來源：國知局

專利名稱：基于編組方式的語音庫實現語音識別系統及其方法
技術領域：
本發(fā)明涉及一種基于編組方式的語音庫實現語音識別系統及其方法。
背景技術：
隨著時代的發(fā)展和進步，通過語音轉成文字或拼音；文字或拼音轉成語音的技術越來越成熟，語音庫的容量也越做越大，一般地在用于進行語音識別以及說話者識別的語音處理中，涉及的語音庫的信息量都比較大，這樣語音識別引擎在進行語音識別時容易造成錯誤識別，使之進行錯誤的操作。在現有技術中的語音識別引擎中，存在這樣的問題當設備進行語音識別判斷時輸入語音信號，由于語音庫信息量較大，導致語音識別引擎進行判斷時識別率可能會下降。因此語音識別引擎在進行語音識別時，在保證識別率不下降的前提下，如何使語音識別引擎更優(yōu)，著實是一個待解決的問題。云服務器，是一種基于WEB服務，提供可調整云主機配置的彈性云技術，整合了計算、存儲與網絡資源的Iaas (全稱Infrastructure as a Service,即基礎設施即服務)服務，具備按需使用和按需即時付費能力的云主機租用服務。在靈活性、可控性、擴展性及資源復用性上都有很大的提高?，F有技術中公開了一種“家庭網絡系統及其控制方法”公開號為CN102255780A，
公開日為2011. 11.23的中國專利，所述家庭網絡系統通過網絡連接家庭各空間設置的至少一臺電子/電器裝置，其特征點是語音識別裝置，其在家庭內至少設置一臺，并具有語音識別功能和遙控功能，且用于識別使用者的語音指令，將其與所指定的控制對象一電子/電器裝置的ID進行匹配之后，通過RF通信來傳輸控制數據；中繼器，以預定方式與所述電子/電器裝置相連接，并接收、復原從所述語音識別裝置通過RF通信傳輸的控制數據，從而對ID進行分析，且判斷是否是對自身的執(zhí)行命令，如果是就執(zhí)行所連接的電子/電器裝置的操作，將控制操作的執(zhí)行結果通過RF通信傳輸給所述語音識別裝置。所述方法包括以下步驟當語音識別裝置或者中繼器檢測到語音輸入，就對其進行識別和分析，從而判斷是否包含有所指定的識別語；若沒有包含有所指定的識別語，則刪除己識別的語音；若包含有所指定的識別語，則將該語音判斷為語音指令；對語音指令進行分析，提取作為控制對象的電子/電器裝置的ID，并將包含控制命令在內的語音轉換為控制數據；將所述控制數據以RF通信傳輸給連接在對應的電子/電器裝置上的中繼器；通過RF通信接收控制數據的中繼器分析控制數據中所包含的ID，并判斷是不是自身的控制命令，若是自身的控制命令，則使電子/電器裝置執(zhí)行相應操作；以及若根據通過RF通信接收的控制數據執(zhí)行操作，則將其結果以RF信號傳輸并通知發(fā)送控制數據的語音識別裝置或者中繼器。該發(fā)明構建了家庭網絡系統，通過控制基于語音識別的無線家庭網絡不僅提供了使用方便，而且還提高了有效性。但該發(fā)明的語音識別的無線家庭網絡中也會存在語音識別引擎在進行語音識別時容易造成錯誤識別的問題
發(fā)明內容
本發(fā)明要解決的技術問題之一，在于提供一種基于編組方式的語音庫實現語音識別系統，減少了用戶根據語音做識別時產生的錯誤概率。本發(fā)明的問題之一是這樣實現的一種基于編組方式的語音庫實現語音識別系統，所述語音識別系統包括通過網絡互相連接的至少一用戶終端、至少一服務器端以及一語音識別終端；
所述用戶終端包括計算機終端和移動設備終端；所述移動設備終端包括手機和平板電腦。用戶終端能設置存在服務器端中的語音庫，進行遠程更新及修改語音庫，且能對語音庫中的語音進行編組設置；所述語音庫中設置有復數個指令組，所述一個指令組內分為一級語音指令和二級語音指令組；一個一級語音指令對應一個二級語音指令組，每個二級語音指令組中設有復數條二級語音指令；一級語音指令是指令組的組名，二級語音指令組中各二級語音指令為相應設備的操作指令；
所述服務器端包括一語音庫，語音庫內有著用戶進行編輯設置所述各指令組，每條二級語音指令都有著對應的設備操作動作，語音庫中每條語音指令都設有一語音反饋信息；所述語音反饋信息為語音指令操作動作后，進行的語音提醒信息；
所述語音識別終端設置有一語音識別引擎和一語音命令棧，該語音識別引擎用于收集用戶發(fā)出的語音，將語音轉為文字或拼音形式或語音波形的語音指令；語音命令棧設有指令空間，該指令空間用于存放從服務器端中發(fā)送過來的指令集合；所述指令集合為語音指令在服務器端的語音庫中進行查詢得到一級語音指令下對應的所有二級語音指令組；用戶能通過查詢得到的所有二級語音指令中來選擇要控制操作設備的某一二級語音指令，并根據該二級語音指令通過服務器端來對相應設備進行相應的動作操作。本發(fā)明要解決的技術問題之二，在于提供一種基于編組方式的語音庫實現語音識別方法。本發(fā)明的問題之二是這樣實現的一種基于編組方式的語音庫實現語音識別方法，包括如下步驟
步驟10、用戶通過一用戶終端設置存在服務器端中的語音庫，對語音庫中的語音進行指令組編組設置，一個指令組組內分為一級語音指令和二級語音指令組；所述一級語音指令用于標示指令組的組名，所述二級語音指令組中各二級語音指令為相應設備的操作指令；所述用戶終端包括計算機終端和移動設備終端；
步驟20、將設置好的各指令組中的一級語音指令和二級語音指令組存放于語音庫中，上傳至服務器端更新語音庫；
步驟30、用戶通過一語音識別終端發(fā)送要操作設備的語音，所述語音識別終端設置有一語音識別引擎和一語音命令棧，該語音識別引擎接收用戶發(fā)出的語音，將語音轉為文字或拼音形式或語音波形的語音指令；用戶在使用一語音識別終端時，首先發(fā)出的語音要為一級語音指令的語音；
步驟40、語音識別終端接收到轉化后語音指令后傳輸到語音命令棧中進行搜索對應的一級語音指令，搜索到對應的一級語音指令后通知用戶并使語音識別終端進入待機狀態(tài)；在語音命令棧中搜索不到對應的一級語音指令時，語音識別終端通過網絡將轉化后語音指令傳輸發(fā)送到服務器端中進行語音庫搜索對比，如搜索到對應的一級語音指令所屬的指令組，則通過一級語音指令查詢該指令組中二級語音指令組的指令數，將該指令組傳輸給語音識別終端中的所述語音命令棧，并語音通知用戶并進入待機狀態(tài)；
步驟50、用戶在獲得一級語音指令通知后，用戶輸入二級語音指令，該二級語音指令要為步驟40中一級語音指令所對應的二級語音指令組中的二級語音指令，用戶在輸入二級語音指令后，在語音命令棧中判斷步驟40中一級語音指令對應的指令組中是否存在用戶輸入的二級語音指令，如不存在，則返回步驟40 ;如存在，則在語音命令棧中搜索到該二級語音指令后根據該二級語音指令所對應的設備操作動作指令傳送給服務器端，服務器端將對應的設備進行相應的動作操作；從而完成語音識別。本發(fā)明具有如下優(yōu)點本發(fā)明在保證設備的語音識別率不下降的前提下，對語音識別系統進行了優(yōu)化，減少了用戶根據語音做識別時產生的錯誤概率，通過從語音庫中調取出所需的一部分語音命令進行操作，使語音判別時識別能力增強。通過云服務器中進行備份語音庫，防止用戶的服務器端中語音庫出現錯誤導致用戶花費多余時間進行重新設置的問題。利用分組將房間內的設備的語音命令進行整合，在要在當前房間進行語音操作時不用考慮到別的房間的設備的語音操作命令，減少用戶操作錯誤概率；同時也加快了語音識別弓I擎對設備的語音識別操作。

圖I為本發(fā)明系統的結構框架圖。圖2為本發(fā)明方法的流程示意圖。圖3為本發(fā)明方法中用戶設置語音庫的流程示意圖。圖4為本發(fā)明方法中語音識別終端超時反映的流程示意圖。
具體實施例方式請參閱圖I所示，本發(fā)明的一種基于編組方式的語音庫實現語音識別系統，所述語音識別系統包括通過網絡互相連接的至少一用戶終端、至少一服務器端以及一語音識別終端；
所述用戶終端包括計算機終端和移動設備終端；用戶終端能設置存在服務器端中的語音庫，進行遠程更新及修改語音庫，且能對語音庫中的語音進行編組設置；所述語音庫中設置有復數個指令組，所述一個指令組內分為一級語音指令和二級語音指令組；一個一級語音指令對應一個二級語音指令組，每個二級語音指令組中設有復數條二級語音指令；一級語音指令是指令組的組名，二級語音指令組中各二級語音指令為相應設備的操作指令；其中，所述移動設備終端包括手機和平板電腦；
所述服務器端為服務器，擁有數據傳輸、處理、儲存的功能，用于接收和傳輸所述用戶終端和語音識別終端之間的數據信息；所述服務器端包括一語音庫，語音庫內有著用戶進行編輯設置所述各指令組，每條二級語音指令都有著對應的設備操作動作，語音庫中每條語音指令都設有一語音反饋信息；所述語音反饋信息為語音指令操作動作后，進行的語音提醒信息；(如執(zhí)行了哪條語音指令操作動作后，語音提醒用戶“您已進行了某某操作”之類的語音提醒信息，可以用戶自己設置)；所述語音識別終端設置有一語音識別引擎和一語音命令棧，該語音識別引擎用于收集用戶發(fā)出的語音，將語音轉為文字或拼音形式或語音波形的語音指令；語音命令棧設有指令空間，該指令空間用于存放從服務器端中發(fā)送過來的指令集合；所述指令集合為語音指令在服務器端的語音庫中進行查詢得到一級語音指令下對應的所有ニ級語音指令組及該ー級語音指令；用戶能通過查詢得到的所有ニ級語音指令中來選擇要控制操作設備的某一二級語音指令，井根據該ニ級語音指令通過服務器端來對相應設備進行相應的動作操作。其中，所述語音識別終端包括為有容量的手持語音接收設備、手機和平板電腦。其中，用戶在用戶終端上能按個人喜歡的ロ令方式將設備對應的ニ級語音指令進行更改或設置。所述語音識別終端中的語音命令棧內設置有的指令空間；當從服務器端中發(fā)送過來的指令集合的指令數目超出所述語音命令棧的指令空間時，將語音命令棧中的棧底的指令組進行刪除操作，直至指令空間足夠存放。如圖2至圖4所示，本發(fā)明的ー種基于編組方式的語音庫實現語音識別方法，包括如下步驟
步驟10、用戶通過一用戶終端設置存在服務器端中的語音庫，對語音庫中的語音進行指令組編組設置，ー個指令組組內分為ー級語音指令和ニ級語音指令組；所述ー級語音指令用于標示指令組的組名，所述ニ級語音指令組中各ニ級語音指令為相應設備的操作指令；(例如房間001中有電視、空調、冰箱設備；房間002中也有電視、空調、冰箱等設備，則將房間001有ー個ー級語音指令，房間002也有ー個ー級語音指令；房間001中的電視、空調、冰箱設備分別對應有多個ニ級語音指令，每個ニ級語音指令對應著相應設備的某個指令動作，例如空調的開，空調的關；房間002中的電視、空調、冰箱設備也分別對應有多個ニ級語音指令；則將房間001中的電視、空調、冰箱設備分別對應有的ニ級語音指令歸屬到房間001的一級語音指令下；將房間002中的電視、空調、冰箱設備分別對應有的ニ級語音指令歸屬到房間002的一級語音指令下；則進行分組操作，將房間001的對應各ニ級語音指令形成ニ級語音指令組，將ニ級語音指令組和房間001對應的一級語音指令形成ー個指令組；將房間002的對應各ニ級語音指令形成ニ級語音指令組，將ニ級語音指令組和房間002對應的一級語音指令形成ー個指令組；)所述用戶終端包括計算機終端和移動設備終端；所述移動設備終端包括手機和平板電腦；其中，用戶在用戶終端上能按個人喜歡的ロ令方式將設備對應的ニ級語音指令進行更改或設置；
步驟20、將設置好的各指令組中的一級語音指令和ニ級語音指令組存放于語音庫中，上傳至服務器端更新語音庫；
步驟30、用戶通過一語音識別終端發(fā)送要操作設備的語音，所述語音識別終端設置有一語音識別引擎和ー語音命令棧，該語音識別引擎接收用戶發(fā)出的語音，將語音轉為文字或拼音形式或語音波形的語音指令；所述語音識別終端包括為有容量的自制手持語音接收設備、手機或平板電腦；用戶在使用ー語音識別終端時，首先發(fā)出的語音要為ー級語音指令的語音；
步驟40、語音識別終端接收到轉化后語音指令后傳輸到語音命令棧中進行捜索對應的一級語音指令，捜索到對應的一級語音指令后通知用戶并使語音識別終端進入待機狀態(tài)；在語音命令棧中搜索不到對應的ー級語音指令時，語音識別終端通過網絡將轉化后語音指令傳輸發(fā)送到服務器端中進行語音庫搜索對比，如捜索到對應的一級語音指令所屬的指令組，則通過一級語音指令查詢該指令組中二級語音指令組的指令數，將該指令組傳輸給語音識別終端中的所述語音命令棧，并語音通知用戶并進入待機狀態(tài)；步驟50、用戶在獲得一級語音指令通知后，用戶輸入ニ級語音指令，該ニ級語音指令要為步驟40中一級語音指令所對應的ニ級語音指令組中的ニ級語音指令，用戶在輸入ニ級語音指令后，在語音命令棧中判斷步驟40中一級語音指令對應的指令組中是否存在用戶輸入的ニ級語音指令，如不存在，則返回步驟40 ;如存在，則在語音命令棧中搜索到該ニ級語音指令后根據該ニ級語音指令所對應的設備操作動作指令傳送給服務器端，服務器端將對應的設備進行相應的動作操作；從而完成語音識別。如圖4所示，步驟60、在語音識別完成之后的ー設定時間內，語音識別終端無接收新的語音指令，則語音識別終端回到初始狀態(tài)。(即無法根據前一次輸入的ニ級語音指令選擇，需重新輸入ー級語音指令選擇指令組) 其中，所述語音識別終端中的語音命令棧內設置的指令空間；[白兔I]空間存儲的指令也為多級結構；當從服務器端中發(fā)送過來的指令組的指令數目超出所述語音命令棧的指令空間時，查詢語音命令棧中的棧底的一級語音指令，獲取該一級語音指令所屬的指令組，將其指令組從語音命令棧中的棧底中刪除操作，直至指令空間足夠存放。當在語音命令棧中和服務器端的語音庫中都沒有捜索到用戶發(fā)出的一級語音指令的話，進行語音反饋通知用戶查詢不到該語音指令，請重新輸入。總之，本發(fā)明在保證設備的語音識別率不下降的前提下及識別速度不降低的基礎上，對語音識別系統進行了優(yōu)化，減少了用戶根據語音做識別時產生的錯誤概率，通過從語音庫中調取出所需的一部分語音命令到語音識別終端進行小型語音庫識別判斷操作，使語音判別時識別能力增強。利用分組方式對語音庫進行編組，在從語音庫中調取一部分所需的指令組到語音命令棧中進行小型語音庫識別判斷，減少用戶操作錯誤概率；同時也加快了語音識別弓I擎對設備的語音識別操作，使識別速度加快。以上所述僅為本發(fā)明的較佳實施例，凡依本發(fā)明申請專利范圍所做的均等變化與修飾，皆應屬本發(fā)明的涵蓋范圍。這句話沒必要在權利要求書中說明，此句為說明性語句，且會有限定作用，因此在說明書中說明即可
權利要求
1.一種基于編組方式的語音庫實現語音識別系統，其特征在于所述語音識別系統包括通過網絡互相連接的至少一用戶終端、至少一服務器端以及一語音識別終端；所述用戶終端包括計算機終端和移動設備終端；所述移動設備終端包括手機和平板電腦；用戶終端能設置存在服務器端中的語音庫，進行遠程更新及修改語音庫，且能對語音庫中的語音進行編組設置；所述語音庫中設置有復數個指令組，所述一個指令組內分為一級語音指令和二級語音指令組；一個一級語音指令對應一個二級語音指令組，每個二級語音指令組中設有復數條二級語音指令；一級語音指令是指令組的組名，二級語音指令組中各二級語音指令為相應設備的操作指令；所述服務器端包括一語音庫，語音庫內有著用戶進行編輯設置所述各指令組，每條二級語音指令都有著對應的設備操作動作，語音庫中每條語音指令都設有一語音反饋信息；所述語音反饋信息為語音指令操作動作后，進行的語音提醒信息；所述語音識別終端設置有一語音識別引擎和一語音命令棧，該語音識別引擎用于收集用戶發(fā)出的語音，將語音轉為文字或拼音形式或語音波形的語音指令；語音命令棧設有指令空間，該指令空間用于存放從服務器端中發(fā)送過來的指令集合；所述指令集合為語音指令在服務器端的語音庫中進行查詢得到一級語音指令下對應的所有二級語音指令組及該一級語音指令；用戶能通過查詢得到的所有二級語音指令中來選擇要控制操作設備的某一二級語音指令，并根據該二級語音指令通過服務器端來對相應設備進行相應的動作操作。
2.根據權利要求I所述的基于編組方式的語音庫實現語音識別系統，其特征在于所述語音識別終端包括為有容量的手持語音接收設備、手機和平板電腦。
3.根據權利要求I所述的基于編組方式的語音庫實現語音識別系統，其特征在于用戶在用戶終端上能按個人喜歡的口令方式將設備對應的二級語音指令進行更改或設置。
4.根據權利要求I所述的基于編組方式的語音庫實現語音識別系統，其特征在于所述語音識別終端中的語音命令棧內設置有的指令空間；當從服務器端中發(fā)送過來的指令集合的指令數目超出所述語音命令棧的指令空間時，將語音命令棧中的棧底的指令組進行刪除操作，直至指令空間足夠存放。
5.一種基于編組方式的語音庫實現語音識別方法，其特征在于包括如下步驟步驟10、用戶通過一用戶終端設置存在服務器端中的語音庫，對語音庫中的語音進行指令組編組設置，一個指令組組內分為一級語音指令和二級語音指令組；所述一級語音指令用于標示指令組的組名，所述二級語音指令組中各二級語音指令為相應設備的操作指令；所述用戶終端包括計算機終端和移動設備終端；步驟20、將設置好的各指令組中的一級語音指令和二級語音指令組存放于語音庫中，上傳至服務器端更新語音庫；步驟30、用戶通過一語音識別終端發(fā)送要操作設備的語音，所述語音識別終端設置有一語音識別引擎和一語音命令棧，該語音識別引擎接收用戶發(fā)出的語音，將語音轉為文字或拼音形式或語音波形的語音指令；用戶在使用一語音識別終端時，首先發(fā)出的語音要為一級語音指令的語音；步驟40、語音識別終端接收到轉化后語音指令后傳輸到語音命令棧中進行搜索對應的一級語音指令，搜索到對應的一級語音指令后通知用戶并使語音識別終端進入待機狀態(tài)；在語音命令棧中搜索不到對應的一級語音指令時，語音識別終端通過網絡將轉化后語音指令傳輸發(fā)送到服務器端中進行語音庫搜索對比，如搜索到對應的一級語音指令所屬的指令組，則通過一級語音指令查詢該指令組中二級語音指令組的指令數，將該指令組傳輸給語音識別終端中的所述語音命令棧，并語音通知用戶并進入待機狀態(tài)；步驟50、用戶在獲得一級語音指令通知后，用戶輸入二級語音指令，該二級語音指令要為步驟40中一級語音指令所對應的二級語音指令組中的二級語音指令，用戶在輸入二級語音指令后，在語音命令棧中判斷步驟40中一級語音指令對應的指令組中是否存在用戶輸入的二級語音指令，如不存在，則返回步驟40 ;如存在，則在語音命令棧中搜索到該二級語音指令后根據該二級語音指令所對應的設備操作動作指令傳送給服務器端，服務器端將對應的設備進行相應的動作操作；從而完成語音識別。
6.根據權利要求5所述的基于編組方式的語音庫實現語音識別方法，其特征在于所述移動設備終端包括手機和平板電腦。
7.根據權利要求5所述的基于編組方式的語音庫實現語音識別方法，其特征在于所述步驟10中具體還包括用戶在用戶終端上能按個人喜歡的口令方式將設備對應的口令進行更改或設置。
8.根據權利要求5所述的基于編組方式的語音庫實現語音識別方法，其特征在于所述步驟40中具體還包括所述語音識別終端中的語音命令棧內設置的指令空間；當從服務器端中發(fā)送過來的指令組的指令數目超出所述語音命令棧的指令空間時，查詢語音命令棧中的棧底的一級語音指令，獲取該一級語音指令所屬的指令組，將其指令組從語音命令棧中的棧底中刪除操作，直至指令空間足夠存放。
9.根據權利要求5所述的基于編組方式的語音庫實現語音識別方法，其特征在于在語音命令棧中和服務器端的語音庫中都沒有搜索到用戶發(fā)出的一級語音指令的話，進行語音反饋通知用戶查詢不到該語音指令，請重新輸入。
10.根據權利要求5所述的基于編組方式的語音庫實現語音識別方法，其特征在于所述步驟50之后還進一步包括步驟60、在語音識別完成之后的一設定時間內，語音識別終端無接收新的語音指令，則語音識別終端回到初始狀態(tài)。
全文摘要
本發(fā)明提供一種基于編組方式的語音庫實現語音識別系統，包括通過網絡互相連接的用戶終端、語音識別終端以及服務器端；用戶終端可以設置存儲在服務器端中的語音庫；利用對語音庫進行編組，在從中調取部分所需的指令組到語音命令棧中進行小型語音庫識別判斷；語音識別終端接收用戶發(fā)出的語音指令，并將其轉換為語音命令到語音命令棧中查找對應的指令后，通過服務器端對設備進行操作；本發(fā)明還提供了一種基于編組方式的語音庫實現語音識別方法，實現了在保證設備的語音識別率不下降的前提下和識別速度不降低的基礎上，對語音識別系統進行了優(yōu)化，擴大手持設備的語音庫，減少了用戶根據語音做識別時產生的錯誤概率，增加了語音判別時的識別能力。
文檔編號G10L15/00GK102708858SQ20121021460
公開日2012年10月3日申請日期2012年6月27日優(yōu)先權日2012年6月27日
發(fā)明者林聲濱申請人:廈門思德電子科技有限公司

完整全部詳細技術資料下載