本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別的喚醒詞選擇方法及裝置。
背景技術(shù):
目前,相關(guān)技術(shù)中可以通過語音對設(shè)備進行控制,設(shè)備不是實時錄音并識別語音命令的,而是先識別是否收到喚醒詞,如果收到喚醒詞則激活,然后識別語音命令。喚醒效果的好壞依賴喚醒詞的選擇,喚醒詞應(yīng)具有較高的可區(qū)分性,從而能提高與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種語音識別的喚醒詞選擇方法及裝置,用以選擇可區(qū)分性高的喚醒詞,從而提高喚醒詞與非喚醒詞以及環(huán)境音之間區(qū)分的正確性。
根據(jù)本發(fā)明實施例的第一方面,提供一種語音識別的喚醒詞選擇方法,包括:
獲取多個候選喚醒詞;
根據(jù)每個候選喚醒詞對應(yīng)的發(fā)音,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分;
根據(jù)所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分確定目標喚醒詞。
在該實施例中,在選擇喚醒詞時,根據(jù)喚醒詞的發(fā)音計算每個候選喚醒詞的可區(qū)分性得分,并根據(jù)可區(qū)分性得分確定目標喚醒詞,這樣,可以保證目標喚醒詞具有良好的可區(qū)分性,從而可以提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
在一個實施例中,所述根據(jù)每個候選喚醒詞的發(fā)音,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分,包括:
將每個候選喚醒詞按照發(fā)音分解成至少一個單音素,以形成發(fā)音序列;
根據(jù)所述每個候選喚醒詞對應(yīng)的至少一個單音素,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分。
在該實施例中,可以通過喚醒詞發(fā)音來判斷其可區(qū)分性,進而選擇目標喚醒詞,從而提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
在一個實施例中,所述根據(jù)所述每個候選喚醒詞對應(yīng)的至少一個單音素,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分,包括:
從所述每個候選喚醒詞對應(yīng)的至少一個單音素中選取出發(fā)音不重復(fù)的單音素;
根據(jù)所述發(fā)音不重復(fù)的單音素和預(yù)設(shè)計算公式,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分,其中,所述預(yù)設(shè)計算公式包括:
其中,wuw表示候選喚醒詞,discriP(wuw)表示候選喚醒詞的可區(qū)分性得分,Pi表示所述發(fā)音不重復(fù)的單音素中的目標單音素,其中,i=1,2……K,f(Pi)為衡量所述目標單音素與其他單音素的發(fā)音區(qū)分性的函數(shù),所述f(Pi)取值范圍為[0,1]。
discriP(wuw)表示喚醒詞wuw的區(qū)分性,其值越大代表該喚醒詞的區(qū)分性越好。
在一個實施例中,所述根據(jù)所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分確定目標喚醒詞,包括:
將可區(qū)分性得分最高的候選喚醒詞確定為目標喚醒詞。
在該實施例中,在選擇喚醒詞時,根據(jù)每個候選喚醒詞的發(fā)音計算每個候選喚醒詞的可區(qū)分性得分,并從中選擇可區(qū)分性得分最高的喚醒詞為目標喚醒詞,這樣,可以保證目標喚醒詞具有良好的可區(qū)分性,從而可以提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
在一個實施例中,所述方法還包括:
接收用戶輸入的語音信息;
對所述語音信息進行識別,得到對應(yīng)的文字信息及所述文字信息的可信程度分數(shù);
將所述可信程度分數(shù)與預(yù)設(shè)的閾值分數(shù)進行比較;
當(dāng)所述可信程度分數(shù)大于所述預(yù)設(shè)的閾值分數(shù)時,開啟所述終端設(shè)備的語音識別功能。
在該實施例中,如果用戶輸入的語音信息對應(yīng)的文字信息的可信程度分數(shù)大于所述預(yù)設(shè)的閾值分數(shù),則可以開啟終端設(shè)備的語音識別功能,從而開始識別語音命令。
根據(jù)本發(fā)明實施例的第二方面,提供一種語音識別的喚醒詞選擇裝置,包括:
獲取模塊,用于獲取多個候選喚醒詞;
計算模塊,用于根據(jù)每個候選喚醒詞對應(yīng)的發(fā)音,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分;
確定模塊,用于根據(jù)所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分確定目標喚醒詞。
在一個實施例中,所述計算模塊包括:
分解子模塊,用于將每個候選喚醒詞按照發(fā)音分解成至少一個單音素,以形成發(fā)音序列;
計算子模塊,用于根據(jù)所述每個候選喚醒詞對應(yīng)的至少一個單音素,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分。
在一個實施例中,所述計算子模塊用于:
從所述每個候選喚醒詞對應(yīng)的至少一個單音素中選取出發(fā)音不重復(fù)的單音素;
根據(jù)所述發(fā)音不重復(fù)的單音素和預(yù)設(shè)計算公式,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分,其中,所述預(yù)設(shè)計算公式包括:
其中,wuw表示候選喚醒詞,discriP(wuw)表示候選喚醒詞的可區(qū)分性得分,Pi表示所述發(fā)音不重復(fù)的單音素中的目標單音素,其中,i=1,2……K,f(Pi)為衡量所述目標單音素與其他單音素的發(fā)音區(qū)分性的函數(shù),所述f(Pi)取值范圍為[0,1]。
在一個實施例中,所述確定模塊用于:
將可區(qū)分性得分最高的候選喚醒詞確定為目標喚醒詞。
在一個實施例中,所述裝置還包括:
接收模塊,用于接收用戶輸入的語音信息;
識別模塊,用于對所述語音信息進行識別,得到對應(yīng)的文字信息及所述文字信息的可信程度分數(shù);
對比模塊,用于將所述可信程度分數(shù)與預(yù)設(shè)的閾值分數(shù)進行比較;
處理模塊,用于當(dāng)所述可信程度分數(shù)大于所述預(yù)設(shè)的閾值分數(shù)時,開啟所述終端設(shè)備的語音識別功能。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
圖1是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇方法的流程圖。
圖2是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇方法中步驟S102的流程圖。
圖3是根據(jù)一示例性實施例示出的又一種語音識別的喚醒詞選擇方法的流程圖。
圖4是根據(jù)一示例性實施例示出的另一種語音識別的喚醒詞選擇方法的流程圖。
圖5是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇裝置的框圖。
圖6是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇裝置中計算模塊的框圖。
圖7是根據(jù)一示例性實施例示出的另一種語音識別的喚醒詞選擇裝置的框圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇方法的流程圖。該一種語音識別的喚醒詞選擇方法應(yīng)用于終端設(shè)備中,該終端設(shè)備可以是移動電話,計算機,數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個人數(shù)字助理等任一具有語音控制功能的設(shè)備。如圖1所示,該方法包括步驟S101-S103:
在步驟S101中,獲取多個候選喚醒詞;
在步驟S102中,根據(jù)每個候選喚醒詞對應(yīng)的發(fā)音,計算出每個候選喚醒詞對應(yīng)的可區(qū)分性得分;
在步驟S103中,根據(jù)每個候選喚醒詞對應(yīng)的可區(qū)分性得分確定目標喚醒詞。
在該實施例中,在選擇喚醒詞時,根據(jù)喚醒詞的發(fā)音計算每個候選喚醒詞的可區(qū)分性得分,并根據(jù)可區(qū)分性得分確定目標喚醒詞,這樣,可以保證目標喚醒詞具有良好的可區(qū)分性,從而可以提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
圖2是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇方法中步驟S102的流程圖。
如圖2所示,在一個實施例中,上述步驟S102包括步驟S201-S202:
在步驟S201中,將每個候選喚醒詞按照發(fā)音分解成至少一個單音素,以形成發(fā)音序列;
在步驟S202中,根據(jù)每個候選喚醒詞對應(yīng)的至少一個單音素,計算出每個候選喚醒詞對應(yīng)的可區(qū)分性得分。
在該實施例中,可以通過喚醒詞發(fā)音來判斷其可區(qū)分性,進而選擇目標喚醒詞,從而提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
在一個實施例中,上述步驟S202包括:
從每個候選喚醒詞對應(yīng)的至少一個單音素中選取出發(fā)音不重復(fù)的單音素;
根據(jù)發(fā)音不重復(fù)的單音素和預(yù)設(shè)計算公式,計算出每個候選喚醒詞對應(yīng)的可區(qū)分性得分,其中,預(yù)設(shè)計算公式包括:
其中,wuw表示候選喚醒詞,discriP(wuw)表示候選喚醒詞的可區(qū)分性得分,Pi表示發(fā)音不重復(fù)的單音素中的目標單音素,其中,i=1,2……K,f(Pi)為衡量目標單音素與其他單音素的發(fā)音區(qū)分性的函數(shù),f(Pi)取值范圍為[0,1]。
discriP(wuw)表示喚醒詞wuw的區(qū)分性,其值越大代表該喚醒詞的區(qū)分性越好。
圖3是根據(jù)一示例性實施例示出的又一種語音識別的喚醒詞選擇方法的流程圖。
如圖3所示,在一個實施例中,上述步驟S103包括步驟S301:
在步驟S301中,將可區(qū)分性得分最高的候選喚醒詞確定為目標喚醒詞。
在該實施例中,在選擇喚醒詞時,根據(jù)每個候選喚醒詞的發(fā)音計算每個候選喚醒詞的可區(qū)分性得分,并從中選擇可區(qū)分性得分最高的喚醒詞為目標喚醒詞,這樣,可以保證目標喚醒詞具有良好的可區(qū)分性,從而可以提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
圖4是根據(jù)一示例性實施例示出的另一種語音識別的喚醒詞選擇方法的流程圖。
如圖4所示,在一個實施例中,上述方法還包括步驟S401-S404:
在步驟S401中,接收用戶輸入的語音信息;
在步驟S402中,對語音信息進行識別,得到對應(yīng)的文字信息及文字信息的可信程度分數(shù);
在步驟S403中,將可信程度分數(shù)與預(yù)設(shè)的閾值分數(shù)進行比較;
在步驟S404中,當(dāng)可信程度分數(shù)大于預(yù)設(shè)的閾值分數(shù)時,開啟終端設(shè)備的語音識別功能。
在該實施例中,如果用戶輸入的語音信息對應(yīng)的文字信息的可信程度分數(shù)大于所述預(yù)設(shè)的閾值分數(shù),則可以開啟終端設(shè)備的語音識別功能,從而開始識別語音命令。
下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。
圖5是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇裝置的框圖,該裝置可以通過軟件、硬件或者兩者的結(jié)合實現(xiàn)成為終端設(shè)備的部分或者全部。如圖5所示,該語音識別的喚醒詞選擇裝置包括:
獲取模塊51,用于獲取多個候選喚醒詞;
計算模塊52,用于根據(jù)每個候選喚醒詞對應(yīng)的發(fā)音,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分;
確定模塊53,用于根據(jù)所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分確定目標喚醒詞。
在該實施例中,在選擇喚醒詞時,根據(jù)喚醒詞的發(fā)音計算每個候選喚醒詞的可區(qū)分性得分,并根據(jù)可區(qū)分性得分確定目標喚醒詞,這樣,可以保證目標喚醒詞具有良好的可區(qū)分性,從而可以提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
圖6是根據(jù)一示例性實施例示出的一種語音識別的喚醒詞選擇裝置中計算模塊的框圖。
如圖6所示,在一個實施例中,所述計算模塊52包括:
分解子模塊61,用于將每個候選喚醒詞按照發(fā)音分解成至少一個單音素,以形成發(fā)音序列;
第一計算子模塊62,用于根據(jù)所述每個候選喚醒詞對應(yīng)的至少一個單音素,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分。
在該實施例中,可以通過喚醒詞發(fā)音來判斷其可區(qū)分性,進而選擇目標喚醒詞,從而提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
在一個實施例中,所述第一計算子模塊62用于:
從所述每個候選喚醒詞對應(yīng)的至少一個單音素中選取出發(fā)音不重復(fù)的單音素;
根據(jù)所述發(fā)音不重復(fù)的單音素和預(yù)設(shè)計算公式,計算出所述每個候選喚醒詞對應(yīng)的可區(qū)分性得分,其中,所述預(yù)設(shè)計算公式包括:
其中,wuw表示候選喚醒詞,discriP(wuw)表示候選喚醒詞的可區(qū)分性得分,Pi表示所述發(fā)音不重復(fù)的單音素中的目標單音素,其中,i=1,2……K,f(Pi)為衡量所述目標單音素與其他單音素的發(fā)音區(qū)分性的函數(shù),所述f(Pi)取值范圍為[0,1]。
在一個實施例中,所述確定模塊53用于:
將可區(qū)分性得分最高的候選喚醒詞確定為目標喚醒詞。
在該實施例中,在選擇喚醒詞時,根據(jù)每個候選喚醒詞的發(fā)音計算每個候選喚醒詞的可區(qū)分性得分,并從中選擇可區(qū)分性得分最高的喚醒詞為目標喚醒詞,這樣,可以保證目標喚醒詞具有良好的可區(qū)分性,從而可以提高喚醒詞與非喚醒詞語音以及環(huán)境音之間區(qū)分的正確性。
圖7是根據(jù)一示例性實施例示出的另一種語音識別的喚醒詞選擇裝置的框圖。
如圖7所示,在一個實施例中,上述裝置還包括:
接收模塊71,用于接收用戶輸入的語音信息;
識別模塊72,用于對所述語音信息進行識別,得到對應(yīng)的文字信息及所述文字信息的可信程度分數(shù);
對比模塊73,用于將所述可信程度分數(shù)與預(yù)設(shè)的閾值分數(shù)進行比較;
處理模塊74,用于當(dāng)所述可信程度分數(shù)大于所述預(yù)設(shè)的閾值分數(shù)時,開啟所述終端設(shè)備的語音識別功能。
在該實施例中,如果用戶輸入的語音信息對應(yīng)的文字信息的可信程度分數(shù)大于所述預(yù)設(shè)的閾值分數(shù),則可以開啟終端設(shè)備的語音識別功能,從而開始識別語音命令。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。