本發(fā)明涉及電子技術領域,特別涉及一種識別語音信息的方法和裝置。
背景技術:
隨著電子技術的發(fā)展,各種各樣的終端得到了廣泛的應用,比如用戶可以與之進行語音交互的智能電視機,此種情況下,終端需要對語音信息進行語音識別處理。
目前,終端對語音信息進行語音識別處理的方法是:終端對待識別的語音信息進行語音識別處理,得到語音信息對應的拼音,然后,根據(jù)拼音與文字的對應關系,確定每個拼音可能對應的文字,最后,可以根據(jù)預先存儲的任意文字組合的概率,確定每個拼音對應的文字可能組成的每種文字組合的概率,其中,任意文字組合的概率是根據(jù)大量的文本信息統(tǒng)計得到的,進而,將概率大于預設概率閾值的文字組合作為語音信息對應的文本信息,若概率大于預設概率閾值的文字組合有多個時,終端將隨機從中選取一個文本組合作為語音信息對應的文本信息。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在以下問題:
用戶與終端交互的過程中,其輸入的語音信息中往往存在持續(xù)時間比較短的短時語音信息,對于短時語音信息往往識別出的文本信息都是短文本信息,但是字數(shù)相同、語法結構一致的短文本信息對應的概率往往是相近的,且每個的概率都較高,即概率大于預設概率閾值的短文本往往是多個,終端最終隨機選取的一個文本信息很可能不是用戶想說的話,從而,導致語音信息的識別準確率較低。
技術實現(xiàn)要素:
為了解決現(xiàn)有技術的問題,本發(fā)明實施例提供了一種識別語音信息的方法和裝置。所述技術方案如下:
第一方面,提供了一種識別語音信息的方法,所述方法包括:
獲取待識別的語音信息,對所述語音信息進行語音識別處理,得到與所述語音信息相匹配的多個文本信息;
在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件;
在所述語音信息中,獲取所述第二類文字位對應的子語音信息,并對所述子語音信息進行語音識別處理,確定所述子語音信息對應的文字;
根據(jù)所述第一類文字位上出現(xiàn)次數(shù)最多的文字,及所述子語音信息對應的文字,確定所述語音信息對應的結果文本信息。
可選的,所述在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件,包括:
對于每個文字位,根據(jù)所述多個文本信息在所述文字位上的文字,確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù);
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件,則將所述文字位確定為第一類文字位;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)不滿足所述預設的次數(shù)條件,則將所述文字位確定為第二類文字位。
可選的,所述在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件,包括:
確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù)與所述多個文本信息的數(shù)量的比值,得到每個文字對應的出現(xiàn)次數(shù)比例;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例達到預設比例閾值,則將所述文字位確定為第一類文字位;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例未達到所述預設比例閾值,則將所述文字位確定為第二類文字位。
可選的,所述在所述語音信息中,獲取所述第二類文字位對應的子語音信息,并對所述子語音信息進行語音識別處理,確定所述子語音信息對應的文字,包括:
對所述語音信息進行語音端點檢測處理,得到所述第二類文字位對應的子語音信息,并對所述子語音信息進行孤立詞語音識別處理,確定所述子語音信息對應的文字。
可選的,所述對所述子語音信息進行孤立詞語音識別處理,確定所述子語音信息對應的文字,包括:
對所述子語音信息進行孤立詞語音識別處理,得到與所述子語音信息相對應的概率最大的預設數(shù)目個文字;
如果所述預設數(shù)目個文字中包含所述子語音信息對應的文字位上的至少一個文字,則將所述至少一個文字中概率最大的文字確定為所述子語音信息對應的文字;
如果所述預設數(shù)目個文字中不包含所述子語音信息對應的文字位上的文字,則將所述預設數(shù)目個文字中概率最大的文字確定為所述子語音信息對應的文字。
第二方面,提供了一種識別語音信息的裝置,所述裝置包括:
第一語音識別模塊,用于獲取待識別的語音信息,對所述語音信息進行語音識別處理,得到與所述語音信息相匹配的多個文本信息;
第一確定模塊,用于在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件;
第二語音識別模塊,用于在所述語音信息中,獲取所述第二類文字位對應的子語音信息,并對所述子語音信息進行語音識別處理,確定所述子語音信息對應的文字;
第二確定模塊,用于根據(jù)所述第一類文字位上出現(xiàn)次數(shù)最多的文字,及所述子語音信息對應的文字,確定所述語音信息對應的結果文本信息。
可選的,所述第一確定模塊,用于:
對于每個文字位,根據(jù)所述多個文本信息在所述文字位上的文字,確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù);
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件,則將所述文字位確定為第一類文字位;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)不滿足所述預設的次數(shù)條件,則將所述文字位確定為第二類文字位。
可選的,所述第一確定模塊,用于:
確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù)與所述多個文本信息的數(shù)量的比值,得到每個文字對應的出現(xiàn)次數(shù)比例;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例達到預設比例閾值,則將所述文字位確定為第一類文字位;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例未達到所述預設比例閾值,則將所述文字位確定為第二類文字位。
可選的,所述第二語音識別模塊,用于:
對所述語音信息進行語音端點檢測處理,得到所述第二類文字位對應的子語音信息,并對所述子語音信息進行孤立詞語音識別處理,確定所述子語音信息對應的文字。
可選的,所述第二語音識別模塊,用于:
對所述子語音信息進行孤立詞語音識別處理,得到與所述子語音信息相對應的概率最大的預設數(shù)目個文字;
如果所述預設數(shù)目個文字中包含所述子語音信息對應的文字位上的至少一個文字,則將所述至少一個文字中概率最大的文字確定為所述子語音信息對應的文字;
如果所述預設數(shù)目個文字中不包含所述子語音信息對應的文字位上的文字,則將所述預設數(shù)目個文字中概率最大的文字確定為所述子語音信息對應的文字。
本發(fā)明實施例提供的技術方案帶來的有益效果是:
本發(fā)明實施例中,終端得到與待識別語音信息相匹配的多個文本信息后,可以在多個文本信息對應的多個文字位中,確定需要重新進行語音識別處理的第二類文字位,和不需要重新進行語音識別處理的第一類文字位,其中,每個第一類文字位在多個文本信息中對應的各文字之間滿足預設的匹配條件,每個第二類文字位在多個文本信息中對應的各文字之間不滿足匹配條件,進而,終端可以在語音信息中獲取每個第二類文字位對應的子語音信息,對每個子語音信息分別進行語音識別處理,得到每個子語音信息對應的文字,最后,終端可以將多個文本信息中每個第一類文字位上出現(xiàn)次數(shù)最多的文字,及每個子語音信息對應的文字進行組合,得到語音信息對應的結果文本信息。這樣,對于語音信息對應有多個文本信息的情況,終端可以通過對文字不確定的文字位對應的子語音信息再次進行語音識別處理,得到語音信息最終的文本信息,無需終端在多個文本信息中毫無依據(jù)的隨機選取其中的一個,從而,提高語音信息的識別準確率。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的一種識別語音信息的方法流程圖;
圖2是本發(fā)明實施例提供的一種識別語音信息的裝置結構示意圖;
圖3是本發(fā)明實施例提供的一種終端結構示意圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。
本發(fā)明實施例提供了一種識別語音信息的方法,該方法的執(zhí)行主體為終端。其中,該終端可以是具有語音識別功能的終端,也可以是能夠根據(jù)語音信息,執(zhí)行相應處理的終端,比如可以是安裝有語音助手應用程序的智能電視。該終端中可以設置有處理器和存儲器,處理器可以用于確定待識別的語音信息對應的文本信息的相關處理,存儲器可以用于存儲下述處理過程中需要和產(chǎn)生的數(shù)據(jù)。本實施例中,以終端為安裝有語音助手的智能電視為例進行方案的詳細說明,其它情況與之類似,本實施例不再累述。
下面將結合具體實施方式,對圖1所示的處理流程進行詳細的說明,內(nèi)容可以如下:
步驟101,獲取待識別的語音信息,對語音信息進行語音識別處理,得到與語音信息相匹配的多個文本信息。
其中,文本信息可以是任一語言的文本信息,可以是中文文本信息,也可以是英文文本信息,本發(fā)明實施例對此不做限定。
在實施中,用戶可以通過語音信息控制終端進行相應的處理。具體的,當用戶需要終端執(zhí)行某種處理時,可以發(fā)出相應的語音信息,此時,終端可以獲取用戶輸入的語音信息(用戶輸入的語音信息即是終端待識別的語音信息),進而,可以對獲取的語音信息進行語音識別處理,得到與語音信息對應的文本信息,進而,終端可以根據(jù)文本信息執(zhí)行相應的處理。本發(fā)明實施例主要講述終端確定語音信息對應的結果文本信息的處理過程,具體的,終端可以對語音信息進行預處理(比如進行濾波處理),對預處理后的語音信息進行分幀處理,得到多幀子語音信息,其中,每幀子語音信息的時長可以為25毫秒,然后,終端可以對每幀子語音信息進行特征提取,獲取每一幀子語音信息對應的MFCC(Mel Frequency Cepstrum Coefficient,梅爾頻率倒譜系數(shù))特征,將每幀子語音信息的MFCC特征轉化為與該MFCC特征相對應的概率最大的預設數(shù)目個狀態(tài),可以將每三個狀態(tài)組合為一個音素(其中,音素可以是中文中的聲母和韻母),得到語音信息可能對應的音素,之后,將得到音素進行組合,得到與語音信息相匹配的拼音(因為一個MFCC特征可能對應多個不同的狀態(tài),所以得到的語音信息對應的拼音也可能是多個),進而,終端可以根據(jù)記錄有拼音與文字的對應關系的詞典,將拼音轉化為文字,最后,結合通過大量文本訓練出來的任意文本組合對應的概率,確定與待識別的語音信息相對應的概率最大的多個文本信息,其中,最終確定的文本信息的數(shù)量可以是預先設置的。例如,終端對語音信息進行語音識別處理,得到的多個文本信息是“下一集”、“下一期”、“下一季”、“下一記”、“下一級”。
步驟102,在多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,第一類文字位在多個文本信息中對應的文字滿足預設的匹配條件,第二類文字位在多個文本信息中對應的文字不滿足預設的匹配條件。
其中,文字可以是任一語言的文字,可以是中文文字,也可以是英文單詞,匹配條件可以是用于判斷各文字是否匹配的條件。
在實施中,終端中可以預先存儲有匹配條件,其中,預設的匹配條件可以是文字位上的各文字相同,也可以是文字位上存在出現(xiàn)次數(shù)大于預設次數(shù)閾值的文字。終端得到與語音信息相匹配的多個文本信息后,可以對多個文本信息對應的多個文字位上的文字進行分析,判斷每個文本信息在每個文字位上的各文字之間是否滿足預設的匹配條件,如果多個文本信息在某文字位上的各文字之間滿足預設的匹配條件,則可以將該文字位確定為第一類文字位,如果多個文本信息在某文字位上的各文字之間不滿足預設的匹配條件,則可以將該文字位確定為第二類文字位,終端可以按照上述方式,在多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位。
例如,多個文本信息是“下一集”(可以稱為第一文本信息)、“下一期”(可以稱為第二文本信息),預設的匹配條件為各文字相同,則可以看出,第一文本信息和第二文本信息在第一文字位上的文字相同,均為下,第一文本信息和第二文本信息在第二文字位上的文字相同,均為一,第一文本信息和第二文本信息在第三文字位上的文字不相同,第一文本信息在第三文字位上的文字為集,第二文本信息在第三文字位上的文字為期,因此,終端可以將第一文字位和第二文字位確定為第一類文字位,將第三文字位確定為第二類文字位。
可選的,可以將對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件的文字位確定為第一類文字位,相應的,步驟102的處理過程可以如下:對于每個文字位,根據(jù)多個文本信息在文字位上的文字,確定文字位上的文字在多個文本信息中對應的文字位上的出現(xiàn)次數(shù);如果文字位上的文字對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件,則將文字位確定為第一類文字位;如果文字位上的文字對應的最大出現(xiàn)次數(shù)不滿足預設的次數(shù)條件,則將文字位確定為第二類文字位。
在實施中,終端中可以預先存儲有次數(shù)條件。終端得到與語音信息相匹配的多個文本信息后,對于每個文字位,終端可以對每個文本信息在該文字位上的文字進行分析,統(tǒng)計該文字位上的每個文字在該文字位上的出現(xiàn)次數(shù)。得到該文字位上的文字對應的各出現(xiàn)次數(shù)后,可以判斷該文字位上的文字對應的最大出現(xiàn)次數(shù)是否滿足預設的次數(shù)條件,如果該文字位上的文字對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件,則終端可以將該文字位確定為第一類文字位;如果該文字位上的文字對應的最大出現(xiàn)次數(shù)不滿足預設的次數(shù)條件,則終端可以將該文字位確定為第二類文字位。按照上述方式,終端對每個文本信息在所有文字位上的文字進行分析后,即可得到第一類文字位和第二類文字位。
例如,多個文本信息是“下一集”、“下一期”、“下一季”、“下一記”、“下一級”,則可以看出,第一文字位上的文字為下,下在第一文字位上的出現(xiàn)次數(shù)為5,即第一文字位上的文字對應的出現(xiàn)次數(shù)為5;第二文字位上的文字為一,一在第二文字位上的出現(xiàn)次數(shù)為5,即第二文字位上的文字對應的出現(xiàn)次數(shù)為5;第三文字位上的文字為集、期、季、記和級,集在第三文字位上的出現(xiàn)次數(shù)為1,期在第三文字位上的出現(xiàn)次數(shù)為1,季在第三文字位上的出現(xiàn)次數(shù)為1,記在第三文字位上的出現(xiàn)次數(shù)為1,級在第三文字位上的出現(xiàn)次數(shù)為1,即第三文字位對應的出現(xiàn)次數(shù)為1、1、1、1、1,進而,終端可以判斷各文字位上的文字對應的最大出現(xiàn)次數(shù)是否滿足預設的次數(shù)條件,示例的,預設的次數(shù)條件為4,即如果第一文字位和第二文字位上的文字對應的最大出現(xiàn)次數(shù)5滿足預設的次數(shù)條件4,則終端可以將第一文字位和第二文字位確定為第一類文字位,如果第三文字位上的文字對應的最大出現(xiàn)次數(shù)1不滿足預設的次數(shù)條件4,則終端可以將第三文字位確定為第二類文字位。
可選的,預設的次數(shù)條件可以是具體的數(shù)值,也可以是預設比例閾值,相應的,處理過程可以如下:確定文字位上的文字在多個文本信息中對應的文字位上的出現(xiàn)次數(shù)與多個文本信息的數(shù)量的比值,得到每個文字對應的出現(xiàn)次數(shù)比例;如果文字位上的文字對應的最大出現(xiàn)次數(shù)比例達到預設比例閾值,則將文字位確定為第一類文字位;如果文字位上的文字對應的最大出現(xiàn)次數(shù)比例未達到預設比例閾值,則將文字位確定為第二類文字位。
在實施中,對于每個文字位,終端確定出該文字位上的每個文字在該文字位上的出現(xiàn)次數(shù)后,還可以計算該文字位上的每個文字在該文字位上的出現(xiàn)次數(shù)與多個文本信息的數(shù)量的比值,得到該文字位上的每個文字對應的出現(xiàn)次數(shù)比例。然后,終端可以判斷該文字位上的文字對應的最大出現(xiàn)次數(shù)比例是否達到了預設比例閾值,如果該文字位上的文字對應的最大出現(xiàn)次數(shù)比例達到預設比例閾值,則終端可以將該文字位確定為第一類文字位;如果該文字位上的文字對應的最大出現(xiàn)次數(shù)比例未達到預設比例閾值,則終端可以將該文字位確定為第二類文字位。按照上述方式,終端對每個文本信息在所有文字位上的文字進行分析后,即可得到第一類文字位和第二類文字位。
例如,多個文本信息是“下一集”、“下一期”、“下一季”、“下一記”、“下一級”,即文本信息的數(shù)量為5,預設比例閾值為0.8,則可以看出,第一文字位和第二文字位對應的出現(xiàn)次數(shù)比例分別為1,第三文字位對應的出現(xiàn)次數(shù)比例為0.2、0.2、0.2、0.2、0.2,由于第一文字位和第二文字位對應的最大出現(xiàn)次數(shù)比例1大于0.8,第三文字位對應的最大出現(xiàn)次數(shù)比例0.2小于0.8,因此,終端可以將第一文字位和第二文字位確定為第一類文字位,將第三文字位確定為第二類文字位。
步驟103,在語音信息中,獲取第二類文字位對應的子語音信息,并對子語音信息進行語音識別處理,確定子語音信息對應的文字。
在實施中,終端得到第二類文字位后,可以對語音信息進行分析,得到每個第二類文字位對應的子語音信息,進而,終端可以分別對每個第二類文字位對應的子語音信息進行語音識別處理,得到每個子語音信息對應的文字。例如,多個文本信息是“下一集”、“下一期”、“下一季”、“下一記”、“下一級”,終端確定出的第二類文字位為第三文字位,則終端可以在語音信息中,確定第三文字位對應的子語音信息(即集/期/季/記/級對應的子語音信息),進而,對其進行語音識別處理,得到該子語音信息對應的文字。
可選的,終端可以通過對語音信息進行語音端點檢測處理,得到每個第二類文字位對應的子語音信息,相應的,步驟103的處理過程可以如下:對語音信息進行語音端點檢測處理,得到第二類文字位對應的子語音信息,并對子語音信息進行孤立詞語音識別處理,確定子語音信息對應的文字。
在實施中,終端確定出每個第二類文字位后,可以對語音信息進行VAD(Voice Activity Detection,語音端點檢測)處理,得到多個文本信息中每個文字位對應的子語音信息,再在多個子語音信息中獲取每個第二類文字位對應的子語音信息,進而,終端可以分別對每個子語音信息進行孤立詞語音識別處理,得到每個子語音信息對應的文字,其中,終端對每個子語音信息進行孤立詞語音識別處理,可以得到與每個子語音信息相匹配的多個文字,此時,終端可以根據(jù)預設的選取規(guī)則,從多個文字中,確定子語音信息最終對應的文字,其中,預設的選取規(guī)則將在后續(xù)進行具體的表述。
此外,終端在對語音信息進行語音識別處理時,可以得到每幀子語音信息對應的狀態(tài),也即終端將會得到每個文字的拼音(即每個文字位)對應的多幀子語音信息,進而,終端可以將每個文字位與其對應的語音片段的時間起點和結束點對應存儲。當終端確定出第二類文字位后,可以根據(jù)終端中預先存儲的每個文字位與其對應的語音片段的時間起點和結束點的對應關系,以及語音信息,確定每個第二類文字位對應的語音片段(其中,語音片段可能比較粗糙,不是很精準,即可能不是對應文字位精準對應的子語音信息),進而,終端可以對每個語音片段進行VAD處理,得到第二類文字位精準對應的子語音信息,進而,分別對每個子語音信息進行孤立詞語音識別處理,確定每個子語音信息對應的文字。也就是說,終端可以根據(jù)預先存儲的每個文字位與語音片段的對應關系,確定每個第二類文字位對應的目標語音片段,進而,終端可以對目標語音片段進行VAD處理,得到每個第二類文字位對應的子語音信息。
可選的,終端可以根據(jù)子語音信息對應的各文字的概率,以及多個文本信息在第二類文字位上的文字,確定每個子語音信息最終對應的文字,相應的,處理過程可以如下:對子語音信息進行孤立詞語音識別處理,得到與子語音信息相對應的概率最大的預設數(shù)目個文字;如果預設數(shù)目個文字中包含子語音信息對應的文字位上的至少一個文字,則將至少一個文字中概率最大的文字確定為子語音信息對應的文字;如果預設數(shù)目個文字中不包含子語音信息對應的文字位上的文字,則將預設數(shù)目個文字中概率最大的文字確定為子語音信息對應的文字。
在實施中,終端得到每個第二類文字位對應的子語音信息后,對于每個子語音信息,終端可以對子語音信息進行孤立詞語音識別處理,得到與子語音信息相對應的多個文字以及每個文字對應的概率(其中,每個文字對應的概率可以是該文字與該子語音信息的匹配概率),進而,終端可以在得到的多個文字中確定概率最大的預設數(shù)目個文字。終端得到與子語音信息相匹配的預設數(shù)目個文字后,可以判斷預設數(shù)目個文字中是否包含該子語音信息對應的文字位上的文字,如果不包含,則終端可以將預設數(shù)目個文字中概率最大的文字確定為子語音信息最終對應的文字,如果包含,則終端可以進一步判斷預設數(shù)目個文字中包含幾個該子語音信息對應的文字位上的文字,當預設數(shù)目個文字中包含多個該子語音信息對應的文字位上的文字時,終端可以將其中對應的概率最大的文字確定為該子語音信息最終對應的文字,當預設數(shù)目個文字中只包含一個該子語音信息對應的文字位上的文字時,終端可以將該文字確定為該子語音信息最終對應的文字。也就是說,終端按照上述方式,對每個子語音信息進行處理,即可得到每個子語音信息最終對應的文字。
例如,多個文本信息是“下一集”、“下一期”、“下一季”、“下一記”、“下一級”,第二類文字位為第三文字位,預設數(shù)目為4,如果終端對第三文字位對應的子語音信息進行孤立詞語音識別處理,按照概率由大到小的順序,得到的4個文字為集、及、計、即,則終端可以確定出4個文字中包含第三文字位上的文字,即“集”,進而,終端可以將“集”確定為該子語音信息對應的文字;如果終端對第三文字位對應的子語音信息進行孤立詞語音識別處理,按照概率由大到小的順序,得到的4個文字為計、及、機、即,則終端可以確定出4個文字中不包含第三文字位上的文字中的任意一個,進而,終端可以將4個文字中概率最大的文字(即計)確定為該子語音信息對應的文字;如果終端對第三文字位對應的子語音信息進行孤立詞語音識別處理,按照概率由大到小的順序,得到的4個文字為集、及、級、期,則終端可以確定出4個文字中包含第三文字位上的多個文字,即“集”、“期”和“級”,進而,終端可以將“集”、“期”和“級”中概率最大的“集”確定為該子語音信息對應的文字。
步驟104,根據(jù)第一類文字位上出現(xiàn)次數(shù)最多的文字,及子語音信息對應的文字,確定語音信息對應的結果文本信息。
在實施中,終端確定出每個子語音信息對應的文字后,可以將每個子語音信息對應的文字分別作為對應的文字位上的文字,也就是說,終端確定出每個子語音信息對應的文字,即確定出了每個第二類文字位上的最終文字。每個第一類文字位上最終的文字即是多個文本信息中每個第一類文字位上出現(xiàn)次數(shù)最多的文字。這樣,終端即可將每個第一類文字位上最終的文字和第二類文字位上最終的文字,確定為語音信息對應的結果文本信息。
例如,多個文本信息是“下一集”、“下一期”、“下一季”、“下一記”、“下一級”,第二類文字位為第三文字位,第三文字位對應的子語音信息對應的文字為“集”,則終端可以確定語音信息對應的結果文本信息為“下一集”。
本發(fā)明實施例中,終端得到與待識別語音信息相匹配的多個文本信息后,可以在多個文本信息對應的多個文字位中,確定需要重新進行語音識別處理的第二類文字位,和不需要重新進行語音識別處理的第一類文字位,其中,每個第一類文字位在多個文本信息中對應的各文字之間滿足預設的匹配條件,每個第二類文字位在多個文本信息中對應的各文字之間不滿足匹配條件,進而,終端可以在語音信息中獲取每個第二類文字位對應的子語音信息,對每個子語音信息分別進行語音識別處理,得到每個子語音信息對應的文字,最后,終端可以將多個文本信息中每個第一類文字位上出現(xiàn)次數(shù)最多的文字,及每個子語音信息對應的文字進行組合,得到語音信息對應的結果文本信息。這樣,對于語音信息對應有多個文本信息的情況,終端可以通過對文字不確定的文字位對應的子語音信息再次進行語音識別處理,得到語音信息最終的文本信息,無需終端在多個文本信息中毫無依據(jù)的隨機選取其中的一個,從而,提高語音信息的識別準確率。
基于相同的技術構思,本發(fā)明實施例還提供了一種識別語音信息的裝置,如圖2所示,該裝置包括:
第一語音識別模塊210,用于獲取待識別的語音信息,對所述語音信息進行語音識別處理,得到與所述語音信息相匹配的多個文本信息;
第一確定模塊220,用于在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件;
第二語音識別模塊230,用于在所述語音信息中,獲取所述第二類文字位對應的子語音信息,并對所述子語音信息進行語音識別處理,確定所述子語音信息對應的文字;
第二確定模塊240,用于根據(jù)所述第一類文字位上出現(xiàn)次數(shù)最多的文字,及所述子語音信息對應的文字,確定所述語音信息對應的結果文本信息。
可選的,所述第一確定模塊220,用于:
對于每個文字位,根據(jù)所述多個文本信息在所述文字位上的文字,確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù);如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件,則將所述文字位確定為第一類文字位;如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)不滿足所述預設的次數(shù)條件,則將所述文字位確定為第二類文字位。
可選的,所述第一確定模塊220,用于:
確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù)與所述多個文本信息的數(shù)量的比值,得到每個文字對應的出現(xiàn)次數(shù)比例;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例達到預設比例閾值,則將所述文字位確定為第一類文字位;如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例未達到所述預設比例閾值,則將所述文字位確定為第二類文字位。
可選的,所述第二語音識別模塊230,用于:
對所述語音信息進行語音端點檢測處理,得到所述第二類文字位對應的子語音信息,并對所述子語音信息進行孤立詞語音識別處理,確定所述子語音信息對應的文字。
可選的,所述第二語音識別模塊230,用于:
對所述子語音信息進行孤立詞語音識別處理,得到與所述子語音信息相對應的概率最大的預設數(shù)目個文字;
如果所述預設數(shù)目個文字中包含所述子語音信息對應的文字位上的至少一個文字,則將所述至少一個文字中概率最大的文字確定為所述子語音信息對應的文字;如果所述預設數(shù)目個文字中不包含所述子語音信息對應的文字位上的文字,則將所述預設數(shù)目個文字中概率最大的文字確定為所述子語音信息對應的文字。
本發(fā)明實施例中,終端得到與待識別語音信息相匹配的多個文本信息后,可以在多個文本信息對應的多個文字位中,確定需要重新進行語音識別處理的第二類文字位,和不需要重新進行語音識別處理的第一類文字位,其中,每個第一類文字位在多個文本信息中對應的各文字之間滿足預設的匹配條件,每個第二類文字位在多個文本信息中對應的各文字之間不滿足匹配條件,進而,終端可以在語音信息中獲取每個第二類文字位對應的子語音信息,對每個子語音信息分別進行語音識別處理,得到每個子語音信息對應的文字,最后,終端可以將多個文本信息中每個第一類文字位上出現(xiàn)次數(shù)最多的文字,及每個子語音信息對應的文字進行組合,得到語音信息對應的結果文本信息。這樣,對于語音信息對應有多個文本信息的情況,終端可以通過對文字不確定的文字位對應的子語音信息再次進行語音識別處理,得到語音信息最終的文本信息,無需終端在多個文本信息中毫無依據(jù)的隨機選取其中的一個,從而,提高語音信息的識別準確率。
需要說明的是:上述實施例提供的識別語音信息的裝置在識別語音信息時,僅以上述各功能模塊的劃分進行舉例說明,實際應用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將終端的內(nèi)部結構劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的識別語音信息的裝置與識別語音信息的方法實施例屬于同一構思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
請參考圖3,其示出了本發(fā)明實施例所涉及的終端的結構示意圖,該終端可以用于實施上述實施例中提供的識別語音信息的方法。具體來講:
終端300可以包括RF(Radio Frequency,射頻)電路110、包括有一個或一個以上計算機可讀存儲介質(zhì)的存儲器120、輸入單元130、顯示單元140、傳感器150、音頻電路160、WiFi(wireless fidelity,無線保真)模塊170、包括有一個或者一個以上處理核心的處理器180、以及電源190等部件。本領域技術人員可以理解,圖3中示出的終端結構并不構成對終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
RF電路110可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器180處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路110包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(SIM)卡、收發(fā)信機、耦合器、LNA(Low Noise Amplifier,低噪聲放大器)、雙工器等。此外,RF電路110還可以通過無線通信與網(wǎng)絡和其他設備通信。所述無線通信可以使用任一通信標準或協(xié)議,包括但不限于GSM(Global System of Mobile communication,全球移動通訊系統(tǒng))、GPRS(General Packet Radio Service,通用分組無線服務)、CDMA(Code Division Multiple Access,碼分多址)、WCDMA(Wideband Code Division Multiple Access,寬帶碼分多址)、LTE(Long Term Evolution,長期演進)、電子郵件、SMS(Short Messaging Service,短消息服務)等。
存儲器120可用于存儲軟件程序以及模塊,處理器180通過運行存儲在存儲器120的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理。存儲器120可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)終端300的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲器120可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應地,存儲器120還可以包括存儲器控制器,以提供處理器180和輸入單元130對存儲器120的訪問。
輸入單元130可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設置以及功能控制有關的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。具體地,輸入單元130可包括觸敏表面131以及其他輸入設備132。觸敏表面131,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面131上或在觸敏表面131附近的操作),并根據(jù)預先設定的程式驅(qū)動相應的連接裝置??蛇x的,觸敏表面131可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉換成觸點坐標,再送給處理器180,并能接收處理器180發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面131。除了觸敏表面131,輸入單元130還可以包括其他輸入設備132。具體地,其他輸入設備132可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。
顯示單元140可用于顯示由用戶輸入的信息或提供給用戶的信息以及終端300的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標、視頻和其任意組合來構成。顯示單元140可包括顯示面板141,可選的,可以采用LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機發(fā)光二極管)等形式來配置顯示面板141。進一步的,觸敏表面131可覆蓋顯示面板141,當觸敏表面131檢測到在其上或附近的觸摸操作后,傳送給處理器180以確定觸摸事件的類型,隨后處理器180根據(jù)觸摸事件的類型在顯示面板141上提供相應的視覺輸出。雖然在圖3中,觸敏表面131與顯示面板141是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能,但是在某些實施例中,可以將觸敏表面131與顯示面板141集成而實現(xiàn)輸入和輸出功能。
終端300還可包括至少一種傳感器150,比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示面板141的亮度,接近傳感器可在終端300移動到耳邊時,關閉顯示面板141和/或背光。作為運動傳感器的一種,重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等;至于終端300還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路160、揚聲器161,傳聲器162可提供用戶與終端300之間的音頻接口。音頻電路160可將接收到的音頻數(shù)據(jù)轉換后的電信號,傳輸?shù)綋P聲器161,由揚聲器161轉換為聲音信號輸出;另一方面,傳聲器162將收集的聲音信號轉換為電信號,由音頻電路160接收后轉換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器180處理后,經(jīng)RF電路110以發(fā)送給比如另一終端,或者將音頻數(shù)據(jù)輸出至存儲器120以便進一步處理。音頻電路160還可能包括耳塞插孔,以提供外設耳機與終端300的通信。
WiFi屬于短距離無線傳輸技術,終端300通過WiFi模塊170可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖3示出了WiFi模塊170,但是可以理解的是,其并不屬于終端300的必須構成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
處理器180是終端300的控制中心,利用各種接口和線路連接整個手機的各個部分,通過運行或執(zhí)行存儲在存儲器120內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器120內(nèi)的數(shù)據(jù),執(zhí)行終端300的各種功能和處理數(shù)據(jù),從而對手機進行整體監(jiān)控??蛇x的,處理器180可包括一個或多個處理核心;優(yōu)選的,處理器180可集成應用處理器和調(diào)制解調(diào)處理器,其中,應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等,調(diào)制解調(diào)處理器主要處理無線通信。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器180中。
終端300還包括給各個部件供電的電源190(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器180邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源190還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉換器或者逆變器、電源狀態(tài)指示器等任意組件。
盡管未示出,終端300還可以包括攝像頭、藍牙模塊等,在此不再贅述。具體在本實施例中,終端300的顯示單元是觸摸屏顯示器,終端300還包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行述一個或者一個以上程序包含用于進行以下操作的指令:
獲取待識別的語音信息,對所述語音信息進行語音識別處理,得到與所述語音信息相匹配的多個文本信息;
在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件;
在所述語音信息中,獲取所述第二類文字位對應的子語音信息,并對所述子語音信息進行語音識別處理,確定所述子語音信息對應的文字;
根據(jù)所述第一類文字位上出現(xiàn)次數(shù)最多的文字,及所述子語音信息對應的文字,確定所述語音信息對應的結果文本信息。
可選的,所述在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件,包括:
對于每個文字位,根據(jù)所述多個文本信息在所述文字位上的文字,確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù);
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)滿足預設的次數(shù)條件,則將所述文字位確定為第一類文字位;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)不滿足所述預設的次數(shù)條件,則將所述文字位確定為第二類文字位。
可選的,所述在所述多個文本信息對應的多個文字位中,確定第一類文字位和第二類文字位,其中,所述第一類文字位在所述多個文本信息中對應的文字滿足預設的匹配條件,所述第二類文字位在所述多個文本信息中對應的文字不滿足所述預設的匹配條件,包括:
確定所述文字位上的文字在所述多個文本信息中對應的所述文字位上的出現(xiàn)次數(shù)與所述多個文本信息的數(shù)量的比值,得到每個文字對應的出現(xiàn)次數(shù)比例;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例達到預設比例閾值,則將所述文字位確定為第一類文字位;
如果所述文字位上的文字對應的最大出現(xiàn)次數(shù)比例未達到所述預設比例閾值,則將所述文字位確定為第二類文字位。
可選的,所述在所述語音信息中,獲取所述第二類文字位對應的子語音信息,并對所述子語音信息進行語音識別處理,確定所述子語音信息對應的文字,包括:
對所述語音信息進行語音端點檢測處理,得到所述第二類文字位對應的子語音信息,并對所述子語音信息進行孤立詞語音識別處理,確定所述子語音信息對應的文字。
可選的,所述對所述子語音信息進行孤立詞語音識別處理,確定所述子語音信息對應的文字,包括:
對所述子語音信息進行孤立詞語音識別處理,得到與所述子語音信息相對應的概率最大的預設數(shù)目個文字;
如果所述預設數(shù)目個文字中包含所述子語音信息對應的文字位上的至少一個文字,則將所述至少一個文字中概率最大的文字確定為所述子語音信息對應的文字;
如果所述預設數(shù)目個文字中不包含所述子語音信息對應的文字位上的文字,則將所述預設數(shù)目個文字中概率最大的文字確定為所述子語音信息對應的文字。
本發(fā)明實施例中,終端得到與待識別語音信息相匹配的多個文本信息后,可以在多個文本信息對應的多個文字位中,確定需要重新進行語音識別處理的第二類文字位,和不需要重新進行語音識別處理的第一類文字位,其中,每個第一類文字位在多個文本信息中對應的各文字之間滿足預設的匹配條件,每個第二類文字位在多個文本信息中對應的各文字之間不滿足匹配條件,進而,終端可以在語音信息中獲取每個第二類文字位對應的子語音信息,對每個子語音信息分別進行語音識別處理,得到每個子語音信息對應的文字,最后,終端可以將多個文本信息中每個第一類文字位上出現(xiàn)次數(shù)最多的文字,及每個子語音信息對應的文字進行組合,得到語音信息對應的結果文本信息。這樣,對于語音信息對應有多個文本信息的情況,終端可以通過對文字不確定的文字位對應的子語音信息再次進行語音識別處理,得到語音信息最終的文本信息,無需終端在多個文本信息中毫無依據(jù)的隨機選取其中的一個,從而,提高語音信息的識別準確率。
本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。