亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音識別方法及裝置與流程

文檔序號:12724072閱讀:220來源:國知局
語音識別方法及裝置與流程

本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及語音識別方法及裝置。



背景技術(shù):

隨著計算機技術(shù)的發(fā)展,語音識別(Automatic Speech Recognition,ASR)技術(shù)在人機交互等領(lǐng)域的應(yīng)用越來越多。目前,語音識別技術(shù)主要通過信號處理模塊、特征提取模塊、聲學模型、語言模型(Language Model,LM)、字典和解碼器(Decoder),將待識別的語音信號轉(zhuǎn)換為文本信息,完成語音識別。

在語音識別過程中,信號處理模塊和特征提取模塊,先將待識別的語音信號劃分成多個語音信號幀,然后通過消除噪音、信道失真等處理對各語音信號幀進行增強,再將各語音信號幀從時域轉(zhuǎn)化到頻域,并從轉(zhuǎn)換后的語音信號幀內(nèi)提取合適的聲學特征。而根據(jù)訓練語音庫的特征參數(shù)訓練出的聲學模型,以特征提取模塊所提取的聲學特征為輸入,映射到能夠描述語音信號幀的發(fā)音特征的發(fā)音、并計算出語音信號幀映射到各發(fā)音的概率,得到特征分類結(jié)果。

語言模型含有不同的字詞(如:字、詞、短語)之間關(guān)聯(lián)關(guān)系、及其概率(可能性),用于估計由不同字詞組成的各種文本信息的可能性。解碼器可以基于己經(jīng)訓練好的聲學模型、語言模型及字典建立一個識別網(wǎng)絡(luò),識別網(wǎng)絡(luò)中的各路徑分別與各種文本信息、以及各文本信息的發(fā)音對應(yīng),然后針對聲學模型輸出的發(fā)音,在該識別網(wǎng)絡(luò)中尋找最佳的一條路徑,基于該路徑能夠以最大概率輸出該語音信號對應(yīng)的文本信息,完成語音識別。

但是,語言模型一般是基于大量語料訓練出來的模型,包含大量字詞之間的關(guān)聯(lián)關(guān)系和可能性,所以,基于語音模型建立的識別網(wǎng)絡(luò)包含的節(jié)點較多,每個節(jié)點的分支數(shù)量也非常多。在識別網(wǎng)絡(luò)中進行路徑搜索時,各語音信號幀的發(fā)音涉及的節(jié)點數(shù)會以指數(shù)形式暴增,導(dǎo)致路徑搜索量極大,搜索過程耗費的時間較多,進而會降低語音識別效率。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供一種語音識別方法及裝置,以解決語音識別過程耗時多、識別效率低的問題。

根據(jù)本發(fā)明的第一方面,提供一種語音識別方法,包括步驟:

獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率;

基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾;

基于過濾后的特征分類結(jié)果識別所述語音信號。

在一個實施例中,所述基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾,包括:

判斷任一語音信號幀映射到對應(yīng)的發(fā)音的概率是否滿足預(yù)定過濾規(guī)則;

如果所述對應(yīng)的發(fā)音滿足預(yù)定過濾規(guī)則,對所述對應(yīng)的發(fā)音進行濾掉。

在一個實施例中,如果任一語音信號幀映射到對應(yīng)的發(fā)音的概率,與該語音信號幀的最大映射概率之間的概率差,在預(yù)定的差值范圍內(nèi),則確定所述對應(yīng)的發(fā)音滿足預(yù)定過濾規(guī)則;

如果任一語音信號幀映射到對應(yīng)的發(fā)音的概率,小于該語音信號幀映射到預(yù)定數(shù)目的發(fā)音中各發(fā)音的概率,則確定所述對應(yīng)的發(fā)音滿足預(yù)定過濾規(guī)則。

在一個實施例中,所述預(yù)定數(shù)目為以下任一:

該幀語音信號幀對應(yīng)的發(fā)音中被保留在特征分類結(jié)果內(nèi)的發(fā)音的數(shù)量;

預(yù)定的比例閾值與該幀語音信號幀對應(yīng)的發(fā)音的總數(shù)目的乘積。

在一個實施例中,所述基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾,包括:

獲取任一語音信號幀映射到各發(fā)音的概率的直方圖分布;

獲取與所述直方圖分布對應(yīng)的束寬;

將概率分布在所述束寬之外的發(fā)音,確定為滿足所述預(yù)定過濾規(guī)則的發(fā)音;

將滿足所述預(yù)定過濾規(guī)則的發(fā)音,從所述特征分類結(jié)果所含的發(fā)音中刪除。

在一個實施例中,所述將滿足所述預(yù)定過濾規(guī)則的發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除,包括:

如果任一語音信號幀映射到對應(yīng)的發(fā)音的概率滿足預(yù)定過濾規(guī)則,將該發(fā)音確定為候選發(fā)音;

如果該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀中的任一幀,映射到該候選發(fā)音的概率滿足預(yù)定過濾規(guī)則,則將該候選發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除;

如果該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀,映射到該候選發(fā)音的概率均不滿足預(yù)定過濾規(guī)則,則將該候選發(fā)音保留在所述特征分類結(jié)果所含的發(fā)音中。

根據(jù)本發(fā)明的第二方面,提供一種語音識別裝置,包括:

分類結(jié)果獲取模塊,用于獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率;

發(fā)音過濾模塊,用于基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾;

語音識別模塊,用于基于過濾后的特征分類結(jié)果識別所述語音信號。

在一個實施例中,所述發(fā)音過濾模塊還包括:

第一過濾模塊,用于在任一語音信號幀映射到對應(yīng)的發(fā)音的概率,與該語音信號幀的最大映射概率之間的概率差,在預(yù)定的差值范圍內(nèi)時,對所述對應(yīng)的發(fā)音進行過濾;

第二過濾模塊,用于在任一語音信號幀映射到對應(yīng)的發(fā)音的概率,小于該語音信號幀映射到預(yù)定數(shù)目的發(fā)音中各發(fā)音的概率時,對所述對應(yīng)的發(fā)音進行過濾。

在一個實施例中,所述發(fā)音過濾模塊包括:

概率分布模塊,用于獲取任一語音信號幀映射到各發(fā)音的概率的直方圖分布;

束寬確定模塊,用于獲取與所述直方圖分布對應(yīng)的束寬;

發(fā)音確定模塊,用于將概率分布在所述束寬之外的發(fā)音,確定為滿足所述預(yù)定過濾規(guī)則的發(fā)音;

發(fā)音刪除模塊,用于將滿足所述預(yù)定過濾規(guī)則的發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除。

在一個實施例中,所述發(fā)音過濾模塊包括:

候選發(fā)音模塊,用于在任一語音信號幀映射到對應(yīng)的發(fā)音的概率滿足預(yù)定過濾規(guī)則時,將該發(fā)音確定為候選發(fā)音;

候選發(fā)音刪除模塊,用于在該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀中的任一幀,映射到該候選發(fā)音的概率滿足預(yù)定過濾規(guī)則時,將該候選發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除;

候選發(fā)音保留模塊,用于在該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀,映射到該候選發(fā)音的概率均不滿足預(yù)定過濾規(guī)則時,將該候選發(fā)音保留在所述特征分類結(jié)果所含的發(fā)音中。

實施本發(fā)明提供的實施例,在識別語音信號時,先獲取該語音信號的特征分類結(jié)果,然后基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾,那么在識別語音信號的過程中,無需再執(zhí)行與被過濾掉的發(fā)音相關(guān)的識別操作,如無需再在識別網(wǎng)絡(luò)中搜索與被過濾掉的發(fā)音相關(guān)的路徑,因此能有效降低語音識別過程耗費的時間,進而能提高語音識別效率。

附圖說明

圖1是本發(fā)明一示例性實施例示出的語音識別方法的流程圖;

圖2是本發(fā)明另一示例性實施例示出的語音識別方法的流程圖;

圖3是本發(fā)明一示例性實施例示出的語音識別裝置的邏輯框圖;

圖4是本發(fā)明另一示例性實施例示出的語音識別裝置的邏輯框圖;

圖5是本發(fā)明一示例性實施例示出的語音識別裝置的硬件結(jié)構(gòu)圖。

具體實施方式

這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。

在本發(fā)明使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本發(fā)明。在本發(fā)明和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。

應(yīng)當理解,盡管在本發(fā)明可能采用術(shù)語第一、第二、第三等來描述各種信息,但這些信息不應(yīng)限于這些術(shù)語。這些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。例如,在不脫離本發(fā)明范圍的情況下,第一信息也可以被稱為第二信息,類似地,第二信息也可以被稱為第一信息。取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應(yīng)于確定”。

本發(fā)明實施例的語音識別,在識別過程中會涉及到聲學模型和語言模型,其中,聲學模型是對聲學、語音學、環(huán)境的變量、以及發(fā)出語音的人員的性別、口音等的差異進行的知識表示,可以通過LSTM(Long Short-Term Memory,時間遞歸神經(jīng)網(wǎng)絡(luò))、CTC(Connectionist temporal classification)模型、或者隱馬爾可夫模型HMM,對訓練語音庫所含的語音進行訓練,獲得語音的聲學特征到發(fā)音的映射,構(gòu)成聲學模型,該發(fā)音與建模單元相關(guān)。如果建模單元為音節(jié),該發(fā)音為音節(jié);如果建模單元為音素,該發(fā)音為音素;如果建模單元為構(gòu)成音素的狀態(tài),該發(fā)音為狀態(tài)。

而訓練聲學模型時,考慮到發(fā)音會隨著字詞、語速、語調(diào)、輕重音、以及方言等影響發(fā)音的因素不同而不同,訓練語音庫需要涵蓋不同的字詞、語速、語調(diào)、輕重音、以及方言等影響發(fā)音的因素的大量語音。此外,考慮到語音識別的精確性,可以選擇音節(jié)、音素、狀態(tài)等較小的發(fā)音單位為建模單元。因此,基于訓練語音庫所含的大量語音以及預(yù)定的建模單元,進行模型訓練,會構(gòu)建出大量的聲學模型。語音識別過程中,通過大量的聲學模型對待識別的語音信號進行特征分類,所獲得特征分類結(jié)果會包含大量的發(fā)音(類別),如:3000到10000個發(fā)音。

此外,目前的語音識別技術(shù)要識別出語音信號對應(yīng)的文本信息,需針對每一個發(fā)音,在識別網(wǎng)絡(luò)中搜索所有可能的路徑,在這個搜索過程中會產(chǎn)生指數(shù)形式的路徑增量。如果在識別網(wǎng)絡(luò)中搜索3000到10000個發(fā)音涉及的所有可能的路徑,搜索所需的存儲資源和計算量可能超出語音識別系統(tǒng)所能承受的極限,因此,目前的語音識別技術(shù)會耗費大量的時間和資源,存在語音識別效率低的問題,本發(fā)明針對如何提高語音識別效率,提出解決方案。

本發(fā)明的方案,為了解決語音識別效率低這個問題,針對語音識別過程所得的特征分類結(jié)果進行改進,預(yù)先根據(jù)語音識別涉及的設(shè)備資源、識別效率需求設(shè)定過濾規(guī)則,然后在識別語音信號時,先獲取該語音信號的特征分類結(jié)果,然后基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾,那么在識別語音信號的過程中,無需再在識別網(wǎng)絡(luò)中搜索與被過濾掉的發(fā)音相關(guān)的路徑,因此能有效降低搜索過程耗費的時間,進而能提高語音識別效率。以下結(jié)合附圖詳細說明本發(fā)明的語音識別過程。

請參閱圖1,圖1是本發(fā)明一示例性實施例示出的語音識別方法的流程圖,該實施例能應(yīng)用于具備語音處理能力的各種電子設(shè)備上,可以包括以下步驟S101-S103:

步驟S101、獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率。

步驟S102、基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾。

步驟S103、基于過濾后的特征分類結(jié)果識別所述語音信號。

本發(fā)明實施例中,所述語音信號可以是本地語音采集設(shè)備所實時采集的用戶發(fā)出的語音,也可以是其語音采集設(shè)備遠程傳送過來的語音。在獲取語音信號的特征分類結(jié)果時,可以實時通過本領(lǐng)域的語音預(yù)處理模塊對語音信號進行預(yù)處理,通過特征提取模塊對預(yù)處理后的語音信號進行特征提取,所提取的特征可以包括PLP(Perceptual Linear Predictive,感知線性預(yù)測)、LPCC(Linear Predictive Cepstral Coefficient,線性預(yù)測倒譜系數(shù))、FBANK(Mel-Scale Filter Bank,梅爾標度濾波器組)、MFCC(Mel-Frequency Cepstral Coefficients,梅爾倒譜系數(shù))等,然后通過聲學模型對提取的特征進行相應(yīng)處理,獲得特征分類結(jié)果,特征分類結(jié)果所含的概率,用于表示語音信號幀映射到對應(yīng)的發(fā)音的可能性。在其他例子中,也可以直接接收其他終端設(shè)備傳送過來的特征分類結(jié)果。

在得到特征分類結(jié)果后,本發(fā)明的方案,考慮到特征分類結(jié)果所含的部分發(fā)音,與待識別的語音信號的語音信號幀相關(guān)性較低,對語音識別準確率的影響較小,在降低特征分類結(jié)果所含的大量發(fā)音對語音識別效率的影響時,可以在基于特征分類結(jié)果進行語音識別前,將這些對語音識別準確率影響較小的發(fā)音從所述特征分類結(jié)果中過濾掉,來減少特征分類結(jié)果所含的發(fā)音的數(shù)量,進而提高語音識別效率。

一般情況下,發(fā)音與待識別的語音信號幀的相關(guān)性越低,在通過聲學模型對語音信號的聲學特征進行分類時,語音信號幀映射到該發(fā)音的概率越低。因此,可以基于語音信號幀映射到各發(fā)音的概率,來過濾特征分類結(jié)果所含的發(fā)音,過濾后,任一語音信號幀映射到被過濾掉的發(fā)音的概率,小于該語音信號幀映射到其他發(fā)音的概率。

此外,在過濾相關(guān)性較低的發(fā)音時,考慮到不同應(yīng)用場景對語音識別準確率的需求,還需要衡量所過濾掉的發(fā)音對語音識別準確率的影響,因此,可以根據(jù)語音識別準確率的需求,預(yù)先設(shè)定能限制過濾掉的發(fā)音對識別準確率的影響程度的各種過濾規(guī)則。針對各種預(yù)定過濾規(guī)則,在過濾特征分類結(jié)果所含的發(fā)音時,判斷任一語音信號幀映射到對應(yīng)的發(fā)音的概率是否滿足預(yù)定過濾規(guī)則,如果所述對應(yīng)的發(fā)音滿足預(yù)定過濾規(guī)則,對所述對應(yīng)的發(fā)音進行濾掉。過濾掉的發(fā)音一般指從特征分類結(jié)果中刪除掉的發(fā)音。

以下列舉幾種對所述特征分類結(jié)果所含的發(fā)音進行過濾的方式:

過濾方式一:按預(yù)定數(shù)目過濾掉低概率的發(fā)音,該預(yù)定數(shù)目可以指語音信號幀對應(yīng)的發(fā)音中被保留在特征分類結(jié)果內(nèi)的發(fā)音的數(shù)量;也可以指預(yù)定的比例閾值與語音信號幀對應(yīng)的發(fā)音的總數(shù)目的乘積。在過濾時,如果任一語音信號幀映射到對應(yīng)的發(fā)音的概率,小于該語音信號幀映射到預(yù)定數(shù)目的發(fā)音中各發(fā)音的概率,則確定所述對應(yīng)的發(fā)音滿足預(yù)定過濾規(guī)則。

其中,預(yù)定的比例閾值,可以由本發(fā)明的設(shè)計人員根據(jù)需要達到的語音識別準確率來設(shè)定,例如,設(shè)定為1/4,指被保留的發(fā)音與所有發(fā)音的數(shù)量比例。

在一例子中,實際過濾時,可以按概率從小到大的順序,從特征分類結(jié)果中刪除發(fā)音,當保留的發(fā)音的數(shù)量與原來所有發(fā)音的數(shù)量的比例,滿足預(yù)定的比例閾值,完成對特征分類結(jié)果的過濾。

在其他例子中,預(yù)定的比例閾值可以指未被過濾掉的發(fā)音與被過濾掉的發(fā)音的數(shù)量比例。實際過濾時,可以按概率從大到小的順序,在特征分類結(jié)果中挑選發(fā)音,當挑選出的發(fā)音的數(shù)量與剩余的發(fā)音的數(shù)量的比例,滿足預(yù)定的比例閾值時,完成對特征分類結(jié)果的過濾。

實際應(yīng)用中,預(yù)定數(shù)目指該幀語音信號幀對應(yīng)的發(fā)音中被保留在特征分類結(jié)果內(nèi)的發(fā)音的數(shù)量時,可以由本發(fā)明的設(shè)計人員根據(jù)需要達到的語音識別準確率來設(shè)定預(yù)定數(shù)目,例如,設(shè)定為2000至9000中的任一數(shù)值。過濾時,可以按概率從小到大的順序,將每一語音信號幀所映射到的發(fā)音進行排列,然后將排列在前預(yù)定位數(shù)的發(fā)音從特征分類結(jié)果中給刪除,完成對特征分類結(jié)果的過濾,所述預(yù)定位數(shù)與所述預(yù)定數(shù)目的數(shù)值相等。

在其他例子中,預(yù)定數(shù)目可以指未被過濾掉的發(fā)音的數(shù)量,例如,設(shè)定為1000。實際過濾時,可以按概率從大到小的順序,將每一語音信號幀所映射到的發(fā)音進行排列,然后將排列在前預(yù)定位數(shù)的發(fā)音保留在特征分類結(jié)果中,將其他發(fā)音從特征分類結(jié)果中刪除,完成對特征分類結(jié)果的過濾,所述預(yù)定位數(shù)與所述數(shù)量閾值的數(shù)值相等。在其他實施例中,還可以采取其他技術(shù)手段按過濾方式一對特征分類結(jié)果進行過濾,本發(fā)明對此不做限制。

過濾方式二:按預(yù)定的差值閾值過濾掉低概率的發(fā)音,該差值閾值可以由本發(fā)明的設(shè)計人員根據(jù)需要達到的語音識別準確率來設(shè)定,例如,設(shè)定為-0.5,指被過濾掉的發(fā)音的概率與同一語音信號幀映射到的概率最大的發(fā)音之間的概率差。過濾時,如果任一語音信號幀映射到對應(yīng)的發(fā)音的概率,與該語音信號幀的最大映射概率之間的概率差,在預(yù)定的差值范圍內(nèi),則確定所述對應(yīng)的發(fā)音滿足預(yù)定過濾規(guī)則,可以對所述對應(yīng)的發(fā)音進行過濾。

在一例子中,實際過濾時,可以按概率從大到小的順序,將每一語音信號幀所映射到的發(fā)音進行排列,將該語音信號幀映射到排列在第一位的發(fā)音的概率,確定為最大概率,然后從排列在最后一位的發(fā)音開始,依次獲得該語音信號幀映射到每個發(fā)音的概率與最大概率的差值,如果差值小于-0.5,則將該發(fā)音從特征分類結(jié)果中刪除。在其他實施例中,還可以采取其他技術(shù)手段按過濾方式二對特征分類結(jié)果進行過濾,本發(fā)明對此不做限制。

過濾方式三:按概率的直方圖分布過濾分布在所述束寬之外的發(fā)音,實際過濾時,可以先獲取任一語音信號幀映射到各發(fā)音的概率的直方圖分布;獲取與所述直方圖分布對應(yīng)的束寬;然后將概率分布在所述束寬之外的發(fā)音,確定為滿足所述預(yù)定過濾規(guī)則的發(fā)音;最終將滿足所述預(yù)定過濾規(guī)則的發(fā)音,從所述特征分類結(jié)果所含的發(fā)音中刪除。實際應(yīng)用中,束寬可以由本發(fā)明的設(shè)計人員根據(jù)需要達到的語音識別準確率、以及直方圖的分布狀況來確定,如:預(yù)先設(shè)定需要過濾掉8000個低概率的發(fā)音,可以從直方圖中低概率一側(cè)開始查找8000個發(fā)音,將第8000個發(fā)音所在位置確定為束寬邊界。在其他實施例中,還可以采取其他技術(shù)手段按過濾方式三對特征分類結(jié)果進行過濾,本發(fā)明對此不做限制。

在按以上任一過濾方式,對所述特征分類結(jié)果所含的發(fā)音進行過濾后,可以直接調(diào)取預(yù)定的識別網(wǎng)絡(luò),搜索與過濾后的特征分類結(jié)果所含的發(fā)音相關(guān)的路徑,尋找最佳的一條路徑,基于該路徑以最大概率輸出待識別的語音信號對應(yīng)的文本信息,完成語音識別,這里提到的識別網(wǎng)絡(luò),可以指解碼器針對待識別的語音信號,根據(jù)己經(jīng)訓練好的聲學模型、語言模型及字典建立的識別網(wǎng)絡(luò)。

在尋找最佳的一條路徑時,可以將特征分類結(jié)果所含的概率(聲學得分)轉(zhuǎn)換到和語音模型所含的字詞(如:字、詞、短語)之間關(guān)聯(lián)概率(語言得分)相近的數(shù)值空間,并加權(quán)相加,作為路徑搜索過程的綜合分值,每一語音信號幀都會用一個預(yù)設(shè)的門限值來限制,與最佳路徑的差值大于這個門限值,則該路徑丟棄,否則保留;每一語音信號幀完成搜索后,會根據(jù)預(yù)設(shè)的最大路徑數(shù)量,對所有路徑進行排序,只保留此數(shù)量的最優(yōu)路徑,直至最后一幀完成,由此得出最后的路徑圖。

在某些例子中,輸出特征分類結(jié)果的聲學模型的建模單元較小,如以狀態(tài)為建模單元,由于單個音素可以由三到五個狀態(tài)組成,一個音素的發(fā)音所成的語音信號可以分割為多個語音信號幀,因此,易出現(xiàn)多個連續(xù)的語音信號幀的聲學特征較類似的狀況,那么特征分類結(jié)果中描述這些連續(xù)的語音信號幀中的各幀的發(fā)音,易出現(xiàn)類似狀況。針對這種狀況,如果本發(fā)明基于特征分類結(jié)果所含的概率和預(yù)定過濾規(guī)則,分別對每幀語音信號幀映射到的發(fā)音進行過濾,易將對識別準確率影響較大的發(fā)音過濾掉,為了避免誤過濾這類發(fā)音,在過濾特征分類結(jié)果時,可以綜合考慮連續(xù)的語音信號幀的過濾狀況,具體實現(xiàn)過程可以參閱圖2所示的方法,包括以下步驟S201-S205:

步驟S201、獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率。

步驟S202、如果任一語音信號幀映射到對應(yīng)的發(fā)音的概率,滿足預(yù)定過濾規(guī)則,將該發(fā)音確定為候選發(fā)音。

步驟S203、如果該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀中的任一幀,映射到該候選發(fā)音的概率滿足預(yù)定過濾規(guī)則,則將該候選發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除。

步驟S204、如果該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀,映射到該候選發(fā)音的概率均不滿足預(yù)定過濾規(guī)則,則將該候選發(fā)音保留在所述特征分類結(jié)果所含的發(fā)音中。

步驟S205、基于過濾后的特征分類結(jié)果識別所述語音信號。

本發(fā)明實施例中,預(yù)定過濾規(guī)則可以是以上所述的過濾方式一至過濾方式四涉及的任一種規(guī)則,還可以是能限制過濾掉的發(fā)音對識別準確率的影響程度的其他過濾規(guī)則。

連續(xù)的語音信號幀的預(yù)定幀數(shù)可以由本發(fā)明的設(shè)計人員根據(jù)需要達到的語音識別準確率來設(shè)定,例如,設(shè)定為6,相鄰的前三幀以及相鄰的后三幀。

由上述實施例可知:本發(fā)明的語音識別方法在識別語音信號時,先獲取該語音信號的特征分類結(jié)果,然后基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾,那么在識別語音信號的過程中,無需再執(zhí)行與被過濾掉的發(fā)音執(zhí)行相關(guān)的識別操作,如無需再在識別網(wǎng)絡(luò)中搜索與被過濾掉的發(fā)音相關(guān)的路徑,因此能有效降低語音識別過程耗費的時間,進而能提高語音識別效率。

進而,本發(fā)明實施例的語音識別方法可以應(yīng)用于各種電子設(shè)備的人機交互軟件內(nèi),例如:智能手機內(nèi)的語音撥號、語音操控、語音查找,應(yīng)用于智能手機內(nèi)的語音查找時,如果用戶在距離智能手機的預(yù)定范圍內(nèi)發(fā)出一段語音,那么應(yīng)用于語音查找上的語音識別方法,可以在接收到語音采集設(shè)備采集的用戶語音后,先獲取該語音的特征分類結(jié)果,然后基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾,然后在識別網(wǎng)絡(luò)中只搜索未被過濾掉的發(fā)音相關(guān)的路徑,通過路徑搜索快速識別出用戶語音對應(yīng)的文本信息,進而使語音助手基于該識別結(jié)果快速響應(yīng)用戶。

與前述方法的實施例相對應(yīng),本發(fā)明還提供了裝置的實施例。

參見圖3,圖3是本發(fā)明一示例性實施例示出的語音識別裝置的邏輯框圖,該裝置可以包括:分類結(jié)果獲取模塊310、發(fā)音過濾模塊320和語音識別模塊330。

其中,分類結(jié)果獲取模塊310,用于獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率。

發(fā)音過濾模塊320,用于基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾。

語音識別模塊330,用于基于過濾后的特征分類結(jié)果識別所述語音信號。

一些例子中,發(fā)音過濾模塊320可以包括:

第一過濾模塊,用于在任一語音信號幀映射到對應(yīng)的發(fā)音的概率,與該語音信號幀的最大映射概率之間的概率差,在預(yù)定的差值范圍內(nèi)時,對所述對應(yīng)的發(fā)音進行過濾。

第二過濾模塊,用于在任一語音信號幀映射到對應(yīng)的發(fā)音的概率,小于該語音信號幀映射到預(yù)定數(shù)目的發(fā)音中各發(fā)音的概率時,對所述對應(yīng)的發(fā)音進行過濾。

另一些例子中,發(fā)音過濾模塊320還可以包括:

概率分布模塊,用于獲取任一語音信號幀映射到各發(fā)音的概率的直方圖分布。

束寬確定模塊,用于獲取與所述直方圖分布對應(yīng)的束寬。

發(fā)音確定模塊,用于將概率分布在所述束寬之外的發(fā)音,確定為滿足所述預(yù)定過濾規(guī)則的發(fā)音。

發(fā)音刪除模塊,用于將滿足所述預(yù)定過濾規(guī)則的發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除。

參見圖4,圖4是本發(fā)明另一示例性實施例示出的語音識別裝置的邏輯框圖,該裝置可以包括:分類結(jié)果獲取模塊410、發(fā)音過濾模塊420和語音識別模塊430。發(fā)音過濾模塊420可以包括候選發(fā)音確定模塊421、候選發(fā)音刪除模塊422和候選發(fā)音保留模塊423。

其中,分類結(jié)果獲取模塊410,用于獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率。

候選發(fā)音確定模塊421,用于在任一語音信號幀映射到對應(yīng)的發(fā)音的概率滿足預(yù)定過濾規(guī)則時,將該發(fā)音確定為候選發(fā)音。

候選發(fā)音刪除模塊422,用于在該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀中的任一幀,映射到該候選發(fā)音的概率滿足預(yù)定過濾規(guī)則時,將該候選發(fā)音從所述特征分類結(jié)果所含的發(fā)音中刪除。

候選發(fā)音保留模塊423,用于在該語音信號幀的預(yù)定幀數(shù)的相鄰語音信號幀,映射到該候選發(fā)音的概率均不滿足預(yù)定過濾規(guī)則時,將該候選發(fā)音保留在所述特征分類結(jié)果所含的發(fā)音中。

語音識別模塊430,用于基于過濾后的特征分類結(jié)果識別所述語音信號。

上述裝置中各個單元(或模塊)的功能和作用的實現(xiàn)過程具體詳見上述方法中對應(yīng)步驟的實現(xiàn)過程,在此不再贅述。

對于裝置實施例而言,由于其基本對應(yīng)于方法實施例,所以相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元或模塊可以是或者也可以不是物理上分開的,作為單元或模塊顯示的部件可以是或者也可以不是物理單元或模塊,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元或模塊上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本發(fā)明方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。

本發(fā)明語音識別裝置的實施例可以應(yīng)用在電子設(shè)備上。具體可以由計算機芯片或?qū)嶓w實現(xiàn),或者由具有某種功能的產(chǎn)品來實現(xiàn)。一種典型的實現(xiàn)中,電子設(shè)備為計算機,計算機的具體形式可以是個人計算機、膝上型計算機、蜂窩電話、相機電話、智能電話、個人數(shù)字助理、媒體播放器、導(dǎo)航設(shè)備、電子郵件收發(fā)設(shè)備、游戲控制臺、平板計算機、可穿戴設(shè)備、互聯(lián)網(wǎng)電視、智能機車、無人駕駛汽車、智能冰箱、其他智能家居設(shè)備或者這些設(shè)備中的任意幾種設(shè)備的組合。

裝置實施例可以通過軟件實現(xiàn),也可以通過硬件或者軟硬件結(jié)合的方式實現(xiàn)。以軟件實現(xiàn)為例,作為一個邏輯意義上的裝置,是通過其所在電子設(shè)備的處理器將非易失性存儲器等可讀介質(zhì)中對應(yīng)的計算機程序指令讀取到內(nèi)存中運行形成的。從硬件層面而言,如圖5所示,為本發(fā)明語音識別裝置所在電子設(shè)備的一種硬件結(jié)構(gòu)圖,除了圖5所示的處理器、內(nèi)存、網(wǎng)絡(luò)接口、以及非易失性存儲器之外,實施例中裝置所在的電子設(shè)備通常根據(jù)該電子設(shè)備的實際功能,還可以包括其他硬件,對此不再贅述。電子設(shè)備的存儲器可以存儲處理器可執(zhí)行的程序指令;處理器可以耦合存儲器,用于讀取所述存儲器存儲的程序指令,并作為響應(yīng),執(zhí)行如下操作:獲取待識別的語音信號的特征分類結(jié)果;所述特征分類結(jié)果包含用于描述各語音信號幀的發(fā)音特征的發(fā)音以及各語音信號幀映射到對應(yīng)的發(fā)音的概率;基于所述特征分類結(jié)果所含的概率,對所述特征分類結(jié)果所含的發(fā)音進行過濾;基于過濾后的特征分類結(jié)果識別所述語音信號。

在其他實施例中,處理器所執(zhí)行的操作可以參考上文方法實施例中相關(guān)的描述,在此不予贅述。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1