專利名稱:一種個性化的語音識別的方法及裝置的制作方法
一種個性化的語音識別的方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別技術(shù),特別涉及一種個性化的語音識別方法及裝置。
背景技術(shù):
語音識別技術(shù)在很多領(lǐng)域都有重要的應(yīng)用,例如語音撥號、語音導(dǎo)航等應(yīng)用,都依賴語音識別技術(shù)。語音識別效果的好壞,直接影響到各種與語音識別相關(guān)的應(yīng)用的效果好壞。語音識別模型所具有的描述語音到文本的能力,是影響語音識別效果好壞的關(guān)鍵因素。現(xiàn)有技術(shù)采用相同的語音識別模型對各種用戶的語音進(jìn)行識別,由于相同的語音識別模型,很難描述不同用戶的語音差異,因此,采用這種方式進(jìn)行語音識別,很多情況下的 識別精度不佳,難以滿足用戶語音識別的個性化需求。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種個性化的語音識別方法及裝置,以提高在各種用戶下的語音識別的精度。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種個性化的語音識別的方法,包括:A.確定待識別語音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對應(yīng)的語音識別模型對所述待識別語音進(jìn)行識別,否則執(zhí)行步驟B ;B.確定所述待識別語音所屬方言類另IJ,并利用所述待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括當(dāng)無法確定所述待識別語音所屬方言類別時,利用通用語音識別模型對待識別語音進(jìn)行識別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟A中,對所述待識別語音進(jìn)行識別后進(jìn)一步包括根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述授權(quán)用戶對應(yīng)的語音識別豐吳型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟B中,對所述待識別語音進(jìn)行識別后進(jìn)一步包括根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述待識別語音所屬方言類別對應(yīng)的語音識別模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,確定待識別語音是否屬于授權(quán)用戶的步驟包括提取待識別語音的聲學(xué)特征,并確定所述待識別語音的聲學(xué)特征與所述授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識別語音屬于所述授權(quán)用戶,否則確定所述待識別語音不屬于所述授權(quán)用戶。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,確定所述待識別語音所屬方言類別的步驟包括將所述待識別語音的聲學(xué)特征分別與各方言類別對應(yīng)的聲學(xué)模板進(jìn)行比對,當(dāng)各比對結(jié)果中的最大匹配度超過設(shè)定值時,將該最大匹配度對應(yīng)的方言類別作為所述待識別語音所屬方言類別。本發(fā)明還提供了一種個性化的語音識別的裝置,包括第一識別單元,用于確定待識別語音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對應(yīng)的語音識別模型對所述待識別語音進(jìn)行識別,否則觸發(fā)第二識別單元執(zhí)行;第二識別單元,用于確定所述待識別語音所屬方言類別,并利用所述待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括第三識別單元,用于當(dāng)所述第二識別單元無法確定所述待識別語音所屬方言類別時,利用通用語音識別模型對待識別語音進(jìn)行識別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括第一優(yōu)化單元,用于在所述第一識別單元對所述待識別語音進(jìn)行識別后,根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述授權(quán)用戶對應(yīng)的語音識別模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括第二優(yōu)化單元,用于在所述第二識別單元對所述待識別語音進(jìn)行識別后,根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述待識別語音所屬方言類別對應(yīng)的語音識別模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第一識別單元確定待識別語音是否屬于授權(quán)用戶的方式包括提取待識別語音的聲學(xué)特征,并確定所述待識別語音的聲學(xué)特征與所述授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識別語音屬于所述授權(quán)用戶,否則確定所述待識別語音不屬于所述授權(quán)用戶。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述第二識別單元確定所述待識別語音所屬方言類別的方式包括將所述待識別語音的聲學(xué)特征分別與各方言類別對應(yīng)的聲學(xué)模板進(jìn)行比對,當(dāng)各比對結(jié)果中的最大匹配度超過設(shè)定值時,將該最大匹配度對應(yīng)的方言類別作為所述待識別語音所屬方言類別。由以上技術(shù)方案可以看出,本發(fā)明通過確定待識別語音的歸屬類型,從而可以利用與待識別語音的歸屬類型相適應(yīng)的語音識別模型對待識別語音進(jìn)行識別,能夠很好地提 高待識別語音的識別精度。如果待識別語音屬于授權(quán)用戶,則可以選擇個人用戶適用的語音識別模型對待識別語音進(jìn)行識別,即使待識別語音不屬于授權(quán)用戶,也可以選擇與待識別語音的方言相適應(yīng)的語音識別模型對待識別語音進(jìn)行識別,通過這種方式,可以智能適應(yīng)待識別語音的特點(diǎn),能夠充分提高在各種用戶下的語音識別精度。
圖I為本發(fā)明中個性化的語音識別的方法的流程示意圖;圖2為本發(fā)明中確定待識別語音是否屬于授權(quán)用戶的一個實(shí)施例的流程示意圖;圖3為本發(fā)明中語音識別過程的一個實(shí)施例的流程示意圖;圖4為本發(fā)明中個性化的語音識別的裝置的實(shí)施例一的結(jié)構(gòu)示意框圖;圖5為本發(fā)明中個性化的語音識別的裝置的實(shí)施例二的結(jié)構(gòu)示意框圖;圖6為本發(fā)明中個性化的語音識別的裝置的實(shí)施例三的結(jié)構(gòu)示意框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
請參考圖1,圖I為本發(fā)明中個性化的語音識別的方法的流程示意圖。如圖I所示,該方法包括步驟SlOl :確定待識別語音是否屬于授權(quán)用戶,如果是,則利用授權(quán)用戶對應(yīng)的語音識別模型對待識別語音進(jìn)行識別,否則執(zhí)行步驟S102。步驟S102 :確定待識別語音所屬方言類別,并利用待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。下面對上述步驟進(jìn)行具體說明。 本發(fā)明中的授權(quán)用戶,指的是具有注冊信息或可標(biāo)識的身份信息的用戶。如果授權(quán)用戶是具有注冊信息的用戶,則步驟SlOl在確定待識別語音是否屬于授權(quán)用戶時,可通過待識別語音所屬用戶提交的當(dāng)前身份信息與注冊信息是否匹配來判斷待識別語音是否屬于授權(quán)用戶。此外,授權(quán)用戶也可以是具有可標(biāo)識的身份信息的用戶,這里所指的可標(biāo)識的身份信息,包括預(yù)先通過授權(quán)用戶的語音樣本訓(xùn)練得到的聲學(xué)模板。與之對應(yīng)的,步驟SlOl確定待識別語音是否屬于授權(quán)用戶的方式包括提取待識別語音的聲學(xué)特征,并確定待識別語音的聲學(xué)特征與授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定待識別語音屬于授權(quán)用戶,否則確定待識別語音不屬于授權(quán)用戶。請參考圖2,圖2為本發(fā)明中確定待識別語音是否屬于授權(quán)用戶的一個實(shí)施例的流程示意圖。其中比對是為了確定待識別語音的聲學(xué)特征與授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如確定待識別語音的聲學(xué)特征與授權(quán)用戶的聲學(xué)模板之間的余弦距離是否滿足最低限值要求。為了確定待識別語音是否屬于授權(quán)用戶,在對語音樣本和待識別語音進(jìn)行特征提取時,可選擇的聲學(xué)特征包括說話人聲道長度信息等,此外,這里的聲學(xué)特征還可以是本領(lǐng)域技術(shù)人員在進(jìn)行說話人確認(rèn)時使用的其他特征,本發(fā)明對此不做限制。如果待識別語音是屬于授權(quán)用戶的,則本發(fā)明中,將利用與授權(quán)用戶對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。其中與授權(quán)用戶對應(yīng)的語音識別模型,是預(yù)先利用授權(quán)用戶的語音標(biāo)注樣本訓(xùn)練得到的。請參考圖3,圖3為本發(fā)明中語音識別過程的一個實(shí)施例的流程示意圖。圖2中的授權(quán)用戶的聲學(xué)模板,只需要授權(quán)用戶的語音樣本即可訓(xùn)練得到,而圖3中的授權(quán)用戶對應(yīng)的語音識別模型,則是通過授權(quán)用戶的語音標(biāo)注樣本訓(xùn)練得到的??梢岳斫?,語音識別的過程就是將語音轉(zhuǎn)化為相應(yīng)文本的過程。因此,為了得到能夠描述語音與相應(yīng)文本之間轉(zhuǎn)化參數(shù)的語音識別模型,必須有語音和對應(yīng)的文本標(biāo)注形成的樣本數(shù)據(jù)供訓(xùn)練使用。授權(quán)用戶對應(yīng)的語音識別模型,可以是大量采集授權(quán)用戶的語音標(biāo)注樣本數(shù)據(jù)對未知參數(shù)的模型進(jìn)行一次性訓(xùn)練后得到的,也可以是每次采集授權(quán)用戶的少量語音標(biāo)注樣本數(shù)據(jù)對一個已有參數(shù)的通用模型進(jìn)行增量訓(xùn)練,通過多次訓(xùn)練后得到的。進(jìn)一步地,本發(fā)明還可以在步驟SlOl中將識別結(jié)果返回給用戶后,接受用戶對識別結(jié)果的反饋,并利用用戶反饋與待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。語音識別結(jié)果可以包括多個文本結(jié)果項(xiàng)。例如語音“baidu”,在識別后,得到多個文本結(jié)果項(xiàng)“百度”、“白度”和“擺渡”。用戶如果點(diǎn)擊了 “百度”作為對識別結(jié)果的反饋,則步驟SlOl中,就可以將語音“baidu”與“百度”作為標(biāo)注數(shù)據(jù)對授權(quán)用戶對應(yīng)的語音識別模型進(jìn)行增量訓(xùn)練,從而優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。
在上述例子中,如果用戶對識別結(jié)果中的文本進(jìn)行了修改,并以修改后的文本作為反饋,則還需要進(jìn)一步對該反饋進(jìn)行判斷后,才確定是否利用該反饋和待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。具體地,利用用戶反饋與待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型的方式包括確定用戶對識別結(jié)果的反饋與識別結(jié)果之間的語音差異,當(dāng)該差異在設(shè)定區(qū)間內(nèi)時,接受用戶對識別結(jié)果的反饋,并使用該反饋與待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。 例如上述例子中,語音“baidu”的識別結(jié)果有“百度”、“白度”、“擺渡”,用戶的反饋是“拜讀”,則根據(jù)上述實(shí)施方式,在接收到用戶反饋的“拜讀”后,將確定“拜讀”與上述識別結(jié)果“百度”、“白度”、“擺渡”之間的語音差異,如果該差異在設(shè)定區(qū)間,則可以利用“baidu”與“拜讀”來優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。但是,如果用戶在接收到上述識別結(jié)果“百度”、“白度”、“擺渡”后,將結(jié)果改為“谷歌”作為對識別結(jié)果的反饋,則根據(jù)上述實(shí)施方式,在接收到用戶反饋的“谷歌”之后,由于“谷歌”與“百度”、“白度”、“擺渡”之間的語音差異太大,就不會采用“baidu”和“谷歌”來優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。在步驟SlOl中,如果待識別語音不屬于授權(quán)用戶,則在步驟S102中,首先需要確定待識別語音所屬方言類別。確定待識別語音所屬方言類別的方式與確定待識別語音是否屬于授權(quán)用戶的方式是類似的,具體包括將待識別語音的聲學(xué)特征分別與各方言類別對應(yīng)的聲學(xué)模板進(jìn)行比對,當(dāng)各比對結(jié)果中的最大匹配度超過設(shè)定值時,將該最大匹配度對應(yīng)的方言類別作為待識別語音所屬方言類別。其中各方言類別對應(yīng)的聲學(xué)模板也是預(yù)先利用對應(yīng)方言的語音樣本訓(xùn)練得到的。在上述實(shí)施方式中,待識別語音的聲學(xué)特征與各個聲學(xué)模板均需要進(jìn)行比對,以確定匹配度最高值,如果該匹配度最高值超過設(shè)定值,就可以把待識別語音歸類到該最高匹配度對應(yīng)的方言類別。進(jìn)一步地,如果待識別語音的聲學(xué)特征與各個聲學(xué)模板之間的匹配度均不超過設(shè)定值,則說明無法確定待識別語音的方言類別。當(dāng)確定了待識別語音所屬方言類別之后,就可以利用待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。其中,待識別語音所屬方言類別對應(yīng)的語音識別模型,是預(yù)先利用該方言類別的語音標(biāo)注樣本訓(xùn)練得到的。各個方言類別對應(yīng)的語音識別模型的訓(xùn)練方式與授權(quán)用戶對應(yīng)的語音識別模型的訓(xùn)練方式是類似的,可以采用大量語音標(biāo)注數(shù)據(jù)對未知參數(shù)的模型進(jìn)行一次性訓(xùn)練得至IJ,也可以是每次采用少量的語音標(biāo)注數(shù)據(jù)對已知參數(shù)的通用模型進(jìn)行增量訓(xùn)練,通過多次訓(xùn)練后得到。利用待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別后,進(jìn)一步也可根據(jù)用戶對識別結(jié)果的反饋及待識別語音,優(yōu)化待識別語音所屬方言類別對應(yīng)的語音識別模型。具體地包括確定用戶對識別結(jié)果的反饋與識別結(jié)果之間的語音差異,當(dāng)該差異在設(shè)定區(qū)間時,接受用戶對識別結(jié)果的反饋,并使用該反饋與待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。進(jìn)一步地,如果步驟S102中無法確定待識別語音所屬方言類別,則本發(fā)明還可以進(jìn)一步利用通用語音識別模型對待識別語音進(jìn)行識別。其中通用語音識別模型是預(yù)先利用各種語音標(biāo)注樣本數(shù)據(jù)進(jìn)行訓(xùn)練得到的。本發(fā)明通過對待識別語音進(jìn)行分析判斷,可以選取最適合待識別語音的語音識別模型對其進(jìn)行識別,從而大大提高語音識別的精度。如果待識別語音屬于授權(quán)用戶,則可以采用根據(jù)該用戶的語音特點(diǎn)訓(xùn)練得到的個性化模型(授權(quán)用戶對應(yīng)的語音識別模型)對待識別語音進(jìn)行識別;如果待識別語音不屬于授權(quán)用戶,也可以根據(jù)待識別語音的方言特點(diǎn),選取適應(yīng)該方言特點(diǎn)的語音識別模型對其進(jìn)行識別;如果待識別語音的方言特點(diǎn)也不能確定,還可以采用通用的語音識別模型對其進(jìn)行識別。通過這種方式,本發(fā)明能夠有效實(shí)現(xiàn)語音識別的個性化,有針對性地提高語音識別的精度。本發(fā)明的方法,在現(xiàn)有手機(jī)(移動終端)可能被多個用戶使用的條件下,能夠得到很好的應(yīng)用。例如,手機(jī)被機(jī)主長期使用,機(jī)主就是授權(quán)用戶,當(dāng)機(jī)主在進(jìn)行語音識別時,能夠根據(jù)適用于該機(jī)主的語音識別模型對其語音進(jìn)行識別,從而得到最佳結(jié)果,并且,如果機(jī) 主的反饋行為滿足優(yōu)化條件(即反饋與識別結(jié)果的語音差別在設(shè)定區(qū)間),則機(jī)主的反饋可以進(jìn)一步優(yōu)化對應(yīng)的識別模型,而手機(jī)被機(jī)主之外的人使用時,其他人的反饋行為則不會影響到機(jī)主對應(yīng)的語音識別模型,這樣可以在滿足各種用戶使用需要的同時,保證授權(quán)用戶對應(yīng)的語音識別模型的參數(shù)不被錯誤數(shù)據(jù)影響。如果待識別語音不是機(jī)主本人發(fā)出的, 則在滿足非機(jī)主用戶的使用需求時,本發(fā)明也可以根據(jù)方言判斷適用的語音識別模型,保證了對其他用戶的語音進(jìn)行識別時的精度。請參考圖4,圖4為本發(fā)明中個性化的語音識別的裝置的實(shí)施例一的結(jié)構(gòu)示意框圖。如圖4所示,該實(shí)施例包括第一識別單元201及第二識別單元202。其中第一識別單元201,用于確定待識別語音是否屬于授權(quán)用戶,如果是,則利用授權(quán)用戶對應(yīng)的語音識別模型對待識別語音進(jìn)行識別,否則觸發(fā)第二識別單元202執(zhí)行。第二識別單元202,用于確定待識別語音所屬方言類別,并利用待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。具體地,第一識別單元201確定待識別語音是否屬于授權(quán)用戶的方式包括提取待識別語音的聲學(xué)特征,并確定待識別語音的聲學(xué)特征與授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定待識別語音屬于授權(quán)用戶,否則確定待識別語音不屬于授權(quán)用戶。具體地,第二識別單元202確定待識別語音所屬方言類別的方式包括將待識別語音的聲學(xué)特征分別與各方言類別對應(yīng)的聲學(xué)模板進(jìn)行比對,當(dāng)各比對結(jié)果中的最大匹配度超過設(shè)定值時,將該最大匹配度對應(yīng)的方言類別作為待識別語音所屬方言類別。請參考圖5,圖5為本發(fā)明中個性化的語音識別的裝置的實(shí)施例二的結(jié)構(gòu)示意框圖。如圖5所示,該實(shí)施例在實(shí)施例一的基礎(chǔ)上進(jìn)一步包括第一優(yōu)化單元203和第二優(yōu)化單元204。其中第一優(yōu)化單元203,用于在第一識別結(jié)果201對待識別語音進(jìn)行識別后,根據(jù)用戶對識別結(jié)果的反饋及待識別語音,優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。具體地,第一優(yōu)化單元203優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型的方式包括確定用戶對識別結(jié)果的反饋與識別結(jié)果之間的語音差異,當(dāng)該差異在設(shè)定區(qū)間內(nèi)時,接受用戶對識別結(jié)果的反饋,并使用該反饋與待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別模型。第二優(yōu)化單元204,用于在第二識別單元202對待識別語音進(jìn)行識別后,根據(jù)用戶對識別結(jié)果的反饋及待識別語音,優(yōu)化待識別語音所屬方言類別對應(yīng)的語音識別模型。具體地,第二優(yōu)化單元204優(yōu)化待識別語音所屬方言類別對應(yīng)的語音識別模型的方式包括確定用戶對識別結(jié)果的反饋與識別結(jié)果之間的語音差異,當(dāng)該差異在設(shè)定區(qū)間時,接受用戶對識別結(jié)果的反饋,并使用該反饋與待識別語音優(yōu)化授權(quán)用戶對應(yīng)的語音識別豐吳型。請參考圖6,圖6為本發(fā)明中個性化的語音識別的裝置的實(shí)施例三的結(jié)構(gòu)示意框圖。如圖6所示,該實(shí)施例在實(shí)施例二的基礎(chǔ)上進(jìn)一步包括第三識別單元205,用于當(dāng)?shù)诙R別單元202無法確定待識別語音所屬方言類別時,利用通用語音識別模型對待識別語音進(jìn)行識別?!ひ陨纤鰞H為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種個性化的語音識別的方法,包括 A.確定待識別語音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對應(yīng)的語音識別模型對所述待識別語音進(jìn)行識別,否則執(zhí)行步驟B ; B.確定所述待識別語音所屬方言類別,并利用所述待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法進(jìn)一步包括 當(dāng)無法確定所述待識別語音所屬方言類別時,利用通用語音識別模型對待識別語音進(jìn)行識別。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟A中,對所述待識別語音進(jìn)行識別后進(jìn)一步包括 根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述授權(quán)用戶對應(yīng)的語音識別模型。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B中,對所述待識別語音進(jìn)行識別后進(jìn)一步包括 根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述待識別語音所屬方言類別對應(yīng)的語音識別模型。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,確定待識別語音是否屬于授權(quán)用戶的步驟包括 提取待識別語音的聲學(xué)特征,并確定所述待識別語音的聲學(xué)特征與所述授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識別語音屬于所述授權(quán)用戶,否則確定所述待識別語音不屬于所述授權(quán)用戶。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,確定所述待識別語音所屬方言類別的步驟包括 將所述待識別語音的聲學(xué)特征分別與各方言類別對應(yīng)的聲學(xué)模板進(jìn)行比對,當(dāng)各比對結(jié)果中的最大匹配度超過設(shè)定值時,將該最大匹配度對應(yīng)的方言類別作為所述待識別語音所屬方言類別。
7.—種個性化的語音識別的裝置,包括 第一識別單元,用于確定待識別語音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對應(yīng)的語音識別模型對所述待識別語音進(jìn)行識別,否則觸發(fā)第二識別單元執(zhí)行; 第二識別單元,用于確定所述待識別語音所屬方言類別,并利用所述待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 第三識別單元,用于當(dāng)所述第二識別單元無法確定所述待識別語音所屬方言類別時,利用通用語音識別模型對待識別語音進(jìn)行識別。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 第一優(yōu)化單元,用于在所述第一識別單元對所述待識別語音進(jìn)行識別后,根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述授權(quán)用戶對應(yīng)的語音識別模型。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置進(jìn)一步包括 第二優(yōu)化單元,用于在所述第二識別單元對所述待識別語音進(jìn)行識別后,根據(jù)用戶對識別結(jié)果的反饋及所述待識別語音,優(yōu)化所述待識別語音所屬方言類別對應(yīng)的語音識別模型。
11.根據(jù)權(quán)利要求I所述的裝置,其特征在于,所述第一識別單元確定待識別語音是否屬于授權(quán)用戶的方式包括 提取待識別語音的聲學(xué)特征,并確定所述待識別語音的聲學(xué)特征與所述授權(quán)用戶對應(yīng)的聲學(xué)模板之間的匹配度是否滿足要求,如果是,則確定所述待識別語音屬于所述授權(quán)用戶,否則確定所述待識別語音不屬于所述授權(quán)用戶。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第二識別單元確定所述待識別語音所屬方言類別的方式包括 將所述待識別語音的聲學(xué)特征分別與各方言類別對應(yīng)的聲學(xué)模板進(jìn)行比對,當(dāng)各比對結(jié)果中的最大匹配度超過設(shè)定值時,將該最大匹配度對應(yīng)的方言類別作為所述待識別語音所屬方言類別。
全文摘要
本發(fā)明提供了一種個性化的語音識別的方法及裝置,其中個性化的語音識別的方法包括A.確定待識別語音是否屬于授權(quán)用戶,如果是,則利用所述授權(quán)用戶對應(yīng)的語音識別模型對所述待識別語音進(jìn)行識別,否則執(zhí)行步驟B;B.確定所述待識別語音所屬方言類別,并利用所述待識別語音所屬方言類別對應(yīng)的語音識別模型對待識別語音進(jìn)行識別。通過上述方式,本發(fā)明可以提高在各種用戶下的語音識別的精度。
文檔編號G10L15/18GK102915731SQ20121038308
公開日2013年2月6日 申請日期2012年10月10日 優(yōu)先權(quán)日2012年10月10日
發(fā)明者劉俊啟, 胡星, 郭志峰 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司