話音認(rèn)證和語(yǔ)音識(shí)別系統(tǒng)及方法

文檔序號(hào)：2827133閱讀：186來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

話音認(rèn)證和語(yǔ)音識(shí)別系統(tǒng)及方法
【專利摘要】一種用于配置語(yǔ)音識(shí)別系統(tǒng)的方法包括獲得一個(gè)話音認(rèn)證系統(tǒng)在一個(gè)話音認(rèn)證過(guò)程中所利用的一個(gè)語(yǔ)音樣本。對(duì)該語(yǔ)音樣本進(jìn)行處理以生成與該語(yǔ)音樣本相關(guān)聯(lián)的多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型。對(duì)這些聲學(xué)模型進(jìn)行存儲(chǔ)以便隨后由該語(yǔ)音識(shí)別系統(tǒng)用作一個(gè)語(yǔ)音識(shí)別過(guò)程的一部分。
【專利說(shuō)明】話音認(rèn)證和語(yǔ)音識(shí)別系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及作為話音認(rèn)證系統(tǒng)的一部分而運(yùn)行的語(yǔ)音識(shí)別系統(tǒng)的自動(dòng)調(diào)諧和配置。結(jié)果是一種既識(shí)別個(gè)人又識(shí)別其語(yǔ)音的系統(tǒng)。

【背景技術(shù)】
[0002]制作有效的語(yǔ)音識(shí)別系統(tǒng)的關(guān)鍵是創(chuàng)建聲學(xué)模型、語(yǔ)法和語(yǔ)言模型，這些模型使得底層語(yǔ)音識(shí)別技術(shù)能夠在應(yīng)用內(nèi)可靠地識(shí)別正在說(shuō)的內(nèi)容并且給定語(yǔ)音樣本的上下文的情況下能夠弄清楚或理解該語(yǔ)音。創(chuàng)建聲學(xué)模型、語(yǔ)法和語(yǔ)言模型的過(guò)程包含收集語(yǔ)音樣本(通常還稱為話音樣本)的數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)代表說(shuō)話者與語(yǔ)音識(shí)別系統(tǒng)交互的方式。為了創(chuàng)建這些聲學(xué)模型、語(yǔ)法和語(yǔ)言模型，需要將數(shù)據(jù)庫(kù)中的每個(gè)語(yǔ)音樣本進(jìn)行分段并將其標(biāo)注成其單詞或音素組成部分。然后就對(duì)所有說(shuō)話者(比如像所有說(shuō)單詞“二(two)”的說(shuō)話者)的全部常見(jiàn)組成部分進(jìn)行編譯和處理以創(chuàng)建此組成部分的單詞(或音素)聲學(xué)模型。在基于大詞匯音素的系統(tǒng)中，還需要重復(fù)該過(guò)程以針對(duì)此語(yǔ)言學(xué)市場(chǎng)創(chuàng)建語(yǔ)言和口音特定的模型和語(yǔ)法。通常，產(chǎn)生可以準(zhǔn)確地識(shí)別語(yǔ)音的聲學(xué)模型需要(來(lái)自每種性別的)每個(gè)單詞或音素的約1，000至2，000個(gè)示例。
[0003]針對(duì)任何語(yǔ)言學(xué)市場(chǎng)開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng)是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的過(guò)程。在不存在代表此市場(chǎng)特定的語(yǔ)言和口音的語(yǔ)音數(shù)據(jù)的情況下，不能產(chǎn)生適當(dāng)?shù)穆晫W(xué)、語(yǔ)法和語(yǔ)言模型。因此，獲得必要的語(yǔ)音數(shù)據(jù)(假設(shè)其是可獲得的)以及針對(duì)新的語(yǔ)言學(xué)市場(chǎng)創(chuàng)建適當(dāng)?shù)恼Z(yǔ)言和口音特定的模型可能特別耗時(shí)并非常昂貴。
[0004]如果提供了一種可以針對(duì)任何語(yǔ)言學(xué)視市場(chǎng)用有成本效益的方式自動(dòng)配置的語(yǔ)音識(shí)別系統(tǒng)，這將是有利的。

【發(fā)明內(nèi)容】

[0005]根據(jù)本發(fā)明的一個(gè)第一方面，提供了一種用于配置語(yǔ)音識(shí)別系統(tǒng)的方法，該方法包括:
[0006]獲得由一個(gè)話音認(rèn)證系統(tǒng)在一個(gè)話音認(rèn)證過(guò)程中所利用的一個(gè)語(yǔ)音樣本；
[0007]對(duì)該語(yǔ)音樣本進(jìn)行處理以生成與該語(yǔ)音樣本相關(guān)聯(lián)的多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型；以及
[0008]對(duì)這些聲學(xué)模型進(jìn)行存儲(chǔ)以便隨后由該語(yǔ)音識(shí)別系統(tǒng)用作一個(gè)語(yǔ)音識(shí)別過(guò)程的一部分。
[0009]在一個(gè)實(shí)施例中，這些語(yǔ)音單元包括三音子、雙音子、聚類狀態(tài)、音素、單詞或短語(yǔ)。
[0010]在一個(gè)實(shí)施例中，該方法進(jìn)一步包括:對(duì)與該語(yǔ)音樣本相關(guān)聯(lián)的語(yǔ)音內(nèi)容數(shù)據(jù)進(jìn)行評(píng)估從而為這些語(yǔ)音單元中的每個(gè)語(yǔ)音單元確定一個(gè)可聞標(biāo)識(shí)符，以及基于所確定的該可聞標(biāo)識(shí)符對(duì)這些聲學(xué)模型進(jìn)行分類。
[0011]在一個(gè)實(shí)施例中，該方法進(jìn)一步包括基于從多個(gè)進(jìn)一步獲得和處理的語(yǔ)音樣本所生成的多個(gè)聲學(xué)模型更新所存儲(chǔ)的這些聲學(xué)模型。
[0012]在一個(gè)實(shí)施例中，該方法進(jìn)一步包括確定所存儲(chǔ)的這些聲學(xué)模型中的每個(gè)聲學(xué)模型的一個(gè)質(zhì)量，以及繼續(xù)更新這些聲學(xué)模型直到該質(zhì)量達(dá)到一個(gè)預(yù)先定義的閾值。
[0013]在一個(gè)實(shí)施例中，這些語(yǔ)音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過(guò)程中提供。
[0014]在一個(gè)實(shí)施例中，該方法進(jìn)一步包括將這些聲學(xué)模型存儲(chǔ)在一個(gè)通用語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)中。
[0015]在一個(gè)實(shí)施例中，該方法進(jìn)一步包括僅獲得與選自包括以下各項(xiàng)的組的一個(gè)或多個(gè)預(yù)先定義的語(yǔ)音輪廓相關(guān)聯(lián)的多個(gè)語(yǔ)音樣本:語(yǔ)言、性別、信道介質(zhì)、語(yǔ)法。
[0016]在一個(gè)實(shí)施例中，這些語(yǔ)音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者作為隨后的一次認(rèn)證會(huì)話的一部分提供。
[0017]在一個(gè)實(shí)施例中，這些聲學(xué)模型存儲(chǔ)在該用戶特定的一個(gè)數(shù)據(jù)庫(kù)中，并且其中，自動(dòng)地訪問(wèn)該數(shù)據(jù)庫(kù)以響應(yīng)于該用戶向該認(rèn)證系統(tǒng)認(rèn)證自己來(lái)執(zhí)行該語(yǔ)音識(shí)別過(guò)程。
[0018]根據(jù)本發(fā)明的一個(gè)第二方面，提供了一種組合式語(yǔ)音識(shí)別和話音認(rèn)證方法，包括利用一個(gè)用戶的一次話音認(rèn)證確定的一個(gè)輸出設(shè)置一種語(yǔ)音識(shí)別功能的一個(gè)參數(shù)，以便隨后由該用戶識(shí)別一種言語(yǔ)。
[0019]在一個(gè)實(shí)施例中，利用該輸出選擇多個(gè)聲學(xué)模型數(shù)據(jù)庫(kù)中的一個(gè)，以供該語(yǔ)音識(shí)別功能在識(shí)別該用戶的言語(yǔ)時(shí)使用，每個(gè)聲學(xué)模型數(shù)據(jù)庫(kù)包含一組以不同的方式訓(xùn)練的聲學(xué)模型。
[0020]在一個(gè)實(shí)施例中，該數(shù)據(jù)庫(kù)包括多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型，已經(jīng)使用源自該用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者在隨后的一次認(rèn)證會(huì)話的過(guò)程中所提供的言語(yǔ)的話音數(shù)據(jù)對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練。
[0021]在一個(gè)實(shí)施例中，該數(shù)據(jù)庫(kù)包括多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型，已經(jīng)利用一個(gè)或多個(gè)具有一個(gè)共享的話音輪廓的其他用戶向該用戶所提供的多個(gè)語(yǔ)音樣本對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練。
[0022]根據(jù)本發(fā)明的一個(gè)第三方面，提供了一種實(shí)施計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)，該計(jì)算機(jī)程序包括一個(gè)或多個(gè)用于控制一個(gè)計(jì)算機(jī)系統(tǒng)實(shí)施如上文根據(jù)該第一方面所述的方法的指令。
[0023]根據(jù)本發(fā)明的一個(gè)第四方面，提供了一種語(yǔ)音識(shí)別系統(tǒng)，包括:
[0024]一個(gè)處理模塊，可操作以獲得一個(gè)話音認(rèn)證系統(tǒng)在一個(gè)話音認(rèn)證過(guò)程中所利用的一個(gè)語(yǔ)音樣本，該處理模塊進(jìn)一步被安排成用于處理該語(yǔ)音樣本以生成與該語(yǔ)音樣本相關(guān)聯(lián)的多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型；以及
[0025]一個(gè)存儲(chǔ)模塊，可操作以存儲(chǔ)這些聲學(xué)模型，以便隨后由該語(yǔ)音識(shí)別系統(tǒng)用作該處理模塊所實(shí)施的一個(gè)語(yǔ)音識(shí)別過(guò)程的一部分。
[0026]在一個(gè)實(shí)施例中，這些語(yǔ)音單元包括三音子、雙音子、聚類狀態(tài)、音素、單詞或短語(yǔ)。
[0027]在一個(gè)實(shí)施例中，該處理模塊進(jìn)一步可操作以對(duì)與該語(yǔ)音樣本相關(guān)聯(lián)的語(yǔ)音內(nèi)容數(shù)據(jù)進(jìn)行評(píng)估從而為這些語(yǔ)音單元中的每個(gè)語(yǔ)音單元確定一個(gè)可聞標(biāo)識(shí)符，以及基于相關(guān)標(biāo)識(shí)符對(duì)這些聲學(xué)模型進(jìn)行分類。
[0028]在一個(gè)實(shí)施例中，該處理模塊被進(jìn)一步安排成用于基于從多個(gè)進(jìn)一步獲得和處理的語(yǔ)音樣本所生成的多個(gè)聲學(xué)模型更新所存儲(chǔ)的這些聲學(xué)模型。
[0029]在一個(gè)實(shí)施例中，該處理模塊進(jìn)一步可操作以確定所存儲(chǔ)的這些聲學(xué)模型中的每個(gè)聲學(xué)模型的一個(gè)質(zhì)量，以及繼續(xù)更新這些聲學(xué)模型直到該質(zhì)量達(dá)到一個(gè)預(yù)先定義的閾值。
[0030]在一個(gè)實(shí)施例中，這些語(yǔ)音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過(guò)程中提供。
[0031]在一個(gè)實(shí)施例中，將這些聲學(xué)模型存儲(chǔ)在一個(gè)通用語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)中。
[0032]在一個(gè)實(shí)施例中，該處理模塊進(jìn)一步可操作以僅獲得與選自包括以下各項(xiàng)的組的一個(gè)或多個(gè)期望的預(yù)先定義的輪廓相關(guān)聯(lián)的多個(gè)語(yǔ)音樣本:語(yǔ)言、性別、信道介質(zhì)、語(yǔ)法。
[0033]在一個(gè)實(shí)施例中，這些語(yǔ)音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者作為隨后的一次認(rèn)證會(huì)話的一部分提供。
[0034]在一個(gè)實(shí)施例中，該系統(tǒng)包括一個(gè)數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)可操作以存儲(chǔ)這些聲學(xué)模型，并且其中，自動(dòng)地訪問(wèn)該數(shù)據(jù)庫(kù)以響應(yīng)于該認(rèn)證系統(tǒng)成功地認(rèn)證該用戶來(lái)執(zhí)行該語(yǔ)音識(shí)別過(guò)程。
[0035]根據(jù)本發(fā)明的一個(gè)第五方面，提供了一種組合式語(yǔ)音識(shí)別和話音認(rèn)證系統(tǒng)，該系統(tǒng)包括:
[0036]一種話音認(rèn)證功能，可操作以認(rèn)證一種用戶言語(yǔ)；
[0037]—種語(yǔ)音識(shí)別功能，可操作以由該用戶響應(yīng)于該話音認(rèn)證功能進(jìn)行的一次肯定認(rèn)證對(duì)隨后的多種言語(yǔ)進(jìn)行評(píng)估；以及
[0038]一個(gè)參數(shù)設(shè)置模塊，可操作以基于一個(gè)用戶標(biāo)識(shí)符將該語(yǔ)音識(shí)別功能的一個(gè)參數(shù)設(shè)置為由該話音認(rèn)證功能所建立。
[0039]在一個(gè)實(shí)施例中，利用該標(biāo)識(shí)符選擇該語(yǔ)音識(shí)別功能在識(shí)別該用戶的隨后的多種言語(yǔ)時(shí)所使用的一組聲學(xué)模型數(shù)據(jù)庫(kù)中的一個(gè)聲學(xué)模型數(shù)據(jù)庫(kù)。
[0040]在一個(gè)實(shí)施例中，所選擇的數(shù)據(jù)庫(kù)包括多個(gè)聲學(xué)模型，已經(jīng)使用該用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者在隨后的一次認(rèn)證確定的過(guò)程中所提供的多個(gè)語(yǔ)音樣本對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練。
[0041]在一個(gè)實(shí)施例中，所選擇的數(shù)據(jù)庫(kù)包括多個(gè)聲學(xué)模型，已經(jīng)使用該一個(gè)或多個(gè)具有一個(gè)共享的話音輪廓的其他用戶提供給該用戶的多個(gè)語(yǔ)音樣本對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練，從該話音認(rèn)證確定來(lái)確定該話音輪廓。

【專利附圖】

【附圖說(shuō)明】
[0042]參照附圖，僅通過(guò)示例的方式，本發(fā)明的特征和優(yōu)點(diǎn)將從其實(shí)施例的下列描述中變得清楚，在附圖中:
[0043]圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的系統(tǒng)的框圖；
[0044]圖2是圖1的話音處理系統(tǒng)所實(shí)施的個(gè)體模塊的示意圖；
[0045]圖3是展示了用于創(chuàng)建聲紋的流程的示意圖；
[0046]圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例展示了用于為圖1的系統(tǒng)提供語(yǔ)音識(shí)別能力的流程的示意圖；
[0047]圖5是根據(jù)一個(gè)實(shí)施例展示了用于建立語(yǔ)音識(shí)別模型和語(yǔ)法的流程的示意圖；以及
[0048]圖6是根據(jù)一個(gè)實(shí)施例展示了用于為圖1的系統(tǒng)提供用戶特定的語(yǔ)音識(shí)別能力的流程的示意圖。

【具體實(shí)施方式】
[0049]實(shí)施例利用話音認(rèn)證系統(tǒng)(通常還稱為話音生物識(shí)別系統(tǒng))所處理的語(yǔ)音樣本自動(dòng)地創(chuàng)建語(yǔ)音識(shí)別模型，可以有利地利用這些語(yǔ)音識(shí)別模型來(lái)提供附加語(yǔ)音識(shí)別能力。由于所生成的模型基于系統(tǒng)的實(shí)際用戶所提供的樣本，為這些用戶調(diào)諧該系統(tǒng)，并且該系統(tǒng)因此能夠?yàn)榇擞脩羧后w提供高水平的語(yǔ)音識(shí)別準(zhǔn)確度。這種技術(shù)還避免了購(gòu)買(mǎi)“附加”語(yǔ)音識(shí)別方案的需要，這些語(yǔ)音識(shí)別方案不僅昂貴而且可能難以獲得，尤其是對(duì)于適合創(chuàng)建語(yǔ)音識(shí)別技術(shù)所使用的聲學(xué)模型、語(yǔ)法和語(yǔ)言模型的語(yǔ)音數(shù)據(jù)庫(kù)不可用的市場(chǎng)。實(shí)施例還涉及個(gè)性化語(yǔ)音識(shí)別模型，這些個(gè)性化語(yǔ)音識(shí)別模型用于為系統(tǒng)的個(gè)人用戶提供甚至更高水平的語(yǔ)音識(shí)別準(zhǔn)確度。
[0050]出于說(shuō)明的目的，并參照附圖，下文將在話音處理系統(tǒng)102的上下文中對(duì)本發(fā)明的實(shí)施例進(jìn)行描述，該話音處理系統(tǒng)為安全服務(wù)104 (如交互式話音響應(yīng)(“IVR”)電話銀行服務(wù))提供話音認(rèn)證和語(yǔ)音識(shí)別功能兩者。在所展示的實(shí)施例中，獨(dú)立于安全服務(wù)104(例如，由第三方提供商)實(shí)施話音處理系統(tǒng)102。在本實(shí)施例中，安全服務(wù)104的用戶使用電話106形式的輸入設(shè)備(例如，基于標(biāo)準(zhǔn)電話、移動(dòng)電話或互聯(lián)網(wǎng)協(xié)議(IP)的電話服務(wù)，如Skype?)與安全服務(wù)104通信。
[0051]圖1展示了用于實(shí)施本發(fā)明的一個(gè)實(shí)施例的示例系統(tǒng)配置100。如上所述，用戶使用電話106與電話銀行服務(wù)104通信。安全服務(wù)104進(jìn)而連接至話音處理系統(tǒng)102，以便初始地認(rèn)證這些用戶并且此后在電話銀行會(huì)話過(guò)程中為用戶話音命令提供語(yǔ)音識(shí)別能力。根據(jù)所展示的實(shí)施例，話音處理系統(tǒng)102通過(guò)一個(gè)公共交換電話網(wǎng)108形式的通信網(wǎng)連接至安全服務(wù)104。
[0052]系統(tǒng)配置的進(jìn)一步細(xì)節(jié)
[0053]參照?qǐng)D2，話音處理系統(tǒng)102包括一個(gè)服務(wù)器計(jì)算機(jī)105，該服務(wù)器計(jì)算機(jī)包括典型的服務(wù)器硬件，該服務(wù)器硬件包括處理器、主板、隨機(jī)存取存儲(chǔ)器、硬盤(pán)和電源。服務(wù)器105還包括一個(gè)操作系統(tǒng)，該操作系統(tǒng)與該硬件合作以提供可以在其中執(zhí)行軟件應(yīng)用的環(huán)境。就這一點(diǎn)而言，服務(wù)器105的硬盤(pán)裝載有處理模塊114，該處理模塊在該處理器的控制下可操作以實(shí)施各種話音認(rèn)證和語(yǔ)音識(shí)別功能。如所展示的，處理模塊114由各種用于實(shí)施前述功能的個(gè)體模塊/組件構(gòu)成，即，話音生物識(shí)別訓(xùn)練器115、話音生物識(shí)別引擎116、自動(dòng)語(yǔ)音識(shí)別訓(xùn)練器117和自動(dòng)語(yǔ)音識(shí)別引擎118。
[0054]處理器模塊114通信地耦合至許多數(shù)據(jù)庫(kù)，包括身份管理數(shù)據(jù)庫(kù)120、話音文件數(shù)據(jù)庫(kù)122、聲紋數(shù)據(jù)庫(kù)124和語(yǔ)音識(shí)別模型和語(yǔ)法數(shù)據(jù)庫(kù)126。還可以提供許多個(gè)性化語(yǔ)音識(shí)別模型數(shù)據(jù)庫(kù)128a至128η以用于存儲(chǔ)各自為特定用戶的話音所定制的模型和語(yǔ)法。提供了一個(gè)規(guī)則存儲(chǔ)器130以用于存儲(chǔ)處理模塊114所實(shí)施的各種規(guī)則，如在隨后的段落中將更詳細(xì)描述的。
[0055]服務(wù)器105包括用于與安全服務(wù)提供商系統(tǒng)104通信的適當(dāng)軟件和硬件?？梢酝ㄟ^(guò)任何合適的通信鏈路進(jìn)行該通信，如互聯(lián)網(wǎng)連接、無(wú)線數(shù)據(jù)連接或公共網(wǎng)絡(luò)連接。在一個(gè)實(shí)施例中，通過(guò)安全服務(wù)提供商104路由用戶話音數(shù)據(jù)(即，代表用戶在登記、認(rèn)證和隨后與安全服務(wù)提供商系統(tǒng)104交互的過(guò)程中所提供的語(yǔ)音樣本的數(shù)據(jù))。可替代地，可以直接向服務(wù)器105提供話音數(shù)據(jù)(在這種情況下，服務(wù)器105還將實(shí)施合適的呼叫應(yīng)答服務(wù))。
[0056]如所討論的，所展示的實(shí)施例的通信系統(tǒng)108是公共交換電話網(wǎng)的形式。然而，在可替代的實(shí)施例中，通信網(wǎng)可以是數(shù)據(jù)網(wǎng)，如互聯(lián)網(wǎng)。在這種實(shí)施例中，用戶可以使用聯(lián)網(wǎng)的計(jì)算設(shè)備使用網(wǎng)絡(luò)協(xié)議(如TCP/IP協(xié)議)與服務(wù)器105交換數(shù)據(jù)(在一個(gè)實(shí)施例中，XML代碼和分組的話音消息)。在國(guó)際專利申請(qǐng)PCT/AU 2008/000070中概述了這種實(shí)施例的進(jìn)一步細(xì)節(jié)，該國(guó)際專利申請(qǐng)的內(nèi)容通過(guò)引用結(jié)合在此。在另一可替代的實(shí)施例中，通信系統(tǒng)可以附加地包括連接至分組交換網(wǎng)的第三或第四代(“3G”)CDMA或GPRS使能的移動(dòng)電話網(wǎng)，可以利用該移動(dòng)電話網(wǎng)訪問(wèn)服務(wù)器105。在這種實(shí)施例中，用戶輸入設(shè)備102包括用于將語(yǔ)音樣本作為數(shù)據(jù)傳輸?shù)臒o(wú)線能力。該無(wú)線計(jì)算設(shè)備可以包括例如移動(dòng)電話、具有無(wú)線卡的個(gè)人計(jì)算機(jī)和任何其他有利于話音備案功能的移動(dòng)通信設(shè)備。在另一實(shí)施例中，本發(fā)明可以采用基于802.11的無(wú)線網(wǎng)或某種其他個(gè)人虛擬網(wǎng)絡(luò)。
[0057]根據(jù)所展示的實(shí)施例，安全服務(wù)提供商系統(tǒng)104是電話銀行服務(wù)器的形式。安全服務(wù)提供商系統(tǒng)104包括一個(gè)收發(fā)器，該收發(fā)器包括一個(gè)用于與處理系統(tǒng)102通信的網(wǎng)卡。該服務(wù)器還包括用于提供應(yīng)答服務(wù)的適當(dāng)硬件和/或軟件。在所展示的實(shí)施例中，安全服務(wù)提供商104通過(guò)公共交換電話網(wǎng)108利用收發(fā)器模塊與用戶通信。
[0058]聲紋登記
[0059]在以任何細(xì)節(jié)描述用于創(chuàng)建語(yǔ)音識(shí)別模型的技術(shù)之前，將首先參照?qǐng)D3對(duì)一種用于登記語(yǔ)音樣本和生成聲紋的基本流程進(jìn)行描述。在步驟302，由話音處理系統(tǒng)102接收語(yǔ)音樣本并將其以合適的文件存儲(chǔ)格式(例如，wav文件格式)存儲(chǔ)在話音文件數(shù)據(jù)庫(kù)122中。話音生物識(shí)別訓(xùn)練器115在步驟304處理所存儲(chǔ)的話音文件以用于生成聲紋，該聲紋與提供該語(yǔ)音樣本的用戶的標(biāo)識(shí)符相關(guān)聯(lián)。系統(tǒng)102可以從用戶請(qǐng)求附加語(yǔ)音樣本，直到已經(jīng)接收到足夠數(shù)量的樣本以用于創(chuàng)建準(zhǔn)確的聲紋。通常，對(duì)于文本相關(guān)的實(shí)施方式(即，其中，用戶說(shuō)出的文本必須是相同的以用于登記和驗(yàn)證)而言，請(qǐng)求和處理對(duì)相同單詞或短語(yǔ)的三次重復(fù)，從而生成準(zhǔn)確的聲紋。在文本無(wú)關(guān)的實(shí)施方式(即，其中，用戶可以出于驗(yàn)證目的提供任何言語(yǔ))的情況下，請(qǐng)求超過(guò)30秒的語(yǔ)音以用于生成準(zhǔn)確的聲紋。可以例如使用授權(quán)給同一申請(qǐng)人:的澳大利亞專利2009290150中所描述的過(guò)程對(duì)聲紋質(zhì)量進(jìn)行測(cè)量，該澳大利亞專利的內(nèi)容通過(guò)引用結(jié)合在此。在步驟306，將聲紋加載至聲紋數(shù)據(jù)庫(kù)124中以便隨后由話音生物識(shí)別引擎116在用戶認(rèn)證過(guò)程中使用(步驟308)。用戶在認(rèn)證過(guò)程中所提供的驗(yàn)證樣本(這些驗(yàn)證樣本可以例如是口令短語(yǔ)、賬號(hào)等)也存儲(chǔ)在話音文件數(shù)據(jù)庫(kù)122中，以便使用本領(lǐng)域技術(shù)人員所熟知的技術(shù)更新或“調(diào)諧”所存儲(chǔ)的與此用戶相關(guān)聯(lián)的聲紋時(shí)使用。
[0060]創(chuàng)建通用語(yǔ)音識(shí)別模型
[0061]參照?qǐng)D4，示出了登記過(guò)程的擴(kuò)展，該擴(kuò)展有利地允許基于已登記的話音文件針對(duì)語(yǔ)音識(shí)別能力自動(dòng)創(chuàng)建通用語(yǔ)音識(shí)別模型。在步驟402，將所存儲(chǔ)的話音文件(該話音文件可以或者是登記過(guò)程中所提供的話音文件或者是后成功認(rèn)證所提供的話音文件)傳遞至ASR訓(xùn)練器117，該訓(xùn)練器處理該話音文件以生成與該話音文件相關(guān)聯(lián)的多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型，如將在隨后的段落中更詳細(xì)描述的。在步驟404，隨后將這些聲學(xué)模型存儲(chǔ)在語(yǔ)音識(shí)別模型數(shù)據(jù)庫(kù)126中，這些聲學(xué)模型各自優(yōu)選地由從話音文件數(shù)據(jù)庫(kù)122所獲得的多個(gè)話音文件所生成。這些模型隨后可以在步驟406用于提供自動(dòng)語(yǔ)音識(shí)別能力以供用戶訪問(wèn)安全服務(wù)104。
[0062]更詳細(xì)地，并附加地參照?qǐng)D5，聲學(xué)模型生成步驟402包括使用分段器模塊502將這些話音文件分開(kāi)成期望語(yǔ)音單元類型的語(yǔ)音單元(還稱為成分)(502)。根據(jù)所展示的實(shí)施例，分段器模塊502可處理的不同類型的語(yǔ)音單元包括三音子、雙音子、聚類狀態(tài)、音素、單詞和短語(yǔ)，盡管將理解任何合適的語(yǔ)音單元可以是取決于期望的實(shí)施方式可處理的。分段器模塊502為語(yǔ)音單元指定一個(gè)起始點(diǎn)并為語(yǔ)音單元指定一個(gè)結(jié)束點(diǎn)?？梢詫?duì)分段器模塊502進(jìn)行編程以將該結(jié)束點(diǎn)標(biāo)識(shí)為下一語(yǔ)音單元的起始點(diǎn)。同等地，可以對(duì)分段器模塊502進(jìn)行編程以識(shí)別一個(gè)語(yǔ)音單元的結(jié)束與下一語(yǔ)音單元的起始之間的間隙。該間隙中的波形在此被稱為“垃圾”并且可以代表沉默、背景噪聲、通信信道所引入的噪聲或說(shuō)話者所產(chǎn)生但與語(yǔ)音不相關(guān)聯(lián)的聲音(如，呼吸噪聲、“嗯”、“啊”、猶豫等)。訓(xùn)練器506使用此類聲音來(lái)產(chǎn)生特殊模型，這種特殊模型在本領(lǐng)域內(nèi)通常被稱為“垃圾模型”。隨后識(shí)別引擎126使用這些垃圾模型來(lái)識(shí)別語(yǔ)音樣本中所聽(tīng)到的聲音，但是這些語(yǔ)音樣本不是預(yù)先定義的語(yǔ)音單元。在步驟504與可聞標(biāo)識(shí)符(下文中“分類符”)相關(guān)聯(lián)地存儲(chǔ)已分段的非垃圾語(yǔ)音單元，該可聞標(biāo)識(shí)符源自與原始語(yǔ)音樣本相關(guān)聯(lián)的語(yǔ)音內(nèi)容數(shù)據(jù)。例如，話音處理系統(tǒng)可以存儲(chǔ)包含用戶在登記(例如，其賬號(hào)等)過(guò)程中所說(shuō)的單詞或短語(yǔ)的元數(shù)據(jù)。分段器502可以對(duì)語(yǔ)音學(xué)查找字典進(jìn)行評(píng)估以確定組成所登記的單詞/短語(yǔ)的語(yǔ)音單元(三音子、雙音子、聚類狀態(tài)或音素)。語(yǔ)音單元的通用或原型聲學(xué)模型存儲(chǔ)在分段器502中并被其用于將用戶所提供的語(yǔ)音分段成其三音子、雙音子、聚類狀態(tài)或音素組成部分。獲得、分段并存儲(chǔ)(步驟504)進(jìn)一步的話音文件，直到已經(jīng)獲得了每個(gè)語(yǔ)音單元的足夠數(shù)量的樣本從而為已分類的語(yǔ)音單元?jiǎng)?chuàng)建通用語(yǔ)音模型。在具體實(shí)施例中，需要每個(gè)三音子、雙音子、聚類狀態(tài)或音素部分的500和2，000之間個(gè)樣本以產(chǎn)生適合識(shí)別的那部分的通用聲學(xué)模型。根據(jù)所展示的實(shí)施例，當(dāng)新的話音文件存儲(chǔ)在數(shù)據(jù)庫(kù)122中時(shí)，ASR訓(xùn)練器117自動(dòng)地對(duì)其進(jìn)行處理，以用于創(chuàng)建和/或更新模型數(shù)據(jù)庫(kù)126中所存儲(chǔ)的聲學(xué)模型。通常在生成一個(gè)模型之前獲得并處理500和2，000之間個(gè)話音文件，以便提供一個(gè)將足夠反映已登記的用戶的語(yǔ)言和口音的模型。隨后由訓(xùn)練器模塊506對(duì)語(yǔ)音單元進(jìn)行處理。訓(xùn)練器模塊506對(duì)已登記的說(shuō)話者所說(shuō)的已分段的語(yǔ)音單元進(jìn)行處理以使用本領(lǐng)域中已知的模型生成技術(shù)創(chuàng)建語(yǔ)音識(shí)別系統(tǒng)所需的這些語(yǔ)音單元中的每個(gè)語(yǔ)音單元的聲學(xué)模型。類似地，訓(xùn)練模塊506還對(duì)來(lái)自與語(yǔ)音識(shí)別所使用的語(yǔ)音單元相關(guān)聯(lián)的語(yǔ)音文件的語(yǔ)法和語(yǔ)言模型進(jìn)行編譯。從語(yǔ)音樣本中的三音子、雙音子、聚類狀態(tài)、音素、單詞和/或短語(yǔ)序列的統(tǒng)計(jì)分析來(lái)計(jì)算語(yǔ)法和語(yǔ)言模型，該統(tǒng)計(jì)分析代表特定三音子、雙音子、聚類狀態(tài)、音素、單詞和/或短語(yǔ)后跟著另一特定三音子、雙音子、聚類狀態(tài)、音素、單詞和/或短語(yǔ)的幾率。這樣，特定于說(shuō)話者在系統(tǒng)中進(jìn)行登記的方式并因此特定于所登記的說(shuō)話者所說(shuō)的口音和語(yǔ)言實(shí)施聲學(xué)模型、語(yǔ)法和語(yǔ)言模型。將所生成的模型和內(nèi)含的語(yǔ)法存儲(chǔ)在數(shù)據(jù)庫(kù)126中以便隨后在向安全服務(wù)104的用戶提供自動(dòng)語(yǔ)音識(shí)別時(shí)使用。
[0063]在一個(gè)實(shí)施例中，由處理模塊114實(shí)施某些規(guī)則，這些規(guī)則指定了模型創(chuàng)建所必須處理的語(yǔ)音單元樣本的最小數(shù)量。這些規(guī)則還可以在處理模塊114將可利用所存儲(chǔ)的模型對(duì)語(yǔ)音進(jìn)行識(shí)別之前指定所存儲(chǔ)的模型的質(zhì)量。在具體實(shí)施例中，對(duì)于每個(gè)分類器而言，可以存在一個(gè)男性和女性模型。根據(jù)這種實(shí)施例，這些規(guī)則可以規(guī)定只選擇來(lái)自男性用戶的語(yǔ)音樣本來(lái)創(chuàng)建男性模型，并且只選擇來(lái)自女性用戶的語(yǔ)音樣本來(lái)創(chuàng)建女性模型?？梢詮乃鎯?chǔ)的與已知用戶相關(guān)聯(lián)的元數(shù)據(jù)或通過(guò)對(duì)樣本進(jìn)行評(píng)估的方式(該評(píng)估包含使用女性和男性模型兩者聲學(xué)地處理該樣本，以及基于所產(chǎn)生的認(rèn)證分?jǐn)?shù)確定性別，即，使用男性模型的更高分表示男性說(shuō)話者，同時(shí)使用女性模型的更高分表示女性說(shuō)話者)對(duì)此進(jìn)行確定?？梢酝鹊貫椴煌Z(yǔ)言、信道介質(zhì)(例如，移動(dòng)電話、陸上通信線等)和語(yǔ)法輪廓?jiǎng)?chuàng)建附加的或可替代的模型，這樣使得將基于所檢測(cè)到的呼叫者輪廓選擇具體的模型集。可以例如基于該呼叫可獲得的數(shù)據(jù)(如可以指示哪個(gè)輪廓最接近地匹配當(dāng)前呼叫的電話線路號(hào)碼或IP地址)，或通過(guò)并行地使用許多不同的模型以及選擇生成最佳結(jié)果或合適的模型(例如，通過(guò)評(píng)估所產(chǎn)生的認(rèn)證分?jǐn)?shù))處理語(yǔ)音來(lái)確定所檢測(cè)到的輪廓。
[0064]創(chuàng)建個(gè)性化語(yǔ)音識(shí)別模型
[0065]一旦已經(jīng)成功地認(rèn)證了用戶，認(rèn)為他們是系統(tǒng)102 ‘已知的’。在具體實(shí)施例中，一旦用戶已知，可以創(chuàng)建并隨后訪問(wèn)個(gè)性化模型集從而為此用戶提供更高的語(yǔ)音識(shí)別準(zhǔn)確度。
[0066]根據(jù)這種實(shí)施例，并附加地參照?qǐng)D6，為系統(tǒng)已知的每個(gè)用戶提供了個(gè)性化聲紋和語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)128 (見(jiàn)步驟602至606)?？梢猿跏嫉貜挠脩粼诘怯涍^(guò)程中所提供的語(yǔ)音樣本(例如，在某些實(shí)例中，可以要求用戶提供多個(gè)登記語(yǔ)音樣本，例如陳述其賬號(hào)、姓名、pin號(hào)碼等，可以對(duì)這些語(yǔ)音樣本進(jìn)行處理以創(chuàng)建有限數(shù)量的模型)、從如之前所述的通用模型、或從這兩者的組合來(lái)配置這些模型。當(dāng)用戶提供新的語(yǔ)音樣本時(shí)，可以創(chuàng)建新的模型并更新現(xiàn)有模型，如果需要的話。將理解的是，可以或者在成功認(rèn)證用戶的過(guò)程中或之后提供新的樣本(例如，由用戶在電話銀行會(huì)話過(guò)程中所發(fā)布的話音命令所導(dǎo)致)。系統(tǒng)102還可以提示用戶不時(shí)地發(fā)出特定單詞、短語(yǔ)等(即，在步驟602)以幫助針對(duì)此用戶建立更完整的模型集。再次，可以用規(guī)則存儲(chǔ)器130中所存儲(chǔ)的規(guī)則來(lái)控制此過(guò)程。
[0067]盡管之前的段落中所描述的實(shí)施例描述了 “第三方”、或集中式系統(tǒng)形式的處理系統(tǒng)102，但它仍將是提供商系統(tǒng)104。
[0068]可替代的配置和方法可以包括說(shuō)話者使用第三方語(yǔ)音識(shí)別功能(如“Siri”私人助理)收集語(yǔ)音樣本(如轉(zhuǎn)讓給蘋(píng)果公司(Apple Inc.)的已公開(kāi)的美國(guó)專利申請(qǐng)?zhí)?0120016678中所描述的)，或者集成到手機(jī)或其他計(jì)算設(shè)備中的“龍(Dragon) ”語(yǔ)音識(shí)別軟件(從美國(guó)馬薩諸塞州伯靈頓市的Nuance公司(Nuance Communicat1ns, Inc.)可獲得)，結(jié)合本文所述的話音認(rèn)證系統(tǒng)使用所述手機(jī)或其他計(jì)算設(shè)備。在這種情況下，來(lái)自“已知”說(shuō)話者的語(yǔ)音樣本可以存儲(chǔ)在話音文件數(shù)據(jù)庫(kù)122中并且然后被分段器模塊502和訓(xùn)練器模塊506用于使用上文所述的過(guò)程為此說(shuō)話者創(chuàng)建語(yǔ)音識(shí)別模型。
[0069]可替代地，主機(jī)服務(wù)或云服務(wù)(如與話音認(rèn)證系統(tǒng)結(jié)合使用的托管IVR服務(wù)或基于云的話音處理系統(tǒng))所收集的語(yǔ)音樣本還可以用于使用本文所述的方法創(chuàng)建語(yǔ)音識(shí)別模型。
[0070]雖然已經(jīng)參照本實(shí)施例描述了本發(fā)明，但本領(lǐng)域的技術(shù)人員將理解，在不背離本發(fā)明的范圍的情況下可以做出更改、改變和改善并且可用等效物來(lái)替代其元件和其步驟。此外，可以進(jìn)行許多修改以使本發(fā)明適應(yīng)一種具體狀況或使材料適應(yīng)本發(fā)明的教導(dǎo)，而不背離其中心范圍。然而，此類更改、改變、修改和改善(盡管未在上文專門(mén)地描述)旨在并被暗示處于本發(fā)明的范圍和精神內(nèi)。因此，本發(fā)明旨在不限于在此所描述的具體實(shí)施例，并且將包括所有落在獨(dú)立權(quán)利要求的范圍內(nèi)的實(shí)施例。
[0071]在下面的權(quán)利要求書(shū)和本發(fā)明的前續(xù)描述中，除了由于明確的語(yǔ)言或必要的暗示，上下文另作要求以外，單詞“包括(comprise) ”或變形形式如“包括(comprises) ”或“包括(comprising)”是以包含在內(nèi)的意義來(lái)使用的，S卩，指明了所述特征的存在但并不排除在本發(fā)明的不同實(shí)施例中進(jìn)一步特征的存在或添加。
【權(quán)利要求】
1.一種用于配置語(yǔ)音識(shí)別系統(tǒng)的方法，該方法包括: 獲得由一個(gè)話音認(rèn)證系統(tǒng)在一個(gè)話音認(rèn)證過(guò)程中所利用的一個(gè)語(yǔ)音樣本；對(duì)該語(yǔ)音樣本進(jìn)行處理以生成與該語(yǔ)音樣本相關(guān)聯(lián)的多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型；以及對(duì)這些聲學(xué)模型進(jìn)行存儲(chǔ)以便隨后由該語(yǔ)音識(shí)別系統(tǒng)用作一個(gè)語(yǔ)音識(shí)別過(guò)程的一部分。
2.根據(jù)權(quán)利要求1所述的方法，其中，這些語(yǔ)音單元包括多個(gè)三音子、多個(gè)雙音子、多個(gè)聚類狀態(tài)、多個(gè)音素、多個(gè)單詞或多個(gè)短語(yǔ)。
3.根據(jù)權(quán)利要求2所述的方法，進(jìn)一步包括對(duì)與該語(yǔ)音樣本相關(guān)聯(lián)的語(yǔ)音內(nèi)容數(shù)據(jù)進(jìn)行評(píng)估從而為這些語(yǔ)音單元中的每個(gè)語(yǔ)音單元確定一個(gè)可聞標(biāo)識(shí)符，以及基于所確定的該可聞標(biāo)識(shí)符對(duì)這些聲學(xué)模型進(jìn)行分類。
4.根據(jù)權(quán)利要求3所述的方法，進(jìn)一步包括基于從多個(gè)進(jìn)一步獲得和處理的語(yǔ)音樣本所生成的多個(gè)聲學(xué)模型更新所存儲(chǔ)的這些聲學(xué)模型。
5.根據(jù)權(quán)利要求4所述的方法，進(jìn)一步包括確定所存儲(chǔ)的這些聲學(xué)模型中的每個(gè)聲學(xué)模型的一個(gè)質(zhì)量，以及繼續(xù)更新這些聲學(xué)模塊直到該質(zhì)量達(dá)到一個(gè)預(yù)先定義的閾值。
6.根據(jù)權(quán)利要求4或5所述的方法，其中，這些語(yǔ)音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過(guò)程中提供。
7.根據(jù)權(quán)利要求6所述的方法，進(jìn)一步包括利用所存儲(chǔ)的這些聲學(xué)模型進(jìn)行針對(duì)多個(gè)不同用戶的一個(gè)語(yǔ)音識(shí)別過(guò)程。
8.根據(jù)權(quán)利要求7所述的方法，進(jìn)一步包括僅獲得與選自包括以下各項(xiàng)的組的一個(gè)或多個(gè)預(yù)先定義的語(yǔ)音輪廓相關(guān)聯(lián)的多個(gè)語(yǔ)音樣本:語(yǔ)言、性別、信道介質(zhì)、語(yǔ)法。
9.根據(jù)權(quán)利要求4或5所述的方法，其中，這些語(yǔ)音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者作為隨后的一次認(rèn)證會(huì)話的一部分提供。
10.根據(jù)權(quán)利要求9所述的方法，其中，這些聲學(xué)模型存儲(chǔ)在該用戶特定的一個(gè)數(shù)據(jù)庫(kù)中，并且其中，自動(dòng)地訪問(wèn)該數(shù)據(jù)庫(kù)以響應(yīng)于該用戶向該認(rèn)證系統(tǒng)認(rèn)證自己來(lái)執(zhí)行該語(yǔ)音識(shí)別過(guò)程。
11.一種組合式語(yǔ)音識(shí)別和話音認(rèn)證方法，包括利用一個(gè)用戶的一次話音認(rèn)證確定的一個(gè)輸出設(shè)置一種語(yǔ)音識(shí)別功能的一個(gè)參數(shù)，以便隨后由該用戶識(shí)別一種言語(yǔ)。
12.根據(jù)權(quán)利要求11所述的方法，其中，利用該輸出選擇多個(gè)聲學(xué)模型數(shù)據(jù)庫(kù)中的一個(gè)，以供該語(yǔ)音識(shí)別功能在識(shí)別該用戶的言語(yǔ)時(shí)使用，每個(gè)聲學(xué)模型數(shù)據(jù)庫(kù)包含一組以不同的方式訓(xùn)練的聲學(xué)模型。
13.根據(jù)權(quán)利要求12所述的方法，其中，該數(shù)據(jù)庫(kù)包括多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型，已經(jīng)使用源自該用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者在隨后的一次認(rèn)證會(huì)話的過(guò)程中所提供的多種言語(yǔ)的話音數(shù)據(jù)對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練。
14.根據(jù)權(quán)利要求12所述的方法，其中，該數(shù)據(jù)庫(kù)包括多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型，已經(jīng)利用一個(gè)或多個(gè)具有一個(gè)共享的話音輪廓的其他用戶向該用戶提供的多個(gè)語(yǔ)音樣本對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練。
15.一種實(shí)施計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì)，該計(jì)算機(jī)程序包括一個(gè)或多個(gè)用于控制一個(gè)計(jì)算機(jī)系統(tǒng)實(shí)施根據(jù)權(quán)利要求1至14中任意一項(xiàng)所述的方法的指令。
16.—種語(yǔ)音識(shí)別系統(tǒng),包括: 一個(gè)處理模塊，可操作以獲得一個(gè)話音認(rèn)證系統(tǒng)在一個(gè)話音認(rèn)證過(guò)程中所利用的一個(gè)語(yǔ)音樣本，該處理模塊進(jìn)一步被安排成用于處理該語(yǔ)音樣本以生成與該語(yǔ)音樣本相關(guān)聯(lián)的多個(gè)語(yǔ)音單元的多個(gè)聲學(xué)模型；以及一個(gè)存儲(chǔ)模塊，可操作以存儲(chǔ)這些聲學(xué)模型，以便隨后由該語(yǔ)音識(shí)別系統(tǒng)用作該處理模塊所實(shí)施的一個(gè)語(yǔ)音識(shí)別過(guò)程的一部分。
17.根據(jù)權(quán)利要求16所述的系統(tǒng)，其中，這些語(yǔ)音單元包括多個(gè)三音子、多個(gè)雙音子、多個(gè)聚類狀態(tài)、多個(gè)音素、多個(gè)單詞或多個(gè)短語(yǔ)。
18.根據(jù)權(quán)利要求16或17所述的系統(tǒng)，其中，該處理模塊進(jìn)一步可操作以對(duì)與該語(yǔ)音樣本相關(guān)聯(lián)的語(yǔ)音內(nèi)容數(shù)據(jù)進(jìn)行評(píng)估從而為這些語(yǔ)音單元中的每個(gè)語(yǔ)音單元確定一個(gè)可聞標(biāo)識(shí)符，以及基于相關(guān)的標(biāo)識(shí)符對(duì)這些聲學(xué)模型進(jìn)行分類。
19.根據(jù)權(quán)利要求17或18所述的系統(tǒng)，其中，該處理模塊被進(jìn)一步安排成用于基于從進(jìn)一步獲得和處理的多個(gè)語(yǔ)音樣本所生成的多個(gè)聲學(xué)模型更新所存儲(chǔ)的這些聲學(xué)模型。
20.根據(jù)權(quán)利要求19所述的系統(tǒng)，該處理模塊進(jìn)一步可操作以確定所存儲(chǔ)的這些聲學(xué)模型中的每個(gè)聲學(xué)模型的一個(gè)質(zhì)量，以及繼續(xù)更新這些聲學(xué)模型直到該質(zhì)量達(dá)到一個(gè)預(yù)先定義的閾值。
21.根據(jù)權(quán)利要求19或20所述的系統(tǒng)，其中，這些語(yǔ)音樣本由該認(rèn)證系統(tǒng)的不同用戶在向其登記的過(guò)程中提供。
22.根據(jù)權(quán)利要求21所述的系統(tǒng)，進(jìn)一步包括將這些聲學(xué)模型存儲(chǔ)在一個(gè)通用語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)中。 21.根據(jù)權(quán)利要求19或20所述的系統(tǒng)，其中，該處理模塊進(jìn)一步可操作以僅獲得與選自包括以下各項(xiàng)的組的一個(gè)或多個(gè)期望的預(yù)先定義的輪廓相關(guān)聯(lián)的多個(gè)語(yǔ)音樣本:語(yǔ)言、性別、信道介質(zhì)、語(yǔ)法。
23.根據(jù)權(quán)利要求19或20所述的系統(tǒng)，其中，這些語(yǔ)音樣本由同一用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者作為隨后的一次認(rèn)證會(huì)話的一部分提供。
24.根據(jù)權(quán)利要求23所述的系統(tǒng)，進(jìn)一步包括一個(gè)數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)可操作以存儲(chǔ)這些聲學(xué)模型，并且其中，自動(dòng)地訪問(wèn)該數(shù)據(jù)庫(kù)以響應(yīng)于該認(rèn)證系統(tǒng)成功地認(rèn)證該用戶來(lái)執(zhí)行該語(yǔ)音識(shí)別過(guò)程。
25.一種組合式語(yǔ)音識(shí)別和話音認(rèn)證系統(tǒng)，該系統(tǒng)包括: 一種話音認(rèn)證功能，可操作以認(rèn)證一種用戶言語(yǔ)；一種語(yǔ)音識(shí)別功能，可操作以由該用戶響應(yīng)于該話音認(rèn)證功能進(jìn)行的一次肯定認(rèn)證對(duì)隨后的多種言語(yǔ)進(jìn)行評(píng)估；以及一個(gè)參數(shù)設(shè)置模塊，可操作以基于一個(gè)用戶標(biāo)識(shí)符將該語(yǔ)音識(shí)別功能的一個(gè)參數(shù)設(shè)置為由該話音認(rèn)證功能所建立。
26.根據(jù)權(quán)利要求25所述的系統(tǒng)，其中，利用該標(biāo)識(shí)符選擇該語(yǔ)音識(shí)別功能在識(shí)別該用戶的隨后的多種言語(yǔ)時(shí)所使用的一組聲學(xué)模型數(shù)據(jù)庫(kù)中的一個(gè)聲學(xué)模型數(shù)據(jù)庫(kù)。
27.根據(jù)權(quán)利要求26所述的系統(tǒng)，其中，所選擇的該數(shù)據(jù)庫(kù)包括多個(gè)聲學(xué)模型，已經(jīng)使用該用戶或者在向該認(rèn)證系統(tǒng)登記的過(guò)程中或者在隨后的一次認(rèn)證確定的過(guò)程中所提供的多個(gè)語(yǔ)音樣本對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練。
28.根據(jù)權(quán)利要求27所述的系統(tǒng)，其中，所選擇的該數(shù)據(jù)庫(kù)包括多個(gè)聲學(xué)模型，已經(jīng)使用一個(gè)或多個(gè)具有一個(gè)共享的話音輪廓的其他用戶提供給該用戶的多個(gè)語(yǔ)音樣本對(duì)這些聲學(xué)模型進(jìn)行了訓(xùn)練，從該話音認(rèn)證確定來(lái)確定該話音輪廓。
29.—種基本如上文中參照附圖所描述的系統(tǒng)。
【文檔編號(hào)】G10L17/14GK104185868SQ201380016170
【公開(kāi)日】2014年12月3日申請(qǐng)日期:2013年1月23日優(yōu)先權(quán)日:2012年1月24日
【發(fā)明者】哈比卜·E·泰歐哈米, 阿米特·薩達(dá)南德·馬勒高恩卡, 雷努卡·阿米特·馬勒高恩卡, 克萊夫·戴維·薩默菲爾德申請(qǐng)人:澳爾亞有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：哈比卜·E·泰歐哈米;阿米特·薩達(dá)南德·馬勒高恩卡;雷努卡·阿米特·馬勒高恩卡;克萊夫·戴維·薩默菲爾德
技術(shù)所有人：澳爾亞有限公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)音講解器相關(guān)技術(shù)

語(yǔ)音控制芯片相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

話音認(rèn)證和語(yǔ)音識(shí)別系統(tǒng)及方法