專利名稱:語音基準(zhǔn)登記方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別系統(tǒng)領(lǐng)域,尤其涉及語音基準(zhǔn)登記方法。
背景技術(shù):
語音識別和說話人驗證通常采用一種登記過程,以獲得基準(zhǔn)語音方式(pattern),供以后使用。采用登記過程的語音識別系統(tǒng)通常是依賴于說話人的系統(tǒng)。本文中,采用登記過程的語音識別系統(tǒng)和說話人驗證系統(tǒng)稱為語音基準(zhǔn)系統(tǒng)。語音基準(zhǔn)系統(tǒng)的性能受登記過程中得到的基準(zhǔn)模式質(zhì)量的限制?,F(xiàn)有技術(shù)的登記過程請求用戶說出被登記的詞語,并使用析取的特征作為該詞語的基準(zhǔn)模式。這些系統(tǒng)受登記過程中使用者說出詞語時所不希望的背景噪聲的困擾。該不希望的背景噪聲隨后又混入該基準(zhǔn)模式。因為并不是每次用戶發(fā)音時都會出現(xiàn)所不希望的背景噪聲的,所以就降低了語音基準(zhǔn)系統(tǒng)使基準(zhǔn)模式與以后的發(fā)音相匹配的能力。
所以,需要有一個語音基準(zhǔn)系統(tǒng)的登記過程,它不會使不希望的背景噪聲混入基準(zhǔn)模式中。
發(fā)明概述克服這樣和那樣的問題的語音基準(zhǔn)登記方法包含下述步驟(a)請使用者說出一個單詞;(b)檢測第一個發(fā)音;(c)請使用者說出這個單詞;(d)檢測第二個發(fā)音;(e)確定第一個發(fā)音與第二個發(fā)音之間的第一個相似形;(f)當(dāng)?shù)谝粋€相似形小于一預(yù)定的相似形時,請使用者說出這個單詞;(g)檢測第三個發(fā)音;(h)確定第一個發(fā)音與第三個發(fā)音之間的第二個相似形;以及(i)當(dāng)?shù)诙€相似形大于或等于預(yù)定的相似形時,產(chǎn)生一個基準(zhǔn)。
附圖簡述
圖1是說話人驗證系統(tǒng)實施例的方框圖;圖2是用來形成說話人驗證判斷的步驟實施例的流程圖;圖3是用來形成說話人驗證判斷的碼本(code book)的步驟的實施例流程圖;圖4是用來形成說話人驗證判斷的步驟的實施例的流程圖;圖5是采用說話人驗證方法的撥號服務(wù)的示意圖;圖6是撥號服務(wù)中使用的步驟的實施例流程圖;圖7是撥號服務(wù)中使用的步驟的實施例的流程圖;圖8是在智能網(wǎng)電話系統(tǒng)中采用按照本發(fā)明的語音基準(zhǔn)登記方法的語音基準(zhǔn)系統(tǒng)方框圖;圖9a和b是語音基準(zhǔn)登記方法中使用的步驟的實施例的流程圖;圖10是說話持續(xù)時間檢驗的步驟的實施例流程圖;圖11是信噪比檢驗中使用的步驟的實施例流程圖;圖12是說話對應(yīng)時間的幅度圖;圖13是對某一說話的語音幀個數(shù)對應(yīng)時間的圖;圖14是某一說話的幅度直方圖;以及圖15是自動增益控制電路的方框圖。
附圖的詳細(xì)描述本文中描述的語音基準(zhǔn)登記方法可以用作說話人驗證方法和語音確認(rèn)方法。首先描述可以與語音登記方法一起使用的說話人驗證方法中的幾個改進(jìn)。然后描述采用登記方法的優(yōu)點的撥號服務(wù)。隨后詳細(xì)描述語音登記方法。
圖1是說話人驗證系統(tǒng)的實施例方框圖。重要的是要注意,說話人驗證系統(tǒng)可以在物理上用幾種方式來實施。例如,該系統(tǒng)可以是以與話筒相連的通用計算機(jī)中的軟件來實施;或者,本系統(tǒng)也可以以與存儲器和話筒相連的通用微處理器中的固件(firmware)來實現(xiàn);或者,本系統(tǒng)也可以用受合適的軟件控制的數(shù)字信號處理器(DSP)、控制器、存儲器和話筒來實現(xiàn)。注意,因為該過程可以用計算機(jī)中的軟件來執(zhí)行,因此含有計算機(jī)可讀指令的可讀存儲介質(zhì)可以被用來實施說話人驗證方法。對本領(lǐng)域中的普通技術(shù)人員來說很明顯的是,可以有各種各樣的系統(tǒng)結(jié)構(gòu),而特定的系統(tǒng)結(jié)構(gòu)的選擇取決于特定的應(yīng)用。
話筒12接收輸入話音,并將聲波轉(zhuǎn)換成電信號。特征析取器14分析該電信號,并析取語音的重要特征。例如,特征析取器首先將電信號數(shù)字化。隨后執(zhí)行數(shù)字化信號的倒頻譜,以確定倒頻譜系數(shù)。在另一只實施例中,采用線性預(yù)測分析(linear predictive analysis)來找到線性預(yù)測編碼(LPC)系數(shù)。也可以采用其他的特征獲取技術(shù)。
開關(guān)16附裝在特征析取器4上。該開關(guān)16代表訓(xùn)練階段與驗證階段使用了不同的路徑。在訓(xùn)練階段中,由碼本發(fā)生器18來分析倒頻譜系數(shù)。碼本發(fā)生器18的輸出被存儲到碼本20內(nèi)。在一種實施例中,碼本發(fā)生器18比較來自同一說話人的相同的發(fā)聲取樣,以形成這個人發(fā)聲的一般化的表述。該通用的表述是碼本中的訓(xùn)練發(fā)聲。訓(xùn)練發(fā)聲代表說出如數(shù)字“一”的使用者的一般化倒頻譜系數(shù)。訓(xùn)練發(fā)聲可以是語音、音素或如“二十一”或其他語言片段的一部分。除了記錄的使用者取樣以外,發(fā)聲還從一組非使用者取得。這些說話用來形成代表具有多個假冒基準(zhǔn)的假冒碼的混合。
在一種實施例中,碼本發(fā)生器18將說話人(使用者和非使用者)分成男性組和女性組。男性登記的基準(zhǔn)(男性組)被集中起來,以確定男性變差矢量。女性登記的基準(zhǔn)(女性組)被集中起來,以確定女性變差矢量。這些性別變差矢量將用在計算驗證階段中加權(quán)的Euclidean距離(接近程度的度量)。
在驗證階段,開關(guān)16將特征析取器14與比較器22相連。比較器22進(jìn)行說話人的試驗說話碼本中存儲的登記基準(zhǔn)之間以及試驗說話與假冒基準(zhǔn)分布之間的接近程度的數(shù)學(xué)分析。在一種實施例中,將一次試驗說話如說出的“一”與該說話人的“一”登記基準(zhǔn)以及“一”的假基準(zhǔn)分布比較。比較器22決定“一”的登記基準(zhǔn)、“一”的試驗發(fā)音和“一”的假冒基準(zhǔn)分布之間的接近程度的度量。當(dāng)試驗發(fā)音比假冒基準(zhǔn)分布更接近登記的基準(zhǔn)時,該說話人被驗證為是真實的說話人。否則,該說話人被判斷為是假冒者。在一種實施例中,接近程度的度量是修改的加權(quán)Euclidean距離。一種實施例中的修改包含采用通用的變差矢量,而不是每一登記的使用者的一個個變差矢量。在一種實施例中,男性變差矢量用于男性說話者,而女性變差矢量用于女性說話人。
判斷加權(quán)和組合系統(tǒng)24采用接近程度的度量來判斷試驗發(fā)音是否更接近于登記的基準(zhǔn)或假冒基準(zhǔn)分布。當(dāng)試驗發(fā)音比假冒基準(zhǔn)分布更接近于登記的基準(zhǔn)時,則作出驗證的判斷。當(dāng)試驗發(fā)音不是比假冒基準(zhǔn)分布更接近于登記的基準(zhǔn)時,則作出未被驗證的判斷。這是初步判斷。通常,要求說話人說出幾個發(fā)音(如“一”、“三”、“五”、“二十一”)。對這些試驗發(fā)音中的每一發(fā)音作出判斷。對多個判斷中的每一個加權(quán),并組合起來,形成驗證判斷。
對判斷加權(quán)是因為并不是所有的發(fā)音都具有相同的可靠性的。例如,“一”可以比“八”具有多得多的可靠判斷。結(jié)果,根據(jù)基本(underlying)的發(fā)音,通過首先對判斷加權(quán),可以形成更精確的驗證判斷??梢圆捎脙煞N加權(quán)方法。一種加權(quán)方法采用歷史方法。將取樣的發(fā)音與登記的基準(zhǔn)比較,以確定虛警的幾率PFA(說話者不是假冒者,但判斷是假冒的)和丟失的幾率PM(說話者是假冒的,但判斷不是假冒的)。PFA和PM是誤差的幾率。這些誤差的幾率用來對每一判斷加權(quán)。在一種實施例中,加權(quán)系數(shù)(權(quán)重)是由下面的等式描述的ai=log1-PMiPFAi]]>判斷是被驗證(真實的說話者)ai=logPMi1-PFAi]]>判斷是未被驗證(假冒者)當(dāng)經(jīng)加權(quán)的判斷之和大于零時,則驗證判斷是真實的說話者。否則,驗證判斷是假冒者。
對判斷加權(quán)的其他方法是基于判斷質(zhì)量的直接評估的。在一種實施例中,這是采用x2檢測器的。隨后,對這些判斷根據(jù)x2檢測器決定的置信度進(jìn)行加權(quán)。在另一種實施例中,采用大的樣本近似。所以,如果試驗統(tǒng)計量是t,找到b,使得c2(b)=t。如果它超過c2分布的1—a分位數(shù),則判斷是假冒者。
一種加權(quán)方案如下1.5,如果b>cx接受1.0,如果1—a≤b≤c接受—1.0,如果c拒絕≤b≤1—a—1.25,如果b<c拒絕當(dāng)加權(quán)的判斷之和大于零時,驗證判斷是真實的說話者。當(dāng)經(jīng)加權(quán)的判斷之和小于或等于零時,判斷是一冒者。
在另一種實施例中,特征析取器14將語音信號分成說話發(fā)出的聲音和非說話發(fā)出的聲音。說話發(fā)出的聲音通常包括元音,而大多數(shù)其他的聲音是非說話聲音。非說話聲音在訓(xùn)練階段和驗證階段中計算倒頻譜系數(shù)之前被除去。
這些采用取決于性別倒頻譜并僅采用說話聲音對判斷加權(quán)的技術(shù)可以被組合起來,或分開應(yīng)用于說話者驗證系統(tǒng)中。
圖2是用來形成說話者驗證判斷的步驟的實施例的流程圖。該過程在步驟40處通過在步驟42處產(chǎn)生一碼本開始。該碼本有多個用于多個說話者(登記的使用者,多人)中的每一個的登記基準(zhǔn)和多個假冒基準(zhǔn)。一種實施例中的登記基準(zhǔn)是用于發(fā)出特定聲音(如“一”)的特定使用者的倒頻譜系數(shù)。登記的基準(zhǔn)是由發(fā)聲的使用者產(chǎn)生的。確定每一發(fā)音的倒頻譜系數(shù),形成登記的基準(zhǔn)。在一種實施例中,請說話者重復(fù)該發(fā)音,并存儲兩個發(fā)音的通用化了的發(fā)音,作為登記的基準(zhǔn)。在另一個實施例中,兩次發(fā)音都被存儲起來作為登記的基準(zhǔn)。
在一種實施例中,男性說話者的數(shù)據(jù)庫用來確定男性變差矢量,而女性說話者的數(shù)據(jù)庫用來確定女性的變差矢量。在另一種實施例中,男性和女性說話者的數(shù)據(jù)量用來形成一男性假冒者碼本和女性假冒者碼本。特定性別的變差矢量被存儲在碼本中。在步驟44處,接收來自說話者的多個測試發(fā)音(輸入的發(fā)音集)。在一種實施例中,計算測試發(fā)音的倒頻譜系數(shù)。在步驟46處,將多個測試發(fā)音中的每一個發(fā)音與該說話者的多個登記的基準(zhǔn)比較。根據(jù)比較,形成多個判斷,多個登記的基準(zhǔn)中的每一個有一個判斷。在一種實施例中,該比較是有測試發(fā)音和登記基準(zhǔn)之間以及測試發(fā)音和假冒基準(zhǔn)分布之間的Euclidean加權(quán)距離決定的。在另一個實施例中,如果說話者是男性,則用男性變差矢量計算Euclidean加權(quán)距離,而如果說話者是女性,則用女性變差矢量計算Euclidean加權(quán)距離。在步驟48處加權(quán)多個判斷中的每一個,形成多個加權(quán)的判斷。加權(quán)可以是根據(jù)發(fā)音的歷史誤差率進(jìn)行的,也可以是根據(jù)發(fā)音電平置信度級別(置信度度量)進(jìn)行的。在步驟50處,將多個加權(quán)的判斷組合起來。在一種實施例中,組合的步驟包含將加權(quán)的判斷相加。隨后在步驟52處,根據(jù)組合的加權(quán)判斷進(jìn)行驗證判斷,在步驟54處結(jié)束該過程。在一種實施例中,如果和大于零,則驗證判斷是,說話者是真實的說話者,否則,說話者是假冒者。
圖3是用來形成說話者驗證判斷的碼本的步驟的實施例流程圖。該過程通過在步驟72處接收一輸入發(fā)音,在步驟70處開始。在一種實施例中,在步驟74處,輸入發(fā)音隨后被分成說話的聲音和非說話的聲音。隨后,在步驟76處,用說話的聲音計算倒頻譜系數(shù)。在步驟78處,這些系數(shù)被存儲起來,作為說話者的登記基準(zhǔn)。該過程隨后回到步驟72,用于下一個輸入的發(fā)音,直到所有的登記基準(zhǔn)已經(jīng)被存儲到了碼本中為止。
圖4是用來形成說話者驗證的步驟實施例的流程圖。該過程通過在步驟102處接收輸入發(fā)音而在步驟100處開始。接著,在步驟104處判斷說話者是男性還是女性。在說話者驗證應(yīng)用中,說話者表明他是特定的某個人。如果說話者表明的特定某個人是男性,那么就假定說話者是男性,即使該說話者是女性也是如此。隨后,在步驟106處,將輸入的發(fā)音分成說話發(fā)出的聲音和非說話發(fā)出的聲音。在步驟108處,從說話發(fā)出的聲音中獲取一些特征(如倒頻譜系數(shù)),形成測試發(fā)音。在步驟110處,如果通報的說話者是男性,則用通用的男性變差矢量計算加權(quán)的Euclidean距離(WED)。當(dāng)通報的說話者是女性時,就采用女性的變差矢量。在該說話者的測試發(fā)音和登記基準(zhǔn)之間和測試發(fā)音和男性(或者是女性)假冒基準(zhǔn)分布之間計算WED。在步驟112處,根據(jù)WED,為每一試驗發(fā)音形成判斷。隨后在步驟114處,根據(jù)用x2檢測器確定的置信度級別(置信度的度量)對這些判斷作出加權(quán)。在步驟116處,將加權(quán)的判斷相加。在步驟118處,根據(jù)加權(quán)判斷的和,作出驗證判斷。
采用上面討論的說話者驗證判斷使得說話者驗證系統(tǒng)得到改進(jìn),該系統(tǒng)比現(xiàn)有技術(shù)更可靠。
采用上述說話者驗證方法的撥號服務(wù)如圖5中所示。圖中的撥號服務(wù)是以銀行服務(wù)方式示出的。用戶在他們的電話150上撥打一服務(wù)號碼。隨后,公共交換電話網(wǎng)(PSTN)152將用戶的電話150與銀行156中的撥號服務(wù)計算機(jī)154相連。撥號服務(wù)無需是位于銀行內(nèi)的。下面參照圖6中的流程圖來說明該服務(wù)。通過在步驟172處撥打服務(wù)號碼(通信服務(wù)地址、號碼),該過程在步驟170處開始。隨后,計算機(jī)154敦促用戶(請求方)說出多個數(shù)字(訪問碼、多個號碼、訪問號),在步驟174處形成第一個發(fā)音(第一數(shù)字化發(fā)音)。在步驟176處,用獨立于說話者的話音識別,確認(rèn)這些數(shù)字。當(dāng)用戶以前曾經(jīng)使用過該撥號服務(wù)時,在步驟178處根據(jù)第一個發(fā)音,驗證該用戶。當(dāng)在步驟178處該用戶被確認(rèn)為是一個真實的用戶時,在步驟180處允許訪問該撥號服務(wù)。當(dāng)不能驗證該用戶時,在步驟182處請求用戶輸入一個個人標(biāo)識號(PIN)。該P(yáng)IN可以由用戶或者說出PIN,或者在鍵盤上輸入該P(yáng)IN來輸入。在步驟184處,確定該P(yáng)IN是否是有效的。當(dāng)PIN是無效的,則用戶在步驟186處被拒絕。當(dāng)該P(yáng)IN是有效的,則該用戶在步驟180處允許訪問該服務(wù)。采用上述方法,該撥號服務(wù)采用說話者驗證系統(tǒng)作為一種PIN選擇,當(dāng)如果它無法驗證該用戶則不能對該用戶拒絕訪問。
圖7是撥號訪問中使用的步驟的另一個實施例的流程圖。該過程通過在步驟202處用戶說出一個訪問碼形成多個發(fā)音,在步驟200處開始。在步驟204處,判斷是否用戶先前已經(jīng)訪問過該服務(wù)。當(dāng)用戶先前已經(jīng)訪問過該服務(wù)時,在步驟206處,說話者驗證系統(tǒng)嘗試驗證該用戶(識別)。當(dāng)說話者驗證系統(tǒng)能夠驗證該用戶時,在步驟208,允許用戶訪問該系統(tǒng)。當(dāng)系統(tǒng)不能驗證用戶時,在步驟210處請求一PIN。注意,用戶可以口述PIN,也可以在鍵盤上輸入PIN。在步驟212處,判斷該P(yáng)IN是否有效。當(dāng)PIN是無效的,則在步驟214處拒絕該用戶。當(dāng)該P(yáng)IN是有效的,則在步驟208處允許該用戶的訪問。
當(dāng)用戶先前沒有在步驟204處訪問過該通信服務(wù),則請該用戶在步驟216處輸入一PIN。在步驟218處,判斷該P(yáng)IN是否有效。當(dāng)該P(yáng)IN是無效的時候,在步驟220處拒絕訪問該服務(wù)。當(dāng)該P(yáng)IN是有效的,在步驟222處,請該用戶第二次口述訪問碼,形成第二個發(fā)音(多個第二次發(fā)音,第二個數(shù)字化的發(fā)音)。在步驟224處,將第一個發(fā)音(步驟202)和第二個發(fā)音之間的相似性與一閾值比較。在一個實施例中,用加權(quán)的Euclidean距離計算相似性。當(dāng)相似性小于或等于該閾值時,在用戶是男性的時候,請用戶再次口述訪問碼。當(dāng)用戶是女性時,從第二組數(shù)字中選擇出預(yù)定的數(shù)字。這使得系統(tǒng)能夠判斷用戶是男性還是女性。根據(jù)該信息,在說話者驗證過程中使用男性變差矢量或女性變差矢量。
圖8是智能網(wǎng)電話系統(tǒng)302中采用按照本發(fā)明的語音基準(zhǔn)登記方法的語音基準(zhǔn)系統(tǒng)300的方框圖。語音基準(zhǔn)系統(tǒng)300可以進(jìn)行語音識別或說話者驗證。語音基準(zhǔn)系統(tǒng)300是在服務(wù)節(jié)點或智能外圍設(shè)備(SN/IP)中實現(xiàn)的。當(dāng)語音基準(zhǔn)系統(tǒng)300是在服務(wù)節(jié)點中實現(xiàn)時,它直接與電話中心局—服務(wù)交換點(C0/SSP)304—308相連。中心局—服務(wù)交換點304—308與多個電話310—320相連。當(dāng)語音基準(zhǔn)系統(tǒng)300是在智能外圍設(shè)備中實現(xiàn)時,它與服務(wù)控制點(SCP)322相連。該方案中,來自多個調(diào)用特定特征如語音識別的電話310—320中的一個的呼叫要求有服務(wù)控制點322進(jìn)行處理。在CO/SSP 304—308處檢測要求特定處理的呼叫。這觸發(fā)了CO/SSP304—308中斷呼叫處理,而CO/SSP 304—308向SCP 300發(fā)送一個詢問,請求識別由用戶說出的單詞的信息。詢問是在7號信號系統(tǒng)7(SS7)鏈路324上進(jìn)行的,并由信號轉(zhuǎn)發(fā)點(STP)326路由選擇到合適的SCP 322。SCP 322發(fā)送一個智能外圍設(shè)備300的請求,進(jìn)行語音識別。語音基準(zhǔn)系統(tǒng)300可以用計算機(jī)服務(wù)節(jié)點來實施,它直接與電話中心局—服務(wù)交換點(C0/SSP)304—308相連。中心局—服務(wù)交換點304—308與多個電話310—320相連。當(dāng)語音基準(zhǔn)系統(tǒng)300是在智能外圍設(shè)備中實現(xiàn)的時候,它與服務(wù)控制點(SCP)322相連。該方案中,來自調(diào)用—特定性能如語音識別的多個電話310—320中的一個的呼叫要求由服務(wù)控制點322進(jìn)行處理。在C0/SSP 304—308處檢測要求特別處理的呼叫。這觸發(fā)了CO/SSP 304—308中斷呼叫處理,而C0/SSP 304—308向SCP 300發(fā)送一個詢問,請求識別由用戶說出的詞語的信息。該詢問在7號信號系統(tǒng)(SS7)鏈路324上執(zhí)行,并由信號轉(zhuǎn)發(fā)點(STP)326路由選擇到合適的SCP 322。SCP 322發(fā)送智能外圍設(shè)備300執(zhí)行語音識別的請求。語音基準(zhǔn)系統(tǒng)300可以用能夠讀取和執(zhí)行計算機(jī)可讀存儲介質(zhì)328中存儲的計算機(jī)可讀指令的計算機(jī)來執(zhí)行。存儲介質(zhì)328上的指令指令計算機(jī)如何執(zhí)行按照本發(fā)明的登記方法。
圖9a和b是語音基準(zhǔn)登記方法的流程圖。該方法可以用于任何語音基準(zhǔn)系統(tǒng),包括用于圖8中所示的智能電話網(wǎng)的一部分。通過在步驟352處接收來自用戶的第一個單詞發(fā)音,登記過程在步驟350處開始。接著,在步驟354處,從第一個發(fā)音中獲取多個特征。在一個實施例中,多個特征是發(fā)音的倒頻譜系數(shù)。在步驟356處,接收第二個發(fā)音。在一個實施例中,根據(jù)用戶口述單詞的請求,接收第一個發(fā)音和第二個發(fā)音。接著,在步驟358處,從第二個發(fā)音中獲取多個特征。注意,這相同的特征是為兩個發(fā)音而獲取的。在步驟360處,決定來自第一個發(fā)音的多個特征和來自第二個發(fā)音的多個特征之間的第一個相似性。在一個實施例中,該相似性是用隱藏的(hidden)Markov模型Veterbi計分系統(tǒng)確定的。隨后,在步驟362處,確定第一個相似性是否小于預(yù)定的相似性。當(dāng)?shù)谝粋€相似性不小于預(yù)定的相似性時,則在步驟364處形成一基準(zhǔn)模式(pattern)(基準(zhǔn)發(fā)音)。
在一個實施例中,基準(zhǔn)模式是來自第一和第二發(fā)音的特征的平均值。在另一個實施例中,基準(zhǔn)模式由存儲來自第一發(fā)音和第二發(fā)音的特征組成,有一個從二者到詞匯單詞的指針。
當(dāng)?shù)谝粋€相似性小于預(yù)定的相似性時,接收第三個發(fā)音(第三個數(shù)字化的發(fā)音),并在步驟366處獲取來自第三個發(fā)音的多個特征。通常,發(fā)音是根據(jù)系統(tǒng)的請求接收的。在步驟368處,確定來自第一個發(fā)音和第三個發(fā)音的特征之間的第二個相似性。用同一函數(shù)作為第一個相似性計算第二個相似性。接著,在步驟370處,確定第二個相似性是否大于或等于預(yù)定的相似性。當(dāng)?shù)诙€相似性大于或等于預(yù)定的相似性時,在步驟364處形成一個基準(zhǔn)。當(dāng)?shù)诙€相似性不大于或等于預(yù)定的相似性時,則在步驟372處,計算來自第二個發(fā)音和第三個發(fā)音的特征之間的相似性。接著,在步驟374處,判斷第三個相似性是否大于或等于預(yù)定的相似性。當(dāng)?shù)谌齻€相似性大于或等于預(yù)定的相似性時,在步驟376處形成一個基準(zhǔn)。當(dāng)?shù)谌齻€相似性不大于或等于預(yù)定的相似性時,在步驟378處重新開始登記過程。采用該方法,登記過程避免了在基準(zhǔn)模式(pattern)中有不希望的噪聲或其他的不正常。
在圖9a和b所示語音基準(zhǔn)登記方法的一種實施例中,對每一個發(fā)音進(jìn)行持續(xù)時間的檢查。持續(xù)時間的檢查增加了背景噪聲不被認(rèn)為是發(fā)音或發(fā)音的一部分的機(jī)會。持續(xù)時間檢查的流程圖如圖10所示。通過在步驟402處確定發(fā)音的持續(xù)時間,該過程在步驟400處開始。接著,在步驟404處判斷持續(xù)時間是否小于一最小持續(xù)時間。當(dāng)持續(xù)時間小于該最小持續(xù)時間時,在步驟406處就不去管這個發(fā)音。在一種實施例中,請用戶再次口述該單詞,并且重新開始該過程。當(dāng)持續(xù)時間不小于最小持續(xù)時間時,則在步驟408處,判斷該持續(xù)時間是否大于一最大持續(xù)時間。當(dāng)該持續(xù)時間大于一最大持續(xù)時間時,在步驟406處不去管這個發(fā)音。當(dāng)該持續(xù)時間不大于該最大持續(xù)時間時,在步驟410處保留該發(fā)音用于進(jìn)一步的處理。
語音基準(zhǔn)登記方法的另一個實施例檢查信噪比是否適合于每一發(fā)音。這減小了噪聲被存儲為基準(zhǔn)模式的可能性。該方法如圖11中的流程圖所示。通過在步驟422處接收一發(fā)音,過程在步驟420處開始。接著,在步驟424處確定信噪比。在步驟426處,判斷信噪比是否大于一閾值(預(yù)定的信噪比)。當(dāng)信噪比大于該閾值時,在步驟428處對該發(fā)音進(jìn)行處理。當(dāng)信噪比不大于該閾值時,在步驟430處請求另一個發(fā)音。
圖12是發(fā)音幅度對應(yīng)時間的圖450,并且示出了如何確定發(fā)音的持續(xù)時間的一個實施例。語音基準(zhǔn)系統(tǒng)請求用戶口述一個單詞,開始該響應(yīng)時間(發(fā)音時間)452。如果沒有檢測到發(fā)音,則響應(yīng)周期在一超時處(超時周期)454結(jié)束。對幅度進(jìn)行監(jiān)視,并且當(dāng)它跨越到一幅度閾值456以上時,就假設(shè)開始發(fā)音(開始時間)458。當(dāng)發(fā)音的幅度落到該閾值以下時,就將其標(biāo)記為結(jié)束時間460。計算該持續(xù)時間,作為結(jié)束時間460和開始時間458之差。
在本發(fā)明的另一個實施例中,確定響應(yīng)周期或開始時間與結(jié)束時間之間出現(xiàn)的語音幀的個數(shù)(計數(shù))。將響應(yīng)周期分成幾個幀,通常為20ms長,并且每一幀的特征或者是一個非話音幀,或者是一個話音幀。圖13給出了響應(yīng)周期中話音幀472的個數(shù)估計的圖470。當(dāng)話音幀的個數(shù)估計超過一閾值(預(yù)定個數(shù)的話音幀)時,則判斷接收到一有效的發(fā)音。當(dāng)話音幀的個數(shù)不超過閾值時,則接收到噪聲的可能性較大,而不是有效的發(fā)音。
在另一種實施例中,執(zhí)行發(fā)音的幅度直方圖。圖14是發(fā)音的幅度直方圖480。幅度直方圖480測量來自數(shù)字化儀的幅度每一位中取樣的個數(shù)。當(dāng)特定的位482沒有或只有很少幾個取樣時,系統(tǒng)產(chǎn)生一條數(shù)字化儀可能存在問題的告警消息。數(shù)字化儀的運(yùn)行不當(dāng)會使語音基準(zhǔn)系統(tǒng)的運(yùn)行質(zhì)量下降。
在另一個實施例中,用一自動增益控制電路在從發(fā)音獲取特征前,用來調(diào)節(jié)放大器的增益。圖15是自動增益控制電路500的方框圖。該電路500還包括一些邏輯電路,用以判斷是否應(yīng)當(dāng)保持該發(fā)音用于處理或是否應(yīng)當(dāng)請求另一發(fā)音。一可調(diào)增益放大器502有一個與發(fā)音信號線(輸入信號)504耦合的輸入。放大器502的輸出506與信噪比表508相連。信噪比表508的輸出510與比較器512耦合。比較器512判斷信噪比是否大于一閾值信噪比514。當(dāng)信噪比小于該閾值時,從比較器512輸出一邏輯“1”。比較器512的輸出513與或門514以及可調(diào)增益放大器502的增加增益輸入516耦合。當(dāng)輸出513是邏輯“1”時,放大器516的增益增加一個增量臺階。
放大器502的輸出506與引導(dǎo)到特征析取器的信號線518相連。另外,輸出506與幅度比較器520相連。比較器520判斷輸出506是否超過一飽和閾值522。輸出524與或門514相連,也與放大器502的下降增益輸入526相連。當(dāng)輸出506超過該飽和閾值522時,比較器520輸出一個邏輯“1”,使放大器502將其增益減小一個增量?;蜷T514的輸出是一個忽略發(fā)音信號線528。當(dāng)或門的輸出是邏輯“1”時,該發(fā)音被忽略。電路減小了因輸入放大器不正確增益而接收發(fā)音不良表述的機(jī)會。
至此,已經(jīng)描述了一種顯著減小采用不良發(fā)音形成基準(zhǔn)模式的機(jī)會的語音基準(zhǔn)登記方法。盡管本發(fā)明的描述是針對特定實施例來進(jìn)行的,但對本領(lǐng)域的技術(shù)人員來說,還可以有各種變異、修改和變化形式。因此,權(quán)利要求書中應(yīng)當(dāng)包含了所有這些變異、修改和變化形式。
權(quán)利要求
1.一種語音基準(zhǔn)登記方法,其特征在于,它包含下述步驟(a)接收一單詞的第一個發(fā)音;(b)從第一個發(fā)音中獲取多個特征;(c)接收所述單詞的第二個發(fā)音;(d)從所述第二個發(fā)音中獲取所述多個特征;(e)確定從所述第一個發(fā)音獲得的所述多個特征與從所述第二個發(fā)音獲得的所述多個特征之間的第一個相似性;(f)當(dāng)所述第一個相似性小于一預(yù)定的相似性時,請用戶說出所述單詞的第三個發(fā)音;(g)從所述第三個發(fā)音獲得所述多個特征;(h)確定從所述第一個發(fā)音的所述多個特征與從所述第三個發(fā)音的所述多個特征之間的第二個相似性;以及(i)當(dāng)所述第二個相似性大于或等于所述預(yù)定的相似性,形成所述單詞的一個基準(zhǔn)。
2.如權(quán)利要求1所述的方法,其特征在于,它還包含下述步驟(j)當(dāng)所述第二個相似性小于所述預(yù)定的相似性時,確定從所述第二個發(fā)音獲得的所述多個特征與從所述第三個發(fā)音獲得的所述多個特征之間的相似性;(k)當(dāng)所述第三個相似性大于或等于所述預(yù)定相似性時,形成所述單詞的所述基準(zhǔn)。
3.如權(quán)利要求2所述的方法,其特征在于,它還包括下述步驟(1)當(dāng)所述第三個相似性小于所述預(yù)定的相似性時,回到步驟(a)。
4.如權(quán)利要求1所述的方法,其特征在于,所述步驟(c)還包括下述步驟(c1)確定所述第二個發(fā)音的持續(xù)時間;(c2)當(dāng)所述持續(xù)時間小于一最小持續(xù)時間時,不考慮所述第二個發(fā)音。
5.如權(quán)利要求1所述的方法,其特征在于,所述步驟(c)還包括下述步驟(c1)確定所述第二個發(fā)音的持續(xù)時間;(c2)當(dāng)所述持續(xù)時間大于一最大持續(xù)時間時,不考慮所述第二個發(fā)音。
6.如權(quán)利要求5所述的方法,其特征在于,所述步驟(c1)還包括下述步驟(ⅰ)設(shè)定一幅度閾值;(ⅱ)當(dāng)一輸入信號超過所述幅度閾值時,確定一起始時間;(ⅲ)當(dāng)所述輸入信號小于所述幅度閾值時,在所述起始時間以后,確定一結(jié)束時間;(ⅳ)計算所述結(jié)束時間和所述起始時間的差值,作為所述持續(xù)時間。
7.如權(quán)利要求1所述的方法,其特征在于,所述步驟(d)還包括下述步驟(d1)確定話音語音幀個數(shù)的估計;(d2)當(dāng)所述話音語音幀的所述個數(shù)的所述估計小于一閾值時,請用戶重復(fù)所述單詞;(d3)回到步驟(c);
8.如權(quán)利要求1所述的方法,其特征在于,所述步驟(a)還包括下述步驟(a1)確定所述第一個發(fā)音的信噪比;(a2)當(dāng)所述信噪比小于一預(yù)定的信噪比時,增大一話音放大器的增益。
9.如權(quán)利要求8所述的方法,其特征在于,它還包括下述步驟(a3)請所述用戶重復(fù)所述單詞。
10.如權(quán)利要求1所述的方法,其特征在于,所述步驟(b)還包括下述步驟(b1)確定所述第一個發(fā)音的幅度直方圖。
11.一種語音基準(zhǔn)登記方法,其特征在于,它包含下述步驟(a)請用戶說出一單詞;(b)檢測一第一個發(fā)音;(c)請所述用戶說出所述單詞;(d)檢測第二個發(fā)音;(e)確定所述第一個發(fā)音與所述第二個發(fā)音之間的第一個相似性;(f)當(dāng)所述第一個相似性小于一預(yù)定的相似性時,請所述用戶說出所述單詞;(d)檢測第三個發(fā)音;(h)檢測所述第一個發(fā)音與所述第三個發(fā)音之間的第二個相似性;以及(i)當(dāng)所述第二個相似性大于或等于所述預(yù)定的相似性時,產(chǎn)生一基準(zhǔn)。
12.如權(quán)利要求11所述的方法,其特征在于,它還包括下述步驟(j)確定所述第二個發(fā)音與所述第三個發(fā)音之間的第三個相似性;(k)當(dāng)所述第三個相似性大于或等于所述預(yù)定的相似性時,產(chǎn)生所述基準(zhǔn)。
13.如權(quán)利要求12所述的方法,其特征在于,它還包括下述步驟當(dāng)所述第三個相似性小于所述預(yù)定的相似性時,回到步驟(a)。
14.如權(quán)利要求11所述的方法,其特征在于,所述步驟(b)還包括下述步驟(b1)確定所述第一個發(fā)音是否在一超時周期中超過了一個幅度閾值;(b2)當(dāng)所述第一個發(fā)音不超過所述超時周期內(nèi)的所述幅度閾值時,回到步驟(a)。
15.如權(quán)利要求11所述的方法,其特征在于,所述步驟(b)還包括下述步驟(b1)確定話音語音幀個數(shù)的估計;(b2)當(dāng)所述話音語音幀的個數(shù)小于話音語音幀的一預(yù)定個數(shù)時,回到步驟(a)。
16.如權(quán)利要求11所述的方法,其特征在于,所述步驟(b)還包括下述步驟(b1)確定所述第一個發(fā)音的持續(xù)時間;(b2)當(dāng)所述持續(xù)時間小于一最小持續(xù)時間時,回到步驟(a);(b3)當(dāng)所述持續(xù)時間大于一最大持續(xù)時間時,回到步驟(a)。
17.一種含有計算機(jī)可讀指令的計算機(jī)可讀存儲介質(zhì),其特征在于,當(dāng)由計算機(jī)執(zhí)行所述計算機(jī)可讀指令時,所述計算機(jī)可讀存儲介質(zhì)執(zhí)行下述步驟(a)請一用戶說出一單詞;(b)接收第一個數(shù)字化的發(fā)音;(c)從所述第一個數(shù)字化的發(fā)音獲取多個特征;(d)請所述用戶說出所述單詞;(e)接收所述單詞的第二個數(shù)字化發(fā)音;(f)從所述第二個數(shù)字化發(fā)音獲取所述多個特征;(g)確定從所述第一個數(shù)字化的發(fā)音獲得的所述多個特征與從所述第二個數(shù)字化的發(fā)音獲得的所述多個特征之間的第一個相似性;(h)當(dāng)所述第一個相似性小于一預(yù)定的相似性時,請所述用戶說出所述單詞的第三個發(fā)音;(i)從所述第三個數(shù)字化的發(fā)音獲得所述多個特征;(j)確定從所述第一個數(shù)字化發(fā)音獲得的所述多個特征與從所述第三個數(shù)字化的發(fā)音獲得的所述多個特征之間的第二個相似性;以及(k)當(dāng)所述第二個相似性大于或等于所述預(yù)定的相似性時,形成所述單詞的一個基準(zhǔn)。
18.如權(quán)利要求17所述的計算機(jī)可讀存儲介質(zhì),其特征在于,它執(zhí)行下述步驟(1)當(dāng)所述第二個相似性小于所述預(yù)定的相似性時,確定從所述第二個數(shù)字化發(fā)音獲得的所述多個特征與從所述第三個數(shù)字化的發(fā)音獲得的所述多個特征之間的第三個相似性;(m)當(dāng)所述第三個相似性大于或等于所述預(yù)定的相似性時,形成所述單詞的所述基準(zhǔn)。
19.如權(quán)利要求18所述的計算機(jī)可讀存儲介質(zhì),其特征在于,它還執(zhí)行下述步驟(n)當(dāng)所述第三個相似性小于所述預(yù)定的相似性時,回到步驟(a)。
20.如權(quán)利要求17所述的計算機(jī)可讀存儲介質(zhì),其特征在于,所述步驟(c)還包括下述步驟(c1)確定一信噪比;(c2)當(dāng)所述信噪比小于一預(yù)定的信噪比時,進(jìn)行到步驟(a);(c3)確定一放大器增益是否飽和了;(c4)當(dāng)所述放大器增益飽和時,進(jìn)行到步驟(a)。
21.如權(quán)利要求20所述的計算機(jī)可讀存儲介質(zhì),其特征在于,所述步驟(c2)還包括增大放大器的增益的步驟。
22.如權(quán)利要求20所述的計算機(jī)可讀存儲介質(zhì),其特征在于,所述步驟(c4)還包括降低一放大器增益的步驟。
全文摘要
一種語音基準(zhǔn)登記方法,它包含下述步驟:(a)請一用戶說出一單詞;(b)檢測一第一發(fā)音(354);(c)請用戶說出該單詞;(d)檢測第二個發(fā)音(358);(e)確定第一個發(fā)音和第二個發(fā)音之間的第一個相似性(362);(f)當(dāng)?shù)谝粋€相似性小于一預(yù)定的相似性時,請用戶說出該單詞;(g)檢測第三個發(fā)音(366);(h)確定第一個發(fā)音和第三個發(fā)音之間的第二個相似性(370);以及(i)當(dāng)?shù)诙€相似性大于或等于預(yù)定的相似性時,產(chǎn)生一基準(zhǔn)(364)。
文檔編號H04M3/493GK1278944SQ98810981
公開日2001年1月3日 申請日期1998年8月17日 優(yōu)先權(quán)日1997年9月17日
發(fā)明者小R·W·博斯梅爾 申請人:阿美利泰克股份有限公司