專利名稱:語音認(rèn)證系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用語音來進(jìn)行身份確認(rèn)的語音認(rèn)證系統(tǒng),尤其涉及一 種文本依存型的語音認(rèn)證系統(tǒng)。
背景技術(shù):
到目前為止,作為系統(tǒng)使用者的身份確認(rèn)的一個(gè)方法,應(yīng)用著語音認(rèn)證。 近年來,在移動(dòng)環(huán)境中的電子商務(wù)交易等時(shí)的個(gè)人認(rèn)證中,使用作為生物測 定學(xué)認(rèn)證之一的指紋認(rèn)證的情況很多。但是,指紋認(rèn)證另外需要特別的傳感 器,而在利用語音來進(jìn)行個(gè)人認(rèn)證時(shí),例如,由于便攜電話中已經(jīng)安裝有作 為傳感器的麥克風(fēng),所以希望將便攜終端適用于移動(dòng)環(huán)境下的語音認(rèn)證。語音認(rèn)證大致分為文本依存型和文本獨(dú)立型兩種。文本依存型是這樣一 種方式,即,預(yù)先讓使用者朗讀關(guān)鍵詞(密碼)或句子,來登錄該語音,在 認(rèn)證時(shí),使使用者說出與登錄時(shí)相同的關(guān)鍵詞或句子,來進(jìn)行認(rèn)證。文本獨(dú) 立型是與說話內(nèi)容無關(guān)而僅通過音質(zhì)來進(jìn)行認(rèn)證的方式。因此,在文本獨(dú)立 型的情況下,不需要決定關(guān)鍵詞等,使用者可通過任意的發(fā)聲內(nèi)容來進(jìn)行登 錄及認(rèn)證。本發(fā)明涉及前一種的文本依存型的語音認(rèn)證。在文本依存型語音認(rèn)證中,由于根據(jù)音質(zhì)和發(fā)聲內(nèi)容(關(guān)鍵詞等)的秘 密性信息兩者來進(jìn)行認(rèn)證處理,所以可得到較高的認(rèn)證精度。但是,在認(rèn)證 時(shí)旁邊有其他人的環(huán)境中,有可能會(huì)被聽到秘密的關(guān)鍵詞。因此,在不能保 持私秘性的環(huán)境中進(jìn)行認(rèn)證的用途中(例如,店鋪的收銀機(jī)或在自動(dòng)售貨機(jī) 中使用內(nèi)置付帳功能的便攜電話來進(jìn)行支付時(shí)的身份確認(rèn)等中),由于使用 者有抗拒情緒,所以很難采用文本依存型語音認(rèn)證。另外,在暴露了關(guān)鍵詞的情況下,由于發(fā)聲內(nèi)容的秘密性不能用于認(rèn)證,所以認(rèn)證精度降低了。進(jìn)而,還有他人用磁帶錄音機(jī)或IC錄音機(jī)來不正當(dāng)?shù)劁浿屏耸褂谜弑救税l(fā)出的秘密的關(guān)鍵詞,并在認(rèn)證時(shí)通過將其進(jìn)行再現(xiàn), 從而成功詐騙(錄音再現(xiàn)詐騙)的危險(xiǎn)。對(duì)于這些問題,為了防止錄音再現(xiàn)詐騙,提出了根據(jù)語音的相位差信息
來檢測出是來自揚(yáng)聲器的再現(xiàn)的方法(參考專利文獻(xiàn)1)和通過比較傳送特性,或通過在語音上覆蓋DTMF信號(hào)來輸入聲音空隙,從而檢測出錄音再現(xiàn) 的方法(參考專利文獻(xiàn)2)等。另外,還存在使使用者每次認(rèn)證對(duì)不同的內(nèi) 容的文本進(jìn)行發(fā)聲,來防止錄音再現(xiàn)詐騙的系統(tǒng)(參考專利文獻(xiàn)3)。另外,提出了如下方法,即,使多種密碼與索引相對(duì)應(yīng)來進(jìn)行登錄,在 認(rèn)證時(shí),與密碼一起,輸入與該密碼對(duì)應(yīng)的索引,從而即使密碼被暴露,也 可防止詐騙(專利文獻(xiàn)4)。另外,提出了這樣一種方法,即作為在附近不 暴露用于語音認(rèn)證的密碼的方法,顯示分別對(duì)號(hào)碼指定了顏色的畫面,通過 在認(rèn)證時(shí)發(fā)出顏色的名字,從而防止密碼的泄漏(專利文獻(xiàn)5)。另外,在通過數(shù)字多位的語音輸入來進(jìn)行操作者的認(rèn)證的系統(tǒng)中,還有 預(yù)先準(zhǔn)備多種數(shù)字位的輸入順序,在認(rèn)證時(shí)指示其中的一種來加以輸入的方 法(專利文獻(xiàn)6)。另外,還有通過指定為使秘密的記號(hào)串變形而發(fā)聲,而 防止密碼的泄漏的系統(tǒng)(專利文獻(xiàn)7)。進(jìn)一步,還已知通過指示將虛擬號(hào) 碼隨機(jī)插入到語音輸入的密碼中,從而防止密碼的泄漏的語音響應(yīng)識(shí)別裝置(專利文獻(xiàn)8)。專利文獻(xiàn)l-JP特開2001--10949號(hào)公報(bào)專利文獻(xiàn)2:JP特表2002-一514318號(hào)公報(bào)專利文獻(xiàn)3:JP特開2000-_ 148187號(hào)公報(bào)專利文獻(xiàn)4:JP特開2000--181490號(hào)公報(bào)專利文獻(xiàn)5:JP特開2002.-311992號(hào)公報(bào)專利文獻(xiàn)6:JP特開昭59-_ 191645號(hào)公報(bào)專利文獻(xiàn)7:JP特開昭63-—231496號(hào)公報(bào)專利文獻(xiàn)8:JP特開昭63--207262號(hào)公報(bào)但是,即使執(zhí)行如上述專利文獻(xiàn)1 3記載的錄音再現(xiàn)詐騙對(duì)策,由于在錄音的時(shí)刻暴露了密碼,所以認(rèn)證精度也降低了。另外,為了防止密碼的泄漏或進(jìn)行隱藏,如上述專利文獻(xiàn)4 8所記載的方法那樣,需要發(fā)聲內(nèi)容 的改變或特別的操作,有對(duì)使用者來說難以使用的問題。另外,在每次認(rèn)證 時(shí)指定發(fā)聲內(nèi)容的情況下,由于說話內(nèi)容(說什么)的秘密信息不能用于認(rèn) 證,所以有不能得到高精度的問題
發(fā)明內(nèi)容
鑒于上述問題,本發(fā)明的目的是提供一種在文本依存型語音認(rèn)證系統(tǒng) 中,通過防止關(guān)鍵詞的泄漏和錄音詐騙,可以使用關(guān)鍵詞的秘密性來維持高 認(rèn)證精度的語音認(rèn)證系統(tǒng)。為了實(shí)現(xiàn)上述目的,本發(fā)明的語音認(rèn)證系統(tǒng),對(duì)關(guān)鍵詞進(jìn)行語音輸入而 進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng),其特征在于,具有輸入部,其將以 可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入,對(duì)每個(gè)所 述部分隔開時(shí)間間隔經(jīng)多次來接收;說話人模型(SpeakerModel)存儲(chǔ)部, 其預(yù)先存儲(chǔ)使用者的登錄關(guān)鍵詞,并將該登錄關(guān)鍵詞作為以所述可發(fā)聲的單 位所作成的說話人模型;特征量轉(zhuǎn)換部,從在所述輸入部中通過一次語音輸 入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音的特征量;類似度計(jì) 算部,其求出所述特征量轉(zhuǎn)換部所求出的特征量和所述說話人模型之間的類 似度;發(fā)聲內(nèi)容判斷部,其根據(jù)所述類似度計(jì)算部所求出的類似度,通過所 述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)信息;關(guān)鍵詞確認(rèn)部,其根據(jù)所述發(fā) 聲內(nèi)容判斷部所判斷的與發(fā)聲內(nèi)容有關(guān)的信息,判斷利用所述多次語音輸入 的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷部,其根據(jù)所述關(guān)鍵詞確認(rèn)部的 判斷結(jié)果和由所述類似度計(jì)算部所求出的類似度,判斷接受還是拒絕認(rèn)證。根據(jù)該結(jié)構(gòu),將關(guān)鍵詞通過以可發(fā)聲的單位作為最小單位而分割為多個(gè) 部分來進(jìn)行語音輸入,在周圍有他人的環(huán)境中進(jìn)行認(rèn)證時(shí),可以防止整個(gè)關(guān) 鍵詞的泄漏。另外,由于不一次連續(xù)發(fā)出整個(gè)關(guān)鍵詞,所以可以防止整個(gè)關(guān) 鍵詞被錄音,故還可抑制錄音詐騙。并且,在關(guān)鍵詞確認(rèn)部中,判斷通過多 次的語音輸入,構(gòu)成登錄關(guān)鍵詞的所有的音韻的語音輸入是否完成,并根據(jù) 該判斷結(jié)果和類似度計(jì)算部所求出的類似度,來判斷接受還是拒絕認(rèn)證,從 而可以提供高精度的文本依存型語音認(rèn)證系統(tǒng)。本發(fā)明的語音認(rèn)證系統(tǒng)中,所述可發(fā)聲的單位的一個(gè)例子是音節(jié)。這時(shí), 在所述說話人模型存儲(chǔ)部中,最好對(duì)構(gòu)成登錄關(guān)鍵詞的各音節(jié)的說話人模型 添加有分別獨(dú)立的索引,所述特征量轉(zhuǎn)換部從通過所述語音輸入所接受的關(guān) 鍵詞的部分中求出每個(gè)音節(jié)的特征量,所述類似度計(jì)算部求出所述每個(gè)音節(jié) 的特征量和所述說話人模型之間的類似度,語音認(rèn)證系統(tǒng)還具有音節(jié)判斷 部,該音節(jié)判斷部根據(jù)所述類似度計(jì)算部所求出的類似度,判斷通過所述語
音輸入所接受的關(guān)鍵詞的部分與登錄關(guān)鍵詞的哪個(gè)音節(jié)最類似,所述關(guān)鍵詞確認(rèn)部根據(jù)所述音節(jié)判斷部的判斷結(jié)果,判斷利用通過所述多次語音輸入所判斷的音節(jié)能否構(gòu)成登錄關(guān)鍵詞。由此,即使不進(jìn)行語音識(shí)別,在認(rèn)證時(shí)也可判斷語音輸入的關(guān)鍵詞的說話內(nèi)容是否與登錄關(guān)鍵詞的說話內(nèi)容一致,所 以不需要具有語音識(shí)別用的語法字典等,就可以簡化系統(tǒng)結(jié)構(gòu)。本發(fā)明的語音認(rèn)證系統(tǒng)中,可發(fā)聲的單位的另一例子是數(shù)字的讀出或字 母的讀出。由此,可以適用于由數(shù)字或者字母、或這些的組合構(gòu)成的關(guān)鍵詞。本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,還具有語音識(shí)別部,該語音識(shí)別部 根據(jù)所述特征量轉(zhuǎn)換部所求出的特征量中,通過不特定說話人的語音識(shí)別來 識(shí)別所述關(guān)鍵詞的部分的音韻,所述關(guān)鍵詞確認(rèn)部根據(jù)所述語音識(shí)別部的識(shí) 別結(jié)果,判斷利用通過所述多次的語音輸入被語音識(shí)別的結(jié)果能否構(gòu)成登錄 關(guān)鍵詞。通過利用語音識(shí)別來判斷認(rèn)證時(shí)的關(guān)鍵詞的說話內(nèi)容是否與登錄關(guān) 鍵詞的說話內(nèi)容一致,可以進(jìn)行高精度的語音認(rèn)證。本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,在對(duì)所述關(guān)鍵詞的某個(gè)部分的語音 輸入結(jié)束之后再經(jīng)過規(guī)定時(shí)間也沒有對(duì)下一部分的語音輸入,而且利用此次 為止的語音輸入的發(fā)聲內(nèi)容信息無法構(gòu)成登錄關(guān)鍵詞的情況下,所述認(rèn)證判 斷部拒絕認(rèn)證。這是因?yàn)榭梢詮?qiáng)化安全性。本發(fā)明的語音認(rèn)證系統(tǒng)中優(yōu)選地,還具有位置信息取得部,其每當(dāng)有 所述關(guān)鍵詞的部分的語音輸入時(shí),取得使用者的所在位置信息;位置確認(rèn)部,其比較前次有語音輸入時(shí)所述位置信息取得部所取得的所在位置信息和這 次有語音輸入時(shí)所述位置信息所取得部取得的所在位置信息,確認(rèn)在從前次 有語音輸入時(shí)到這次有語音輸入時(shí)為止的期間使用者是否移動(dòng)了規(guī)定距離 以上。這是因?yàn)樵诜指铌P(guān)鍵詞而進(jìn)行語音輸入時(shí),每次語音輸入時(shí)移動(dòng)位置, 從而進(jìn)一步降低了周圍的其他人知道整個(gè)關(guān)鍵詞的可能性,由此可以強(qiáng)化安 全性。另外,在本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,還具有類似度綜合部,該 類似度綜合部對(duì)通過所述多次語音輸入所接收的關(guān)鍵詞的所有部分,綜合所 述類似度計(jì)算部所求出的類似度來求出綜合類似度,所述認(rèn)證判斷部根據(jù)所 述類似度綜合部所求出的綜合類似度,判斷接受還是拒絕認(rèn)證。這是因?yàn)橛?于對(duì)整個(gè)關(guān)鍵詞綜合判斷類似度使發(fā)聲長度變長,所以可以通過穩(wěn)定的類似
度來進(jìn)行判斷。還有,本發(fā)明的語音認(rèn)證系統(tǒng)中,優(yōu)選地,所述輸入部利用使用者的便 攜終端來接收語音輸入。這是因?yàn)椋纱?,可以在離開最先輸入語音的位置 的位置上進(jìn)行第二次之后的語音輸入,所以可以降低整個(gè)關(guān)鍵詞暴露給他人 的可能性。為了實(shí)現(xiàn)上述目的,本發(fā)明的計(jì)算機(jī)程序,是實(shí)現(xiàn)對(duì)關(guān)鍵詞進(jìn)行語音輔r 入而進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng),其特征在于,使計(jì)算機(jī)執(zhí)行如下處理輸入處理,將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞 的語音輸入,對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次來接收;特征量轉(zhuǎn)換處理, 從通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音 的特征量;類似度計(jì)算處理,參考作為以所述可發(fā)聲的單位所作成的說話者 模型而預(yù)先登錄有使用者的關(guān)鍵詞的說話人模型存儲(chǔ)部,求出所述特征量轉(zhuǎn) 換處理索求出的特征量和所述說話人模型之間的類似度;發(fā)聲內(nèi)容判斷處 理,根據(jù)所述類似度計(jì)算處理所求出的類似度,通過所述多次語音輸入來判 斷與發(fā)聲內(nèi)容有關(guān)的信息;關(guān)鍵詞確認(rèn)處理,根據(jù)所述發(fā)聲內(nèi)容判斷處理所 判斷的與發(fā)聲內(nèi)容有關(guān)的信息,判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否 構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷處理,根據(jù)所述關(guān)鍵詞確認(rèn)處理的判斷結(jié)果和所 述類似度計(jì)算處理所求出的類似度,判斷接受還是拒絕認(rèn)證。 記錄了上述計(jì)算機(jī)程序的記錄媒體也是本發(fā)明的一個(gè)方面。
圖1是表示本發(fā)明的第一實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。 圖2是說明在所述語音認(rèn)證系統(tǒng)中,根據(jù)認(rèn)證時(shí)從輸入關(guān)鍵詞的音節(jié)和 登錄關(guān)鍵詞的音節(jié)的類似度來判斷關(guān)鍵詞的正確性的方法的圖。圖3是表示本發(fā)明的第一實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。 圖4是表示本發(fā)明的第二實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。 圖5是表示本發(fā)明的第二實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。 圖6是表示本發(fā)明的第三實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。 圖7是表示本發(fā)明的第三實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。 圖8是表示本發(fā)明的第四實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。
圖9是表示本發(fā)明的第四實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。
具體實(shí)施例方式
(第一實(shí)施方式) 下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的一個(gè)實(shí)施方式。
在本實(shí)施方式的語音認(rèn)證系統(tǒng)中,要接受認(rèn)證的使用者通過從便攜電話 或便攜終端中語音輸入預(yù)先所登錄的秘密的關(guān)鍵詞(密碼),來接受認(rèn)證。 在該語音認(rèn)證系統(tǒng)中,使用者在認(rèn)證時(shí)將構(gòu)成關(guān)鍵詞的所有音節(jié)分割為由一 個(gè)音節(jié)或多個(gè)音節(jié)構(gòu)成的部分,從而隔開時(shí)間間隔,并且最好移動(dòng)位置,分 多次來語音輸入分割后的關(guān)鍵詞。分割后的關(guān)鍵詞的輸入順序可以是關(guān)鍵詞 的順序,也可以是隨機(jī)的順序。此外,在認(rèn)證時(shí),需要通過所述多次語音輸 入,來發(fā)出構(gòu)成關(guān)鍵詞的所有音節(jié)。例如,在關(guān)鍵詞是"卡拉OK"的情況下,使用者將該關(guān)鍵詞例如分割 為"卡拉"和"OK",在語音輸入第一個(gè)分割關(guān)鍵詞(例如"卡拉")后, 經(jīng)過幾秒到幾分鐘后,語音輸入第二個(gè)分割關(guān)鍵詞(例如"OK")。為了 避免處于附近的其他人聽到關(guān)鍵詞,在第一次語音輸入和第二次語音輸入間 使用者最好移動(dòng)位置。
關(guān)鍵詞的分割也能夠以"卡O"和"拉K"、 "K卡"和"O拉"、"拉 卡"和"KO"的方式使音節(jié)的順序隨機(jī)。另夕卜,也可以以"卡"和"KO拉" 的方式具有由單音節(jié)構(gòu)成的分割關(guān)鍵詞。并且,分割數(shù)并不限于兩個(gè)。而且,本實(shí)施方式的語音認(rèn)證系統(tǒng)根據(jù)這樣被分割發(fā)聲的關(guān)鍵詞,來進(jìn) 行語音認(rèn)證。由此,即使在附近有其他人的環(huán)境中說出關(guān)鍵詞,由于在一次 發(fā)聲中僅能聽到關(guān)鍵詞的一部分,所以可以防止其他人知道全部關(guān)鍵詞。本實(shí)施方式的語音認(rèn)證系統(tǒng)中,由于將關(guān)鍵詞分割為由一個(gè)音節(jié)或多個(gè) 音節(jié)構(gòu)成的分割關(guān)鍵詞來進(jìn)行語音認(rèn)證,所以適用于容易通過音節(jié)單位來劃 分單詞的語言(例如日語)的語音認(rèn)證。本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖1所示,具有輸入部11、特征量轉(zhuǎn)換部 12、類似度計(jì)算部13、音節(jié)判斷部14、類似度保存部15、待機(jī)時(shí)間管理部 16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、登錄說話人別音 節(jié)模型數(shù)據(jù)庫20和關(guān)鍵詞登錄部21 。
輸入部11從使用者的便攜電話或便攜終端中輸入要接受認(rèn)證的使用者的使用者ID和聲音。此外,在如便攜電話那樣使用者被限定為一人的情況 下,不需要使用者ID的輸入步驟。特征量轉(zhuǎn)換部12將所輸入的聲音轉(zhuǎn)換為 用于與說話人別音節(jié)模型進(jìn)行比較的特征量。音節(jié)判斷部14比較在特征量轉(zhuǎn)換部12得到的特征量,和使用者預(yù)先登 錄在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中的說話人音節(jié)模型,來求出類似度, 并根據(jù)所求出的類似度,來判斷輸入語音的各音節(jié)與說話人音節(jié)模型的何處 最類似。類似度保存部15針對(duì)輸入語音的各音節(jié),保存通過所述音節(jié)判斷 部14所求出的相對(duì)于說話人音節(jié)模型的類似度。待機(jī)時(shí)間管理部16監(jiān)視關(guān)鍵詞被分多次發(fā)聲時(shí)的發(fā)聲的時(shí)間間隔。關(guān) 鍵詞確認(rèn)部17根據(jù)由音節(jié)判斷部14得到的音節(jié)的識(shí)別結(jié)果,來確認(rèn)是否通 過多次發(fā)聲發(fā)出了關(guān)鍵詞的所有音節(jié)。類似度綜合部18根據(jù)類似度保存部 15所保存的每個(gè)音節(jié)的類似度,來求出綜合類似度,該綜合類似度表示在認(rèn) 證時(shí)發(fā)聲的關(guān)鍵詞語音與所登錄的關(guān)鍵詞語音作為整體有多大程度類似。認(rèn) 證判斷部19根據(jù)通過類似度綜合部18求出的綜合類似度,來判斷接受或拒 絕是否受理使用者的認(rèn)證。關(guān)鍵詞登錄部21在語音認(rèn)證系統(tǒng)的使用者登錄關(guān)鍵詞時(shí),從該使用者 向輸入部11語音輸入的關(guān)鍵詞中作成音節(jié)模型,并登錄到登錄說話人別音 節(jié)模型數(shù)據(jù)庫20中。此外,上述語音認(rèn)證系統(tǒng)可通過計(jì)算機(jī)及其周邊設(shè)備來實(shí)現(xiàn)。這時(shí),類 似度保存部15和登錄說話人別音節(jié)模型數(shù)據(jù)庫20可以通過計(jì)算機(jī)內(nèi)部或可 從該計(jì)算機(jī)訪問的存儲(chǔ)裝置來實(shí)現(xiàn)。輸入部11、特征量轉(zhuǎn)換部12、類似度 計(jì)算部13、音節(jié)判斷部14、待機(jī)時(shí)間管理部16、關(guān)鍵詞確認(rèn)部17、類似度 綜合部18、認(rèn)證判斷部19、關(guān)鍵詞登錄部21可以通過使上述計(jì)算機(jī)的處理 器執(zhí)行實(shí)現(xiàn)各部分的功能的程序來加以實(shí)現(xiàn)。因此,這種程序或記錄有該程 序的計(jì)算機(jī)可讀取的記錄介質(zhì)也是本發(fā)明的一個(gè)實(shí)施方式。這里,說明以上結(jié)構(gòu)的本實(shí)施方式的語音認(rèn)證系統(tǒng)中的語音認(rèn)證的步驟。首先,說明使用者將關(guān)鍵詞登錄到語音認(rèn)證系統(tǒng)的登錄說話人別音節(jié)模 型數(shù)據(jù)庫20時(shí)的步驟。使用者決定所希望的關(guān)鍵詞,并對(duì)與輸入部11相連
的便攜電話等的麥克風(fēng)發(fā)聲。這時(shí),使用者通過每一個(gè)音節(jié)以無音區(qū)間來劃分關(guān)鍵詞后進(jìn)行發(fā)聲。例如,在關(guān)鍵詞是"卡拉OK"的情況下,由于該關(guān) 鍵詞中包含"卡""拉""0" "K"四個(gè)音節(jié),所以使用者通過無音區(qū)間 來劃分這4個(gè)音節(jié)來進(jìn)行發(fā)聲。輸入部11將所輸入的音節(jié)發(fā)聲送到特征量 轉(zhuǎn)換部12。在特征量轉(zhuǎn)換部12中,將所輸入的聲波轉(zhuǎn)換為MFCC (Mel Frequency Cepstral Coefficients:梅爾頻率倒譜系數(shù))或LPC倒頻譜等提取了 語音的特征后的特征向量序列。之后,依次送到關(guān)鍵詞登錄部21。
關(guān)鍵詞登錄部21分別對(duì)所輸入的音節(jié),按輸入的順序來分配索引。艮P, 在上述的例子中,分別將索引II分配給"卡(第一個(gè)音節(jié))",將索引12 分配給"拉(第二個(gè)音節(jié))"、將索引13分配給"O (第三個(gè)音節(jié))"并將 索引14分配給"K (第四個(gè)音節(jié))"。另外,關(guān)鍵詞登錄部21只要以輸入 音節(jié)的順序來分配索引就足夠了,即不需要識(shí)別各音節(jié)的發(fā)聲(音韻)是哪 個(gè)。但是如后所述,有時(shí)在該時(shí)刻還進(jìn)行同一內(nèi)容的音節(jié)是否包含在關(guān)鍵詞 中的檢査。
關(guān)鍵詞登錄部21從這樣分配了索引后的各音節(jié)中作成說話人音節(jié)模型, 并如上所述,該使用者的使用者ID等與分配后的索引一起,建立聯(lián)系并登 錄到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。說話人別音節(jié)模型例如是通過 MAP (MaximumAPosteriori:最大后驗(yàn))估計(jì),來將不特定說話人的GMM (GuassianMixture Model:高斯混合模型)與特定說話人自適應(yīng),并按音節(jié) 來實(shí)施該適應(yīng)來作成的。但是,說話人音節(jié)模型并不限于GMM,若是HMM (Hidden Markov Model:隱馬爾科夫模型)等可以按索引來作成說話人模型, 則可以適用任意的方法。還可不用自適應(yīng),通過將所登錄的特征向量序列直 接作為模板來保存,從而作成以說話人別音節(jié)模型。此外,為了使認(rèn)證精度提高,最好讓使用者盡可能多(例如三次以上) 地重復(fù)發(fā)出關(guān)鍵詞。這時(shí),對(duì)于一個(gè)音節(jié),使用重復(fù)的次數(shù)(例如在重復(fù)三 次發(fā)聲的情況下是三次)的特征向量序列來對(duì)應(yīng)說話人別音節(jié)模型,并登錄 到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。在說話人別音節(jié)模型的作為前述的 模板保存的形態(tài)的情況下,將具有重復(fù)多次次數(shù)的模板的說話人別音節(jié)模型 登記到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。接著,參考圖3的流程圖來說明在通過上述的步驟使用者登錄了 "卡拉OK"這樣的關(guān)鍵詞后,該使用者接受認(rèn)證時(shí)的步驟。此外,這里,表示了 使用者從便攜電話進(jìn)行語音輸入,且將關(guān)鍵詞分割為兩次來進(jìn)行發(fā)聲的例 子,但是關(guān)鍵詞的分割數(shù)并不限于2。還有,關(guān)鍵詞的輸入裝置并不限于便 攜電話。在便攜電話上有認(rèn)證開始按鈕的情況下通過按下按鈕,或在啟動(dòng)認(rèn)證所 需的應(yīng)用程序時(shí)、或在其他應(yīng)用程序的執(zhí)行中間有認(rèn)證請(qǐng)求時(shí),開始認(rèn)證處 理。首先,輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Opll)。此外,在如便攜電話那樣,使用者被限定為一人的情況下,不需 要使用者ID的輸入步驟。接著,使用者若向便攜電話的麥克風(fēng)發(fā)出第一個(gè) 分割關(guān)鍵詞,則輸入部11接受該語音(Opl2)。而且,在這里,所述使用 者將關(guān)鍵詞分割為"卡拉"和"OK",來輸入語音。作為第一個(gè)分割關(guān)鍵 詞,使用者通過按每一個(gè)音節(jié)以無音區(qū)間來劃分"卡""拉"而進(jìn)行語音輸 入。然后,這樣,根據(jù)進(jìn)行輸入的順序,將這樣被語音輸入的"卡""拉" 的各音節(jié)表示為S1、 S2。此外,第一個(gè)分割關(guān)鍵詞的輸入是否結(jié)束可以通過無音區(qū)間是否持續(xù)規(guī) 定時(shí)間以上來加以判斷?;蛘?,也可在分割關(guān)鍵詞的輸入結(jié)束時(shí),讓使用者 進(jìn)行規(guī)定的鍵操作。將所輸入的音節(jié)Sl、 S2分別在特征量轉(zhuǎn)換部12中通過與登錄時(shí)相同的 分析方法,轉(zhuǎn)換為MFCC或LPC倒頻譜等的用于與說話人音節(jié)模型進(jìn)行比 較的特征向量序列(特征量)(Opl3)。將由特征量轉(zhuǎn)換部12得到的特征 量送到類似度計(jì)算部13。接著,類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該 使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的該使用者的說話人音節(jié)模型(即,上述的 索引I1 I4的說話人音節(jié)模型),并計(jì)算對(duì)所提取的說話人音節(jié)模型的所述 特征量的類似度(Opl4)。這里,音節(jié)Sl相對(duì)索引Il的說話人模型的類似 度以CS1: 的方式來表示。g卩,在Opl4中,對(duì)于例如音節(jié)Sl,將CS1: 、 CS1:I2、 CS1:I3、 CsH4四個(gè)值作為類似度求出,對(duì)于音節(jié)S2,將Cs2:n、 CS2: I2、 CS2:I3、 CS2:I4四個(gè)值作為類似度求出。并將所求出的類似度送到音節(jié)判 斷部14中。 而且,在將音節(jié)模型作為模板登錄時(shí),在如使關(guān)鍵詞重復(fù)發(fā)聲的情況那 樣,對(duì)同一音節(jié)登錄有多次說話人別音節(jié)模板的情況下,對(duì)所有這些說話人 別音節(jié)模板,分別進(jìn)行類似度的計(jì)算。因此,在關(guān)鍵詞登錄時(shí),在重復(fù)三次發(fā)出"卡""拉""O" "K"而將模板作為說話人音節(jié)模型進(jìn)行登錄的情況下,若以II (1) 、 II (2) 、 II ?!?..的方式來分配這些說話人音節(jié)模型的索引,則在Op4中,例如,對(duì)于音節(jié)S1,將G詞(D、 CS1:I1(2)、 CS1:I1(3)、 CS1: 12 (1)、 csl: 12 (2)、 csl: 12 (3)12個(gè)值作為類似度得到。接著,音節(jié)判斷部14根據(jù)通過類似度計(jì)算部13求出的類似度,對(duì)Sl、 S2的各音節(jié),選擇在各個(gè)登錄的說話人的音節(jié)模型數(shù)據(jù)庫20中所存儲(chǔ)的說 話人音節(jié)模型中類似度最高的模型的索引(Opl5)。例如,由于作為音節(jié)S1,使用者發(fā)出的是"卡",所以在針對(duì)音節(jié)S1 的類似度CS1: 、 CS1:12、 CS1: I3、 Csl: 14中,對(duì)于索引II (登錄時(shí)的音節(jié)"卡") 的說話人音節(jié)模型的類似度Cshu為最大值。因此,如圖2所示,音節(jié)判斷 部14判斷為發(fā)聲的音節(jié)S1相當(dāng)于索引II的說話人音節(jié)模型,并作為已發(fā)聲 音節(jié)的索引數(shù)據(jù)將"I1"保存在類似度保存部15中。而且,與此同時(shí),將針 對(duì)音節(jié)Sl的類似度最大值、即Csl: 作為音節(jié)Sl的類似度(音節(jié)類似度) 保存在類似度保存部15中。另外,與上述相同,對(duì)于音節(jié)S2,也選擇說話人音節(jié)模型中類似度最高 的模型的索引。這里,由于作為音節(jié)S2使用者發(fā)出的是"拉",所以針對(duì) 音節(jié)S2的類似度(:82:11、 CS2:I2、 CS2:I3、 CS2:I4t,對(duì)于索引12 (登錄時(shí)的音節(jié)"拉")的說話人音節(jié)模型的類似度Cs2d2為最大值。因此,如圖2所示,音節(jié)判斷部14判斷為音節(jié)S2相當(dāng)于索引I2,并作為已發(fā)聲音節(jié)的索引 數(shù)據(jù)將"12"保存在類似度保存部15中。而且,與此同時(shí),將針對(duì)音節(jié)S2 的類似度的最大值、即<^2:12也作為音節(jié)S2的音節(jié)類似度而保存在類似度保 存部15中。這里,由于第二個(gè)分割關(guān)鍵詞的輸入還沒有結(jié)束(Opl6的結(jié)果是NO), 所以進(jìn)入到Op17。此外,待機(jī)時(shí)間管理部16通過計(jì)時(shí)器(未圖示)來測量將第一個(gè)分割 關(guān)鍵詞("卡拉")輸入到輸入部11后的經(jīng)過時(shí)間。并且,在規(guī)定時(shí)間(例 如10分鐘)內(nèi)沒有開始第二個(gè)分割關(guān)鍵詞的輸入的情況下,作為超時(shí)而進(jìn)
入到Opl8,并從類似度保存部15等中清除第一個(gè)分割關(guān)鍵詞的處理結(jié)果 (Opl8)。這時(shí),使用者為了接受認(rèn)證,而必須從第一個(gè)分割關(guān)鍵詞輸入起 重新進(jìn)行。
此外,為了可靠防止對(duì)第三者暴露關(guān)鍵詞,若從第一個(gè)分割關(guān)鍵詞的語 音輸入起沒有經(jīng)過了預(yù)定時(shí)間(例如2分鐘),也可不接受第二個(gè)分割關(guān)鍵 詞的語音輸入。這時(shí),在第一個(gè)分割關(guān)鍵詞的輸入結(jié)束時(shí),為了相隔一定時(shí) 間直到第二個(gè)分割關(guān)鍵詞的語音輸入為止優(yōu)先將指示的消息顯示在使用者 的便攜電話等的顯示器上,或?qū)⑼瑯觾?nèi)容的語音消息發(fā)送到該便攜電話上。
另一方面,在Opl7中,在上述規(guī)定時(shí)間內(nèi)開始了第二個(gè)分割關(guān)鍵詞輸 入的情況下,待機(jī)時(shí)間管理部16停止及清除計(jì)時(shí)器的同時(shí),進(jìn)入到Opl9, 而接受第二個(gè)分割關(guān)鍵詞輸入(0pl9),然后,進(jìn)入Opl3。
在該例子中,作為第二個(gè)分割關(guān)鍵詞,使用者按每一個(gè)音節(jié)來劃分"O" "K"并進(jìn)行發(fā)聲。之后,根據(jù)所輸入的順序,將這樣語音輸入的"O" "K" 的各音節(jié)顯示為S3、 S4。
將所輸入的音節(jié)S3、S4分別在特征量轉(zhuǎn)換部12中轉(zhuǎn)換為特征量(Op13)。 接著,類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該使用 者的使用者ID相關(guān)聯(lián)存儲(chǔ)的說話人音節(jié)模型(即,索引I1 I4的說話人音 節(jié)模型),并計(jì)算所述特征量相對(duì)所提取的說話人音節(jié)模型的類似度(Op 14 )。
由此,分別相對(duì)于索引11 14的說話人音節(jié)模型,計(jì)算出音節(jié)S3、 S4 在特征量轉(zhuǎn)換部12得到的特征量與其的類似度Cs3:u、 CS3:I2、 CS3:I3、 CS3:14、 Cs4: II、 Cs4: 12、 Cs4: 13、 Cs4: 14。
此外,在關(guān)鍵詞的登錄時(shí),通過使關(guān)鍵詞重復(fù)發(fā)聲,從而在對(duì)同一音節(jié) 登錄有多次的說話人音節(jié)模型的情況下,對(duì)所有這些說話人音節(jié)模型,分別進(jìn)行類似度的計(jì)算。因此,在關(guān)鍵詞登錄時(shí),重復(fù)三次發(fā)聲"卡""拉""0""K",而登錄了說話人音節(jié)模型的情況下,若以II (1) 、 II (2) 、 II (3)...的方式來分配這些說話人音節(jié)模型的索引,則例如針對(duì)于音節(jié)S3,將(^3:11(1)、Gs3: II (2) 、 Cs3: II (3) 、 Cs3: 12 (1) 、 Gs3: 12 (2) 、 Cs3: 12 (3)…12個(gè)值作為類似度來得到。
接著,音節(jié)判斷部14基于在類似度計(jì)算部13求出的類似度,針對(duì)S3、 S4的各音節(jié),選擇出在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中所存儲(chǔ)的說話人
音節(jié)模型中類似度最高的模型的索引(Opl5)。該例子中,由于作為音節(jié)S3,使用者發(fā)出的是"O",所以針對(duì)音節(jié)S3的類似度CS3:I1、 CS3:I2、 CS3:I3、 Cs3:m中,CsH3為最大值。因此,音節(jié)判斷部14判斷為音節(jié)S3相當(dāng)于索引I3,并作為已發(fā)聲音節(jié)的索引數(shù)據(jù),將"I3" 保存在類似度保存部15中。而且,與此同時(shí),將對(duì)于音節(jié)S3的類似度的最 大值、即CS3: 13也作為音節(jié)S3的音節(jié)類似度,而保存在類似度保存部15中。 與上述同樣,對(duì)于音節(jié)S4,也選擇出說話人音節(jié)模型中類似度最高的模 型的索引。這里,由于作為音節(jié)S4,使用者發(fā)出的是"K",所以在針對(duì)音節(jié)S4的類似度Cs4:u、 CS4:I2、 CS4:I3、 Cs4:m中,Csn4為最大值。因此,音節(jié)判斷部14判斷為音節(jié)S4相當(dāng)于索引14,并作為已發(fā)聲音節(jié)的索引數(shù)據(jù), 將"14"保存在類似度保存部15中。與此同時(shí),將對(duì)于音節(jié)S4的類似度的 最大值、即CS4:14也作為音節(jié)S3的音節(jié)類似度,保存在類似度保存部15中。如上所述,若第二個(gè)分割關(guān)鍵詞的處理結(jié)束(Opl6中Yes),則關(guān)鍵詞 確認(rèn)部17根據(jù)類似度保存部15中所保存的已發(fā)聲音節(jié)的索引的數(shù)據(jù),確認(rèn) 是否通過第一次和第二次的發(fā)聲,發(fā)出了關(guān)鍵詞的所有音節(jié)(Op20)。在上 述例子的情況下,類似度保存部15中保存有"II" "12" "13" "14"來作 為已發(fā)聲音節(jié)的索引數(shù)據(jù)。SP,由于所登錄的關(guān)鍵詞的所有索引(11 14) 一致,所以關(guān)鍵詞確認(rèn)部17可以確認(rèn)關(guān)鍵詞的所有音節(jié)己發(fā)聲。在Op20的 判斷結(jié)果是是的情況下,將該內(nèi)容通知給認(rèn)證判斷部19,認(rèn)證判斷部19拒 絕該使用者的認(rèn)證(Op21)。例如,在上述例子中,在作為第一個(gè)分割關(guān)鍵詞發(fā)聲為"卡""拉", 作為第二個(gè)分割關(guān)鍵詞,發(fā)聲為"卡""K"的情況下,沒有發(fā)出"0", 所以在已發(fā)聲完畢的音節(jié)的索引數(shù)據(jù)中不存在"O"的索引13。因此,拒絕 認(rèn)證。另一方面,在Op20的判斷結(jié)果是"是"的情況下,類似度綜合部18基 于類似度保存部15中所保存的各個(gè)音節(jié)S1 S4的音節(jié)類似度(CS1: 、 CS2: I2、 CS3:I3、 CS4:I4),來算出表示進(jìn)行發(fā)聲的整個(gè)關(guān)鍵詞與登錄關(guān)鍵詞有多大 程度類似的綜合類似度(Op22)。作為綜合類似度,可以使用各音節(jié)的音節(jié) 類似度的總和(例如,該例子中,CS1:I1 + CS2:I2+CS3:I3+CS4:I4),也可使 用各音節(jié)的音節(jié)類似度的平均值?;蛘?,也可將以幀數(shù)等的時(shí)間長度來平均 各音節(jié)的音節(jié)類似度的總和后的值作為綜合類似度來使用。將這樣由類似度綜合部18求出的綜合類似度送到認(rèn)證判斷部19,認(rèn)證 判斷部19比較規(guī)定的閾值和綜合類似度。如果綜合類似度超過規(guī)定的閾值, 認(rèn)證判斷部19接受該使用者的認(rèn)證,若小于則拒絕(Op23)。本實(shí)施方式的語音認(rèn)證系統(tǒng)中,通過以上的步驟,可以進(jìn)行基于語音進(jìn) 行的使用者的認(rèn)證。此外,在上述實(shí)施方式中,識(shí)別是否通過分割為多次的關(guān)鍵詞發(fā)聲正好 發(fā)出了構(gòu)成所登錄的關(guān)鍵詞的所有音節(jié)。因此,雖然在上述的具體例中,將 "卡拉OK"這個(gè)關(guān)鍵詞分割為"卡拉"和"OK"兩個(gè),但是例如,即使采 用以"卡O"和"拉K"、 "K卡"和"O拉"、"拉卡"和"KO"的方式 將音節(jié)的順序設(shè)定為隨機(jī)的關(guān)鍵詞的分割方法,也可進(jìn)行正確的語音認(rèn)證。而且,在本實(shí)施方式中,由于在登錄關(guān)鍵詞時(shí)和認(rèn)證時(shí)都不識(shí)別音韻, 所以在關(guān)鍵詞包含兩個(gè)相同音的音節(jié)的情況下,不能區(qū)別這些音節(jié)。因此, 在認(rèn)證時(shí)語音輸入的多個(gè)音節(jié)相對(duì)多個(gè)所登錄的說話人音節(jié)模型相互表示 高類似度的情況下,優(yōu)先將這些看作同一音節(jié)來進(jìn)行處理。例如,在關(guān)鍵詞是"^ * ^々"的情況下,在登錄該關(guān)鍵詞時(shí),關(guān)鍵詞 登錄部21分別將索引II分配給"》(第一個(gè)音節(jié))",將索引12分配給"卻 (第二個(gè)音節(jié))",將索引13分配給"^ (第三個(gè)音節(jié))",將索引14分 配給(第四個(gè)音節(jié))",并在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中存儲(chǔ) 說話人音節(jié)模型。并且,在認(rèn)證時(shí),例如使用者發(fā)出(音節(jié)S1) " 、 (音節(jié)S2)"作為第一個(gè)分割關(guān)鍵詞,發(fā)出(音節(jié)S3)"和"々(音節(jié)S4)"作為 第二個(gè)分割關(guān)鍵詞。這時(shí),音節(jié)S2和音節(jié)S4兩者相對(duì)索引I2、 14的說話人 音節(jié)模型,同時(shí)表示高類似度,但是由于音節(jié)S2和索引I2的說話人音節(jié)模 型的類似度、音節(jié)S4和索引12的說話人音節(jié)模型的類似度、音節(jié)S2和索 引14的說話人音節(jié)模型的類似度、音節(jié)S4和索引14的說話人音節(jié)模型的類 似度彼此沒有大的差別,所以與音節(jié)S2的類似度最高的索引有可能和與音 節(jié)S4的類似度最高的索引一致。例如,在判斷為音節(jié)S2和S4兩者與索引 12最類似的情況下,看作沒有發(fā)出索引14的音節(jié),而拒絕了認(rèn)證。因此,這樣一來,在表示多個(gè)音節(jié)相對(duì)多個(gè)說話人音節(jié)模型彼此有高的
類似度,且該類似度顯著高于相對(duì)其他說話人音節(jié)模型的類似度的情況下,可以在Opl5中,不選擇類似度最高的索引,而將這多個(gè)音節(jié)看作相同音, 并將與這多個(gè)音節(jié)的類似度高的說話人音節(jié)模型的索引全部保存在類似度 保存部15中?;蛘?,若在登錄時(shí),通過調(diào)查多個(gè)音節(jié)發(fā)聲是否相對(duì)多個(gè)說 話人別音節(jié)模型彼此具有高的類似度等,來檢查這多個(gè)音節(jié)是否是同一音, 并存儲(chǔ)表示這些的信息,而將相同索引作為與這些音節(jié)類似的說話人音節(jié)模 型的索引保存在類似度保存部15中,則即使所有的索引不一致,也不會(huì)拒 絕認(rèn)證。由此,在上述例子中,即使將例如"II" 、 "12" 、 "13"和"12"作為 對(duì)"^" "V "考"的輸入音節(jié)的類似說話人音節(jié)模型的索引,而保存在類似度保存部15中,也可正確判斷為發(fā)出了關(guān)鍵詞的所有音節(jié)。以上,說明了本發(fā)明的一個(gè)實(shí)施方式的語音認(rèn)證系統(tǒng),但是上述說明不 過是用于實(shí)施本發(fā)明的一個(gè)具體例,可以在發(fā)明的范圍內(nèi)進(jìn)行各種改變。例如,在上述實(shí)施方式中,說明了在認(rèn)證時(shí)將關(guān)鍵詞分割為2次來進(jìn)行 發(fā)聲的例子,但是關(guān)鍵詞的分割數(shù)并不限于兩個(gè),可以任意。在關(guān)鍵詞的分 割數(shù)是三個(gè)以上的情況下,也可使分割關(guān)鍵詞的語音輸入和對(duì)所輸入的分割 關(guān)鍵詞的圖3的Opl3 Op15的處理重復(fù)分割數(shù)。因此,通過如"卡"和"拉 OK" 、 "OK拉"禾n "卡"、"拉"禾Q "K"禾Q "O卡"或"O"禾n "拉" 和"卡"和"K"這樣的分割,也可進(jìn)行正確的語音識(shí)別。進(jìn)而,要接受認(rèn)證的使用者也可任意決定分割數(shù)。這時(shí),也可在通過多 次發(fā)出分割關(guān)鍵詞結(jié)束整個(gè)關(guān)鍵詞的發(fā)聲時(shí),通過讓使用者按下例如便攜電 話的特定按鈕,從而語音認(rèn)證系統(tǒng)檢測出輸入部11中按下了該按鈕時(shí),而 進(jìn)入到圖3的Op20之后的處理。或,也可在每次分割關(guān)鍵詞的發(fā)聲結(jié)束時(shí), 比較到此為止發(fā)出的音節(jié)的集合和構(gòu)成登錄關(guān)鍵詞的音節(jié),并在判斷為已經(jīng) 全部發(fā)出了構(gòu)成關(guān)鍵詞的音節(jié)時(shí),移動(dòng)到圖3的Op20之后的處理。還有,本實(shí)施方式中為這樣的結(jié)構(gòu),即在輸入第二個(gè)分割關(guān)鍵詞后,通 過關(guān)鍵詞確認(rèn)部17來進(jìn)行關(guān)鍵詞確認(rèn),進(jìn)一步,通過類似度綜合部18算出 作為整個(gè)關(guān)鍵詞的綜合類似度,并通過認(rèn)證判斷部19來判斷接受或拒絕認(rèn) 證。但是,也可在第一個(gè)分割關(guān)鍵詞的語音輸入結(jié)束的時(shí)刻,類似度綜合部 18僅從第一個(gè)分割關(guān)鍵詞中包含的音節(jié)中算出綜合類似度。
這時(shí),也可在從第一個(gè)分割關(guān)鍵詞算出的綜合類似度小于預(yù)定的閾值的 情況下,使第一個(gè)分割關(guān)鍵詞的語音輸入重新進(jìn)行。由此,例如,在第二個(gè) 分割關(guān)鍵詞的類似度高,但是第一個(gè)分割關(guān)鍵詞的類似度低的情況下,有可 以減少從最開始重新進(jìn)行語音輸入的手續(xù)的優(yōu)點(diǎn)。另外,從嚴(yán)格安全性的觀點(diǎn)來看,也可在第一個(gè)分割關(guān)鍵詞的類似度低的情況下,不輸入第二個(gè)分割關(guān)鍵詞,認(rèn)證判斷部19就拒絕認(rèn)證。還有,也可在第二個(gè)分割關(guān)鍵詞的輸入結(jié)束后,在第二個(gè)分割關(guān)鍵詞的 類似度低的情況下,以通過關(guān)鍵詞確認(rèn)部17確認(rèn)所有音節(jié)已經(jīng)發(fā)聲完成的 情況作為條件,來重新進(jìn)行第二個(gè)分割關(guān)鍵詞的語音輸入。添加上述條件是 因?yàn)槿粼跊]有確認(rèn)所有音節(jié)已發(fā)聲完成的情況下承認(rèn)重新進(jìn)行第二個(gè)分割 關(guān)鍵詞的語音輸入,則變?yōu)樵试S進(jìn)行關(guān)鍵詞的嘗試,有可能成為詐騙者的認(rèn) 證突破點(diǎn)。此外,為了得到穩(wěn)定的認(rèn)證結(jié)果,與對(duì)每個(gè)分割關(guān)鍵詞求出類似度的方 法相比,在分割關(guān)鍵詞的語音輸入完成結(jié)束后,算出作為整個(gè)關(guān)鍵詞的綜合 類似度的方法更有利。這是因?yàn)榉指铌P(guān)鍵詞的發(fā)聲長度短故有時(shí)難得到穩(wěn)定 的類似度,相對(duì)于此,作為整個(gè)關(guān)鍵詞的綜合類似度的發(fā)聲長度長,所以可 得到較為穩(wěn)定的類似度。因此,通過第一個(gè)分割關(guān)鍵詞的類似度進(jìn)行判斷時(shí) 的閾值會(huì)設(shè)定為比整體稍寬。 (第二實(shí)施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的另一個(gè)實(shí)施方式。對(duì)于與第一實(shí)施方 式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu),標(biāo)注與第一實(shí)施方式中所用的附圖標(biāo) 記相同的符號(hào),并省略該詳細(xì)說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)還適用于使用如英語等那樣,利用不容易以 音節(jié)單位分割關(guān)鍵詞的語言進(jìn)行的語音認(rèn)證。因此,本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖4所示,具有輸入部11、特征量 轉(zhuǎn)換部12、類似度計(jì)算部13、類似度保存部15、待機(jī)時(shí)間管理部16、關(guān)鍵 詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、說話人模型數(shù)據(jù)庫22、關(guān) 鍵詞登錄部21、語法生成部23、識(shí)別語法存儲(chǔ)部24和語音識(shí)別部25。這里,參考圖5來說明本實(shí)施方式的語音認(rèn)證系統(tǒng)中的語音認(rèn)證的步驟。首先,說明使用者將關(guān)鍵詞登錄到語音認(rèn)證系統(tǒng)的說話人模型數(shù)據(jù)庫22 中時(shí)的步驟。使用者決定所希望的關(guān)鍵詞,對(duì)與輸入部11相連的便攜電話等的麥克風(fēng)來進(jìn)行發(fā)聲。在本實(shí)施方式中,語法生成部23語音識(shí)別語音輸 入的關(guān)鍵詞(不特定說話人的語音識(shí)別),并將作為識(shí)別結(jié)果的識(shí)別語法登 錄到識(shí)別語法存儲(chǔ)部24中。此外,在登錄前,最好在畫面等上顯示識(shí)別結(jié) 果,來確認(rèn)使用者登錄的關(guān)鍵詞的內(nèi)容。還有,最好提供修改識(shí)別結(jié)果的裝 置(按鈕等)。由于通過不特定說話人的語音識(shí)別來進(jìn)行單音節(jié)識(shí)別精度上很困難,所:以使用者在登錄關(guān)鍵詞時(shí),最好使用例如便攜電話的鍵等,對(duì)輸入部11文 本輸入關(guān)鍵詞的發(fā)聲內(nèi)容。并將輸入文本(關(guān)鍵詞的發(fā)聲內(nèi)容)和發(fā)出的關(guān)鍵詞語音從輸入部11傳到語法生成部23。語法生成部23從文本輸入的發(fā)聲內(nèi)容中生成用于識(shí)別使用者可輸入的 關(guān)鍵詞分割的模式的語法。該語法并不限于音節(jié)單位,能夠以網(wǎng)羅基于音素 單位的分割的所有模式的方式生成。在如日語那樣,是容易用音節(jié)單位來劃 分的語言的情況下,以網(wǎng)羅通過音節(jié)單位可分割的所有模式的方式來生成, 但是在如英語那樣,是很難用音節(jié)單位來劃分的語言的情況下,以網(wǎng)羅基于 音素單位的分割的所有模式的方式生成。例如,對(duì)于"vertification"這樣的 關(guān)鍵詞,生成接受"ve, veri, verifi, tion, cation, fication, verifica"等模 式的語法。將所生成的語法傳到關(guān)鍵詞登錄部21中,同時(shí)存儲(chǔ)到識(shí)別語法 存儲(chǔ)部24中。關(guān)鍵詞登錄部21使用所登錄的關(guān)鍵詞的語音,來作成相適應(yīng)的說話人 模型(即音素或音節(jié)單位的說話人模型),并與該使用者的使用者ID建立 聯(lián)系,登錄到說話人模型數(shù)據(jù)庫22中。作為音素單位的說話人模型的作成 方法,有通過不特定說話人的語音識(shí)別來進(jìn)行關(guān)鍵詞的語音和音素的時(shí)間對(duì) 應(yīng)(稱作排列alignment),按構(gòu)成關(guān)鍵詞的音素來進(jìn)行自適應(yīng),并將說話人 別音素模型作為說話人模型來作成的方法。另外,作為自適應(yīng)方法若是MLLR (Maximum Likelihood Linear Regression:最大似然線性回歸)法、MAP法 等通過模型自適應(yīng)來實(shí)現(xiàn)說話人自適應(yīng)的方法,則可以是任何一個(gè)。在以音 節(jié)為單位來作成說話人模型的情況下,在通過音節(jié)單位來進(jìn)行了與關(guān)鍵詞的 時(shí)間對(duì)應(yīng)后,進(jìn)行說話人自適應(yīng)來作成。下面說明在通過上述步驟關(guān)鍵詞登錄完成后,使用者通過語音輸入接受 認(rèn)證時(shí)的步驟。此外,在下面的例子中,也對(duì)2次分割關(guān)鍵詞來進(jìn)行語音車俞 入的例子進(jìn)行說明,但是關(guān)鍵詞的分割數(shù)并不限于2。首先,輸入部11接受使用者使用便攜電話的鍵區(qū)輸入的使用者ID等 (Op31)。此外,在如便攜電話那樣將使用者被限定為一人的情況下,不需 要使用者ID的輸入步驟。接著,在使用者向便攜電話的麥克風(fēng)發(fā)出第一個(gè) 分割關(guān)鍵詞時(shí),輸入部11接受該語音(Op32)。本實(shí)施方式中,使用者也 可不按每個(gè)音節(jié)劃分來進(jìn)行語音輸入。例如,在關(guān)鍵詞是"卡拉OK"的情 況下,在第一個(gè)分割關(guān)鍵詞是"卡拉"的情況下,也可不如第一實(shí)施方式那 樣在"卡"和"拉"之間輸入無音區(qū)間,而一起發(fā)聲"卡拉"。由于對(duì)于英語等,說話人不會(huì)嚴(yán)格意識(shí)到音節(jié)的傾向很強(qiáng),所以在分割 關(guān)鍵詞時(shí),有可能錯(cuò)誤地使音節(jié)丟失或重復(fù)。音節(jié)的重復(fù)在關(guān)鍵詞認(rèn)證時(shí)不 怎么成為問題,所以在本實(shí)施方式中,例如,在關(guān)鍵詞是"verfication"的情 況下,允許以"verifi"和"ficatkm"的方式在分割關(guān)鍵詞中音節(jié)重復(fù)。所輸入的分割關(guān)鍵詞在特征量轉(zhuǎn)換部12中,轉(zhuǎn)換為MFCC或LPC倒頻 譜等的用于語音識(shí)別的特征量(Op33)。將由特征量轉(zhuǎn)換部12得到的特征 量送到語音識(shí)別部25。接著,語音識(shí)別部25參考在識(shí)別語法存儲(chǔ)部24中所存儲(chǔ)的識(shí)別語法, 通過不特定說話人的語音識(shí)別來識(shí)別作為分割關(guān)鍵詞發(fā)出的語音的音韻 (Op34)。并將識(shí)別結(jié)果送到類似度計(jì)算部13。也可在進(jìn)行了與關(guān)鍵詞不 同的發(fā)聲時(shí)等,在識(shí)別評(píng)價(jià)非常差的情況下,最好判斷為"不能識(shí)別",這 時(shí),將"不能識(shí)別"這樣的結(jié)果送到類似度計(jì)算部13。在該例子中,雖然通過不特定說話人的語音識(shí)別來進(jìn)行識(shí)別,但是也可 利用在登錄時(shí)對(duì)應(yīng)的說話人模型來加以識(shí)別。這時(shí),由于語音識(shí)別時(shí)計(jì)算出 的類似度仍為對(duì)說話人模型的類似度,所以不需要類似度計(jì)算部13中的類 似度計(jì)算。接著,類似度計(jì)算部13根據(jù)所述識(shí)別結(jié)果,從說話人模型數(shù)據(jù)庫22中 提取該使用者的說話人模型中,與在所述Op34識(shí)別出的音韻對(duì)應(yīng)的說話人 模型,并計(jì)算所述特征量對(duì)于所提取的說話人模型的類似度(Op35)。根據(jù)Op35的結(jié)果,將表示從已發(fā)聲的分割關(guān)鍵詞識(shí)別出的音韻是否網(wǎng) 羅了登錄關(guān)鍵詞的哪個(gè)音素的信息(己發(fā)聲音素?cái)?shù)據(jù))保存在類似度保存部 15中(Op36)。與此同時(shí),將所識(shí)別出的音韻相對(duì)說話人模型的類似度也 保存在類似度保存部15中。這里,由于第二個(gè)分割關(guān)鍵詞的輸入還沒有完成(Op37的結(jié)果為"否"), 所以進(jìn)入到Op38。此外,待機(jī)時(shí)間管理部16通過計(jì)時(shí)器來測量對(duì)輸入部11輸入了第一個(gè) 分割關(guān)鍵詞后的經(jīng)過時(shí)間。并且,在規(guī)定時(shí)間內(nèi)沒有開始第二個(gè)分割關(guān)鍵詞 輸入的情況下,作為超時(shí)進(jìn)入到Op39,并從類似度保存部15等中清除第一 個(gè)分割關(guān)鍵詞的處理結(jié)果(Op39)。這時(shí),使用者為了接受認(rèn)證,必須從第 一個(gè)分割關(guān)鍵詞輸入起重新進(jìn)行。另一方面,Op38中,在上述規(guī)定時(shí)間內(nèi)開始了第二個(gè)分割關(guān)鍵詞輸入 的情況下,待機(jī)時(shí)間管理部16停止及清除計(jì)時(shí)器的同時(shí),進(jìn)入到Op40,接 受第二個(gè)分割關(guān)鍵詞輸入(Op40),之后,進(jìn)入到Op33。并且,在對(duì)第二個(gè)分割關(guān)鍵詞進(jìn)行了Op33 Op36的處理后,關(guān)鍵詞確 認(rèn)部17根據(jù)在類似度保存部15中所保存的已發(fā)聲音素?cái)?shù)據(jù),來確認(rèn)是否通 過第一次和第二次的發(fā)聲,發(fā)出了關(guān)鍵詞的所有音素(Op41)。在Op41的 判斷結(jié)果是"否"的情況下,將該內(nèi)容通知給認(rèn)證判斷部19,從而認(rèn)證判斷 部19拒絕該使用者的認(rèn)證(Op42)。另一方面,在Op41的判斷結(jié)果是"是"的情況下,類似度綜合部18根 據(jù)在類似度保存部15中所保存的每個(gè)分割關(guān)鍵詞的類似度,來算出表示所 發(fā)出的整個(gè)關(guān)鍵詞與登錄關(guān)鍵詞有多大程度的類似的綜合類似度(Op43)。 作為綜合類似度可以使用分割關(guān)鍵詞的類似度的總和,也可使用分割關(guān)鍵詞 的類似度的平均值。將這樣由類似度綜合部18求出的綜合類似度送到認(rèn)證判斷部19,認(rèn)證 判斷部19比較規(guī)定的閾值和綜合類似度。如果綜合類似度超過規(guī)定閾值, 認(rèn)證判斷部19接受該使用者的認(rèn)證,若低于則加以拒絕(Op44)。本實(shí)施方式的語音認(rèn)證系統(tǒng)中,可通過以上的步驟,來進(jìn)行基于語音進(jìn) 行的使用者認(rèn)證。本實(shí)施方式中,如上所述,也可將多個(gè)音節(jié)作為關(guān)鍵詞 分割的最小單位,若是語素或單詞等可以作為發(fā)聲的單位,則也可在音節(jié)之 外作為關(guān)鍵詞分割的最小單位。還有,也可以在關(guān)鍵詞是數(shù)字列(例如"1234")的情況下,若是日語,則以"< ",、"二 ""寸 > "、"'〉"的方式,或若是英語,則以"one"、 "two" 、 "three" 、 "four"的方式,以數(shù)字作為單位來進(jìn)行關(guān)鍵詞確認(rèn)和 語音認(rèn)證。但是,這時(shí),需要使用數(shù)字識(shí)別用的語法。同樣,在關(guān)鍵詞是數(shù)字和字母等的混合(例如"la2b")的情況下,需 要使用數(shù)字和字母的識(shí)別用語法。 (第三實(shí)施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的又一個(gè)實(shí)施方式。此外,對(duì)于與第一 或第二實(shí)施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu),標(biāo)注與這些實(shí)施方式中 使用的附圖標(biāo)記相同的記號(hào),來省略該詳細(xì)的說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)在每次語音輸入第二次之后的分割關(guān)鍵詞 時(shí),確認(rèn)距前次的分割關(guān)鍵詞的語音輸入時(shí),使用者是否移動(dòng)了位置,在沒 有移動(dòng)位置的情況下不接受語音輸入。因此,本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖6所示,具有輸入部12、特征量 轉(zhuǎn)換部12、類似度計(jì)算部13、音節(jié)判斷部14、類似度保存部15、待機(jī)時(shí)間 管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、登錄說話 人別音節(jié)模型數(shù)據(jù)庫20、關(guān)鍵詞登錄部21、位置信息取得部31和位置確認(rèn) 部32。 S卩,本實(shí)施方式的語音認(rèn)證系統(tǒng)是在第一實(shí)施方式的語音認(rèn)證系統(tǒng)上 進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)。位置信息取得部31通過使用者的便攜電話等所嵌入的GPS (Global Positioning System:全球定位系統(tǒng)),在每次使用者語音輸入分割關(guān)鍵詞時(shí), 取得表示使用者的當(dāng)前位置的信息。位置確認(rèn)部根據(jù)通過位置信息取得部31 取得的信息,來確認(rèn)距前次的分割關(guān)鍵詞的語音輸入時(shí),使用者是否移動(dòng)了 位置。參考圖7來說明以上結(jié)構(gòu)的本實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作。 首先,輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Op51)。在如便攜電話那樣,使用者被限定為一人的情況下,不需要使用 者ID的輸入步驟。接著,使用者向便攜電話的麥克風(fēng)發(fā)出第一個(gè)分割關(guān)鍵 詞后,輸入部ll接受該語音(Op52)。與此同時(shí),位置信息取得部31通過 在使用者的便攜電話所嵌入的GPS,取得表示使用者的當(dāng)前位置的信息,并 將所取得的信息送到位置確認(rèn)部32 (Op53)。
所輸入的第一個(gè)分割關(guān)鍵詞的各音節(jié)在特征量轉(zhuǎn)換部12中轉(zhuǎn)換為特征 量(Op54)。將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計(jì)算部13。接著,類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該 使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的該使用者的說話人音節(jié)模型,并計(jì)算出戶萬 述特征量對(duì)所提取的說話人音節(jié)模型的類似度(Op55)。將所求出的類4以度 送到音節(jié)判斷部14。接著,音節(jié)判斷部14根據(jù)由類似度計(jì)算部13求出的類似度,對(duì)第一個(gè) 分割關(guān)鍵詞的各音節(jié),選擇登錄說話人別音節(jié)模型數(shù)據(jù)庫20的說話人音節(jié) 模型中類似度最高的模型的索引,并與該類似度一起,保存在類似度保存部 15中(Op56)。這里,由于第二個(gè)分割關(guān)鍵詞的輸入還沒有完成(Op57的 結(jié)果是"否"),所以進(jìn)入到Op58。為了更可靠防止對(duì)第三者暴露關(guān)鍵詞,最好在第一個(gè)分割關(guān)鍵詞的$俞入 結(jié)束時(shí),在第二個(gè)分割關(guān)鍵詞的語音輸入之前,將指示為移動(dòng)位置的消息顯 示在使用者的便攜電話等的顯示器上,或?qū)⑼瑯觾?nèi)容的語音消息送到該便攜 電話中。因此,Op58中,在第一個(gè)分割關(guān)鍵詞的語音輸入后,經(jīng)過適當(dāng)?shù)臅r(shí)間 (例如1分鐘)后,位置信息取得部31通過使用者的便攜電話上所嵌入的 GPS,取得表示使用者的當(dāng)前位置的信息,并將所取得的信息傳送到位置確 認(rèn)部32。位置確認(rèn)部32通過比較在Op53中取得的第一個(gè)分割關(guān)鍵詞輸入時(shí)的位 置信息和在Op58中取得的位置信息,從而確認(rèn)在輸入了第一個(gè)分割關(guān)鍵詞 后,使用者是否移動(dòng)到離開規(guī)定距離(例如50m)以上的位置上(Op59)。 此外,所述規(guī)定的距離并不限于50m,也可任意。若Op59的確認(rèn)結(jié)果是"否",則語音認(rèn)證系統(tǒng)向使用者的便攜電話發(fā) 送指示為移動(dòng)位置的語音消息。或者,顯示指示為使其移動(dòng)位置的警告消息 (Op60)。另一方面,如果Op59的確認(rèn)結(jié)果是"是",則繼續(xù)進(jìn)行Op61之后的 處理。由于Op61 Op67的處理與第一實(shí)施方式中說明的Opl7 Op23相同, 所以省略說明。如上所述,本實(shí)施方式的語音認(rèn)證系統(tǒng)利用GPS等來確認(rèn)使用者的當(dāng)前
位置,在從分割關(guān)鍵詞的前次輸入時(shí)起使用者沒有移動(dòng)規(guī)定的距離以上的'瞎 況下,指示為使其移動(dòng)位置。由此,可以更可靠防止對(duì)第三者暴露關(guān)鍵詞。 此外,在本實(shí)施方式中,示例了第一實(shí)施方式的語音認(rèn)證系統(tǒng)中進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu),但是在第二實(shí)施方式的i吾 音認(rèn)證系統(tǒng)中進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)也是本 發(fā)明的一實(shí)施方式。 (第四實(shí)施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的又一實(shí)施方式。此外,對(duì)于與第一 第三實(shí)施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu),標(biāo)注與這些實(shí)施方式中4吏 用的附圖標(biāo)記相同的符號(hào),而省略該詳細(xì)說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)是這樣的結(jié)構(gòu),即系統(tǒng)對(duì)使用者指示關(guān)鍵詞 的分割方法等,在使用者沒有按指示進(jìn)行語音輸入的情況下,拒絕認(rèn)證。因此,本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖8所示,具有輸入部ll、特征量 轉(zhuǎn)換部12、類似度計(jì)算部13、音節(jié)判斷部14、類似度保存部15、待機(jī)時(shí)間 管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、按登錄的 說話人的音節(jié)模型數(shù)據(jù)庫20、關(guān)鍵詞登錄部21和指示輸出部41。即,本實(shí) 施方式的語音認(rèn)證系統(tǒng)是在第一實(shí)施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指 示輸出部41的結(jié)構(gòu)。指示輸出部41的根據(jù)從預(yù)定的多種模式中隨機(jī)選出的模式,來輸出指 示,使得使用者分割輸入關(guān)鍵詞。作為這種指示,考慮例如"作為第一個(gè)分割關(guān)鍵詞請(qǐng)輸入最先的三個(gè)音 節(jié),作為第二個(gè)分割關(guān)鍵詞請(qǐng)輸入其余的所有音節(jié)。"、"請(qǐng)將奇數(shù)音節(jié)作 為第一個(gè)分割關(guān)鍵詞,將偶數(shù)音節(jié)作為第二個(gè)分割關(guān)鍵詞。"、"請(qǐng)從反方 向起一個(gè)音節(jié)一個(gè)音節(jié)地輸入關(guān)鍵詞。"這樣的指示。另外,這些指示始終 是一個(gè)例子,指示內(nèi)容任意。這里,參考圖9來說明本實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作。此外,由于 使用者進(jìn)行的關(guān)鍵詞的登錄步驟與第一實(shí)施方式相同,所以省略說明。首先,輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Op71)。此外,在如便攜電話那樣,使用者被限定為一人的情況下,不需 要使用者ID的輸入步驟。接著,指示輸出部41根據(jù)從預(yù)定的多種模式中隨
機(jī)選擇出的模式,對(duì)使用者的便攜電話作為顯示或語音消息來輸出用于使第一個(gè)分割關(guān)鍵詞輸入的指示(Op72)。為了進(jìn)行后述的Op76的音節(jié)判斷部 14的處理,也將由指示輸出部41得到的指示內(nèi)容送到音節(jié)判斷部14。例如,這里,在進(jìn)行了 "請(qǐng)將奇數(shù)音節(jié)作為第一個(gè)分割關(guān)鍵詞"這樣的 指示的情況下,若關(guān)鍵詞是"卡拉OK",則使用者必須輸入"卡"、"O" 作為第一個(gè)分割關(guān)鍵詞,輸入"拉"、"K"作為第二個(gè)分割關(guān)鍵詞。使用者在根據(jù)該指示,當(dāng)向便攜電話的麥克風(fēng)發(fā)出第一個(gè)分割關(guān)鍵詞 時(shí),輸入部ll接受該語音(Op73)。所輸入的音節(jié)S1、S2分別在特征量轉(zhuǎn)換部12中,轉(zhuǎn)換為特征量(Op74)。 將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計(jì)算部13中。接著,類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該 使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的該使用者的說話人音節(jié)模型,并計(jì)算戶萬述 特征量對(duì)于所提取的說話人音節(jié)模型的類似度(Op75)。將所求出的類似度 送到音節(jié)判斷部14。接著,音節(jié)判斷部14根據(jù)通過類似度計(jì)算部13求出的類似度,來對(duì)第 一個(gè)分割關(guān)鍵詞的各音節(jié),選擇登錄說話人別音節(jié)模型數(shù)據(jù)庫20中所存儲(chǔ) 的說話人音節(jié)模型中類似度最高的模型的索引,并與該類似度一起保存在類 似度保存部15中(Op76)。而且,Op76中,音節(jié)判斷部14判斷第一個(gè)分割關(guān)鍵詞的各音節(jié)是否如 基于指示輸出部41進(jìn)行的指示那樣來發(fā)聲。S卩,在上述例子中,作為第一 個(gè)分割關(guān)鍵詞,發(fā)出輸入奇數(shù)音節(jié)的指示,即,發(fā)出輸入作為關(guān)鍵詞的第一 音節(jié)(索引II)的"卡"和作為第三音節(jié)(第三索引)的"O"的內(nèi)容的指 示。因此,第一個(gè)分割關(guān)鍵詞的第一個(gè)音節(jié)必須與索引II的說話人音節(jié)模型 的類似度最大,第二個(gè)音節(jié)必須與索引13的說話人音節(jié)模型的類似度最大。 在不這樣作的情況下,音節(jié)判斷部14將該判斷結(jié)果通知給認(rèn)證判斷部19, 從而認(rèn)證判斷部19拒絕認(rèn)證。此外,在圖9中,Op77之后與第一實(shí)施方式中說明的Opl6 Op23相 同,所以省略該重復(fù)的說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)中,如上所述,通過指示輸出部41向使用 者指示分割方法,使得關(guān)鍵詞的分割方法在每次認(rèn)證隨機(jī),從而可以更可靠
防止關(guān)鍵詞的暴露。此外,上述的說明中,指示輸出部41選擇一個(gè)關(guān)鍵詞的分割方法來向 使用者進(jìn)行指示,但是指示輸出部41也可向使用者提示多種模式的分割方 法,使用者從中選擇其中一種模式。還有,本實(shí)施方式中,示例了在第一實(shí)施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指示輸出部41的結(jié)構(gòu),但是在第二或第三實(shí)施方式的語音認(rèn)證系統(tǒng)上 進(jìn)一步具有指示輸出部41的結(jié)構(gòu)也是本發(fā)明的一個(gè)實(shí)施方式。例如,是在第二實(shí)施方式的語音認(rèn)證系統(tǒng)中加了指示輸出部41的結(jié)構(gòu) 的情況下,在關(guān)鍵詞是數(shù)字列的情況下,例如,可以進(jìn)行"作為第一個(gè)分割 關(guān)鍵詞,請(qǐng)輸入第2位和第4位的數(shù)字,作為第二個(gè)分割關(guān)鍵詞,請(qǐng)輸入第 l位和第3位的數(shù)字。"、"請(qǐng)從反方向依次輸入密碼。"這樣的指示。在 關(guān)鍵詞是數(shù)字和字母的混合的情況下,可以進(jìn)行"作為第一個(gè)分割關(guān)鍵詞i青 輸入奇數(shù)位的數(shù)字或字母,第二次請(qǐng)輸入偶數(shù)位的數(shù)字或字母"這樣的指示。上面,如各實(shí)施方式中所說明的,根據(jù)本發(fā)明,通過分割關(guān)鍵詞并進(jìn)行 輸入,從而他人不會(huì)聽到整個(gè)關(guān)鍵詞。因此,他人很難知道關(guān)鍵詞內(nèi)容,由 于不能持續(xù)錄音整體關(guān)鍵詞,所以可以防止錄音詐騙。另外,文本依存型的語音認(rèn)證大多暴露了關(guān)鍵詞內(nèi)容,現(xiàn)有技術(shù)中,為 了維持高性能,必須頻繁變換關(guān)鍵詞,有使用成本高的問題。但是,根據(jù)本 發(fā)明,很難暴露關(guān)鍵詞內(nèi)容,從而不需要頻繁改變關(guān)鍵詞,有可以減少關(guān)鍵 詞變更用的成本的效果。而且,若例如在人很少的位置語音輸入第一個(gè)分割關(guān)鍵詞,在收銀機(jī)前 等公眾面前僅語音輸入第二個(gè)分割關(guān)鍵詞,由于可以縮短在公眾面前的認(rèn)證 時(shí)間,所以有可以快速進(jìn)行支付的效果。此外,在上述各實(shí)施方式的語音認(rèn)證系統(tǒng)中,例如,使用者也可選擇是 否分割輸入關(guān)鍵詞,以便在周圍沒有他人的情況等中,可不用分割關(guān)鍵詞就 進(jìn)行語音認(rèn)證。 產(chǎn)業(yè)上的可用性本發(fā)明通過防止關(guān)鍵詞的泄漏和錄音詐騙,作為可使用關(guān)鍵詞的秘密性 來維持高的認(rèn)證精度的文本依存型的語音認(rèn)證系統(tǒng)有用。
權(quán)利要求
1. 一種語音認(rèn)證系統(tǒng),對(duì)關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依存 型語音認(rèn)證系統(tǒng),其特征在于,具有輸入部,其將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入,對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次接收;說話人模型存儲(chǔ)部,其預(yù)先存儲(chǔ)使用者的登錄關(guān)鍵詞,并將該登錄關(guān)鍵 詞作為以所述可發(fā)聲的單位所作成的說話人模型;特征量轉(zhuǎn)換部,其從在所述輸入部中通過一次語音輸入所接收的關(guān)鍵詞 的部分中求出該部分中所包含的語音的特征量;類似度計(jì)算部,其求出所述特征量轉(zhuǎn)換部所求出的特征量和所述說話人 模型之間的類似度;發(fā)聲內(nèi)容判斷部,其根據(jù)所述類似度計(jì)算部所求出的類似度,通過所述 多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息;關(guān)鍵詞確認(rèn)部,其根據(jù)所述發(fā)聲內(nèi)容判斷部所判斷的與發(fā)聲內(nèi)容有關(guān)的 信息,判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷部,其根據(jù)所述關(guān)鍵詞確認(rèn)部的判斷結(jié)果和所述類似度計(jì)算部 所求出的類似度,判斷接受還是拒絕認(rèn)證。
2. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 所述可發(fā)聲的單位是音節(jié)。
3. 根據(jù)權(quán)利要求2所述的語音認(rèn)證系統(tǒng),其特征在于, 在所述說話人模型存儲(chǔ)部中,對(duì)構(gòu)成登錄關(guān)鍵詞的各音節(jié)的說話人模型添加有分別獨(dú)立的索引,所述特征量轉(zhuǎn)換部從通過所述語音輸入所接收的關(guān)鍵詞的部分中求出 每個(gè)音節(jié)的特征量,所述類似度計(jì)算部求出所述每個(gè)音節(jié)的特征量和所述說話人模型之間 的類似度,語音認(rèn)證系統(tǒng)還具有音節(jié)判斷部,該音節(jié)判斷部根據(jù)所述類似度計(jì)算部 所求出的類似度,判斷通過所述語音輸入所接受的關(guān)鍵詞的部分與登錄關(guān)鍵 詞的哪個(gè)音節(jié)最類似,所述關(guān)鍵詞確認(rèn)部根據(jù)所述音節(jié)判斷部的判斷結(jié)果,判斷利用通過所述 多次語音輸入所判斷的音節(jié)能否構(gòu)成登錄關(guān)鍵詞。
4. 根據(jù)權(quán)利要求1 3中任意一項(xiàng)所述的語音認(rèn)證系統(tǒng),其特征在于, 所述可發(fā)聲的單位是數(shù)字的讀出或字母的讀出。
5. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 還具有語音識(shí)別部,該語音識(shí)別部根據(jù)所述特征量轉(zhuǎn)換部所求出的特征量,通過不特定說話人的語音識(shí)別來識(shí)別所述關(guān)鍵詞的部分的音韻,所述關(guān)鍵詞確認(rèn)部根據(jù)所述語音識(shí)別部的識(shí)別結(jié)果,判斷利用通過所述 多次語音輸入被語音識(shí)別的結(jié)果能否構(gòu)成登錄關(guān)鍵詞。
6. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 在對(duì)所述關(guān)鍵詞的某部分的語音輸入結(jié)束之后再經(jīng)過規(guī)定時(shí)間也沒有對(duì)下一部分的語音輸入,而且利用此次為止的語音輸入的發(fā)聲內(nèi)容信息無法 構(gòu)成登錄關(guān)鍵詞的情況下,所述認(rèn)證判斷部拒絕認(rèn)證。
7. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于,還具有 位置信息取得部,其每當(dāng)有所述關(guān)鍵詞的部分的語音輸入時(shí),取得使用者的所在位置信息;位置確認(rèn)部,其比較前次有語音輸入時(shí)所述位置信息取得部所取得的所 在位置信息和這次有語音輸入時(shí)所述位置信息取得部所取得的所在位置信 息,確認(rèn)在從前次有語音輸入時(shí)到這次有語音輸入時(shí)為止的期間使用者是否 移動(dòng)了規(guī)定距離以上。
8. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 還具有類似度綜合部,該類似度綜合部對(duì)通過所述多次語音輸入所接收的關(guān)鍵詞的所有部分,綜合所述類似度計(jì)算部所求出的類似度來求出綜合類 似度,所述認(rèn)證判斷部根據(jù)所述類似度綜合部所求出的綜合類似度,判斷接受 還是拒絕認(rèn)證。
9. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng),其特征在于, 所述輸入部利用使用者的便攜終端來接收語音輸入。
10. —種計(jì)算機(jī)程序,實(shí)現(xiàn)對(duì)關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依 存型語音認(rèn)證系統(tǒng),其特征在于,使計(jì)算機(jī)執(zhí)行如下處理輸入處理,將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的 語音輸入,對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次接收;特征量轉(zhuǎn)換處理,從通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該 部分中所包含的語音的特征量;類似度計(jì)算處理,參考作為以所述可發(fā)聲的單位所作成的說話者模型而 預(yù)先登錄有使用者的關(guān)鍵詞的說話人模型存儲(chǔ)部,求出所述特征量轉(zhuǎn)換處理 所求出的特征量和所述說話人模型之間的類似度;發(fā)聲內(nèi)容判斷處理,根據(jù)所述類似度計(jì)算處理所求出的類似度,通過所 述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息;關(guān)鍵詞確認(rèn)處理,根據(jù)所述發(fā)聲內(nèi)容判斷處理所判斷的與發(fā)聲內(nèi)容有關(guān) 的信息,判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞;認(rèn)證判斷處理,根據(jù)所述關(guān)鍵詞確認(rèn)處理的判斷結(jié)果和所述類似度計(jì)算 處理所求出的類似度,判斷接受還是拒絕認(rèn)證。
全文摘要
一種語音認(rèn)證系統(tǒng),是語音輸入關(guān)鍵詞來進(jìn)行認(rèn)證的文本依存性的語音認(rèn)證系統(tǒng),具有輸入部(11),其將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入,對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次接收;語音模型存儲(chǔ)部(20),預(yù)先存儲(chǔ)使用者的登錄關(guān)鍵詞,并將該登錄關(guān)鍵詞作為以所述發(fā)聲的單位所作成的說話人模型;特征量轉(zhuǎn)換部(12),從在輸入部(11)中通過一次語音輸入所接收的關(guān)鍵詞部分中求出該部分中所包含的語音的特征量;類似度計(jì)算部(13),求出特征量和說話人模型之間的類似度;關(guān)鍵詞確認(rèn)部(17),根據(jù)在類似度計(jì)算部求出的類似度,判斷利用所述多次語音輸入,構(gòu)成登錄關(guān)鍵詞的所有音韻的語音輸入是否完成;認(rèn)證判斷部(19),基于關(guān)鍵詞確認(rèn)部的判斷結(jié)果和類似度計(jì)算部所求出的類似度,判斷接受還是拒絕認(rèn)證。
文檔編號(hào)G10L17/00GK101124623SQ20058004849
公開日2008年2月13日 申請(qǐng)日期2005年2月18日 優(yōu)先權(quán)日2005年2月18日
發(fā)明者早川昭二 申請(qǐng)人:富士通株式會(huì)社