語音認(rèn)證系統(tǒng)的制作方法

文檔序號(hào)：2829274閱讀：348來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音認(rèn)證系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種使用語音來進(jìn)行身份確認(rèn)的語音認(rèn)證系統(tǒng)，尤其涉及一種文本依存型的語音認(rèn)證系統(tǒng)。
背景技術(shù)：
到目前為止，作為系統(tǒng)使用者的身份確認(rèn)的一個(gè)方法，應(yīng)用著語音認(rèn)證。近年來，在移動(dòng)環(huán)境中的電子商務(wù)交易等時(shí)的個(gè)人認(rèn)證中，使用作為生物測定學(xué)認(rèn)證之一的指紋認(rèn)證的情況很多。但是，指紋認(rèn)證另外需要特別的傳感器，而在利用語音來進(jìn)行個(gè)人認(rèn)證時(shí)，例如，由于便攜電話中已經(jīng)安裝有作為傳感器的麥克風(fēng)，所以希望將便攜終端適用于移動(dòng)環(huán)境下的語音認(rèn)證。語音認(rèn)證大致分為文本依存型和文本獨(dú)立型兩種。文本依存型是這樣一種方式，即，預(yù)先讓使用者朗讀關(guān)鍵詞(密碼)或句子，來登錄該語音，在認(rèn)證時(shí)，使使用者說出與登錄時(shí)相同的關(guān)鍵詞或句子，來進(jìn)行認(rèn)證。文本獨(dú) 立型是與說話內(nèi)容無關(guān)而僅通過音質(zhì)來進(jìn)行認(rèn)證的方式。因此，在文本獨(dú)立型的情況下，不需要決定關(guān)鍵詞等，使用者可通過任意的發(fā)聲內(nèi)容來進(jìn)行登錄及認(rèn)證。本發(fā)明涉及前一種的文本依存型的語音認(rèn)證。在文本依存型語音認(rèn)證中，由于根據(jù)音質(zhì)和發(fā)聲內(nèi)容(關(guān)鍵詞等)的秘密性信息兩者來進(jìn)行認(rèn)證處理，所以可得到較高的認(rèn)證精度。但是，在認(rèn)證時(shí)旁邊有其他人的環(huán)境中，有可能會(huì)被聽到秘密的關(guān)鍵詞。因此，在不能保持私秘性的環(huán)境中進(jìn)行認(rèn)證的用途中(例如，店鋪的收銀機(jī)或在自動(dòng)售貨機(jī) 中使用內(nèi)置付帳功能的便攜電話來進(jìn)行支付時(shí)的身份確認(rèn)等中)，由于使用者有抗拒情緒，所以很難采用文本依存型語音認(rèn)證。另外，在暴露了關(guān)鍵詞的情況下，由于發(fā)聲內(nèi)容的秘密性不能用于認(rèn)證，所以認(rèn)證精度降低了。進(jìn)而，還有他人用磁帶錄音機(jī)或IC錄音機(jī)來不正當(dāng)?shù)劁浿屏耸褂谜弑救税l(fā)出的秘密的關(guān)鍵詞，并在認(rèn)證時(shí)通過將其進(jìn)行再現(xiàn)，從而成功詐騙(錄音再現(xiàn)詐騙)的危險(xiǎn)。對(duì)于這些問題，為了防止錄音再現(xiàn)詐騙，提出了根據(jù)語音的相位差信息
來檢測出是來自揚(yáng)聲器的再現(xiàn)的方法(參考專利文獻(xiàn)1)和通過比較傳送特性，或通過在語音上覆蓋DTMF信號(hào)來輸入聲音空隙，從而檢測出錄音再現(xiàn) 的方法(參考專利文獻(xiàn)2)等。另外，還存在使使用者每次認(rèn)證對(duì)不同的內(nèi) 容的文本進(jìn)行發(fā)聲，來防止錄音再現(xiàn)詐騙的系統(tǒng)(參考專利文獻(xiàn)3)。另外，提出了如下方法，即，使多種密碼與索引相對(duì)應(yīng)來進(jìn)行登錄，在認(rèn)證時(shí)，與密碼一起，輸入與該密碼對(duì)應(yīng)的索引，從而即使密碼被暴露，也可防止詐騙(專利文獻(xiàn)4)。另外，提出了這樣一種方法，即作為在附近不暴露用于語音認(rèn)證的密碼的方法，顯示分別對(duì)號(hào)碼指定了顏色的畫面，通過在認(rèn)證時(shí)發(fā)出顏色的名字，從而防止密碼的泄漏(專利文獻(xiàn)5)。另外，在通過數(shù)字多位的語音輸入來進(jìn)行操作者的認(rèn)證的系統(tǒng)中，還有預(yù)先準(zhǔn)備多種數(shù)字位的輸入順序，在認(rèn)證時(shí)指示其中的一種來加以輸入的方法(專利文獻(xiàn)6)。另外，還有通過指定為使秘密的記號(hào)串變形而發(fā)聲，而防止密碼的泄漏的系統(tǒng)(專利文獻(xiàn)7)。進(jìn)一步，還已知通過指示將虛擬號(hào) 碼隨機(jī)插入到語音輸入的密碼中，從而防止密碼的泄漏的語音響應(yīng)識(shí)別裝置(專利文獻(xiàn)8)。專利文獻(xiàn)l-JP特開2001--10949號(hào)公報(bào)專利文獻(xiàn)2:JP特表2002-一514318號(hào)公報(bào)專利文獻(xiàn)3:JP特開2000-_ 148187號(hào)公報(bào)專利文獻(xiàn)4:JP特開2000--181490號(hào)公報(bào)專利文獻(xiàn)5:JP特開2002.-311992號(hào)公報(bào)專利文獻(xiàn)6:JP特開昭59-_ 191645號(hào)公報(bào)專利文獻(xiàn)7:JP特開昭63-—231496號(hào)公報(bào)專利文獻(xiàn)8:JP特開昭63--207262號(hào)公報(bào)但是，即使執(zhí)行如上述專利文獻(xiàn)1 3記載的錄音再現(xiàn)詐騙對(duì)策，由于在錄音的時(shí)刻暴露了密碼，所以認(rèn)證精度也降低了。另外，為了防止密碼的泄漏或進(jìn)行隱藏，如上述專利文獻(xiàn)4 8所記載的方法那樣，需要發(fā)聲內(nèi)容的改變或特別的操作，有對(duì)使用者來說難以使用的問題。另外，在每次認(rèn)證時(shí)指定發(fā)聲內(nèi)容的情況下，由于說話內(nèi)容(說什么)的秘密信息不能用于認(rèn) 證，所以有不能得到高精度的問題
發(fā)明內(nèi)容
鑒于上述問題，本發(fā)明的目的是提供一種在文本依存型語音認(rèn)證系統(tǒng) 中，通過防止關(guān)鍵詞的泄漏和錄音詐騙，可以使用關(guān)鍵詞的秘密性來維持高認(rèn)證精度的語音認(rèn)證系統(tǒng)。為了實(shí)現(xiàn)上述目的，本發(fā)明的語音認(rèn)證系統(tǒng)，對(duì)關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng)，其特征在于，具有輸入部，其將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入，對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次來接收；說話人模型(SpeakerModel)存儲(chǔ)部，其預(yù)先存儲(chǔ)使用者的登錄關(guān)鍵詞，并將該登錄關(guān)鍵詞作為以所述可發(fā)聲的單位所作成的說話人模型；特征量轉(zhuǎn)換部，從在所述輸入部中通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音的特征量；類似度計(jì) 算部，其求出所述特征量轉(zhuǎn)換部所求出的特征量和所述說話人模型之間的類似度；發(fā)聲內(nèi)容判斷部，其根據(jù)所述類似度計(jì)算部所求出的類似度，通過所述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)信息；關(guān)鍵詞確認(rèn)部，其根據(jù)所述發(fā) 聲內(nèi)容判斷部所判斷的與發(fā)聲內(nèi)容有關(guān)的信息，判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞；認(rèn)證判斷部，其根據(jù)所述關(guān)鍵詞確認(rèn)部的判斷結(jié)果和由所述類似度計(jì)算部所求出的類似度，判斷接受還是拒絕認(rèn)證。根據(jù)該結(jié)構(gòu)，將關(guān)鍵詞通過以可發(fā)聲的單位作為最小單位而分割為多個(gè) 部分來進(jìn)行語音輸入，在周圍有他人的環(huán)境中進(jìn)行認(rèn)證時(shí)，可以防止整個(gè)關(guān) 鍵詞的泄漏。另外，由于不一次連續(xù)發(fā)出整個(gè)關(guān)鍵詞，所以可以防止整個(gè)關(guān) 鍵詞被錄音，故還可抑制錄音詐騙。并且，在關(guān)鍵詞確認(rèn)部中，判斷通過多次的語音輸入，構(gòu)成登錄關(guān)鍵詞的所有的音韻的語音輸入是否完成，并根據(jù) 該判斷結(jié)果和類似度計(jì)算部所求出的類似度，來判斷接受還是拒絕認(rèn)證，從而可以提供高精度的文本依存型語音認(rèn)證系統(tǒng)。本發(fā)明的語音認(rèn)證系統(tǒng)中，所述可發(fā)聲的單位的一個(gè)例子是音節(jié)。這時(shí)，在所述說話人模型存儲(chǔ)部中，最好對(duì)構(gòu)成登錄關(guān)鍵詞的各音節(jié)的說話人模型添加有分別獨(dú)立的索引，所述特征量轉(zhuǎn)換部從通過所述語音輸入所接受的關(guān) 鍵詞的部分中求出每個(gè)音節(jié)的特征量，所述類似度計(jì)算部求出所述每個(gè)音節(jié) 的特征量和所述說話人模型之間的類似度，語音認(rèn)證系統(tǒng)還具有音節(jié)判斷部，該音節(jié)判斷部根據(jù)所述類似度計(jì)算部所求出的類似度，判斷通過所述語
音輸入所接受的關(guān)鍵詞的部分與登錄關(guān)鍵詞的哪個(gè)音節(jié)最類似，所述關(guān)鍵詞確認(rèn)部根據(jù)所述音節(jié)判斷部的判斷結(jié)果，判斷利用通過所述多次語音輸入所判斷的音節(jié)能否構(gòu)成登錄關(guān)鍵詞。由此，即使不進(jìn)行語音識(shí)別，在認(rèn)證時(shí)也可判斷語音輸入的關(guān)鍵詞的說話內(nèi)容是否與登錄關(guān)鍵詞的說話內(nèi)容一致，所以不需要具有語音識(shí)別用的語法字典等，就可以簡化系統(tǒng)結(jié)構(gòu)。本發(fā)明的語音認(rèn)證系統(tǒng)中，可發(fā)聲的單位的另一例子是數(shù)字的讀出或字母的讀出。由此，可以適用于由數(shù)字或者字母、或這些的組合構(gòu)成的關(guān)鍵詞。本發(fā)明的語音認(rèn)證系統(tǒng)中，優(yōu)選地，還具有語音識(shí)別部，該語音識(shí)別部根據(jù)所述特征量轉(zhuǎn)換部所求出的特征量中，通過不特定說話人的語音識(shí)別來識(shí)別所述關(guān)鍵詞的部分的音韻，所述關(guān)鍵詞確認(rèn)部根據(jù)所述語音識(shí)別部的識(shí) 別結(jié)果，判斷利用通過所述多次的語音輸入被語音識(shí)別的結(jié)果能否構(gòu)成登錄關(guān)鍵詞。通過利用語音識(shí)別來判斷認(rèn)證時(shí)的關(guān)鍵詞的說話內(nèi)容是否與登錄關(guān) 鍵詞的說話內(nèi)容一致，可以進(jìn)行高精度的語音認(rèn)證。本發(fā)明的語音認(rèn)證系統(tǒng)中，優(yōu)選地，在對(duì)所述關(guān)鍵詞的某個(gè)部分的語音輸入結(jié)束之后再經(jīng)過規(guī)定時(shí)間也沒有對(duì)下一部分的語音輸入，而且利用此次為止的語音輸入的發(fā)聲內(nèi)容信息無法構(gòu)成登錄關(guān)鍵詞的情況下，所述認(rèn)證判斷部拒絕認(rèn)證。這是因?yàn)榭梢詮?qiáng)化安全性。本發(fā)明的語音認(rèn)證系統(tǒng)中優(yōu)選地，還具有位置信息取得部，其每當(dāng)有所述關(guān)鍵詞的部分的語音輸入時(shí)，取得使用者的所在位置信息；位置確認(rèn)部，其比較前次有語音輸入時(shí)所述位置信息取得部所取得的所在位置信息和這次有語音輸入時(shí)所述位置信息所取得部取得的所在位置信息，確認(rèn)在從前次有語音輸入時(shí)到這次有語音輸入時(shí)為止的期間使用者是否移動(dòng)了規(guī)定距離以上。這是因?yàn)樵诜指铌P(guān)鍵詞而進(jìn)行語音輸入時(shí)，每次語音輸入時(shí)移動(dòng)位置，從而進(jìn)一步降低了周圍的其他人知道整個(gè)關(guān)鍵詞的可能性，由此可以強(qiáng)化安全性。另外，在本發(fā)明的語音認(rèn)證系統(tǒng)中，優(yōu)選地，還具有類似度綜合部，該類似度綜合部對(duì)通過所述多次語音輸入所接收的關(guān)鍵詞的所有部分，綜合所述類似度計(jì)算部所求出的類似度來求出綜合類似度，所述認(rèn)證判斷部根據(jù)所述類似度綜合部所求出的綜合類似度，判斷接受還是拒絕認(rèn)證。這是因?yàn)橛?于對(duì)整個(gè)關(guān)鍵詞綜合判斷類似度使發(fā)聲長度變長，所以可以通過穩(wěn)定的類似
度來進(jìn)行判斷。還有，本發(fā)明的語音認(rèn)證系統(tǒng)中，優(yōu)選地，所述輸入部利用使用者的便攜終端來接收語音輸入。這是因?yàn)椋纱?，可以在離開最先輸入語音的位置的位置上進(jìn)行第二次之后的語音輸入，所以可以降低整個(gè)關(guān)鍵詞暴露給他人的可能性。為了實(shí)現(xiàn)上述目的，本發(fā)明的計(jì)算機(jī)程序，是實(shí)現(xiàn)對(duì)關(guān)鍵詞進(jìn)行語音輔r 入而進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng)，其特征在于，使計(jì)算機(jī)執(zhí)行如下處理輸入處理，將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入，對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次來接收；特征量轉(zhuǎn)換處理，從通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音的特征量；類似度計(jì)算處理，參考作為以所述可發(fā)聲的單位所作成的說話者模型而預(yù)先登錄有使用者的關(guān)鍵詞的說話人模型存儲(chǔ)部，求出所述特征量轉(zhuǎn) 換處理索求出的特征量和所述說話人模型之間的類似度；發(fā)聲內(nèi)容判斷處理，根據(jù)所述類似度計(jì)算處理所求出的類似度，通過所述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息；關(guān)鍵詞確認(rèn)處理，根據(jù)所述發(fā)聲內(nèi)容判斷處理所判斷的與發(fā)聲內(nèi)容有關(guān)的信息，判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞；認(rèn)證判斷處理，根據(jù)所述關(guān)鍵詞確認(rèn)處理的判斷結(jié)果和所述類似度計(jì)算處理所求出的類似度，判斷接受還是拒絕認(rèn)證。記錄了上述計(jì)算機(jī)程序的記錄媒體也是本發(fā)明的一個(gè)方面。

圖1是表示本發(fā)明的第一實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。圖2是說明在所述語音認(rèn)證系統(tǒng)中，根據(jù)認(rèn)證時(shí)從輸入關(guān)鍵詞的音節(jié)和登錄關(guān)鍵詞的音節(jié)的類似度來判斷關(guān)鍵詞的正確性的方法的圖。圖3是表示本發(fā)明的第一實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。圖4是表示本發(fā)明的第二實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。圖5是表示本發(fā)明的第二實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。圖6是表示本發(fā)明的第三實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。圖7是表示本發(fā)明的第三實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。圖8是表示本發(fā)明的第四實(shí)施方式的語音認(rèn)證系統(tǒng)的概略結(jié)構(gòu)的框圖。
圖9是表示本發(fā)明的第四實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作的流程圖。
具體實(shí)施例方式
(第一實(shí)施方式) 下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的一個(gè)實(shí)施方式。
在本實(shí)施方式的語音認(rèn)證系統(tǒng)中，要接受認(rèn)證的使用者通過從便攜電話或便攜終端中語音輸入預(yù)先所登錄的秘密的關(guān)鍵詞(密碼)，來接受認(rèn)證。在該語音認(rèn)證系統(tǒng)中，使用者在認(rèn)證時(shí)將構(gòu)成關(guān)鍵詞的所有音節(jié)分割為由一個(gè)音節(jié)或多個(gè)音節(jié)構(gòu)成的部分，從而隔開時(shí)間間隔，并且最好移動(dòng)位置，分多次來語音輸入分割后的關(guān)鍵詞。分割后的關(guān)鍵詞的輸入順序可以是關(guān)鍵詞的順序，也可以是隨機(jī)的順序。此外，在認(rèn)證時(shí)，需要通過所述多次語音輸入，來發(fā)出構(gòu)成關(guān)鍵詞的所有音節(jié)。例如，在關(guān)鍵詞是"卡拉OK"的情況下，使用者將該關(guān)鍵詞例如分割為"卡拉"和"OK",在語音輸入第一個(gè)分割關(guān)鍵詞(例如"卡拉")后，經(jīng)過幾秒到幾分鐘后，語音輸入第二個(gè)分割關(guān)鍵詞(例如"OK")。為了避免處于附近的其他人聽到關(guān)鍵詞，在第一次語音輸入和第二次語音輸入間使用者最好移動(dòng)位置。
關(guān)鍵詞的分割也能夠以"卡O"和"拉K"、 "K卡"和"O拉"、"拉卡"和"KO"的方式使音節(jié)的順序隨機(jī)。另夕卜，也可以以"卡"和"KO拉" 的方式具有由單音節(jié)構(gòu)成的分割關(guān)鍵詞。并且，分割數(shù)并不限于兩個(gè)。而且，本實(shí)施方式的語音認(rèn)證系統(tǒng)根據(jù)這樣被分割發(fā)聲的關(guān)鍵詞，來進(jìn) 行語音認(rèn)證。由此，即使在附近有其他人的環(huán)境中說出關(guān)鍵詞，由于在一次發(fā)聲中僅能聽到關(guān)鍵詞的一部分，所以可以防止其他人知道全部關(guān)鍵詞。本實(shí)施方式的語音認(rèn)證系統(tǒng)中，由于將關(guān)鍵詞分割為由一個(gè)音節(jié)或多個(gè) 音節(jié)構(gòu)成的分割關(guān)鍵詞來進(jìn)行語音認(rèn)證，所以適用于容易通過音節(jié)單位來劃分單詞的語言(例如日語)的語音認(rèn)證。本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖1所示，具有輸入部11、特征量轉(zhuǎn)換部 12、類似度計(jì)算部13、音節(jié)判斷部14、類似度保存部15、待機(jī)時(shí)間管理部 16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、登錄說話人別音節(jié)模型數(shù)據(jù)庫20和關(guān)鍵詞登錄部21 。
輸入部11從使用者的便攜電話或便攜終端中輸入要接受認(rèn)證的使用者的使用者ID和聲音。此外，在如便攜電話那樣使用者被限定為一人的情況下，不需要使用者ID的輸入步驟。特征量轉(zhuǎn)換部12將所輸入的聲音轉(zhuǎn)換為用于與說話人別音節(jié)模型進(jìn)行比較的特征量。音節(jié)判斷部14比較在特征量轉(zhuǎn)換部12得到的特征量，和使用者預(yù)先登錄在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中的說話人音節(jié)模型，來求出類似度，并根據(jù)所求出的類似度，來判斷輸入語音的各音節(jié)與說話人音節(jié)模型的何處最類似。類似度保存部15針對(duì)輸入語音的各音節(jié)，保存通過所述音節(jié)判斷部14所求出的相對(duì)于說話人音節(jié)模型的類似度。待機(jī)時(shí)間管理部16監(jiān)視關(guān)鍵詞被分多次發(fā)聲時(shí)的發(fā)聲的時(shí)間間隔。關(guān) 鍵詞確認(rèn)部17根據(jù)由音節(jié)判斷部14得到的音節(jié)的識(shí)別結(jié)果，來確認(rèn)是否通過多次發(fā)聲發(fā)出了關(guān)鍵詞的所有音節(jié)。類似度綜合部18根據(jù)類似度保存部 15所保存的每個(gè)音節(jié)的類似度，來求出綜合類似度，該綜合類似度表示在認(rèn) 證時(shí)發(fā)聲的關(guān)鍵詞語音與所登錄的關(guān)鍵詞語音作為整體有多大程度類似。認(rèn) 證判斷部19根據(jù)通過類似度綜合部18求出的綜合類似度，來判斷接受或拒絕是否受理使用者的認(rèn)證。關(guān)鍵詞登錄部21在語音認(rèn)證系統(tǒng)的使用者登錄關(guān)鍵詞時(shí)，從該使用者向輸入部11語音輸入的關(guān)鍵詞中作成音節(jié)模型，并登錄到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。此外，上述語音認(rèn)證系統(tǒng)可通過計(jì)算機(jī)及其周邊設(shè)備來實(shí)現(xiàn)。這時(shí)，類似度保存部15和登錄說話人別音節(jié)模型數(shù)據(jù)庫20可以通過計(jì)算機(jī)內(nèi)部或可從該計(jì)算機(jī)訪問的存儲(chǔ)裝置來實(shí)現(xiàn)。輸入部11、特征量轉(zhuǎn)換部12、類似度計(jì)算部13、音節(jié)判斷部14、待機(jī)時(shí)間管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、關(guān)鍵詞登錄部21可以通過使上述計(jì)算機(jī)的處理器執(zhí)行實(shí)現(xiàn)各部分的功能的程序來加以實(shí)現(xiàn)。因此，這種程序或記錄有該程序的計(jì)算機(jī)可讀取的記錄介質(zhì)也是本發(fā)明的一個(gè)實(shí)施方式。這里，說明以上結(jié)構(gòu)的本實(shí)施方式的語音認(rèn)證系統(tǒng)中的語音認(rèn)證的步驟。首先，說明使用者將關(guān)鍵詞登錄到語音認(rèn)證系統(tǒng)的登錄說話人別音節(jié)模型數(shù)據(jù)庫20時(shí)的步驟。使用者決定所希望的關(guān)鍵詞，并對(duì)與輸入部11相連
的便攜電話等的麥克風(fēng)發(fā)聲。這時(shí)，使用者通過每一個(gè)音節(jié)以無音區(qū)間來劃分關(guān)鍵詞后進(jìn)行發(fā)聲。例如，在關(guān)鍵詞是"卡拉OK"的情況下，由于該關(guān) 鍵詞中包含"卡""拉""0" "K"四個(gè)音節(jié)，所以使用者通過無音區(qū)間來劃分這4個(gè)音節(jié)來進(jìn)行發(fā)聲。輸入部11將所輸入的音節(jié)發(fā)聲送到特征量轉(zhuǎn)換部12。在特征量轉(zhuǎn)換部12中，將所輸入的聲波轉(zhuǎn)換為MFCC (Mel Frequency Cepstral Coefficients:梅爾頻率倒譜系數(shù))或LPC倒頻譜等提取了語音的特征后的特征向量序列。之后，依次送到關(guān)鍵詞登錄部21。
關(guān)鍵詞登錄部21分別對(duì)所輸入的音節(jié)，按輸入的順序來分配索引。艮P，在上述的例子中，分別將索引II分配給"卡(第一個(gè)音節(jié))"，將索引12 分配給"拉(第二個(gè)音節(jié))"、將索引13分配給"O (第三個(gè)音節(jié))"并將索引14分配給"K (第四個(gè)音節(jié))"。另外，關(guān)鍵詞登錄部21只要以輸入音節(jié)的順序來分配索引就足夠了，即不需要識(shí)別各音節(jié)的發(fā)聲(音韻)是哪個(gè)。但是如后所述，有時(shí)在該時(shí)刻還進(jìn)行同一內(nèi)容的音節(jié)是否包含在關(guān)鍵詞中的檢査。
關(guān)鍵詞登錄部21從這樣分配了索引后的各音節(jié)中作成說話人音節(jié)模型，并如上所述，該使用者的使用者ID等與分配后的索引一起，建立聯(lián)系并登錄到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。說話人別音節(jié)模型例如是通過 MAP (MaximumAPosteriori:最大后驗(yàn))估計(jì)，來將不特定說話人的GMM (GuassianMixture Model:高斯混合模型)與特定說話人自適應(yīng)，并按音節(jié) 來實(shí)施該適應(yīng)來作成的。但是，說話人音節(jié)模型并不限于GMM，若是HMM (Hidden Markov Model:隱馬爾科夫模型)等可以按索引來作成說話人模型，則可以適用任意的方法。還可不用自適應(yīng)，通過將所登錄的特征向量序列直接作為模板來保存，從而作成以說話人別音節(jié)模型。此外，為了使認(rèn)證精度提高，最好讓使用者盡可能多(例如三次以上) 地重復(fù)發(fā)出關(guān)鍵詞。這時(shí)，對(duì)于一個(gè)音節(jié)，使用重復(fù)的次數(shù)(例如在重復(fù)三次發(fā)聲的情況下是三次)的特征向量序列來對(duì)應(yīng)說話人別音節(jié)模型，并登錄到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。在說話人別音節(jié)模型的作為前述的模板保存的形態(tài)的情況下，將具有重復(fù)多次次數(shù)的模板的說話人別音節(jié)模型登記到登錄說話人別音節(jié)模型數(shù)據(jù)庫20中。接著，參考圖3的流程圖來說明在通過上述的步驟使用者登錄了 "卡拉OK"這樣的關(guān)鍵詞后，該使用者接受認(rèn)證時(shí)的步驟。此外，這里，表示了使用者從便攜電話進(jìn)行語音輸入，且將關(guān)鍵詞分割為兩次來進(jìn)行發(fā)聲的例子，但是關(guān)鍵詞的分割數(shù)并不限于2。還有，關(guān)鍵詞的輸入裝置并不限于便攜電話。在便攜電話上有認(rèn)證開始按鈕的情況下通過按下按鈕，或在啟動(dòng)認(rèn)證所需的應(yīng)用程序時(shí)、或在其他應(yīng)用程序的執(zhí)行中間有認(rèn)證請(qǐng)求時(shí)，開始認(rèn)證處理。首先，輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Opll)。此外，在如便攜電話那樣，使用者被限定為一人的情況下，不需要使用者ID的輸入步驟。接著，使用者若向便攜電話的麥克風(fēng)發(fā)出第一個(gè) 分割關(guān)鍵詞，則輸入部11接受該語音(Opl2)。而且，在這里，所述使用者將關(guān)鍵詞分割為"卡拉"和"OK"，來輸入語音。作為第一個(gè)分割關(guān)鍵詞，使用者通過按每一個(gè)音節(jié)以無音區(qū)間來劃分"卡""拉"而進(jìn)行語音輸入。然后，這樣，根據(jù)進(jìn)行輸入的順序，將這樣被語音輸入的"卡""拉" 的各音節(jié)表示為S1、 S2。此外，第一個(gè)分割關(guān)鍵詞的輸入是否結(jié)束可以通過無音區(qū)間是否持續(xù)規(guī) 定時(shí)間以上來加以判斷?；蛘?，也可在分割關(guān)鍵詞的輸入結(jié)束時(shí)，讓使用者進(jìn)行規(guī)定的鍵操作。將所輸入的音節(jié)Sl、 S2分別在特征量轉(zhuǎn)換部12中通過與登錄時(shí)相同的分析方法，轉(zhuǎn)換為MFCC或LPC倒頻譜等的用于與說話人音節(jié)模型進(jìn)行比較的特征向量序列(特征量)(Opl3)。將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計(jì)算部13。接著，類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的該使用者的說話人音節(jié)模型(即，上述的索引I1 I4的說話人音節(jié)模型)，并計(jì)算對(duì)所提取的說話人音節(jié)模型的所述特征量的類似度(Opl4)。這里，音節(jié)Sl相對(duì)索引Il的說話人模型的類似度以CS1: 的方式來表示。g卩，在Opl4中，對(duì)于例如音節(jié)Sl，將CS1: 、 CS1:I2、 CS1:I3、 CsH4四個(gè)值作為類似度求出，對(duì)于音節(jié)S2，將Cs2:n、 CS2: I2、 CS2:I3、 CS2:I4四個(gè)值作為類似度求出。并將所求出的類似度送到音節(jié)判斷部14中。而且，在將音節(jié)模型作為模板登錄時(shí)，在如使關(guān)鍵詞重復(fù)發(fā)聲的情況那樣，對(duì)同一音節(jié)登錄有多次說話人別音節(jié)模板的情況下，對(duì)所有這些說話人別音節(jié)模板，分別進(jìn)行類似度的計(jì)算。因此，在關(guān)鍵詞登錄時(shí)，在重復(fù)三次發(fā)出"卡""拉""O" "K"而將模板作為說話人音節(jié)模型進(jìn)行登錄的情況下，若以II (1) 、 II (2) 、 II ?！?..的方式來分配這些說話人音節(jié)模型的索引，則在Op4中，例如，對(duì)于音節(jié)S1，將G詞(D、 CS1:I1(2)、 CS1:I1(3)、 CS1: 12 (1)、 csl: 12 (2)、 csl: 12 (3)12個(gè)值作為類似度得到。接著，音節(jié)判斷部14根據(jù)通過類似度計(jì)算部13求出的類似度，對(duì)Sl、 S2的各音節(jié)，選擇在各個(gè)登錄的說話人的音節(jié)模型數(shù)據(jù)庫20中所存儲(chǔ)的說話人音節(jié)模型中類似度最高的模型的索引(Opl5)。例如，由于作為音節(jié)S1，使用者發(fā)出的是"卡"，所以在針對(duì)音節(jié)S1 的類似度CS1: 、 CS1:12、 CS1: I3、 Csl: 14中，對(duì)于索引II (登錄時(shí)的音節(jié)"卡") 的說話人音節(jié)模型的類似度Cshu為最大值。因此，如圖2所示，音節(jié)判斷部14判斷為發(fā)聲的音節(jié)S1相當(dāng)于索引II的說話人音節(jié)模型，并作為已發(fā)聲音節(jié)的索引數(shù)據(jù)將"I1"保存在類似度保存部15中。而且，與此同時(shí)，將針對(duì)音節(jié)Sl的類似度最大值、即Csl: 作為音節(jié)Sl的類似度(音節(jié)類似度) 保存在類似度保存部15中。另外，與上述相同，對(duì)于音節(jié)S2，也選擇說話人音節(jié)模型中類似度最高的模型的索引。這里，由于作為音節(jié)S2使用者發(fā)出的是"拉"，所以針對(duì) 音節(jié)S2的類似度(:82:11、 CS2:I2、 CS2:I3、 CS2:I4t，對(duì)于索引12 (登錄時(shí)的音節(jié)"拉")的說話人音節(jié)模型的類似度Cs2d2為最大值。因此，如圖2所示，音節(jié)判斷部14判斷為音節(jié)S2相當(dāng)于索引I2，并作為已發(fā)聲音節(jié)的索引數(shù)據(jù)將"12"保存在類似度保存部15中。而且，與此同時(shí)，將針對(duì)音節(jié)S2 的類似度的最大值、即<^2:12也作為音節(jié)S2的音節(jié)類似度而保存在類似度保存部15中。這里，由于第二個(gè)分割關(guān)鍵詞的輸入還沒有結(jié)束(Opl6的結(jié)果是NO)，所以進(jìn)入到Op17。此外，待機(jī)時(shí)間管理部16通過計(jì)時(shí)器(未圖示)來測量將第一個(gè)分割關(guān)鍵詞("卡拉")輸入到輸入部11后的經(jīng)過時(shí)間。并且，在規(guī)定時(shí)間(例如10分鐘)內(nèi)沒有開始第二個(gè)分割關(guān)鍵詞的輸入的情況下，作為超時(shí)而進(jìn)
入到Opl8，并從類似度保存部15等中清除第一個(gè)分割關(guān)鍵詞的處理結(jié)果 (Opl8)。這時(shí)，使用者為了接受認(rèn)證，而必須從第一個(gè)分割關(guān)鍵詞輸入起重新進(jìn)行。
此外，為了可靠防止對(duì)第三者暴露關(guān)鍵詞，若從第一個(gè)分割關(guān)鍵詞的語音輸入起沒有經(jīng)過了預(yù)定時(shí)間(例如2分鐘)，也可不接受第二個(gè)分割關(guān)鍵詞的語音輸入。這時(shí)，在第一個(gè)分割關(guān)鍵詞的輸入結(jié)束時(shí)，為了相隔一定時(shí) 間直到第二個(gè)分割關(guān)鍵詞的語音輸入為止優(yōu)先將指示的消息顯示在使用者的便攜電話等的顯示器上，或?qū)⑼瑯觾?nèi)容的語音消息發(fā)送到該便攜電話上。
另一方面，在Opl7中，在上述規(guī)定時(shí)間內(nèi)開始了第二個(gè)分割關(guān)鍵詞輸入的情況下，待機(jī)時(shí)間管理部16停止及清除計(jì)時(shí)器的同時(shí)，進(jìn)入到Opl9，而接受第二個(gè)分割關(guān)鍵詞輸入(0pl9)，然后，進(jìn)入Opl3。
在該例子中，作為第二個(gè)分割關(guān)鍵詞，使用者按每一個(gè)音節(jié)來劃分"O" "K"并進(jìn)行發(fā)聲。之后，根據(jù)所輸入的順序，將這樣語音輸入的"O" "K" 的各音節(jié)顯示為S3、 S4。
將所輸入的音節(jié)S3、S4分別在特征量轉(zhuǎn)換部12中轉(zhuǎn)換為特征量(Op13)。接著，類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的說話人音節(jié)模型(即，索引I1 I4的說話人音節(jié)模型)，并計(jì)算所述特征量相對(duì)所提取的說話人音節(jié)模型的類似度(Op 14 )。
由此，分別相對(duì)于索引11 14的說話人音節(jié)模型，計(jì)算出音節(jié)S3、 S4 在特征量轉(zhuǎn)換部12得到的特征量與其的類似度Cs3:u、 CS3:I2、 CS3:I3、 CS3:14、 Cs4: II、 Cs4: 12、 Cs4: 13、 Cs4: 14。
此外，在關(guān)鍵詞的登錄時(shí)，通過使關(guān)鍵詞重復(fù)發(fā)聲，從而在對(duì)同一音節(jié) 登錄有多次的說話人音節(jié)模型的情況下，對(duì)所有這些說話人音節(jié)模型，分別進(jìn)行類似度的計(jì)算。因此，在關(guān)鍵詞登錄時(shí)，重復(fù)三次發(fā)聲"卡""拉""0""K"，而登錄了說話人音節(jié)模型的情況下，若以II (1) 、 II (2) 、 II (3)...的方式來分配這些說話人音節(jié)模型的索引，則例如針對(duì)于音節(jié)S3，將(^3:11(1)、Gs3: II (2) 、 Cs3: II (3) 、 Cs3: 12 (1) 、 Gs3: 12 (2) 、 Cs3: 12 (3)…12個(gè)值作為類似度來得到。
接著，音節(jié)判斷部14基于在類似度計(jì)算部13求出的類似度，針對(duì)S3、 S4的各音節(jié)，選擇出在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中所存儲(chǔ)的說話人
音節(jié)模型中類似度最高的模型的索引(Opl5)。該例子中，由于作為音節(jié)S3，使用者發(fā)出的是"O"，所以針對(duì)音節(jié)S3的類似度CS3:I1、 CS3:I2、 CS3:I3、 Cs3:m中，CsH3為最大值。因此，音節(jié)判斷部14判斷為音節(jié)S3相當(dāng)于索引I3，并作為已發(fā)聲音節(jié)的索引數(shù)據(jù)，將"I3" 保存在類似度保存部15中。而且，與此同時(shí)，將對(duì)于音節(jié)S3的類似度的最大值、即CS3: 13也作為音節(jié)S3的音節(jié)類似度，而保存在類似度保存部15中。與上述同樣，對(duì)于音節(jié)S4，也選擇出說話人音節(jié)模型中類似度最高的模型的索引。這里，由于作為音節(jié)S4，使用者發(fā)出的是"K"，所以在針對(duì)音節(jié)S4的類似度Cs4:u、 CS4:I2、 CS4:I3、 Cs4:m中，Csn4為最大值。因此，音節(jié)判斷部14判斷為音節(jié)S4相當(dāng)于索引14，并作為已發(fā)聲音節(jié)的索引數(shù)據(jù)，將"14"保存在類似度保存部15中。與此同時(shí)，將對(duì)于音節(jié)S4的類似度的最大值、即CS4:14也作為音節(jié)S3的音節(jié)類似度，保存在類似度保存部15中。如上所述，若第二個(gè)分割關(guān)鍵詞的處理結(jié)束(Opl6中Yes)，則關(guān)鍵詞確認(rèn)部17根據(jù)類似度保存部15中所保存的已發(fā)聲音節(jié)的索引的數(shù)據(jù)，確認(rèn) 是否通過第一次和第二次的發(fā)聲，發(fā)出了關(guān)鍵詞的所有音節(jié)(Op20)。在上述例子的情況下，類似度保存部15中保存有"II" "12" "13" "14"來作為已發(fā)聲音節(jié)的索引數(shù)據(jù)。SP，由于所登錄的關(guān)鍵詞的所有索引(11 14) 一致，所以關(guān)鍵詞確認(rèn)部17可以確認(rèn)關(guān)鍵詞的所有音節(jié)己發(fā)聲。在Op20的判斷結(jié)果是是的情況下，將該內(nèi)容通知給認(rèn)證判斷部19，認(rèn)證判斷部19拒絕該使用者的認(rèn)證(Op21)。例如，在上述例子中，在作為第一個(gè)分割關(guān)鍵詞發(fā)聲為"卡""拉"，作為第二個(gè)分割關(guān)鍵詞，發(fā)聲為"卡""K"的情況下，沒有發(fā)出"0"，所以在已發(fā)聲完畢的音節(jié)的索引數(shù)據(jù)中不存在"O"的索引13。因此，拒絕認(rèn)證。另一方面，在Op20的判斷結(jié)果是"是"的情況下，類似度綜合部18基于類似度保存部15中所保存的各個(gè)音節(jié)S1 S4的音節(jié)類似度(CS1: 、 CS2: I2、 CS3:I3、 CS4:I4)，來算出表示進(jìn)行發(fā)聲的整個(gè)關(guān)鍵詞與登錄關(guān)鍵詞有多大程度類似的綜合類似度(Op22)。作為綜合類似度，可以使用各音節(jié)的音節(jié) 類似度的總和(例如，該例子中，CS1:I1 + CS2:I2+CS3:I3+CS4:I4)，也可使用各音節(jié)的音節(jié)類似度的平均值?；蛘?，也可將以幀數(shù)等的時(shí)間長度來平均各音節(jié)的音節(jié)類似度的總和后的值作為綜合類似度來使用。將這樣由類似度綜合部18求出的綜合類似度送到認(rèn)證判斷部19，認(rèn)證判斷部19比較規(guī)定的閾值和綜合類似度。如果綜合類似度超過規(guī)定的閾值，認(rèn)證判斷部19接受該使用者的認(rèn)證，若小于則拒絕(Op23)。本實(shí)施方式的語音認(rèn)證系統(tǒng)中，通過以上的步驟，可以進(jìn)行基于語音進(jìn) 行的使用者的認(rèn)證。此外，在上述實(shí)施方式中，識(shí)別是否通過分割為多次的關(guān)鍵詞發(fā)聲正好發(fā)出了構(gòu)成所登錄的關(guān)鍵詞的所有音節(jié)。因此，雖然在上述的具體例中，將 "卡拉OK"這個(gè)關(guān)鍵詞分割為"卡拉"和"OK"兩個(gè)，但是例如，即使采用以"卡O"和"拉K"、 "K卡"和"O拉"、"拉卡"和"KO"的方式將音節(jié)的順序設(shè)定為隨機(jī)的關(guān)鍵詞的分割方法，也可進(jìn)行正確的語音認(rèn)證。而且，在本實(shí)施方式中，由于在登錄關(guān)鍵詞時(shí)和認(rèn)證時(shí)都不識(shí)別音韻，所以在關(guān)鍵詞包含兩個(gè)相同音的音節(jié)的情況下，不能區(qū)別這些音節(jié)。因此，在認(rèn)證時(shí)語音輸入的多個(gè)音節(jié)相對(duì)多個(gè)所登錄的說話人音節(jié)模型相互表示高類似度的情況下，優(yōu)先將這些看作同一音節(jié)來進(jìn)行處理。例如，在關(guān)鍵詞是"^ * ^々"的情況下，在登錄該關(guān)鍵詞時(shí)，關(guān)鍵詞登錄部21分別將索引II分配給"》(第一個(gè)音節(jié))"，將索引12分配給"卻 (第二個(gè)音節(jié))"，將索引13分配給"^ (第三個(gè)音節(jié))"，將索引14分配給(第四個(gè)音節(jié))"，并在登錄說話人別音節(jié)模型數(shù)據(jù)庫20中存儲(chǔ) 說話人音節(jié)模型。并且，在認(rèn)證時(shí)，例如使用者發(fā)出(音節(jié)S1) " 、 (音節(jié)S2)"作為第一個(gè)分割關(guān)鍵詞，發(fā)出(音節(jié)S3)"和"々(音節(jié)S4)"作為第二個(gè)分割關(guān)鍵詞。這時(shí)，音節(jié)S2和音節(jié)S4兩者相對(duì)索引I2、 14的說話人音節(jié)模型，同時(shí)表示高類似度，但是由于音節(jié)S2和索引I2的說話人音節(jié)模型的類似度、音節(jié)S4和索引12的說話人音節(jié)模型的類似度、音節(jié)S2和索引14的說話人音節(jié)模型的類似度、音節(jié)S4和索引14的說話人音節(jié)模型的類似度彼此沒有大的差別，所以與音節(jié)S2的類似度最高的索引有可能和與音節(jié)S4的類似度最高的索引一致。例如，在判斷為音節(jié)S2和S4兩者與索引 12最類似的情況下，看作沒有發(fā)出索引14的音節(jié)，而拒絕了認(rèn)證。因此，這樣一來，在表示多個(gè)音節(jié)相對(duì)多個(gè)說話人音節(jié)模型彼此有高的
類似度，且該類似度顯著高于相對(duì)其他說話人音節(jié)模型的類似度的情況下，可以在Opl5中，不選擇類似度最高的索引，而將這多個(gè)音節(jié)看作相同音，并將與這多個(gè)音節(jié)的類似度高的說話人音節(jié)模型的索引全部保存在類似度保存部15中?；蛘?，若在登錄時(shí)，通過調(diào)查多個(gè)音節(jié)發(fā)聲是否相對(duì)多個(gè)說話人別音節(jié)模型彼此具有高的類似度等，來檢查這多個(gè)音節(jié)是否是同一音，并存儲(chǔ)表示這些的信息，而將相同索引作為與這些音節(jié)類似的說話人音節(jié)模型的索引保存在類似度保存部15中，則即使所有的索引不一致，也不會(huì)拒絕認(rèn)證。由此，在上述例子中，即使將例如"II" 、 "12" 、 "13"和"12"作為對(duì)"^" "V "考"的輸入音節(jié)的類似說話人音節(jié)模型的索引，而保存在類似度保存部15中，也可正確判斷為發(fā)出了關(guān)鍵詞的所有音節(jié)。以上，說明了本發(fā)明的一個(gè)實(shí)施方式的語音認(rèn)證系統(tǒng)，但是上述說明不過是用于實(shí)施本發(fā)明的一個(gè)具體例，可以在發(fā)明的范圍內(nèi)進(jìn)行各種改變。例如，在上述實(shí)施方式中，說明了在認(rèn)證時(shí)將關(guān)鍵詞分割為2次來進(jìn)行發(fā)聲的例子，但是關(guān)鍵詞的分割數(shù)并不限于兩個(gè)，可以任意。在關(guān)鍵詞的分割數(shù)是三個(gè)以上的情況下，也可使分割關(guān)鍵詞的語音輸入和對(duì)所輸入的分割關(guān)鍵詞的圖3的Opl3 Op15的處理重復(fù)分割數(shù)。因此，通過如"卡"和"拉 OK" 、 "OK拉"禾n "卡"、"拉"禾Q "K"禾Q "O卡"或"O"禾n "拉" 和"卡"和"K"這樣的分割，也可進(jìn)行正確的語音識(shí)別。進(jìn)而，要接受認(rèn)證的使用者也可任意決定分割數(shù)。這時(shí)，也可在通過多次發(fā)出分割關(guān)鍵詞結(jié)束整個(gè)關(guān)鍵詞的發(fā)聲時(shí)，通過讓使用者按下例如便攜電話的特定按鈕，從而語音認(rèn)證系統(tǒng)檢測出輸入部11中按下了該按鈕時(shí)，而進(jìn)入到圖3的Op20之后的處理。或，也可在每次分割關(guān)鍵詞的發(fā)聲結(jié)束時(shí)，比較到此為止發(fā)出的音節(jié)的集合和構(gòu)成登錄關(guān)鍵詞的音節(jié)，并在判斷為已經(jīng) 全部發(fā)出了構(gòu)成關(guān)鍵詞的音節(jié)時(shí)，移動(dòng)到圖3的Op20之后的處理。還有，本實(shí)施方式中為這樣的結(jié)構(gòu)，即在輸入第二個(gè)分割關(guān)鍵詞后，通過關(guān)鍵詞確認(rèn)部17來進(jìn)行關(guān)鍵詞確認(rèn)，進(jìn)一步，通過類似度綜合部18算出作為整個(gè)關(guān)鍵詞的綜合類似度，并通過認(rèn)證判斷部19來判斷接受或拒絕認(rèn) 證。但是，也可在第一個(gè)分割關(guān)鍵詞的語音輸入結(jié)束的時(shí)刻，類似度綜合部 18僅從第一個(gè)分割關(guān)鍵詞中包含的音節(jié)中算出綜合類似度。
這時(shí)，也可在從第一個(gè)分割關(guān)鍵詞算出的綜合類似度小于預(yù)定的閾值的情況下，使第一個(gè)分割關(guān)鍵詞的語音輸入重新進(jìn)行。由此，例如，在第二個(gè) 分割關(guān)鍵詞的類似度高，但是第一個(gè)分割關(guān)鍵詞的類似度低的情況下，有可以減少從最開始重新進(jìn)行語音輸入的手續(xù)的優(yōu)點(diǎn)。另外，從嚴(yán)格安全性的觀點(diǎn)來看，也可在第一個(gè)分割關(guān)鍵詞的類似度低的情況下，不輸入第二個(gè)分割關(guān)鍵詞，認(rèn)證判斷部19就拒絕認(rèn)證。還有，也可在第二個(gè)分割關(guān)鍵詞的輸入結(jié)束后，在第二個(gè)分割關(guān)鍵詞的類似度低的情況下，以通過關(guān)鍵詞確認(rèn)部17確認(rèn)所有音節(jié)已經(jīng)發(fā)聲完成的情況作為條件，來重新進(jìn)行第二個(gè)分割關(guān)鍵詞的語音輸入。添加上述條件是因?yàn)槿粼跊]有確認(rèn)所有音節(jié)已發(fā)聲完成的情況下承認(rèn)重新進(jìn)行第二個(gè)分割關(guān)鍵詞的語音輸入，則變?yōu)樵试S進(jìn)行關(guān)鍵詞的嘗試，有可能成為詐騙者的認(rèn) 證突破點(diǎn)。此外，為了得到穩(wěn)定的認(rèn)證結(jié)果，與對(duì)每個(gè)分割關(guān)鍵詞求出類似度的方法相比，在分割關(guān)鍵詞的語音輸入完成結(jié)束后，算出作為整個(gè)關(guān)鍵詞的綜合類似度的方法更有利。這是因?yàn)榉指铌P(guān)鍵詞的發(fā)聲長度短故有時(shí)難得到穩(wěn)定的類似度，相對(duì)于此，作為整個(gè)關(guān)鍵詞的綜合類似度的發(fā)聲長度長，所以可得到較為穩(wěn)定的類似度。因此，通過第一個(gè)分割關(guān)鍵詞的類似度進(jìn)行判斷時(shí) 的閾值會(huì)設(shè)定為比整體稍寬。 (第二實(shí)施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的另一個(gè)實(shí)施方式。對(duì)于與第一實(shí)施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu)，標(biāo)注與第一實(shí)施方式中所用的附圖標(biāo) 記相同的符號(hào)，并省略該詳細(xì)說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)還適用于使用如英語等那樣，利用不容易以音節(jié)單位分割關(guān)鍵詞的語言進(jìn)行的語音認(rèn)證。因此，本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖4所示，具有輸入部11、特征量轉(zhuǎn)換部12、類似度計(jì)算部13、類似度保存部15、待機(jī)時(shí)間管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、說話人模型數(shù)據(jù)庫22、關(guān) 鍵詞登錄部21、語法生成部23、識(shí)別語法存儲(chǔ)部24和語音識(shí)別部25。這里，參考圖5來說明本實(shí)施方式的語音認(rèn)證系統(tǒng)中的語音認(rèn)證的步驟。首先，說明使用者將關(guān)鍵詞登錄到語音認(rèn)證系統(tǒng)的說話人模型數(shù)據(jù)庫22 中時(shí)的步驟。使用者決定所希望的關(guān)鍵詞，對(duì)與輸入部11相連的便攜電話等的麥克風(fēng)來進(jìn)行發(fā)聲。在本實(shí)施方式中，語法生成部23語音識(shí)別語音輸入的關(guān)鍵詞(不特定說話人的語音識(shí)別)，并將作為識(shí)別結(jié)果的識(shí)別語法登錄到識(shí)別語法存儲(chǔ)部24中。此外，在登錄前，最好在畫面等上顯示識(shí)別結(jié) 果，來確認(rèn)使用者登錄的關(guān)鍵詞的內(nèi)容。還有，最好提供修改識(shí)別結(jié)果的裝置(按鈕等)。由于通過不特定說話人的語音識(shí)別來進(jìn)行單音節(jié)識(shí)別精度上很困難，所:以使用者在登錄關(guān)鍵詞時(shí)，最好使用例如便攜電話的鍵等，對(duì)輸入部11文本輸入關(guān)鍵詞的發(fā)聲內(nèi)容。并將輸入文本(關(guān)鍵詞的發(fā)聲內(nèi)容)和發(fā)出的關(guān)鍵詞語音從輸入部11傳到語法生成部23。語法生成部23從文本輸入的發(fā)聲內(nèi)容中生成用于識(shí)別使用者可輸入的關(guān)鍵詞分割的模式的語法。該語法并不限于音節(jié)單位，能夠以網(wǎng)羅基于音素單位的分割的所有模式的方式生成。在如日語那樣，是容易用音節(jié)單位來劃分的語言的情況下，以網(wǎng)羅通過音節(jié)單位可分割的所有模式的方式來生成，但是在如英語那樣，是很難用音節(jié)單位來劃分的語言的情況下，以網(wǎng)羅基于音素單位的分割的所有模式的方式生成。例如，對(duì)于"vertification"這樣的關(guān)鍵詞，生成接受"ve， veri, verifi， tion， cation， fication， verifica"等模式的語法。將所生成的語法傳到關(guān)鍵詞登錄部21中，同時(shí)存儲(chǔ)到識(shí)別語法存儲(chǔ)部24中。關(guān)鍵詞登錄部21使用所登錄的關(guān)鍵詞的語音，來作成相適應(yīng)的說話人模型(即音素或音節(jié)單位的說話人模型)，并與該使用者的使用者ID建立聯(lián)系，登錄到說話人模型數(shù)據(jù)庫22中。作為音素單位的說話人模型的作成方法，有通過不特定說話人的語音識(shí)別來進(jìn)行關(guān)鍵詞的語音和音素的時(shí)間對(duì) 應(yīng)(稱作排列alignment)，按構(gòu)成關(guān)鍵詞的音素來進(jìn)行自適應(yīng)，并將說話人別音素模型作為說話人模型來作成的方法。另外，作為自適應(yīng)方法若是MLLR (Maximum Likelihood Linear Regression:最大似然線性回歸)法、MAP法等通過模型自適應(yīng)來實(shí)現(xiàn)說話人自適應(yīng)的方法，則可以是任何一個(gè)。在以音節(jié)為單位來作成說話人模型的情況下，在通過音節(jié)單位來進(jìn)行了與關(guān)鍵詞的時(shí)間對(duì)應(yīng)后，進(jìn)行說話人自適應(yīng)來作成。下面說明在通過上述步驟關(guān)鍵詞登錄完成后，使用者通過語音輸入接受認(rèn)證時(shí)的步驟。此外，在下面的例子中，也對(duì)2次分割關(guān)鍵詞來進(jìn)行語音車俞入的例子進(jìn)行說明，但是關(guān)鍵詞的分割數(shù)并不限于2。首先，輸入部11接受使用者使用便攜電話的鍵區(qū)輸入的使用者ID等 (Op31)。此外，在如便攜電話那樣將使用者被限定為一人的情況下，不需要使用者ID的輸入步驟。接著，在使用者向便攜電話的麥克風(fēng)發(fā)出第一個(gè) 分割關(guān)鍵詞時(shí)，輸入部11接受該語音(Op32)。本實(shí)施方式中，使用者也可不按每個(gè)音節(jié)劃分來進(jìn)行語音輸入。例如，在關(guān)鍵詞是"卡拉OK"的情況下，在第一個(gè)分割關(guān)鍵詞是"卡拉"的情況下，也可不如第一實(shí)施方式那樣在"卡"和"拉"之間輸入無音區(qū)間，而一起發(fā)聲"卡拉"。由于對(duì)于英語等，說話人不會(huì)嚴(yán)格意識(shí)到音節(jié)的傾向很強(qiáng)，所以在分割關(guān)鍵詞時(shí)，有可能錯(cuò)誤地使音節(jié)丟失或重復(fù)。音節(jié)的重復(fù)在關(guān)鍵詞認(rèn)證時(shí)不怎么成為問題，所以在本實(shí)施方式中，例如，在關(guān)鍵詞是"verfication"的情況下，允許以"verifi"和"ficatkm"的方式在分割關(guān)鍵詞中音節(jié)重復(fù)。所輸入的分割關(guān)鍵詞在特征量轉(zhuǎn)換部12中，轉(zhuǎn)換為MFCC或LPC倒頻譜等的用于語音識(shí)別的特征量(Op33)。將由特征量轉(zhuǎn)換部12得到的特征量送到語音識(shí)別部25。接著，語音識(shí)別部25參考在識(shí)別語法存儲(chǔ)部24中所存儲(chǔ)的識(shí)別語法，通過不特定說話人的語音識(shí)別來識(shí)別作為分割關(guān)鍵詞發(fā)出的語音的音韻 (Op34)。并將識(shí)別結(jié)果送到類似度計(jì)算部13。也可在進(jìn)行了與關(guān)鍵詞不同的發(fā)聲時(shí)等，在識(shí)別評(píng)價(jià)非常差的情況下，最好判斷為"不能識(shí)別"，這時(shí)，將"不能識(shí)別"這樣的結(jié)果送到類似度計(jì)算部13。在該例子中，雖然通過不特定說話人的語音識(shí)別來進(jìn)行識(shí)別，但是也可利用在登錄時(shí)對(duì)應(yīng)的說話人模型來加以識(shí)別。這時(shí)，由于語音識(shí)別時(shí)計(jì)算出的類似度仍為對(duì)說話人模型的類似度，所以不需要類似度計(jì)算部13中的類似度計(jì)算。接著，類似度計(jì)算部13根據(jù)所述識(shí)別結(jié)果，從說話人模型數(shù)據(jù)庫22中提取該使用者的說話人模型中，與在所述Op34識(shí)別出的音韻對(duì)應(yīng)的說話人模型，并計(jì)算所述特征量對(duì)于所提取的說話人模型的類似度(Op35)。根據(jù)Op35的結(jié)果，將表示從已發(fā)聲的分割關(guān)鍵詞識(shí)別出的音韻是否網(wǎng) 羅了登錄關(guān)鍵詞的哪個(gè)音素的信息(己發(fā)聲音素?cái)?shù)據(jù))保存在類似度保存部 15中(Op36)。與此同時(shí)，將所識(shí)別出的音韻相對(duì)說話人模型的類似度也保存在類似度保存部15中。這里，由于第二個(gè)分割關(guān)鍵詞的輸入還沒有完成(Op37的結(jié)果為"否")，所以進(jìn)入到Op38。此外，待機(jī)時(shí)間管理部16通過計(jì)時(shí)器來測量對(duì)輸入部11輸入了第一個(gè) 分割關(guān)鍵詞后的經(jīng)過時(shí)間。并且，在規(guī)定時(shí)間內(nèi)沒有開始第二個(gè)分割關(guān)鍵詞輸入的情況下，作為超時(shí)進(jìn)入到Op39，并從類似度保存部15等中清除第一個(gè)分割關(guān)鍵詞的處理結(jié)果(Op39)。這時(shí)，使用者為了接受認(rèn)證，必須從第一個(gè)分割關(guān)鍵詞輸入起重新進(jìn)行。另一方面，Op38中，在上述規(guī)定時(shí)間內(nèi)開始了第二個(gè)分割關(guān)鍵詞輸入的情況下，待機(jī)時(shí)間管理部16停止及清除計(jì)時(shí)器的同時(shí)，進(jìn)入到Op40,接受第二個(gè)分割關(guān)鍵詞輸入(Op40)，之后，進(jìn)入到Op33。并且，在對(duì)第二個(gè)分割關(guān)鍵詞進(jìn)行了Op33 Op36的處理后，關(guān)鍵詞確認(rèn)部17根據(jù)在類似度保存部15中所保存的已發(fā)聲音素?cái)?shù)據(jù)，來確認(rèn)是否通過第一次和第二次的發(fā)聲，發(fā)出了關(guān)鍵詞的所有音素(Op41)。在Op41的判斷結(jié)果是"否"的情況下，將該內(nèi)容通知給認(rèn)證判斷部19，從而認(rèn)證判斷部19拒絕該使用者的認(rèn)證(Op42)。另一方面，在Op41的判斷結(jié)果是"是"的情況下，類似度綜合部18根據(jù)在類似度保存部15中所保存的每個(gè)分割關(guān)鍵詞的類似度，來算出表示所發(fā)出的整個(gè)關(guān)鍵詞與登錄關(guān)鍵詞有多大程度的類似的綜合類似度(Op43)。作為綜合類似度可以使用分割關(guān)鍵詞的類似度的總和，也可使用分割關(guān)鍵詞的類似度的平均值。將這樣由類似度綜合部18求出的綜合類似度送到認(rèn)證判斷部19，認(rèn)證判斷部19比較規(guī)定的閾值和綜合類似度。如果綜合類似度超過規(guī)定閾值，認(rèn)證判斷部19接受該使用者的認(rèn)證，若低于則加以拒絕(Op44)。本實(shí)施方式的語音認(rèn)證系統(tǒng)中，可通過以上的步驟，來進(jìn)行基于語音進(jìn) 行的使用者認(rèn)證。本實(shí)施方式中，如上所述，也可將多個(gè)音節(jié)作為關(guān)鍵詞分割的最小單位，若是語素或單詞等可以作為發(fā)聲的單位，則也可在音節(jié)之外作為關(guān)鍵詞分割的最小單位。還有，也可以在關(guān)鍵詞是數(shù)字列(例如"1234")的情況下，若是日語，則以"< "，、"二 ""寸 > "、"'〉"的方式，或若是英語，則以"one"、 "two" 、 "three" 、 "four"的方式，以數(shù)字作為單位來進(jìn)行關(guān)鍵詞確認(rèn)和語音認(rèn)證。但是，這時(shí)，需要使用數(shù)字識(shí)別用的語法。同樣，在關(guān)鍵詞是數(shù)字和字母等的混合(例如"la2b")的情況下，需要使用數(shù)字和字母的識(shí)別用語法。 (第三實(shí)施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的又一個(gè)實(shí)施方式。此外，對(duì)于與第一或第二實(shí)施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu)，標(biāo)注與這些實(shí)施方式中使用的附圖標(biāo)記相同的記號(hào)，來省略該詳細(xì)的說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)在每次語音輸入第二次之后的分割關(guān)鍵詞時(shí)，確認(rèn)距前次的分割關(guān)鍵詞的語音輸入時(shí)，使用者是否移動(dòng)了位置，在沒有移動(dòng)位置的情況下不接受語音輸入。因此，本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖6所示，具有輸入部12、特征量轉(zhuǎn)換部12、類似度計(jì)算部13、音節(jié)判斷部14、類似度保存部15、待機(jī)時(shí)間管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、登錄說話人別音節(jié)模型數(shù)據(jù)庫20、關(guān)鍵詞登錄部21、位置信息取得部31和位置確認(rèn) 部32。 S卩，本實(shí)施方式的語音認(rèn)證系統(tǒng)是在第一實(shí)施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)。位置信息取得部31通過使用者的便攜電話等所嵌入的GPS (Global Positioning System:全球定位系統(tǒng))，在每次使用者語音輸入分割關(guān)鍵詞時(shí)，取得表示使用者的當(dāng)前位置的信息。位置確認(rèn)部根據(jù)通過位置信息取得部31 取得的信息，來確認(rèn)距前次的分割關(guān)鍵詞的語音輸入時(shí)，使用者是否移動(dòng)了位置。參考圖7來說明以上結(jié)構(gòu)的本實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作。首先，輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Op51)。在如便攜電話那樣，使用者被限定為一人的情況下，不需要使用者ID的輸入步驟。接著，使用者向便攜電話的麥克風(fēng)發(fā)出第一個(gè)分割關(guān)鍵詞后，輸入部ll接受該語音(Op52)。與此同時(shí)，位置信息取得部31通過在使用者的便攜電話所嵌入的GPS，取得表示使用者的當(dāng)前位置的信息，并將所取得的信息送到位置確認(rèn)部32 (Op53)。
所輸入的第一個(gè)分割關(guān)鍵詞的各音節(jié)在特征量轉(zhuǎn)換部12中轉(zhuǎn)換為特征量(Op54)。將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計(jì)算部13。接著，類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的該使用者的說話人音節(jié)模型，并計(jì)算出戶萬述特征量對(duì)所提取的說話人音節(jié)模型的類似度(Op55)。將所求出的類4以度送到音節(jié)判斷部14。接著，音節(jié)判斷部14根據(jù)由類似度計(jì)算部13求出的類似度，對(duì)第一個(gè) 分割關(guān)鍵詞的各音節(jié)，選擇登錄說話人別音節(jié)模型數(shù)據(jù)庫20的說話人音節(jié) 模型中類似度最高的模型的索引，并與該類似度一起，保存在類似度保存部 15中(Op56)。這里，由于第二個(gè)分割關(guān)鍵詞的輸入還沒有完成(Op57的結(jié)果是"否")，所以進(jìn)入到Op58。為了更可靠防止對(duì)第三者暴露關(guān)鍵詞，最好在第一個(gè)分割關(guān)鍵詞的$俞入結(jié)束時(shí)，在第二個(gè)分割關(guān)鍵詞的語音輸入之前，將指示為移動(dòng)位置的消息顯示在使用者的便攜電話等的顯示器上，或?qū)⑼瑯觾?nèi)容的語音消息送到該便攜電話中。因此，Op58中，在第一個(gè)分割關(guān)鍵詞的語音輸入后，經(jīng)過適當(dāng)?shù)臅r(shí)間 (例如1分鐘)后，位置信息取得部31通過使用者的便攜電話上所嵌入的 GPS，取得表示使用者的當(dāng)前位置的信息，并將所取得的信息傳送到位置確認(rèn)部32。位置確認(rèn)部32通過比較在Op53中取得的第一個(gè)分割關(guān)鍵詞輸入時(shí)的位置信息和在Op58中取得的位置信息，從而確認(rèn)在輸入了第一個(gè)分割關(guān)鍵詞后，使用者是否移動(dòng)到離開規(guī)定距離(例如50m)以上的位置上(Op59)。此外，所述規(guī)定的距離并不限于50m，也可任意。若Op59的確認(rèn)結(jié)果是"否"，則語音認(rèn)證系統(tǒng)向使用者的便攜電話發(fā) 送指示為移動(dòng)位置的語音消息。或者，顯示指示為使其移動(dòng)位置的警告消息 (Op60)。另一方面，如果Op59的確認(rèn)結(jié)果是"是"，則繼續(xù)進(jìn)行Op61之后的處理。由于Op61 Op67的處理與第一實(shí)施方式中說明的Opl7 Op23相同，所以省略說明。如上所述，本實(shí)施方式的語音認(rèn)證系統(tǒng)利用GPS等來確認(rèn)使用者的當(dāng)前
位置，在從分割關(guān)鍵詞的前次輸入時(shí)起使用者沒有移動(dòng)規(guī)定的距離以上的'瞎況下，指示為使其移動(dòng)位置。由此，可以更可靠防止對(duì)第三者暴露關(guān)鍵詞。此外，在本實(shí)施方式中，示例了第一實(shí)施方式的語音認(rèn)證系統(tǒng)中進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)，但是在第二實(shí)施方式的i吾音認(rèn)證系統(tǒng)中進(jìn)一步具有位置信息取得部31和位置確認(rèn)部32的結(jié)構(gòu)也是本發(fā)明的一實(shí)施方式。 (第四實(shí)施方式)下面說明本發(fā)明的語音認(rèn)證系統(tǒng)的又一實(shí)施方式。此外，對(duì)于與第一第三實(shí)施方式中說明的結(jié)構(gòu)具有相同功能的結(jié)構(gòu)，標(biāo)注與這些實(shí)施方式中4吏用的附圖標(biāo)記相同的符號(hào)，而省略該詳細(xì)說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)是這樣的結(jié)構(gòu)，即系統(tǒng)對(duì)使用者指示關(guān)鍵詞的分割方法等，在使用者沒有按指示進(jìn)行語音輸入的情況下，拒絕認(rèn)證。因此，本實(shí)施方式的語音認(rèn)證系統(tǒng)如圖8所示，具有輸入部ll、特征量轉(zhuǎn)換部12、類似度計(jì)算部13、音節(jié)判斷部14、類似度保存部15、待機(jī)時(shí)間管理部16、關(guān)鍵詞確認(rèn)部17、類似度綜合部18、認(rèn)證判斷部19、按登錄的說話人的音節(jié)模型數(shù)據(jù)庫20、關(guān)鍵詞登錄部21和指示輸出部41。即，本實(shí) 施方式的語音認(rèn)證系統(tǒng)是在第一實(shí)施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指示輸出部41的結(jié)構(gòu)。指示輸出部41的根據(jù)從預(yù)定的多種模式中隨機(jī)選出的模式，來輸出指示，使得使用者分割輸入關(guān)鍵詞。作為這種指示，考慮例如"作為第一個(gè)分割關(guān)鍵詞請(qǐng)輸入最先的三個(gè)音節(jié)，作為第二個(gè)分割關(guān)鍵詞請(qǐng)輸入其余的所有音節(jié)。"、"請(qǐng)將奇數(shù)音節(jié)作為第一個(gè)分割關(guān)鍵詞，將偶數(shù)音節(jié)作為第二個(gè)分割關(guān)鍵詞。"、"請(qǐng)從反方向起一個(gè)音節(jié)一個(gè)音節(jié)地輸入關(guān)鍵詞。"這樣的指示。另外，這些指示始終是一個(gè)例子，指示內(nèi)容任意。這里，參考圖9來說明本實(shí)施方式的語音認(rèn)證系統(tǒng)的動(dòng)作。此外，由于使用者進(jìn)行的關(guān)鍵詞的登錄步驟與第一實(shí)施方式相同，所以省略說明。首先，輸入部11接受使用者利用便攜電話的鍵區(qū)輸入的使用者ID等 (Op71)。此外，在如便攜電話那樣，使用者被限定為一人的情況下，不需要使用者ID的輸入步驟。接著，指示輸出部41根據(jù)從預(yù)定的多種模式中隨
機(jī)選擇出的模式，對(duì)使用者的便攜電話作為顯示或語音消息來輸出用于使第一個(gè)分割關(guān)鍵詞輸入的指示(Op72)。為了進(jìn)行后述的Op76的音節(jié)判斷部 14的處理，也將由指示輸出部41得到的指示內(nèi)容送到音節(jié)判斷部14。例如，這里，在進(jìn)行了 "請(qǐng)將奇數(shù)音節(jié)作為第一個(gè)分割關(guān)鍵詞"這樣的指示的情況下，若關(guān)鍵詞是"卡拉OK"，則使用者必須輸入"卡"、"O" 作為第一個(gè)分割關(guān)鍵詞，輸入"拉"、"K"作為第二個(gè)分割關(guān)鍵詞。使用者在根據(jù)該指示，當(dāng)向便攜電話的麥克風(fēng)發(fā)出第一個(gè)分割關(guān)鍵詞時(shí)，輸入部ll接受該語音(Op73)。所輸入的音節(jié)S1、S2分別在特征量轉(zhuǎn)換部12中，轉(zhuǎn)換為特征量(Op74)。將由特征量轉(zhuǎn)換部12得到的特征量送到類似度計(jì)算部13中。接著，類似度計(jì)算部13從登錄說話人別音節(jié)模型數(shù)據(jù)庫20中提取與該使用者的使用者ID相關(guān)聯(lián)存儲(chǔ)的該使用者的說話人音節(jié)模型，并計(jì)算戶萬述特征量對(duì)于所提取的說話人音節(jié)模型的類似度(Op75)。將所求出的類似度送到音節(jié)判斷部14。接著，音節(jié)判斷部14根據(jù)通過類似度計(jì)算部13求出的類似度，來對(duì)第一個(gè)分割關(guān)鍵詞的各音節(jié)，選擇登錄說話人別音節(jié)模型數(shù)據(jù)庫20中所存儲(chǔ) 的說話人音節(jié)模型中類似度最高的模型的索引，并與該類似度一起保存在類似度保存部15中(Op76)。而且，Op76中，音節(jié)判斷部14判斷第一個(gè)分割關(guān)鍵詞的各音節(jié)是否如基于指示輸出部41進(jìn)行的指示那樣來發(fā)聲。S卩，在上述例子中，作為第一個(gè)分割關(guān)鍵詞，發(fā)出輸入奇數(shù)音節(jié)的指示，即，發(fā)出輸入作為關(guān)鍵詞的第一音節(jié)(索引II)的"卡"和作為第三音節(jié)(第三索引)的"O"的內(nèi)容的指示。因此，第一個(gè)分割關(guān)鍵詞的第一個(gè)音節(jié)必須與索引II的說話人音節(jié)模型的類似度最大，第二個(gè)音節(jié)必須與索引13的說話人音節(jié)模型的類似度最大。在不這樣作的情況下，音節(jié)判斷部14將該判斷結(jié)果通知給認(rèn)證判斷部19，從而認(rèn)證判斷部19拒絕認(rèn)證。此外，在圖9中，Op77之后與第一實(shí)施方式中說明的Opl6 Op23相同，所以省略該重復(fù)的說明。本實(shí)施方式的語音認(rèn)證系統(tǒng)中，如上所述，通過指示輸出部41向使用者指示分割方法，使得關(guān)鍵詞的分割方法在每次認(rèn)證隨機(jī)，從而可以更可靠
防止關(guān)鍵詞的暴露。此外，上述的說明中，指示輸出部41選擇一個(gè)關(guān)鍵詞的分割方法來向使用者進(jìn)行指示，但是指示輸出部41也可向使用者提示多種模式的分割方法，使用者從中選擇其中一種模式。還有，本實(shí)施方式中，示例了在第一實(shí)施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指示輸出部41的結(jié)構(gòu)，但是在第二或第三實(shí)施方式的語音認(rèn)證系統(tǒng)上進(jìn)一步具有指示輸出部41的結(jié)構(gòu)也是本發(fā)明的一個(gè)實(shí)施方式。例如，是在第二實(shí)施方式的語音認(rèn)證系統(tǒng)中加了指示輸出部41的結(jié)構(gòu) 的情況下，在關(guān)鍵詞是數(shù)字列的情況下，例如，可以進(jìn)行"作為第一個(gè)分割關(guān)鍵詞，請(qǐng)輸入第2位和第4位的數(shù)字，作為第二個(gè)分割關(guān)鍵詞，請(qǐng)輸入第 l位和第3位的數(shù)字。"、"請(qǐng)從反方向依次輸入密碼。"這樣的指示。在關(guān)鍵詞是數(shù)字和字母的混合的情況下，可以進(jìn)行"作為第一個(gè)分割關(guān)鍵詞i青輸入奇數(shù)位的數(shù)字或字母，第二次請(qǐng)輸入偶數(shù)位的數(shù)字或字母"這樣的指示。上面，如各實(shí)施方式中所說明的，根據(jù)本發(fā)明，通過分割關(guān)鍵詞并進(jìn)行輸入，從而他人不會(huì)聽到整個(gè)關(guān)鍵詞。因此，他人很難知道關(guān)鍵詞內(nèi)容，由于不能持續(xù)錄音整體關(guān)鍵詞，所以可以防止錄音詐騙。另外，文本依存型的語音認(rèn)證大多暴露了關(guān)鍵詞內(nèi)容，現(xiàn)有技術(shù)中，為了維持高性能，必須頻繁變換關(guān)鍵詞，有使用成本高的問題。但是，根據(jù)本發(fā)明，很難暴露關(guān)鍵詞內(nèi)容，從而不需要頻繁改變關(guān)鍵詞，有可以減少關(guān)鍵詞變更用的成本的效果。而且，若例如在人很少的位置語音輸入第一個(gè)分割關(guān)鍵詞，在收銀機(jī)前等公眾面前僅語音輸入第二個(gè)分割關(guān)鍵詞，由于可以縮短在公眾面前的認(rèn)證時(shí)間，所以有可以快速進(jìn)行支付的效果。此外，在上述各實(shí)施方式的語音認(rèn)證系統(tǒng)中，例如，使用者也可選擇是否分割輸入關(guān)鍵詞，以便在周圍沒有他人的情況等中，可不用分割關(guān)鍵詞就進(jìn)行語音認(rèn)證。產(chǎn)業(yè)上的可用性本發(fā)明通過防止關(guān)鍵詞的泄漏和錄音詐騙，作為可使用關(guān)鍵詞的秘密性來維持高的認(rèn)證精度的文本依存型的語音認(rèn)證系統(tǒng)有用。
權(quán)利要求
1. 一種語音認(rèn)證系統(tǒng)，對(duì)關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng)，其特征在于，具有輸入部，其將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入，對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次接收；說話人模型存儲(chǔ)部，其預(yù)先存儲(chǔ)使用者的登錄關(guān)鍵詞，并將該登錄關(guān)鍵詞作為以所述可發(fā)聲的單位所作成的說話人模型；特征量轉(zhuǎn)換部，其從在所述輸入部中通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音的特征量；類似度計(jì)算部，其求出所述特征量轉(zhuǎn)換部所求出的特征量和所述說話人模型之間的類似度；發(fā)聲內(nèi)容判斷部，其根據(jù)所述類似度計(jì)算部所求出的類似度，通過所述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息；關(guān)鍵詞確認(rèn)部，其根據(jù)所述發(fā)聲內(nèi)容判斷部所判斷的與發(fā)聲內(nèi)容有關(guān)的信息，判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞；認(rèn)證判斷部，其根據(jù)所述關(guān)鍵詞確認(rèn)部的判斷結(jié)果和所述類似度計(jì)算部所求出的類似度，判斷接受還是拒絕認(rèn)證。
2. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng)，其特征在于，所述可發(fā)聲的單位是音節(jié)。
3. 根據(jù)權(quán)利要求2所述的語音認(rèn)證系統(tǒng)，其特征在于，在所述說話人模型存儲(chǔ)部中，對(duì)構(gòu)成登錄關(guān)鍵詞的各音節(jié)的說話人模型添加有分別獨(dú)立的索引，所述特征量轉(zhuǎn)換部從通過所述語音輸入所接收的關(guān)鍵詞的部分中求出每個(gè)音節(jié)的特征量，所述類似度計(jì)算部求出所述每個(gè)音節(jié)的特征量和所述說話人模型之間的類似度，語音認(rèn)證系統(tǒng)還具有音節(jié)判斷部，該音節(jié)判斷部根據(jù)所述類似度計(jì)算部所求出的類似度，判斷通過所述語音輸入所接受的關(guān)鍵詞的部分與登錄關(guān)鍵詞的哪個(gè)音節(jié)最類似，所述關(guān)鍵詞確認(rèn)部根據(jù)所述音節(jié)判斷部的判斷結(jié)果，判斷利用通過所述多次語音輸入所判斷的音節(jié)能否構(gòu)成登錄關(guān)鍵詞。
4. 根據(jù)權(quán)利要求1 3中任意一項(xiàng)所述的語音認(rèn)證系統(tǒng)，其特征在于，所述可發(fā)聲的單位是數(shù)字的讀出或字母的讀出。
5. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng)，其特征在于，還具有語音識(shí)別部，該語音識(shí)別部根據(jù)所述特征量轉(zhuǎn)換部所求出的特征量，通過不特定說話人的語音識(shí)別來識(shí)別所述關(guān)鍵詞的部分的音韻，所述關(guān)鍵詞確認(rèn)部根據(jù)所述語音識(shí)別部的識(shí)別結(jié)果，判斷利用通過所述多次語音輸入被語音識(shí)別的結(jié)果能否構(gòu)成登錄關(guān)鍵詞。
6. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng)，其特征在于，在對(duì)所述關(guān)鍵詞的某部分的語音輸入結(jié)束之后再經(jīng)過規(guī)定時(shí)間也沒有對(duì)下一部分的語音輸入，而且利用此次為止的語音輸入的發(fā)聲內(nèi)容信息無法構(gòu)成登錄關(guān)鍵詞的情況下，所述認(rèn)證判斷部拒絕認(rèn)證。
7. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng)，其特征在于，還具有位置信息取得部，其每當(dāng)有所述關(guān)鍵詞的部分的語音輸入時(shí)，取得使用者的所在位置信息；位置確認(rèn)部，其比較前次有語音輸入時(shí)所述位置信息取得部所取得的所在位置信息和這次有語音輸入時(shí)所述位置信息取得部所取得的所在位置信息，確認(rèn)在從前次有語音輸入時(shí)到這次有語音輸入時(shí)為止的期間使用者是否移動(dòng)了規(guī)定距離以上。
8. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng)，其特征在于，還具有類似度綜合部，該類似度綜合部對(duì)通過所述多次語音輸入所接收的關(guān)鍵詞的所有部分，綜合所述類似度計(jì)算部所求出的類似度來求出綜合類似度，所述認(rèn)證判斷部根據(jù)所述類似度綜合部所求出的綜合類似度，判斷接受還是拒絕認(rèn)證。
9. 根據(jù)權(quán)利要求1所述的語音認(rèn)證系統(tǒng)，其特征在于，所述輸入部利用使用者的便攜終端來接收語音輸入。
10. —種計(jì)算機(jī)程序，實(shí)現(xiàn)對(duì)關(guān)鍵詞進(jìn)行語音輸入而進(jìn)行認(rèn)證的文本依存型語音認(rèn)證系統(tǒng)，其特征在于，使計(jì)算機(jī)執(zhí)行如下處理輸入處理，將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入，對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次接收；特征量轉(zhuǎn)換處理，從通過一次語音輸入所接收的關(guān)鍵詞的部分中求出該部分中所包含的語音的特征量；類似度計(jì)算處理，參考作為以所述可發(fā)聲的單位所作成的說話者模型而預(yù)先登錄有使用者的關(guān)鍵詞的說話人模型存儲(chǔ)部，求出所述特征量轉(zhuǎn)換處理所求出的特征量和所述說話人模型之間的類似度；發(fā)聲內(nèi)容判斷處理，根據(jù)所述類似度計(jì)算處理所求出的類似度，通過所述多次語音輸入來判斷與發(fā)聲內(nèi)容有關(guān)的信息；關(guān)鍵詞確認(rèn)處理，根據(jù)所述發(fā)聲內(nèi)容判斷處理所判斷的與發(fā)聲內(nèi)容有關(guān) 的信息，判斷利用所述多次語音輸入的發(fā)聲內(nèi)容能否構(gòu)成登錄關(guān)鍵詞；認(rèn)證判斷處理，根據(jù)所述關(guān)鍵詞確認(rèn)處理的判斷結(jié)果和所述類似度計(jì)算處理所求出的類似度，判斷接受還是拒絕認(rèn)證。
全文摘要
一種語音認(rèn)證系統(tǒng)，是語音輸入關(guān)鍵詞來進(jìn)行認(rèn)證的文本依存性的語音認(rèn)證系統(tǒng)，具有輸入部(11)，其將以可發(fā)聲的單位為最小單位而分割為多個(gè)部分的關(guān)鍵詞的語音輸入，對(duì)每個(gè)所述部分隔開時(shí)間間隔經(jīng)多次接收；語音模型存儲(chǔ)部(20)，預(yù)先存儲(chǔ)使用者的登錄關(guān)鍵詞，并將該登錄關(guān)鍵詞作為以所述發(fā)聲的單位所作成的說話人模型；特征量轉(zhuǎn)換部(12)，從在輸入部(11)中通過一次語音輸入所接收的關(guān)鍵詞部分中求出該部分中所包含的語音的特征量；類似度計(jì)算部(13)，求出特征量和說話人模型之間的類似度；關(guān)鍵詞確認(rèn)部(17)，根據(jù)在類似度計(jì)算部求出的類似度，判斷利用所述多次語音輸入，構(gòu)成登錄關(guān)鍵詞的所有音韻的語音輸入是否完成；認(rèn)證判斷部(19)，基于關(guān)鍵詞確認(rèn)部的判斷結(jié)果和類似度計(jì)算部所求出的類似度，判斷接受還是拒絕認(rèn)證。
文檔編號(hào)G10L17/00GK101124623SQ20058004849
公開日2008年2月13日申請(qǐng)日期2005年2月18日優(yōu)先權(quán)日2005年2月18日
發(fā)明者早川昭二申請(qǐng)人:富士通株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：早川昭二
技術(shù)所有人：富士通株式會(huì)社
我是此專利的發(fā)明人

上一篇：用于多聲道音頻編碼的自適應(yīng)位分配的制作方法
上一篇：近透明或透明的多聲道編碼器/解碼器方案的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

u盤系統(tǒng)盤制作方法相關(guān)技術(shù)

系統(tǒng)門窗制作方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音認(rèn)證系統(tǒng)的制作方法