用于分布式自動(dòng)語(yǔ)音識(shí)別的方法以及分布式自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的制作方法

文檔序號(hào)：2821002閱讀：167來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：用于分布式自動(dòng)語(yǔ)音識(shí)別的方法以及分布式自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明主要涉及自動(dòng)語(yǔ)音識(shí)別，并尤其涉及利用網(wǎng)絡(luò)瀏覽器的分布式語(yǔ)音識(shí)別。
背景技術(shù)：
自動(dòng)語(yǔ)音識(shí)別(ASR)從麥克風(fēng)接收一個(gè)輸入聲音信號(hào)，并將該聲音信號(hào)轉(zhuǎn)換成一組輸出文字。識(shí)別出來(lái)的文字就可以被使用在多種應(yīng)用場(chǎng)合，如數(shù)據(jù)輸入、訂單輸入，以及命令與控制。
文字到語(yǔ)音(TTS)轉(zhuǎn)換將輸入的文本轉(zhuǎn)換成一個(gè)輸出聲音信號(hào)，該聲音信號(hào)應(yīng)該是可識(shí)別的語(yǔ)音。
互聯(lián)網(wǎng)與萬(wàn)維網(wǎng)(web)以存儲(chǔ)在網(wǎng)絡(luò)或代理服務(wù)器上的網(wǎng)頁(yè)的形式提供廣泛的信息。通過(guò)運(yùn)行在桌面計(jì)算機(jī)、便攜計(jì)算機(jī)、手持個(gè)人數(shù)字助理(PDA)、移動(dòng)電話或類似設(shè)備上的客戶端瀏覽器就可以訪問(wèn)這些信息。通過(guò)輸入設(shè)備如鍵盤、鼠標(biāo)或觸摸板可以請(qǐng)求獲得信息，并通過(guò)輸出設(shè)備如顯示器或打印機(jī)來(lái)觀看信息。
音頻網(wǎng)頁(yè)為輸入輸出能力有限的客戶端設(shè)備提供信息。音頻網(wǎng)頁(yè)可以從網(wǎng)絡(luò)服務(wù)器上獲得。已知有多種標(biāo)準(zhǔn)來(lái)描述音頻網(wǎng)頁(yè)。其中包括Sun的Java Speech，Microsoft的Speech Agent和Speech.NET，SALT Forum，VoiceXML Forum以及W3C VoiceXML。這些頁(yè)面中包含語(yǔ)音對(duì)話，還包含了普通的HTML文本內(nèi)容。
分布式自動(dòng)語(yǔ)音識(shí)別(DASR)使得資源(比如存儲(chǔ)器、顯示器以及處理器)受限的客戶端設(shè)備能夠?qū)崿F(xiàn)ASR。這些資源受限的設(shè)備可能受到遠(yuǎn)程執(zhí)行的ASR的支持。DASR可以在網(wǎng)絡(luò)服務(wù)器或代理服務(wù)器上執(zhí)行，所述的代理服務(wù)器位于網(wǎng)絡(luò)中并連接客戶端的瀏覽器與網(wǎng)絡(luò)服務(wù)器。
網(wǎng)頁(yè)的多媒體內(nèi)容包括文本、圖像、視頻和音頻。最新開(kāi)發(fā)的網(wǎng)頁(yè)中甚至可以包含給ASR/TTS的指令以提供一個(gè)音頻用戶界面，替代或補(bǔ)充了傳統(tǒng)的圖形用戶界面(GUI)。
音頻表單起到了與文本頁(yè)面上的網(wǎng)絡(luò)表單相似的功能。網(wǎng)絡(luò)表單是網(wǎng)絡(luò)應(yīng)用程序接收用戶輸入的標(biāo)準(zhǔn)途徑。音頻表單提供任意數(shù)量的域。每個(gè)域都有一個(gè)提示和回復(fù)。各個(gè)提示被播放出來(lái)，回復(fù)則通過(guò)語(yǔ)音“填寫(xiě)”，如果沒(méi)有檢測(cè)到語(yǔ)音就會(huì)發(fā)生超時(shí)。
語(yǔ)音應(yīng)用經(jīng)常會(huì)同時(shí)使用TTS與ASR軟件和硬件。ASR與TTS已經(jīng)有了許多進(jìn)步，但是差錯(cuò)仍然存在。TTS中的錯(cuò)誤可能造成錯(cuò)誤的聲音、時(shí)序、音調(diào)或口音，有時(shí)則僅僅是錯(cuò)誤的單詞。那些差錯(cuò)通常會(huì)發(fā)音錯(cuò)誤，但用戶可以學(xué)習(xí)更正并補(bǔ)償那些類型的錯(cuò)誤。另一方面，ASR中的差錯(cuò)往往需要第二次努力來(lái)更正差錯(cuò)。這使得使用ASR變得很困難。ASR差錯(cuò)往往是被誤識(shí)別的單詞，這些單詞的發(fā)音與正確的單詞相近，或者是背景噪聲遮蓋了發(fā)音單詞的情況。任何減少這類差錯(cuò)的技術(shù)都對(duì)ASR的性能構(gòu)成了改善。
差錯(cuò)減少技術(shù)眾所周知。一種技術(shù)為ASR提供了一種語(yǔ)法或一種描述語(yǔ)言，它們指定了一組可以被接受的待識(shí)別單詞或詞組。在語(yǔ)音至文本的轉(zhuǎn)換過(guò)程中，ASR利用語(yǔ)法來(lái)判定結(jié)果是否匹配任何可能的期望結(jié)果。如果沒(méi)有找到匹配項(xiàng)，就發(fā)出一個(gè)錯(cuò)誤信號(hào)。但是即便使用了語(yǔ)法，ASR仍然會(huì)產(chǎn)生符合語(yǔ)法的差錯(cuò)。
在用某個(gè)特定用戶的語(yǔ)音對(duì)ASR進(jìn)行訓(xùn)練之后，產(chǎn)生的差錯(cuò)就會(huì)較少。訓(xùn)練會(huì)測(cè)量語(yǔ)音的參數(shù)，這些參數(shù)讓語(yǔ)音顯得獨(dú)一無(wú)二。所述的參數(shù)考慮音高、速率、語(yǔ)調(diào)以及類似因素。通常，訓(xùn)練由用戶讀出ASR已知的單詞來(lái)實(shí)現(xiàn)，或是由ASR在多個(gè)訓(xùn)練會(huì)話中提取參數(shù)來(lái)完成，語(yǔ)音拾取硬件的特征，比如麥克風(fēng)及放大器設(shè)置，也可以被獲知。然而，對(duì)于有許多用戶需要使用ASR的某些應(yīng)用來(lái)說(shuō)，訓(xùn)練是不可能的。例如，打入一個(gè)自動(dòng)電話呼叫中心的用戶數(shù)量非常巨大，而且ASR沒(méi)有辦法判斷哪一個(gè)用戶會(huì)下一個(gè)呼入以及該使用哪些參數(shù)。
如果應(yīng)用被創(chuàng)建成要接受任何語(yǔ)音，濾除噪聲就困難的多。這會(huì)導(dǎo)致識(shí)別錯(cuò)誤。例如，背景語(yǔ)音會(huì)干擾ASR。
針對(duì)這個(gè)問(wèn)題已有的技術(shù)解決方案將用戶的輸入限制到一組有限的單詞中，例如十個(gè)數(shù)字0-10以及“是”和“否”，從而ASR可以忽略那些不是詞匯表中一部分的單詞，以減少差錯(cuò)。
因此，已有的技術(shù)解決方案通常采取下列方法。對(duì)于大量的用戶，ASR僅識(shí)別一組有限的單詞。為每位用戶訓(xùn)練系統(tǒng)。為每次會(huì)話訓(xùn)練系統(tǒng)。用戶提供一個(gè)身份標(biāo)識(shí)，同時(shí)使用默認(rèn)的語(yǔ)音識(shí)別模型。ASR根據(jù)會(huì)話開(kāi)始時(shí)的訓(xùn)練語(yǔ)音動(dòng)態(tài)地決定期望的識(shí)別參數(shù)。在這類解決方案中，初始參數(shù)在被調(diào)整之前可能是錯(cuò)誤的。這會(huì)造成差錯(cuò)并浪費(fèi)時(shí)間。
對(duì)于DASR服務(wù)器來(lái)說(shuō)，識(shí)別問(wèn)題更為嚴(yán)重，因?yàn)镈ASR受到許多用戶的訪問(wèn)，這些用戶會(huì)以隨機(jī)的順序并在隨機(jī)的時(shí)刻訪問(wèn)一個(gè)站點(diǎn)。為每位用戶訓(xùn)練服務(wù)器是一個(gè)耗時(shí)而冗長(zhǎng)的過(guò)程。另外，出于隱私的原因，用戶不愿意在每個(gè)站點(diǎn)上建立帳號(hào)。Cookie不能解決這個(gè)問(wèn)題，因?yàn)閏ookie不能在站點(diǎn)間共享。對(duì)于每個(gè)訪問(wèn)的站點(diǎn)都需要一個(gè)新的cookie。
圖1示出了一種現(xiàn)有技術(shù)DASR 100。DASR 100中包括一個(gè)語(yǔ)音客戶端101，它通過(guò)通信網(wǎng)103-如互聯(lián)網(wǎng)-連接到語(yǔ)音服務(wù)器102上。語(yǔ)音客戶端101中包括一個(gè)采集裝置110和一個(gè)用戶參數(shù)文件111，前者確定了用來(lái)采集語(yǔ)音信號(hào)的硬件的特性。語(yǔ)音服務(wù)器102中包括一個(gè)網(wǎng)絡(luò)服務(wù)器120和一個(gè)ASR 121。注意，網(wǎng)絡(luò)服務(wù)器不能直接訪問(wèn)參數(shù)文件。
如需關(guān)于語(yǔ)音識(shí)別系統(tǒng)的更多背景資料，參見(jiàn)例如由美國(guó)專利6356868號(hào)“Voiceprint identification system”，Yuschik等人，2002年3月12日；美國(guó)專利6343267號(hào)“Dimensionality reduction forspeaker normalization and speaker and environment adaptation usingeigenvoice techniques”，Kuhn等人，2002年1月29日；美國(guó)專利6347296號(hào)“Correcting speech recognition without first presentingalternatives”，F(xiàn)riedman，2002年2月12日；美國(guó)專利6347280號(hào)“Navigation system and a memory medium in which programs arestored”，Inoue等人，2002年2月12日；美國(guó)專利6345254號(hào)“Methodand apparatus for improving speech command recognition accuracyusing event-based constraints”，Lewis等人，2002年2月5日；美國(guó)專利6345253號(hào)“Method and apparatus for retrieving audioinformation using primary and supplemental indexes”，Viswanathan，2002年2月5日；以及美國(guó)專利6345249號(hào)“Automatic analysis of aspeech dictated document”，Ortega等人，2002年2月5日。

發(fā)明內(nèi)容
符合本發(fā)明的一種用于分布式自動(dòng)語(yǔ)音識(shí)別的方法使得用戶能夠使用語(yǔ)音客戶端的瀏覽器來(lái)請(qǐng)求從語(yǔ)音服務(wù)器獲得一個(gè)語(yǔ)音網(wǎng)頁(yè)，所述的語(yǔ)音客戶端通過(guò)一個(gè)通信網(wǎng)連接到語(yǔ)音服務(wù)器上。
接著判斷是否有該用戶的穩(wěn)定持久的用戶參數(shù)存儲(chǔ)在語(yǔ)音客戶端的參數(shù)文件中，其中語(yǔ)音客戶端可以被語(yǔ)音服務(wù)器訪問(wèn)。如果沒(méi)有，則在語(yǔ)音客戶端中生成用戶參數(shù)，并儲(chǔ)存在參數(shù)文件中。如果有，則由語(yǔ)音服務(wù)器直接從參數(shù)文件中讀取用戶參數(shù)。
在任何一種情況下，都要在語(yǔ)音服務(wù)器的語(yǔ)音識(shí)別引擎中建立用戶參數(shù)，以便實(shí)現(xiàn)語(yǔ)音客戶端與語(yǔ)音服務(wù)器之間的音頻對(duì)話。

圖1示出了已有技術(shù)的分布式自動(dòng)語(yǔ)音識(shí)別(DSR)系統(tǒng)的框圖；圖2根據(jù)本發(fā)明示出了一種DASR系統(tǒng)的程序流示意圖；圖3根據(jù)本發(fā)明示出了DASR系統(tǒng)的數(shù)據(jù)流示意圖。
具體實(shí)施例方式
圖2根據(jù)本發(fā)明示出了一種分布式自動(dòng)語(yǔ)音識(shí)別(DASR)系統(tǒng)與方法200。系統(tǒng)在一臺(tái)語(yǔ)音客戶端上保存持久的用戶參數(shù)，在語(yǔ)音識(shí)別期間該客戶端可由語(yǔ)音服務(wù)器訪問(wèn)。用戶參數(shù)模擬用戶的語(yǔ)音，而且還可以包含用來(lái)采集語(yǔ)音信號(hào)的硬件的設(shè)置。另外，參數(shù)中還可以包括一些信息用以預(yù)填充音頻網(wǎng)頁(yè)中的表單。例如，某位用戶的人口統(tǒng)計(jì)數(shù)據(jù)，如姓名與地址，或是用戶的其他默認(rèn)值或優(yōu)選項(xiàng)，或是系統(tǒng)標(biāo)識(shí)信息。
符合本發(fā)明的方法包括下列步驟。語(yǔ)音客戶端的用戶向語(yǔ)音服務(wù)器請(qǐng)求一個(gè)音頻網(wǎng)頁(yè)210，該語(yǔ)音服務(wù)器具有DASR功能。所述的請(qǐng)求可用任何標(biāo)準(zhǔn)的瀏覽器應(yīng)用程序完成。在完成請(qǐng)求之后，服務(wù)器判斷215該用戶的參數(shù)是否已被保存在客戶端的永久性存儲(chǔ)設(shè)備-如磁盤或非易失性存儲(chǔ)器218上。參數(shù)文件可由語(yǔ)音服務(wù)器直接訪問(wèn)，這是一項(xiàng)優(yōu)點(diǎn)。
如果用戶參數(shù)未被保存，即上述判斷返回一個(gè)“假”條件，那么就利用默認(rèn)或訓(xùn)練數(shù)據(jù)225產(chǎn)生新的用戶參數(shù)220。生成參數(shù)接著就被儲(chǔ)存228到參數(shù)文件218中?？梢詾橐幻囟ǖ挠脩舸鎯?chǔ)多組用戶參數(shù)。例如，不同的網(wǎng)絡(luò)服務(wù)器會(huì)使用語(yǔ)音識(shí)別引擎的不同實(shí)現(xiàn)方式，它們需要不同的參數(shù)，或者用戶可能根據(jù)所訪問(wèn)的網(wǎng)絡(luò)服務(wù)器或站點(diǎn)而選用不同的優(yōu)選項(xiàng)。
如果用戶參數(shù)已被保存，即上述判斷返回一個(gè)“真”條件，那么就從參數(shù)文件218中讀取用戶參數(shù)230。音頻采集參數(shù)240也為用戶而被設(shè)置在語(yǔ)音客戶端中。DASR用戶參數(shù)被設(shè)置在語(yǔ)音服務(wù)器245中。產(chǎn)生恰當(dāng)?shù)膶?duì)話250來(lái)與用戶進(jìn)行通信。用戶參數(shù)也可以被用來(lái)預(yù)填充音頻網(wǎng)頁(yè)的表單260。所述的對(duì)話接著被提交給用戶270，然后進(jìn)行檢查280，以了解必要的表單是否被填完。如果沒(méi)有，則接著進(jìn)行對(duì)話270，否則退出290。
圖3根據(jù)本發(fā)明示出了DASR系統(tǒng)與方法的數(shù)據(jù)流300。語(yǔ)音客戶端303由網(wǎng)絡(luò)302連接到語(yǔ)音服務(wù)器301。語(yǔ)音客戶端303提出請(qǐng)求310以從語(yǔ)音服務(wù)器301獲取一個(gè)音頻網(wǎng)頁(yè)。在答復(fù)中，語(yǔ)音服務(wù)器向語(yǔ)音客戶端提供所述的音頻網(wǎng)頁(yè)。語(yǔ)音客戶端載入該音頻網(wǎng)頁(yè)，取得必要的參數(shù)，并將用戶參數(shù)發(fā)送330給語(yǔ)音服務(wù)器。語(yǔ)音服務(wù)器讀取發(fā)送來(lái)的參數(shù)，設(shè)置ASR參數(shù)，生成并向客戶端發(fā)送340音頻網(wǎng)頁(yè)。語(yǔ)音客戶端載入音頻網(wǎng)頁(yè)，應(yīng)用音頻采集參數(shù)，并開(kāi)始啟動(dòng)音頻采集以便與語(yǔ)音服務(wù)器進(jìn)行語(yǔ)音對(duì)話350。符合本發(fā)明的DASR節(jié)省時(shí)間，而且產(chǎn)生的差錯(cuò)比現(xiàn)有技術(shù)的DASR系統(tǒng)少，這是一項(xiàng)優(yōu)點(diǎn)。
盡管本文通過(guò)優(yōu)選實(shí)施方式的實(shí)例形式說(shuō)明了本發(fā)明，但是應(yīng)該理解的是，在本發(fā)明的精神與范圍之內(nèi)還可以作出多種其他調(diào)整和改進(jìn)。因此，附帶權(quán)利要求的目標(biāo)就是要包含本發(fā)明的真正精神與范圍之內(nèi)的所有這類變化與改進(jìn)。
工業(yè)應(yīng)用性可以提供用于分布式自動(dòng)語(yǔ)音識(shí)別與分布式自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的更為有用的方法。
權(quán)利要求
1.一種用于分布式自動(dòng)語(yǔ)音識(shí)別的方法，包括由用戶通過(guò)語(yǔ)音客戶端經(jīng)由一個(gè)通信網(wǎng)絡(luò)向語(yǔ)音服務(wù)器請(qǐng)求一個(gè)音頻網(wǎng)頁(yè)；判斷用戶的用戶參數(shù)是否存儲(chǔ)在可被語(yǔ)音服務(wù)器直接訪問(wèn)的參數(shù)文件中；如果假，則在語(yǔ)音客戶端中生成用戶參數(shù)并將用戶參數(shù)存儲(chǔ)在所述參數(shù)文件中；如果真，則由語(yǔ)音服務(wù)器直接從所述參數(shù)文件讀取用戶參數(shù)；在語(yǔ)音服務(wù)器的語(yǔ)音識(shí)別引擎中設(shè)置所述用戶參數(shù)，以實(shí)現(xiàn)語(yǔ)音客戶端與語(yǔ)音服務(wù)器之間的音頻對(duì)話。
2.根據(jù)權(quán)利要求1所述的方法，還包括由語(yǔ)音服務(wù)器維護(hù)所述參數(shù)文件。
3.根據(jù)權(quán)利要求1所述的方法，還包括由語(yǔ)音代理服務(wù)器維護(hù)所述參數(shù)文件。
4.根據(jù)權(quán)利要求1所述的方法，其中所述的用戶參數(shù)中包括表示用戶語(yǔ)音特征的語(yǔ)音參數(shù)。
5.根據(jù)權(quán)利要求1所述的方法，其中所述的用戶參數(shù)中包括表示用來(lái)采集用戶語(yǔ)音的硬件設(shè)備特征的采集參數(shù)，并且還包括在語(yǔ)音客戶端中設(shè)置所述采集參數(shù)。
6.根據(jù)權(quán)利要求1所述的方法，其中所述的用戶參數(shù)中包括用戶標(biāo)識(shí)信息。
7.根據(jù)權(quán)利要求1所述的方法，還包括將用戶參數(shù)作為cookie進(jìn)行編碼。
8.根據(jù)權(quán)利要求1所述的方法，其中所述的用戶參數(shù)缺省生成。
9.根據(jù)權(quán)利要求1所述的方法，其中所述的用戶參數(shù)由訓(xùn)練產(chǎn)生。
10.根據(jù)權(quán)利要求1所述的方法，其中為所述用戶保存多組用戶參數(shù)。
11.一種分布式自動(dòng)語(yǔ)音識(shí)別系統(tǒng)，包括一個(gè)請(qǐng)求音頻網(wǎng)頁(yè)的語(yǔ)音客戶端；一個(gè)通過(guò)通信網(wǎng)絡(luò)接收音頻網(wǎng)頁(yè)請(qǐng)求的語(yǔ)音服務(wù)器；一個(gè)可由語(yǔ)音服務(wù)器直接訪問(wèn)的參數(shù)文件；用來(lái)判斷用戶的用戶參數(shù)是否被存儲(chǔ)在參數(shù)文件中的裝置；用于當(dāng)上述條件為假時(shí)在語(yǔ)音客戶端中產(chǎn)生用戶參數(shù)并將用戶參數(shù)儲(chǔ)存到參數(shù)文件中的裝置；用于當(dāng)上述條件為真時(shí)直接從參數(shù)文件讀取用戶參數(shù)的裝置；用于在語(yǔ)音服務(wù)器的語(yǔ)音識(shí)別引擎中設(shè)置所述用戶參數(shù)以便在語(yǔ)音客戶端與語(yǔ)音服務(wù)器之間進(jìn)行音頻對(duì)話的裝置。
全文摘要
一種用于分布式自動(dòng)語(yǔ)音識(shí)別的方法使得用戶能夠利用一個(gè)經(jīng)由通信網(wǎng)絡(luò)與語(yǔ)音服務(wù)器相連的語(yǔ)音客戶端上的瀏覽器向語(yǔ)音服務(wù)器請(qǐng)求音頻網(wǎng)頁(yè)。接著判斷該用戶的持久用戶參數(shù)是否被儲(chǔ)存在語(yǔ)音客戶端上的可由語(yǔ)音服務(wù)器直接訪問(wèn)的參數(shù)文件中。如果沒(méi)有，就在語(yǔ)音客戶端中生成用戶參數(shù)并保存到參數(shù)文件中。如果有，則由語(yǔ)音服務(wù)器直接從參數(shù)文件讀取用戶參數(shù)。在兩種情況下，所述的用戶參數(shù)都會(huì)被設(shè)置在語(yǔ)音服務(wù)器的語(yǔ)音識(shí)別引擎中，以實(shí)現(xiàn)語(yǔ)音客戶端與語(yǔ)音服務(wù)器之間的音頻對(duì)話。
文檔編號(hào)G10L15/00GK1606772SQ0380178
公開(kāi)日2005年4月13日申請(qǐng)日期2003年4月9日優(yōu)先權(quán)日2002年4月10日
發(fā)明者德里克·L·思奇文克, 戴維·W·H·王申請(qǐng)人:三菱電機(jī)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載