專利名稱:用數(shù)字化語音中呈現(xiàn)的詞來索引數(shù)字化語音的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的領(lǐng)域是數(shù)據(jù)處理,或更具體地,用于索引數(shù)字化語音的方法、 裝置和產(chǎn)品。
背景技術(shù):
通過鍵盤或觸針(stylus)用運(yùn)行在設(shè)備上的應(yīng)用的用戶交互已經(jīng)變得越 來越受限和麻煩,因?yàn)槟切┰O(shè)備已經(jīng)變得越來越小、越來越移動(dòng)且越來越復(fù) 雜。具體地,像移動(dòng)電荷和PDA的小型手持設(shè)備具有許多功能,且具有足夠 的處理能力來通過多模式存取、即通過以非話音模式以及話音模式的交互來 支持用戶交互。支持多模式存取的設(shè)備組合在允許用戶同時(shí)通過多個(gè)輸入模 式或通道用設(shè)備上的應(yīng)用來交互的相同交互中的多個(gè)用戶輸入模式或通道。 輸入的方法包括語音識別、鍵盤、觸摸屏、觸針、鼠標(biāo)、手寫板等等。多模 式輸入通常使得更容易地使用自動(dòng)化設(shè)備。如果一人正在分析人類語音且感興趣于音頻數(shù)據(jù)中詞的位置,用數(shù)字音 頻編輯器來分析音頻數(shù)據(jù)是很乏味的。可以由通過用于在多模式瀏覽器上顯 示的網(wǎng)頁服務(wù)器提供的多組標(biāo)記文檔來形成多模式數(shù)字音頻編輯器,包括多 模式數(shù)字音頻編輯器。在本說明書中使用的作為術(shù)語的"多模式瀏覽器"通 常意味著能夠接收多模式輸入且用多模式輸出與用戶交互的網(wǎng)頁瀏覽器,其 中多模式輸入和輸出的模式至少包括語音模式。多模式瀏覽器典型地使得網(wǎng) 頁用XHTML+Voice ( 'X+V,)書寫。X+V提供使得用戶能夠通過除了諸如 鍵盤敲擊和鼠標(biāo)動(dòng)作的傳統(tǒng)輸入手段以外的說話對話來與通常運(yùn)行在服務(wù)器 上的多模式數(shù)字音頻編輯器交互的標(biāo)記語言。視覺標(biāo)記告知多模式瀏覽器用 戶界面的樣子以及當(dāng)用戶敲擊、指點(diǎn)或點(diǎn)擊時(shí)其如何行動(dòng)。類似地,話音標(biāo) 記告知多模式瀏覽器當(dāng)用戶對其說話時(shí)其做什么。對于視覺標(biāo)記,多模式瀏 覽器使用圖形引擎;對于話音標(biāo)記,多模式瀏覽器使用語音引擎。X+V通過 集合XHTML ( extensible Hypertext Markup Language擴(kuò)展超文本標(biāo)記語言) 和由VoiceXML支持的語音識別詞匯來添加對話交互到標(biāo)準(zhǔn)網(wǎng)頁內(nèi)容中。對200810083001. 1說明書第2/28頁于一見覺標(biāo)記,X+V包括XHTML標(biāo)準(zhǔn)。對于話音標(biāo)記,X+V包括VoiceXML 的子集。對于同步VoiceXML元素與相應(yīng)的視覺界面元素,X+V使用事件。 XHTML包括支持語音同步、語音對話、命令和控制以及語音語法的話音模 塊。話音處理器可以附于XHTML元素且響應(yīng)具體事件。話音交互特征與 XHTML集合,因此可以在XHTML內(nèi)容中直接使用話音交互特征。除了 X+V以外,還可以用語音應(yīng)用標(biāo)簽('SALT')來實(shí)現(xiàn)多模式數(shù)字 音頻編輯器。SALT是由Salt Forum開發(fā)的標(biāo)記語言。X+V和SALT都是用 于創(chuàng)建使用話音輸入/語音識別和話音輸出/語音合成的應(yīng)用的標(biāo)記語言。 SALT應(yīng)用和X+V應(yīng)用都使用底層語音識別和合成技術(shù)或"語音引擎"來進(jìn) 行識別和生成人類語音的工作。作為標(biāo)記語言,X+V和SALT都提供用于使 用應(yīng)用的用戶界面中的語音引擎的基于標(biāo)記的編程環(huán)境。兩種語言都具有指 定語音識別引擎應(yīng)該監(jiān)聽什么以及合成引擎應(yīng)該"說,,什么的語言元素、標(biāo) 記標(biāo)簽。但是X+V組合XHTML、 VoiceXML和XML事件標(biāo)準(zhǔn)來創(chuàng)建多模 式數(shù)字音頻編輯器,SALT不提供標(biāo)準(zhǔn)視覺標(biāo)記語言或事件模型。相反,它是 用于指定能被嵌入其他環(huán)境中的話音交互的低級標(biāo)簽組。除了 X+V和SALT 以外,可以使用例如Java語音框架的JavaTM、 C+十且使用其他技術(shù)以及在其 他環(huán)境中實(shí)現(xiàn)多模式數(shù)字音頻編輯器。當(dāng)前的輕量話音解決方案需要開發(fā)者來建立語法和詞典,來限制自動(dòng)化 語音識別('ASR,)引擎必須識別的可能的詞量一一作為用于增加準(zhǔn)確度的 手段。普遍的(pervasive)設(shè)備已經(jīng)由于設(shè)備的形式因素而限制了交互和輸 入形態(tài),而站式(kiosk)設(shè)備已經(jīng)通過設(shè)計(jì)限制了交互和輸入形態(tài)。在兩種 情況下,實(shí)現(xiàn)使用說話者獨(dú)立的話音識別來增強(qiáng)與該設(shè)備的用戶體驗(yàn)和交互。 說話者獨(dú)立的識別中的現(xiàn)有技術(shù)的狀態(tài)允許寫入一些復(fù)雜的話音應(yīng)用,只要 存在與每個(gè)可能的話音命令相關(guān)聯(lián)的受限詞匯。例如,如果提示用戶說出城 市名字,則系統(tǒng)能有良好的自信識別所說出的城市名字。發(fā)明內(nèi)容描述了用數(shù)字化語音中呈現(xiàn)的詞索《1所述數(shù)字化語音的方法、裝置和計(jì) 算機(jī)程序產(chǎn)品,所述方法、裝置和計(jì)算機(jī)程序產(chǎn)品用在多模式設(shè)備上操作的 多模式數(shù)字音頻編輯器實(shí)現(xiàn),所述多模式數(shù)字音頻編輯器支持與所述多模式 數(shù)字音頻編輯器的用戶交互的多種模式,所述用戶交互的多種模式包括話音模式和一種或多種非話音模式,所述多模式數(shù)字音頻編輯器操作地耦合于ASR引擎,包括由所述多模式數(shù)字音頻編輯器向ASR引擎提供用于識別的 數(shù)字化語音;在所述多模式數(shù)字音頻編輯器中從所述ASR引擎接收被識別的 用戶語音,所述被識別的用戶語音包括被識別詞,還包括指示在所述數(shù)字化 語音中何處開始呈現(xiàn)被識別詞的信息;以及由所述多模式數(shù)字音頻編輯器將 與指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的所述信息相關(guān)聯(lián)的被識 別詞插入語音識別語法中,所述語音識別語法話音使得用戶與所述多模式數(shù) 字音頻編輯器的命令接口 。從附圖中所示的本發(fā)明的示范實(shí)施例的隨后的更具體的描述,本發(fā)明的 前述和其他目的、特征和優(yōu)點(diǎn)將變得清楚,在附圖中,相同的附圖標(biāo)記通常 標(biāo)識本發(fā)明的示范實(shí)施例的相同部件。
圖1闡述了圖示根據(jù)本發(fā)明的實(shí)施例的用于索引數(shù)字化語音的示范系統(tǒng) 的網(wǎng)絡(luò)圖。圖2闡述了圖示如樹架構(gòu)的示例語音識別語法的圖表。服務(wù)器的計(jì)算機(jī)例子在內(nèi)的自動(dòng)化計(jì)算機(jī)器的方塊圖。圖4闡述了根據(jù)本發(fā)明的實(shí)施例的用于索引數(shù)字化語音的示范裝置的功 能方塊圖。式設(shè)備的計(jì)算機(jī)例子在內(nèi)的自動(dòng)化計(jì)算機(jī)器的方塊圖。圖6闡述了圖示根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的示范方法的流 程圖。圖7闡述了圖示根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的另一示范方法 的流程圖。圖8闡述了圖示根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的再一示范方法 的流程圖。圖9闡述了根據(jù)本發(fā)明的實(shí)施例的用數(shù)字化語音中呈現(xiàn)的詞索引數(shù)字化 語音的多模式數(shù)字音頻編輯器的示范圖形用戶界面顯示的圖。
具體實(shí)施方式
從圖1開始,參考附圖描述根據(jù)本發(fā)明的實(shí)施例的用于索引數(shù)字化語音 的示范方法、裝置和產(chǎn)品。圖1闡述了圖示根據(jù)本發(fā)明的實(shí)施例的用于索引數(shù)字化語音的示范系統(tǒng)的網(wǎng)絡(luò)圖。用在多模式設(shè)備(152)上操作的多模式數(shù) 字音頻編輯器(195)來實(shí)現(xiàn)本例中的索引數(shù)字化語音。多模式數(shù)字音頻編輯 器是用于音頻編輯、即用于操縱數(shù)字音頻的計(jì)算機(jī)應(yīng)用。在根據(jù)本應(yīng)用的實(shí) 施例的多模式數(shù)字音頻編輯器中如此編輯的數(shù)字音頻在本說明書中通常指的 是"數(shù)字化語音"。根據(jù)本發(fā)明的實(shí)施例的典型數(shù)字化音頻編輯器允許用戶 *從一個(gè)或多個(gè)輸入中記錄音頻信號,數(shù)字化該音頻信號,并用數(shù)字形式將它們存儲到設(shè)備存儲器中。
編輯該數(shù)字音頻,包括在音頻時(shí)間線上更改任何聲音的開始時(shí)間、停止時(shí)間和持續(xù)時(shí)間。
混合多個(gè)聲音源或音軌,以各種音量級別來組合它們,并為了立體信號而左右搖動(dòng)(panning)成為一個(gè)或多個(gè)輸出音軌。
施加簡單或高級效果或?yàn)V波器以改變音頻。效果的例子包括壓縮、擴(kuò) 展、鑲邊(flanging )、混響(reverb )、降噪、均衡和廣泛種類的其他 功能。*通常在混合后回放數(shù)字化、記錄的聲音成為一個(gè)或多個(gè)輸出,典型地?fù)P聲器、附加處理器、記錄介質(zhì)或視覺顯示。 *從一種音頻格式或編解碼器轉(zhuǎn)換成另一種,使文件格式、聲音質(zhì)量級另ij、壓縮率等等不同。字音頻編輯器而4喿作的現(xiàn)有^:字音頻編輯器的例子包括* 來自Hlladay Audio的Audio DementiaTM,*來自GNUGPL名下分布的非盈利、資源組的Audacity ,免費(fèi)的凄丈 字音頻編輯器,* 來自Adobe System的Adobe AuditionTM,參來自FlexiMusic的FlexiMusic Wave EditorTM,* 來自Goldwave 乂2^司的GoldwaveTM, 來自Sonoma Wire Works的RiffWorksTM,以及 *本領(lǐng)域技術(shù)人員將知道的許多其他......。多模式設(shè)備(152)是支持與多模式數(shù)字音頻編輯器的用戶交互的多種模 式的自動(dòng)化計(jì)算機(jī)器,與多模式數(shù)字音頻編輯器的用戶交互的多種模式包括 與多模式數(shù)字音頻編輯器的用戶交互的話音模式和一種或多種非話音模式。在此用來自多模式設(shè)備的話音提示和響應(yīng)(177)的音頻輸出和來自用戶(128) 的用于識別的語音的音頻輸入來呈現(xiàn)話音模式。由諸如在多模式設(shè)備(152) 上的鍵盤和顯示屏之類的輸入/輸出設(shè)備來呈現(xiàn)非話音模式。多模式數(shù)字音頻 編輯器(195)操作地耦合于語音引擎(148)中的自動(dòng)語音識別('ASR,) 引擎(150)。可以用如下更詳細(xì)說明的應(yīng)用編程接口 ( 'API,)、話音服務(wù)模 塊、或VOIP連接來實(shí)現(xiàn)這種操作的耦合。圖1的系統(tǒng)通常操作用于通過由多模式數(shù)字音頻編輯器(195)向ASR 引擎(150 )提供用于識別的數(shù)字化語音來執(zhí)行根據(jù)本發(fā)明的實(shí)施例的索引數(shù) 字化語音。多模式數(shù)字化音頻編輯器(195)從ASR引擎(150)接收包括被 識別詞(516)的被識別的用戶語音(514)。來自ASR引擎的被識別的用戶 語音還包括信息(518),本例中稱為"索引",指示在數(shù)字化語音中何處開始 呈現(xiàn)被識別詞。多模式數(shù)字音頻編輯器(195)將與指示在數(shù)字化語音中何處 開始呈現(xiàn)被識別詞的信息相關(guān)聯(lián)的被識別詞(516)插入語音識別語法(130) 中。語音識別語法(130)話音使得用戶與多模式數(shù)字音頻編輯器的命令接口。 根據(jù)本發(fā)明的實(shí)施例的典型的數(shù)字音頻編輯器還視覺地顯示具有被識別詞作 為在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的索引的數(shù)字化語音一一如圖9所 示,并參考圖6和7以下更詳細(xì)說明的。圖1的系統(tǒng)包括兩個(gè)語音識別語法(130、 104)。語法(104)是由話音服務(wù)器(151 )中的ASR引擎(150 )用來識別將由多模式數(shù)字音頻編輯器(195 )插入語法(130)中的^皮識別詞的語法。這種語音識別語法由語法MJ'j構(gòu)成。語法規(guī)則是建議ASR引擎或話音翻譯器當(dāng)前能夠識別哪些詞的語音識別語法的成分。以下i吾法,例如 〈grammar〉<command> = [remind me to] call | phone | telephone <name><when>; <name> = bob 1 martha 1 joe; <when> = today | this afternoon; </gmmmar>包含三個(gè)頭見則,分別命名為〈command〉、 〈name〉和〈when〉。 〈command〉夫見則中的元素〈name〉和〈when〉是名為〈name〉和〈when〉的規(guī)則的引用。這種規(guī) 則引用要求必須由ASR引擎匹配所引用的規(guī)則以便匹配涉及的規(guī)則。在本例 中,因此,必須由ASR引擎將〈name〉規(guī)則和〈when〉規(guī)則都匹配于用戶發(fā)言 的語音,以便匹配〈command〉^見則。多模式設(shè)備是自動(dòng)化設(shè)備,即自動(dòng)化計(jì)算機(jī)器或運(yùn)行在自動(dòng)化設(shè)備上的 計(jì)算機(jī)程序,即能夠從用戶接受輸入、鍵盤、鼠標(biāo)、觸針等等中的多于一種 模式,包括語音輸入一一還顯示輸出、圖形、語音等等中的多于一種模式。 多模式設(shè)備通常能夠從用戶接受語音輸入,數(shù)字化該語音并向用于識別的語 音引擎提供數(shù)字化語音。例如,可以用本領(lǐng)域技術(shù)人員可能知道的硬件和軟 件的其他組合來實(shí)現(xiàn)多模式設(shè)備,如膝上話音使能的瀏覽器、手持機(jī)上話音 瀏覽器、個(gè)人計(jì)算才幾上用Java實(shí)現(xiàn)的再現(xiàn)游戲。因?yàn)榭梢砸詷?biāo)記語言(X+V、 SALT)、面向?qū)ο笳Z言(Java、 C++)、過程語言(C編程語言)、和本領(lǐng)域4支 術(shù)人員可能知道的其他類型的計(jì)算機(jī)語言來實(shí)現(xiàn)多模式數(shù)字音頻編輯器,因 此本說明書使用術(shù)語"多模式數(shù)字音頻編輯器"來指的是管理多于一個(gè)的用 戶輸入模式和多于一個(gè)的向用戶的輸出模式的用于編輯數(shù)字音頻的任何軟件 應(yīng)用、面向服務(wù)器或面向客戶端、瘦客戶端(thin client )、肥客戶端(thick client)、獨(dú)立應(yīng)用,其中該模式至少包括視覺模式和語音模式。圖1的系統(tǒng)包括多個(gè)示例多模式設(shè)備*個(gè)人計(jì)算機(jī)(107 ),通過無線連接(120 )耦合到數(shù)據(jù)通信網(wǎng)絡(luò)(100 ) 用于數(shù)據(jù)通信,*個(gè)人數(shù)字助理('PDA, ) ( 112),通過無線連接(114)耦合于數(shù)據(jù)通信網(wǎng)絡(luò)(100)用于數(shù)據(jù)通信, 移動(dòng)電話(110),通過無線連接(116)耦合于數(shù)據(jù)通信網(wǎng)絡(luò)(100)用于數(shù)據(jù)通信,以及 *膝上計(jì)算機(jī)(126),通過無線連接(118)耦合于數(shù)據(jù)通信網(wǎng)絡(luò)(100)用于數(shù)據(jù)通信。圖1的系統(tǒng)中的示例多模式設(shè)備(152)的每個(gè)包括能夠從用戶(128) 接受用于識別的語音(315)、能夠數(shù)字化該語音并向用于識別的語音引擎提 供數(shù)字化語音的麥克風(fēng)、音頻放大器、數(shù)模轉(zhuǎn)換器和多模式數(shù)字音頻編輯器。 可以根據(jù)工業(yè)標(biāo)準(zhǔn)編解碼器來數(shù)字化該語音,該工業(yè)標(biāo)準(zhǔn)編解碼器包括但不 限于用于如此的分布式語音識別(Distributed Speech Recognition)的那些。用于'Coding/DECoding,(編碼/解碼)語音的方法^皮稱為'編解碼器,。歐洲電信標(biāo)準(zhǔn)機(jī)構(gòu)('ETSI,)提供各種編解碼器,用于編碼在DSR中使用的語音,該DSR包括例如ETSIES201 108DSR前端編解碼器、ETSI ES 202 050增強(qiáng)DSR前端編解碼器、ETSI ES 202 211擴(kuò)展DSR前端編解碼器和ETSI ES202 212擴(kuò)展增強(qiáng)DSR前端編解碼器。在題為如下的諸如RFC3557標(biāo)準(zhǔn)中 RTP Payload Format for European Telecommunications Standards Institute (ETSI) European Standard ES 201 108 Distributed Speech Recognition Encoding和在題為如下的英特網(wǎng)草案中RTP Payload Formats for European TelecommunicationsStandards Institute (ETSI) European Standard ES 202 050, ES 202211, and ES 202 212 Distributed Speech Recognition Encoding,IETF提供用于各種編解碼器的標(biāo)準(zhǔn)RTP負(fù)載格式。因此,有必要注意,在關(guān) 于編解碼器、負(fù)載格式或分組架構(gòu)的本發(fā)明中不存在限制。例如,可以用包 括如下的任何編解碼器來編碼、即數(shù)字化根據(jù)本發(fā)明的實(shí)施例的用于自動(dòng)語 音識別的語音* AMR ( Adaptive Multi-Rate Speech coder適應(yīng)多速率語音編碼器),* ARDOR ( Adaptive Rate-Distortion Optimized sound codeR適應(yīng)速率分 布優(yōu)化聲音編碼器),* Dolby Digital (A/52,AC3),* DTS (DTS Coherent Acoustics),* MP 1 (MPEG audio layer-1)* MP2 (MPEG audio layer-2) Layer 2 audio codec (MPEG-1, MPEG-2和 non-ISO MPEG-2.5),* MP3 (MPEG audio layer-3) Layer 3 audio codec (MPEG-1, MPEG-2和 腿-ISO MPEG-2.5),* Perceptual Audio Coding (感知音頻編碼),* FS-1015 (LPC-10),* FS-1016(CELP),* G.728 (ADPCM),* G.729 (CS-ACELP),* GSM.* HILN(MPEG-4參數(shù)音頻編碼),以及 本領(lǐng)域技術(shù)人員知道的其他。如所述,根據(jù)本發(fā)明的實(shí)施例的多模式設(shè)備能夠向用于識別的語音引擎 (153)提供數(shù)字化語音(510)。語音引擎是功能模塊,典型地是軟件模塊, 雖然其還可以包括進(jìn)行識別和生成或'合成,人類語音工作的具體硬件。語 音引擎通過使用在本說明書中被稱為ASR引擎的另一模塊來實(shí)現(xiàn)語音識別, 且語音引擎通過使用在本說明書中被稱為文本到語音('TTS,)引擎的另一 模塊來進(jìn)行語音合成。如圖1所示,可以在多模式設(shè)備(107)本身中本地安 裝語音引擎(148),或可以相對于多模式設(shè)備通過話音服務(wù)器(151 )中的數(shù) 據(jù)通信網(wǎng)絡(luò)(100)遠(yuǎn)程地安裝語音引擎(153)。本身包含其自身的語音引擎 的多模式設(shè)備被稱為實(shí)現(xiàn)'肥多模式客戶端'或'肥客戶端,,因?yàn)榉识嗄J?客戶端設(shè)備本身包含進(jìn)行語音識別和語音合成所需的所有功能性——通過 API調(diào)用多模式設(shè)備本身中的語音識別和語音合成模塊,而不需要通過網(wǎng)絡(luò) 發(fā)送語音識別的請求,也不需要通過網(wǎng)絡(luò)從遠(yuǎn)程話音服務(wù)器接收合成的語音。 不包含其自身語音引擎的多模式設(shè)備被稱為'瘦多模式客戶端,或簡稱為'瘦 客戶端,,因?yàn)槭荻嗄J娇蛻舳吮旧韮H包含多模式數(shù)字音頻編輯軟件的相對瘦 的層,該多模式數(shù)字音頻編輯軟件從來自瘦客戶端通過網(wǎng)絡(luò)遠(yuǎn)程定位的話音 服務(wù)器獲得語音識別和語音合成。為了便于說明,僅示出圖1的系統(tǒng)中的多 模式設(shè)備(152)的一個(gè)(107)具有語音引擎(148),但讀者將認(rèn)識到,任 何多模式設(shè)備可以具有根據(jù)本發(fā)明的實(shí)施例的語音引擎。以X+V部分或整體實(shí)現(xiàn)的多模式數(shù)字音頻編輯器(195)可以通過 VoiceXML翻譯器向語音引擎提供用于識別的語音和用于語音合成的文本。 VoiceXML翻譯器是典型地以VoiceXML〈form〉元素的形式的、從多模式數(shù)字 音頻編輯器接受話音對話指令的計(jì)算機(jī)程序指令的軟件模塊。話音對話指令 包括建議VoiceXML翻譯器如何管理從用戶輸入的話音以及要被呈現(xiàn)給用戶 的話音提示和響應(yīng)的話音提示一個(gè)或多個(gè)語法、數(shù)據(jù)輸入元素、事件處理器 等等。VoiceXML翻譯器通過根據(jù)VoiceXML形式翻譯算法('FIA,)順序處 理對話指令來管理這種對話。正如語音引擎可以相對于任何具體多模式設(shè)備本地或遠(yuǎn)程地安裝,因此 VoiceXML翻譯器也可以在多模式設(shè)備本身中本地安裝,或VoiceXML可以通過話音服務(wù)器(151)中的數(shù)據(jù)通信網(wǎng)絡(luò)(100)相對于多模式設(shè)備遠(yuǎn)程地安裝。在肥客戶端架構(gòu)中,具有以x+v實(shí)現(xiàn)的多模式數(shù)字音頻編輯器的多模式設(shè)備(152)包括其自身的語音引擎和其自身的VoiceXML翻譯器兩者。 VoiceXML翻譯器向用于向多模式數(shù)字音頻編輯器提供語音識別和語音合成 的多模式數(shù)字音頻編輯器展示API。多模式數(shù)字音頻編輯器通過API向 VoiceXML翻譯器提供對話指令、VoiceXML〈form〉元素、語法、輸入元素、 事件處理器等等,且VoiceXML翻譯器表示多模式數(shù)字音頻編輯器管理語音 引擎。在肥客戶端架構(gòu)中,由多模式設(shè)備上的VoiceXML翻譯器來翻譯 VoiceXML對話。在瘦客戶端架構(gòu)中,由從運(yùn)行在多模式數(shù)字音頻編輯器(195 ) 的多模式設(shè)備(107 )通過數(shù)據(jù)通信網(wǎng)絡(luò)(100 )遠(yuǎn)程定位的話音服務(wù)器(151 ) 上的VoiceXML翻譯器來翻譯VoiceXML對話。VoiceXML翻譯器向語音引擎提供語法、用于識別的語音和用于語音合 成的文本提示,且VoiceXML翻譯器向多模式數(shù)字音頻編輯器返回以被識別 語音形式的語音引擎輸出、語義翻譯結(jié)果和用于話音提示的數(shù)字化語音。在 瘦客戶端架構(gòu)中,從話音服務(wù)器(151)中的多模式客戶端設(shè)備(107)遠(yuǎn)程 定位VoiceXML翻譯器,仍然在多模式設(shè)備中實(shí)現(xiàn)用于VoiceXML翻譯器的 API,同時(shí)該API被修改以在話音服務(wù)器上的VoiceXML翻譯器之間通信話音 對話指令、用于識別的語音和文本及話音提示。可以配置圖1的系統(tǒng)中的示 例多模式設(shè)備(152)的每個(gè)用于通過在多模式設(shè)備上安裝并運(yùn)行用根據(jù)本發(fā) 明的在數(shù)字化語音中呈現(xiàn)的詞索引數(shù)字化語音的多模式數(shù)字音頻編輯器。這 四個(gè)示例多模式設(shè)備(152 )僅是為了說明,不是本發(fā)明的限制。能夠從用戶 接受語音并向用于識別的ASR引擎提供數(shù)字化的語音的任何自動(dòng)化計(jì)算機(jī)器 可以被配置用作根據(jù)本發(fā)明的實(shí)施例的用于索引數(shù)字化語音的多模式設(shè)備。圖1的系統(tǒng)還包括通過有線連接(122)連接于數(shù)據(jù)通信網(wǎng)絡(luò)(100)的 話音服務(wù)器(151 )。該話音服務(wù)器(151 )是運(yùn)行語音引擎(153 )的計(jì)算機(jī), 該語音引擎(153 )通過接受用于語音識別的請求并返回呈現(xiàn)被識別語音的文 本來為多模式設(shè)備提供話音識別服務(wù)。話音服務(wù)器(151)還提供語音合成、 文本到語音('TTS,)轉(zhuǎn)換,用于對諸如X+V應(yīng)用、SALT應(yīng)用或Java話音 應(yīng)用之類的多模式數(shù)字音頻編輯器中的用戶輸入的話音提示和話音響應(yīng) (314)。圖1的系統(tǒng)包括連接多模式設(shè)備(152)和話音服務(wù)器(151)用于數(shù)據(jù)通信的數(shù)據(jù)通信網(wǎng)絡(luò)(100)。根據(jù)本發(fā)明的實(shí)施例的用于索引數(shù)字化語音的 數(shù)據(jù)通信網(wǎng)絡(luò)是由用作用分組交換協(xié)議連接用于數(shù)據(jù)通信的數(shù)據(jù)通信路由器 的多個(gè)計(jì)算機(jī)構(gòu)成的數(shù)據(jù)通信網(wǎng)絡(luò)。可以用光連接、有線連接或無線連接實(shí) 現(xiàn)這種數(shù)據(jù)通信網(wǎng)絡(luò)。這種數(shù)據(jù)通信網(wǎng)絡(luò)可以包括內(nèi)部網(wǎng)絡(luò)、互聯(lián)網(wǎng)、局域數(shù)據(jù)通信網(wǎng)絡(luò)('LAN,)和廣域數(shù)據(jù)通信網(wǎng)絡(luò)('WAN,)。這種數(shù)據(jù)通信網(wǎng) 纟備可以實(shí)現(xiàn),例如 用Ethernet 協(xié)議或無線Ethernet 協(xié)-漢的鏈3各層,*用因特網(wǎng)協(xié)議('IP,)的數(shù)據(jù)通信網(wǎng)絡(luò)層,*用傳輸控制協(xié)議('TCP,)或用戶數(shù)據(jù)報(bào)協(xié)議('UDP,)的傳輸層, *用超文本傳輸協(xié)議('HTTP,)、會話開始協(xié)議('SIP,)、實(shí)時(shí)協(xié)議 ('RTP,)、分布式多模式同步協(xié)議('DMSP,)、無線訪問協(xié)議 ('WAP,)、手持設(shè)備傳輸協(xié)議('HDTP, )、 ITU協(xié)議如H.323的應(yīng) 用層,以及 攀本領(lǐng)域技術(shù)人員知道的其他協(xié)議。圖1的系統(tǒng)包括網(wǎng)頁服務(wù)器(147),其通過無線連接(123)連接到網(wǎng)絡(luò) (100)然后到多模式設(shè)備(152)用于數(shù)據(jù)通信。網(wǎng)頁服務(wù)器(147)可以是 向客戶端設(shè)備提供組成多模式數(shù)字音頻編輯器的標(biāo)記文檔的任何服務(wù)器。網(wǎng) 頁服務(wù)器(147)典型地提供數(shù)據(jù)通信協(xié)議、HTTP、 HDTP、 WAP等等來提 供這種標(biāo)記文檔。即,雖然術(shù)語'網(wǎng)頁,被用于描述通常在本說明書中的網(wǎng) 頁服務(wù)器,但是不存在多模式設(shè)備和網(wǎng)頁服務(wù)器之間的數(shù)據(jù)通信僅對HTTP 的限制。還可以以支持非語音顯示元素、數(shù)據(jù)條目元素和語音標(biāo)識要識別哪 個(gè)語音和要讀出哪個(gè)詞的語音元素、語法、形式元素等等,包括例如X+V和 SALT的任何標(biāo)記語言來實(shí)現(xiàn)標(biāo)記文檔。當(dāng)從網(wǎng)頁服務(wù)器(147)接收到作為 多模式數(shù)字音頻編輯器的一部分的標(biāo)記文檔時(shí),則多模式設(shè)備中的多模式數(shù) 字音頻編輯器可以提供使用多模式設(shè)備本身(107 )中的VoiceXML翻譯器和 語音引擎(148)或提供使用從話音服務(wù)器(151)中的多模式設(shè)備遠(yuǎn)程定位 的VoiceXML翻譯器和語音引擎(153 )。在多模式設(shè)備(152)的配置中,構(gòu)成圖1中所示的示范系統(tǒng)的網(wǎng)頁服務(wù) 器(147)、話音服務(wù)器(151)和數(shù)據(jù)通信網(wǎng)絡(luò)(100)是為了說明而不是限 制。用于根據(jù)本發(fā)明的各個(gè)實(shí)施例的索引數(shù)字化語音的數(shù)據(jù)處理系統(tǒng)可以包 括圖1中未示出的本領(lǐng)域技術(shù)人員知道的附加的服務(wù)器、路由器、其他設(shè)備和對等架構(gòu)。在這種數(shù)據(jù)處理系統(tǒng)中的數(shù)據(jù)通信網(wǎng)絡(luò)可以支持除了上述那些 以外的許多數(shù)據(jù)通信協(xié)議。可以在除了圖1所示的那些以外的各種硬件平臺 上實(shí)現(xiàn)本發(fā)明的各種實(shí)施例。為了進(jìn)一步說明語音識別語法,圖2闡述了圖示如樹架構(gòu)的示例語音識 別語法的圖表。下列示例是可用于根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的語法,其支持訂購比薩(orderingpizza),其語法以Java語音語法格式('JSGF,) 來表示order = [<polite_phrase>] <pizza_topping> pizza pizza—topping = cheese | pepperoni | "italian sausage" polite_phrase = [I] [want] | [give] [me]圖2的圖表用將'order(訂購),語法的元素映射到樹架構(gòu)中,同時(shí)'order' 元素(202)位于樹根部。術(shù)語'order'、 'pizza—topping(比薩—上部),、和'polite_phrase (禮貌—短語),指定語法規(guī)則。在角括號<>中的語法元素、 <polite_phrase> ( 204 )禾口〈pizza—topping> ( 206 )參考i吾^:夫見貝'J,還一皮牙爾為圳一 末端,因?yàn)樗鼈儽硎菊Z法的樹架構(gòu)中的能夠延伸到一分支節(jié)點(diǎn)或葉節(jié)點(diǎn)的分 支節(jié)點(diǎn)。'末端元素,是語法的樹架構(gòu)的葉節(jié)點(diǎn)。'pizza (比薩),(208 )是不可 選的葉節(jié)點(diǎn);如果要匹配'order'語法,則詞'pizza,必須與用戶發(fā)言相匹 配。豎線'i,指定作為替換的語法元素,使用其任何一個(gè)都將匹配語法元素。 在規(guī)則〈pizza—toppings>、 'cheese (奶酪),(214)、 'pepperoni (意大利辣香 腸),(216)和'italian sausage (意大利香腸),(218)是不可選的、替換的 末端元素。如果要匹酉己'order' i吾法,則用戶必須讀出'cheese'、 'pepperoni' 或 'italian sausage' 中的 一個(gè)。在方括號[]中的語法術(shù)語是可選的。[<polite_phrase>]中的方括號指定 'polite_phrase,規(guī)則作為語法樹中的可選、非末端元素、分支節(jié)點(diǎn)。因此, 方括號中的術(shù)語〈politejhrase〉 ( 204 )規(guī)則是'可選末端,,即本例子中形成 兩個(gè)可選替換的短語(210、 212)的、語法樹中的葉節(jié)點(diǎn),其每個(gè)都是分別 由如下兩個(gè)可選的替換末端或葉節(jié)點(diǎn)構(gòu)成[I] (220) [want] (222)和[give] (224) [me] (226)??梢杂米鳛樘峁┱Z音識別和語音合成的自動(dòng)化計(jì)算機(jī)器的一個(gè)或多個(gè)話 音服務(wù)器、計(jì)算機(jī)來實(shí)現(xiàn)瘦客戶端架構(gòu)中的根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音。因此,為了進(jìn)一步說明,圖3闡述了包括可用作根據(jù)本發(fā)明的實(shí)施 例的索引數(shù)字化語音中的話音服務(wù)器(151 )的計(jì)算機(jī)例子在內(nèi)的自動(dòng)化計(jì)算機(jī)器的方塊圖。圖3的話音服務(wù)器(151 )包括至少一個(gè)計(jì)算機(jī)處理器(156) 或'CPU,以及通過高速存儲器總線(166)和總線適配器(158)而連接到 處理器(156 )和話音服務(wù)器的其他組件的隨機(jī)存取存儲器(168 ) ( 'RAM,)。被存儲在RAM(168)中的是話音服務(wù)器應(yīng)用(188),即能夠操作在被 配置用于進(jìn)行根據(jù)本發(fā)明的實(shí)施例的字段語音識別的系統(tǒng)中的話音服務(wù)器的 計(jì)算機(jī)程序指令模塊。話音服務(wù)器應(yīng)用(188)通過接受用于語音識別的請求 并返回包括表示^皮識別語音的文本、用作對話中變量的文本和作為用于語義 翻譯的腳本的串表示的文本在內(nèi)的語音識別結(jié)果,為多模式設(shè)備提供話音識 別服務(wù)。話音服務(wù)器應(yīng)用(188)還包括提供用于話音提示和對諸如X+V應(yīng) 用、SALT應(yīng)用或Java語音應(yīng)用之類的多模式數(shù)字音頻編輯器中的用戶輸入 的話音響應(yīng)的文本到語音('TTS,)轉(zhuǎn)換的計(jì)算機(jī)程序指令??梢酝ㄟ^向來 自X+V客戶端、SALT客戶端、Java語音客戶端或其他多模式客戶端的HTTP 請求提供響應(yīng),來實(shí)現(xiàn)話音服務(wù)器應(yīng)用(188)作為以Java、 C+十或支持X+V、 SALT、 VoiceXML或其他多模式語言的另一語言實(shí)現(xiàn)的網(wǎng)頁服務(wù)器??梢酝ㄟ^向來自允許在多模式設(shè)備上的Java客戶端應(yīng)用的HTTP請求提 供響應(yīng),來進(jìn)一步實(shí)現(xiàn)話音服務(wù)器應(yīng)用(188)作為運(yùn)行在Java虛擬機(jī)(102) 上并支持Java話音框架的Java服務(wù)器。還可以實(shí)現(xiàn)話音服務(wù)器應(yīng)用(188) 作為VoiceXML服務(wù)或SALT服務(wù),在這種情況下,話音服務(wù)器(151 )還將 包括SALT翻i奪器(103 )或VoiceXML翻譯器。除了 Java、 VoiceXML和SALT 以外,可以以本領(lǐng)域技術(shù)人員可能知道的其他方式以及本發(fā)明范圍內(nèi)的所有 這種方式來實(shí)現(xiàn)支持自動(dòng)語音識別的話音服務(wù)器應(yīng)用。本例中的話音服務(wù)器(151 )包括語音引擎(153 )。語音引擎是功能模塊, 典型地是軟件模塊,雖然它還可能包括進(jìn)行識別和生成人類語音工作的具體 硬件。語音引擎(153)包括用于語音識別的自動(dòng)化語音識別('ASR,)引擎 (150)和用于生成語音的文本到語音('TTS,)引擎(194)。語音引擎還包 括語法(140)、詞典(106)、和特定語言聲學(xué)模型(108)。例如,具體語音 聲學(xué)模型(108)是將語音特征向量('SFV,)與實(shí)際上可行地表示人類語音 中所有詞的所有發(fā)音的音素相關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)、表或數(shù)據(jù)塊。詞典(106)是 以文本形式的詞與表示每個(gè)詞的發(fā)音的音素的關(guān)聯(lián);詞典有效地標(biāo)識了能夠由ASR引擎識別的詞。還被存儲在RAM ( 168 )中的是文本到語音('TTS,) 引擎(194),即接受文本作為輸入并以數(shù)字編碼語音的形式返回相同的文本、 用于向多模式系統(tǒng)的用戶提供作為提示的語音和響應(yīng)的計(jì)算機(jī)程序指令模 塊。語法(104)向ASR引擎(150)連通當(dāng)前可以識別的詞和詞序列。為了 精確理解,區(qū)分語法的目的和詞典的目的。詞典將ASR引擎能夠識別的所有 詞與音素相關(guān)聯(lián)。語法連通當(dāng)前合格用于識別的詞。當(dāng)前合格用于識別的詞 集和能夠識別的詞集可以相同或可以不同;語法中的詞集典型地是詞典中的 詞的子集。可以以由任何ASR引擎支持的任何格式、包括例如Java語音語法格式('JSGF, )、W3C語音識別語法規(guī)范('SRGS,)的格式、來自IETF的RFC2234的擴(kuò)大的Backus-Naur格式('ABNF )、以W3C的隨機(jī)語言模型(N-Gram)規(guī)范中描述的隨機(jī)語法的形式、和本領(lǐng)域技術(shù)人員可能知道的其他語法格式來表述用于根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的語法。語法典型地操作為諸如VoiceXML〈meni^或X+V〈form〉的對話的元素??梢栽趯υ捴芯€型表述語法的定義。或者,可以在分離的語法文檔中外部實(shí)現(xiàn)語法,且可以用具有URI的對話來引用語法。下面是以JSFG表述的語法的例子 <grammar scope="dialog" x![CDATA[#JSGF V1.0;grammar command;<command> = [remind me to] call | phone | telephone <name> <when>; <name> = bob | martha 1 joe | pete 1 chris | John | artoush; <when> = today | this afternoon | tomorrow | next week;]]></grammar>在本例中,名為〈command〉、 <name>、和〈when〉的元素是語法的規(guī)則。 規(guī)則是建議ASR 5)擎或話音翻譯器當(dāng)前可以識別哪個(gè)詞的規(guī)則的規(guī)則名和擴(kuò) 展的組合。在本例中,擴(kuò)展包括邏輯與和邏輯或,且豎線T表示'或'。 ASR引擎或話音翻i奪器處理序列中的^L則,首先〈command、然后〈name、 然后〈when〉。 〈command:^見則4妾受用于識別的'call'或'phone,或'telephone' 與、即邏輯與從〈name〉規(guī)則和〈when〉規(guī)則返回的任何。〈name〉規(guī)則接受 'bob' 或 'martha, 或 'joe, 或 'pete, 或 'chris, 或 'john' 或 'artoush,,〈when〉A(chǔ)見貝寸4妾受 'today' 或 'this afternoon' 或 'tomorrow' 或 'next week'。 命令語法整體上匹配如下發(fā)言,例如* "phone bob next week (下星期纟會bob打電話)", "telephone martha this afternoon (今天下午給martha打電話),,, "remind me to call chris tomorrow (提醒我明天給chris打電話),,以 及* "remind me to phone pete today (提醒我今天纟合pete打電;舌),,。 本例中的話音服務(wù)器應(yīng)用(188 )被配置以從諸如從話音服務(wù)器通過網(wǎng)絡(luò)遠(yuǎn)程定位的多模式數(shù)字音頻編輯器的多模式客戶端接收來自于用戶的用于識 別的數(shù)字化語音,并將該語音送往用于識別的ASR引擎。ASR引擎(150 ) 是本例中還被存儲在RAM中的計(jì)算機(jī)程序指令的模塊。在進(jìn)行自動(dòng)化語音 識別時(shí),ASR引擎接收以至少一個(gè)數(shù)字化詞的形式的用于識別的語音,并使 用數(shù)字化詞的頻率分量來導(dǎo)出語音特征向量('SFV,)??梢杂美绲谝粋€(gè)十 二或十三傅立葉或數(shù)字化語音采樣的頻域分量來定義SFV。 ASR引擎可以使 用SFV來從特定語言聲學(xué)模型(108)推導(dǎo)處用于該詞的音素。然后,ASR 引擎使用音素來找到詞典(106)中的詞。還被存儲在RAM中的是VoiceXML翻譯器(192),即處理VoiceXML 語法的計(jì)算機(jī)程序指令模塊。輸入到VoiceXML翻譯器(192)的VoiceXML 可以起源于例如遠(yuǎn)程運(yùn)行作為在多模式設(shè)備上的多模式數(shù)字音頻編輯器的 VoiceXML,或起源于運(yùn)行作為在多模式設(shè)備上的多模式數(shù)字音頻編輯器的 SALT客戶端,或起源于運(yùn)行作為在多模式設(shè)備上遠(yuǎn)程的多模式數(shù)字音頻編輯 器的Java客戶端應(yīng)用。在本例中,VoiceXML翻譯器(192)翻譯并執(zhí)行 VoiceXML段,其表示從遠(yuǎn)程多模式設(shè)備接收的、并通過話音服務(wù)器應(yīng)用(188 ) 被提供給VoiceXML翻譯器(192)的話音對話指令。瘦客戶端架構(gòu)中的多模式數(shù)字音頻編輯器(195)可以提供數(shù)據(jù)通信經(jīng)過 具有多模式數(shù)字音頻編輯器(195)的網(wǎng)絡(luò)向VoiceXML翻譯器(149)提供 話音對話指令、VoiceXML段、VoiceXML〈form〉元素等等。話音對話指令包 括建議VoiceXML翻譯器如何管理從用戶輸入的話音和向用戶呈現(xiàn)的提示和 響應(yīng)的一個(gè)或多個(gè)語法、數(shù)據(jù)輸入元素、事件處理器等等。VoiceXML翻譯 器通過根據(jù)VoiceXML形式翻譯算法('FIA,)順序處理對話指令來管理這種 對話。VoiceXML翻譯器翻譯被多模式數(shù)字音頻編輯器提供給VoiceXML翻譯器的VoiceXML對話。還被存儲在RAM (168)中的是操作系統(tǒng)(154)。可用于根據(jù)本發(fā)明的 實(shí)施例的話音服務(wù)器中的操作系統(tǒng)包括UNIXTM、 LinuxTM、 MicrosoftNTTM、 AIXTM、 IBM的i5/OSTM和本領(lǐng)域技術(shù)人員將知道的其他。RAM (168)中示 出了圖3的例子中的操作系統(tǒng)(154)、話音服務(wù)器應(yīng)用(188)、 VoiceXML 翻譯器(192 )、 ASR引擎(150 )、 JVM ( 102 )和TTS引擎(194 ),但這種 軟件的許多組件還被存儲在盤驅(qū)動(dòng)器(170)上的非易失性存儲器中。圖3的話音服務(wù)器(151)包括總線適配器(158),即包括用于高速總線、 前端總線(162)、視頻總線(164)和存儲器總線(166)的驅(qū)動(dòng)電子設(shè)備以 及用于減慢擴(kuò)展總線(slower expansion bus ) ( 160 )的驅(qū)動(dòng)電子設(shè)備在內(nèi)的計(jì) 算機(jī)硬件組件??捎糜诟鶕?jù)本發(fā)明的實(shí)施例的話音服務(wù)器的總線適配器的例 子包括Intel北橋、Intel存儲控制器集線器、Intel南橋和Intel I/O控制器集線 器。可用于根據(jù)本發(fā)明的實(shí)施例的話音服務(wù)器的擴(kuò)展總線的例子包括工業(yè)標(biāo) 準(zhǔn)架構(gòu)('ISA')總線和外圍組件互連('PCI,)總線。圖3的話音服務(wù)器(151 )包括提供擴(kuò)展總線(160 )和總線適配器(158 ) 耦合于話音服務(wù)器(151 )的處理器(156 )和其他組件的盤驅(qū)動(dòng)適配器(172 )。 盤驅(qū)動(dòng)適配器(172)將非易失性數(shù)據(jù)存儲器連接于以盤驅(qū)動(dòng)器(170)形式 的話音服務(wù)器(151)??捎糜谠捯舴?wù)器的盤驅(qū)動(dòng)適配器包括集成驅(qū)動(dòng)電子 設(shè)備('IDE')適配器、小型計(jì)算機(jī)系統(tǒng)接口 ( 'SCSI')適配器和本領(lǐng)域技 術(shù)人員將知道的其他。另外,可以對于話音服務(wù)器實(shí)現(xiàn)非易失性計(jì)算機(jī)存儲 器作為本領(lǐng)域技術(shù)人員將知道的光盤驅(qū)動(dòng)器、電可擦除可編程只讀存儲器(所謂'EEPROM,或'閃,存)、RAM驅(qū)動(dòng)器等等。圖3的示例話音服務(wù)器包括一個(gè)或多個(gè)輸入/輸出('I/O,)適配器(178)。 話音服務(wù)器中的I/O適配器通過例如用于控制到諸如計(jì)算機(jī)顯示屏幕之類的 顯示設(shè)備的輸出以及來自諸如鍵盤和鼠標(biāo)的用戶輸入設(shè)備(181 )的用戶輸入 來實(shí)現(xiàn)面向用戶的輸入/輸出的軟件驅(qū)動(dòng)器和計(jì)算機(jī)硬件。圖3的示例話音服 務(wù)器包括視頻適配器(209),其是被特別指定用于到諸如顯示屏或計(jì)算機(jī)監(jiān) 視器之類的顯示設(shè)備(180 )的圖形輸出的1/0適配器的例子。視頻適配器(209 ) 通過高速視頻總線(164 )、總線適配器(158 )和也是高速總線的前端總線(162 ) 被連接于處理器(156)。圖3的示例話音服務(wù)器(151 )包括用于與其他計(jì)算 機(jī)(182 )數(shù)據(jù)通信和與數(shù)據(jù)通信網(wǎng)絡(luò)(100 )凄t據(jù)通信的通信適配器(167 )??梢酝ㄟ^RS-232連接,通過諸如通用串行總線('USB,)的外部總線、通過 諸如IP數(shù)據(jù)通信網(wǎng)絡(luò)的數(shù)據(jù)通信網(wǎng)絡(luò)和本領(lǐng)域技術(shù)人員將知道的其他方式來 連續(xù)執(zhí)行這種數(shù)據(jù)通信。通信適配器實(shí)現(xiàn)硬件級的數(shù)據(jù)通信,通過該通信適 配器, 一個(gè)計(jì)算機(jī)直接或通過數(shù)據(jù)通信網(wǎng)絡(luò)向另 一個(gè)計(jì)算機(jī)發(fā)送數(shù)據(jù)通信。 可用于根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的通信適配器的例子包括用于 有線呼叫連接的調(diào)制解調(diào)器、用于有線數(shù)據(jù)通信網(wǎng)絡(luò)通信的以太網(wǎng)(IEEE 802.3 )、和用于無線數(shù)據(jù)通信網(wǎng)絡(luò)通信的802.11適配器。為了進(jìn)一步說明圖4闡述了在根據(jù)本發(fā)明的實(shí)施例的瘦客戶端架構(gòu)中用 于索引數(shù)字化語音的示例這種的功能塊圖。圖4的示例包括由VOIP連接 (216)通過數(shù)據(jù)通信網(wǎng)絡(luò)(100)連接用于數(shù)據(jù)通信的多模式設(shè)備(152)和 話音服務(wù)器(151 )。多模式數(shù)字音頻編輯器(195)運(yùn)行在多模式設(shè)備(152) 上,話音服務(wù)器應(yīng)用(188)運(yùn)行在話音服務(wù)器(151)上。多模式數(shù)字音頻 編輯器(195)可以是在多模式瀏覽器(196)上、在執(zhí)行在Java虛擬機(jī)上的 Java話音應(yīng)用上、在本領(lǐng)域技術(shù)人員可能知道的其他技術(shù)中實(shí)現(xiàn)的多模式數(shù) 字音頻編輯器上執(zhí)行的X+V或SALT文檔的集合或序列。圖4的示例多模式 設(shè)備還包括聲卡(174 ),其是被特別指定用于從麥克風(fēng)(176 )接受模擬音頻 信號并將該音頻模擬信號轉(zhuǎn)換為數(shù)字形式用于被編解碼器(183 )進(jìn)一步處理的1/0適配器的例子。除了多模式服務(wù)器應(yīng)用(188)以外,話音服務(wù)器(151)還具有安裝在 其上的語音引擎(153)、以及ASR引擎(150)、語法(104)、詞典(106)、 具體語音聲學(xué)模型(108 )和TTS引擎(194 )、以及JVM ( 102 )、和話音XML 翻譯器(192)。 VoiceXML翻譯器(192)翻譯并執(zhí)行從多模式數(shù)字音頻編輯 器接收并通過話音服務(wù)器應(yīng)用(188)被通過到VoiceXML翻譯器(192)的 VoiceXML對話指令。被輸入到VoiceXML翻譯器(192 )的VoiceXML可以 起源于被實(shí)現(xiàn)作為遠(yuǎn)程運(yùn)行在多模式設(shè)備(152)上的X+V客戶端的多模式 數(shù)字音頻編輯器(195 )。如上所述,還可以實(shí)現(xiàn)多模式數(shù)字音頻編輯器(195 ) 作為遠(yuǎn)程運(yùn)行在多媒體設(shè)備(152)上的Java客戶端應(yīng)用、遠(yuǎn)程運(yùn)行在多模 式設(shè)備(152 )上的SALT應(yīng)用,和本領(lǐng)域技術(shù)人員可能知道的其他方式。VOIP代表'英特網(wǎng)協(xié)議上的話音,,即用于在基于IP的數(shù)據(jù)通信網(wǎng)絡(luò)上 路由語音的專業(yè)術(shù)語。語音數(shù)據(jù)流過通用分組交換數(shù)據(jù)通信網(wǎng)絡(luò),而不是傳 統(tǒng)的專用電路交互話音傳輸線路。用于在IP數(shù)據(jù)通信網(wǎng)絡(luò)上承載話音信號的協(xié)議被統(tǒng)稱為'IP上話音,或'VOIP,協(xié)議。VOIP流量可以被部署在IP數(shù) 據(jù)通信網(wǎng)絡(luò)、包括缺乏到達(dá)英特網(wǎng)其余部分的連接的數(shù)據(jù)通信網(wǎng)絡(luò)上、例如在私有廣建局域數(shù)據(jù)通信網(wǎng)絡(luò)或'LAN,上。許多協(xié)議用于實(shí)現(xiàn)VOIP。兩種最流行的VOIP是由IETF的會話開始協(xié) 議('SIP,)和ITU的已知的'H.232'協(xié)議來實(shí)現(xiàn)的。SIP客戶端使用TCP和 UDP端口 5060來連接到SIP服務(wù)器。SIP本身被用于建立和拆除用于語音傳 輸?shù)暮艚?。具有SIP的VOIP則使用RTP來傳輸實(shí)際編碼的語音。類似地, H.323是來自定義協(xié)議以提供在任何分組數(shù)據(jù)通信網(wǎng)絡(luò)上的音頻-視覺通信會 話的國際電信聯(lián)盟的標(biāo)準(zhǔn)分支的傘形推薦(umbrella recommendation )。圖4的裝置以類似于上述圖3的系統(tǒng)的操作的方式而操作。多模式數(shù)字 音頻編輯器(195)是用戶級別的、多模式的、客戶側(cè)計(jì)算機(jī)程序,其向用戶(128)呈現(xiàn)話音接口,提供音頻提示和響應(yīng)(314),并接受用于識別的輸入 語音(315 )。多模式數(shù)字音頻編輯器(195 )提供語音接口 ,通過該語音接口 , 用戶可以通過麥克風(fēng)(176)提供用于識別的口頭語音并可以通過聲卡(174) 音頻;故大器(185)和編碼器/解碼器('編解碼器,)(183),并向ASR引擎(150)提供用于識別的數(shù)字語音。然后,多模式數(shù)字音頻編輯器(195)根 據(jù)VOIP協(xié)議,對識別請求消息中的數(shù)字化語音進(jìn)行分組,并通過網(wǎng)絡(luò)(100) 上的VOIP連接(216)向話音服務(wù)器(151 )傳輸該語音。話音服務(wù)器應(yīng)用(188)通過接受對話指令、VoiceXML段并返回語音識 別結(jié)果來為多模式識別提供話音識別服務(wù),該語音識別結(jié)果包括表示被識別 語音的文本、用作對話中變量值的文本和來自執(zhí)行語義翻譯腳本的輸出以及 話音提示。話音服務(wù)器應(yīng)用(188)包括提供用于話音提示和話音響應(yīng)的文本 到語音('TTS,)轉(zhuǎn)換的計(jì)算機(jī)程序指令,該話音提示和話音響應(yīng)是對于用 戶在諸如X+V應(yīng)用、SALT應(yīng)用或Java語音應(yīng)用之類的多模式數(shù)字音頻編輯 器中的輸入。話音服務(wù)器應(yīng)用(188)從用戶接收應(yīng)用識別的語音,并通過API調(diào)用向 VoiceXML翻譯器(192)傳遞語音,該VoiceXML翻譯器(192)輪流使用 用于語音識別的ASR引擎(150 )。該ASR引擎接收用于識別的數(shù)字化語音, 使用數(shù)字化語音的頻率分量來導(dǎo)出SFV,使用該SFV來從特定語言聲學(xué)模型 (108)推導(dǎo)出用于該詞的音素,并使用該音素在詞典(106)中找到該語音。 然后ASR引擎比較作為在詞典中的詞而被找到的語音與語法(104)中的詞,來確定由ASR引擎識別語音中的詞還是短語。圖4的裝置通常操作通過由多模式數(shù)字音頻編輯器(195 )向ASR引擎(150 )提供用于識別的數(shù)字化語音(510 ),來執(zhí)行根據(jù)本發(fā)明的索引數(shù)字化 語音。多模式數(shù)字音頻編輯器(195 )從ASR引擎(150 )接收包括被識別詞(516)的被識別用戶語音(514)。來自ASR引擎的被識別用戶語音還包括 信息(518),本例中被稱為'索引,,其指示在數(shù)字化語音中何處開始呈現(xiàn)被 識別詞。多模式數(shù)字音頻編輯器(195)向語音識別語法(130)中插入與指 示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息相關(guān)聯(lián)的被識別詞(516 )。 語音識別語法(130)話音使得用戶與多模式數(shù)字音頻編輯器的命令接口。根 據(jù)本發(fā)明的實(shí)施例的典型的數(shù)字音頻編輯器還視覺地顯示具有作為在數(shù)字化 語音中何處開始呈現(xiàn)被識別詞的索引的被識別詞的數(shù)字化語音——如圖9所 示,且參考圖6和7以下更詳細(xì)說明。改進(jìn)本例中的ASR引擎(150),不僅用于從數(shù)字化用戶語音(510)返 回被識別用戶語音(514),還當(dāng)識別數(shù)字化語音中的詞時(shí)、標(biāo)識指示在數(shù)字 化語音中何處開始呈現(xiàn)該詞的信息(518)。由時(shí)域幅度值來標(biāo)識數(shù)字化語音, 該時(shí)域幅度值是由模數(shù)轉(zhuǎn)換器從來自用戶、即來自用戶發(fā)言的模擬語音輸入 進(jìn)行采樣的,且根據(jù)編解碼器而被組織成順序集合成組幀。通過唯一的、基 數(shù)幀(cardinal frame)標(biāo)識號來順序地表征每個(gè)幀,且每個(gè)幀包括相同的時(shí) 域幅度采樣數(shù)。然后,ASR引擎可以將包括詞的數(shù)字化語音(510)轉(zhuǎn)換到以 時(shí)域幅度采樣的幀中的一幀開始的頻域一一并通過用每幀中的幅度采樣號乘 以幀識別號中的一個(gè)來導(dǎo)出指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的索引 值??梢酝ㄟ^快速傅立葉變換('FFT,)來進(jìn)行向頻域的轉(zhuǎn)換。如此導(dǎo)出的 索引值(518)是指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的信息的例子。多模式數(shù)字音頻編輯器(195)操作地耦合于ASR引擎(150)。在本例 中,用VOIP連接(216),通過話音服務(wù)模塊(130),然后通過話音服務(wù)器 應(yīng)用(188)或者取決于是以X+V還是Java還是SALT實(shí)現(xiàn)多模式數(shù)字音頻 編輯器的JVM ( 102 )、 VoiceXML翻譯器(192 )或SALT翻譯器(103 ),來 實(shí)現(xiàn)多模式數(shù)字音頻編輯器和ASR引擎(150)之間的操作的耦合。話音服 務(wù)模塊(130)是功能性的瘦層,即由應(yīng)用級程序在向話音服務(wù)器應(yīng)用(188) 提供對話指令和用于識別的語音時(shí)以及在響應(yīng)中接收話音提示和其他響應(yīng)時(shí) 使用的API (316)的計(jì)算機(jī)程序指令的模塊。在本例中,由多模式數(shù)字音頻編輯器(195)、 JVM ( 101 )和多模式瀏覽器(196)來呈現(xiàn)應(yīng)用級程序。話音服務(wù)模塊(130 )通過多模式識別(152 )和VoiceXML翻譯器(192 ) 之間的VOIP連接和話音服務(wù)器應(yīng)用(188 )來提供數(shù)據(jù)通信服務(wù)。API ( 316 ) 是當(dāng)VoiceXML翻譯器被安裝在肥客戶端架構(gòu)中的多模式設(shè)備上時(shí)由 VoiceXML翻譯器呈現(xiàn)給應(yīng)用的相同API (圖5中的316 )。因此從調(diào)用API(316)的應(yīng)用的角度來看,應(yīng)用正直接調(diào)用VoiceXML翻譯器。話音服務(wù)模 塊(130)的數(shù)據(jù)通信功能對調(diào)用API (316)的應(yīng)用來說是透明的。在應(yīng)用 級,可以從多模式瀏覽器(196)發(fā)出對API (316)的調(diào)用,當(dāng)用X+V實(shí)現(xiàn) 多模式數(shù)字音頻編輯器時(shí),該多模式瀏覽器(196)提供用于多模式數(shù)字音頻 編輯器(195)的執(zhí)行環(huán)境。并且可以從JVM ( 101 )發(fā)出對API (316)的調(diào) 用,當(dāng)用Java實(shí)現(xiàn)多模式數(shù)字音頻編輯器(195 )時(shí),該JVM ( 101 )提供用 于多模式數(shù)字音頻編輯器(195)的執(zhí)行環(huán)境。通常用多模式設(shè)備、即自動(dòng)化計(jì)算機(jī)器或計(jì)算機(jī)實(shí)現(xiàn)肥客戶端架構(gòu)中根 據(jù)本發(fā)明的實(shí)施例的數(shù)字化語音。例如,在圖1的系統(tǒng)中,實(shí)現(xiàn)多模式設(shè)備(152)到至少作為計(jì)算機(jī)的程度。因此,為了進(jìn)一步說明,圖5闡述包括在 根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音時(shí)用作多模式設(shè)備(152)的計(jì)算機(jī)的 例子在內(nèi)的自動(dòng)化計(jì)算機(jī)器的方框圖。在實(shí)現(xiàn)圖5所示的肥客戶端架構(gòu)的多 模式設(shè)備中,多模式設(shè)備(152 )沒有到達(dá)包含VoiceXML翻譯器和語音引擎 在內(nèi)的遠(yuǎn)程話音服務(wù)器的連接。在多模式設(shè)備本身中安裝或嵌入了在根據(jù)本 發(fā)明的實(shí)施例的索引數(shù)字化語音時(shí)用于語音合成和話音識別所需的所有組 件。圖5的示例多模式設(shè)備(152)包括被架構(gòu)且類似于話音服務(wù)器的并行組 件操作的各個(gè)組件,其具有如參考圖3所述的相同的附圖標(biāo)記至少一個(gè)計(jì) 算機(jī)處理器(156 )、前端總線(162 )、 RAM ( 168 )、高速存儲器總線(166 )、 總線適配器(158)、視頻適配器(209)、視頻總線(164)、擴(kuò)展總線(160)、 通信適配器(167)、 1/0適配器(178)、盤驅(qū)動(dòng)適配器(172)、操作系統(tǒng)(154)、 JVM ( 102 )、 VoiceXML翻譯器(192 )、語音引擎(153 )等等。如圖5中的 系統(tǒng)一樣,圖3的多模式設(shè)備中的語音引起包括ASR引擎(150)、語法(104)、 詞典(106 )、特定語言聲學(xué)模型(108 )和TTS引擎(194 )。 VoiceXML翻譯 器(192)通過根據(jù)VoiceXML形式翻譯算法('FIA,)順序處理對話指令來 管理這種對話。在本類實(shí)施例中的語音引擎(153)、肥客戶端架構(gòu)通常被實(shí)現(xiàn)作為在諸如手持設(shè)備、移動(dòng)電話、PDA等等的小型因素設(shè)備中的嵌入式模塊。用于根 據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的嵌入式語音引擎的例子是IBM的嵌入 式ViaVoice 7>司(Embedded ViaVoice Enterprise )。圖5的示例多才莫式設(shè)備還 包括聲卡(174),其是被特別指定用于從麥克風(fēng)(176)接受模擬音頻信號并 將該音頻模擬信號轉(zhuǎn)換成數(shù)字形式用于由編解碼器(183)進(jìn)一步處理的I/O 適配器。聲卡(174)通過擴(kuò)展總線(160)、總線適配器(158)和前端總線(162)來連接到處理器(156)。本例中還被存儲在RAM (168)中的是多模式數(shù)字音頻編輯器(195), 即能夠操作作為支持根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語音的裝置的多模式 設(shè)備的計(jì)算機(jī)程序指令模塊。多模式數(shù)字音頻編輯器(195 )通過從用戶接受 用于識別的語音并通過API調(diào)用向ASR引擎(150)發(fā)送用于識別的語音, 來實(shí)現(xiàn)語音識別。多模式數(shù)字音頻編輯器(195 )通常通過向TTS引擎(194 ) 發(fā)送將要用作對用戶的提示的詞來實(shí)現(xiàn)語音合成。作為肥客戶端架構(gòu)的例子, 本例中的多模式數(shù)字音頻編輯器(195)不通過網(wǎng)絡(luò)向用于識別的話音服務(wù)器 發(fā)送用于識別的語音,且本例中的多模式數(shù)字音頻編輯器(195)不通過網(wǎng)絡(luò) 從話音服務(wù)器接收合成的語音、TTS提示和響應(yīng)。在多模式設(shè)備(152)本身 中以嵌入式的方式進(jìn)行本例中的所有語法處理、話音識別和文本到語音轉(zhuǎn)換。 更具體地,本例中的多模式數(shù)字音頻編輯器(195 )是提供語音接口的用 戶級的、多模式的、客戶端側(cè)的計(jì)算機(jī)程序,通過該語音接口,用戶可以通 過麥克風(fēng)(176)提供用于識別的口頭語音,通過聲卡(174)的音頻放大器(185)和編碼器/解碼器('編解碼器,)(183)來數(shù)字化該語音,并向ASR 引擎(150)提供用于識別的數(shù)字化語音??梢詫?shí)現(xiàn)多模式數(shù)字音頻編輯器(195)作為在多模式瀏覽器(196)或微瀏覽器中執(zhí)行的X+V文檔的集合或語法和數(shù)字化語音直接傳遞給嵌入式VoiceXML翻譯器(192)用于處理。嵌 入式VoiceXML翻譯器(192 )可以依次通過API調(diào)用直接向嵌入式ASR引 擎(150)發(fā)出用于語音識別的請求。多模式數(shù)字音頻編輯器(195)還可以 通過API調(diào)用向嵌入式TTS引擎(194 )提供語音合成、TTS轉(zhuǎn)換用于對用戶專lr入的話音^是示和話音響應(yīng)。在另外一類示范實(shí)施例中,可以實(shí)現(xiàn)多模式數(shù)字音頻編輯器(195)作為在Java虛擬機(jī)(102)上執(zhí)行,并通過用于語音識別和語音合成服務(wù)的 VoiceXML API (316)發(fā)出調(diào)用的Java話音應(yīng)用。在另一示范實(shí)施例中,可 以實(shí)現(xiàn)多模式數(shù)字音頻編輯器(195)作為在多模式瀏覽器(196)或微瀏覽 器上執(zhí)行的SALT文檔的集合或序列,該多模式瀏覽器(196)或微瀏覽器通 過用于語音識別和語音合成服務(wù)的VoiceXML API( 316 )發(fā)出調(diào)用。除了 X+V、 SALT和Java實(shí)現(xiàn)以外,可以用本領(lǐng)域技術(shù)人員將知道的其他技術(shù)來實(shí)現(xiàn)多 模式數(shù)字音頻編輯器(195 )。圖4的多模式設(shè)備通常操作以通過由多模式數(shù)字音頻編輯器(195)向 ASR引擎(150 )提供用于識別的數(shù)字化語音(510 )來執(zhí)行根據(jù)本發(fā)明的實(shí) 施例的索引數(shù)字化語音。多模式數(shù)字音頻編輯器(195)從ASR引擎(150) 接收包括被識別詞(516)的被識別用戶語音(514)。來自ASR引擎的被識 別用戶語音還包括本例中被稱為'索引,的信息(518),其指示在數(shù)字化語 音中何處開始呈現(xiàn)被識別詞。多模式數(shù)字音頻編輯器(195)向語音識別語法 (130)中插入與指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息相關(guān)聯(lián)的 被識別詞(516)。語音識別語法(130)話音使能多模式數(shù)字音頻編輯器的用 戶接口命令。根據(jù)本發(fā)明的典型的數(shù)字音頻編輯器還視覺地顯示具有作為在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的索引的被識別詞的^t字化語音——如 圖9所示,并參考圖6和7更詳細(xì)說明的。本例中的ASR引擎(150)被改進(jìn)不僅用于從數(shù)字化用戶語音(510)返 回被識別的用戶語音(514),但當(dāng)識別數(shù)字化語音中的詞時(shí),還標(biāo)識指示在 數(shù)字化語音中何處開始呈現(xiàn)該詞的信息(518)。通過由模數(shù)轉(zhuǎn)換器從來自用 戶、即來自用戶發(fā)言的模擬語音輸入中采樣的時(shí)域幅度值來呈現(xiàn)數(shù)字化語音, 并根據(jù)編解碼器將其組織到順序集合成組幀中。通過唯一的、基數(shù)幀標(biāo)識號 來順序表征每個(gè)幀,且每個(gè)幀包含相同的時(shí)域幅度采樣數(shù)。然后ASR引擎可 以將包含詞的數(shù)字化語音(510)轉(zhuǎn)換到以時(shí)域幅度采樣的幀中的一幀開始的 頻域一一并通過用每幀中的幅度采樣號乘以幀識別號中的一個(gè)來導(dǎo)出指示在 數(shù)字化語音中何處開始呈現(xiàn)該詞的索引值??梢酝ㄟ^快速傅立葉變換 ('FFT,)來進(jìn)行向頻域的轉(zhuǎn)換。如此導(dǎo)出的索引值(518)是指示在數(shù)字化 語音中何處開始呈現(xiàn)該詞的信息的例子。多模式數(shù)字音頻編輯器(195)操作地耦合于ASR引擎(150)。在本例 中,用取決于是以X+V還是Java還是SALT實(shí)現(xiàn)多模式數(shù)字音頻編輯器的JVM ( 102 )、 VoiceXML翻譯器(192 )或SALT翻譯器(103 ),來實(shí)現(xiàn)多模 式數(shù)字音頻編輯器和ASR引擎(150 )之間的操作的耦合。當(dāng)以X+V實(shí)現(xiàn)多 模式數(shù)字音頻編輯器(195 )時(shí),通過多模式瀏覽器(196 )、然后通過VoiceXML 翻譯器來實(shí)現(xiàn)操作的耦合,該多模式瀏覽器(196)提供用于X+V應(yīng)用的操 作環(huán)境和翻譯器,且VoiceXML翻譯器將語法和用于識別的話音發(fā)言傳遞給 ASR引擎。當(dāng)以Java語音實(shí)現(xiàn)多模式數(shù)字音頻編輯器(195)時(shí),通過JVM (102 )來實(shí)現(xiàn)操作的耦合,該JVM ( 102 )提供用于Java應(yīng)用的操作環(huán)境并 向ASR引擎?zhèn)鬟f語法和用于識別的話音發(fā)言。當(dāng)以SALT實(shí)現(xiàn)多模式數(shù)字音 頻編輯器(195)時(shí),通過SALT翻譯器(103)實(shí)現(xiàn)操作的耦合,該SALT 翻譯器(103 )提供用于X+V應(yīng)用的操作環(huán)境和翻譯器并向ASR引擎?zhèn)鬟f語 法和用于識別的話音發(fā)言。運(yùn)行在多模式設(shè)備(152)上的本例中的多模式數(shù)字音頻編輯器(195) 是所謂'肥客戶端架構(gòu),的例子,其中,該多模式設(shè)備(152)包含其自身 VoiceXML翻譯器(192 )和其自身語音引擎(153 )而沒有到達(dá)包含遠(yuǎn)程 VoiceXML翻譯器或遠(yuǎn)程語音引起的遠(yuǎn)程話音服務(wù)器的網(wǎng)絡(luò)或VOIP連接,所 謂'肥客戶端架構(gòu),是因?yàn)橛糜谔幚碛脩艉投嗄J綌?shù)字編輯器之間的話音模 式交互的所有功能性一 一 以及用于用在根據(jù)本發(fā)明的實(shí)施例的數(shù)字化語音中 呈現(xiàn)的詞來索引數(shù)字化語音的所有功能性一 一都是在多模式設(shè)備本身上實(shí)現(xiàn) 的。為了進(jìn)一步說明,圖6闡述了圖示根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字化語 音的示例方法的流程圖。用多模式數(shù)字音頻編輯器(195)來實(shí)現(xiàn)本例中的索 引數(shù)字化語音。多模式數(shù)字音頻編輯器(195)在多模式設(shè)備(圖l上的152) 上操作,該多模式設(shè)備(152)支持與多模式數(shù)字音頻編輯器的多種用戶交互 模式,包括與多模式數(shù)字音頻編輯器的用戶交互的話音模式和一種或多種非 話音模式。在本例中,用通過擴(kuò)音器(177)的音頻輸出和通過麥克風(fēng)(176) 的音頻輸入來呈現(xiàn)這種交互的話音模式。通過用戶輸入設(shè)備(180、 181),經(jīng) 由視覺顯示設(shè)備、鍵盤和鼠標(biāo)來呈現(xiàn)非話音模式。多模式數(shù)字音頻編輯器操作地耦合(524)于ASR引擎(150 )。操作的耦合 (524 )向提供從多模式數(shù)字音頻編輯器(195 )到ASR引擎的數(shù)據(jù)通信路徑 (504 )用于語音識別語法。操作的耦合(524)提供從ASR引擎(150)到 多模式數(shù)字音頻編輯器(195)的數(shù)據(jù)通信路徑(506)用于被識別語音和語義翻譯結(jié)果。當(dāng)在肥客戶端架構(gòu)中實(shí)現(xiàn)多^^式數(shù)字音頻編輯器時(shí),可以用JVM(圖5上的102 )、 VoiceXML翻譯器(圖5上的192 )或SALT翻譯器(圖3 上的103)來實(shí)現(xiàn)搡作的耦合。當(dāng)在瘦客戶端架構(gòu)中實(shí)現(xiàn)多模式數(shù)字音頻編 輯器時(shí),操作的耦合可以包括話音服務(wù)模塊(圖4上的130 )和VOIP連接(圖 4上的216)。當(dāng)以X+V實(shí)現(xiàn)多模式數(shù)字音頻編輯器時(shí),操作的耦合可以包括 VoiceXML翻譯器(圖4上的192 )。當(dāng)以Java語音框架實(shí)現(xiàn)多模式數(shù)字音頻 編輯器時(shí),才喿作的耦合可以包括Java語音API和JVM (圖4上的101 、 102 )。 當(dāng)以SALT實(shí)現(xiàn)多模式數(shù)字音頻編輯器時(shí),操作的耦合可以包括SALT翻譯 器(圖4上的103)。圖6的方法包括由多模式數(shù)字音頻編輯器(195)向ASR引擎(150)提 供用于識別的數(shù)字化語音(510)。例如,數(shù)字化語音可以是由用戶通過聲卡 上的模數(shù)轉(zhuǎn)換器和編解碼器而當(dāng)前輸入的流或先前記錄的數(shù)字音頻剪輯。多 模式數(shù)字音頻編輯器(195 )還向ASR引擎(150 )提供語音識別語法(104 ), 其向ASR引擎標(biāo)識在當(dāng)前合格用于識別的數(shù)字化語音中的詞。在圖6的方法中,ASR引擎識別(512)在數(shù)字化語音中的詞(516),且 ASR引擎還標(biāo)識指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的信息。如下更詳細(xì) 地說明的,ASR引擎可以使用每幀中的幀號和幅度采樣號,來計(jì)算指示在數(shù) 字化語音中何處開始呈現(xiàn)該詞的索引。因此,可以實(shí)現(xiàn)這種索引作為在數(shù)字 化語音中何處開始呈現(xiàn)被識別詞的在該數(shù)字化語音中的具體數(shù)字幅度采樣的 實(shí)際序列號,例如167243、 298374或314325。 ASR引擎向多模式數(shù)字音頻 編輯器(195)返回^皮識別的用戶語音(514),包括:帔識別詞(516)和作為 指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的信息的索引值(518)。多模式數(shù)字 音頻編輯器(195 )從ASR引擎(150 )接收被識別用戶語音(514 ),包括被 識別詞(516),還包括指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息(518)。圖6的方法還包括由多模式數(shù)字音頻編輯器向語音識別語法(130)中插 入(522)與指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息(518)相關(guān) 聯(lián)的被識別詞(516),該語音識別語法話音使能多模式數(shù)字音頻編輯器的用 戶接口命令(528 )。話音使能的用戶接口命令可以包括,例如,播放、暫停、 停止、倒帶,縮放等等。在圖6的方法中,將該詞插入(522)語音識別語法 中包括將作為在語音識別語法中的不可選終端元素的^皮識別詞與呈現(xiàn)^:字化音頻編輯器的用戶接口命令的詞相關(guān)聯(lián)(526)。此處是具有與呈現(xiàn)多模式數(shù)字音頻編輯器的用戶接口命令的詞相關(guān)聯(lián)的不可選終端元素的語音識別語法的例子instruction = $command $word [to] [$word] command = play [from] | show | zoom | ... word = car {$.index= 167243} | bomb {$.index=298374} | airplane {$.index=314325} | ...在該示例語法中,詞"汽車"、"炸彈"和"飛機(jī)"是由ASR引擎識別并 由多模式數(shù)字音頻編輯器插入語音識別語法中的詞,作為與呈現(xiàn)多模式數(shù)字 音頻編輯器的用戶接口命令的下列詞"播放"和"示出"相關(guān)聯(lián)的不可選終 端語法元素。另外,在本例中,多^f莫式數(shù)字音頻編輯器已經(jīng)插入了指示在數(shù) 字化語音中何處分別開始每個(gè)被識別詞的呈現(xiàn)的信息,作為不可選終端語法 元素的部分,在本例中,如數(shù)字采樣序列號167243、 298374和314325。本 例中的這些序列號或索引與在語義翻譯腳本中的被識別詞"汽車"、"炸彈" 和"飛機(jī)"相關(guān)聯(lián),以便,當(dāng)隨后識別詞"汽車"、"炸彈"和"飛機(jī)"作為 用戶接口命令的部分時(shí),由ASR引擎返回語義翻譯腳本的值、即數(shù)字化語音 中何處開始該詞的呈現(xiàn)的索引,作為識別結(jié)果的部分一一建議多模式數(shù)字音 頻編輯器如何關(guān)聯(lián)被識別詞與在數(shù)字化語音的回放、編輯或顯示中的具體位 置。圖6的方法還包括視覺地顯示(524)具有作為指示在數(shù)字化語音中何處 開始呈現(xiàn)被識別詞的索引的被識別詞的數(shù)字化語音。下面參考圖9說明數(shù)字 化語音的^^覺顯示。為了進(jìn)一步說明,圖7闡述圖示根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字語音的 另一示范方法的流程圖。圖7的方法類似于圖6的方法,包括提供(508 )用 于識別的數(shù)字化語音,接收(520)包括被識別詞和指示在數(shù)字化語音中可出 開始被識別詞的呈現(xiàn)的信息的被識別用戶語音,和向語音識別語法中插入 (522 )具有指示何處開始被識別詞的呈現(xiàn)的信息的被識別詞,其中語音識別 語法其話音使能用戶接口命令,所有用戶接口命令都以類似于參考圖6的方 法上述的方式而運(yùn)作。然而,在圖7的方法中,標(biāo)識(512)指示在數(shù)字化語 音中何處開始呈現(xiàn)該詞的信息包括將該數(shù)字化語音組織(702)到幀中成組的 時(shí)域幅度采樣的序列集合,其中由唯一且基數(shù)的幀標(biāo)識號順序表征每巾貞,每幀包括響應(yīng)的時(shí)域幅度采樣數(shù)。為了說明方便而示出出現(xiàn)在ASR引擎中的組織(702)步驟。但是,讀者將認(rèn)識到,還這種組織可以作為在聲卡上的編解 碼器功能的部分進(jìn)行,也可以以本領(lǐng)域技術(shù)人員可能知道的其他方式進(jìn)行。而且,在圖7的方法中,標(biāo)識(512)指示在數(shù)字化語音中何處開始呈現(xiàn) 該詞的信息包括將包括該詞的數(shù)字化語音轉(zhuǎn)換(704 )到以時(shí)域幅度采樣的幀 中的一幀開始的頻域。還在圖7的方法中,標(biāo)識(512)指示在數(shù)字化語音中 何處開始呈現(xiàn)該詞的信息還包括,通過用每幀中的幅度采樣數(shù)乘以幀標(biāo)識號 之一來導(dǎo)出指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的索引值。該數(shù)字化語音 是由時(shí)域數(shù)字幅度采樣組成。例如,ASR引擎可以通過對由幀號標(biāo)識的幀中 的各個(gè)幅度的集合進(jìn)行快速傅立葉變化('FFT')將時(shí)域數(shù)字幅度采樣轉(zhuǎn)換 到頻域,其中幀號是唯一地標(biāo)識每幀的基數(shù)。幀號是時(shí)域?qū)嶓w,因此通過用 每幀中的幅度采樣數(shù)乘以幀號來指定在被識別詞的數(shù)字化語音中的位置作為 基數(shù)采樣號。由于其作為位置、即在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的 位置的指示器的功能,在本說明書中有時(shí)將這種基數(shù)采樣號稱為"索引"或 "索引值"。為了進(jìn)一步說明,圖8闡述圖示根據(jù)本發(fā)明的實(shí)施例的索引數(shù)字語音的 另一示范方法的流程圖。提供(508 )用于識別的數(shù)字化語音,接收(520) 包括被識別詞和指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息的被識別 用戶語音,和向其話音使能用戶接口命令的語音識別語法中插入(522)具有 指示何處開始被識別詞的呈現(xiàn)的信息的被識別詞,所有這些以類似于上述參 考圖6的方法類似的方式運(yùn)作。但是,在圖8的方法中,使能(522)多模式數(shù)字音頻編輯器的用戶接口命令的語音識別語法話音包括由多模式數(shù)字音頻 編輯器向作為不可選終端語法元素的部分的語法插入指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息。此處是具有包含指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息在內(nèi)的不可選終端元素的語音識別語法的例子 instruction = $command $word [to] [$word] command = play [from] | show | zoom | ...word = car {$.index=167243} | bomb {$.index=298374} | airplane {$.index=314325} | ...在本示例語法中,詞"汽車"、"炸彈"和"飛機(jī),,是由ASR引擎識別且 由多模式數(shù)字音頻編輯器插入語音識別語法中的詞,作為與呈現(xiàn)多模式數(shù)字音頻編輯器的用戶接口命令的下列詞"播放"和"示出"相關(guān)聯(lián)的不可選終 端語法元素。另外,在本例中,多模式數(shù)字音頻編輯器已經(jīng)插入了指示在數(shù) 字化語音中何處分別開始每個(gè)被識別詞的呈現(xiàn)的信息,作為不可選終端語法元素的部分,在本例中,如數(shù)字采樣序列號167243、 298374和314325。本 例中的這些序列號或索引與語義翻譯腳本中的被識別詞"汽車"、"炸彈"和 "飛機(jī)"相關(guān)聯(lián),以便當(dāng)隨后識別詞"汽車"、"炸彈"和"飛機(jī)"作為用戶 接口命令的部分時(shí),由ASR引擎返回語義翻i斧腳本的值,即指示在數(shù)字化語 音中何處開始呈現(xiàn)該詞的索引,作為識別結(jié)果的部分一一建議多模式數(shù)字音 頻編輯器如何管理被識別詞與在數(shù)字化語音的回放、編輯或顯示中的具體位置。如果沒有在語法中的索引,多模式數(shù)字音頻編輯器將需要使用被識別詞 來查找表或其他數(shù)據(jù)結(jié)構(gòu)中的索引,這是比包括語法中的和識別結(jié)果中的索 引費(fèi)力得多的過程。為了進(jìn)一步說明,圖9闡述了根據(jù)本發(fā)明的實(shí)施例的用數(shù)字化語音中呈 現(xiàn)的詞索引數(shù)字化語音的多模式數(shù)字音頻編輯器的示范圖形用戶界面('GUI')顯示的圖。在圖9的例子中,多模式數(shù)字音頻編輯器已經(jīng)向ASR 引擎提供了用于識別的數(shù)字化語音、記錄的MP3剪輯,例如以及使能識別詞"飛機(jī)"、"炸彈"、"汽車"、"地鐵"、"爆炸"和"襲擊,,的語音識別語法。ASR引擎識別了詞"炸彈"、"飛機(jī)"和"地鐵",并向多模式數(shù)字音頻編輯器返回包括了被識別詞以及指示在數(shù)字化語音中何處開始每個(gè)被識別詞的呈現(xiàn)的信息在內(nèi)的識別結(jié)果。該數(shù)字化語音包括被組織在順序編號的幀中的數(shù)字幅度采樣值。通過由ASR引擎用在數(shù)字化語音中發(fā)現(xiàn)了該詞的幀的幀號和每幀的采樣數(shù)而計(jì)算的順序的、時(shí)域數(shù)字幅度采樣號('索引值,),來呈現(xiàn)在數(shù)字化語音中何處開始每個(gè)^^皮識別詞的呈現(xiàn)的信息。已經(jīng)接收到被識別詞和其索引值的多模式數(shù)字音頻編輯器將與其索引值相關(guān)聯(lián)的每個(gè)被識別詞插入其話音使能多模式數(shù)字音頻編輯器的用戶接口命令的語音識別語法,諸如,該示例語法 instruction = $command $word [to] [$word] command = play [from] | show 1 zoom | ...word = bomb {$.index=167243} | airplane {$.index=298374} | subway {$.index=314325}...該示例語法使得多模式數(shù)字音頻編輯器能夠接受并進(jìn)行如下的話音命令,例^口"Zoom in on bomb,""Show airplane," and"Play from bomb to subway."("放大炸彈","示出飛機(jī),,,以及 "從炸彈播放到地鐵"。)除了話音控制以外,圖9的示例GUI還包括通過^;盤、鼠標(biāo)或其他用戶接口工具的操縱的視覺控制。這種視覺控制包括諸如倒帶、播放、暫停、停止、快進(jìn)等等之類的用戶接口命令的GUI回放控制(712),以及用于數(shù)字化 語音顯示的^f見覺控制(720、 732)。圖9的示例GUI顯示還包括具有作為在數(shù)字化語音中何處開始每個(gè)被識 別詞的呈現(xiàn)的索引的被識別詞的數(shù)字化語音的兩個(gè)視覺顯示(738、 740):波 形顯示(738 )和光譜顯示(740)。波形顯示(738 )的水平軸表示時(shí)間,垂 直軸表示波形幅度。在波形顯示(738 )上一見覺地顯示(724、 726、 728 )詞"炸彈"、"飛機(jī),,和"地鐵",作為在數(shù)字化語音中何處開始每個(gè)被識別詞的 呈現(xiàn)的索引,"炸彈"的左邊緣(724)對準(zhǔn)具有采樣號167243 (714)的索 引、"飛機(jī),,的左邊緣(726)對準(zhǔn)具有采樣號298374 (716)的索引,且"地 鐵"的左邊緣(724)對準(zhǔn)具有采樣號314325 ( 718 )的索引。光i普顯示(740)的水平軸表示時(shí)間,垂直軸表示頻率。例如,在光譜顯 示上用顏色或用灰度級的強(qiáng)度來指示幅度或聲音強(qiáng)度。在光i普顯示(740)上 視覺地顯示(750、 752、 754)詞"炸彈"、"飛機(jī)"和"地鐵"作為在數(shù)字化 語音中開始每個(gè)被識別詞的呈現(xiàn)的索引,"炸彈"的左邊緣(750 )對準(zhǔn)具有 采樣號167243(756)的索引,"飛機(jī)"的左邊緣(752 )對準(zhǔn)具有采樣號298374(758 )的索引,且"地鐵"的左邊緣(754)對準(zhǔn)具有采樣號314325 (760) 的索引??紤]上述說明,讀者現(xiàn)在將認(rèn)識到根據(jù)本發(fā)明的實(shí)施例的用在數(shù)字化語音中呈現(xiàn)的詞來索引數(shù)字化語音的益處包括當(dāng)分析人員有興趣于在音頻數(shù)據(jù) 中具體詞的位置時(shí)大大地筒化了用數(shù)字音頻編輯器分析人類語音的處理。在本領(lǐng)域技術(shù)人員將知道的其他益處中,典型的多模式數(shù)字音頻編輯器有效地 組合被識別文本與音頻數(shù)據(jù),以便音頻編輯器能夠用^皮識別詞來注釋音頻數(shù)據(jù)的圖形顯示并用話音命令使能顯示的操作。在用于用在數(shù)字化語音中呈現(xiàn)的詞索引數(shù)字化語音的全功能計(jì)算機(jī)系統(tǒng) 的上下文中大量地描述了本發(fā)明的實(shí)施例。但是,本領(lǐng)域技術(shù)人員將認(rèn)識到 還可以在被安置在用于使用的計(jì)算機(jī)可讀信號承載介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品 中用任何何時(shí)的數(shù)據(jù)處理系統(tǒng)來實(shí)施本發(fā)明。這種信號承載介質(zhì)可以是機(jī)器 可讀信息的傳輸介質(zhì)或可記錄介質(zhì),包括石茲介質(zhì)、光介質(zhì)或其他何時(shí)的介質(zhì)。 可讀介質(zhì)的例子包括在硬盤驅(qū)動(dòng)器中的磁盤或磁帶、光驅(qū)動(dòng)器的緊致盤、磁 帶和本領(lǐng)域技術(shù)人員將知道的其他。傳輸介質(zhì)的例子包括用于話音通信的電話網(wǎng)絡(luò)和數(shù)字?jǐn)?shù)據(jù)通信網(wǎng)絡(luò),諸如,Ethernets 和與英特網(wǎng)協(xié)議和萬維網(wǎng)通 信的網(wǎng)絡(luò)。本領(lǐng)域技術(shù)人員將立即認(rèn)識到,具有何時(shí)的編程部件的任何計(jì)算 機(jī)系統(tǒng)都將能夠執(zhí)行在程序產(chǎn)品中實(shí)施的本發(fā)明的方法的步驟。本領(lǐng)域技術(shù) 人員將立即認(rèn)識到,雖然在本說明書中描述的一些示范實(shí)施例是面向在計(jì)算 機(jī)硬件上安置并執(zhí)行的軟件的,但是,在本發(fā)明的范圍內(nèi)實(shí)施作為固件或作 為硬件的替換實(shí)施例也是可行的。從前述描述中將理解,可以在不脫離本發(fā)明的真實(shí)精神的情況下,在本 發(fā)明的各種實(shí)施例中進(jìn)行修改和改變。在本說明書中的描述是僅用于圖示作 用,且不構(gòu)成限制含義。本發(fā)明的范圍僅由所附權(quán)利要求的語言來限制。
權(quán)利要求
1.一種用數(shù)字化語音中呈現(xiàn)的詞索引所述數(shù)字化語音的方法,所述方法用在多模式設(shè)備上操作的多模式數(shù)字音頻編輯器實(shí)現(xiàn),所述多模式數(shù)字音頻編輯器支持與所述多模式數(shù)字音頻編輯器的用戶交互的多種模式,所述用戶交互的多種模式包括話音模式和一種或多種非話音模式,所述多模式數(shù)字音頻編輯器操作地耦合于ASR引擎,所述方法包括由所述多模式數(shù)字音頻編輯器向ASR引擎提供用于識別的數(shù)字化語音;在所述多模式數(shù)字音頻編輯器中從所述ASR引擎接收被識別的用戶語音,所述被識別的用戶語音包括被識別詞,還包括指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息;以及由所述多模式數(shù)字音頻編輯器將與指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的所述信息相關(guān)聯(lián)的被識別詞插入語音識別語法中,所述語音識別語法話音使能與所述多模式數(shù)字音頻編輯器的用戶接口命令。
2. 如權(quán)利要求l所述的方法,進(jìn)一步包括:枧覺地顯示具有作為在所述數(shù) 字化語音中何處開始呈現(xiàn)被識別詞的被識別詞的索引的所述數(shù)字化語音。
3. 如權(quán)利要求1所述的方法,進(jìn)一步包括由所述ASR引擎識別在所述 數(shù)字化語音中的詞,包括標(biāo)識指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的信息。
4. 如權(quán)利要求3所述的方法,其中,標(biāo)識指示在數(shù)字化語音中何處開始 呈現(xiàn)該詞的信息進(jìn)一步包括將所述數(shù)字化語音組織到在幀中成組的時(shí)域幅度采樣的順序集合,由唯 一且基數(shù)的幀標(biāo)識號來順序表征每幀,每幀包括相同的時(shí)域幅度采樣數(shù);將包含該詞的所述數(shù)字化語音轉(zhuǎn)換到以時(shí)域幅度采樣的幀中的一幀開始 的頻;或;以及通過用每幀中的幅度采樣數(shù)乘以幀標(biāo)識號之一來導(dǎo)出指示在數(shù)字化語音 中何處開始呈現(xiàn)該詞的索引值。
5. 如權(quán)利要求1所述的方法,其中,將該詞插入語音識別語法中還包括 將作為在所述語音識別語法中的不可選終端元素的^L識別詞與呈現(xiàn)所述數(shù)字 音頻編輯器的用戶接口命令的詞相關(guān)聯(lián)。
6. 如權(quán)利要求l所述的方法,其中,所述語音識別語法話音使能所述多 模式數(shù)字音頻編輯器的用戶接口命令還包括由所述多模式數(shù)字音頻編輯器向所述語法插入指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息,作 為不可選終端語法元素的部分。
7. —種用在數(shù)字化語音中呈現(xiàn)的詞來索引所述數(shù)字化語音的裝置,所述 方法用在多模式設(shè)備上操作的多模式數(shù)字音頻編輯器實(shí)現(xiàn),所述多模式數(shù)字 音頻編輯器支持與所述多模式數(shù)字音頻編輯器的用戶交互的多種模式,所述 用戶交互的多種模式包括話音模式和一種或多種非話音模式,所述多模式數(shù)字音頻編輯器操作地耦合于ASR引擎,所述裝置包括計(jì)算機(jī)處理器和操作地耦合于所述計(jì)算機(jī)處理器的計(jì)算機(jī)存儲器,所述計(jì)算機(jī)存儲器具有安置在其中的計(jì)算機(jī)程序指令,該計(jì)算機(jī)程序指令能夠從所述多模式數(shù)字音頻編輯器向ASR引擎提供用于識別的數(shù)字化語音; 在所述多模式數(shù)字音頻編輯器中從所述ASR引擎接收被識別的用戶語音,所述被識別的用戶語音包括被識別詞,還包括指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息;以及由所述多模式數(shù)字音頻編輯器將與指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的所述信息相關(guān)聯(lián)的被識別詞插入語音識別語法中,所述語音識別語法話音使能與所述多模式數(shù)字音頻編輯器的用戶接口命令。
8. 如權(quán)利要求7所述的裝置,還包括能夠視覺地顯示具有作為在所述數(shù) 字化語音中何處開始呈現(xiàn)被識別詞的索引的被識別詞的所述數(shù)字化語音的計(jì) 算機(jī)程序指令。
9. 如權(quán)利要求7所述的裝置,還包括能夠由所述ASR引擎識別在所述 數(shù)字化語音中的詞,包括標(biāo)識指示在數(shù)字化語音中何處開始呈現(xiàn)該詞的信息 的計(jì)算機(jī)程序指令。
10. 如權(quán)利要求9所述的裝置,其中,標(biāo)識指示在數(shù)字化語音中何處開 始呈現(xiàn)該詞的信息進(jìn)一步包括將所述數(shù)字化語音組織到在幀中成組的時(shí)域幅度采樣的順序集合,由唯 一且基數(shù)的幀標(biāo)識號來順序表征每幀,每幀包括相同的時(shí)域幅度采樣數(shù);將包含該詞的所述數(shù)字化語音轉(zhuǎn)換到以時(shí)域幅度采樣的幀中的 一幀開始 的頻j或;以及通過用每幀中的幅度采樣數(shù)乘以幀標(biāo)識號之一來導(dǎo)出指示在數(shù)字化語音 中何處開始呈現(xiàn)該詞的索引值。
11. 如權(quán)利要求7所述的裝置,其中,將該詞插入語音識別語法中還包括將作為在所述語音識別語法中的不可選終端元素的^f皮識別詞與呈現(xiàn)所述數(shù)字音頻編輯器的用戶接口命令的詞相關(guān)聯(lián)。
12.如權(quán)利要求7所述的裝置,其中,所述語音識別語法話音使能所述 多模式數(shù)字音頻編輯器的用戶接口命令還包括由所述多模式數(shù)字音頻編輯 器向所述語法插入指示在所述數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息, 作為不可選終端語法元素的部分。
全文摘要
用數(shù)字化語音中呈現(xiàn)的詞索引數(shù)字化語音的方法,用在支持用戶交互的模式的多模式設(shè)備上操作的多模式數(shù)字音頻編輯器實(shí)現(xiàn),該用戶交互的模式包括話音模式和一種或多種非話音模式,該多模式數(shù)字音頻編輯器操作地耦合于ASR引擎,包括由多模式數(shù)字音頻編輯器向ASR引擎提供用于識別的數(shù)字化語音;在多模式數(shù)字音頻編輯器中從ASR引擎接收被識別的用戶語音,該被識別的用戶語音包括被識別詞,還包括指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息;以及由多模式數(shù)字音頻編輯器將與指示在數(shù)字化語音中何處開始呈現(xiàn)被識別詞的信息相關(guān)聯(lián)的被識別詞插入語音識別語法中,該語音識別語法話音使能與所述多模式數(shù)字音頻編輯器的用戶接口命令。
文檔編號G10L15/22GK101271689SQ20081008300
公開日2008年9月24日 申請日期2008年3月17日 優(yōu)先權(quán)日2007年3月20日
發(fā)明者小查爾斯·W·克羅斯, 弗蘭克·L·賈尼亞 申請人:國際商業(yè)機(jī)器公司