一種在聲音信道上進(jìn)行語音識別的方法和裝置的制作方法

文檔序號：2835600閱讀：263來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：一種在聲音信道上進(jìn)行語音識別的方法和裝置的制作方法
背景技術(shù)：
語音識別技術(shù)對訪問自動系統(tǒng)正變得越來越普及。例如，語音識別可用來遠(yuǎn)程操縱自動聲音應(yīng)答系統(tǒng)、訪問允許聲音的因特網(wǎng)門戶、控制家庭自動化系統(tǒng)等等。但是，許多聲音信道可能并未設(shè)計(jì)成可以適應(yīng)語音識別技術(shù)中的改進(jìn)。對于無線通信技術(shù)尤其是這樣。所以，有在聲音信道上改進(jìn)語音識別的需要，例如在移動或蜂窩式通信系統(tǒng)中所發(fā)現(xiàn)的。

在本發(fā)明的權(quán)利要求部分中具體地指出和清楚地要求了被認(rèn)為是本發(fā)明實(shí)施例的主題。但是，關(guān)于構(gòu)成和操作方法兩者的本發(fā)明的實(shí)施例，與其目標(biāo)、特征和優(yōu)點(diǎn)一同，當(dāng)與附圖一起閱讀時，可以通過參考下面詳細(xì)的描述被最好地理解，其中圖1是適于實(shí)現(xiàn)本發(fā)明的一個實(shí)施例的系統(tǒng)；圖2是根據(jù)本發(fā)明一個實(shí)施例的源節(jié)點(diǎn)的方框圖；圖3是根據(jù)本發(fā)明一個實(shí)施例的語音識別編碼器的方框圖；圖4是根據(jù)本發(fā)明一個實(shí)施例的目的地節(jié)點(diǎn)的方框圖；圖5是根據(jù)本發(fā)明一個實(shí)施例的語音識別解碼器的方框圖；圖6是由根據(jù)本發(fā)明一個實(shí)施例的語音識別系統(tǒng)執(zhí)行的編程邏輯的第一方框流程圖；圖7是由根據(jù)本發(fā)明一個實(shí)施例的語音識別系統(tǒng)執(zhí)行的編程邏輯的第二方框流程圖；圖8是根據(jù)本發(fā)明一個實(shí)施例的取代(subrogation)覆蓋的例子。
具體實(shí)施例方式
本發(fā)明的實(shí)施例可指通過聲音編碼/解碼器(“聲碼器(vocoder)”)取代而完成的分布式語音識別。聲碼器取代可指用更低帶寬替代來替換傳統(tǒng)的聲音壓縮方案，此替代是被設(shè)計(jì)來提高語音識別性能的。這里使用的術(shù)語“替換”可指將一組信息的全部或一部分替換為另一組信息。本發(fā)明的一個實(shí)施例描述了建立協(xié)議的一種方法，用于當(dāng)適于提供語音識別信息時切換到較低帶寬方案，例如響應(yīng)于來自自動系統(tǒng)的提示的聲音命令。更具體而言，本發(fā)明的一個實(shí)施例編碼來自一個端點(diǎn)的語音特征，并將該語音特征覆蓋到代表所編碼語音的聲碼器比特流上。隨后另一個端點(diǎn)可接收并解碼該語音特征以用于語音識別模塊或設(shè)備。
本發(fā)明的一個實(shí)施例可包括一種方法和裝置，用于在一個聲音信道上進(jìn)行語音識別，例如是移動或蜂窩式通信系統(tǒng)的一部分的聲音信道。本發(fā)明的一個實(shí)施例可包括語音識別編碼器和語音識別解碼器。語音識別編碼器可將代表語音的信息比特替換為代表語音特征的信息比特。該語音特征可在網(wǎng)絡(luò)的聲音信道上傳輸，例如無線網(wǎng)絡(luò)。語音識別解碼器可接收該語音特征并進(jìn)行語音識別。編碼和解碼語音特征以替換語音的過程在這里可稱為“取代”。
本發(fā)明的實(shí)施例可有幾個優(yōu)點(diǎn)。例如，移動或蜂窩式通信系統(tǒng)利用射頻(RF)來在設(shè)備之間傳輸信息。RF可分成一個或多個聲音信道。但是，這些聲音信道在可傳輸?shù)男畔⒘糠矫媸怯邢薜模鲂畔⒘客ǔ０凑諑?BW)來衡量。為了最好地利用現(xiàn)有的移動通信聲音信道的BW，許多移動系統(tǒng)采用壓縮技術(shù)來減少需要用來代表語音的比特?cái)?shù)。本發(fā)明的一個實(shí)施例可通過將代表語音的比特替換為代表所述語音的語音特征的比特而來進(jìn)一步減少此數(shù)量。此外，語音特征可在替換過程之前壓縮，從而進(jìn)一步減少用來代表語音特征的比特?cái)?shù)。本發(fā)明的此實(shí)施例可使用帶附加硬件和/或軟件的傳統(tǒng)無線技術(shù)來實(shí)現(xiàn)，所述附加硬件和/或軟件用來實(shí)現(xiàn)這里描述的功能。
在此詳細(xì)描述中，給出了大量的具體細(xì)節(jié)以提供對本發(fā)明實(shí)施例的充分理解。但是，本領(lǐng)域的技術(shù)人員將理解沒有這些具體細(xì)節(jié)也可以實(shí)現(xiàn)本發(fā)明。在其它情況下，沒有詳細(xì)地描述公知的方法、過程、元件和電路，以免不必要地模糊本發(fā)明的實(shí)施例。能夠理解，這里公開的具體的結(jié)構(gòu)上和功能上的細(xì)節(jié)可以是代表性的而不一定限定本發(fā)明的范圍。
本發(fā)明的實(shí)施例可以包括功能，其可以實(shí)現(xiàn)為由處理器執(zhí)行的軟件、硬件電路或結(jié)構(gòu)或者二者的結(jié)合。所述處理器可以是通用或?qū)Ｓ锰幚砥?，例如來自由Intel公司、摩托羅拉股份公司、太陽微系統(tǒng)股份公司和其它公司制造的處理器系列的處理器。所述軟件可以包括為本發(fā)明的實(shí)施例實(shí)現(xiàn)某種功能的編程邏輯、指令或數(shù)據(jù)。軟件可以存儲于機(jī)器可存取的介質(zhì)或計(jì)算機(jī)可讀介質(zhì)，例如只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、磁盤(例如軟盤和硬盤)、光盤(例如CD-ROM)或任何其它數(shù)據(jù)存儲介質(zhì)。在本發(fā)明的一個實(shí)施例中，介質(zhì)可以以壓縮和/或加密的格式存儲編程指令以及在由處理器執(zhí)行之前可能必須由安裝器編譯或安裝的指令。或者，本發(fā)明的實(shí)施例可以實(shí)現(xiàn)為具體的硬件元件，其包含用于執(zhí)行所述功能的硬連線邏輯，或者由被編程的通用計(jì)算機(jī)元件和定制硬件元件的任何組合來實(shí)現(xiàn)。
值得注意的是，任何在說明書中提到的“一個實(shí)施例”或“實(shí)施例”是指所描述的與實(shí)施例有關(guān)的具體的特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個實(shí)施例中。說明書中不同位置中出現(xiàn)的短語“在一個實(shí)施例中”不一定都是指相同的實(shí)施例。
現(xiàn)在詳細(xì)參照附圖，其中自始至終類似的部分由相同的標(biāo)號標(biāo)明，圖1圖示了適于實(shí)現(xiàn)本發(fā)明的一個實(shí)施例的系統(tǒng)。圖1是語音識別系統(tǒng)100的方框圖。語音識別系統(tǒng)100可包括通過網(wǎng)絡(luò)104連接的源節(jié)點(diǎn)102和目的地節(jié)點(diǎn)106。在本發(fā)明的一個實(shí)施例中，源節(jié)點(diǎn)102可包括例如移動臺(MS)，例如移動電話或蜂窩式電話。在本發(fā)明的一個實(shí)施例中，目的地節(jié)點(diǎn)106可包括例如移動基站(BS)或移動電話交換局(MTSO)。在本發(fā)明的一個實(shí)施例中，網(wǎng)絡(luò)104包括無線網(wǎng)絡(luò)，其使用RF頻譜來作為通信介質(zhì)以在源節(jié)點(diǎn)102和目的地節(jié)點(diǎn)106之間傳輸信息。
值得注意的是，所描述的關(guān)于BS、MS、MTSO或網(wǎng)絡(luò)的任何取代功能可以在系統(tǒng)100的其它地方實(shí)現(xiàn)而仍然落在本發(fā)明的范圍之內(nèi)。例如，對MS的取代能力的檢測可由BS、MS、MTSO或網(wǎng)絡(luò)中的其它地方啟動而仍然落在本發(fā)明的范圍之內(nèi)。
目的地節(jié)點(diǎn)106可包括應(yīng)用服務(wù)器，所述應(yīng)用服務(wù)器配置有硬件和/或軟件，以作為能夠接受語音識別輸出的自動系統(tǒng)(未示出)而進(jìn)行操作。語音識別輸出可包括，例如聲轉(zhuǎn)文(speech to text)輸出。這里使用的術(shù)語“自動系統(tǒng)”可指一個以受限的人類干預(yù)來操作的系統(tǒng)。自動系統(tǒng)的一個例子可包括，例如IVR(交互式語音應(yīng)答)系統(tǒng)、因特網(wǎng)聲音門戶、家庭自動化系統(tǒng)和自動目錄輔助應(yīng)用，盡管本發(fā)明的實(shí)施例并不局限于此。
圖2是根據(jù)本發(fā)明一個實(shí)施例的源節(jié)點(diǎn)的方框圖。圖2圖示了可代表例如源節(jié)點(diǎn)102的源節(jié)點(diǎn)200。在本發(fā)明的一個實(shí)施例中，源節(jié)點(diǎn)200可包括麥克風(fēng)202、轉(zhuǎn)換器204、聲碼器206、語音識別編碼器208和收發(fā)器210。
在本發(fā)明的一個實(shí)施例中，麥克風(fēng)202可從例如講話人接收模擬語音信號。麥克風(fēng)202可將模擬語音信號發(fā)送到轉(zhuǎn)換器204。
在本發(fā)明的一個實(shí)施例中，轉(zhuǎn)換器204可以是例如模數(shù)(A/D)轉(zhuǎn)換器。轉(zhuǎn)換器204可將模擬語音信號轉(zhuǎn)換成以比特流或比特序列表示的數(shù)字語音信號。每一比特可代表例如一(1)或零(0)。轉(zhuǎn)換器204可將比特流發(fā)送到聲碼器206和語音識別編碼器208。
聲碼器206可實(shí)施任何傳統(tǒng)的聲音壓縮算法以減少數(shù)字語音信號。例如，在本發(fā)明的一個實(shí)施例中，聲碼器206可實(shí)施符合1996年3月批準(zhǔn)的題為“Dual Rate Speech Coder For Multimedia Communications Transmittingat 5.3 and 6.3k/bps”的國際電信聯(lián)盟推薦(ITU Recommendation)G.723.1(“G.723規(guī)范”)的聲音壓縮方案。在另一個例子中，聲碼器206可實(shí)施符合與全球移動通信系統(tǒng)(GSM)相關(guān)的任何標(biāo)準(zhǔn)的聲音壓縮方案。
在本發(fā)明的一個實(shí)施例中，聲碼器206可實(shí)施產(chǎn)生比這里描述的取代過程更高BW的聲音壓縮算法。聲碼器206還可將包括數(shù)字語音信號的比特流組織成離散的幀。一個幀可代表具有固定或可變長度的一個邏輯組的比特。聲碼器206可將這些幀發(fā)送到語音識別編碼器208。
語音識別編碼器208改進(jìn)語音識別并降低聲音信道的BW要求，所述聲音信道可以是網(wǎng)絡(luò)104的一部分。語音識別編碼器208可從數(shù)字語音信號中提取語音特征并壓縮該語音特征以形成比特幀。壓縮語音特征的幀可隨后覆蓋從聲碼器206接收的壓縮語音幀，并傳遞到收發(fā)器210以在網(wǎng)絡(luò)104上傳輸?？蓞⒖紙D3更詳細(xì)地討論語音識別編碼器208。
收發(fā)器210可包括用于MS、BS或MTSO的發(fā)送器、接收器和邏輯區(qū)。發(fā)送器可將低電平音頻信號轉(zhuǎn)換成RF載波頻率中的成比例平移。接收器可將低電平RF信號放大并解調(diào)為它們原始的音頻形式?？刂茀^(qū)可通過插入或提取合適的系統(tǒng)控制消息來協(xié)調(diào)此操作。收發(fā)器210可連接到天線組件(未示出)。
圖3是根據(jù)本發(fā)明一個實(shí)施例的語音識別編碼器的方框圖。圖3圖示了一種語音識別編碼器300，其可實(shí)施為例如源節(jié)點(diǎn)102的一部分。語音識別編碼器300可包括例如，特征編碼器302、空特征生成器(emptyfeature factory)308、發(fā)聲端指針(utterance endpointer)310、特征覆蓋器312和能力監(jiān)視器314。
特征編碼器302還可包括特征提取器304和特征壓縮器306。特征提取器304可從輸入語音信號中提取語音特征，所述輸入語音信號例如是來自轉(zhuǎn)換器204的數(shù)字語音信號。語音特征可包括例如特征向量。在本發(fā)明的一個實(shí)施例中，特征提取器304可按照以下標(biāo)準(zhǔn)來提取語音特征，即2000年4月批準(zhǔn)的題為“Speech Processing，Transmission and Qualityaspects(STQ)；Distributed speech recognition；Front-end feature extractionalgorithm；Compression algorithms”的歐洲電信標(biāo)準(zhǔn)協(xié)會標(biāo)準(zhǔn)(ETSIStandard)ES 201 108 v.1.1.2(“Aurora規(guī)范”)。
在本發(fā)明的另一個實(shí)施例中，輸入語音信號可代表由麥克風(fēng)202所收到并傳遞到語音識別編碼器300的模擬語音信號。任何用于提取語音特征的傳統(tǒng)算法都可由特征提取器304來實(shí)現(xiàn)并落在本發(fā)明的范圍之內(nèi)。特征壓縮器306可使用任何傳統(tǒng)的壓縮算法來將語音特征壓縮成減少的比特?cái)?shù)。已壓縮語音特征可被傳遞到特征覆蓋器312。
空特征生成器308可提供由特征覆蓋器312在轉(zhuǎn)換器的沉默周期期間使用的固定低比特率向量。這些向量可以是預(yù)定的并且不象在特征編碼器302中那樣從轉(zhuǎn)換器中提取。在特征覆蓋器312中使用特征編碼器302或空特征生成器308可由發(fā)聲端指針310中的發(fā)聲端點(diǎn)確定來控制。
發(fā)聲端指針310可實(shí)施任何傳統(tǒng)的聲音活動檢測方案，以確定語音發(fā)聲的起點(diǎn)和終點(diǎn)并識別沉默周期。特征覆蓋器312可使用此信息來控制用語音特征或沉默周期覆蓋在聲碼器比特流上。發(fā)聲端指針310可監(jiān)控語音并可向特征覆蓋器312表明有效的語音。如果能力監(jiān)視器314表明此模式是合適的則可隨后覆蓋特征。當(dāng)講話人停止說話時，發(fā)聲端指針310可表明沒有語音活動并可使用來自空特征生成器308的“空特征”。這對諸如保持與BS 106同步是所期望的。
特征覆蓋器312可將已壓縮的語音特征組織成比特幀，其幀的大小與諸如聲碼器206所使用幀的大小相匹配。如果需要的話，此功能還可實(shí)施為特征編碼器302的一部分。特征覆蓋器312可將代表由聲碼器206編碼的語音的比特幀替換為代表由特征編碼器302編碼的語音特征的比特幀。特征覆蓋器312還可用各種信令模式來改寫聲碼器比特，所述信令模式被用來控制取代過程，例如表明取代能力、取代起點(diǎn)和終點(diǎn)以及其它協(xié)議類型信息。
能力監(jiān)視器314可檢測目的地節(jié)點(diǎn)是否能夠接受取代比特流。能力監(jiān)視器314可監(jiān)視要求語音識別信息的請求。語音識別信息可包括例如對聲音命令的提示和取代標(biāo)識。這里所指的術(shù)語“聲音命令提示”可包括從諸如IVR系統(tǒng)的自動系統(tǒng)來的任何對所說出的信息的請求。取代標(biāo)識可以是例如嵌入在聲碼器比特流中的預(yù)定義比特模式。在本發(fā)明的一個實(shí)施例中，比特模式可以是聽不到的或者幾乎聽不到的，以免用戶分心。一旦檢測到，能力監(jiān)視器314則可通知語音識別編碼器開始傳輸?shù)娜〈桨?。如果目的地?jié)點(diǎn)不能接受取代比特流，則可繞過語音識別編碼器而恢復(fù)正常的聲碼器操作。這可由在特定的時間間隔內(nèi)收到聲音命令提示而未收到取代標(biāo)識來表明。由于無線聲音信道的“有損”性質(zhì)，可以使用權(quán)重匹配算法來檢測有或者沒有聲音命令提示和/或取代標(biāo)識。
圖4是根據(jù)本發(fā)明一個實(shí)施例的目的地節(jié)點(diǎn)的方框圖。圖4圖示了可代表例如目的地節(jié)點(diǎn)106的目的地節(jié)點(diǎn)400。目的地節(jié)點(diǎn)400可包括，例如收發(fā)器402、聲碼器404和語音識別解碼器406。收發(fā)器402和聲碼器404分別類似于收發(fā)器210和聲碼器206。語音識別解碼器406的輸出可用于任何語音識別應(yīng)用，例如自動系統(tǒng)的聲轉(zhuǎn)文應(yīng)用。
圖5是根據(jù)本發(fā)明一個實(shí)施例的語音識別解碼器的方框圖。圖5圖示了語音識別解碼器500。語音識別解碼器500可包括起始監(jiān)視器502、能力廣播器504、特征解碼器506、特征提取器512和語音識別模塊514。
特征解碼器506還可包括特征重構(gòu)器508和特征解壓縮器510。特征重構(gòu)器508可去掉取代信令字段，并將一個或多個幀中從源節(jié)點(diǎn)接收的語音特征分段連結(jié)成完整的語音特征包。重構(gòu)的包可被發(fā)送到特征解壓縮器510。
特征解壓縮器510可從被壓縮的語音特征包重組語音特征。特征解壓縮器510還可應(yīng)用由語音識別編碼器提供的任何糾錯。語音特征可被傳遞到語音識別模塊514。
語音識別模塊514可將語音特征解碼成文本。語音識別模塊514可代表自包含(self-contained)語音識別引擎的一個子集，因?yàn)樗惠斎霐?shù)字語音信號并且不應(yīng)用特征提取。相反，它接收從源節(jié)點(diǎn)發(fā)送來的預(yù)先提取的特征作為輸入。所述文本可用于任何自動系統(tǒng)或傳統(tǒng)的聲轉(zhuǎn)文應(yīng)用。
特征提取器512可類似于語音識別編碼器302的特征提取器304。在目的地節(jié)點(diǎn)不具有取代能力的情況下，特征提取器512可從由聲碼器404解碼的語音中提取語音特征。在此情況下，起始監(jiān)視器502可發(fā)送一個信號到語音識別模塊514，以使用特征提取器512的輸出來進(jìn)行語音識別，而不是使用特征解碼器506的輸出。
可進(jìn)一步參考圖6到8和所附的例子來描述系統(tǒng)100到500的操作。雖然這里給出的圖6到8可包括具體的處理邏輯，但可以理解處理邏輯僅僅提供了如何實(shí)施這里所描述的一般功能的例子。此外，給定處理邏輯中的每個操作并不必要以給出的順序來進(jìn)行，除非表明必須如此。
圖6是由根據(jù)本發(fā)明一個實(shí)施例的語音識別系統(tǒng)執(zhí)行的編程邏輯的第一方框流程圖。圖6圖示了進(jìn)行語音識別的編程邏輯600。在框602處可以接收代表語音的一組信號。在框604處，可在聲音信道上接收要求語音識別信息的請求。在框606處可從所述信號創(chuàng)建一組語音特征。在框608處可在聲音信道上傳輸所述語音特征。
在本發(fā)明的一個實(shí)施例中，所述請求可包括接收對聲音命令的提示。所述請求還可包括接收取代標(biāo)識，例如預(yù)定義的位模式。在本發(fā)明的另一個實(shí)施例中，所述請求可僅僅包括一個取代標(biāo)識。
在本發(fā)明的一個實(shí)施例中，可通過從語音信號中提取語音特征來創(chuàng)建一組語音特征。這些語音特征可隨后被壓縮，并可將任何糾錯應(yīng)用到被壓縮的語音特征上。
在本發(fā)明的一個實(shí)施例中，語音特征可通過創(chuàng)建代表語音的第一位流而在聲音信道上傳輸?？蓮睦缣卣骶幋a器接收代表語音特征的第二位流。第一位流可由第二位流替換，并在聲音信道上發(fā)送。
在本發(fā)明的一個實(shí)施例中，可通過接收代表語音的模擬音頻波形來創(chuàng)建第一位流。模擬音頻波形可轉(zhuǎn)換成數(shù)字音頻信號。可使用聲音編碼算法來壓縮數(shù)字音頻信號。
在本發(fā)明的一個實(shí)施例中，可通過為第一位流來確定起點(diǎn)和終點(diǎn)來用第二位流替換第一位流。還可為第二位流確定起點(diǎn)和終點(diǎn)?？捎玫诙涣鱽硖鎿Q第一位流并使用這些起點(diǎn)和終點(diǎn)來同步該替換。
在本發(fā)明的一個實(shí)施例中，可通過創(chuàng)建從第一位流的起點(diǎn)開始的位幀而使用這些起點(diǎn)和終點(diǎn)來用第二位流替換第一位流?？蓮牡诙涣鞯钠瘘c(diǎn)開始覆蓋位幀?？稍诼曇粜诺郎习l(fā)送所述幀?？芍貜?fù)此過程直到到達(dá)第二位流的終點(diǎn)。
在本發(fā)明的一個實(shí)施例中，可通過將起始標(biāo)識插在第二位流的起點(diǎn)之前，并將結(jié)束標(biāo)識插在第二位流的終點(diǎn)之后，而在聲音信道上發(fā)送第二位流。第二位流可和起始、結(jié)束標(biāo)識一起被發(fā)送。
圖7是由根據(jù)本發(fā)明一個實(shí)施例的語音識別系統(tǒng)執(zhí)行的編程邏輯的第二方框流程圖。圖7圖示了進(jìn)行語音識別的編程邏輯700。在框702處，可在聲音信道上發(fā)送要求語音識別信息的請求。在框704處可在聲音信道上接收語音特征。在框706處可使用所述語音特征來識別語音。
在本發(fā)明的一個實(shí)施例中，可在聲音信道上以對聲音命令的提示和/或取代標(biāo)識的形式來發(fā)送對語音識別的請求。取代標(biāo)識可以是預(yù)定義的位模式。
在本發(fā)明的一個實(shí)施例中，可通過確定位流的起點(diǎn)和終點(diǎn)而在聲音信道上接收語音特征。語音特征可從起點(diǎn)開始重構(gòu)?？山鈮嚎s重構(gòu)的語音特征而形成原始的語音特征。解壓縮的語音特征可被發(fā)送到語音識別設(shè)備?？衫^續(xù)此過程直到到達(dá)終點(diǎn)。
在本發(fā)明的一個實(shí)施例中，可通過從位流中提取糾錯信息來進(jìn)行糾錯?？墒褂眉m錯信息來確定語音特征是否包括錯誤。
圖8是根據(jù)本發(fā)明一個實(shí)施例的取代覆蓋的例子。圖8中描述的取代覆蓋過程可使用因特網(wǎng)協(xié)議(IP)電話的例子，該例子使用G.723規(guī)范和Aurora規(guī)范中所描述的技術(shù)，盡管本發(fā)明的實(shí)施例并不局限于此。一旦初始能力協(xié)議已經(jīng)確認(rèn)可以開始取代，就將較高BW包的位模式用較低BW包來替換。特征覆蓋器和特征重構(gòu)器一起操作來進(jìn)行位替換。在此例子中，一個Aurora特征幀描述340毫秒(msec)的語音，而一個G.723幀則描述30毫秒的語音。構(gòu)成特征幀的144位部分可放置在連續(xù)的G.723幀中。根據(jù)Aurora規(guī)范，特征同步和特征頭部信息在實(shí)際的特征位之前。這些操作對取代過程可以是透明的?？墒褂酶郊游粊肀３謨蓚€端點(diǎn)之間的取代信令同步，所述兩個端點(diǎn)例如是源節(jié)點(diǎn)和目的地節(jié)點(diǎn)。取代同步位可表明整個特征幀中哪部分是在G.723幀中發(fā)送的，并包括起始和停止特征何時出現(xiàn)。在本發(fā)明的另一個實(shí)施例中，這可使用例如幀位的直方圖來完成。
更具體而言，圖8圖示了第一組幀802、第二組幀806、第三組幀808和取代同步塊804。在此例子中，幀組802包括八個幀802a到802h。在本發(fā)明的一個實(shí)施例中，根據(jù)G.723規(guī)范來生成這些幀。所有8個幀具有由共1392比特代表的240毫秒(msec)的語音，并且每個幀具有由174比特代表的30毫秒(msec)的語音。
幀組806也可包含8個幀806a-806h。在本發(fā)明的一個實(shí)施例中，根據(jù)Aurora規(guī)范來產(chǎn)生這些幀。幀組806也被分成30毫秒的幀，每個幀由144位代表。但是，語音特征信息的單個30毫秒幀可代表相當(dāng)于240毫秒的語音，由此用因子8來表示BW約簡(reduction)。取決于本發(fā)明具體實(shí)施例所使用的語音特征提取技術(shù)，語音特征信息可包括，例如特征同步信息、特征頭部信息和特征包。特征包可包括，例如代表語音特征的位包。
如圖8所示，取代覆蓋過程可包括取一個語音特征信息幀，加入諸如取代同步塊804的同步頭部，以及將此信息覆蓋在來自幀組802的語音幀上。例如，幀組806的幀806a可與取代同步塊804結(jié)合，并放在幀組802的幀802a上。類似地，幀組806的幀806b可與取代同步塊804結(jié)合，并放在幀組802的幀802b上。可繼續(xù)此覆蓋過程直到目的地節(jié)點(diǎn)處的語音識別解碼器已經(jīng)接收到所有的特征包。
可通過例子來更好地理解系統(tǒng)100到500的操作以及圖6到8。假定源節(jié)點(diǎn)102是諸如蜂窩電話的MS。假定目的地節(jié)點(diǎn)106是連接到應(yīng)用服務(wù)器上的BS，所述應(yīng)用服務(wù)器具有進(jìn)行自動目錄輔助的軟件應(yīng)用。源節(jié)點(diǎn)102和目的地節(jié)點(diǎn)106在無線網(wǎng)絡(luò)104上通信，無線網(wǎng)絡(luò)104包括用RF頻譜定義的聲音信道。用戶啟動與應(yīng)用服務(wù)器的連接。服務(wù)器向用戶提供一些關(guān)于如何使用服務(wù)的介紹性信息。此信息使用正常的聲音壓縮方案來發(fā)送，這些方案例如GSM或G.723。
服務(wù)器隨后給出聲音提示，要一個啟動目錄輔助搜索的名字。在目的地節(jié)點(diǎn)106，能力廣播器504可將包括聽不到或幾乎聽不到模式的取代標(biāo)識注入正常的聲碼器位流，以表示此端點(diǎn)能夠接受取代位流。該模式可以是任何預(yù)定義的模式并是所使用的具體聲碼器的功能。在此例子中，可將G.723的增益位設(shè)成最低的設(shè)置，并可使用生理上不能接收的向量序列來作為信令模式。此模式可跨越幾個幀。在另一個例子中，還可采用心理聽覺掩碼(psycho-acoustical masking)來作為模式。取決于具體的聲碼器和模式方案，可能需要禁止能力廣播器504以使收聽者能聽到來自自動系統(tǒng)的應(yīng)答。如果是這樣，可以配置能力廣播器504，用于允許和禁止諸如起始監(jiān)視器502的取代起始監(jiān)視器。
在源節(jié)點(diǎn)102處，能力監(jiān)視器314可監(jiān)視來自目的地節(jié)點(diǎn)106的取代標(biāo)識。一旦檢測到，能力監(jiān)視器314就可通知語音識別編碼器300開始取代方案，以傳輸用戶響應(yīng)于自動系統(tǒng)的聲音提示而說出的人或企業(yè)的名字。如果能力監(jiān)視器314未能檢測到取代標(biāo)識，那么可使用正常的聲音壓縮方案來將所說出的名字發(fā)送到自動系統(tǒng)。
在目的地節(jié)點(diǎn)106處，起始監(jiān)視器502監(jiān)視取代位流的開始。起始監(jiān)視器502可通過在所收到的位流中接收取代模式的起始而檢測取代位流的開始。在此例子中，如果所述模式不為收聽者轉(zhuǎn)換成音頻信號，則所述模式并非必須是聽不到的。在切換到語音識別解碼過程期間，聲碼器可能輸出一個在約200毫秒的量級上的短的失真信號。在本發(fā)明的另一個實(shí)施例中，這可以通過增加系統(tǒng)等待時間來避免。在此例子中，起始監(jiān)視器502檢測取代模式的開始，并向語音識別模塊514發(fā)送一個信號，以使用特征解碼器506的輸出作為語音識別過程的輸入。起始監(jiān)視器502可以這樣來切換此路徑，以使輸入的取代幀內(nèi)容對于幀重構(gòu)過程是位對齊的。
再參考源節(jié)點(diǎn)102，特征編碼器302接收代表所說出的聲音命令的輸入語音信號，在此情況下聲音命令可以是一個名字。特征編碼器302根據(jù)Aurora規(guī)范開始語音特征提取過程。在此例子中，特征提取器304為特征提取使用16千赫、16位采樣大小。特征提取器304將所提取的語音特征或特征向量發(fā)送到特征壓縮器306。特征壓縮器306將特征向量壓縮成較低BW的位流，并可視情況而應(yīng)用糾錯。此被壓縮的位流可傳遞到特征覆蓋器312。
特征覆蓋器312接收被壓縮的位流并開始取代覆蓋過程。特征覆蓋器312接收代表來自聲碼器206的語音的位流，并用信令模式和特征向量重寫聲碼器位。一旦能力監(jiān)視器314檢測到取代標(biāo)識，則特征覆蓋器312可在聲碼器包中傳輸固定開始的特征模式。接著的可以是從特征向量提取的順序位，所述順序位和聲碼器的合適幀的大小對齊。這可按照參考圖8所描述的過程來完成。
在目的地節(jié)點(diǎn)106，特征重構(gòu)器508可開始去掉取代信令字段，并將從源節(jié)點(diǎn)接收的特征分段連結(jié)回完整的特征包。重構(gòu)的特征包可隨后發(fā)送到特征解壓縮器510。特征解壓縮器510可重組特征向量，并應(yīng)用由特征壓縮器306提供的任何糾錯。特征向量可隨后被傳遞到語音識別模塊514。
語音識別模塊514可接收特征向量并將其轉(zhuǎn)換成文本，或在此情況下就是需要其號碼的人的名字。語音識別模塊514可包括例如某種意義上的自包含語音識別引擎，即它不進(jìn)行特征提取，相反它接收之前提取的特征向量作為語音識別過程的輸入。語音識別模塊514可將所請求的名字的文本發(fā)送到自動目錄輔助軟件，以開始查號過程。
在一些情況下，目的地節(jié)點(diǎn)106可從一個不能發(fā)送取代位流的源節(jié)點(diǎn)接收聲音命令。在此情況下，起始監(jiān)視器502可將語音識別模塊514的輸入切換成特征提取器512的輸出。特征提取器512類似于特征提取器304，盡管在一些情況下可能需要配置特征提取器512以使用由所使用的特定聲碼器提供的比特率和采樣大小。
在另一個例子中，在呼叫設(shè)置或建立期間可能出現(xiàn)由遠(yuǎn)程端點(diǎn)對取代能力的檢測。這可減少或避免在逐個發(fā)聲的基礎(chǔ)上或每個語音信息請求的基礎(chǔ)上進(jìn)行檢查過程的需要。在此例子中，一旦檢測到取代能力，則來自一個用戶在MS上的所有通信都可使用取代而在一個聲音信道上發(fā)送。但是，來自自動系統(tǒng)或BS的通信可根據(jù)傳統(tǒng)的聲音壓縮技術(shù)而在該聲音信道上發(fā)送。
如這里所描述的，已經(jīng)舉例說明了本發(fā)明的實(shí)施例的某些特征，本領(lǐng)域技術(shù)人員現(xiàn)在可以想到許多修改、替代、改變和等同物。因而，應(yīng)該理解所附權(quán)利要求是為了覆蓋所有落在本發(fā)明實(shí)施例的真實(shí)精神中的修改和改變。
權(quán)利要求
1.一種進(jìn)行語音識別的方法，包括接收代表語音的一組信號；在聲音信道上接收對語音識別信息的請求；從所述信號創(chuàng)建一組語音特征；以及在所述聲音信道上傳輸所述語音特征。
2.如權(quán)利要求1所述的方法，其中所述接收所述請求包括接收對聲音命令的提示；以及接收取代標(biāo)識。
3.如權(quán)利要求2所述的方法，其中所述取代標(biāo)識是預(yù)定義的比特模式。
4.如權(quán)利要求1所述的方法，其中所述創(chuàng)建包括從所述信號提取所述語音特征；以及壓縮所述語音特征。
5.如權(quán)利要求4所述的方法，還包括將糾錯應(yīng)用到所述被壓縮的語音特征。
6.如權(quán)利要求4所述的方法，還包括確定所述信號中的沉默周期。
7.如權(quán)利要求1所述的方法，其中所述傳輸包括創(chuàng)建代表所述語音的第一比特流；接收代表所述語音特征的第二比特流；將所述第一比特流用所述第二比特流替換；以及在所述聲音信道上發(fā)送所述第二比特流。
8.如權(quán)利要求7所述的方法，其中所述創(chuàng)建包括接收代表所述語音的模擬音頻波形；將所述模擬音頻波形轉(zhuǎn)換成數(shù)字音頻信號；以及使用聲音編碼算法來壓縮所述數(shù)字音頻信號。
9.如權(quán)利要求7所述的方法，其中所述替換包括確定所述第一比特流的起點(diǎn)和終點(diǎn)；確定所述第二比特流的起點(diǎn)和終點(diǎn)；以及使用所述起點(diǎn)和所述終點(diǎn)來將所述第一比特流用所述第二比特流替換。
10.如權(quán)利要求9所述的方法，其中所述使用所述起點(diǎn)和所述終點(diǎn)來將所述第一比特流用所述第二比特流替換，包括(a)從所述第一比特流的所述起點(diǎn)開始創(chuàng)建比特幀；(b)用所述第二比特流的所述起點(diǎn)來覆蓋所述比特幀；(c)在所述聲音信道上發(fā)送所述比特幀；以及(d)繼續(xù)(a)到(c)，直到到達(dá)所述第二比特流的所述終點(diǎn)。
11.如權(quán)利要求9所述的方法，其中所述發(fā)送包括將起始標(biāo)識插在所述第二比特流的所述起點(diǎn)之前，并將結(jié)束標(biāo)識插在所述第二比特流的所述終點(diǎn)之后；以及將所述起始和結(jié)束標(biāo)識與所述第二比特流一起發(fā)送。
12.一種進(jìn)行語音識別的方法，包括在聲音信道上發(fā)送對語音識別信息的請求；在所述聲音信道上接收所述語音特征；以及使用所述語音特征識別語音。
13.如權(quán)利要求12所述的方法，其中所述發(fā)送包括發(fā)送對聲音命令的提示；以及發(fā)送取代標(biāo)識。
14.如權(quán)利要求13所述的方法，其中所述取代標(biāo)識是預(yù)定義的比特模式。
15.如權(quán)利要求12所述的方法，其中所述接收包括(a)確定比特流的起點(diǎn)和終點(diǎn)；(b)從所述起點(diǎn)重構(gòu)所述語音特征；(c)解壓縮所述語音特征；(d)將所述被解壓縮的語音特征發(fā)送到語音識別設(shè)備；以及(e)進(jìn)行(a)到(d)，直到到達(dá)所述終點(diǎn)。
16.如權(quán)利要求15所述的方法，還包括從所述比特流中提取糾錯信息；以及使用所述糾錯信息來確定所述語音特征是否包括錯誤。
17.一種進(jìn)行語音識別的系統(tǒng)，包括源節(jié)點(diǎn)，發(fā)送語音特征；目的地節(jié)點(diǎn)，接收語音特征并進(jìn)行語音識別；和網(wǎng)絡(luò)，通過在聲音信道上覆蓋所述語音特征來在所述源節(jié)點(diǎn)和所述目的地節(jié)點(diǎn)之間傳輸所述語音特征。
18.如權(quán)利要求17所述的系統(tǒng)，其中所述源節(jié)點(diǎn)包括收發(fā)器，與所述目的地節(jié)點(diǎn)傳輸信息；能力監(jiān)視器，監(jiān)視來自所述收發(fā)器的對語音識別信息的請求；聲碼器，創(chuàng)建代表語音的第一比特流；特征編碼器，創(chuàng)建代表所述語音的語音特征的第二比特流；和特征覆蓋器，用所述第二比特流覆蓋所述第一比特流，并將所述第二比特流發(fā)送到所述收發(fā)器以傳輸?shù)剿瞿康牡毓?jié)點(diǎn)。
19.如權(quán)利要求17所述的系統(tǒng)，其中所述特征編碼器包括特征提取器，從所述語音提取所述語音特征；和特征壓縮器，將所述語音特征壓縮成所述第二比特流。
20.如權(quán)利要求17所述的系統(tǒng)，其中所述目的地節(jié)點(diǎn)包括收發(fā)器，與所述源節(jié)點(diǎn)傳輸信息；能力廣播器，將語音識別請求傳輸?shù)剿鲈垂?jié)點(diǎn)；起始監(jiān)視器，監(jiān)視具有來自所述收發(fā)器的語音特征的比特流；特征解碼器，從所述比特流解碼所述語音特征；和語音識別模塊，將所述語音特征轉(zhuǎn)換為文本。
21.如權(quán)利要求20所述的系統(tǒng)，其中所述特征解碼器包括特征重構(gòu)器，從所述比特流重構(gòu)語音特征；和特征解壓縮器，解壓縮所述重構(gòu)的語音特征。
22.如權(quán)利要求17所述的系統(tǒng)，其中所述網(wǎng)絡(luò)是無線網(wǎng)絡(luò)。
23.一種語音識別編碼器，包括能力監(jiān)視器，監(jiān)視對語音識別信息的請求；聲碼器，創(chuàng)建代表語音的第一比特流；特征編碼器，創(chuàng)建代表所述語音的語音特征的第二比特流；和特征覆蓋器，用所述第二比特流覆蓋所述第一比特流。
24.如權(quán)利要求23所述的語音識別編碼器，其中所述特征編碼器包括特征提取器，從所述語音提取所述語音特征；和特征壓縮器，將所述語音特征壓縮成所述第二比特流。
25.一種語音識別解碼器，包括能力廣播器，傳輸語音識別請求；起始監(jiān)視器，監(jiān)視具有語音特征的比特流；特征解碼器，從所述比特流解碼所述語音特征；和語音識別模塊，將所述語音特征轉(zhuǎn)換為文本。
26.如權(quán)利要求25所述的語音識別解碼器，其中所述特征解碼器包括特征重構(gòu)器，從所述比特流重構(gòu)語音特征；和特征解壓縮器，解壓縮所述重構(gòu)的語音特征。
27.一種制品，包括存儲介質(zhì)；所述存儲介質(zhì)包括所存儲的指令，當(dāng)所述所存儲的指令由處理器執(zhí)行時，通過以下動作引起進(jìn)行語音識別接收代表語音的一組信號；在聲音信道上接收對語音識別信息的請求；從所述信號創(chuàng)建一組語音特征；以及在所述聲音信道上傳輸所述語音特征。
28.如權(quán)利要求27所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起接收所述請求接收對聲音命令的提示；以及接收取代標(biāo)識。
29.如權(quán)利要求27所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述創(chuàng)建從所述信號提取所述語音特征；以及壓縮所述語音特征。
30.如權(quán)利要求27所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述傳輸創(chuàng)建代表所述語音的第一比特流；接收代表所述語音特征的第二比特流；將所述第一比特流用所述第二比特流替換；以及在所述聲音信道上發(fā)送所述第二比特流。
31.如權(quán)利要求30所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述創(chuàng)建接收代表所述語音的模擬音頻波形；將所述模擬音頻波形轉(zhuǎn)換成數(shù)字音頻信號；以及使用聲音編碼算法來壓縮所述數(shù)字音頻信號。
32.如權(quán)利要求30所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述替換確定所述第一比特流的起點(diǎn)和終點(diǎn)；確定所述第二比特流的起點(diǎn)和終點(diǎn)；以及使用所述起點(diǎn)和所述終點(diǎn)來將所述第一比特流用所述第二比特流替換。
33.如權(quán)利要求32所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述使用所述起點(diǎn)和所述終點(diǎn)來將所述第一比特流用所述第二比特流替換(a)從所述第一比特流的所述起點(diǎn)開始創(chuàng)建比特幀；(b)由所述第二比特流的所述起點(diǎn)來覆蓋所述比特幀；(c)在所述聲音信道上發(fā)送所述比特幀；以及(d)繼續(xù)(a)到(c)直到到達(dá)所述第二比特流的所述終點(diǎn)。
34.如權(quán)利要求32所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述發(fā)送將起始標(biāo)識插在所述第二比特流的所述起點(diǎn)之前，并將結(jié)束標(biāo)識插在所述第二比特流的所述終點(diǎn)之后；以及將所述起始和結(jié)束標(biāo)識與所述第二比特流一起發(fā)送。
35.一種制品，包括存儲介質(zhì)；所述存儲介質(zhì)包括所存儲的指令，當(dāng)所述所存儲的指令由處理器執(zhí)行時，通過以下動作引起進(jìn)行語音識別在聲音信道上發(fā)送對語音識別信息的請求；在所述聲音信道上接收所述語音特征；以及使用所述語音特征識別語音。
36.如權(quán)利要求35所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述發(fā)送發(fā)送對聲音命令的提示；以及發(fā)送取代標(biāo)識。
37.如權(quán)利要求35所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還通過以下動作引起所述接收(a)確定比特流的起點(diǎn)和終點(diǎn)；(b)從所述起點(diǎn)重構(gòu)所述語音特征；(c)解壓縮所述語音特征；(d)將所述被解壓縮的語音特征發(fā)送到語音識別設(shè)備；以及(e)進(jìn)行(a)到(d)直到到達(dá)所述終點(diǎn)。
38.如權(quán)利要求37所述的制品，其中當(dāng)所述所存儲的指令由處理器執(zhí)行時，還引起以下動作從所述比特流中提取糾錯信息；以及使用所述糾錯信息來確定所述語音特征是否包括錯誤。
全文摘要
本發(fā)明描述了一種在聲音信道上進(jìn)行語音識別的方法和裝置。其中接收一組語音信號，并且接收在聲音信道上的對語音識別信息的請求。從所述信號創(chuàng)建一組語音特征，然后在所述聲音信道上傳輸所述語音特征。
文檔編號G10L15/28GK1628339SQ02812850
公開日2005年6月15日申請日期2002年11月20日優(yōu)先權(quán)日2001年11月30日
發(fā)明者戴維·格勞曼申請人:英特爾公司

完整全部詳細(xì)技術(shù)資料下載