專利名稱:說(shuō)話時(shí)段檢測(cè)設(shè)備及方法、語(yǔ)音識(shí)別處理設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及在嘈雜環(huán)境中或在有許多人同時(shí)說(shuō)話的地方進(jìn)行語(yǔ)音識(shí)別處理時(shí)對(duì)說(shuō)話時(shí)段的檢測(cè)。
背景技術(shù):
在通常的語(yǔ)音檢測(cè)設(shè)備中,已經(jīng)采納了把說(shuō)話中的語(yǔ)音作為聲學(xué)信號(hào)處置并對(duì)該聲學(xué)信號(hào)進(jìn)行頻譜分析的語(yǔ)音識(shí)別技術(shù),以識(shí)別和處理語(yǔ)音信息。為了使用語(yǔ)音識(shí)別技術(shù)提供所希望的語(yǔ)音檢測(cè)結(jié)果,從所檢測(cè)到的語(yǔ)音信號(hào)中準(zhǔn)確地識(shí)別說(shuō)話內(nèi)容以及準(zhǔn)確地檢測(cè)所關(guān)心的說(shuō)話人是否實(shí)際在說(shuō)話(說(shuō)話時(shí)段檢測(cè)(speaking period))是重要的。特別是在嘈雜環(huán)境中或在有許多人同時(shí)說(shuō)話的地方進(jìn)行語(yǔ)音識(shí)別時(shí),檢測(cè)說(shuō)話時(shí)段是一個(gè)重要問(wèn)題。
其理由在于,盡管在噪聲小的環(huán)境中能通過(guò)觀察被檢測(cè)的語(yǔ)音信號(hào)的功率容易地檢測(cè)出說(shuō)話時(shí)段,但在這樣的嘈雜環(huán)境中,由于被檢測(cè)的語(yǔ)音信號(hào)有噪聲添加其中,所以不能簡(jiǎn)單地從功率檢測(cè)出說(shuō)話時(shí)段。如果不能檢測(cè)出說(shuō)話時(shí)段,便不能識(shí)別出語(yǔ)音,即使在其后的處理中提供了能有力對(duì)抗噪聲的語(yǔ)音識(shí)別設(shè)備。
對(duì)于檢測(cè)說(shuō)話時(shí)段已進(jìn)行過(guò)若干研究。例如,Masakiyo Fujimoto和Yasuo Ariki的文章“在實(shí)際環(huán)境中使用送話器陣列和卡爾曼濾波的自動(dòng)(handsfree)語(yǔ)音識(shí)別——交互TV前端系統(tǒng)的構(gòu)建”,第4屆DSPS教育者大會(huì),第55-58頁(yè),2002年8月;以及Kazumasa Murai、KeisukeNoma、Ken-ichi Kumagai、Tomoko Matsui和Satoshi Nakamura的文章“使用口周圍部分的圖像的強(qiáng)力語(yǔ)言檢測(cè)”,日本信息處理協(xié)會(huì)研究報(bào)告“語(yǔ)音語(yǔ)言信息處理”第034-01號(hào),2000年3月,都是關(guān)于這些研究的。
這些文檔中描述的技術(shù)以及其他現(xiàn)有技術(shù)的技術(shù)方法可大致分為兩類一是試圖只從語(yǔ)音信號(hào)中檢測(cè)出說(shuō)話時(shí)段,另一個(gè)是試圖不只從語(yǔ)音信號(hào)還從非語(yǔ)音信號(hào)中檢測(cè)出說(shuō)話時(shí)段。
發(fā)明內(nèi)容
上述兩種方法每種都有問(wèn)題。在試圖只從語(yǔ)音信號(hào)中檢測(cè)的情況中,一個(gè)不利方面是檢測(cè)準(zhǔn)確度顯著地依賴于音量和環(huán)境噪聲類型。為了實(shí)現(xiàn)根本不受環(huán)境噪聲影響的對(duì)說(shuō)話時(shí)段的強(qiáng)力檢測(cè),如由后一方法實(shí)現(xiàn)的從非語(yǔ)音信號(hào)中檢測(cè)是重要的。
然而,在使用非語(yǔ)音信號(hào)的情況,存在的一個(gè)問(wèn)題是需要為語(yǔ)音識(shí)別安裝送話器以外的傳感器。例如,如果把圖像用作非語(yǔ)音信號(hào),則必須提供攝像機(jī),使唇部總是在視場(chǎng)范圍內(nèi),而且還必須讓唇部部是在該攝像機(jī)視場(chǎng)內(nèi)的一個(gè)不變的位置。然而,在實(shí)踐中不可能提供實(shí)現(xiàn)這種方式的攝像機(jī)。再有,需要圖像識(shí)別技術(shù)從唇部圖像中檢測(cè)出說(shuō)話時(shí)段。
一般地說(shuō),圖像識(shí)別技術(shù)需要極其大量的操作。在嘈雜環(huán)境中進(jìn)行語(yǔ)音識(shí)別的情況通常假定為是使用移動(dòng)型終端(如移動(dòng)電話)進(jìn)行語(yǔ)音識(shí)別的情況。然而,這種移動(dòng)型終端不具備適當(dāng)?shù)挠?jì)算能力進(jìn)行圖像處理,所以實(shí)際上難于使用移動(dòng)型終端進(jìn)行圖像處理,正如同解決上述問(wèn)題不實(shí)際一樣。
因此,本發(fā)明的目的是提供一種說(shuō)話時(shí)段檢測(cè)設(shè)備和說(shuō)話時(shí)段檢測(cè)方法,它能通過(guò)從EMG(肌動(dòng)電流記錄,它是非語(yǔ)音信號(hào))檢測(cè)說(shuō)話時(shí)段解決提供檢測(cè)非語(yǔ)音信號(hào)傳感器問(wèn)題和大量操作問(wèn)題。本發(fā)明的另一目的是提供利用上述說(shuō)話時(shí)段檢測(cè)設(shè)備的語(yǔ)音識(shí)別處理設(shè)備、傳輸系統(tǒng)和信號(hào)電平控制設(shè)備。
根據(jù)本發(fā)明第一方面的說(shuō)話時(shí)段檢測(cè)設(shè)備包含檢測(cè)說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG的檢測(cè)裝置;和根據(jù)EMG檢測(cè)裝置檢測(cè)到的EMG,檢測(cè)說(shuō)話時(shí)段的說(shuō)話時(shí)段檢測(cè)裝置;其中該設(shè)備提取與說(shuō)話時(shí)段檢測(cè)裝置檢測(cè)到的說(shuō)話時(shí)段有關(guān)的信息。根據(jù)這一配置,根據(jù)EMG檢測(cè)說(shuō)話時(shí)段是可能的。根據(jù)這一配置,不管環(huán)境噪聲狀況如何都能檢測(cè)出說(shuō)話時(shí)段,所以即使在嘈雜環(huán)境中語(yǔ)音識(shí)別也是可能的。
根據(jù)本發(fā)明第二方面的說(shuō)話時(shí)段檢測(cè)設(shè)備是根據(jù)第一方面的說(shuō)話時(shí)段檢測(cè)設(shè)備,其中EMG檢測(cè)裝置檢測(cè)來(lái)自電極的EMG,這些電極就被設(shè)置在說(shuō)話人使用的用于說(shuō)話的終端機(jī)殼的一部分上,在說(shuō)話人說(shuō)話時(shí)這一部分與說(shuō)話人的皮膚接觸。根據(jù)這一配置,只要說(shuō)話人利用其使用的終端并使電極與他/她的皮膚表面接觸便能檢測(cè)到EMG。
根據(jù)本發(fā)明第三方面的說(shuō)話時(shí)段檢測(cè)設(shè)備是根據(jù)第一或第二方面的說(shuō)話時(shí)段檢測(cè)設(shè)備,其中說(shuō)話時(shí)段檢測(cè)裝置將EMG振幅值與一個(gè)預(yù)定閾值進(jìn)行比較以檢測(cè)該說(shuō)話時(shí)段的說(shuō)話起始時(shí)間和說(shuō)話結(jié)束時(shí)間。根據(jù)這一配置,當(dāng)說(shuō)話人說(shuō)話時(shí)造成肌肉活動(dòng),從而出現(xiàn)EMG的大振幅,因此,通過(guò)捕獲大振幅能檢測(cè)出說(shuō)話時(shí)段,即說(shuō)話開(kāi)始時(shí)間和結(jié)束時(shí)間。
根據(jù)本發(fā)明第四方面的說(shuō)話時(shí)段檢測(cè)設(shè)備是根據(jù)第一到第三方面中任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備,進(jìn)一步包含一個(gè)計(jì)數(shù)器,用于對(duì)EMG振幅值和預(yù)定閾值的比較結(jié)果計(jì)數(shù),其中說(shuō)話時(shí)段檢測(cè)裝置只當(dāng)計(jì)數(shù)器的計(jì)數(shù)值超過(guò)一個(gè)預(yù)定值時(shí)才確定說(shuō)話時(shí)段。根據(jù)這一配置,即使由于某種原因在EMG中包括一個(gè)瞬時(shí)大振幅,也能正確地確定說(shuō)話時(shí)段。
根據(jù)本發(fā)明第五方面的說(shuō)話時(shí)段檢測(cè)設(shè)備是根據(jù)第一至第四方面中任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備,進(jìn)一步包含存儲(chǔ)裝置用于保存說(shuō)話人的說(shuō)話語(yǔ)音信號(hào);其中保存說(shuō)話語(yǔ)音信號(hào)是在說(shuō)話起始時(shí)間開(kāi)始和在說(shuō)話結(jié)束時(shí)間結(jié)束。根據(jù)這一配置,這一設(shè)備和語(yǔ)音識(shí)別設(shè)備之間的獨(dú)立性能被增強(qiáng),而且通用語(yǔ)音識(shí)別設(shè)備能與這一設(shè)備組合使用,無(wú)需在語(yǔ)音識(shí)別設(shè)備中做任何改變。
根據(jù)本發(fā)明第六方面的語(yǔ)音識(shí)別處理設(shè)備是對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理的語(yǔ)音識(shí)別處理設(shè)備,該語(yǔ)音識(shí)別處理設(shè)備包含語(yǔ)音識(shí)別處理裝置用于對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理,該說(shuō)話語(yǔ)音信號(hào)對(duì)應(yīng)于根據(jù)第一至第四方面中任何一個(gè)的說(shuō)活時(shí)段檢測(cè)設(shè)備所檢測(cè)出的說(shuō)話時(shí)段。根據(jù)這一配置,檢測(cè)說(shuō)話時(shí)段而不受噪聲影響是可能的,所以語(yǔ)音識(shí)別的準(zhǔn)確度能得到改善。
根據(jù)本發(fā)明第七方面的語(yǔ)音識(shí)別處理設(shè)備是對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理的語(yǔ)音識(shí)別處理設(shè)備,該語(yǔ)音識(shí)別處理設(shè)備包含語(yǔ)音識(shí)別處理裝置用于對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理,該說(shuō)話語(yǔ)音信號(hào)是由根據(jù)第五方面的說(shuō)話時(shí)段檢測(cè)設(shè)備存儲(chǔ)在存儲(chǔ)裝置中的說(shuō)話語(yǔ)音信號(hào)。根據(jù)這一配置,檢測(cè)說(shuō)話時(shí)段而不受噪聲影響是可能的,所以語(yǔ)音識(shí)別的準(zhǔn)確度能得到改善。
根據(jù)本發(fā)明第八方面的傳輸系統(tǒng)是用于對(duì)相應(yīng)于一個(gè)說(shuō)話時(shí)段的說(shuō)話語(yǔ)音信號(hào)進(jìn)行編碼處理并傳輸編碼的語(yǔ)音信號(hào)的傳輸系統(tǒng),該傳輸系統(tǒng)包含編碼處理時(shí)間確定裝置,用于根據(jù)說(shuō)話時(shí)段確定編碼處理時(shí)間,該說(shuō)話時(shí)段是由根據(jù)第一至和五方面中任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備檢測(cè)到的。根據(jù)這一配置,能通過(guò)檢測(cè)說(shuō)話時(shí)段避免不必要的通信,從而能降低功耗。
根據(jù)第九方面的信號(hào)電平控制設(shè)備是用于控制從送話器取出的輸出信號(hào)的電平的信號(hào)電平控制設(shè)備,該信號(hào)電平控制設(shè)備包含控制裝置用于根據(jù)說(shuō)話時(shí)段控制輸出信號(hào)的電平并控制不輸出對(duì)應(yīng)于非說(shuō)話時(shí)段的語(yǔ)音,該說(shuō)話時(shí)段是由根據(jù)第一至第五方面中任何一個(gè)的說(shuō)話時(shí)段是檢測(cè)設(shè)備檢測(cè)到的。根據(jù)這一配置,通過(guò)根據(jù)檢測(cè)到的說(shuō)話時(shí)段控制從送話器取出的輸出信號(hào)的電平,只有對(duì)應(yīng)于說(shuō)話時(shí)段的語(yǔ)音能被輸出。例如通過(guò)開(kāi)、關(guān)送話器的電源的開(kāi)關(guān)、改變送話器的增益和改變揚(yáng)聲器的輸出,控制那些對(duì)應(yīng)于非說(shuō)話時(shí)段的語(yǔ)音不被輸出。
根據(jù)本發(fā)明第十方面的說(shuō)話時(shí)段檢測(cè)方法包含檢測(cè)在說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG的EMG檢測(cè)步驟(對(duì)應(yīng)于圖4中的步驟S41);以及根據(jù)EMG檢測(cè)步驟檢測(cè)到的EMG檢測(cè)說(shuō)話時(shí)段的說(shuō)話時(shí)段檢測(cè)步驟(對(duì)應(yīng)于圖4中的步驟S42至S44);其中與說(shuō)話時(shí)段檢測(cè)步驟檢測(cè)到的說(shuō)話時(shí)段有關(guān)的信息被通告出來(lái)。根據(jù)這一配置,能根據(jù)EMG檢測(cè)到說(shuō)話時(shí)段。因此,說(shuō)話時(shí)段能被檢測(cè)出來(lái)而不論環(huán)境噪聲狀況如何,所以即使在嘈雜環(huán)境中語(yǔ)音識(shí)別也是可能的。
根據(jù)本發(fā)明,通過(guò)很簡(jiǎn)單的方法把提供給移動(dòng)型終端的電極等按在接觸皮膚,從而在不受環(huán)境噪聲影響的情況下檢測(cè)說(shuō)話時(shí)段是可能的。因此可期望改善在嘈雜環(huán)境中語(yǔ)音識(shí)別的識(shí)別準(zhǔn)確度。再有,通過(guò)檢測(cè)說(shuō)話時(shí)段能避免不必要的通信,從而能降低功耗。再有,通過(guò)根據(jù)檢測(cè)到的說(shuō)話時(shí)段控制從送話器取出的信號(hào)的電平,使得只有對(duì)應(yīng)于說(shuō)話時(shí)段的語(yǔ)音能被輸出。
圖1顯示根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備的配置;圖2顯示EMG和語(yǔ)音信號(hào)之間的關(guān)系;圖3顯示在時(shí)間序列中顯示的EMG的RMS;圖4是流程圖,顯示對(duì)一個(gè)EMG確定說(shuō)話時(shí)段的處理舉例;圖5是流程圖,顯示對(duì)一個(gè)EMG確定說(shuō)話時(shí)段的處理的變體舉例;圖6是方塊圖,顯示一個(gè)配置舉例,其中向圖1的配置添加了一個(gè)計(jì)數(shù)器;圖7是示意圖,顯示使用移動(dòng)型終端的舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備;圖8A和8B是示意圖,顯示用于EMG檢測(cè)的表面電極的安排舉例;圖9是流程圖,顯示移動(dòng)型終端的操作舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備;圖10是流程圖,顯示移動(dòng)型終端操作的另一個(gè)舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備;圖11是流程圖,顯示移動(dòng)型終端操作的又一個(gè)舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備;圖12是方塊圖,顯示一個(gè)配置舉例,其中根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備應(yīng)用于一個(gè)移動(dòng)電話終端;圖13是方塊圖,顯示另一個(gè)配置舉例,其中根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備應(yīng)用于一個(gè)移動(dòng)電話終端;圖14顯示語(yǔ)音信號(hào)、進(jìn)行了VAD的幀序列以及編碼幀序列之間的關(guān)系;圖15顯示語(yǔ)音信號(hào)和EMG之間的關(guān)系;圖16顯示產(chǎn)生EMG和語(yǔ)音信號(hào)的時(shí)間;
圖17顯示對(duì)EMG檢測(cè)說(shuō)話時(shí)段的時(shí)間和在移動(dòng)電話一側(cè)進(jìn)行的處理的時(shí)間;圖18A顯示只使用VAD檢測(cè)說(shuō)話時(shí)段的情況中的配置;圖18B顯示使用VAD和EMG檢測(cè)說(shuō)話時(shí)段的情況中的配置;圖19顯示基于EMG的說(shuō)話時(shí)段檢測(cè)處理和基于語(yǔ)音信號(hào)的說(shuō)話時(shí)段檢測(cè)處理的結(jié)合點(diǎn);圖20顯示在傳送檢測(cè)到的說(shuō)話時(shí)段以進(jìn)行語(yǔ)音識(shí)別處理的情況中的配置;圖21顯示如果使用EMG進(jìn)行的說(shuō)話時(shí)段確定有錯(cuò)則在其后修改所存儲(chǔ)的數(shù)據(jù)以檢測(cè)正確的說(shuō)話時(shí)段的一種方法;圖22A顯示包括超音響耳機(jī)/揚(yáng)聲器的頭戴送受話器;圖22B顯示包括頭戴電話型揚(yáng)聲器的頭戴送受話器;圖23顯示用于控制送話器電源開(kāi)關(guān)通/斷的配置;圖24顯示用于控制送話器電源開(kāi)關(guān)通/斷的操作流程;圖25顯示用于控制放大器增益改變的配置,該放大器用于放大從送話器輸出的語(yǔ)音信號(hào);以及圖26顯示用于改變向揚(yáng)聲器SP輸出的配置。
具體實(shí)施例方式
現(xiàn)在將參考附圖描述本發(fā)明的實(shí)施例。在下文的描述中引用的每個(gè)附圖中,對(duì)于與其他圖中相同的部分給出相同的參考數(shù)字。
(總體配置)圖1是方塊圖,顯示根據(jù)本發(fā)明的一個(gè)說(shuō)話時(shí)段檢測(cè)設(shè)備的主要部分的配置。根據(jù)本發(fā)明的說(shuō)話檢測(cè)設(shè)備1包含EMG檢測(cè)部分11、EMG處理部分12、說(shuō)話時(shí)段檢測(cè)部分13以及說(shuō)話時(shí)段通告部分14。
在該圖中,EMG檢測(cè)部分11在說(shuō)話人說(shuō)話時(shí)檢測(cè)EMG,EMG檢測(cè)部分11被配置成包括表面電極,在下文中將予以描述。就是說(shuō),EMG是通過(guò)表面電極檢測(cè)到的,這些電極與直接在說(shuō)話期間活動(dòng)的肌肉上方的表面接觸。這些電極的更具體安排將在下文中描述。
在EMG處理部分12,由EMG檢測(cè)部分11檢測(cè)到的EMG被放大。EMG處理部分12還以低通濾波器和高通濾波器等處理EMG以去掉噪聲或有效地提取所希望的信號(hào)。再有,它計(jì)算說(shuō)話時(shí)段檢測(cè)部分13所需要的參數(shù)。
在說(shuō)話時(shí)段檢測(cè)部分13,根據(jù)由EMG處理部分12計(jì)算出的參數(shù)檢測(cè)說(shuō)話時(shí)段的起始點(diǎn)和結(jié)束點(diǎn)。
說(shuō)話時(shí)段通告部分14向其后的語(yǔ)音識(shí)別算法通告已由說(shuō)話時(shí)段檢測(cè)部分13檢測(cè)到的說(shuō)話時(shí)段起始點(diǎn)和結(jié)束點(diǎn),以使該算法進(jìn)行語(yǔ)音識(shí)別。使用由說(shuō)話時(shí)段通告部分14通告的說(shuō)話時(shí)段起始點(diǎn)和結(jié)束點(diǎn)進(jìn)行語(yǔ)音識(shí)別處理的語(yǔ)音識(shí)別算法不限于一種特定算法,任何算法都可使用。
根據(jù)上述配置,根據(jù)EMG檢測(cè)說(shuō)話時(shí)段是可能的。這樣,說(shuō)話時(shí)段能被檢測(cè)到而不管環(huán)境噪聲狀況如何,從而在嘈雜環(huán)境中的語(yǔ)音識(shí)別是可能的。
(基本原理)圖2是顯示EMG和語(yǔ)音信號(hào)之間的關(guān)系,這是本發(fā)明的基本原理。在該圖中,水平軸指示時(shí)間(以秒為單位),垂直軸指示振幅。
該圖顯示當(dāng)說(shuō)話人重復(fù)發(fā)出日語(yǔ)母音“a-i-u-e-o”聲音時(shí)從他的面頰部分測(cè)量的表面EMG以及與此同時(shí)測(cè)量的語(yǔ)音信號(hào)。在圖的上部和下部分別示出EMGK和語(yǔ)音信號(hào)S。
應(yīng)該指出,語(yǔ)音信號(hào)S和EMG K是同步的。更具體地說(shuō),對(duì)于約1.5至3.2秒的時(shí)段說(shuō)話人發(fā)出“a-i-u-e-o”聲音,觀測(cè)到與此相對(duì)應(yīng)的大振幅語(yǔ)音信號(hào)。在EMG中對(duì)于該時(shí)段也觀測(cè)到大振幅。
對(duì)于在約4.7至6.3秒時(shí)段發(fā)出的“a-i-u-e-o”也有同樣情況,而且對(duì)于在約8至9.5秒時(shí)段發(fā)出的“a-i-u-e-o”也有同樣情況。在其他時(shí)段,說(shuō)話人沒(méi)有發(fā)出語(yǔ)音,環(huán)境噪聲被混合其中。
本發(fā)明是由發(fā)明者對(duì)語(yǔ)音信號(hào)和EMG同步(如圖2中所示)的發(fā)現(xiàn)所觸發(fā)的。還發(fā)現(xiàn)不僅當(dāng)發(fā)出的內(nèi)容是“a-i-u-e-o”的時(shí)候而且當(dāng)發(fā)出其他內(nèi)容時(shí)語(yǔ)音信號(hào)和EMG都是同步的。簡(jiǎn)言之,在EMG中觀測(cè)到伴隨說(shuō)話人說(shuō)話時(shí)引起的肌肉活動(dòng)的大振幅,因此能通過(guò)這一觀測(cè)檢測(cè)到說(shuō)話時(shí)段。
圖2中所示語(yǔ)音信號(hào)和EMG是在環(huán)境噪聲不那么大的地方(在普通的辦公室中)測(cè)量的。如果在環(huán)境噪聲水平高的地方進(jìn)行類似的實(shí)驗(yàn),則環(huán)境噪聲重疊到語(yǔ)音信號(hào)上。相反,EMG卻有利地根本不受影響。
(說(shuō)話時(shí)段檢測(cè)處理)下面將具體描述檢測(cè)說(shuō)話時(shí)段處理。
圖3顯示對(duì)于EMG檢測(cè)說(shuō)話時(shí)段的處理舉例。圖3顯示由圖2中所示EMG計(jì)算出來(lái)的均方根(下文中簡(jiǎn)稱RMS)并以時(shí)間序列形式顯示。在該圖中,水平軸指示時(shí)間(以秒為單位),垂直軸指示RMS值。RMS值是以幀周期20ms和幀長(zhǎng)度50ms計(jì)算出的。
如圖3中所見(jiàn),當(dāng)發(fā)出語(yǔ)音時(shí)的值顯然大于沒(méi)有發(fā)出語(yǔ)音時(shí)的值。在該圖中,當(dāng)沒(méi)有發(fā)出語(yǔ)音時(shí)EMG的RMS值約0.01。所以,通過(guò)設(shè)置閾值,如0.02和0.03,并將它與RMS值進(jìn)行比較,便能檢測(cè)出說(shuō)話時(shí)段。就是說(shuō),當(dāng)RMS值超過(guò)設(shè)定閾值時(shí),該時(shí)段能被檢測(cè)為說(shuō)話時(shí)段。而當(dāng)它低于設(shè)定閾值時(shí),該時(shí)段能被檢測(cè)為非說(shuō)話時(shí)段。
(確定說(shuō)話時(shí)段處理)圖4是流程圖,顯示對(duì)于EMG確定說(shuō)話時(shí)段的處理。
在該圖中,預(yù)先設(shè)定上文描述的閾值(步驟S40)。然后開(kāi)始EMG測(cè)量(步驟S41)。然后,由測(cè)量到的EMG順序計(jì)算RMS值(步驟S42)在這一情況中,幀周期和幀長(zhǎng)度可分別為20ms和60ms。其他值可以使用。
然后確定這些值是否超過(guò)預(yù)先設(shè)定的閾值(步驟S43)。如果閾值被超過(guò),則該時(shí)段被確定為說(shuō)話時(shí)段(步驟S44)。反之,如果該閾值未被超過(guò),則該時(shí)段被確定為非說(shuō)話時(shí)段(步驟S45)。上述處理被重復(fù)進(jìn)行。
盡管圖中的流程圖顯示的是當(dāng)從EMG計(jì)算出RMS時(shí)所進(jìn)行的處理,但本發(fā)明不是必須要求使用RMS。就是說(shuō),可以使用從測(cè)量的EMG中提取的各種特征量。例如可以使用平均相對(duì)變化(ARV)、積分EMG(iEMG)信號(hào)、EMG頻譜等。
再有,與閾值交叉點(diǎn)個(gè)數(shù)可用于代替圖4中的RMS。就是說(shuō),對(duì)測(cè)量的EMS超過(guò)預(yù)先設(shè)定閾值(例如10(mv))的位置個(gè)數(shù)進(jìn)行計(jì)數(shù),并可使用該計(jì)數(shù)個(gè)數(shù)。例如,如果測(cè)量的EMG的采樣值是1、5、12、8和-2(mv),而閾值是10(mv),則計(jì)數(shù)的交叉點(diǎn)個(gè)數(shù)值是“1”。如果該閾值是6(mv)則計(jì)數(shù)的交叉點(diǎn)個(gè)數(shù)值是“2”。這樣,使用帶有預(yù)先設(shè)定預(yù)值的交叉點(diǎn)個(gè)數(shù)代替RMS也能進(jìn)行上述同樣處理。
例如,EMG的采樣頻率是2000Hz。
如上所述,通過(guò)比較EMG的振幅值和預(yù)定的閾值,能檢測(cè)出說(shuō)話時(shí)段的說(shuō)話起始時(shí)間和說(shuō)話結(jié)束時(shí)間。簡(jiǎn)言之,當(dāng)說(shuō)話人說(shuō)話造成肌肉活動(dòng)時(shí),在EMG中出現(xiàn)大振幅,所以能通過(guò)抓住大振幅檢測(cè)到說(shuō)話時(shí)段,即說(shuō)話起始時(shí)間和說(shuō)話結(jié)束時(shí)間。
(確定處理的變體)圖5中所示流程圖能添加到圖4中所示流程圖。圖4中所示流程圖有一個(gè)問(wèn)題,即如果由于某種原因一個(gè)大振幅瞬時(shí)包括在EMG中,則該時(shí)段被確定為說(shuō)話時(shí)段,即使它是非說(shuō)話時(shí)段。為了減小這種短時(shí)波動(dòng)的影響,圖5中所示流程圖能被加到圖4的流程圖中并替代其步驟S43至S45。
在圖5中,“狀態(tài)”是指兩種時(shí)段之一,即說(shuō)話時(shí)間和非說(shuō)話時(shí)段。例如,為了使一個(gè)時(shí)段被確定為非說(shuō)話時(shí)段(或說(shuō)話時(shí)段),則在緊靠該時(shí)段之前必須有多個(gè)時(shí)段已被確定為非說(shuō)話時(shí)段(或說(shuō)話時(shí)段)。為實(shí)現(xiàn)這一點(diǎn),計(jì)數(shù)器15添加到圖1配置中,以對(duì)重復(fù)的相繼非說(shuō)話時(shí)段(或說(shuō)話時(shí)段)計(jì)數(shù),如圖6中所示。計(jì)數(shù)器值與一個(gè)預(yù)置閾值進(jìn)行比較。當(dāng)該值超過(guò)閾值時(shí),該時(shí)段第一次被確定為非說(shuō)話時(shí)段(或說(shuō)話時(shí)段)。確定多時(shí)段個(gè)數(shù)的周期可以是例如20ms。
在圖4的步驟S42計(jì)算出EMG的RMS之后,過(guò)程進(jìn)入圖5中的步驟。首先,計(jì)數(shù)器的計(jì)數(shù)值被復(fù)位(步驟S51)。如果上文描述的狀態(tài)尚未被改變,則計(jì)數(shù)器的計(jì)數(shù)值增1(從步驟S52到步驟S53)。如果計(jì)數(shù)器的計(jì)數(shù)值在增1后尚沒(méi)有超過(guò)預(yù)置閾值,則計(jì)數(shù)值再次增1(從步驟S54至步驟S52)。
與此相反,如果計(jì)數(shù)器的計(jì)數(shù)值在增1后超過(guò)預(yù)置閾值,則該狀態(tài)被確定,從而確定一個(gè)說(shuō)話時(shí)段或非說(shuō)話時(shí)段(從步驟S54到步驟S55)。
如果在步驟S52狀態(tài)已經(jīng)改變,則計(jì)數(shù)器的計(jì)數(shù)值被復(fù)位(從步驟S52到步驟S51),于是過(guò)程繼續(xù)。
如果添加上述圖5所示流程圖,則造成所確定的說(shuō)話起始點(diǎn)(或說(shuō)話結(jié)束點(diǎn))在時(shí)間上落后于實(shí)際說(shuō)話起始點(diǎn)(或說(shuō)話結(jié)束點(diǎn))的問(wèn)題。然而,以與上述計(jì)數(shù)器的計(jì)數(shù)值進(jìn)行比較的閾值所對(duì)應(yīng)的時(shí)間對(duì)根據(jù)圖4和圖5的流程圖所確定的說(shuō)話時(shí)段進(jìn)行校正,能檢測(cè)到實(shí)際的說(shuō)話起始點(diǎn)和說(shuō)話結(jié)束點(diǎn)。
例如,如果在時(shí)間“0”(在此之前是非說(shuō)話時(shí)段)開(kāi)始計(jì)數(shù)值增量,在這一點(diǎn)不確定說(shuō)話時(shí)段。時(shí)間被增量為“1”、“2”、“3”等等,當(dāng)計(jì)數(shù)值達(dá)到“n”時(shí),這是閾值,則第一次確定說(shuō)話時(shí)段。所以,盡管是在計(jì)數(shù)值“n”所對(duì)應(yīng)的時(shí)間確定說(shuō)話時(shí)段,但說(shuō)話實(shí)際上是在時(shí)間“0”開(kāi)始。因此,通過(guò)以從計(jì)數(shù)值“0”到“n”的時(shí)段所對(duì)應(yīng)的時(shí)間進(jìn)行校正,能檢測(cè)到正確的說(shuō)話起始時(shí)間和說(shuō)話結(jié)束時(shí)間。
再有,通過(guò)采納圖5中所示流程圖,得到的一個(gè)好處是能應(yīng)對(duì)在圖2中所示說(shuō)話時(shí)段序列上EMG水平可能變得很低的問(wèn)題。
就是說(shuō),在圖2中確認(rèn)一個(gè)現(xiàn)象,即在2秒點(diǎn)和2.5秒點(diǎn)附近EMG振幅下落,在圖4的流程中,這些點(diǎn)被看作是非說(shuō)話時(shí)段。然而,通過(guò)添加圖5的流程圖,這些部分不被確定為非說(shuō)話時(shí)段而能被看作說(shuō)話時(shí)段。
(說(shuō)話時(shí)段檢測(cè)方法)在上述說(shuō)話時(shí)段檢測(cè)設(shè)備中,采取下文所述說(shuō)話時(shí)段檢測(cè)方法。就是說(shuō),采取了一種說(shuō)話時(shí)段檢測(cè)方法,它包含檢測(cè)在說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG的EMG檢測(cè)步驟(對(duì)應(yīng)于圖4中的步驟S41);以及根據(jù)EMG檢測(cè)步驟檢測(cè)到的EMG檢測(cè)說(shuō)話時(shí)段的說(shuō)話時(shí)段檢測(cè)步驟(對(duì)應(yīng)于圖4中的步驟S42至S44);其中與在說(shuō)話時(shí)段檢測(cè)步驟檢測(cè)到的說(shuō)話時(shí)段有關(guān)的信息被通告出來(lái)。根據(jù)這一配置,能根據(jù)EMG檢測(cè)到說(shuō)話時(shí)段。因此,說(shuō)話時(shí)段能被檢測(cè)出來(lái)而不論環(huán)境噪聲狀況如何,所以即使在嘈雜環(huán)境中語(yǔ)音識(shí)別也是可能的。
現(xiàn)在將描述一個(gè)例子,其中根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備被應(yīng)用于移動(dòng)型終端。
(使用舉例)圖7顯示使用移動(dòng)型移端的一個(gè)舉例,其中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備。在該圖中,假定利用移動(dòng)型終端,如移動(dòng)電話,進(jìn)行通信。
如圖中虛線所示,移動(dòng)型終端1a具有用于EMG檢測(cè)的表面電極10a和10b以及送話器20。用于檢測(cè)EMG的表面電極10a和10b被放在與作為說(shuō)話人的使用者100面部皮膚接觸的一側(cè)。因此,在使用移動(dòng)型終端1a的過(guò)程中,能從接觸一對(duì)EMG檢測(cè)用表面電極10a和10b每一個(gè)的皮膚檢測(cè)EMG。
圖中所示移動(dòng)型終端1a是所謂翻動(dòng)型終端,它具有鉸鏈21。當(dāng)然,本發(fā)明可應(yīng)用于不具有鉸鏈21的終端。
當(dāng)利用諸如移動(dòng)電話等移動(dòng)型終端進(jìn)行通信時(shí),終端的送話器位于使用者的口的附近,而揚(yáng)聲器位于他/她的耳朵附近,這被認(rèn)為是一個(gè)不可改變的事實(shí)。
假定當(dāng)前的移動(dòng)電話終端在其形式上將來(lái)不會(huì)有大的改變,盡管它可能小型化。這樣,重要的一點(diǎn)是移動(dòng)型終端,特別是用于會(huì)話的終端,如移動(dòng)電話終端,在使用時(shí)要與皮膚接觸。這意味著電極表面能與皮膚接觸而不會(huì)給使用者造成不舒服的感覺(jué)。
當(dāng)如同現(xiàn)有技術(shù)中已做的那樣使用攝像機(jī)檢測(cè)說(shuō)話時(shí)段時(shí),攝像機(jī)或傳感器必須放在只為此目的所希望的位置。然而,在使用EMG的情況中,有可能檢測(cè)說(shuō)話時(shí)段而不改變通常的形式,即利用與皮膚接觸的移動(dòng)型終端的形式,而且不進(jìn)行進(jìn)一步的操作或設(shè)置傳感器。
簡(jiǎn)言之,由于移動(dòng)型終端在使用時(shí)通常被壓在皮膚上,所以這一使用形式和本發(fā)明之間的親合性高。
(電極的安排)圖8A和8B顯示電極安排舉例。在圖中,所顯示的舉例中移動(dòng)型終端具有用于EMG檢測(cè)的電極。在圖8A所示舉例中,移動(dòng)型終端1a具有相對(duì)較大的表面電極10c和10d。表面電極10c和10d每個(gè)為例如2cm×3cm大小的平面電極。表面電極10c是要與例如使用者的面頰部分接觸,而表面電極10d是要與例如使用者的口部接觸,從而能從一對(duì)電極檢測(cè)到EMG。
在圖8B所示舉例中,移動(dòng)型終端1a具有針狀表面電極10e和10f。針狀表面電極10e和10f每個(gè)為例如直徑1mm的針型電極。針狀表面電極10e和10f是要與使用者的面頰部分接觸,從而能從一對(duì)電極檢測(cè)到EMG。
上文描述的表面電極只是舉例,在移動(dòng)型終端1a的機(jī)殼上可提供任何形式的一對(duì)電極以檢測(cè)EMG。然而,要求在移動(dòng)型終端1a的機(jī)殼上當(dāng)說(shuō)話人說(shuō)話時(shí)與他的皮膚接觸的那部分上提供表面電極。用于測(cè)量經(jīng)由上述表面電極得到的EMG的電路配置是公知的,所以對(duì)它的描述被略去。
(操作舉例)圖9是流程圖,顯示移動(dòng)型終端的操作舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備。
在該圖中,一位使用者首先以他/她的皮膚接觸移動(dòng)型終端。在接觸之后,經(jīng)由與皮膚接觸的EMG檢測(cè)用表面電極檢測(cè)到EMG(步驟S81)。
當(dāng)使用者開(kāi)始說(shuō)話時(shí),在他/她的口部周圍的肌肉開(kāi)始動(dòng)作,所以在檢測(cè)到的EMG中觀測(cè)到與非說(shuō)話時(shí)間(沒(méi)進(jìn)行說(shuō)話的狀態(tài),即在通常的語(yǔ)音識(shí)別中的靜寂部分)相比大的振幅。通過(guò)檢測(cè)這一大振幅,說(shuō)話起始點(diǎn)被檢測(cè)到(步驟S82)。
當(dāng)說(shuō)話結(jié)束時(shí),檢測(cè)到的EMG的振幅變小。通過(guò)檢測(cè)振幅變小的那一點(diǎn),說(shuō)話結(jié)束點(diǎn)能被檢測(cè)到(步驟S83)。
然后,檢測(cè)到的說(shuō)話起始點(diǎn)和說(shuō)話結(jié)束點(diǎn)被向外通告(步驟S84)。其后的語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備得到通告并被促使開(kāi)始語(yǔ)音識(shí)別。
上述操作重復(fù)地進(jìn)行(步驟S85)。
圖10是流程圖,顯示移動(dòng)型終端操作的另一個(gè)舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備。圖10中的操作與圖9中的操作的差別在于,當(dāng)檢測(cè)到說(shuō)話起始點(diǎn)時(shí),它被立即通告給識(shí)別算法或語(yǔ)音識(shí)別設(shè)備。
在該圖中,一位使用者首先以他/她的皮膚接觸移動(dòng)型終端。在接觸之后,經(jīng)由與皮膚接觸的EMG檢測(cè)用表面電極檢測(cè)到EMG(步驟S91)。
當(dāng)使用者開(kāi)始說(shuō)話時(shí),在他/她的口部周圍的肌肉開(kāi)始動(dòng)作,所以在檢測(cè)到的EMG中觀測(cè)到與非說(shuō)話時(shí)間相比大的振幅。通過(guò)檢測(cè)這一大振幅,說(shuō)話起始點(diǎn)被檢測(cè)到(步驟S92)。響應(yīng)對(duì)說(shuō)話起始點(diǎn)的檢測(cè),該內(nèi)容的信息被向外通告(步驟S93)。
當(dāng)說(shuō)話結(jié)束時(shí),檢測(cè)到的EMG的振幅變小,通過(guò)檢測(cè)振幅變小的那一點(diǎn),說(shuō)話結(jié)束點(diǎn)能被檢測(cè)到(步驟S94)。響應(yīng)對(duì)說(shuō)話結(jié)束點(diǎn)的檢測(cè),該內(nèi)容的信息被向外通告(步驟S95)。上述操作重復(fù)地進(jìn)行(步驟S96)。
如上所述,通過(guò)向外通告檢測(cè)到的說(shuō)話起始點(diǎn)和說(shuō)話結(jié)束點(diǎn),其后的語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備被通告并被促使開(kāi)始語(yǔ)音識(shí)別。
在根據(jù)圖10所示流程圖進(jìn)行的操作中,能分別進(jìn)行由語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備進(jìn)行的語(yǔ)音識(shí)別處理和說(shuō)話時(shí)段檢測(cè)處理。換言之,盡管在圖9所示流程圖的情況中要求語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備與說(shuō)話時(shí)段檢測(cè)處理緊密關(guān)聯(lián),但在圖10所示流程圖的情況中它們能分開(kāi)操作。
再有,圖11是流程圖,顯示移動(dòng)型終端操作的又一個(gè)舉例,在該終端中利用了根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備。在圖11所示流程圖中,與圖9和圖10中所示流程圖相比,與語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備的獨(dú)立性更高。
一位使用者首先以他/她的皮膚接觸移動(dòng)型終端。在接觸之后,經(jīng)由用于EMG檢測(cè)的表面電極檢測(cè)到EMG(步驟S101)。
當(dāng)使用者開(kāi)始說(shuō)話時(shí),在他/她口部周圍的肌肉開(kāi)始動(dòng)作,所以在檢測(cè)到的EMG中觀測(cè)到與非說(shuō)話時(shí)間相比大的振幅。通過(guò)檢測(cè)這一大振幅,說(shuō)話起始點(diǎn)被檢測(cè)到(步驟S102)。響應(yīng)對(duì)說(shuō)話起始點(diǎn)的檢測(cè),開(kāi)始將語(yǔ)音信號(hào)保存在語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)DB中(步驟S103)。
當(dāng)說(shuō)話結(jié)束時(shí),檢測(cè)到的EMG的振幅變小。通過(guò)檢測(cè)振幅變小的那一點(diǎn),說(shuō)話結(jié)束點(diǎn)能被檢測(cè)到(步驟S104)。響應(yīng)對(duì)說(shuō)話結(jié)束點(diǎn)的檢測(cè),向語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)DB中保存語(yǔ)音信號(hào)的操作結(jié)束(步驟S105)。在保存結(jié)束后,保存在語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)DB中的語(yǔ)音信號(hào)數(shù)據(jù)被向外通告,如通告給一個(gè)音頻識(shí)別算法(步驟S106)。
如上所述,在圖11所示流程圖中,通過(guò)使用EMG檢測(cè)到說(shuō)話起始點(diǎn)和說(shuō)話結(jié)束點(diǎn),對(duì)于與其對(duì)應(yīng)的說(shuō)話時(shí)段,語(yǔ)音信號(hào)數(shù)據(jù)被保存在語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)DB中。然后,所保存的語(yǔ)音信號(hào)數(shù)據(jù)被傳送給一個(gè)識(shí)別算法或語(yǔ)音識(shí)別設(shè)備。
根據(jù)上述操作,有可能利用一個(gè)移動(dòng)型終端,其中根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備與通用的語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備組合使用,而無(wú)需特別改變語(yǔ)音識(shí)別算法或語(yǔ)音識(shí)別設(shè)備。下文中將描述與語(yǔ)音識(shí)別設(shè)備的組合。
(說(shuō)話時(shí)段檢測(cè)設(shè)備概要)如果將根據(jù)本發(fā)明的說(shuō)話時(shí)段檢測(cè)設(shè)備應(yīng)用于移動(dòng)電話終端,其配置將如圖12中所示的樣子。就是說(shuō),移動(dòng)型終端1a包含說(shuō)話時(shí)段檢測(cè)設(shè)備1和通信控制部分2。通信控制部分2根據(jù)由說(shuō)話時(shí)段檢測(cè)設(shè)備1通告的說(shuō)話時(shí)段上的數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別處理。通信控制部分2可以是實(shí)現(xiàn)第二代移動(dòng)電話通信、第三代移動(dòng)電話通信或更下一代移動(dòng)電話通信的那種設(shè)備并可以是任何配置的。
與通信控制部分2連接的有送話器20、揚(yáng)聲器SP、顯示部分D以及天線ANT。
在利用上述圖11的配置時(shí),說(shuō)話時(shí)段檢測(cè)設(shè)備1和通信控制部分2之間的獨(dú)立性被增強(qiáng),上述語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)DB要放在說(shuō)話時(shí)段檢測(cè)設(shè)備1和通信控制部分2之間,如圖13中所示。通過(guò)把語(yǔ)音信號(hào)數(shù)據(jù)保存在語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)DB中,該語(yǔ)音信號(hào)數(shù)據(jù)從說(shuō)話時(shí)段檢測(cè)設(shè)備1傳送到通信控制部分2。
(應(yīng)用于傳輸系統(tǒng))上述說(shuō)話時(shí)段檢測(cè)設(shè)備能應(yīng)用于傳輸系統(tǒng),用于對(duì)相應(yīng)于說(shuō)話時(shí)段的說(shuō)話語(yǔ)音信號(hào)進(jìn)行編碼處理并傳輸編碼的語(yǔ)音信號(hào)。現(xiàn)在將對(duì)該傳輸系統(tǒng)進(jìn)行描述。
諸如移動(dòng)電話等移動(dòng)型通信終端不能裝備以大容量電池。所以,為了延長(zhǎng)移動(dòng)型通信終端的連續(xù)使用時(shí)間,必須改善電池壽命。因此,在移動(dòng)電話中,使用語(yǔ)音活動(dòng)檢測(cè)(VAD)確定語(yǔ)音的存在/不存在。對(duì)于非說(shuō)話時(shí)段,進(jìn)行間歇式傳輸,其中只傳輸極小量信息或者停止傳輸。間歇式傳輸對(duì)于改善電池壽命和減小移動(dòng)電話干擾是有效的。這在Naka、Ohya、Saegusa和Hama的文章“特征移動(dòng)多媒體信號(hào)處理技術(shù)—語(yǔ)音編碼技術(shù)”(NTT DoCoMo技術(shù)雜志,第8卷,第4期,第25-33頁(yè),2001)中被描述。
VAD的優(yōu)點(diǎn)不限于此。在碼分多址(CDMA)方法中還提供了有效利用通信信道的優(yōu)點(diǎn),這里的CDMA方法是用于當(dāng)前已商業(yè)化的第三代移動(dòng)電話的一種方法。就是說(shuō),通過(guò)在非說(shuō)話時(shí)段減少被傳輸?shù)男畔?,通信信道能被分配給不同的使用者,從而使通信信道能被有效利用。
在VAD方法中,被檢測(cè)信號(hào)的功率、音調(diào)或語(yǔ)調(diào)被提取出來(lái)以檢測(cè)說(shuō)話時(shí)段。應(yīng)用于移動(dòng)電話的VAD特別在3GPP TS26.094中被規(guī)定。對(duì)長(zhǎng)度為20ms、40ms等的每幀語(yǔ)音信號(hào)進(jìn)行編碼并傳輸。
然而,在VAD中使用語(yǔ)音信號(hào)檢測(cè)說(shuō)話時(shí)段,所以在實(shí)際說(shuō)話之后確定說(shuō)話已經(jīng)開(kāi)始。就是說(shuō)在原理上,由VAD確定的說(shuō)話開(kāi)始時(shí)間落后于實(shí)際說(shuō)話開(kāi)始時(shí)間。用于編碼的同一幀被用作進(jìn)行VAD的幀。由VAD進(jìn)行的確定是在相應(yīng)于幀長(zhǎng)度的時(shí)間已經(jīng)過(guò)去之后進(jìn)行的,然后進(jìn)行這一確定的處理。所以,存在一個(gè)問(wèn)題,即進(jìn)行編碼的時(shí)間落后于由VAD進(jìn)行的確定,從而造成延時(shí)。
例如,如果說(shuō)話起始時(shí)間對(duì)應(yīng)于一幀的起始,則至少需要20ms(相應(yīng)于所用幀長(zhǎng)度對(duì)應(yīng)的時(shí)間)之后才確定它是說(shuō)話起始時(shí)間。再有,除此之外,還造成與VAD的確定處理所需時(shí)間對(duì)應(yīng)的延時(shí)。在諸如使用移動(dòng)電話的語(yǔ)音呼叫等實(shí)時(shí)通信中,延時(shí)越短越好。所以,對(duì)于VAD造成的延時(shí),是越短越好。
再有,如果說(shuō)話起始時(shí)間位于一幀的中間或后一半,則非說(shuō)話時(shí)段和說(shuō)話時(shí)段混合在包括實(shí)際說(shuō)話起始時(shí)間的一幀中。例如,圖14顯示語(yǔ)音信號(hào)S、進(jìn)行VAD的幀序列B以及編碼的幀序列C。對(duì)于進(jìn)行VAD的幀序列B,加陰影的幀被確定為非說(shuō)話時(shí)段,未加陰影的幀被確定為說(shuō)話時(shí)段。對(duì)于編碼的幀序列C,有半色調(diào)點(diǎn)網(wǎng)格的幀以低比特率編碼,而沒(méi)有半色調(diào)點(diǎn)網(wǎng)格的幀以高比特率編碼。盡管以高比特率編碼的幀以高質(zhì)量發(fā)送和接收,但以低比特率編碼的幀則以低質(zhì)量發(fā)送和接收。
如圖中所示,實(shí)際說(shuō)話時(shí)段的說(shuō)話起始時(shí)間位于進(jìn)行VAD的幀序列B中的幀F(xiàn)中部。所以,如圖中所示,幀F(xiàn)可被確定為非說(shuō)話時(shí)段。結(jié)果,在這種情況中被確定的說(shuō)話起始點(diǎn)落后于實(shí)際的說(shuō)話起始點(diǎn)。結(jié)果,在實(shí)際說(shuō)話起始部分的數(shù)據(jù)可能被丟掉。
再有,如圖14中所示,通常語(yǔ)音信號(hào)S的特征在于它的振幅逐漸增大,在說(shuō)話的開(kāi)始不會(huì)觀測(cè)到突然的大振幅。所以,準(zhǔn)確地檢測(cè)說(shuō)話的起始是困難的。如果用于檢測(cè)語(yǔ)音信號(hào)的閾值設(shè)低,它可能更容易被檢測(cè)到。然而,由于環(huán)境噪聲造成誤檢測(cè)的可能性將增大。因此,需要閾值設(shè)為高到某種程度。然而,隨著閾值設(shè)為高到某種程度,又難于抓到小振幅的說(shuō)話起始。特別是在嘈雜環(huán)境下,準(zhǔn)確地檢測(cè)說(shuō)話起始是困難的,因?yàn)楫?dāng)說(shuō)話音量小而且語(yǔ)音信號(hào)被埋入噪聲時(shí)以VAD檢測(cè)說(shuō)話是困難的。由于上述理由,對(duì)應(yīng)于實(shí)際說(shuō)話起始的一幀被確定為非說(shuō)話時(shí)段,這造成諸如丟失說(shuō)話起始和降低呼叫質(zhì)量等問(wèn)題。
再有,存在另一個(gè)問(wèn)題,即在嘈雜環(huán)境下,由于環(huán)境噪聲的影響,使用者不發(fā)出語(yǔ)音的時(shí)段(即被適當(dāng)?shù)卮_定為非說(shuō)話時(shí)段的時(shí)段)被確定為說(shuō)話時(shí)段。這造成信息必須被不必要地發(fā)送、移動(dòng)電話的電池壽命被縮短以及通信信道被不必要地占用等問(wèn)題。
如果允許延時(shí),使用只以語(yǔ)音信號(hào)檢測(cè)說(shuō)話時(shí)段的方法是沒(méi)問(wèn)題的。這是因?yàn)槟芡ㄟ^(guò)其后重看波形能識(shí)別說(shuō)話起始點(diǎn)。然而,對(duì)于使用移動(dòng)電話的語(yǔ)音通信,實(shí)時(shí)通信是重要的,延時(shí)必需要盡可能短。例如,通過(guò)總是以高比特率傳輸說(shuō)話信號(hào),不管該時(shí)段是非說(shuō)話時(shí)段還是說(shuō)話時(shí)段,而且不使用VAD,延時(shí)能被縮短。然而,改善移動(dòng)電話的電池壽命和有效利用通信信道是需要的,而且不使用VAD的方法不能是現(xiàn)實(shí)的解決方案。因此,為了避免丟失說(shuō)話起始和降低通信質(zhì)量,必須在實(shí)際說(shuō)話起始時(shí)間之前進(jìn)行說(shuō)話時(shí)段的確定。再有,為了避免不必要的通信,即便在嘈雜環(huán)境中也必須適當(dāng)?shù)貦z測(cè)說(shuō)話時(shí)段,而且希望使用一種不受環(huán)境噪聲影響的方法來(lái)檢測(cè)說(shuō)話時(shí)段。
一般注意到在語(yǔ)音信號(hào)之前觀測(cè)到EMG。圖15顯示EMG實(shí)際觀測(cè)的舉例。該圖顯示在發(fā)出“nana”聲的情況中語(yǔ)音信號(hào)S和EMGD的波形。參考該圖,發(fā)現(xiàn)在語(yǔ)音信號(hào)S之前時(shí)間t時(shí)觀測(cè)到EMGD。
圖16顯示產(chǎn)生EMG和語(yǔ)音信號(hào)的時(shí)間。如圖中所示,當(dāng)進(jìn)行說(shuō)話運(yùn)動(dòng)的指令從大腦傳送到肌肉時(shí)(步驟S201),首先產(chǎn)生EMG(步驟S202),并且開(kāi)始肌肉收縮(步驟S203)。然后開(kāi)始產(chǎn)生語(yǔ)音(步驟S204)。這樣,說(shuō)話開(kāi)始了。
圖17顯示對(duì)EMG檢測(cè)說(shuō)話時(shí)段的時(shí)間和在移動(dòng)電話一側(cè)進(jìn)行的處理的時(shí)間。參考該圖,在說(shuō)話人一側(cè)的機(jī)制中,從產(chǎn)生EMG(步驟S202)到開(kāi)始產(chǎn)生語(yǔ)音(步驟S204)的時(shí)段是非說(shuō)話時(shí)段,而在產(chǎn)生語(yǔ)音(步驟S204)之后的時(shí)段是說(shuō)話時(shí)段。
在說(shuō)話時(shí)段檢測(cè)設(shè)備一側(cè),對(duì)于非說(shuō)話時(shí)段進(jìn)行測(cè)量EMG和檢測(cè)說(shuō)話開(kāi)始的例程(步驟S205)。然后通過(guò)檢測(cè)EMG的產(chǎn)生來(lái)檢測(cè)說(shuō)話的開(kāi)始,并將說(shuō)話的開(kāi)始通告移動(dòng)電話一側(cè)(步驟S206)。然后,說(shuō)話時(shí)段檢測(cè)設(shè)備進(jìn)入檢測(cè)說(shuō)話結(jié)束的常規(guī)處理。說(shuō)話的結(jié)束也能由EMG檢測(cè)到。
在移動(dòng)電話一側(cè),在非說(shuō)話時(shí)段進(jìn)行間歇式傳輸(步驟S208)。然后,當(dāng)由說(shuō)話時(shí)段檢測(cè)設(shè)備通告說(shuō)話的起始時(shí),在移動(dòng)電話一側(cè)的編碼參數(shù)被改變(步驟S209),并在其后的說(shuō)話時(shí)段進(jìn)行連續(xù)傳輸(步驟S210)。
EMG能被測(cè)量而不受環(huán)境噪聲的影響。因此,通過(guò)使用EMG檢測(cè)說(shuō)話時(shí)段,有可能在實(shí)際說(shuō)話開(kāi)始時(shí)間之前進(jìn)行說(shuō)話時(shí)段處理而不受環(huán)境噪聲的影響。
圖18A顯示只使用VAD檢測(cè)說(shuō)話時(shí)段的情況中的配置,圖18B顯示使用VAD和EMG檢測(cè)說(shuō)話時(shí)段的情況中的配置。在對(duì)應(yīng)于現(xiàn)有技術(shù)方法的圖18A中,由VAD部分220檢測(cè)說(shuō)話時(shí)段的結(jié)果來(lái)確定由編碼設(shè)備210進(jìn)行編碼的時(shí)間,從而以語(yǔ)音信號(hào)作為輸入產(chǎn)生位流輸出。在對(duì)應(yīng)于根據(jù)本發(fā)明的方法的圖18B中,由編碼設(shè)備210進(jìn)行編碼的時(shí)間不僅由VAD部分220檢測(cè)說(shuō)話時(shí)段的結(jié)果來(lái)確定,而且由說(shuō)話時(shí)段檢測(cè)設(shè)備230使用EMG檢測(cè)說(shuō)話時(shí)段的結(jié)果來(lái)確定。通過(guò)如上述那樣檢測(cè)說(shuō)話時(shí)段,能避免不必要的通信和減小功耗。
通過(guò)組合根據(jù)EMS的說(shuō)話時(shí)段檢測(cè)和根據(jù)語(yǔ)音信號(hào)的說(shuō)話時(shí)段檢測(cè),有可能更強(qiáng)有力地檢測(cè)說(shuō)話時(shí)段。當(dāng)進(jìn)行打呵欠、咳嗽和動(dòng)口等運(yùn)動(dòng)而沒(méi)有進(jìn)行說(shuō)話時(shí),與它對(duì)應(yīng)的時(shí)段可能被只使用EMG的方法檢測(cè)為說(shuō)話時(shí)段。然而,通過(guò)組合不受環(huán)境噪聲影響的EMG和不受那些不導(dǎo)致說(shuō)話的運(yùn)動(dòng)影響的語(yǔ)音信號(hào),更強(qiáng)力的說(shuō)話時(shí)段檢測(cè)是可能的。就是說(shuō),如圖19中所示,通過(guò)結(jié)合根據(jù)EMG的說(shuō)話時(shí)段檢測(cè)處理(步驟S211)和根據(jù)語(yǔ)音信號(hào)的說(shuō)話時(shí)段檢測(cè)處理(步驟S212)所進(jìn)行的結(jié)合處理(步驟S213),便得到最終的說(shuō)話時(shí)段檢測(cè)結(jié)果輸出(步驟S214)。
在進(jìn)行結(jié)合處理時(shí),在3GPP TS26.094中規(guī)定的VAD能用于基于語(yǔ)音信號(hào)的說(shuō)話時(shí)段檢測(cè)。下述兩種方法能用于結(jié)合基于EMG的說(shuō)話時(shí)段檢測(cè)和基于語(yǔ)音信號(hào)的說(shuō)話時(shí)段檢測(cè)。
第一種方法是根據(jù)每種處理的說(shuō)話/非說(shuō)話檢測(cè)結(jié)果得到最終檢測(cè)結(jié)果。在這種情況中,只有由兩種處理結(jié)果確定為說(shuō)話時(shí)段的時(shí)段才可最終確定為說(shuō)話時(shí)段?;蛘咧辽儆蓛煞N處理之一確定為說(shuō)話時(shí)段的時(shí)段可最終確定為說(shuō)話時(shí)段。
第二種方法是根據(jù)在各自處理檢測(cè)到的信號(hào)階段所得到的參數(shù)來(lái)得到最終檢測(cè)結(jié)果。這些參數(shù)對(duì)應(yīng)于要確定的時(shí)段是說(shuō)話時(shí)段的概率或似然率,并對(duì)這些參數(shù)進(jìn)行閾值處理以檢測(cè)說(shuō)話時(shí)段。例如,在EMG的情況中,參數(shù)是RMS。
在第二種方法中,可對(duì)于作為兩種處理的參數(shù)加權(quán)和相加結(jié)果而得到的參數(shù)進(jìn)行閾值處理,或可對(duì)于作為兩種處理的參數(shù)相乘的結(jié)果而得到的參數(shù)進(jìn)行閾值處理。通過(guò)對(duì)參數(shù)加權(quán),可以指定哪個(gè)參數(shù)要加權(quán)更大。例如,通過(guò)在嘈雜環(huán)境中對(duì)EMG加權(quán)大些而在較小噪聲的環(huán)境中對(duì)語(yǔ)音信號(hào)加權(quán)大些,最終檢測(cè)結(jié)果的準(zhǔn)確度能得到改善。
不難把EMG測(cè)量裝置包含進(jìn)移動(dòng)電話。由于移動(dòng)電話通常用于與面部接觸,它可配置成例如參考圖7描述的那樣以便測(cè)量EMG。根據(jù)這一配置,它的可用性不會(huì)特別被降低。
如上所述,通過(guò)使用EMG,在實(shí)際說(shuō)話開(kāi)始時(shí)間之前確定說(shuō)話時(shí)段是可能的。通過(guò)把這一方法應(yīng)用于移動(dòng)電話的VAD,有可能避免丟失說(shuō)話的開(kāi)始部分和降低通信質(zhì)量。再有,通過(guò)使用EMG確定說(shuō)話時(shí)段,有可能確定說(shuō)話時(shí)段而不受環(huán)境噪聲的影響。通過(guò)把這一方法應(yīng)用于移動(dòng)電話的VAD,有可能只進(jìn)行必要的通信而不進(jìn)行不必要的通信。結(jié)果,電池壽命得到改善,通信信道能得到有效利用。
(語(yǔ)音識(shí)別設(shè)備)在語(yǔ)音識(shí)別中,通過(guò)對(duì)從送話器輸入的語(yǔ)音信號(hào)進(jìn)行信號(hào)處理,識(shí)別出說(shuō)話的內(nèi)容。當(dāng)前進(jìn)行的語(yǔ)音識(shí)別有一個(gè)問(wèn)題,即在噪雜環(huán)境中語(yǔ)音識(shí)別的準(zhǔn)確度降低。造成在嘈雜環(huán)境中識(shí)別準(zhǔn)確度降低的因素是,例如,除了所關(guān)心的語(yǔ)音信號(hào)外還混入了噪聲,以及不能適當(dāng)?shù)卮_定說(shuō)話時(shí)段。對(duì)于前一個(gè)因素,已經(jīng)提議了一種方法模擬混有噪聲的語(yǔ)音信號(hào)。
再有,已經(jīng)提義一種頻譜扣除法(下文中稱作SS方法)用于從測(cè)量信號(hào)中扣除噪聲分量,以改善語(yǔ)音識(shí)別的準(zhǔn)確度。S.F.Boll在“使用頻譜扣除抑制說(shuō)話中的聲音噪聲”(IEEE trans.聲學(xué)、說(shuō)話和信號(hào)處理,第27卷,第2期,第113-120頁(yè),1979)一文中描述了SS方法。
作為由語(yǔ)音信號(hào)檢測(cè)說(shuō)話時(shí)段的方法,有一種由計(jì)算信號(hào)功率或音調(diào)來(lái)檢測(cè)說(shuō)話時(shí)段的方法。這一方法在3GPP TS26.094中被說(shuō)明。
在使用語(yǔ)音信號(hào)檢測(cè)說(shuō)話時(shí)段的情況中,在嘈雜環(huán)境中檢測(cè)說(shuō)話時(shí)段是困難的。如果不能檢測(cè)到說(shuō)話時(shí)段,自然就不能進(jìn)行語(yǔ)音識(shí)別。例如,如果一個(gè)非說(shuō)話時(shí)段誤確定為說(shuō)話時(shí)段,便可能造成插入誤差(未說(shuō)出的詞或句子被插入識(shí)別結(jié)果造成的誤差),而如果一個(gè)說(shuō)話時(shí)段誤確定為非說(shuō)話時(shí)段,則可造成丟失誤差(說(shuō)出的詞或句子未被識(shí)別造成的誤差)。SS方法是這樣一種方法,其中從語(yǔ)音信號(hào)和噪聲信號(hào)混合的觀測(cè)信號(hào)中扣除噪聲信號(hào)分量,從而只提取語(yǔ)音信號(hào)。盡管這一方法對(duì)于識(shí)別混有噪聲的信號(hào)是有效的,但如果不能檢測(cè)到說(shuō)話時(shí)段,自然就不可能應(yīng)用這一方法。
如果可能檢測(cè)說(shuō)話時(shí)段而不受環(huán)境噪聲的影響,則能降低語(yǔ)音識(shí)別中的誤差。再有,如果可能適當(dāng)?shù)貦z測(cè)說(shuō)話時(shí)段,則能更有效地應(yīng)用SS方法,從而能改善識(shí)別準(zhǔn)確度。由于這一原因,上述EMG被采用。
作為與語(yǔ)音識(shí)別組合的情況中使用的方法,有一種方法是把檢測(cè)到的說(shuō)話時(shí)段中的語(yǔ)音信號(hào)數(shù)據(jù)臨時(shí)存儲(chǔ)在語(yǔ)音信號(hào)數(shù)據(jù)庫(kù)中,以在說(shuō)話結(jié)束之后將其發(fā)送給語(yǔ)音識(shí)別系統(tǒng),如圖11中所示,以及一種只向語(yǔ)音識(shí)別系統(tǒng)傳送被檢測(cè)到的說(shuō)話時(shí)段的方法。
前一種方法的特征在于一個(gè)語(yǔ)音信號(hào)能被多個(gè)語(yǔ)音識(shí)別系統(tǒng)處理,以及如果使用EMG進(jìn)行的說(shuō)話時(shí)段確定有誤,則在以后能修正錯(cuò)誤并傳送相應(yīng)于適當(dāng)說(shuō)話時(shí)段的語(yǔ)音信號(hào)。
為實(shí)現(xiàn)后一種方法,如圖20所示,它可被配置成含有測(cè)量EMG(步驟311)、檢測(cè)說(shuō)話起始點(diǎn)(步驟S312)和檢測(cè)說(shuō)話結(jié)束點(diǎn)(步驟S313)的說(shuō)話時(shí)段檢測(cè)部分301,以及含有測(cè)量語(yǔ)音信號(hào)(步驟S321)、開(kāi)始語(yǔ)音識(shí)別(步驟S322)和終止語(yǔ)音識(shí)別(步驟S323)的語(yǔ)音識(shí)別部分300。當(dāng)開(kāi)始測(cè)量EMG(步驟S311)和測(cè)量語(yǔ)音信號(hào)(步驟S321)時(shí),如果檢測(cè)到說(shuō)話起始點(diǎn)(步驟S312),則開(kāi)始語(yǔ)音識(shí)別(步驟S322)。如果檢測(cè)到說(shuō)話結(jié)束點(diǎn)(步驟S313),則語(yǔ)音識(shí)別結(jié)束(步驟S323)。根據(jù)這一過(guò)程,只對(duì)檢測(cè)到的說(shuō)話時(shí)段進(jìn)行語(yǔ)音識(shí)別,所以該方法的特征在于它能以較小存儲(chǔ)器實(shí)現(xiàn),處理能比前一種方法更輕快地進(jìn)行,并且能容易地實(shí)現(xiàn)與現(xiàn)有語(yǔ)音識(shí)別系統(tǒng)的集成。
現(xiàn)在將參考圖21描述一種方法,其中如果使用EMG確定說(shuō)話時(shí)段有誤,則在其后修改所存儲(chǔ)的數(shù)據(jù)以檢測(cè)到適當(dāng)?shù)恼f(shuō)話時(shí)段。圖中顯示沒(méi)有說(shuō)話時(shí)的EMGD和對(duì)EMGD確定說(shuō)話時(shí)段的結(jié)果。
當(dāng)進(jìn)行諸如打呵欠、咳嗽和動(dòng)口等運(yùn)動(dòng)而沒(méi)有說(shuō)話時(shí),對(duì)應(yīng)于該運(yùn)動(dòng)的信號(hào)混入EMGD。在該圖中,從3700ms附近的點(diǎn)到4500ms附近的點(diǎn)可認(rèn)出這一信號(hào)的混合。如果在這種情況下只使用EMGD確定說(shuō)話時(shí)段,則上述時(shí)段可能被確定為說(shuō)話時(shí)段。
在該圖中,根據(jù)初始確定結(jié)果,圖中示為帶有半色調(diào)點(diǎn)網(wǎng)格的兩幀被檢測(cè)為說(shuō)話時(shí)段。然而,從圖中6000ms處的點(diǎn)回看確定為說(shuō)話時(shí)段的兩幀,它們能被認(rèn)為是并不伴隨說(shuō)話,因?yàn)榇_定為說(shuō)話時(shí)段的兩幀所對(duì)應(yīng)的語(yǔ)音信號(hào)功率低,而且確定為說(shuō)話時(shí)段的時(shí)段長(zhǎng)度短。通過(guò)其后得到的其他信息或上述的其后回看,錯(cuò)誤的確定能被修改。
這種誤確定的判據(jù)應(yīng)由所關(guān)心的任務(wù)或說(shuō)話的種類確定(例如,只是相繼數(shù)字,自然會(huì)話,只是特定詞,如地點(diǎn)名等)或使用者或周邊環(huán)境特征(例如,咳嗽或打呵欠傾向,環(huán)境噪聲水平等)。在該圖中,作為其后回頭看當(dāng)初已確定為說(shuō)話時(shí)段的那些時(shí)段的結(jié)果,這些時(shí)段被修改為非說(shuō)話時(shí)段作為最后確定結(jié)果。于是有可能更適當(dāng)?shù)貦z測(cè)說(shuō)話時(shí)段。
再有,如在“應(yīng)用于傳輸系統(tǒng)”一節(jié)中描述的那樣,有可能不只使用EMG而是與語(yǔ)音信號(hào)組合使用EMG來(lái)檢測(cè)說(shuō)話時(shí)段。
當(dāng)本發(fā)明應(yīng)用于移動(dòng)電話時(shí),移動(dòng)電話能用作如圖8和圖9所示終端。當(dāng)本發(fā)明應(yīng)用于頭戴送受話器時(shí),頭戴送受話器能如圖22A和圖22B所示那樣配置。就是說(shuō),如圖22A中所示,EMG測(cè)量部分50具有頭戴送受話器40,其中集成了送話器20和超音響耳機(jī)/揚(yáng)聲器30。如圖22B中所示,EMG測(cè)量部分50具有頭戴送受話器40,其中集成了送話器20和頭戴電話型揚(yáng)聲器31。兩個(gè)EMG50都具有測(cè)量EMG用電極,而且這些電極放在與使用者100面部皮膚接觸的一側(cè)。
通過(guò)利用如圖22A或圖22B所示配置的頭戴送受話器,有可能與圖7和圖8中的情況類似地檢測(cè)EMG,根據(jù)EMG檢測(cè)說(shuō)話時(shí)段以及進(jìn)行語(yǔ)音識(shí)別處理。
如上所述,有可能檢測(cè)說(shuō)話時(shí)段而不受噪聲影響,于是SS方法能有效地應(yīng)用于識(shí)別混有噪聲的語(yǔ)音信號(hào),從而能實(shí)現(xiàn)改善語(yǔ)音識(shí)別準(zhǔn)確度和帶有少量插入誤差和丟失誤差的語(yǔ)音識(shí)別。
(信號(hào)電平控制設(shè)備)對(duì)于需要通過(guò)電話與他人談話(特別是與客戶談話)的職業(yè),例如電話預(yù)約員,重要的是不使通信對(duì)象不舒服和不要不必要地泄漏保密信息。在多人以送話器說(shuō)話的場(chǎng)合,例如在會(huì)議上,在討論時(shí),或在電視臺(tái)演播室中,必須使與聽(tīng)眾通信的語(yǔ)音信號(hào)成為沒(méi)有混入噪聲的高質(zhì)量語(yǔ)音信號(hào)。
這兩種場(chǎng)合的一個(gè)共同點(diǎn)是當(dāng)在他/她的頭上帶有送話器或在身上帶有送話器的人不是正在說(shuō)話時(shí),由送話器捕獲的噪聲不應(yīng)傳送到通信對(duì)象或聽(tīng)眾。例如,在電話預(yù)約員的情況中,當(dāng)轉(zhuǎn)接員不說(shuō)話時(shí),環(huán)境噪聲不應(yīng)被傳送,而當(dāng)在預(yù)約員周圍說(shuō)到保密信息內(nèi)容(如個(gè)人信息)時(shí),這些信號(hào)不應(yīng)被傳送。對(duì)于會(huì)議、討論或電視臺(tái)演播室的情況也是如此。
為實(shí)現(xiàn)這一點(diǎn),例如向電話機(jī)提供暫停(hold)功能,向出席會(huì)議或討論的說(shuō)話人所用送話器提供電源開(kāi)關(guān)。通過(guò)開(kāi)/關(guān)該功能或開(kāi)關(guān),當(dāng)沒(méi)有說(shuō)話時(shí)能避免不必要的噪聲通信。在電視臺(tái)演播室中,確定是否有另一個(gè)人接受送話器的輸入,通過(guò)在該輸入被接受時(shí)接通開(kāi)關(guān)和在受該輸入沒(méi)有被接受時(shí)關(guān)掉開(kāi)關(guān),能防止混合不必要的噪聲。
當(dāng)如上述以手工設(shè)置來(lái)自送話器的輸入是否應(yīng)被接受時(shí),這項(xiàng)工作是煩人的。作為自動(dòng)進(jìn)行這一工作的一種方法,可以想象使用上述VAD只在檢測(cè)到說(shuō)話時(shí)段時(shí)接受來(lái)自送話器的輸入。然而,用于根據(jù)語(yǔ)音信號(hào)檢測(cè)說(shuō)話時(shí)段的VAD存在的一個(gè)問(wèn)題是由VAD確定為說(shuō)話起始時(shí)間的時(shí)間落后于實(shí)際的說(shuō)話起始時(shí)間,這造成延時(shí),說(shuō)話起始部分的丟失和質(zhì)量降低。使用VAD還有一個(gè)問(wèn)題,即難于準(zhǔn)確檢測(cè)說(shuō)話時(shí)段,因?yàn)閂AD對(duì)來(lái)自環(huán)境噪聲的影響敏感。
通過(guò)使用上述EMG檢測(cè)說(shuō)話時(shí)段,有可能在說(shuō)話實(shí)際起始時(shí)間之前確定說(shuō)話起始,并確定說(shuō)話時(shí)段而不受環(huán)境噪聲影響。檢測(cè)說(shuō)話時(shí)段的方法已經(jīng)描述過(guò),所以將略去對(duì)它的描述。
圖23顯示控制送話器電源開(kāi)關(guān)通/斷的配置。在該圖中,由電池BT經(jīng)由電源開(kāi)關(guān)SW向送話器20供電。送話器20將輸入的語(yǔ)音轉(zhuǎn)換成語(yǔ)音信號(hào),它是一個(gè)電信號(hào)。從送話器20輸出的語(yǔ)音信號(hào)被傳送到放大器22等。在這一情況中,電源開(kāi)關(guān)SW的通/斷控制是根據(jù)說(shuō)話時(shí)段檢測(cè)結(jié)果進(jìn)行的。就是說(shuō),對(duì)檢測(cè)到說(shuō)話起始點(diǎn)作出響應(yīng),電源開(kāi)關(guān)SW被控制為“通”。然后,對(duì)檢測(cè)到說(shuō)話結(jié)束點(diǎn)作出響應(yīng),電源開(kāi)關(guān)SW被控制為“斷”。
圖24顯示上述操作流程,如圖中所示,上述操作的配置是含有測(cè)量EMG(步驟S311)、檢測(cè)說(shuō)話起始點(diǎn)(步驟S312)和檢測(cè)說(shuō)話結(jié)束點(diǎn)(步驟S313)的說(shuō)話時(shí)段檢測(cè)部分301以及含有接通送話器開(kāi)關(guān)(步驟S331)、開(kāi)始語(yǔ)音信號(hào)通信(步驟S332)、切斷送話器開(kāi)關(guān)(步驟S333)和終止語(yǔ)音信號(hào)通信(步驟S334)的語(yǔ)音收集/語(yǔ)音通信部分302。當(dāng)開(kāi)始測(cè)量EMG時(shí)(步驟S311),如果檢測(cè)到說(shuō)話起始點(diǎn)(步驟S312),則送話器電源開(kāi)關(guān)被接通(步驟S331)。通過(guò)接通送話器電源開(kāi)關(guān),語(yǔ)音信號(hào)通信開(kāi)始(步驟S332)。反之,如果檢測(cè)到說(shuō)話結(jié)束點(diǎn)(步驟S313),則送話器的電源開(kāi)關(guān)被切斷(步驟S333)。通過(guò)切斷送話器電源開(kāi)關(guān),語(yǔ)音信號(hào)通信終止(步驟S334)。
如果根據(jù)說(shuō)話時(shí)段控制從送話器取出的輸出信號(hào)的電平,則根本沒(méi)必要接通或切斷送話器電源開(kāi)關(guān)。取代接通/切斷送話器電源開(kāi)關(guān),可以改變放大送話器輸出信號(hào)的放大器的增益或改變到揚(yáng)聲器的輸出。例如,如圖25中所示,在控制改變放大送話器20輸出音頻信號(hào)的放大器22的增益的情況中,放大器22的增益可以被增大以響應(yīng)檢測(cè)到說(shuō)話起始點(diǎn)和被減小以響應(yīng)檢測(cè)到說(shuō)話結(jié)束點(diǎn)。如圖26中所示,在改變到揚(yáng)聲器SP輸出的情況中,對(duì)音量控制電路23的音量設(shè)置可以被增大以響應(yīng)檢測(cè)到說(shuō)話起始點(diǎn)和被減小以響應(yīng)檢測(cè)到說(shuō)話結(jié)束點(diǎn)。
除上述配置外,任何配置可以利用,只要它能避免與非說(shuō)話時(shí)段對(duì)應(yīng)的語(yǔ)言傳送給通信對(duì)象或聽(tīng)眾。簡(jiǎn)言之,如果能控制從送話器取出的輸出信號(hào)的電平,而且與非說(shuō)話時(shí)段對(duì)應(yīng)的語(yǔ)音能被控制不輸出,那就足夠了。
在將圖23的結(jié)構(gòu)應(yīng)用于移動(dòng)電話的情況中,移動(dòng)電話能用作如圖8和圖9中所示終端。當(dāng)圖23的配置用于頭戴送受話器時(shí),它被利用為如圖22A和圖22B所示那樣。
如上所述,通過(guò)使用EMG檢測(cè)說(shuō)話時(shí)段,有可能在說(shuō)話實(shí)際起始時(shí)間之前確定說(shuō)話起始,并確定說(shuō)話時(shí)段而不受環(huán)境噪聲影響。這樣,有可能得到不混入噪聲的高質(zhì)量語(yǔ)音信號(hào)。
針對(duì)第一方面的描述,本發(fā)明能在下列各方面實(shí)現(xiàn)(1)根據(jù)第一方面的說(shuō)話時(shí)段檢測(cè)設(shè)備,其中EMG檢測(cè)裝置檢測(cè)來(lái)自與說(shuō)話人皮膚表面接觸的電極的EMG。據(jù)此,只有使電極與說(shuō)話人皮膚表面接觸才能檢測(cè)到EMG。
(2)根據(jù)上述(1)的說(shuō)話時(shí)段檢測(cè)設(shè)備,其中電極被放在說(shuō)話期間由使用者使用的終端上。據(jù)此,能利用由說(shuō)話人使用的終端檢測(cè)EMG。
一般地說(shuō),在語(yǔ)音識(shí)別處理中檢測(cè)說(shuō)話時(shí)段是重要的。已經(jīng)提出只使用語(yǔ)音信號(hào)檢測(cè)說(shuō)話時(shí)段的方法和使用說(shuō)話人的口運(yùn)動(dòng)圖像的方法。然而,當(dāng)環(huán)境噪聲水平高時(shí)或當(dāng)許多人同時(shí)說(shuō)話時(shí),以前一種方法不可能準(zhǔn)確地檢測(cè)到說(shuō)話時(shí)段。而后一種方法實(shí)際上是不方便的,因?yàn)樗髾z測(cè)說(shuō)話時(shí)段所用傳感器(如攝像機(jī))放在一個(gè)特定位置。
根據(jù)本發(fā)明,使用說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG檢測(cè)說(shuō)話時(shí)段。當(dāng)說(shuō)話人說(shuō)話引起肌肉運(yùn)動(dòng)時(shí),EMG中出現(xiàn)大振幅,通過(guò)發(fā)覺(jué)該振幅,說(shuō)話時(shí)段能被檢測(cè)到。
通過(guò)為移動(dòng)型終端提供電極,能從說(shuō)話人的皮膚測(cè)量由說(shuō)話產(chǎn)生的EMG。所以,本發(fā)明與移動(dòng)型終端的使用形式(即通過(guò)把終端按壓接觸皮膚來(lái)使用終端的形式)有高親合性。即使當(dāng)環(huán)境噪聲水平高時(shí)也能檢測(cè)到說(shuō)話時(shí)段而沒(méi)有任何麻煩。再有,不必要在特定位置提供傳感器。
如果根據(jù)檢測(cè)到的說(shuō)話時(shí)段進(jìn)行語(yǔ)音識(shí)別處理,則識(shí)別準(zhǔn)確度能得到改善。再有,如果根據(jù)檢測(cè)到的說(shuō)話時(shí)段進(jìn)行編碼處理,則功耗能被降低而且移動(dòng)通信終端(包括移動(dòng)電話)的電池壽命能得到改善。再有,通過(guò)根據(jù)檢測(cè)到的說(shuō)話時(shí)段控制從送話器取出的輸出信號(hào)電平和控制與非說(shuō)話時(shí)段對(duì)應(yīng)的語(yǔ)音使其不被輸出,能夠得到其中不混入噪聲的高質(zhì)量語(yǔ)音信號(hào)。
權(quán)利要求
1.一種說(shuō)話時(shí)段檢測(cè)設(shè)備,包括檢測(cè)說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG的EMG檢測(cè)裝置;和根據(jù)EMG檢測(cè)裝置檢測(cè)到的EMG,檢測(cè)說(shuō)話時(shí)段的說(shuō)話時(shí)段檢測(cè)裝置;其中該設(shè)備獲取與說(shuō)話時(shí)段檢測(cè)裝置檢測(cè)到的說(shuō)話時(shí)段有關(guān)的信息。
2.根據(jù)權(quán)利要求1的說(shuō)話時(shí)段檢測(cè)設(shè)備,其中EMG檢測(cè)裝置檢測(cè)來(lái)自電極的EMG,所述電極設(shè)置在說(shuō)話人使用的用于說(shuō)話的終端機(jī)殼的一部分上,在說(shuō)話人說(shuō)話時(shí)該部分與說(shuō)話人的皮膚接觸。
3.根據(jù)權(quán)利要求1或2的說(shuō)話時(shí)段檢測(cè)設(shè)備,其中說(shuō)話時(shí)段檢測(cè)裝置將EMG振幅值與預(yù)定閾值進(jìn)行比較以檢測(cè)該說(shuō)話時(shí)段的說(shuō)話起始時(shí)間和說(shuō)話結(jié)束時(shí)間。
4.根據(jù)權(quán)利要求1至3任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備,進(jìn)一步包含一個(gè)計(jì)數(shù)器,用于對(duì)EMG振幅值和預(yù)定閾值的比較結(jié)果計(jì)數(shù),其中說(shuō)話時(shí)段檢測(cè)裝置只當(dāng)計(jì)數(shù)器的計(jì)數(shù)值超過(guò)預(yù)定值時(shí)才確定說(shuō)話時(shí)段。
5.根據(jù)權(quán)利要求1至4任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備,進(jìn)一步包含存儲(chǔ)裝置,用于保存說(shuō)話人的說(shuō)話語(yǔ)音信號(hào);其中說(shuō)話語(yǔ)音信號(hào)的保存在說(shuō)話起始時(shí)間開(kāi)始和在說(shuō)話結(jié)束時(shí)間結(jié)束。
6.一種對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理的語(yǔ)音識(shí)別處理設(shè)備,該語(yǔ)音識(shí)別處理設(shè)備包含語(yǔ)音識(shí)別處理裝置用于對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理,該說(shuō)話語(yǔ)音信號(hào)對(duì)應(yīng)于根據(jù)權(quán)利要求1至4任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備檢測(cè)到的說(shuō)話時(shí)段。
7.一種對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理的語(yǔ)音識(shí)別處理設(shè)備,該語(yǔ)音識(shí)別處理設(shè)備包含語(yǔ)音識(shí)別處理裝置用于對(duì)說(shuō)話語(yǔ)音信號(hào)進(jìn)行語(yǔ)音識(shí)別處理,該說(shuō)話語(yǔ)音信號(hào)是由根據(jù)權(quán)利要求5的說(shuō)話時(shí)段檢測(cè)設(shè)備存儲(chǔ)在存儲(chǔ)裝置中的說(shuō)話語(yǔ)音信號(hào)。
8.一種對(duì)與說(shuō)話時(shí)段相對(duì)應(yīng)的說(shuō)話語(yǔ)音信號(hào)進(jìn)行編碼處理并傳輸編碼的語(yǔ)音信號(hào)的傳輸系統(tǒng),該傳輸系統(tǒng)包含編碼處理時(shí)間確定裝置,用于根據(jù)說(shuō)話時(shí)段確定編碼處理時(shí)間,該說(shuō)話時(shí)段是由根據(jù)權(quán)利要求1至5任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備檢測(cè)的。
9.一種控制從送話器取出的輸出信號(hào)的電平的信號(hào)電平控制設(shè)備,該信號(hào)電平控制設(shè)備包含控制裝置,用于根據(jù)說(shuō)話時(shí)段控制輸出信號(hào)的電平并控制不輸出對(duì)應(yīng)于非說(shuō)話時(shí)段的語(yǔ)音,該說(shuō)話時(shí)段是由根據(jù)權(quán)利要求1至5任何一個(gè)的說(shuō)話時(shí)段檢測(cè)設(shè)備檢測(cè)的。
10.一種說(shuō)話時(shí)段檢測(cè)方法,包含檢測(cè)在說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG的EMG檢測(cè)步驟;以及根據(jù)EMG檢測(cè)步驟檢測(cè)到的EMG檢測(cè)說(shuō)話時(shí)段的說(shuō)話時(shí)段檢測(cè)步驟;其中與說(shuō)話時(shí)段檢測(cè)步驟檢測(cè)到的說(shuō)話時(shí)段有關(guān)的信息被通告。
全文摘要
以一種簡(jiǎn)單而強(qiáng)力的方法檢測(cè)出語(yǔ)音識(shí)別處理所需要的說(shuō)話時(shí)段。說(shuō)話時(shí)段是根據(jù)說(shuō)話人說(shuō)話時(shí)產(chǎn)生的EMG檢測(cè)出來(lái)的。當(dāng)說(shuō)話人說(shuō)話引起肌肉活動(dòng)時(shí)在EMG中觀測(cè)到大振幅。通過(guò)觀測(cè)這個(gè)大振幅能檢測(cè)出說(shuō)話時(shí)段。經(jīng)由移動(dòng)型終端上提供的電極能測(cè)量來(lái)自說(shuō)話人皮膚的EMG。由于移動(dòng)型終端通常是按壓接觸皮膚使用的,所以這一應(yīng)用形式與本發(fā)明的親合性很高。
文檔編號(hào)G10L15/04GK1601604SQ200410078790
公開(kāi)日2005年3月30日 申請(qǐng)日期2004年9月17日 優(yōu)先權(quán)日2003年9月19日
發(fā)明者真鍋宏幸, 平巖明, 林宏樹(shù), 杉村利明, 三木俊雄 申請(qǐng)人:株式會(huì)社Ntt都科摩