聲音識(shí)別裝置以及方法

文檔序號(hào)：2821624閱讀：225來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音識(shí)別裝置以及方法
技術(shù)領(lǐng)域：
本發(fā)明涉及識(shí)別使用者發(fā)出的聲音指令并進(jìn)行儀器控制的聲音識(shí)別裝置以及方法，特別涉及具有將所識(shí)別的說(shuō)話聲音反饋給使用者的對(duì)講(talkback)功能的聲音識(shí)別裝置。
背景技術(shù)：
現(xiàn)有，在例如車輛上所搭載的導(dǎo)航裝置、免提裝置或者個(gè)人電子計(jì)算機(jī)等領(lǐng)域中，通過(guò)使用遙控器、觸摸屏、鍵盤或者鼠標(biāo)以及聲音識(shí)別裝置，使用者可以通過(guò)輸入聲音進(jìn)行儀器的操作。
在這種聲音識(shí)別裝置中，通過(guò)按下所配備的說(shuō)話按鈕進(jìn)入聲音識(shí)別模式，識(shí)別使用者的說(shuō)話聲音執(zhí)行指令。說(shuō)話方法主要包括兩種。第1種方法為使用者按一下說(shuō)話按鈕則進(jìn)入聲音識(shí)別模式，必要時(shí)儀器提醒使用者進(jìn)行聲音輸入，使用者與儀器之間以對(duì)話的方式進(jìn)行交流的方法。第2種方法為使用者每次按下說(shuō)話按鈕只可以在一定時(shí)間里進(jìn)行聲音輸入的方法。
幾乎所有的聲音識(shí)別裝置都具有將所識(shí)別的說(shuō)話聲音從揚(yáng)聲器等向使用者反饋的對(duì)講功能。使用者聽(tīng)到對(duì)講聲音確認(rèn)是否正確，如果發(fā)現(xiàn)錯(cuò)誤就進(jìn)行聲音輸入修正，正確的話將命令指示給聲音識(shí)別裝置。聲音識(shí)別裝置通過(guò)接受該指示執(zhí)行各種控制。
通常，在聲音識(shí)別裝置中所預(yù)備的多個(gè)聲音指令根據(jù)操作內(nèi)容對(duì)控制對(duì)象的儀器分成多個(gè)層次進(jìn)行管理。比如，在導(dǎo)航裝置中，用地址設(shè)定目的地時(shí)，按照[都道府縣→市區(qū)街村→地址以及其它]的形式，將地址分成多個(gè)分層進(jìn)行聲音輸入。
此時(shí)，由于在每次進(jìn)行各分層聲音輸入時(shí)都要進(jìn)行對(duì)講，因此，在一連串的聲音輸入完成時(shí)大多要花費(fèi)很長(zhǎng)的時(shí)間。對(duì)此，就有了縮短聲音的識(shí)別時(shí)間的嘗試。其中一個(gè)例子就是提出了削減對(duì)講的運(yùn)算量以求達(dá)到縮短識(shí)別時(shí)間的裝置(參照例如專利文獻(xiàn)1)。
日本專利特開(kāi)平6-149287號(hào)公報(bào)但是，現(xiàn)有的聲音識(shí)別裝置在進(jìn)行對(duì)講的中間時(shí)，為不能接受下一個(gè)聲音輸入的狀態(tài)。如果對(duì)講的聲音與說(shuō)話聲音混雜的話，容易發(fā)生誤識(shí)別說(shuō)話聲音的情況。圖4(a)為表示現(xiàn)有的聲音識(shí)別裝置的接受聲音輸入狀態(tài)的變化的形式的時(shí)間圖。另外，該圖4(a)表示上述第1說(shuō)話方法的接受聲音輸入的狀態(tài)的變化。
如圖4(a)所示，在第1說(shuō)話方法中，使用者最初按下說(shuō)話按鈕就進(jìn)入聲音識(shí)別模式，進(jìn)入在一定時(shí)間內(nèi)接受聲音輸入的狀態(tài)。使用者在進(jìn)入接受聲音輸入狀態(tài)的期間發(fā)出所希望的聲音指令。雖然在進(jìn)行發(fā)聲時(shí)，聲音識(shí)別裝置進(jìn)行該輸入聲音的識(shí)別處理以及對(duì)講處理，但此時(shí)為不接受聲音輸入的狀態(tài)。當(dāng)對(duì)講完成時(shí)，再次進(jìn)入接受聲音輸入的狀態(tài)，可以進(jìn)行下一個(gè)聲音輸入。
這樣，在第1說(shuō)話方法中，由于在對(duì)講完成之前不能接受下一個(gè)聲音輸入，因此使用者不能在所希望的時(shí)間里說(shuō)話。即，必須要等到聽(tīng)完對(duì)講之后，所以就出現(xiàn)了進(jìn)行一連串的聲音輸入需要花費(fèi)很長(zhǎng)的時(shí)間的問(wèn)題。
而如果采用第2種說(shuō)話方法的話，通過(guò)按下說(shuō)話按鈕來(lái)中斷對(duì)講，可以進(jìn)行下一次聲音輸入。但是，在此種情況下，在橫跨多個(gè)分層進(jìn)行聲音輸入時(shí)，在每次進(jìn)行各分層的聲音輸入時(shí)都必須按下說(shuō)話按鈕，所以又出現(xiàn)了操作非常繁雜的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明就是為了解決這些問(wèn)題，目的是不需要進(jìn)行多次按下說(shuō)話按鈕的繁雜的操作，使縮短聲音識(shí)別的操作時(shí)間成為可能。
為了解決上述問(wèn)題，本發(fā)明的聲音識(shí)別裝置用自適應(yīng)濾波器模擬從揚(yáng)聲器輸出并輸入到麥克風(fēng)中的對(duì)講聲音，從麥克風(fēng)輸入聲音中減去該對(duì)講模擬聲音，由此從說(shuō)話聲音與對(duì)講聲音混雜的麥克風(fēng)輸入聲音中只提取說(shuō)話聲音。
如果采用上述結(jié)構(gòu)的本發(fā)明，即使在進(jìn)行對(duì)講的過(guò)程中輸入聲音，也可以除去對(duì)講聲音而只提取說(shuō)話聲音并提供給聲音識(shí)別引擎。由此，即使在對(duì)講過(guò)程中輸入聲音也能夠抑制產(chǎn)生說(shuō)話聲音的誤識(shí)別的錯(cuò)誤情況，即使在對(duì)講過(guò)程中也可隨時(shí)接受聲音的輸入。
附圖的簡(jiǎn)要說(shuō)明圖1表示第1實(shí)施形態(tài)的聲音識(shí)別裝置的主要部分的結(jié)構(gòu)的方框2表示自適應(yīng)濾波器的結(jié)構(gòu)的3表示第1實(shí)施形態(tài)的聲音識(shí)別處理的動(dòng)作的流程4A、4B表示將本實(shí)施形態(tài)的接受聲音輸入的狀態(tài)的變化形式與現(xiàn)有技術(shù)相比較的時(shí)間5表示第2實(shí)施形態(tài)的聲音識(shí)別裝置的主要部分結(jié)構(gòu)的方框6表示第2實(shí)施形態(tài)的聲音識(shí)別處理的動(dòng)作的流程7表示第3實(shí)施形態(tài)的聲音識(shí)別裝置的主要部分結(jié)構(gòu)的方框圖本發(fā)明的實(shí)施形態(tài)(第1實(shí)施形態(tài))下面根據(jù)

本發(fā)明的第1實(shí)施形態(tài)。圖1為表示第1實(shí)施形態(tài)的聲音識(shí)別裝置的主要部分的結(jié)構(gòu)的方框圖。
如圖1所示，本實(shí)施形態(tài)的聲音識(shí)別裝置100的結(jié)構(gòu)包括音量裝置(volumn)或者均衡器(以下簡(jiǎn)單稱為音量裝置等)1、增益控制器2、輸出放大器3、自適應(yīng)濾波器(ADF)4、減法器5、聲音輸出單元51、揚(yáng)聲器52、麥克風(fēng)53以及聲音識(shí)別引擎54。
聲音輸出單元51生成對(duì)講聲音進(jìn)行輸出處理。揚(yáng)聲器52輸出由音量裝置1等進(jìn)行增益控制并再次由輸出放大器3增幅的對(duì)講聲音。麥克風(fēng)53是說(shuō)話聲音輸入用部件，實(shí)際上，不只是發(fā)出的聲音指令，從揚(yáng)聲器52輸出的對(duì)講聲音、行走噪音等周圍噪音也全部輸入同一個(gè)麥克風(fēng)53中。聲音識(shí)別引擎54識(shí)別由麥克風(fēng)輸入的說(shuō)話聲音，對(duì)圖中沒(méi)有示出的控制對(duì)像的儀器(比如，導(dǎo)航裝置)執(zhí)行與該說(shuō)話聲音相對(duì)應(yīng)的指令。
如圖2所示，自適應(yīng)濾波器4的結(jié)構(gòu)中包含系數(shù)鑒別單元21以及聲音修正濾波器22。系數(shù)鑒別單元21是用來(lái)識(shí)別從揚(yáng)聲器52到麥克風(fēng)53之間的音響系統(tǒng)的傳遞函數(shù)(聲音修正濾波器22的濾波系數(shù))的濾波器，使用基于LMS(Least Mean Square最小均方)算法和N-LMS(Normalized-LMS標(biāo)準(zhǔn)最小均方)算法的自適應(yīng)濾波器。該系數(shù)鑒別單元21動(dòng)作，使減法器5輸出的誤差e(n)的功率最小，鑒別音響系統(tǒng)的脈沖應(yīng)答。
聲音修正濾波器22通過(guò)使用系數(shù)鑒別單元21所確定的濾波系數(shù)w(n)和作為控制對(duì)象的對(duì)講聲音x(n)進(jìn)行疊加運(yùn)算，將與上述音響系統(tǒng)相同的傳達(dá)特性付與對(duì)講聲音x(n)。由此，生成模擬了麥克風(fēng)53的位置上的對(duì)講聲音的對(duì)講模擬聲音y(n)。這樣，自適應(yīng)濾波器4構(gòu)成了本發(fā)明的自適應(yīng)濾波器。
減法器5通過(guò)將麥克風(fēng)53輸入的聲音(聲音指令、對(duì)講聲音和環(huán)境噪音混雜一起的聲音)減去自適應(yīng)濾波器4生成的對(duì)講模擬聲音y(n)，提取聲音指令(說(shuō)話聲音)和環(huán)境噪音(例如行走噪音)。這樣，減法器5構(gòu)成本發(fā)明的說(shuō)話聲音提取單元。
該減法器5提取的說(shuō)話聲音和環(huán)境噪音的混雜聲音提供給聲音識(shí)別引擎54。聲音識(shí)別引擎54在進(jìn)行雜音處理之后進(jìn)行聲音指令的識(shí)別處理。此時(shí)的雜音處理是指由濾波器進(jìn)行的處理和頻譜子結(jié)構(gòu)(スペクトラムサブストラクシヨン)等現(xiàn)有的代表性的處理。另外，減法器5所提取的說(shuō)話聲音以及環(huán)境噪音的混雜聲音也反饋給自適應(yīng)濾波器4的系數(shù)鑒別單元21以及增益控制器2作為誤差e(n)。
增益控制器2根據(jù)自適應(yīng)濾波器4輸出的對(duì)講模擬聲音y(n)和減法器5輸出的說(shuō)話聲音以及環(huán)境噪音的混雜聲音e(n)計(jì)算出對(duì)聲音輸出單元51輸出的控制對(duì)象的對(duì)講聲音施加的最適合的增益，將計(jì)算出的增益值輸出給音量裝置1等。在這里，將說(shuō)話聲音以及環(huán)境噪音的混雜聲音e(n)看作是對(duì)講聲音的噪音，為了使使用者能清晰地聽(tīng)到揚(yáng)聲器52輸出的對(duì)講聲音，進(jìn)行該對(duì)講聲音的增益調(diào)整。
音量裝置1等對(duì)聲音輸出單元51輸出的對(duì)講聲音進(jìn)行增益修正。即，將增益控制器2算出的增益給予聲音輸出單元51輸出的對(duì)講聲音，由此修正該對(duì)講聲音。該修正例如分別對(duì)分割成多個(gè)頻率的每一個(gè)進(jìn)行。
接下來(lái)，對(duì)有上述結(jié)構(gòu)的聲音識(shí)別裝置100的動(dòng)作進(jìn)行簡(jiǎn)單的說(shuō)明。聲音輸出51輸出的對(duì)講聲音通過(guò)音量裝置1等以及增益控制器2進(jìn)行增益調(diào)整，改善該對(duì)講聲音的清晰度。音量裝置1等輸出的對(duì)講聲音在輸出放大器3中進(jìn)行一定倍率的增幅后，從揚(yáng)聲器52輸出。
揚(yáng)聲器52輸出的對(duì)講聲音由麥克風(fēng)53輸入。此時(shí)如果使用者發(fā)出聲音指令，該說(shuō)話聲音也由麥克風(fēng)53輸入。并且，如果是在行走中，發(fā)動(dòng)機(jī)聲音和道路噪音等環(huán)境噪音也由麥克風(fēng)53輸入。因此，對(duì)講聲音和說(shuō)話聲音以及環(huán)境噪音以混雜一起的狀態(tài)輸入麥克風(fēng)53。該混雜聲音輸入減法器5的正極端。而自適應(yīng)濾波器4生成的對(duì)講模擬聲音(對(duì)講聲音的推定值)輸入減法器5的負(fù)極端。
減法器5將麥克風(fēng)53輸入的對(duì)講聲音、說(shuō)話聲音和環(huán)境噪音的混雜聲音減去自適應(yīng)濾波器4輸入的對(duì)講模擬聲音，由此算出誤差，提取說(shuō)話聲音和環(huán)境噪音。提取的說(shuō)話聲音和環(huán)境噪音提供給聲音識(shí)別引擎54。由此進(jìn)行降低環(huán)境噪音的處理以及與聲音指令相對(duì)應(yīng)的處理。另外，上述提取的說(shuō)話聲音和環(huán)境噪音也反饋給增益控制器2以及自適應(yīng)濾波器4，用于對(duì)講聲音的清晰度改善處理以及對(duì)講聲音的推定運(yùn)算處理。
圖3為表示第1實(shí)施形態(tài)中的聲音識(shí)別處理的動(dòng)作的流程圖。另外，雖然圖1中沒(méi)有圖示，但在聲音識(shí)別裝置100還設(shè)置了進(jìn)行與聲音識(shí)別有關(guān)的整體控制的控制器，圖3所示的流程按照該控制器的控制實(shí)施。
在圖3中，當(dāng)控制器探測(cè)到開(kāi)始聲音識(shí)別的觸發(fā)(例如，按下說(shuō)話按鈕，一定關(guān)鍵字的聲音輸入等)(步驟S1)，激活聲音識(shí)別引擎54，然后進(jìn)入接受聲音輸入的狀態(tài)(步驟S2)。在這一狀態(tài)下，使用者發(fā)出位于被分割成多個(gè)分層管理的聲音指令的最上層的第1指令(步驟S3)。
在這里發(fā)出的聲音指令由麥克風(fēng)53輸入，通過(guò)減法器5提供給聲音識(shí)別引擎54。聲音識(shí)別引擎54接受聲音指令后進(jìn)行聲音識(shí)別處理(包括降低噪音)(步驟S4)。此時(shí)，控制器使聲音識(shí)別引擎54返回到非激活狀態(tài)，解除接受聲音輸入的狀態(tài)。接下來(lái)，音量裝置1等以及增益控制器2開(kāi)始進(jìn)行對(duì)講聲音的清晰度改善處理(步驟S5)。在這種狀態(tài)下，聲音輸出單元51開(kāi)始聲音識(shí)別引擎54得出的識(shí)別結(jié)果以及引導(dǎo)內(nèi)容的聲音對(duì)講(步驟S6)。
在進(jìn)行該對(duì)講期間，控制器判定是否有必要繼續(xù)進(jìn)行聲音操作(步驟S7)。在這里，再轉(zhuǎn)移至更下層，判定是否有必要再繼續(xù)輸入聲音指令。如果有必要繼續(xù)進(jìn)行聲音操作，則再次激活聲音識(shí)別引擎54，進(jìn)入接受聲音輸入的狀態(tài)(步驟S8)。之后，減法器5從自適應(yīng)濾波器4獲得在上述步驟S6中輸出的對(duì)講聲音的推定值，將從麥克風(fēng)53輸入的聲音減去獲得的推定值，由此除去從麥克風(fēng)輸入的聲音中的對(duì)講聲音(步驟S9)。
然后，控制器判定是否有聲音指令發(fā)出(步驟S10)。沒(méi)有發(fā)出聲音時(shí)返回步驟S9，反復(fù)這種循環(huán)處理直至有聲音發(fā)出。另外，如果在一定時(shí)間內(nèi)沒(méi)有任何聲音發(fā)出的話，進(jìn)行暫停處理。而當(dāng)發(fā)出聲音指令時(shí)，在此刻中斷對(duì)講(步驟S11)，返回步驟S4的處理。當(dāng)然，雖然這里在進(jìn)行說(shuō)話時(shí)中斷對(duì)講，但是因?yàn)榧词惯M(jìn)行對(duì)講也可以除去該聲音只提取說(shuō)話聲音，所以不一定非要中斷對(duì)講。
圖4為將本實(shí)施形態(tài)中的接受聲音輸入的狀態(tài)的變化的形式與現(xiàn)有的技術(shù)相比較的時(shí)間圖，(a)為現(xiàn)有技術(shù)，(b)表示本實(shí)施形態(tài)。當(dāng)然，對(duì)于圖4(a)的動(dòng)作已經(jīng)進(jìn)行了說(shuō)明。
如圖4(b)所示，在本實(shí)施形態(tài)中，使用者最初按下說(shuō)話按鈕時(shí)進(jìn)入聲音識(shí)別模式，進(jìn)入只在一定時(shí)間內(nèi)接受聲音輸入的狀態(tài)。使用者在進(jìn)入接受聲音輸入的狀態(tài)期間發(fā)出所希望的聲音指令。一旦輸入聲音指令，就進(jìn)行該輸入聲音的識(shí)別處理以及對(duì)講處理。這之前的操作與圖4(a)所示的現(xiàn)有技術(shù)相同。
在圖4(a)所示的現(xiàn)有技術(shù)中，在進(jìn)行對(duì)講期間處于不能接受聲音輸入的狀態(tài)。與之相反，在圖4(b)所示的本實(shí)施形態(tài)中，在識(shí)別處理結(jié)束的階段自動(dòng)進(jìn)入接受聲音輸入的狀態(tài)，不必等到對(duì)講結(jié)束，可以在希望的時(shí)間里進(jìn)行下一個(gè)聲音輸入。由此就可以減少等待時(shí)間。
如以上的詳細(xì)說(shuō)明，如果采用本實(shí)施形態(tài)，在對(duì)講時(shí)也可以隨時(shí)接受聲音輸入，可以不必等待對(duì)講結(jié)束而在希望的時(shí)間內(nèi)隨時(shí)進(jìn)行聲音輸入。而且，也不必每次說(shuō)話都按下說(shuō)話按鈕。由此，不必進(jìn)行繁雜的按鈕操作，可以縮短一連串的聲音識(shí)別所需的操作時(shí)間。
另外，本實(shí)施形態(tài)利用用于改善對(duì)講聲音的清晰度而設(shè)置的自適應(yīng)濾波器4推定的模擬聲音，除去從麥克風(fēng)輸入的聲音中的對(duì)講聲音。因此不必為了除去對(duì)講聲音而另外導(dǎo)入專用的自適應(yīng)濾波器。因此可以在不增加成本的情況下，改善對(duì)講聲音的清晰度，同時(shí)，也能夠縮短聲音識(shí)別操作的時(shí)間。
(第2實(shí)施形態(tài))接下來(lái)，對(duì)本發(fā)明的第2實(shí)施形態(tài)進(jìn)行說(shuō)明。圖5是表示第2實(shí)施形態(tài)中的聲音識(shí)別裝置的主要部分結(jié)構(gòu)的方框圖。另外，在圖5中，因?yàn)樘砑恿伺c圖1所示的符號(hào)相同的符號(hào)的單元為具有相同功能的單元，所以在這里就省略了重復(fù)的說(shuō)明。
如圖5所示，本實(shí)施形態(tài)的聲音識(shí)別裝置200的結(jié)構(gòu)為除圖1所示的結(jié)構(gòu)外，還包括輸出放大器6-1，6-2、第2自適應(yīng)濾波器7-1、7-2、加法器8、減法器9、音頻再生單元61以及多聲道(右聲道、左聲道)揚(yáng)聲器62-1、62-2。
音頻再生單元61為再生CD(Compact Disc壓密盤)、MD(MiniDisc小型盤)、DVD(Digital Versatile Disc數(shù)字化視頻光盤)、廣播等各種音頻信號(hào)源的單元。輸入放大器6-1、6-2以一定的倍率增幅音頻再生單元61再生的左右聲道的音頻音，從各聲道的揚(yáng)聲器62-1、62-2中輸出。從揚(yáng)聲器62-1、62-2中輸出的音頻音與說(shuō)話聲音以及揚(yáng)聲器52輸出的對(duì)講聲音同時(shí)輸入麥克風(fēng)53。
第2自適應(yīng)濾波器7-1、7-2也如圖2同樣的結(jié)構(gòu)。一個(gè)自適應(yīng)濾波器7-1鑒別模擬了從右聲道的揚(yáng)聲器62-1至麥克風(fēng)53的傳遞系統(tǒng)的濾波系數(shù)，對(duì)右聲道的音頻音進(jìn)行濾波處理，由此生成右聲道的音頻模擬聲音。
并且，另一個(gè)自適應(yīng)濾波器7-2鑒別模擬了從右聲道的揚(yáng)聲器62-2至麥克風(fēng)53的傳遞系統(tǒng)的濾波系數(shù)，對(duì)右聲道的音頻音進(jìn)行濾波處理，由此生成右聲道的音頻模擬聲音。
這樣，在第2實(shí)施形態(tài)中，自適應(yīng)濾波器4構(gòu)成本發(fā)明的第1自適應(yīng)濾波器，第2自適應(yīng)濾波器7-1、7-2構(gòu)成本發(fā)明的第2自適應(yīng)濾波器。加法器8將從第2自適應(yīng)濾波器7-1、7-2輸出的左右聲道的音頻模擬音相加輸出給減法器9。
在本實(shí)施形態(tài)中，減法器5將從麥克風(fēng)53輸入的聲音(聲音指令、對(duì)講、音頻音和環(huán)境噪音混雜在一起的聲音)減去自適應(yīng)濾波器4生成的對(duì)講模擬聲音，由此提取聲音指令、音頻音和環(huán)境噪音。而且，減法器9將減法器5輸出的聲音減去自適應(yīng)濾波器7-1、7-2以及加法器8所生成的音頻模擬聲音，由此提取聲音指令(說(shuō)話聲音)和環(huán)境噪音。這樣，減法器5、9構(gòu)成本發(fā)明的說(shuō)話聲音提取單元。
用聲音識(shí)別引擎54降低減法器5提取的聲音指令、音頻音和環(huán)境噪音的混雜聲音中的環(huán)境噪音，只識(shí)別處理聲音指令。并且，該減法器5提取的說(shuō)話聲音、音頻音和環(huán)境噪音的混雜聲音反饋給增益控制器2以及自適應(yīng)濾波器4。另外，減法器9提取的說(shuō)話聲音和環(huán)境噪音的混雜聲音提供給聲音識(shí)別引擎54，同時(shí)反饋給在第2自適應(yīng)濾波器7-1、7-2。
下面簡(jiǎn)單地說(shuō)明上述結(jié)構(gòu)的第2實(shí)施形態(tài)的聲音識(shí)別裝置200的動(dòng)作。聲音輸出單元5 1輸出的對(duì)講聲音用音量裝置1等和增益控制器2進(jìn)行增益調(diào)整，改善該對(duì)講聲音的清晰度。音量裝置1等輸出的對(duì)講聲音在輸出放大器3中以一定的倍率增幅后從揚(yáng)聲器52輸出。
并且，音頻再生單元61輸出的音頻音在輸出放大器6-1、6-2中以一定的倍率增幅后，從揚(yáng)聲器62-1、62-2中輸出。
揚(yáng)聲器52輸出的對(duì)講聲音、揚(yáng)聲器62-1、62-2輸出的音頻聲音由麥克風(fēng)53輸入。此時(shí)，如果使用者發(fā)出聲音指令的話，其說(shuō)話聲音也由麥克風(fēng)53輸入。并且，如果在行走中，發(fā)動(dòng)機(jī)聲音和道路噪音等環(huán)境噪音也由麥克風(fēng)53輸入。因此，對(duì)講聲音、音頻音、說(shuō)話聲音和環(huán)境噪音以混雜的狀態(tài)從麥克風(fēng)53中輸入。
這種混雜在一起的聲音輸入減法器5的正極端。而自適應(yīng)濾波器4生成的對(duì)講模擬聲音輸入減法器5的負(fù)極端。減法器5將麥克風(fēng)53輸入的混雜聲音減去自適應(yīng)濾波器4輸出的對(duì)講模擬聲音，由此算出誤差，提取音頻聲音、說(shuō)話聲音和環(huán)境噪音。
提取的音頻音、說(shuō)話聲音和環(huán)境噪音的混雜聲音輸入到減法器9的正極端。而自適應(yīng)濾波器7-1、7-2以及加法器8生成的音頻模擬聲音輸入到減法器9的負(fù)極端。減法器9將從減法器5輸入的混雜聲音減去加法器8輸入的音頻模擬聲音，算出誤差，提取說(shuō)話聲音和環(huán)境噪音。
所提取的說(shuō)話聲音以及環(huán)境噪音提供給聲音識(shí)別引擎54。由此進(jìn)行降低環(huán)境噪音的處理以及與聲音指令相對(duì)應(yīng)的處理。減法器5所提取的音頻音、說(shuō)話聲音和環(huán)境噪音也反饋給增益控制器2以及自適應(yīng)濾波器4，用于改善對(duì)講聲音的清晰度的處理以及推定對(duì)講聲音的運(yùn)算的處理。并且，減法器9提取的說(shuō)話聲音和環(huán)境噪音也反饋給自適應(yīng)濾波器7-1、7-2，用于推定音頻音的運(yùn)算處理。
圖6為表示第2實(shí)施形態(tài)的聲音識(shí)別處理的動(dòng)作的流程圖。當(dāng)然，在該圖6中，由于添加了與圖3所示的步驟編號(hào)相同的編號(hào)的處理表示相同的處理內(nèi)容，所以在這里就省略了重復(fù)的說(shuō)明。在圖6中與圖3不同的只是在步驟S2與步驟S3之間以及步驟S9與步驟S10之間分別加入了除去音頻音的處理(步驟S21、S22)。
在步驟S21、S22中，除去音頻音的處理是用運(yùn)算器9將減法器5輸出的聲音減去加法器8輸入的音頻音的推定值，由此除去音頻音、說(shuō)話聲音和環(huán)境噪音的混雜聲音中的音頻音，提取說(shuō)話聲音和環(huán)境噪音。
如以上的詳細(xì)說(shuō)明，如果采用第2實(shí)施形態(tài)，即使在進(jìn)行對(duì)講并且進(jìn)行音頻再生時(shí)輸入聲音，也可以從麥克風(fēng)輸入的聲音中除去對(duì)講聲音和音頻聲音，提取說(shuō)話聲音和環(huán)境噪音并提供給聲音識(shí)別引擎54。因此，即使是在進(jìn)行對(duì)講和音頻再生的過(guò)程中也可以隨時(shí)接受聲音輸入，使用者可以在所希望的時(shí)間進(jìn)行聲音輸入，能夠縮短聲音識(shí)別的操作時(shí)間。
(第3實(shí)施形態(tài))接下來(lái)，對(duì)本發(fā)明的第3實(shí)施形態(tài)進(jìn)行說(shuō)明。圖7是表示第3實(shí)施形態(tài)中的聲音識(shí)別裝置的主要部分結(jié)構(gòu)的方框圖。另外，在圖7中，由于添加了與圖5所示的符號(hào)相同符號(hào)的單元具有相同的功能，所以在這里就省略了重復(fù)的說(shuō)明。
上述圖5所示的第2實(shí)施形態(tài)就對(duì)講聲音的輸出處與音頻音的輸出處不同時(shí)的情況進(jìn)行了說(shuō)明。與之相反，圖7所示的第3實(shí)施形態(tài)表示對(duì)講聲音的輸出處和音頻音的輸出處相同時(shí)的情況。
即，在圖7所示的第3實(shí)施形態(tài)的聲音識(shí)別裝置300中，沒(méi)有設(shè)置圖5所示的輸出放大器3，只設(shè)置了兩個(gè)輸出放大器6-1、6-2。并且，本實(shí)施形態(tài)的聲音識(shí)別裝置300的結(jié)構(gòu)是設(shè)置了可變?yōu)V波器10取代圖5所示的自適應(yīng)濾波器4，而且設(shè)置了加法器11。其它的結(jié)構(gòu)與圖5相同。
在圖7中，加法器11將音量裝置1等輸出的對(duì)講聲音與音頻再生單元61再生的右聲道的音頻音相加，輸出給輸出放大器6-1以及自適應(yīng)濾波器7-1。輸出放大器6-1以一定的倍率增幅加法器11輸出的聲音，從右聲道的揚(yáng)聲器62-1輸出。
并且，自適應(yīng)濾波器7-1鑒別模擬了從右聲道的揚(yáng)聲器62-1至麥克風(fēng)53的傳遞系統(tǒng)的濾波系數(shù)。然后使用該鑒別的濾波系數(shù)濾波處理加法器11輸出的對(duì)講聲音與右聲道的音頻聲音混雜在一起的聲音，由此生成模擬了該混雜聲音的聲音。
可變?yōu)V波器10是濾波系數(shù)為可變的結(jié)構(gòu)的聲音修正濾波器，復(fù)制右聲道的自適應(yīng)濾波器7-1鑒別的濾波系數(shù)，進(jìn)行設(shè)定。然后，濾波處理音量裝置1等輸出的對(duì)講聲音，由此生成在麥克風(fēng)53的位置的對(duì)講模擬聲音。該可變?yōu)V波器10構(gòu)成本發(fā)明的可變?yōu)V波器。
這里，作為可變?yōu)V波器10的濾波系數(shù)的復(fù)制源的右聲道的自適應(yīng)濾波器7-1是模擬從輸出對(duì)講聲音的右聲道的揚(yáng)聲器62-1至麥克風(fēng)53的傳遞系統(tǒng)的自適應(yīng)濾波器。比如，將本實(shí)施形態(tài)的聲音識(shí)別裝置300用于導(dǎo)航裝置時(shí)，從設(shè)置在靠近駕駛座位置的右聲道的揚(yáng)聲器62-1輸出對(duì)講聲音，用于輸入該聲音的麥克風(fēng)53也設(shè)置在駕駛座附近。因此，此時(shí)最好將右聲道的自適應(yīng)濾波器7-1的濾波系數(shù)復(fù)制給可變?yōu)V波器10。此外，駕駛座位于左側(cè)時(shí)，最好將左聲道的自適應(yīng)濾波器7-2的濾波系數(shù)復(fù)制給可變?yōu)V波器10。
接下來(lái)，對(duì)具有上述結(jié)構(gòu)的第3實(shí)施形態(tài)的聲音識(shí)別裝置300的動(dòng)作進(jìn)行簡(jiǎn)單的說(shuō)明。聲音輸出單元51輸出的對(duì)講聲音用音量裝置1等以及增益控制器2進(jìn)行增益調(diào)整，改善該對(duì)講聲音的清晰度。
音量裝置1等輸出的對(duì)講聲音，利用加法器11加到音頻再生單元61再生的右聲道的音頻音中，在輸出放大器6-1中以一定的倍率增幅后，從揚(yáng)聲器62-1輸出。并且，音頻再生單元61再生的左聲道的音頻音在輸出放大器6-2中以一定的倍率增幅后，從揚(yáng)聲器62-2輸出。
揚(yáng)聲器62-1輸出的聲音(對(duì)講聲音和右聲道音頻音的混雜聲音)、揚(yáng)聲器62-2輸出的左聲道音頻音由麥克風(fēng)53輸入。此時(shí)如果使用者發(fā)出聲音指令的話，其說(shuō)話聲音也由麥克風(fēng)53輸入。并且，如果在行走中，發(fā)動(dòng)機(jī)聲音和道路噪音等環(huán)境噪音也由麥克風(fēng)53輸入。因此，對(duì)講聲音、左右聲道的音頻音、說(shuō)話聲音和環(huán)境噪音混雜在一起的聲音從麥克風(fēng)53輸入。
這種混雜在一起的聲音輸入減法器5、9的正極端?？勺?yōu)V波器10生成的對(duì)講模擬聲音輸入減法器5的負(fù)極端。減法器5將麥克風(fēng)53輸入的混雜聲音減去可變?yōu)V波器10輸出的對(duì)講模擬聲音，由此算出誤差，提取音頻聲音、說(shuō)話聲音和環(huán)境噪音。提取的音頻音、說(shuō)話聲音和環(huán)境噪音的混雜聲音反饋給增益控制器2，用于改善對(duì)講聲音的清晰度的處理。
上述加法器11輸出的對(duì)講聲音和右聲道音頻音的混雜聲音也輸入自適應(yīng)濾波器7-1。然后，用該自適應(yīng)濾波器7-1生成對(duì)講聲音和右聲道音頻音混雜的模擬聲音。同時(shí)在自適應(yīng)濾波器7-2中生成左聲道的音頻模擬聲音。
然后，用加法器8將這些自適應(yīng)濾波器7-1、7-2生成的模擬聲音相加，將其結(jié)果輸入減法器9的負(fù)極端。減法器9將減法器5輸入的混雜聲音減去加法器8輸入的對(duì)講聲音與音頻音混雜在一起的聲音，由此算出誤差，提取說(shuō)話聲音和環(huán)境噪音。
減法器9提取的說(shuō)話聲音以及環(huán)境噪音提供給聲音識(shí)別引擎54。由此進(jìn)行降低環(huán)境噪音的處理以及與聲音指令相對(duì)應(yīng)的處理。并且，該減法器9提取的說(shuō)話聲音和環(huán)境噪音還反饋給自適應(yīng)濾波器7-1、7-2，用于推定音頻音的運(yùn)算處理。
另外，由于第3實(shí)施形態(tài)的聲音識(shí)別處理的動(dòng)作與圖6所示的流程圖同樣，所以在這里就省略了說(shuō)明。
如以上詳細(xì)說(shuō)明，在第3實(shí)施形態(tài)中與第2實(shí)施形態(tài)同樣，即使是在進(jìn)行對(duì)講和音頻再生的過(guò)程中也可以隨時(shí)接受聲音輸入，使用者可以在所希望的時(shí)間進(jìn)行聲音輸入。并且，如果采用第3實(shí)施形態(tài)，不必準(zhǔn)備含有用于進(jìn)行濾波系數(shù)鑒別的算法的高級(jí)的自適應(yīng)濾波器用作推定對(duì)講聲音，可以削減這一部分的成本。而且，可變?yōu)V波器10只需復(fù)制濾波系數(shù)就可以，不必要進(jìn)行用于鑒別濾波系數(shù)的運(yùn)算處理，所以具有能夠減輕負(fù)荷的優(yōu)點(diǎn)。
雖然以上對(duì)第1～第3實(shí)施形態(tài)進(jìn)行了說(shuō)明，但這只不過(guò)是實(shí)施本發(fā)明的一個(gè)具體的示例，不能解釋為本發(fā)明的技術(shù)范圍受此限定。即，只要不脫離本發(fā)明的主旨或者其主要的特征，本發(fā)明可以以各種各樣的形式實(shí)施。
發(fā)明效果如上所述，本發(fā)明用自適應(yīng)濾波器推定從揚(yáng)聲器輸出并從麥克風(fēng)輸入的對(duì)講聲音，將麥克風(fēng)輸入的聲音減去該推定值，由此從說(shuō)話聲音與其它的聲音混雜在一起的麥克風(fēng)輸入的聲音中只提取說(shuō)話聲音，所以不必進(jìn)行每次說(shuō)話時(shí)都要按下說(shuō)話按鈕而中斷對(duì)講的繁雜的操作，可以在對(duì)講中的任意時(shí)間里隨時(shí)進(jìn)行聲音輸入。由此，不需進(jìn)行繁雜的操作，可以縮短聲音識(shí)別的操作時(shí)間。
權(quán)利要求
1.一種聲音識(shí)別裝置(100)，具備識(shí)別從麥克風(fēng)(53)輸入的說(shuō)話聲音并通過(guò)揚(yáng)聲器(52)對(duì)講的功能，其特征在于，包括自適應(yīng)濾波器(4)，對(duì)模擬了從上述揚(yáng)聲器(52)輸出的對(duì)講聲音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的濾波系數(shù)進(jìn)行設(shè)定、對(duì)從上述揚(yáng)聲器(52)輸出之前的對(duì)講聲音進(jìn)行濾波處理，由此生成位于上述麥克風(fēng)(53)的對(duì)講模擬聲音；說(shuō)話聲音提取單元(5)，從上述麥克風(fēng)(53)輸入的聲音中減去上述對(duì)講模擬聲音，由此提取說(shuō)話聲音。
2.如權(quán)利要求1所述的聲音識(shí)別裝置(100)，其特征在于，包括清晰度改善處理單元(1，2)，使用上述自適應(yīng)濾波器(4)生成的上述對(duì)講模擬聲音和從上述麥克風(fēng)(53)輸入的聲音中減去上述對(duì)講模擬聲音以后的聲音，進(jìn)行從上述揚(yáng)聲器(52)輸出之前的對(duì)講聲音的清晰度改善處理。
3.如權(quán)利要求1所述的聲音識(shí)別裝置(100)，其特征在于，還包括第2揚(yáng)聲器(62-1、62-2)；第2自適應(yīng)濾波器(7-1，7-2)，對(duì)模擬了從上述第2揚(yáng)聲器(62-1、62-2)輸出的音頻音輸入到上述麥克風(fēng)(53)中去的傳遞系統(tǒng)的第2濾波系數(shù)進(jìn)行設(shè)定，對(duì)從上述第2揚(yáng)聲器(62-1、62-2)輸出之前的音頻音進(jìn)行濾波處理，由此生成位于上述麥克風(fēng)(53)生成音頻模擬音；說(shuō)話聲音提取單元(9)，將從上述麥克風(fēng)(53)經(jīng)由說(shuō)話聲音提取單元(5)輸入的聲音減去上述音頻模擬音，由此提取說(shuō)話聲音。
4.如權(quán)利要求3所述的聲音識(shí)別裝置(200)，其特征在于，設(shè)置了將音頻音相加的加法器(11)，上述第2揚(yáng)聲器(62-1、62-2)中的至少一個(gè)揚(yáng)聲器(62-1)用上述加法器(11)進(jìn)行音頻音的相加。
5.如權(quán)利要求4所述的聲音識(shí)別裝置(300)，其特征在于，上述第2自適應(yīng)濾波器(7-1，7-2)中的至少一個(gè)自適應(yīng)濾波器(7-1)，對(duì)模擬了上述揚(yáng)聲器(62-1)輸出的對(duì)講聲音和音頻音的混合聲音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的濾波系數(shù)進(jìn)行設(shè)定，對(duì)從上述揚(yáng)聲器(62-1)輸出之前的混合聲音進(jìn)行濾波處理，由此生成位于上述麥克風(fēng)(53)的混合模擬聲音。
6.如權(quán)利要求4所述的聲音識(shí)別裝置(300)，其特征在于，上述第2自適應(yīng)濾波器(7-1，7-2)中的另一個(gè)自適應(yīng)濾波器(7-2)，對(duì)模擬了上述多個(gè)揚(yáng)聲器(62-1，62-2)中的另一個(gè)揚(yáng)聲器(62-2)輸出的另一個(gè)聲道的音頻音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的第2濾波系數(shù)進(jìn)行設(shè)定，對(duì)從上述另一個(gè)揚(yáng)聲器(62-2)輸出之前的音頻音進(jìn)行濾波處理，由此生成位于上述麥克風(fēng)(53)的音頻模擬音。
7.如權(quán)利要求6所述的聲音識(shí)別裝置(300)，其特征在于，還包括可變?yōu)V波器(10)，復(fù)制上述自適應(yīng)濾波器(7-1)設(shè)定的濾波系數(shù)并進(jìn)行設(shè)定，對(duì)從上述至一個(gè)揚(yáng)聲器(62-1)輸出之前的對(duì)講聲音進(jìn)行濾波處理，由此生成位于上述麥克風(fēng)(53)的對(duì)講模擬聲音。
8.一種聲音識(shí)別方法，其特征在于，包括以下步驟當(dāng)識(shí)別處理單元(54)對(duì)從麥克風(fēng)(53)輸入的說(shuō)話聲音進(jìn)行識(shí)別處理時(shí)，設(shè)定為不接受聲音輸入的非激活狀態(tài)的步驟；當(dāng)對(duì)上述識(shí)別處理單元(54)所識(shí)別的說(shuō)話聲音開(kāi)始進(jìn)行從揚(yáng)聲器(52)對(duì)講的處理時(shí)，設(shè)定為接受聲音輸入的激活狀態(tài)的步驟；在自適應(yīng)濾波器(4)中設(shè)定模擬了從上述揚(yáng)聲器(52)輸出的對(duì)講聲音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的濾波系數(shù)，對(duì)從上述揚(yáng)聲器(52)輸出之前的對(duì)講聲音進(jìn)行濾波處理，由此生成在上述麥克風(fēng)(53)的位置的對(duì)講模擬聲音的步驟；在設(shè)定上述激活狀態(tài)時(shí)將從麥克風(fēng)(53)輸入的聲音減去上述對(duì)講模擬聲音，由此提取說(shuō)話聲音，提供給上述識(shí)別處理單元(54)的步驟。
9.如權(quán)利要求8所述的聲音識(shí)別方法，其特征在于，還包括用上述對(duì)講模擬聲音，對(duì)從上述揚(yáng)聲器(52)輸出之前的對(duì)講聲音的清晰度進(jìn)行改善處理的步驟。
10.如權(quán)利要求8所述的聲音識(shí)別方法，其特征在于，還包括以下步驟在第2自適應(yīng)濾波器(7-1，7-2)中設(shè)定模擬了從第2揚(yáng)聲器(62-1，62-2)輸出的音頻音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的第2濾波系數(shù)，對(duì)從上述第2揚(yáng)聲器(62-1，62-2)輸出之前的音頻音進(jìn)行濾波處理，由此生成在上述麥克風(fēng)(53)的位置的音頻模擬聲音的步驟；在設(shè)定上述激活狀態(tài)時(shí)將從上述麥克風(fēng)(53)輸入的聲音減去上述對(duì)講模擬聲音和上述音頻模擬聲音，由此提取說(shuō)話聲音，提供給上述識(shí)別處理單元(54)的步驟。
11.如權(quán)利要求10所述的聲音識(shí)別方法，其特征在于，將下述步驟，即上述步驟中的在自適應(yīng)濾波器(4)中設(shè)定將模擬了從上述揚(yáng)聲器(52)輸出的對(duì)講聲音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的濾波系數(shù)、對(duì)從上述揚(yáng)聲器(52)輸出之前的對(duì)講聲音進(jìn)行濾波處理，由此生成在上述麥克風(fēng)(53)的位置的對(duì)講模擬聲音的步驟，替換成下述步驟從上述多個(gè)揚(yáng)聲器(62-1，62-2)中輸出多個(gè)聲道的音頻音，并且至少其中一個(gè)揚(yáng)聲器(62-1)也輸出上述對(duì)講聲音，對(duì)從上述至少一個(gè)揚(yáng)聲器(62-1)輸出之前的某聲道的音頻音與上述對(duì)講聲音的混合聲音進(jìn)行上述濾波處理，由此生成在上述麥克風(fēng)(53)的位置的混合模擬聲音的步驟。
12.如權(quán)利要求11所述的聲音識(shí)別方法，其特征在于，還包括以下步驟在自適應(yīng)濾波器(7-1)中設(shè)定模擬了上述揚(yáng)聲器(62-1)輸出的對(duì)講聲音與音頻音的混合聲音輸入到上述麥克風(fēng)(53)中的傳遞系統(tǒng)的濾波系數(shù)，對(duì)從上述揚(yáng)聲器(62-1)輸出之前的混合聲音進(jìn)行濾波處理，由此生成在上述麥克風(fēng)(53)的位置的混合模擬聲音的步驟；在設(shè)定上述激活狀態(tài)時(shí)，將從由上述麥克風(fēng)(53)輸入的聲音減去上述混合模擬聲音，由此提取說(shuō)話聲音，并提供給上述識(shí)別處理單元(54)的步驟。
13.如權(quán)利要求12所述的聲音識(shí)別方法，其特征在于，還包括復(fù)制上述自適應(yīng)濾波器(7-1)所設(shè)定的濾波系數(shù)并在可變?yōu)V波器(10)中設(shè)定，用上述可變?yōu)V波器(10)對(duì)從上述至少一個(gè)揚(yáng)聲器(62-1)輸出之前的對(duì)講聲音進(jìn)行濾波處理，由此生成在上述麥克風(fēng)(53)的位置的對(duì)講模擬聲音的步驟。
全文摘要
本發(fā)明提供一種具有將所識(shí)別的說(shuō)話聲音反饋給使用者的對(duì)講(talkback)功能的聲音識(shí)別裝置，不必進(jìn)行繁雜的按鈕操作，可以縮短聲音識(shí)別的操作時(shí)間。具有自適應(yīng)濾波器4，對(duì)模擬了輸入聲音指令的說(shuō)話聲音以及來(lái)自揚(yáng)聲器52的對(duì)講聲音的麥克風(fēng)53的位置的傳遞系統(tǒng)的濾波系數(shù)進(jìn)行設(shè)定，濾波處理對(duì)講聲音x(n)、由此生成對(duì)講模擬聲音y(n)；減法器5，通過(guò)將麥克風(fēng)輸入的混雜聲音減去對(duì)講模擬聲音y(n)來(lái)提取說(shuō)話聲音；從說(shuō)話聲音和對(duì)講聲音混雜在一起的聲音中只衰減掉對(duì)講聲音并提供給聲音識(shí)別引擎54，這樣，就可以不必進(jìn)行每次說(shuō)話時(shí)都要按下說(shuō)話按鈕而中斷對(duì)講的繁雜的操作，在對(duì)講過(guò)程中隨時(shí)可以進(jìn)行聲音輸入。
文檔編號(hào)G10L15/20GK1542734SQ200410042129
公開(kāi)日2004年11月3日申請(qǐng)日期2004年5月8日優(yōu)先權(quán)日2003年5月2日
發(fā)明者松本修一, 丸本徹申請(qǐng)人:阿爾派株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載