聲音識(shí)別裝置的制作方法

文檔序號(hào)：2831789閱讀：194來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：聲音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及裝載在車輛上、識(shí)別用戶發(fā)出的聲音的聲音識(shí)別裝置。
背景技術(shù)：
以往，已知利用聲音在系統(tǒng)與用戶之間進(jìn)行對(duì)話的聲音對(duì)話系統(tǒng)(例如，參照專利文獻(xiàn)l)。此聲音對(duì)話系統(tǒng)包括揚(yáng)聲器，該揚(yáng)聲器對(duì)用戶輸出系統(tǒng)側(cè)聲音；話筒，該話筒將用戶應(yīng)揚(yáng)聲器輸出的系統(tǒng)側(cè)聲音而發(fā)出的聲音轉(zhuǎn)換成聲音信號(hào)；聲音識(shí)別部，該聲音識(shí)別部對(duì)輸入到話筒的聲音進(jìn) 行聲音識(shí)別；發(fā)聲定時(shí)檢測(cè)部，該發(fā)聲定時(shí)檢測(cè)部基于話筒將聲音轉(zhuǎn)換成的聲音信號(hào)及來自應(yīng)答生成部的應(yīng)答聲音信號(hào)來檢測(cè)發(fā)聲定時(shí)；熟悉度判定部，該熟悉度判定部利用發(fā)聲定時(shí)對(duì)用戶的聲音對(duì)話的熟悉度進(jìn)行判定；以及聲音輸出變更部，該聲音輸出變更部根據(jù)熟悉度判定部判定出的熟悉度變更系統(tǒng)側(cè)聲音的輸出內(nèi)容。
一般，在聲音識(shí)別裝置中，聲音識(shí)別僅受用戶發(fā)出的聲音的聲響特征影響，例如，自用戶按下識(shí)別開始按鈕等從而系統(tǒng)轉(zhuǎn)為可識(shí)別狀態(tài)至實(shí)際開始發(fā)聲為止的時(shí)間(下文稱為"發(fā)聲定時(shí)")對(duì)識(shí)別結(jié)果不產(chǎn)生影響。
專利文獻(xiàn)1:
日本專利特開2004-333543號(hào)公報(bào)
上述專利文獻(xiàn)所揭示的聲音對(duì)話系統(tǒng)采用以下結(jié)構(gòu)S卩，基于發(fā)聲定時(shí)、使用次數(shù)以及發(fā)聲速度等對(duì)聲音對(duì)話的熟悉度進(jìn)行判定，并考慮此熟悉度而進(jìn)行聲音識(shí)別。然而，熟悉度僅應(yīng)用于系統(tǒng)側(cè)聲音(引導(dǎo)聲音)的輸出變更，對(duì)識(shí)別結(jié)果不產(chǎn)生直接影響。因而，存在依靠用戶的發(fā)聲定時(shí) 發(fā)生誤識(shí)別的問題。
本發(fā)明是為了解決上述問題而作出的，其目的在于提供一種車載用聲音識(shí)別裝置，該車載用聲音識(shí)別裝置能夠根據(jù)用戶的發(fā)聲定時(shí)向用戶呈現(xiàn)
5關(guān)于聲音識(shí)別結(jié)果的適當(dāng)信息。

發(fā)明內(nèi)容
為了解決上述問題，本發(fā)明的聲音識(shí)別裝置包括聲音開始指示部，該聲音開始指示部指示開始聲音識(shí)別；聲音輸入部，該聲音輸入部將所發(fā) 出的聲音輸入并轉(zhuǎn)換成聲音信號(hào)；聲音識(shí)別部，該聲音識(shí)別部基于從聲音輸入部傳送來的聲音信號(hào)對(duì)聲音進(jìn)行識(shí)別；發(fā)聲開始時(shí)間檢測(cè)部，該發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)自聲音開始指示部指示開始聲音識(shí)別至聲音信號(hào)從聲音輸入部傳送來為止的時(shí)間；發(fā)聲定時(shí)判定部，該發(fā)聲定時(shí)判定部通過對(duì)
發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間與預(yù)定的閾值進(jìn)行比較，判定表示發(fā)聲
開始的快慢的發(fā)聲定時(shí)；對(duì)話控制部，該對(duì)話控制部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)，決定呈現(xiàn)聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容；系統(tǒng) 應(yīng)答生成部，該系統(tǒng)應(yīng)答生成部基于對(duì)話控制部所決定的呈現(xiàn)內(nèi)容生成系統(tǒng)應(yīng)答；以及輸出部，該輸出部將系統(tǒng)應(yīng)答生成部所生成的系統(tǒng)應(yīng)答輸出。根據(jù)本發(fā)明的聲音識(shí)別裝置，由于采用輸出與發(fā)聲定時(shí)對(duì)應(yīng)的內(nèi)容的系統(tǒng)應(yīng)答的結(jié)構(gòu)，所以能夠?qū)⑦m當(dāng)?shù)姆瓷涫阶帜患皯?yīng)答引導(dǎo)呈現(xiàn)給用戶。其結(jié)果，用戶可進(jìn)行舒適且適當(dāng)?shù)牟僮?，能夠減輕發(fā)生誤識(shí)別時(shí)的不愉快感。

圖1是表示本發(fā)明的實(shí)施方式1的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖2是表示本發(fā)明的實(shí)施方式1的聲音識(shí)別裝置的動(dòng)作的順序圖。圖3是表示本發(fā)明的實(shí)施方式2的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖4是表示本發(fā)明的實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作的順序圖。圖5是表示本發(fā)明的實(shí)施方式3的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖6是表示本發(fā)明的實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作的順序圖。圖7是表示本發(fā)明的實(shí)施方式4的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖8是表示本發(fā)明的實(shí)施方式4的聲音識(shí)別裝置的動(dòng)作的順序圖。圖9是表示本發(fā)明的實(shí)施方式5的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖IO是表示本發(fā)明的實(shí)施方式5的聲音識(shí)別裝置的動(dòng)作的順序圖。
圖11是表示本發(fā)明的實(shí)施方式6的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖12是表示本發(fā)明的實(shí)施方式6的聲音識(shí)別裝置的動(dòng)作的順序圖。圖13是表示本發(fā)明的實(shí)施方式7的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖14是表示本發(fā)明的實(shí)施方式7的聲音識(shí)別裝置的動(dòng)作的順序圖。圖15是表示本發(fā)明的實(shí)施方式8的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖16是表示本發(fā)明的實(shí)施方式8的聲音識(shí)別裝置的動(dòng)作的順序圖。
具體實(shí)施例方式
下面，為了更詳細(xì)地說明本發(fā)明，參照

用于實(shí)施本發(fā)明的最佳方式。
實(shí)施方式l.
圖1是表示本發(fā)明實(shí)施方式1的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置包括聲音輸入部l、聲音識(shí)別部2、聲音開始指示部3、發(fā)聲開始時(shí)間檢測(cè)部4、發(fā)聲定時(shí)判定部5、對(duì)話控制部6、系統(tǒng)應(yīng)答生成部7、聲音輸出部8、以及反射式字幕輸出部9。
聲音輸入部1例如由話筒構(gòu)成，將用戶發(fā)出的聲音輸入并轉(zhuǎn)換成電信號(hào)，作為聲音信號(hào)傳送到聲音識(shí)別部2及發(fā)聲開始時(shí)間檢測(cè)部4。
聲音識(shí)別部2通過處理從聲音輸入部1傳送來的聲音信號(hào)，對(duì)用戶發(fā) 出的聲音進(jìn)行識(shí)別。更詳細(xì)而言，聲音識(shí)別部2依次執(zhí)行以下動(dòng)作來識(shí)別聲音聲音區(qū)間檢測(cè)，該聲音區(qū)間檢測(cè)根據(jù)從聲音輸入部1傳送來的聲音信號(hào)檢測(cè)用戶的發(fā)聲；聲響分析，該聲響分析將聲音區(qū)間檢測(cè)所得到的聲音信號(hào)轉(zhuǎn)換成參數(shù)表達(dá)；概率運(yùn)算，該概率運(yùn)算以聲響分析所得到的聲音的最小單位為基礎(chǔ)選出并識(shí)別最匹配的音素候選；以及比對(duì)，該比對(duì)將概率運(yùn)算所得到的音素與存儲(chǔ)了詞匯等的詞典進(jìn)行比較來決定識(shí)別結(jié)果。
在聲響分析中，例如利用LPC梅爾倒譜(Linear Predictor Coefficient: 線性預(yù)測(cè)系數(shù))或MFCC (Mel Fr叫uency Cepstrum Coefficient:梅爾頻率倒譜系數(shù))等，將從聲響輸入部l傳送來的聲音信號(hào)轉(zhuǎn)換成特征向量序列，推定聲譜的輪廓(波譜包絡(luò))。在概率運(yùn)算中，例如利用HMM (HiddenMarkov Model:隱馬爾科夫模型)等，以輸入的聲音為基礎(chǔ)，利用聲響分析提取出的聲響參數(shù)，進(jìn)行聲音信號(hào)的音素符號(hào)化，并與預(yù)先準(zhǔn)備的標(biāo)準(zhǔn)音素模型進(jìn)行比較，選出最匹配的音素候選。在比對(duì)處理中，以音素候選為基礎(chǔ)與詞典進(jìn)行比較，選擇匹配度高的詞匯。進(jìn)行以上處理并將聲音識(shí)別部2識(shí)別出的詞匯傳送到對(duì)話控制部6。
聲音開始指示部3由例如形成于畫面上或設(shè)置于操作部(未圖示)的識(shí)別開始按鈕等構(gòu)成。此聲音開始指示部3指示開始聲音識(shí)別時(shí)，表示該內(nèi)容的聲音識(shí)別開始信號(hào)被傳送到開始揭示時(shí)間檢測(cè)部4。聲音識(shí)別裝置以來自此聲音開始指示部3的聲音識(shí)別開始信號(hào)為觸發(fā)(下文稱為"聲音開始觸發(fā)")，轉(zhuǎn)為可識(shí)別狀態(tài)。
發(fā)聲開始時(shí)間檢測(cè)部4檢測(cè)自轉(zhuǎn)為可聲音識(shí)別狀態(tài)即從聲音開始指示部3接收聲音識(shí)別開始信號(hào)、至用戶實(shí)際開始發(fā)聲即聲音信號(hào)從聲音輸入部輸入為止的時(shí)間。此發(fā)聲開始時(shí)間檢測(cè)部4檢測(cè)出的時(shí)間作為發(fā)聲開始時(shí)間傳送到發(fā)聲定時(shí)判定部5。
發(fā)聲定時(shí)判定部5基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間，判定發(fā)聲定時(shí)。更詳細(xì)而言，發(fā)聲定時(shí)判定部5在從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間在預(yù)定閾值以下時(shí)，判定為發(fā)聲定時(shí)"快"，在大于預(yù)定閾值時(shí)，判定為發(fā)聲定時(shí)"慢"。此發(fā)聲定時(shí)判定部5判定出的發(fā)聲定時(shí)被傳送到對(duì)話控制部6。
對(duì)話控制部6根據(jù)發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)，決定呈現(xiàn)給用戶的內(nèi)容。具體而言，對(duì)話控制部6決定將從聲音識(shí)別部2傳送來的詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))，此時(shí)根據(jù)發(fā)聲定時(shí)判定部5判定出的發(fā)聲定時(shí)(快/慢)來變更系統(tǒng)應(yīng)答的內(nèi)容。例如，在發(fā)聲定時(shí)快時(shí)，判斷為發(fā)聲者匆忙地發(fā)聲，在發(fā)聲定時(shí)慢時(shí)，判斷為發(fā)聲者猶豫地發(fā)聲，由于任一情況都有識(shí)別為錯(cuò)誤的詞匯的可能，所以生成"O〇(識(shí)別詞匯)正確嗎"等的確認(rèn)引導(dǎo)。此對(duì)話控制部6所生成的確認(rèn)引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。
系統(tǒng)應(yīng)答生成部7，對(duì)從對(duì)話控制部6傳送來的系統(tǒng)應(yīng)答的生成請(qǐng)求作出響應(yīng)，同時(shí)生成與傳送來的確認(rèn)引導(dǎo)對(duì)應(yīng)的系統(tǒng)應(yīng)答(反射式字幕及
8應(yīng)答引導(dǎo))。此系統(tǒng)應(yīng)答生成部7所生成的系統(tǒng)應(yīng)答被傳送到聲音輸出部8及反射式字幕輸出部9。
聲音輸出部8例如由揚(yáng)聲器構(gòu)成，與本發(fā)明的輸出部的一部分對(duì)應(yīng)。此聲音輸出部8以聲音輸出從系統(tǒng)應(yīng)答生成部7傳送來的系統(tǒng)應(yīng)答所包含的應(yīng)答引導(dǎo)。
反射式字幕輸出部9例如由液晶顯示裝置之類的顯示裝置構(gòu)成，與本發(fā)明的輸出部的另一部分對(duì)應(yīng)。此反射式字幕輸出部9顯示從系統(tǒng)應(yīng)答生成部7傳送來的系統(tǒng)應(yīng)答所包含的反射式字幕。
接著，參照?qǐng)D2所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式1的聲音識(shí)別裝置的動(dòng)作。
首先，用戶操作聲音開始指示部3，從而聲音開始觸發(fā)被傳送到發(fā)聲開始時(shí)間檢測(cè)部4。由此，發(fā)聲開始時(shí)間檢測(cè)部4開始計(jì)量時(shí)間。接著，用戶發(fā)聲時(shí)，其聲音通過聲音輸入部轉(zhuǎn)換成電信號(hào)，作為聲音信號(hào)傳送到聲音識(shí)別部2及發(fā)聲開始時(shí)間檢測(cè)部4。接收了來自聲音輸入部1的聲音信號(hào)的發(fā)聲開始時(shí)間檢測(cè)部4停止計(jì)量時(shí)間，檢測(cè)自從聲音開始指示部3接收聲音開始觸發(fā)至從聲音輸入部1輸入聲音信號(hào)為止的時(shí)間，并作為發(fā)聲開始時(shí)間傳送到發(fā)聲定時(shí)判定部5。發(fā)聲定時(shí)判定部5基于發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間判定發(fā)聲定時(shí)(快/慢)，并將該判定結(jié)果作為定時(shí)判定結(jié)果傳送到對(duì)話控制部6。
另一方面，接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2，基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)行識(shí)別，將作為識(shí)別結(jié)果的所得詞匯傳送到對(duì)話控制部6。對(duì)話控制部6決定將從聲音識(shí)別部2傳送來的詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))，并根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)(快/慢)變更此決定了的系統(tǒng)應(yīng)答的內(nèi)容，將變更后的系統(tǒng)應(yīng)答的內(nèi)容作為確認(rèn)引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。
系統(tǒng)應(yīng)答生成部7，對(duì)從對(duì)話控制部6傳送來的系統(tǒng)應(yīng)答的生成請(qǐng)求作出響應(yīng)，同時(shí)生成與傳送來的確認(rèn)引導(dǎo)對(duì)應(yīng)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))，并將其傳送到聲音輸出部8及反射式字幕輸出部9。由此，從聲音輸出部8以聲音輸出從系統(tǒng)應(yīng)答生成部7傳送來的應(yīng)答引導(dǎo)，并且反
射式字幕輸出部9中顯示從系統(tǒng)應(yīng)答生成部7傳送來的反射式字幕，呈現(xiàn)
給用戶。
如以上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式1的聲音識(shí)別裝置，能夠根據(jù)用戶的發(fā)聲定時(shí)變更系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))。因而，聲音識(shí)別裝置能夠?qū)⑦m當(dāng)?shù)姆瓷涫阶帜患皯?yīng)答引導(dǎo)呈現(xiàn)給用戶，所以用戶可進(jìn)行舒適且適當(dāng)?shù)牟僮?，能夠減輕發(fā)生誤識(shí)別時(shí)的不愉快感。
實(shí)施方式2.
圖3是表示本發(fā)明實(shí)施方式2的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式1的聲音識(shí)別裝置中新增聲音識(shí)別得分修正部10及得分篩選判定部ll而構(gòu)成。在下文中，對(duì)于與實(shí)施方式1的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠郑郊优c實(shí)施方式1所使用符號(hào)相同的符號(hào)并省略或簡化其說明，以與實(shí)施方式1的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
在實(shí)施方式2的聲音識(shí)別裝置中，聲音識(shí)別裝置2將識(shí)別出的詞匯與該詞匯的聲音識(shí)別得分一起傳送到聲音識(shí)別得分修正部10。另外，發(fā)聲定時(shí)判定部5將判定出的發(fā)聲定時(shí)傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正。這里，聲音識(shí)別得分為表示識(shí)別結(jié)果的匹配度的信息。例如，在發(fā)聲定時(shí)快時(shí)，判斷為發(fā)聲者匆忙地發(fā)聲，在發(fā)聲定時(shí)慢時(shí)，判斷為發(fā)聲者猶豫地發(fā)聲，由于任一情況都有識(shí)別為錯(cuò)誤的詞匯的可能，所以聲音識(shí)別得分修正部IO修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得分修正部IO修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
得分篩選判定部11根據(jù)從聲音識(shí)別得分修正部IO傳送來的詞匯的聲音識(shí)別得分，判定是否對(duì)用戶呈現(xiàn)識(shí)別結(jié)果(詞匯)。具體而言，得分篩選判定部11檢查從聲音識(shí)別得分修正部IO傳送來的詞匯的聲音識(shí)別得分是否在預(yù)定閾值以上，若在預(yù)定閾值以上，則將該詞匯傳送到對(duì)話控制部6，若小于預(yù)定閾值，則不將該詞匯傳送到對(duì)話控制部6。對(duì)話控制部6在詞匯從聲音識(shí)別部2傳送來時(shí)，決定將該詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答，并生成引導(dǎo)。此對(duì)話控制部6所生成的引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。
接著，參照?qǐng)D4所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲定時(shí)判定部5輸出發(fā)聲定時(shí)(快/慢)為止的動(dòng)作，以及至接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2輸出識(shí)別結(jié)果的動(dòng)作，與上述實(shí)施方式1的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲定時(shí)判定部5輸出的發(fā)聲定時(shí)被傳送到聲音識(shí)別得分修正部10，以及從聲音識(shí)別部2輸出的識(shí)別結(jié)果被傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正，并將得分修正結(jié)果傳送到得分篩選判定部11。得分篩選判定部11檢査從聲音識(shí)別得分修正部IO傳送來的詞匯的聲音識(shí)別得分是否在預(yù)定閾值以上，若在預(yù)定閾值以上，則將該詞匯傳送到對(duì)話控制部6，若小于預(yù)定閾值，則不將該詞匯傳送到對(duì)話控制部6。
對(duì)話控制部6在詞匯從得分篩選判定部11傳送來時(shí)，決定將該詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))，將此決定的系統(tǒng)應(yīng)答的內(nèi)容作為引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。系統(tǒng)應(yīng)答生成部7，對(duì)從對(duì)話控制部6傳送來的系統(tǒng)應(yīng)答的生成請(qǐng)求作出響應(yīng)，同時(shí)生成與引導(dǎo)對(duì)應(yīng)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))，并將其傳送到聲音輸出部8及反射式字幕輸出部9。由此，聲音輸出部8以聲音輸出從系統(tǒng)應(yīng)答生成部7傳送來的應(yīng)答引導(dǎo)，并且反射式字幕輸出部9顯示從系統(tǒng)應(yīng)答生成部7傳送來的反射式字幕，呈現(xiàn)給用戶。
如上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式2的聲音識(shí)別裝置，能夠根據(jù)用戶的發(fā)聲定時(shí)修正識(shí)別結(jié)果，所以能夠避免將誤識(shí)別可能性高的識(shí)別結(jié)果呈現(xiàn)給用戶。其結(jié)果，能夠抑制被識(shí)別為不是用戶想表達(dá)的詞匯。
實(shí)施方式3.圖5是表示本發(fā)明實(shí)施方式3的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式2的聲音識(shí)別裝置中新增發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成。在下文中，對(duì)于與實(shí)施方式2的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?，附加與實(shí)施方式2所使用符號(hào)相同的符號(hào)并省略或簡化其說明，以與實(shí)施方式2的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
在實(shí)施方式3的聲音識(shí)別裝置中，發(fā)聲開始時(shí)間檢測(cè)部4將檢測(cè)出的發(fā)聲開始時(shí)間傳送到發(fā)聲定時(shí)判定部5，并且也傳送到發(fā)聲定時(shí)學(xué)習(xí)部12。
發(fā)聲定時(shí)學(xué)習(xí)部12基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間，學(xué)習(xí)發(fā)聲定時(shí)。具體而言，發(fā)聲定時(shí)學(xué)習(xí)部12將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間依次存儲(chǔ)。然后，在新的發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4傳送來時(shí)，通過將過去多次試行中檢測(cè)出的發(fā)聲開始時(shí)間除以試行次數(shù)計(jì)算出發(fā)聲開始時(shí)間的平均值，并將其作為平均發(fā)聲定時(shí)傳送到發(fā)聲定時(shí)判定部5。
發(fā)聲定時(shí)判定部5將從發(fā)聲定時(shí)學(xué)習(xí)部12傳送來的平均發(fā)聲定時(shí)作為預(yù)定閾值，在從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間在預(yù)定閾值以下時(shí)，判定為發(fā)聲定時(shí)"快"，在大于預(yù)定閾值時(shí)，判定為發(fā)聲定時(shí)"慢"。然后，將此判定出的發(fā)聲定時(shí)傳送到對(duì)話控制部6。
接著，參照?qǐng)D6所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4輸出為止的動(dòng)作，與上述實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲開始時(shí)間檢測(cè)部4輸出的發(fā)聲開始時(shí)間被傳送到發(fā)聲定時(shí)判定部5及發(fā)聲定時(shí)學(xué)習(xí)部12。
發(fā)聲定時(shí)學(xué)習(xí)部12基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間，計(jì)算出平均發(fā)聲定時(shí)，并將其傳送到發(fā)聲定時(shí)判定部5。發(fā)聲定時(shí)判定部5通過將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間與從發(fā)聲定時(shí)學(xué)習(xí)部12傳送來的平均發(fā)聲定時(shí)進(jìn)行比較，來判定發(fā)聲定時(shí)(快/慢)，并將該判定結(jié)果傳送到聲音識(shí)別得分修正部10。另一方面，接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2，基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)
12行識(shí)別，將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10。之后的動(dòng)作與實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式3的聲音識(shí)別裝置，能夠動(dòng)
態(tài)地改變發(fā)聲定時(shí)判定部12所使用的閾值，所以能夠吸收發(fā)聲定時(shí)的個(gè)人差別。
此外，本實(shí)施方式3的聲音識(shí)別裝置通過在實(shí)施方式2的聲音識(shí)別裝置中新增發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成，但也可以通過在實(shí)施方式1的聲音識(shí) 別裝置中新增發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成。在此情況下，也可取得與上述實(shí) 施方式3的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式4.
圖7是表示本發(fā)明實(shí)施方式4的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過將實(shí)施方式3的聲音識(shí)別裝置中的發(fā)聲定時(shí)學(xué)習(xí)部12變更成方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13而構(gòu)成。在下文中，對(duì)于與實(shí)施方式3的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?，附加與實(shí)施方式3所使用符號(hào)相同的符號(hào)并省略其說明，以與實(shí)施方式3的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā) 聲開始時(shí)間，考慮方差，學(xué)習(xí)發(fā)聲定時(shí)。更詳細(xì)而言，方差考慮發(fā)聲定時(shí) 學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間，計(jì)算考慮了方差的出發(fā)聲定時(shí)判定用閾值，并將其傳送到發(fā)聲定時(shí)判定部5。例如，用戶A及用戶B過去五次的發(fā)聲開始時(shí)間如下所示。
<用戶A〉
第一次6 [秒(s)]
第二次7 [秒]
第三次7 [秒] 第四次7 [秒] 第五次8 [秒] 發(fā)聲開始平均時(shí)間[秒]7 方差值0.5<用戶B〉
第一次15 [秒(S)] 第二次3 [秒] 第三次6 [秒] 第四次4 [秒] 第五次7 [秒] 發(fā)聲開始平均時(shí)間[秒]7 方差值21
對(duì)于用戶A，由于各數(shù)據(jù)離平均值的距離小，所以方差小。另一方面，對(duì)于用戶B，由于各數(shù)據(jù)離平均值的距離大，所以方差大。使發(fā)聲定時(shí)判
定部5所使用的預(yù)定閾值只偏離發(fā)聲開始平均時(shí)間1 [秒]，對(duì)于用戶A 與對(duì)于用戶B而言，意義大不相同。g卩，用戶A的情況下影響大，用戶B 的情況下影響小。因而，在動(dòng)態(tài)地變更發(fā)聲定時(shí)判定部5所使用的閾值時(shí)，需要考慮方差的大小而改變閾值。
接著，參照?qǐng)D8所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式4 的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4輸出為止的動(dòng)作，與上述實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲開始時(shí)間檢測(cè)部4 輸出的發(fā)聲開始時(shí)間被傳送到發(fā)聲定時(shí)判定部5及方差考慮發(fā)聲定時(shí)學(xué)習(xí) 部13。
方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā) 聲開始時(shí)間，考慮方差，計(jì)算出發(fā)聲定時(shí)判定用閾值，并將其傳送到發(fā)聲定時(shí)判定部5。發(fā)聲定時(shí)判定部5通過將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間與從方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13傳送來的發(fā)聲定時(shí)判定用閾值進(jìn)行比較，來判定發(fā)聲定時(shí)(快/慢)，并將該判定結(jié)果傳送到聲音識(shí)別得分修正部10。另一方面，接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí) 別部2，基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)行識(shí)別，將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10。之后的動(dòng)作與實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式4的聲音識(shí)別裝置，能夠根據(jù)用戶的發(fā)聲方差動(dòng)態(tài)地改變發(fā)聲定時(shí)判定部5所使用的閾值，所以能夠吸收用戶發(fā)聲定時(shí)的波動(dòng)。
此外，本實(shí)施方式4的聲音識(shí)別裝置通過在實(shí)施方式2的聲音識(shí)別裝置中新增方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13而構(gòu)成，但也可以通過在實(shí)施方式1 的聲音識(shí)別裝置中新增方差考慮發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成。在此情況下，也可取得與上述實(shí)施方式4的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式5.
圖9是表示本發(fā)明實(shí)施方式5的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式4的聲音識(shí)別裝置中新增修改鍵14并且變更方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13的功能而構(gòu)成。在下文中，對(duì)于與實(shí)施方式4的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?，附加與實(shí)施方式4所使用符號(hào) 相同的符號(hào)并省略其說明，以與實(shí)施方式4的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
修改鍵14例如設(shè)置于畫面上或操作部(未圖示)，用于在識(shí)別結(jié)果呈現(xiàn)給用戶后通過將其按下來指示取消之前的識(shí)別結(jié)果。表示已按下此修改鍵14的情況的修改信號(hào)被傳送到方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13。
方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā) 聲開始時(shí)間和從修改鍵14傳送來的修改信號(hào)，考慮方差，學(xué)習(xí)發(fā)聲定時(shí)。更詳細(xì)而言，方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間、和自聲音輸出部8以聲音輸出應(yīng)答引導(dǎo)或反射式字幕輸出部9中顯示反射式字幕至通過修改鍵H指示取消為止的時(shí)間，考慮方差，計(jì)算發(fā)聲定時(shí)判定用閾值。此方差考慮發(fā)聲定時(shí)判定部13計(jì)算出的發(fā)聲定時(shí)判定用閾值被傳送到發(fā)聲定時(shí)判定部5。
接著，參照?qǐng)D10所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式5 的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4輸出為止的動(dòng)作，
15動(dòng)作與上述實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲開始時(shí)間檢測(cè)
部4輸出的發(fā)聲開始時(shí)間被傳送到發(fā)聲定時(shí)判定部5及發(fā)聲定時(shí)學(xué)習(xí)部12。
另一方面，首先，從聲音輸出部8以聲音輸出應(yīng)答引導(dǎo)，并且反射式字幕輸出部9中顯示反射式字幕，在此狀態(tài)下按下修改鍵14時(shí)，表示該情況的修改信號(hào)被傳送到方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13。方差考慮發(fā)聲定時(shí)學(xué) 習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間、和自聲音輸出部8以聲音輸出應(yīng)答引導(dǎo)或反射式字幕輸出部9中顯示反射式字幕至通過修改鍵14作出取消的指示為止的時(shí)間，考慮方差，計(jì)算出發(fā)聲定時(shí)判定用閾值，并將其傳送到發(fā)聲定時(shí)判定部5。
發(fā)聲定時(shí)判定部5通過將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間與從方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13傳送來的發(fā)聲定時(shí)判定用閾值進(jìn)行比較，來判定發(fā)聲定時(shí)(快/慢)，并將該判定結(jié)果傳送到聲音識(shí)別得分修正部10。另一方面，接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2，基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)行識(shí)別，將識(shí)別結(jié)果傳送到對(duì)話控制部10。之后的動(dòng)作與實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作相同。
如上述說明的那樣，根據(jù)本發(fā)明實(shí)施方式5的聲音識(shí)別裝置，考慮識(shí) 別結(jié)果的信息和至按下修改鍵14為止的時(shí)間進(jìn)行學(xué)習(xí)，生成發(fā)聲定時(shí)判定用閾值，所以能夠更穩(wěn)健地進(jìn)行發(fā)聲定時(shí)的學(xué)習(xí)。
此外，本實(shí)施方式5的聲音識(shí)別裝置通過在實(shí)施方式4的聲音識(shí)別裝置中新增修改鍵14而構(gòu)成，但也可以通過在實(shí)施方式2或?qū)嵤┓绞?的聲音識(shí)別裝置中新增修改鍵14而構(gòu)成。在此情況下，也可取得與上述實(shí)施方式5的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式6.
圖11是表示本發(fā)明實(shí)施方式6的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增行駛狀況檢測(cè)部15并且變更聲音識(shí)別得分修正部10的功能而構(gòu)成。在下文中，對(duì)于與實(shí)施方式5 的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠郑郊优c實(shí)施方式5所使用符號(hào)相同的符號(hào)并省略其說明，以與實(shí)施方式5的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。作為行駛狀況檢測(cè)部15，可以使用車載導(dǎo)航裝置等具有的用于檢測(cè)當(dāng) 前位置的位置檢測(cè)裝置。行駛狀況檢測(cè)部15基于通過位置檢測(cè)裝置得到的位置信息，檢測(cè)行駛狀況。表示此行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。此外，行駛狀況檢測(cè)部15也可以采用除基于位置信息檢測(cè)出的行駛狀況之外還檢測(cè)駕駛操作狀況的結(jié)構(gòu)。在
此情況下，表示行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況或駕駛操作狀況的數(shù) 據(jù)被傳送到聲音識(shí)別得分修正部10。
另外，作為行駛狀況檢測(cè)部15，可以使用車載導(dǎo)航裝置等具有的用于檢測(cè)加速度的加速度檢測(cè)裝置。在此情況下，行駛狀況檢測(cè)部15基于通過加速度檢測(cè)裝置得到的加速度值，檢測(cè)行駛狀況。表示此行駛狀況檢測(cè)部 15檢測(cè)出的行駛狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。此外，行駛狀況檢測(cè)部15也可以采用除基于加速度值檢測(cè)出的行駛狀況之外還檢測(cè)駕駛操作狀況的結(jié)構(gòu)。在此情況下，表示行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況或駕駛操作狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。
作為行駛狀況檢測(cè)部15，還可以使用車載導(dǎo)航裝置等具有的用于檢測(cè) 當(dāng)前位置的位置檢測(cè)裝置及用于檢測(cè)加速度的加速度檢測(cè)裝置這兩者。行駛狀況檢測(cè)部15基于通過位置檢測(cè)裝置得到的位置信息及通過加速度檢測(cè) 裝置得到的加速度值，檢測(cè)行駛狀況。表示此行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。此外，行駛狀況檢測(cè)部 15也可以采用除基于位置信息及加速度值檢測(cè)出的行駛狀況之外還檢測(cè)駕駛操作狀況的結(jié)構(gòu)。在此情況下，表示行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況或駕駛操作狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從行駛狀況檢測(cè)部15傳送來的表示行駛狀況的數(shù)據(jù)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正。例如，若根據(jù)表示行駛狀況的數(shù)據(jù) 判斷為正行駛于高速道路，則由于考慮到方向盤操作或踏板操作較少，所以在發(fā)聲定時(shí)偏移很小時(shí)，修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得分修正部IO修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
接著，參照?qǐng)D12所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式6的聲音識(shí)別裝置的動(dòng)作。此外，在圖12中將修改鍵14的動(dòng)作省略。
自用戶操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲定時(shí)判定部5將發(fā)聲定時(shí)(快/慢)傳送到聲音識(shí)別得分修正部IO為止的動(dòng)作、以及接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí) 別部2將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部IO的動(dòng)作，與上述實(shí)施方式 5的聲音識(shí)別裝置的動(dòng)作相同。
從聲音識(shí)別部2接收了識(shí)別結(jié)果的聲音識(shí)別得分修正部10，根據(jù)從發(fā) 聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從行駛狀況檢測(cè)部15傳送來的表示行駛狀況的數(shù)據(jù)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正，將聲音識(shí)別得分添加到詞匯，并傳送到得分篩選判定部11。之后的動(dòng)作與實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式6的聲音識(shí)別裝置，例如能夠檢測(cè)當(dāng)前位置等行駛狀況并判斷發(fā)聲定時(shí)的偏移是否是由于行駛狀況，所以能夠?qū)⒖紤]了行駛狀況的識(shí)別結(jié)果或應(yīng)答引導(dǎo)等呈現(xiàn)給用戶。
此外，本實(shí)施方式6的聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增行駛狀況檢測(cè)部15而構(gòu)成，但也可以通過在實(shí)施方式2 實(shí)施方式4中的任一實(shí)施方式的聲音識(shí)別裝置中新增行駛狀況檢測(cè)部15而構(gòu)成。在此情況下，也可取得與上述實(shí)施方式6的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式7.
圖13是表示本發(fā)明實(shí)施方式7的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增駕駛操作檢測(cè)部16并且變更聲音識(shí)別得分修正部IO的功能而構(gòu)成。在下文中，對(duì)于與實(shí)施方式5 的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?，附加與實(shí)施方式5所使用符號(hào)相同的符號(hào)并省略其說明，以與實(shí)施方式5的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
駕駛操作檢測(cè)部15根據(jù)從車輛的加速踏板、剎車踏板或方向盤等(都未圖示)傳送來的信號(hào)，檢測(cè)當(dāng)前的駕駛操作狀況。表示此駕駛操作檢測(cè) 部16檢測(cè)出的駕駛操作的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和
從駕駛操作檢測(cè)部16傳送來的表示駕駛操作的數(shù)據(jù)，對(duì)從聲音識(shí)別部2傳
送來的詞匯的聲音識(shí)別得分進(jìn)行修正。例如，若根據(jù)表示駕駛操作的數(shù)據(jù) 判斷為正在倒車，則由于考慮到用戶正集中精力注意周圍，所以即使在發(fā) 聲定時(shí)偏移很小時(shí)，也不修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得
分修正部IO修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
接著，參照?qǐng)D14所示的順序圖，'說明如上所述構(gòu)成的本發(fā)明實(shí)施方式7 的聲音識(shí)別裝置的動(dòng)作。此外，在圖14中將修改鍵14的動(dòng)作省略。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲定時(shí)判定部5將發(fā)聲定時(shí)(快/慢)傳送到聲音識(shí)別得分修正部IO為止的動(dòng)作、以及接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10的動(dòng)作，與上述實(shí)施方式5的聲音識(shí)別裝置的動(dòng)作相同。
從聲音識(shí)別部2接收了識(shí)別結(jié)果的聲音識(shí)別得分修正部10，根據(jù)從發(fā) 聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從駕駛操作檢測(cè)部16傳送來的表示駕駛操作的狀況的數(shù)據(jù)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn) 行修正，將聲音識(shí)別得分添加到詞匯，并傳送到得分篩選判定部11。之后的動(dòng)作與實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式7的聲音識(shí)別裝置，例如能夠檢測(cè)正在轉(zhuǎn)彎之類的駕駛操作狀況，并判斷發(fā)聲定時(shí)的偏移是否是由于駕駛操作狀況，所以能夠?qū)⒖紤]了駕駛操作狀況的識(shí)別結(jié)果或應(yīng)答引導(dǎo)等呈現(xiàn)給用戶。
此外，本實(shí)施方式7的聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增駕駛操作檢測(cè)部16而構(gòu)成，但也可以通過在實(shí)施方式2 實(shí)施方式4中的任一實(shí)施方式的聲音識(shí)別裝置中新增駕駛操作檢測(cè)部16而構(gòu)成。在此情況下，也可取得與上述實(shí)施方式7的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式8.
圖15是表示本發(fā)明實(shí)施方式8的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音
19識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增車內(nèi)設(shè)備操作狀況收集
部17并且變更聲音識(shí)別得分修正部10的功能而構(gòu)成。在下文中，對(duì)于與實(shí)施方式5的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?，附加與實(shí)施方式5所使用符號(hào)相同的符號(hào)并省略其說明，以與實(shí)施方式5的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
車內(nèi)設(shè)備操作狀況收集部17收集表示通過CAN (Controller Area Network:控制器區(qū)域網(wǎng)絡(luò))、MOST (Media Oriented Systems Transport: 媒體導(dǎo)向系統(tǒng)傳輸)、LAN(Local Area Network:局域網(wǎng))或拐射線(FlexRay) 等之類的車載網(wǎng)絡(luò)連接的窗、門、空調(diào)、汽車音響等車內(nèi)設(shè)備(包括車載設(shè)備)的操作狀況的數(shù)據(jù)。表示此駕駛操作檢測(cè)部16檢測(cè)出的車內(nèi)設(shè)備的操作狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從駕駛操作檢測(cè)部16傳送來的表示車內(nèi)設(shè)備的操作狀況的數(shù)據(jù)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正。例如，若判斷為正在操作空調(diào)，由于考慮到正集中精力于操作，所以即使在發(fā)聲定時(shí)偏移很小時(shí)，也修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得分修正部io修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
接著，參照?qǐng)D16所示的順序圖，說明如上所述構(gòu)成的本發(fā)明實(shí)施方式8 的聲音識(shí)別裝置的動(dòng)作。此外，在圖16中將修改鍵14的動(dòng)作省略。
自用戶操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲定時(shí)判定部5將發(fā)聲定時(shí)(快/慢)傳送到聲音識(shí)別得分修正部10為止的動(dòng)作、以及接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí) 別部2將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10的動(dòng)作，與上述實(shí)施方式 5的聲音識(shí)別裝置的動(dòng)作相同。
從聲音識(shí)別部2接收了識(shí)別結(jié)果的聲音識(shí)別得分修正部10，根據(jù)從發(fā) 聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從車內(nèi)設(shè)備操作狀況收集部17傳送來的表示車內(nèi)設(shè)備的操作狀況的數(shù)據(jù)，對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正，將聲音識(shí)別得分添加到詞匯，并傳送到得分篩選判定部11。之后的動(dòng)作與實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。如上所說明的那樣，根據(jù)本發(fā)明實(shí)施方式8的聲音識(shí)別裝置，能夠?qū)?考慮了例如窗或門的開閉、空調(diào)的控制、行駛狀況等車內(nèi)設(shè)備的操作狀況的識(shí)別結(jié)果或應(yīng)答引導(dǎo)等呈現(xiàn)給用戶。
此外，本實(shí)施方式8的聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增車內(nèi)設(shè)備操作狀況收集部17而構(gòu)成，但也可以通過在實(shí)施方式 2 實(shí)施方式4中的任一實(shí)施方式的聲音識(shí)別裝置中車內(nèi)設(shè)備操作狀況收集部17而構(gòu)成。在此情況下，也可取得與上述實(shí)施方式8的聲音識(shí)別裝置相同的作用及效果。
工業(yè)上的實(shí)用性
如上所述，本發(fā)明的聲音識(shí)別裝置采用為了輸出適當(dāng)?shù)姆瓷涫阶帜患?系統(tǒng)應(yīng)答而輸出與發(fā)聲定時(shí)對(duì)應(yīng)的內(nèi)容的系統(tǒng)應(yīng)答的結(jié)構(gòu)，所以適用于可進(jìn)行基于發(fā)聲的操作的車載用終端設(shè)備等。
權(quán)利要求
1.一種聲音識(shí)別裝置，包括聲音開始指示部，該聲音開始指示部指示開始聲音識(shí)別；聲音輸入部，該聲音輸入部將發(fā)出的聲音輸入并轉(zhuǎn)換成聲音信號(hào)；聲音識(shí)別部，該聲音識(shí)別部基于從所述聲音輸入部傳送來的聲音信號(hào)對(duì)聲音進(jìn)行識(shí)別；發(fā)聲開始時(shí)間檢測(cè)部，該發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)自所述聲音開始指示部指示開始聲音識(shí)別至聲音信號(hào)從所述聲音輸入部傳送來為止的時(shí)間；發(fā)聲定時(shí)判定部，該發(fā)聲定時(shí)判定部通過對(duì)所述發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間與預(yù)定的閾值進(jìn)行比較，判定表示發(fā)聲開始的快慢的發(fā)聲定時(shí)；對(duì)話控制部，該對(duì)話控制部根據(jù)所述發(fā)聲定時(shí)，決定呈現(xiàn)所述聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容；系統(tǒng)應(yīng)答生成部，該系統(tǒng)應(yīng)答生成部基于所述對(duì)話控制部所決定的呈現(xiàn)內(nèi)容生成系統(tǒng)應(yīng)答；以及輸出部，該輸出部將所述系統(tǒng)應(yīng)答生成部所生成的系統(tǒng)應(yīng)答輸出。
2. 如權(quán)利要求l所述的聲音識(shí)別裝置，其特征在于，包括聲音識(shí)別得分修正部，該聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)，對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正；以及得分篩選判定部，該得分篩選判定部根據(jù)所述聲音識(shí)別得分修正部修正過的聲音識(shí)別得分，判定是否呈現(xiàn)識(shí)別結(jié)果，對(duì)話控制部根據(jù)所述得分篩選判定部的判定結(jié)果，決定呈現(xiàn)所述聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容。
3. 如權(quán)利要求l所述的聲音識(shí)別裝置，其特征在于，包括發(fā)聲定時(shí)學(xué)習(xí)部，該發(fā)聲定時(shí)學(xué)習(xí)部將發(fā)聲開始時(shí)間檢測(cè)部在過去多次試行中檢測(cè)出的時(shí)間進(jìn)行平均，計(jì)算出平均發(fā)聲定時(shí)，發(fā)聲定時(shí)判定部通過將所述發(fā)聲定時(shí)學(xué)習(xí)部計(jì)算出的平均發(fā)聲定時(shí)作為預(yù)定的閾值、與所述發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間進(jìn)行比較，來判定發(fā)聲定時(shí)。
4. 如權(quán)利要求l所述的聲音識(shí)別裝置，其特征在于，包括方差考慮發(fā)聲定時(shí)學(xué)習(xí)部，該方差考慮發(fā)聲定時(shí)學(xué)習(xí)部基于發(fā)聲開始時(shí)間檢測(cè)部在過去多次試行中檢測(cè)出的時(shí)間，考慮方差，計(jì)算發(fā)聲定時(shí)判定用閾值，發(fā)聲定時(shí)判定部通過將所述方差考慮發(fā)聲定時(shí)學(xué)習(xí)部計(jì)算出的發(fā)聲定時(shí)判定用閾值作為預(yù)定的閾值、與所述發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間進(jìn)行比較，來判定發(fā)聲定時(shí)。
5. 如權(quán)利要求4所述的聲音識(shí)別裝置，其特征在于，包括修改鍵，'該修改鍵指示取消聲音識(shí)別部的識(shí)別結(jié)果，方差考慮發(fā)聲定時(shí)學(xué)習(xí)部基于發(fā)聲開始時(shí)間檢測(cè)部在過去多次試行中檢測(cè)出的時(shí)間、和自輸出部將系統(tǒng)應(yīng)答輸出直至通過所述修改鍵作出取消的指示為止的時(shí)間，計(jì)算考慮方差的發(fā)聲定時(shí)判定用閾值。
6. 如權(quán)利要求2所述的聲音識(shí)別裝置，其特征在于，包括行駛狀況檢測(cè)部，該行駛狀況檢測(cè)部檢測(cè)行駛狀況，聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)和所述行駛狀況檢測(cè)部檢測(cè)出的行駛狀況，對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
7. 如權(quán)利要求2所述的聲音識(shí)別裝置，其特征在于，包括駕駛操作檢測(cè)部，該假使操作檢測(cè)部檢測(cè)駕駛操作的狀況，聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)和所述駕駛操作檢測(cè)部檢測(cè)出的駕駛操作的狀況，對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
8. 如權(quán)利要求6所述的聲音識(shí)別裝置，其特征在于，行駛狀況檢測(cè)部由位置檢測(cè)裝置構(gòu)成，該位置檢測(cè)裝置檢測(cè)當(dāng)前位置并作為位置信息輸出，聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、和基于從所述位置檢測(cè)裝置輸出的位置信息而判斷出的行駛狀況或駕駛操作狀況，對(duì)聲音識(shí)另I」部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
9. 如權(quán)利要求6所述的聲音識(shí)別裝置，其特征在于，行駛狀況檢測(cè)部由加速度檢測(cè)裝置構(gòu)成，該加速度檢測(cè)裝置檢測(cè)加速度，聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、和基于所述加速度檢測(cè)裝置輸出的加速度而判斷出的行駛狀況及駕駛操作狀況，對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
10. 如權(quán)利要求6所述的聲音識(shí)別裝置，其特征在于，行駛狀況檢測(cè)部由位置檢測(cè)裝置和加速度檢測(cè)裝置構(gòu)成，所述位置檢測(cè)裝置檢測(cè)當(dāng)前位置并作為位置信息輸出，所述加速度檢測(cè)裝置檢測(cè)加速度， -.聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、基于從所述位置檢測(cè)裝置輸出的位置信息而判斷出的行駛狀況、以及基于所述加速度檢測(cè)裝置檢測(cè)出的加速度而判斷出的駕駛操作狀況，對(duì)聲音識(shí)別部識(shí) 別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
11. 如權(quán)利要求2所述的聲音識(shí)別裝置，其特征在于，包括車內(nèi)設(shè)備操作狀況收集部，該車內(nèi)設(shè)備操作狀況收集部通過車載網(wǎng)絡(luò)收集車內(nèi)設(shè)備的操作狀況，聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、和所述車內(nèi)設(shè)備操作狀況收集部所收集的車內(nèi)設(shè)備的操作狀況，對(duì)聲音識(shí)別部識(shí) 別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
全文摘要
一種聲音識(shí)別裝置包括聲音開始指示部(3)，該聲音開始指示部(3)指示開始聲音識(shí)別；聲音輸入部(1)，該聲音輸入部(1)將所發(fā)出的聲音輸入并轉(zhuǎn)換成聲音信號(hào)；聲音識(shí)別部(2)，該聲音識(shí)別部(2)基于聲音信號(hào)對(duì)聲音進(jìn)行識(shí)別；發(fā)聲開始時(shí)間檢測(cè)部(4)，該發(fā)聲開始時(shí)間檢測(cè)部(4)檢測(cè)自聲音開始指示部作出指示至聲音信號(hào)從聲音輸入部傳送來為止的時(shí)間；發(fā)聲定時(shí)判定部(5)，該發(fā)聲定時(shí)判定部(5)通過對(duì)發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間與預(yù)定的閾值進(jìn)行比較，判定表示發(fā)聲開始的快慢的發(fā)聲定時(shí)；對(duì)話控制部(6)，該對(duì)話控制部(6)根據(jù)判定出的發(fā)聲定時(shí)，決定呈現(xiàn)聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容；系統(tǒng)應(yīng)答生成部(7)，該系統(tǒng)應(yīng)答生成部(7)基于已決定的呈現(xiàn)內(nèi)容生成系統(tǒng)應(yīng)答；以及輸出部(8)、(9)，該輸出部將生成的系統(tǒng)應(yīng)答輸出。
文檔編號(hào)G10L15/22GK101689366SQ20088002229
公開日2010年3月31日申請(qǐng)日期2008年3月27日優(yōu)先權(quán)日2007年7月2日
發(fā)明者井上讓, 佐藤史尚, 竹里尚嘉, 鈴木忠申請(qǐng)人:三菱電機(jī)株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載