專利名稱:聲音識(shí)別裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及裝載在車輛上、識(shí)別用戶發(fā)出的聲音的聲音識(shí)別裝置。
背景技術(shù):
以往,已知利用聲音在系統(tǒng)與用戶之間進(jìn)行對(duì)話的聲音對(duì)話系統(tǒng)(例 如,參照專利文獻(xiàn)l)。此聲音對(duì)話系統(tǒng)包括揚(yáng)聲器,該揚(yáng)聲器對(duì)用戶輸 出系統(tǒng)側(cè)聲音;話筒,該話筒將用戶應(yīng)揚(yáng)聲器輸出的系統(tǒng)側(cè)聲音而發(fā)出的 聲音轉(zhuǎn)換成聲音信號(hào);聲音識(shí)別部,該聲音識(shí)別部對(duì)輸入到話筒的聲音進(jìn) 行聲音識(shí)別;發(fā)聲定時(shí)檢測(cè)部,該發(fā)聲定時(shí)檢測(cè)部基于話筒將聲音轉(zhuǎn)換成 的聲音信號(hào)及來自應(yīng)答生成部的應(yīng)答聲音信號(hào)來檢測(cè)發(fā)聲定時(shí);熟悉度判 定部,該熟悉度判定部利用發(fā)聲定時(shí)對(duì)用戶的聲音對(duì)話的熟悉度進(jìn)行判定; 以及聲音輸出變更部,該聲音輸出變更部根據(jù)熟悉度判定部判定出的熟悉 度變更系統(tǒng)側(cè)聲音的輸出內(nèi)容。
一般,在聲音識(shí)別裝置中,聲音識(shí)別僅受用戶發(fā)出的聲音的聲響特征 影響,例如,自用戶按下識(shí)別開始按鈕等從而系統(tǒng)轉(zhuǎn)為可識(shí)別狀態(tài)至實(shí)際 開始發(fā)聲為止的時(shí)間(下文稱為"發(fā)聲定時(shí)")對(duì)識(shí)別結(jié)果不產(chǎn)生影響。
專利文獻(xiàn)1:
日本專利特開2004-333543號(hào)公報(bào)
上述專利文獻(xiàn)所揭示的聲音對(duì)話系統(tǒng)采用以下結(jié)構(gòu)S卩,基于發(fā)聲定 時(shí)、使用次數(shù)以及發(fā)聲速度等對(duì)聲音對(duì)話的熟悉度進(jìn)行判定,并考慮此熟 悉度而進(jìn)行聲音識(shí)別。然而,熟悉度僅應(yīng)用于系統(tǒng)側(cè)聲音(引導(dǎo)聲音)的 輸出變更,對(duì)識(shí)別結(jié)果不產(chǎn)生直接影響。因而,存在依靠用戶的發(fā)聲定時(shí) 發(fā)生誤識(shí)別的問題。
本發(fā)明是為了解決上述問題而作出的,其目的在于提供一種車載用聲 音識(shí)別裝置,該車載用聲音識(shí)別裝置能夠根據(jù)用戶的發(fā)聲定時(shí)向用戶呈現(xiàn)
5關(guān)于聲音識(shí)別結(jié)果的適當(dāng)信息。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明的聲音識(shí)別裝置包括聲音開始指示部, 該聲音開始指示部指示開始聲音識(shí)別;聲音輸入部,該聲音輸入部將所發(fā) 出的聲音輸入并轉(zhuǎn)換成聲音信號(hào);聲音識(shí)別部,該聲音識(shí)別部基于從聲音 輸入部傳送來的聲音信號(hào)對(duì)聲音進(jìn)行識(shí)別;發(fā)聲開始時(shí)間檢測(cè)部,該發(fā)聲 開始時(shí)間檢測(cè)部檢測(cè)自聲音開始指示部指示開始聲音識(shí)別至聲音信號(hào)從聲 音輸入部傳送來為止的時(shí)間;發(fā)聲定時(shí)判定部,該發(fā)聲定時(shí)判定部通過對(duì)
發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間與預(yù)定的閾值進(jìn)行比較,判定表示發(fā)聲
開始的快慢的發(fā)聲定時(shí);對(duì)話控制部,該對(duì)話控制部根據(jù)發(fā)聲定時(shí)判定部 判定出的發(fā)聲定時(shí),決定呈現(xiàn)聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容;系統(tǒng) 應(yīng)答生成部,該系統(tǒng)應(yīng)答生成部基于對(duì)話控制部所決定的呈現(xiàn)內(nèi)容生成系 統(tǒng)應(yīng)答;以及輸出部,該輸出部將系統(tǒng)應(yīng)答生成部所生成的系統(tǒng)應(yīng)答輸出。 根據(jù)本發(fā)明的聲音識(shí)別裝置,由于采用輸出與發(fā)聲定時(shí)對(duì)應(yīng)的內(nèi)容的 系統(tǒng)應(yīng)答的結(jié)構(gòu),所以能夠?qū)⑦m當(dāng)?shù)姆瓷涫阶帜患皯?yīng)答引導(dǎo)呈現(xiàn)給用戶。 其結(jié)果,用戶可進(jìn)行舒適且適當(dāng)?shù)牟僮?,能夠減輕發(fā)生誤識(shí)別時(shí)的不愉快 感。
圖1是表示本發(fā)明的實(shí)施方式1的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖2是表示本發(fā)明的實(shí)施方式1的聲音識(shí)別裝置的動(dòng)作的順序圖。 圖3是表示本發(fā)明的實(shí)施方式2的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖4是表示本發(fā)明的實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作的順序圖。 圖5是表示本發(fā)明的實(shí)施方式3的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖6是表示本發(fā)明的實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作的順序圖。 圖7是表示本發(fā)明的實(shí)施方式4的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖8是表示本發(fā)明的實(shí)施方式4的聲音識(shí)別裝置的動(dòng)作的順序圖。 圖9是表示本發(fā)明的實(shí)施方式5的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。圖IO是表示本發(fā)明的實(shí)施方式5的聲音識(shí)別裝置的動(dòng)作的順序圖。
圖11是表示本發(fā)明的實(shí)施方式6的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖12是表示本發(fā)明的實(shí)施方式6的聲音識(shí)別裝置的動(dòng)作的順序圖。 圖13是表示本發(fā)明的實(shí)施方式7的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖14是表示本發(fā)明的實(shí)施方式7的聲音識(shí)別裝置的動(dòng)作的順序圖。 圖15是表示本發(fā)明的實(shí)施方式8的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。 圖16是表示本發(fā)明的實(shí)施方式8的聲音識(shí)別裝置的動(dòng)作的順序圖。
具體實(shí)施例方式
下面,為了更詳細(xì)地說明本發(fā)明,參照
用于實(shí)施本發(fā)明的最 佳方式。
實(shí)施方式l.
圖1是表示本發(fā)明實(shí)施方式1的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音 識(shí)別裝置包括聲音輸入部l、聲音識(shí)別部2、聲音開始指示部3、發(fā)聲開 始時(shí)間檢測(cè)部4、發(fā)聲定時(shí)判定部5、對(duì)話控制部6、系統(tǒng)應(yīng)答生成部7、 聲音輸出部8、以及反射式字幕輸出部9。
聲音輸入部1例如由話筒構(gòu)成,將用戶發(fā)出的聲音輸入并轉(zhuǎn)換成電信 號(hào),作為聲音信號(hào)傳送到聲音識(shí)別部2及發(fā)聲開始時(shí)間檢測(cè)部4。
聲音識(shí)別部2通過處理從聲音輸入部1傳送來的聲音信號(hào),對(duì)用戶發(fā) 出的聲音進(jìn)行識(shí)別。更詳細(xì)而言,聲音識(shí)別部2依次執(zhí)行以下動(dòng)作來識(shí)別 聲音聲音區(qū)間檢測(cè),該聲音區(qū)間檢測(cè)根據(jù)從聲音輸入部1傳送來的聲音 信號(hào)檢測(cè)用戶的發(fā)聲;聲響分析,該聲響分析將聲音區(qū)間檢測(cè)所得到的聲 音信號(hào)轉(zhuǎn)換成參數(shù)表達(dá);概率運(yùn)算,該概率運(yùn)算以聲響分析所得到的聲音 的最小單位為基礎(chǔ)選出并識(shí)別最匹配的音素候選;以及比對(duì),該比對(duì)將概 率運(yùn)算所得到的音素與存儲(chǔ)了詞匯等的詞典進(jìn)行比較來決定識(shí)別結(jié)果。
在聲響分析中,例如利用LPC梅爾倒譜(Linear Predictor Coefficient: 線性預(yù)測(cè)系數(shù))或MFCC (Mel Fr叫uency Cepstrum Coefficient:梅爾頻率 倒譜系數(shù))等,將從聲響輸入部l傳送來的聲音信號(hào)轉(zhuǎn)換成特征向量序列, 推定聲譜的輪廓(波譜包絡(luò))。在概率運(yùn)算中,例如利用HMM (HiddenMarkov Model:隱馬爾科夫模型)等,以輸入的聲音為基礎(chǔ),利用聲響分析提取出的聲響參數(shù),進(jìn)行聲音信號(hào)的音素符號(hào)化,并與預(yù)先準(zhǔn)備的標(biāo)準(zhǔn)音素模型進(jìn)行比較,選出最匹配的音素候選。在比對(duì)處理中,以音素候選為基礎(chǔ)與詞典進(jìn)行比較,選擇匹配度高的詞匯。進(jìn)行以上處理并將聲音識(shí)別部2識(shí)別出的詞匯傳送到對(duì)話控制部6。
聲音開始指示部3由例如形成于畫面上或設(shè)置于操作部(未圖示)的識(shí)別開始按鈕等構(gòu)成。此聲音開始指示部3指示開始聲音識(shí)別時(shí),表示該內(nèi)容的聲音識(shí)別開始信號(hào)被傳送到開始揭示時(shí)間檢測(cè)部4。聲音識(shí)別裝置以來自此聲音開始指示部3的聲音識(shí)別開始信號(hào)為觸發(fā)(下文稱為"聲音開始觸發(fā)"),轉(zhuǎn)為可識(shí)別狀態(tài)。
發(fā)聲開始時(shí)間檢測(cè)部4檢測(cè)自轉(zhuǎn)為可聲音識(shí)別狀態(tài)即從聲音開始指示部3接收聲音識(shí)別開始信號(hào)、至用戶實(shí)際開始發(fā)聲即聲音信號(hào)從聲音輸入部輸入為止的時(shí)間。此發(fā)聲開始時(shí)間檢測(cè)部4檢測(cè)出的時(shí)間作為發(fā)聲開始時(shí)間傳送到發(fā)聲定時(shí)判定部5。
發(fā)聲定時(shí)判定部5基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間,判定發(fā)聲定時(shí)。更詳細(xì)而言,發(fā)聲定時(shí)判定部5在從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間在預(yù)定閾值以下時(shí),判定為發(fā)聲定時(shí)"快",在大于預(yù)定閾值時(shí),判定為發(fā)聲定時(shí)"慢"。此發(fā)聲定時(shí)判定部5判定出的發(fā)聲定時(shí)被傳送到對(duì)話控制部6。
對(duì)話控制部6根據(jù)發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí),決定呈現(xiàn)給用戶的內(nèi)容。具體而言,對(duì)話控制部6決定將從聲音識(shí)別部2傳送來的詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo)),此時(shí)根據(jù)發(fā)聲定時(shí)判定部5判定出的發(fā)聲定時(shí)(快/慢)來變更系統(tǒng)應(yīng)答的內(nèi)容。例如,在發(fā)聲定時(shí)快時(shí),判斷為發(fā)聲者匆忙地發(fā)聲,在發(fā)聲定時(shí)慢時(shí),判斷為發(fā)聲者猶豫地發(fā)聲,由于任一情況都有識(shí)別為錯(cuò)誤的詞匯的可能,所以生成"O〇(識(shí)別詞匯)正確嗎"等的確認(rèn)引導(dǎo)。此對(duì)話控制部6所生成的確認(rèn)引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。
系統(tǒng)應(yīng)答生成部7,對(duì)從對(duì)話控制部6傳送來的系統(tǒng)應(yīng)答的生成請(qǐng)求作出響應(yīng),同時(shí)生成與傳送來的確認(rèn)引導(dǎo)對(duì)應(yīng)的系統(tǒng)應(yīng)答(反射式字幕及
8應(yīng)答引導(dǎo))。此系統(tǒng)應(yīng)答生成部7所生成的系統(tǒng)應(yīng)答被傳送到聲音輸出部8及反射式字幕輸出部9。
聲音輸出部8例如由揚(yáng)聲器構(gòu)成,與本發(fā)明的輸出部的一部分對(duì)應(yīng)。此聲音輸出部8以聲音輸出從系統(tǒng)應(yīng)答生成部7傳送來的系統(tǒng)應(yīng)答所包含的應(yīng)答引導(dǎo)。
反射式字幕輸出部9例如由液晶顯示裝置之類的顯示裝置構(gòu)成,與本發(fā)明的輸出部的另一部分對(duì)應(yīng)。此反射式字幕輸出部9顯示從系統(tǒng)應(yīng)答生成部7傳送來的系統(tǒng)應(yīng)答所包含的反射式字幕。
接著,參照?qǐng)D2所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式1的聲音識(shí)別裝置的動(dòng)作。
首先,用戶操作聲音開始指示部3,從而聲音開始觸發(fā)被傳送到發(fā)聲開始時(shí)間檢測(cè)部4。由此,發(fā)聲開始時(shí)間檢測(cè)部4開始計(jì)量時(shí)間。接著,用戶發(fā)聲時(shí),其聲音通過聲音輸入部轉(zhuǎn)換成電信號(hào),作為聲音信號(hào)傳送到聲音識(shí)別部2及發(fā)聲開始時(shí)間檢測(cè)部4。接收了來自聲音輸入部1的聲音信號(hào)的發(fā)聲開始時(shí)間檢測(cè)部4停止計(jì)量時(shí)間,檢測(cè)自從聲音開始指示部3接收聲音開始觸發(fā)至從聲音輸入部1輸入聲音信號(hào)為止的時(shí)間,并作為發(fā)聲開始時(shí)間傳送到發(fā)聲定時(shí)判定部5。發(fā)聲定時(shí)判定部5基于發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間判定發(fā)聲定時(shí)(快/慢),并將該判定結(jié)果作為定時(shí)判定結(jié)果傳送到對(duì)話控制部6。
另一方面,接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2,基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)行識(shí)別,將作為識(shí)別結(jié)果的所得詞匯傳送到對(duì)話控制部6。對(duì)話控制部6決定將從聲音識(shí)別部2傳送來的詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo)),并根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)(快/慢)變更此決定了的系統(tǒng)應(yīng)答的內(nèi)容,將變更后的系統(tǒng)應(yīng)答的內(nèi)容作為確認(rèn)引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。
系統(tǒng)應(yīng)答生成部7,對(duì)從對(duì)話控制部6傳送來的系統(tǒng)應(yīng)答的生成請(qǐng)求作出響應(yīng),同時(shí)生成與傳送來的確認(rèn)引導(dǎo)對(duì)應(yīng)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo)),并將其傳送到聲音輸出部8及反射式字幕輸出部9。由此,從聲音輸出部8以聲音輸出從系統(tǒng)應(yīng)答生成部7傳送來的應(yīng)答引導(dǎo),并且反
射式字幕輸出部9中顯示從系統(tǒng)應(yīng)答生成部7傳送來的反射式字幕,呈現(xiàn)
給用戶。
如以上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式1的聲音識(shí)別裝置,能夠根據(jù)用戶的發(fā)聲定時(shí)變更系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo))。因而,聲音識(shí)別裝置能夠?qū)⑦m當(dāng)?shù)姆瓷涫阶帜患皯?yīng)答引導(dǎo)呈現(xiàn)給用戶,所以用戶可進(jìn)行舒適且適當(dāng)?shù)牟僮?,能夠減輕發(fā)生誤識(shí)別時(shí)的不愉快感。
實(shí)施方式2.
圖3是表示本發(fā)明實(shí)施方式2的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式1的聲音識(shí)別裝置中新增聲音識(shí)別得分修正部10及得分篩選判定部ll而構(gòu)成。在下文中,對(duì)于與實(shí)施方式1的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠郑郊优c實(shí)施方式1所使用符號(hào)相同的符號(hào)并省略或簡化其說明,以與實(shí)施方式1的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
在實(shí)施方式2的聲音識(shí)別裝置中,聲音識(shí)別裝置2將識(shí)別出的詞匯與該詞匯的聲音識(shí)別得分一起傳送到聲音識(shí)別得分修正部10。另外,發(fā)聲定時(shí)判定部5將判定出的發(fā)聲定時(shí)傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí),對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正。這里,聲音識(shí)別得分為表示識(shí)別結(jié)果的匹配度的信息。例如,在發(fā)聲定時(shí)快時(shí),判斷為發(fā)聲者匆忙地發(fā)聲,在發(fā)聲定時(shí)慢時(shí),判斷為發(fā)聲者猶豫地發(fā)聲,由于任一情況都有識(shí)別為錯(cuò)誤的詞匯的可能,所以聲音識(shí)別得分修正部IO修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得分修正部IO修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
得分篩選判定部11根據(jù)從聲音識(shí)別得分修正部IO傳送來的詞匯的聲音識(shí)別得分,判定是否對(duì)用戶呈現(xiàn)識(shí)別結(jié)果(詞匯)。具體而言,得分篩選判定部11檢查從聲音識(shí)別得分修正部IO傳送來的詞匯的聲音識(shí)別得分是否在預(yù)定閾值以上,若在預(yù)定閾值以上,則將該詞匯傳送到對(duì)話控制部6,若小于預(yù)定閾值,則不將該詞匯傳送到對(duì)話控制部6。對(duì)話控制部6在詞匯從聲音識(shí)別部2傳送來時(shí),決定將該詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答,并生成引導(dǎo)。此對(duì)話控制部6所生成的引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。
接著,參照?qǐng)D4所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲定時(shí)判定部5輸出發(fā)聲定時(shí)(快/慢)為止的動(dòng)作,以及至接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2輸出識(shí)別結(jié)果的動(dòng)作,與上述實(shí)施方式1的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲定時(shí)判定部5輸出的發(fā)聲定時(shí)被傳送到聲音識(shí)別得分修正部10,以及從聲音識(shí)別部2輸出的識(shí)別結(jié)果被傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí),對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正,并將得分修正結(jié)果傳送到得分篩選判定部11。得分篩選判定部11檢査從聲音識(shí)別得分修正部IO傳送來的詞匯的聲音識(shí)別得分是否在預(yù)定閾值以上,若在預(yù)定閾值以上,則將該詞匯傳送到對(duì)話控制部6,若小于預(yù)定閾值,則不將該詞匯傳送到對(duì)話控制部6。
對(duì)話控制部6在詞匯從得分篩選判定部11傳送來時(shí),決定將該詞匯呈現(xiàn)給用戶時(shí)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo)),將此決定的系統(tǒng)應(yīng)答的內(nèi)容作為引導(dǎo)與系統(tǒng)應(yīng)答的生成請(qǐng)求一起傳送到系統(tǒng)應(yīng)答生成部7。系統(tǒng)應(yīng)答生成部7,對(duì)從對(duì)話控制部6傳送來的系統(tǒng)應(yīng)答的生成請(qǐng)求作出響應(yīng),同時(shí)生成與引導(dǎo)對(duì)應(yīng)的系統(tǒng)應(yīng)答(反射式字幕及應(yīng)答引導(dǎo)),并將其傳送到聲音輸出部8及反射式字幕輸出部9。由此,聲音輸出部8以聲音輸出從系統(tǒng)應(yīng)答生成部7傳送來的應(yīng)答引導(dǎo),并且反射式字幕輸出部9顯示從系統(tǒng)應(yīng)答生成部7傳送來的反射式字幕,呈現(xiàn)給用戶。
如上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式2的聲音識(shí)別裝置,能夠根據(jù)用戶的發(fā)聲定時(shí)修正識(shí)別結(jié)果,所以能夠避免將誤識(shí)別可能性高的識(shí)別結(jié)果呈現(xiàn)給用戶。其結(jié)果,能夠抑制被識(shí)別為不是用戶想表達(dá)的詞匯。
實(shí)施方式3.圖5是表示本發(fā)明實(shí)施方式3的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音識(shí)別裝置通過在實(shí)施方式2的聲音識(shí)別裝置中新增發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成。在下文中,對(duì)于與實(shí)施方式2的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?,附加與實(shí)施方式2所使用符號(hào)相同的符號(hào)并省略或簡化其說明,以與實(shí)施方式2的聲音識(shí)別裝置不同的部分為中心進(jìn)行說明。
在實(shí)施方式3的聲音識(shí)別裝置中,發(fā)聲開始時(shí)間檢測(cè)部4將檢測(cè)出的發(fā)聲開始時(shí)間傳送到發(fā)聲定時(shí)判定部5,并且也傳送到發(fā)聲定時(shí)學(xué)習(xí)部12。
發(fā)聲定時(shí)學(xué)習(xí)部12基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間,學(xué)習(xí)發(fā)聲定時(shí)。具體而言,發(fā)聲定時(shí)學(xué)習(xí)部12將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間依次存儲(chǔ)。然后,在新的發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4傳送來時(shí),通過將過去多次試行中檢測(cè)出的發(fā)聲開始時(shí)間除以試行次數(shù)計(jì)算出發(fā)聲開始時(shí)間的平均值,并將其作為平均發(fā)聲定時(shí)傳送到發(fā)聲定時(shí)判定部5。
發(fā)聲定時(shí)判定部5將從發(fā)聲定時(shí)學(xué)習(xí)部12傳送來的平均發(fā)聲定時(shí)作為預(yù)定閾值,在從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間在預(yù)定閾值以下時(shí),判定為發(fā)聲定時(shí)"快",在大于預(yù)定閾值時(shí),判定為發(fā)聲定時(shí)"慢"。然后,將此判定出的發(fā)聲定時(shí)傳送到對(duì)話控制部6。
接著,參照?qǐng)D6所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間檢測(cè)部4、至發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4輸出為止的動(dòng)作,與上述實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲開始時(shí)間檢測(cè)部4輸出的發(fā)聲開始時(shí)間被傳送到發(fā)聲定時(shí)判定部5及發(fā)聲定時(shí)學(xué)習(xí)部12。
發(fā)聲定時(shí)學(xué)習(xí)部12基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間,計(jì)算出平均發(fā)聲定時(shí),并將其傳送到發(fā)聲定時(shí)判定部5。發(fā)聲定時(shí)判定部5通過將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間與從發(fā)聲定時(shí)學(xué)習(xí)部12傳送來的平均發(fā)聲定時(shí)進(jìn)行比較,來判定發(fā)聲定時(shí)(快/慢),并將該判定結(jié)果傳送到聲音識(shí)別得分修正部10。另一方面,接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2,基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)
12行識(shí)別,將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10。之后的動(dòng)作與實(shí)施方 式2的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式3的聲音識(shí)別裝置,能夠動(dòng)
態(tài)地改變發(fā)聲定時(shí)判定部12所使用的閾值,所以能夠吸收發(fā)聲定時(shí)的個(gè)人差別。
此外,本實(shí)施方式3的聲音識(shí)別裝置通過在實(shí)施方式2的聲音識(shí)別裝 置中新增發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成,但也可以通過在實(shí)施方式1的聲音識(shí) 別裝置中新增發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成。在此情況下,也可取得與上述實(shí) 施方式3的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式4.
圖7是表示本發(fā)明實(shí)施方式4的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音 識(shí)別裝置通過將實(shí)施方式3的聲音識(shí)別裝置中的發(fā)聲定時(shí)學(xué)習(xí)部12變更成 方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13而構(gòu)成。在下文中,對(duì)于與實(shí)施方式3的聲音 識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?,附加與實(shí)施方式3所使用符號(hào)相 同的符號(hào)并省略其說明,以與實(shí)施方式3的聲音識(shí)別裝置不同的部分為中 心進(jìn)行說明。
方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā) 聲開始時(shí)間,考慮方差,學(xué)習(xí)發(fā)聲定時(shí)。更詳細(xì)而言,方差考慮發(fā)聲定時(shí) 學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間,計(jì)算考慮 了方差的出發(fā)聲定時(shí)判定用閾值,并將其傳送到發(fā)聲定時(shí)判定部5。例如, 用戶A及用戶B過去五次的發(fā)聲開始時(shí)間如下所示。
<用戶A〉
第一次6 [秒(s)]
第二次7 [秒]
第三次7 [秒] 第四次7 [秒] 第五次8 [秒] 發(fā)聲開始平均時(shí)間[秒]7 方差值0.5<用戶B〉
第一次15 [秒(S)] 第二次3 [秒] 第三次6 [秒] 第四次4 [秒] 第五次7 [秒] 發(fā)聲開始平均時(shí)間[秒]7 方差值21
對(duì)于用戶A,由于各數(shù)據(jù)離平均值的距離小,所以方差小。另一方面, 對(duì)于用戶B,由于各數(shù)據(jù)離平均值的距離大,所以方差大。使發(fā)聲定時(shí)判
定部5所使用的預(yù)定閾值只偏離發(fā)聲開始平均時(shí)間1 [秒],對(duì)于用戶A 與對(duì)于用戶B而言,意義大不相同。g卩,用戶A的情況下影響大,用戶B 的情況下影響小。因而,在動(dòng)態(tài)地變更發(fā)聲定時(shí)判定部5所使用的閾值時(shí), 需要考慮方差的大小而改變閾值。
接著,參照?qǐng)D8所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式4 的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始 時(shí)間檢測(cè)部4、至發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4輸出為止的動(dòng)作, 與上述實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲開始時(shí)間檢測(cè)部4 輸出的發(fā)聲開始時(shí)間被傳送到發(fā)聲定時(shí)判定部5及方差考慮發(fā)聲定時(shí)學(xué)習(xí) 部13。
方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā) 聲開始時(shí)間,考慮方差,計(jì)算出發(fā)聲定時(shí)判定用閾值,并將其傳送到發(fā)聲 定時(shí)判定部5。發(fā)聲定時(shí)判定部5通過將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的 發(fā)聲開始時(shí)間與從方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13傳送來的發(fā)聲定時(shí)判定用閾 值進(jìn)行比較,來判定發(fā)聲定時(shí)(快/慢),并將該判定結(jié)果傳送到聲音識(shí)別 得分修正部10。另一方面,接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí) 別部2,基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)行識(shí)別,將識(shí)別結(jié)果傳送到聲 音識(shí)別得分修正部10。之后的動(dòng)作與實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式4的聲音識(shí)別裝置,能夠根 據(jù)用戶的發(fā)聲方差動(dòng)態(tài)地改變發(fā)聲定時(shí)判定部5所使用的閾值,所以能夠 吸收用戶發(fā)聲定時(shí)的波動(dòng)。
此外,本實(shí)施方式4的聲音識(shí)別裝置通過在實(shí)施方式2的聲音識(shí)別裝 置中新增方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13而構(gòu)成,但也可以通過在實(shí)施方式1 的聲音識(shí)別裝置中新增方差考慮發(fā)聲定時(shí)學(xué)習(xí)部12而構(gòu)成。在此情況下, 也可取得與上述實(shí)施方式4的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式5.
圖9是表示本發(fā)明實(shí)施方式5的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音 識(shí)別裝置通過在實(shí)施方式4的聲音識(shí)別裝置中新增修改鍵14并且變更方差 考慮發(fā)聲定時(shí)學(xué)習(xí)部13的功能而構(gòu)成。在下文中,對(duì)于與實(shí)施方式4的聲 音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?,附加與實(shí)施方式4所使用符號(hào) 相同的符號(hào)并省略其說明,以與實(shí)施方式4的聲音識(shí)別裝置不同的部分為 中心進(jìn)行說明。
修改鍵14例如設(shè)置于畫面上或操作部(未圖示),用于在識(shí)別結(jié)果呈 現(xiàn)給用戶后通過將其按下來指示取消之前的識(shí)別結(jié)果。表示已按下此修改 鍵14的情況的修改信號(hào)被傳送到方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13。
方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā) 聲開始時(shí)間和從修改鍵14傳送來的修改信號(hào),考慮方差,學(xué)習(xí)發(fā)聲定時(shí)。 更詳細(xì)而言,方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳 送來的發(fā)聲開始時(shí)間、和自聲音輸出部8以聲音輸出應(yīng)答引導(dǎo)或反射式字 幕輸出部9中顯示反射式字幕至通過修改鍵H指示取消為止的時(shí)間,考慮 方差,計(jì)算發(fā)聲定時(shí)判定用閾值。此方差考慮發(fā)聲定時(shí)判定部13計(jì)算出的 發(fā)聲定時(shí)判定用閾值被傳送到發(fā)聲定時(shí)判定部5。
接著,參照?qǐng)D10所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式5 的聲音識(shí)別裝置的動(dòng)作。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始 時(shí)間檢測(cè)部4、至發(fā)聲開始時(shí)間從發(fā)聲開始時(shí)間檢測(cè)部4輸出為止的動(dòng)作,
15動(dòng)作與上述實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。從發(fā)聲開始時(shí)間檢測(cè)
部4輸出的發(fā)聲開始時(shí)間被傳送到發(fā)聲定時(shí)判定部5及發(fā)聲定時(shí)學(xué)習(xí)部12。
另一方面,首先,從聲音輸出部8以聲音輸出應(yīng)答引導(dǎo),并且反射式 字幕輸出部9中顯示反射式字幕,在此狀態(tài)下按下修改鍵14時(shí),表示該情 況的修改信號(hào)被傳送到方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13。方差考慮發(fā)聲定時(shí)學(xué) 習(xí)部13基于從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始時(shí)間、和自聲音輸 出部8以聲音輸出應(yīng)答引導(dǎo)或反射式字幕輸出部9中顯示反射式字幕至通 過修改鍵14作出取消的指示為止的時(shí)間,考慮方差,計(jì)算出發(fā)聲定時(shí)判定 用閾值,并將其傳送到發(fā)聲定時(shí)判定部5。
發(fā)聲定時(shí)判定部5通過將從發(fā)聲開始時(shí)間檢測(cè)部4傳送來的發(fā)聲開始 時(shí)間與從方差考慮發(fā)聲定時(shí)學(xué)習(xí)部13傳送來的發(fā)聲定時(shí)判定用閾值進(jìn)行比 較,來判定發(fā)聲定時(shí)(快/慢),并將該判定結(jié)果傳送到聲音識(shí)別得分修正 部10。另一方面,接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí)別部2, 基于該聲音信號(hào)對(duì)用戶發(fā)出的聲音進(jìn)行識(shí)別,將識(shí)別結(jié)果傳送到對(duì)話控制 部10。之后的動(dòng)作與實(shí)施方式3的聲音識(shí)別裝置的動(dòng)作相同。
如上述說明的那樣,根據(jù)本發(fā)明實(shí)施方式5的聲音識(shí)別裝置,考慮識(shí) 別結(jié)果的信息和至按下修改鍵14為止的時(shí)間進(jìn)行學(xué)習(xí),生成發(fā)聲定時(shí)判定 用閾值,所以能夠更穩(wěn)健地進(jìn)行發(fā)聲定時(shí)的學(xué)習(xí)。
此外,本實(shí)施方式5的聲音識(shí)別裝置通過在實(shí)施方式4的聲音識(shí)別裝 置中新增修改鍵14而構(gòu)成,但也可以通過在實(shí)施方式2或?qū)嵤┓绞?的聲 音識(shí)別裝置中新增修改鍵14而構(gòu)成。在此情況下,也可取得與上述實(shí)施方 式5的聲音識(shí)別裝置相同的作用及效果。
實(shí)施方式6.
圖11是表示本發(fā)明實(shí)施方式6的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音 識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增行駛狀況檢測(cè)部15并且 變更聲音識(shí)別得分修正部10的功能而構(gòu)成。在下文中,對(duì)于與實(shí)施方式5 的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠郑郊优c實(shí)施方式5所使用 符號(hào)相同的符號(hào)并省略其說明,以與實(shí)施方式5的聲音識(shí)別裝置不同的部 分為中心進(jìn)行說明。作為行駛狀況檢測(cè)部15,可以使用車載導(dǎo)航裝置等具有的用于檢測(cè)當(dāng) 前位置的位置檢測(cè)裝置。行駛狀況檢測(cè)部15基于通過位置檢測(cè)裝置得到的 位置信息,檢測(cè)行駛狀況。表示此行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況的 數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。此外,行駛狀況檢測(cè)部15也可以采 用除基于位置信息檢測(cè)出的行駛狀況之外還檢測(cè)駕駛操作狀況的結(jié)構(gòu)。在
此情況下,表示行駛狀況檢測(cè)部15檢測(cè)出的行駛狀況或駕駛操作狀況的數(shù) 據(jù)被傳送到聲音識(shí)別得分修正部10。
另外,作為行駛狀況檢測(cè)部15,可以使用車載導(dǎo)航裝置等具有的用于 檢測(cè)加速度的加速度檢測(cè)裝置。在此情況下,行駛狀況檢測(cè)部15基于通過 加速度檢測(cè)裝置得到的加速度值,檢測(cè)行駛狀況。表示此行駛狀況檢測(cè)部 15檢測(cè)出的行駛狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。此外,行駛 狀況檢測(cè)部15也可以采用除基于加速度值檢測(cè)出的行駛狀況之外還檢測(cè)駕 駛操作狀況的結(jié)構(gòu)。在此情況下,表示行駛狀況檢測(cè)部15檢測(cè)出的行駛狀 況或駕駛操作狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。
作為行駛狀況檢測(cè)部15,還可以使用車載導(dǎo)航裝置等具有的用于檢測(cè) 當(dāng)前位置的位置檢測(cè)裝置及用于檢測(cè)加速度的加速度檢測(cè)裝置這兩者。行 駛狀況檢測(cè)部15基于通過位置檢測(cè)裝置得到的位置信息及通過加速度檢測(cè) 裝置得到的加速度值,檢測(cè)行駛狀況。表示此行駛狀況檢測(cè)部15檢測(cè)出的 行駛狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。此外,行駛狀況檢測(cè)部 15也可以采用除基于位置信息及加速度值檢測(cè)出的行駛狀況之外還檢測(cè)駕 駛操作狀況的結(jié)構(gòu)。在此情況下,表示行駛狀況檢測(cè)部15檢測(cè)出的行駛狀 況或駕駛操作狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和 從行駛狀況檢測(cè)部15傳送來的表示行駛狀況的數(shù)據(jù),對(duì)從聲音識(shí)別部2傳 送來的詞匯的聲音識(shí)別得分進(jìn)行修正。例如,若根據(jù)表示行駛狀況的數(shù)據(jù) 判斷為正行駛于高速道路,則由于考慮到方向盤操作或踏板操作較少,所 以在發(fā)聲定時(shí)偏移很小時(shí),修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別 得分修正部IO修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
接著,參照?qǐng)D12所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式6的聲音識(shí)別裝置的動(dòng)作。此外,在圖12中將修改鍵14的動(dòng)作省略。
自用戶操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間 檢測(cè)部4、至發(fā)聲定時(shí)判定部5將發(fā)聲定時(shí)(快/慢)傳送到聲音識(shí)別得分 修正部IO為止的動(dòng)作、以及接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí) 別部2將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部IO的動(dòng)作,與上述實(shí)施方式 5的聲音識(shí)別裝置的動(dòng)作相同。
從聲音識(shí)別部2接收了識(shí)別結(jié)果的聲音識(shí)別得分修正部10,根據(jù)從發(fā) 聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從行駛狀況檢測(cè)部15傳送來的表示行 駛狀況的數(shù)據(jù),對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正, 將聲音識(shí)別得分添加到詞匯,并傳送到得分篩選判定部11。之后的動(dòng)作與 實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式6的聲音識(shí)別裝置,例如能 夠檢測(cè)當(dāng)前位置等行駛狀況并判斷發(fā)聲定時(shí)的偏移是否是由于行駛狀況, 所以能夠?qū)⒖紤]了行駛狀況的識(shí)別結(jié)果或應(yīng)答引導(dǎo)等呈現(xiàn)給用戶。
此外,本實(shí)施方式6的聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝 置中新增行駛狀況檢測(cè)部15而構(gòu)成,但也可以通過在實(shí)施方式2 實(shí)施方 式4中的任一實(shí)施方式的聲音識(shí)別裝置中新增行駛狀況檢測(cè)部15而構(gòu)成。 在此情況下,也可取得與上述實(shí)施方式6的聲音識(shí)別裝置相同的作用及效 果。
實(shí)施方式7.
圖13是表示本發(fā)明實(shí)施方式7的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音 識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增駕駛操作檢測(cè)部16并且 變更聲音識(shí)別得分修正部IO的功能而構(gòu)成。在下文中,對(duì)于與實(shí)施方式5 的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?,附加與實(shí)施方式5所使用 符號(hào)相同的符號(hào)并省略其說明,以與實(shí)施方式5的聲音識(shí)別裝置不同的部 分為中心進(jìn)行說明。
駕駛操作檢測(cè)部15根據(jù)從車輛的加速踏板、剎車踏板或方向盤等(都 未圖示)傳送來的信號(hào),檢測(cè)當(dāng)前的駕駛操作狀況。表示此駕駛操作檢測(cè) 部16檢測(cè)出的駕駛操作的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和
從駕駛操作檢測(cè)部16傳送來的表示駕駛操作的數(shù)據(jù),對(duì)從聲音識(shí)別部2傳
送來的詞匯的聲音識(shí)別得分進(jìn)行修正。例如,若根據(jù)表示駕駛操作的數(shù)據(jù) 判斷為正在倒車,則由于考慮到用戶正集中精力注意周圍,所以即使在發(fā) 聲定時(shí)偏移很小時(shí),也不修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得
分修正部IO修正過的聲音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
接著,參照?qǐng)D14所示的順序圖,'說明如上所述構(gòu)成的本發(fā)明實(shí)施方式7 的聲音識(shí)別裝置的動(dòng)作。此外,在圖14中將修改鍵14的動(dòng)作省略。
自用戶通過操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始 時(shí)間檢測(cè)部4、至發(fā)聲定時(shí)判定部5將發(fā)聲定時(shí)(快/慢)傳送到聲音識(shí)別 得分修正部IO為止的動(dòng)作、以及接收了來自聲音輸入部1的聲音信號(hào)的聲 音識(shí)別部2將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10的動(dòng)作,與上述實(shí)施 方式5的聲音識(shí)別裝置的動(dòng)作相同。
從聲音識(shí)別部2接收了識(shí)別結(jié)果的聲音識(shí)別得分修正部10,根據(jù)從發(fā) 聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從駕駛操作檢測(cè)部16傳送來的表示駕 駛操作的狀況的數(shù)據(jù),對(duì)從聲音識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn) 行修正,將聲音識(shí)別得分添加到詞匯,并傳送到得分篩選判定部11。之后 的動(dòng)作與實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。
如上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式7的聲音識(shí)別裝置,例如能 夠檢測(cè)正在轉(zhuǎn)彎之類的駕駛操作狀況,并判斷發(fā)聲定時(shí)的偏移是否是由于 駕駛操作狀況,所以能夠?qū)⒖紤]了駕駛操作狀況的識(shí)別結(jié)果或應(yīng)答引導(dǎo)等 呈現(xiàn)給用戶。
此外,本實(shí)施方式7的聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝 置中新增駕駛操作檢測(cè)部16而構(gòu)成,但也可以通過在實(shí)施方式2 實(shí)施方 式4中的任一實(shí)施方式的聲音識(shí)別裝置中新增駕駛操作檢測(cè)部16而構(gòu)成。 在此情況下,也可取得與上述實(shí)施方式7的聲音識(shí)別裝置相同的作用及效 果。
實(shí)施方式8.
圖15是表示本發(fā)明實(shí)施方式8的聲音識(shí)別裝置的結(jié)構(gòu)的方框圖。此聲音
19識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝置中新增車內(nèi)設(shè)備操作狀況收集
部17并且變更聲音識(shí)別得分修正部10的功能而構(gòu)成。在下文中,對(duì)于與 實(shí)施方式5的聲音識(shí)別裝置的構(gòu)成要素相同或相當(dāng)?shù)牟糠?,附加與實(shí)施方 式5所使用符號(hào)相同的符號(hào)并省略其說明,以與實(shí)施方式5的聲音識(shí)別裝 置不同的部分為中心進(jìn)行說明。
車內(nèi)設(shè)備操作狀況收集部17收集表示通過CAN (Controller Area Network:控制器區(qū)域網(wǎng)絡(luò))、MOST (Media Oriented Systems Transport: 媒體導(dǎo)向系統(tǒng)傳輸)、LAN(Local Area Network:局域網(wǎng))或拐射線(FlexRay) 等之類的車載網(wǎng)絡(luò)連接的窗、門、空調(diào)、汽車音響等車內(nèi)設(shè)備(包括車載 設(shè)備)的操作狀況的數(shù)據(jù)。表示此駕駛操作檢測(cè)部16檢測(cè)出的車內(nèi)設(shè)備的 操作狀況的數(shù)據(jù)被傳送到聲音識(shí)別得分修正部10。
聲音識(shí)別得分修正部10根據(jù)從發(fā)聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和 從駕駛操作檢測(cè)部16傳送來的表示車內(nèi)設(shè)備的操作狀況的數(shù)據(jù),對(duì)從聲音 識(shí)別部2傳送來的詞匯的聲音識(shí)別得分進(jìn)行修正。例如,若判斷為正在操 作空調(diào),由于考慮到正集中精力于操作,所以即使在發(fā)聲定時(shí)偏移很小時(shí), 也修正聲音識(shí)別得分使其變小。帶有此聲音識(shí)別得分修正部io修正過的聲 音識(shí)別得分的詞匯被傳送到得分篩選判定部11。
接著,參照?qǐng)D16所示的順序圖,說明如上所述構(gòu)成的本發(fā)明實(shí)施方式8 的聲音識(shí)別裝置的動(dòng)作。此外,在圖16中將修改鍵14的動(dòng)作省略。
自用戶操作聲音開始指示部3從而聲音開始觸發(fā)傳送到發(fā)聲開始時(shí)間 檢測(cè)部4、至發(fā)聲定時(shí)判定部5將發(fā)聲定時(shí)(快/慢)傳送到聲音識(shí)別得分 修正部10為止的動(dòng)作、以及接收了來自聲音輸入部1的聲音信號(hào)的聲音識(shí) 別部2將識(shí)別結(jié)果傳送到聲音識(shí)別得分修正部10的動(dòng)作,與上述實(shí)施方式 5的聲音識(shí)別裝置的動(dòng)作相同。
從聲音識(shí)別部2接收了識(shí)別結(jié)果的聲音識(shí)別得分修正部10,根據(jù)從發(fā) 聲定時(shí)判定部5傳送來的發(fā)聲定時(shí)和從車內(nèi)設(shè)備操作狀況收集部17傳送來 的表示車內(nèi)設(shè)備的操作狀況的數(shù)據(jù),對(duì)從聲音識(shí)別部2傳送來的詞匯的聲 音識(shí)別得分進(jìn)行修正,將聲音識(shí)別得分添加到詞匯,并傳送到得分篩選判 定部11。之后的動(dòng)作與實(shí)施方式2的聲音識(shí)別裝置的動(dòng)作相同。如上所說明的那樣,根據(jù)本發(fā)明實(shí)施方式8的聲音識(shí)別裝置,能夠?qū)?考慮了例如窗或門的開閉、空調(diào)的控制、行駛狀況等車內(nèi)設(shè)備的操作狀況 的識(shí)別結(jié)果或應(yīng)答引導(dǎo)等呈現(xiàn)給用戶。
此外,本實(shí)施方式8的聲音識(shí)別裝置通過在實(shí)施方式5的聲音識(shí)別裝 置中新增車內(nèi)設(shè)備操作狀況收集部17而構(gòu)成,但也可以通過在實(shí)施方式 2 實(shí)施方式4中的任一實(shí)施方式的聲音識(shí)別裝置中車內(nèi)設(shè)備操作狀況收集 部17而構(gòu)成。在此情況下,也可取得與上述實(shí)施方式8的聲音識(shí)別裝置相 同的作用及效果。
工業(yè)上的實(shí)用性
如上所述,本發(fā)明的聲音識(shí)別裝置采用為了輸出適當(dāng)?shù)姆瓷涫阶帜患?系統(tǒng)應(yīng)答而輸出與發(fā)聲定時(shí)對(duì)應(yīng)的內(nèi)容的系統(tǒng)應(yīng)答的結(jié)構(gòu),所以適用于可 進(jìn)行基于發(fā)聲的操作的車載用終端設(shè)備等。
權(quán)利要求
1.一種聲音識(shí)別裝置,包括聲音開始指示部,該聲音開始指示部指示開始聲音識(shí)別;聲音輸入部,該聲音輸入部將發(fā)出的聲音輸入并轉(zhuǎn)換成聲音信號(hào);聲音識(shí)別部,該聲音識(shí)別部基于從所述聲音輸入部傳送來的聲音信號(hào)對(duì)聲音進(jìn)行識(shí)別;發(fā)聲開始時(shí)間檢測(cè)部,該發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)自所述聲音開始指示部指示開始聲音識(shí)別至聲音信號(hào)從所述聲音輸入部傳送來為止的時(shí)間;發(fā)聲定時(shí)判定部,該發(fā)聲定時(shí)判定部通過對(duì)所述發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間與預(yù)定的閾值進(jìn)行比較,判定表示發(fā)聲開始的快慢的發(fā)聲定時(shí);對(duì)話控制部,該對(duì)話控制部根據(jù)所述發(fā)聲定時(shí),決定呈現(xiàn)所述聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容;系統(tǒng)應(yīng)答生成部,該系統(tǒng)應(yīng)答生成部基于所述對(duì)話控制部所決定的呈現(xiàn)內(nèi)容生成系統(tǒng)應(yīng)答;以及輸出部,該輸出部將所述系統(tǒng)應(yīng)答生成部所生成的系統(tǒng)應(yīng)答輸出。
2. 如權(quán)利要求l所述的聲音識(shí)別裝置,其特征在于,包括 聲音識(shí)別得分修正部,該聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí),對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正; 以及得分篩選判定部,該得分篩選判定部根據(jù)所述聲音識(shí)別得分修正部修 正過的聲音識(shí)別得分,判定是否呈現(xiàn)識(shí)別結(jié)果,對(duì)話控制部根據(jù)所述得分篩選判定部的判定結(jié)果,決定呈現(xiàn)所述聲音 識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容。
3. 如權(quán)利要求l所述的聲音識(shí)別裝置,其特征在于, 包括發(fā)聲定時(shí)學(xué)習(xí)部,該發(fā)聲定時(shí)學(xué)習(xí)部將發(fā)聲開始時(shí)間檢測(cè)部在過去多次試行中檢測(cè)出的時(shí)間進(jìn)行平均,計(jì)算出平均發(fā)聲定時(shí),發(fā)聲定時(shí)判定部通過將所述發(fā)聲定時(shí)學(xué)習(xí)部計(jì)算出的平均發(fā)聲定時(shí)作為預(yù)定的閾值、與所述發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間進(jìn)行比較,來判 定發(fā)聲定時(shí)。
4. 如權(quán)利要求l所述的聲音識(shí)別裝置,其特征在于,包括方差考慮發(fā)聲定時(shí)學(xué)習(xí)部,該方差考慮發(fā)聲定時(shí)學(xué)習(xí)部基于發(fā)聲 開始時(shí)間檢測(cè)部在過去多次試行中檢測(cè)出的時(shí)間,考慮方差,計(jì)算發(fā)聲定 時(shí)判定用閾值,發(fā)聲定時(shí)判定部通過將所述方差考慮發(fā)聲定時(shí)學(xué)習(xí)部計(jì)算出的發(fā)聲定 時(shí)判定用閾值作為預(yù)定的閾值、與所述發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間 進(jìn)行比較,來判定發(fā)聲定時(shí)。
5. 如權(quán)利要求4所述的聲音識(shí)別裝置,其特征在于,包括修改鍵,'該修改鍵指示取消聲音識(shí)別部的識(shí)別結(jié)果, 方差考慮發(fā)聲定時(shí)學(xué)習(xí)部基于發(fā)聲開始時(shí)間檢測(cè)部在過去多次試行中 檢測(cè)出的時(shí)間、和自輸出部將系統(tǒng)應(yīng)答輸出直至通過所述修改鍵作出取消 的指示為止的時(shí)間,計(jì)算考慮方差的發(fā)聲定時(shí)判定用閾值。
6. 如權(quán)利要求2所述的聲音識(shí)別裝置,其特征在于, 包括行駛狀況檢測(cè)部,該行駛狀況檢測(cè)部檢測(cè)行駛狀況, 聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)和所述行駛狀況檢測(cè)部檢測(cè)出的行駛狀況,對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別 得分進(jìn)行修正。
7. 如權(quán)利要求2所述的聲音識(shí)別裝置,其特征在于, 包括駕駛操作檢測(cè)部,該假使操作檢測(cè)部檢測(cè)駕駛操作的狀況, 聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)和所述駕駛操作檢測(cè)部檢測(cè)出的駕駛操作的狀況,對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲 音識(shí)別得分進(jìn)行修正。
8. 如權(quán)利要求6所述的聲音識(shí)別裝置,其特征在于, 行駛狀況檢測(cè)部由位置檢測(cè)裝置構(gòu)成,該位置檢測(cè)裝置檢測(cè)當(dāng)前位置并作為位置信息輸出,聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、和基于 從所述位置檢測(cè)裝置輸出的位置信息而判斷出的行駛狀況或駕駛操作狀況,對(duì)聲音識(shí)另I」部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
9. 如權(quán)利要求6所述的聲音識(shí)別裝置,其特征在于,行駛狀況檢測(cè)部由加速度檢測(cè)裝置構(gòu)成,該加速度檢測(cè)裝置檢測(cè)加速度,聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、和基于 所述加速度檢測(cè)裝置輸出的加速度而判斷出的行駛狀況及駕駛操作狀況, 對(duì)聲音識(shí)別部識(shí)別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
10. 如權(quán)利要求6所述的聲音識(shí)別裝置,其特征在于,行駛狀況檢測(cè)部由位置檢測(cè)裝置和加速度檢測(cè)裝置構(gòu)成,所述位置檢 測(cè)裝置檢測(cè)當(dāng)前位置并作為位置信息輸出,所述加速度檢測(cè)裝置檢測(cè)加速 度, -.聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、基于從 所述位置檢測(cè)裝置輸出的位置信息而判斷出的行駛狀況、以及基于所述加 速度檢測(cè)裝置檢測(cè)出的加速度而判斷出的駕駛操作狀況,對(duì)聲音識(shí)別部識(shí) 別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
11. 如權(quán)利要求2所述的聲音識(shí)別裝置,其特征在于, 包括車內(nèi)設(shè)備操作狀況收集部,該車內(nèi)設(shè)備操作狀況收集部通過車載網(wǎng)絡(luò)收集車內(nèi)設(shè)備的操作狀況,聲音識(shí)別得分修正部根據(jù)發(fā)聲定時(shí)判定部判定出的發(fā)聲定時(shí)、和所述 車內(nèi)設(shè)備操作狀況收集部所收集的車內(nèi)設(shè)備的操作狀況,對(duì)聲音識(shí)別部識(shí) 別出的詞匯的聲音識(shí)別得分進(jìn)行修正。
全文摘要
一種聲音識(shí)別裝置包括聲音開始指示部(3),該聲音開始指示部(3)指示開始聲音識(shí)別;聲音輸入部(1),該聲音輸入部(1)將所發(fā)出的聲音輸入并轉(zhuǎn)換成聲音信號(hào);聲音識(shí)別部(2),該聲音識(shí)別部(2)基于聲音信號(hào)對(duì)聲音進(jìn)行識(shí)別;發(fā)聲開始時(shí)間檢測(cè)部(4),該發(fā)聲開始時(shí)間檢測(cè)部(4)檢測(cè)自聲音開始指示部作出指示至聲音信號(hào)從聲音輸入部傳送來為止的時(shí)間;發(fā)聲定時(shí)判定部(5),該發(fā)聲定時(shí)判定部(5)通過對(duì)發(fā)聲開始時(shí)間檢測(cè)部檢測(cè)出的時(shí)間與預(yù)定的閾值進(jìn)行比較,判定表示發(fā)聲開始的快慢的發(fā)聲定時(shí);對(duì)話控制部(6),該對(duì)話控制部(6)根據(jù)判定出的發(fā)聲定時(shí),決定呈現(xiàn)聲音識(shí)別部的識(shí)別結(jié)果時(shí)的呈現(xiàn)內(nèi)容;系統(tǒng)應(yīng)答生成部(7),該系統(tǒng)應(yīng)答生成部(7)基于已決定的呈現(xiàn)內(nèi)容生成系統(tǒng)應(yīng)答;以及輸出部(8)、(9),該輸出部將生成的系統(tǒng)應(yīng)答輸出。
文檔編號(hào)G10L15/22GK101689366SQ20088002229
公開日2010年3月31日 申請(qǐng)日期2008年3月27日 優(yōu)先權(quán)日2007年7月2日
發(fā)明者井上讓, 佐藤史尚, 竹里尚嘉, 鈴木忠 申請(qǐng)人:三菱電機(jī)株式會(huì)社