聲音識別裝置的制造方法

文檔序號：8501180閱讀：355來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

聲音識別裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及從多個聲音識別結(jié)果中采用可能的識別結(jié)果候選來進(jìn)行輸出的聲音識別裝置。
【背景技術(shù)】
[0002]以往，提出了以下方案:在可識別的詞匯領(lǐng)域中，同時使用環(huán)境不同的多個識別引擎來進(jìn)行聲音識別，從所獲得的識別結(jié)果中獲取可能的識別結(jié)果(例如，參照專利文獻(xiàn)I)。
現(xiàn)有技術(shù)文獻(xiàn)專利文獻(xiàn)
[0003]專利文獻(xiàn)I
日本專利特開2007-33671號公報

【發(fā)明內(nèi)容】

發(fā)明所要解決的技術(shù)問題
[0004]以往，在從由多個識別引擎所獲得的識別結(jié)果中選擇最終識別結(jié)果時，通過對根據(jù)多個識別引擎各自的基準(zhǔn)來決定的識別結(jié)果的可靠性進(jìn)行比較來選擇可靠性最高的識別結(jié)果，或者按照可靠性由高到低的順序?qū)Χ鄠€識別引擎的所有識別結(jié)果進(jìn)行排序，并選擇可靠性較高的識別結(jié)果。
因此，存在以下問題:在能被某個識別引擎所識別的單詞或字串(以下記載為字串，設(shè)字串中也包含一個單詞)的一部分與能被其它識別引擎所識別的字串相一致的情況下，有可能將應(yīng)該能被某個識別引擎所識別的結(jié)果誤識別成其它識別引擎的結(jié)果。
[0005]例如，可考慮存在以下情況:即，利用第一識別引擎及能識別比第一識別引擎要短的字串的第二識別引擎，來發(fā)出“California Los Angeles”的聲音。在這種情況下，雖然應(yīng)該選擇第一識別引擎的識別結(jié)果作為可能的識別結(jié)果，但第二識別引擎也能識別出“California”這一單詞。S卩，由于發(fā)出的聲音中包含“California”這一第一及第二識別引擎都能識別的單詞，因此，根據(jù)由第一及第二識別引擎各自的基準(zhǔn)所決定的識別結(jié)果的可靠性，有可能錯誤地選擇第二識別引擎的結(jié)果來作為最終的識別結(jié)果。
[0006]本發(fā)明是為了解決上述問題而完成的，其目的在于獲得一種能高精度地從識別引擎的聲音識別結(jié)果中采用可能的識別結(jié)果的候選的聲音識別裝置。
解決技術(shù)問題所采用的技術(shù)方案
[0007]本發(fā)明所涉及的聲音識別裝置包括:聲音輸入部，該聲音輸入部輸入所發(fā)出的聲音；聲音識別部，該聲音識別部由多個識別引擎構(gòu)成，所述多個識別引擎分別對從聲音輸入部獲取的聲音進(jìn)行識別；以及判定部，該判定部基于由多個識別引擎識別出的識別結(jié)果候選所分別具有的時間長度之差，來從識別結(jié)果候選中采用一個或多個識別結(jié)果候選。
發(fā)明效果
[0008]根據(jù)本發(fā)明，具有以下效果:能高精度地從識別引擎的聲音識別結(jié)果中采用可能的識別結(jié)果的候選。
【附圖說明】
[0009]圖1是表示本發(fā)明的實施方式I所涉及的語音識別裝置的結(jié)構(gòu)的框圖。
圖2是表示識別引擎的結(jié)構(gòu)的框圖。
圖3是表示聲音起止端檢測的一示例的圖。
圖4是舉例示出能被第一及第二識別引擎所識別的字串的圖。
圖5是表示實施方式I所涉及的聲音識別裝置的動作的流程圖。
圖6是舉例示出第一及第二識別引擎的輸出信息的圖。
圖7是表示本發(fā)明的實施方式2所涉及的語音識別裝置的結(jié)構(gòu)的框圖。
圖8是表示實施方式2所涉及的聲音識別裝置的動作的流程圖。
圖9是舉例示出對識別結(jié)果候選的時間長度與獲取聲音時間長度進(jìn)行比較的結(jié)果的圖。
圖10是表示使用與識別對象的字串的類別相對應(yīng)的設(shè)定值來決定發(fā)聲時間的基準(zhǔn)值的處理的圖。
【具體實施方式】
[0010]下面，為了更詳細(xì)說明本發(fā)明，根據(jù)附圖，對用于實施本發(fā)明的方式進(jìn)行說明。
實施方式1.圖1是表示本發(fā)明的實施方式I所涉及的聲音識別裝置的結(jié)構(gòu)的框圖。圖1所示的聲音識別裝置例如是被用作為搭載或攜帶入車輛內(nèi)的導(dǎo)航裝置、音頻裝置的輸入單元的裝置。作為其結(jié)構(gòu)，包括聲音輸入部1、聲音識別部2、第一及第二識別候選獲取部3a、3b、判定部4以及整合部5。
[0011]聲音輸入部I具有對所發(fā)出的聲音進(jìn)行收集以獲得輸入信號的功能，例如將從麥克風(fēng)等輸入的聲音信號轉(zhuǎn)換成數(shù)字信號。
聲音識別部2包括分別對從聲音輸入部I所輸出的同一聲音信號進(jìn)行聲音識別的第一及第二識別引擎2a、2b。
第一及第二識別引擎2a、2b對所輸入的聲音信號實施聲音識別處理，并輸出識別結(jié)果的字符串、識別結(jié)果的可靠度及識別結(jié)果的時間長度。這里，第一識別引擎至少能識別出一個以上的、包含能被第二識別引擎所識別出的字串的一部分在內(nèi)的字串。
此外，在實施方式I中，對構(gòu)成能被第二識別引擎2b所識別出的字串的單詞數(shù)在構(gòu)成能被第一識別引擎2a所識別出的字串的單詞數(shù)以下的情況進(jìn)行說明。
具體而言，設(shè)第一識別引擎2a能對由美國的州名和市名組合而成的字串進(jìn)行識別，第二識別引擎2b能對州名進(jìn)行識別。
[0012]另外，在該實施方式I中，設(shè)聲音識別部2包括兩個識別引擎，但只要包括能對至少一個以上包含能被其它識別引擎所識別的字串的一部分在內(nèi)的字串進(jìn)行識別的識別引擎即可，也可以包括三個以上的識別引擎(在實施方式2中也相同)。
[0013]第一及第二識別候選獲取部3a、3b與聲音識別部2的第一及第二識別引擎2a、2b相連接。第一及第二識別候選獲取部3a、3b從第一及第二識別引擎2a、2b的聲音識別處理結(jié)果中獲取識別結(jié)果的字符串來作為識別結(jié)果候選，進(jìn)而獲取識別結(jié)果候選的可靠性和該識別結(jié)果候選的時間長度。
此外，在以下的說明中，將由第一識別候選獲取部3a從第一識別引擎2a所獲取的識別結(jié)果候選記載為“第一識別結(jié)果候選”。
另外，將由第二識別候選獲取部3b從第二識別引擎2b所獲取的識別結(jié)果候選記載為“第二識別結(jié)果候選”。
[0014]判定部4基于第一識別結(jié)果候選的時間長度與第二識別結(jié)果候選的時間長度之差，來對識別結(jié)果候選實施對錯判定。在對錯判定中，判定部4放棄被判定為誤識別的識別結(jié)果候選，采用剩余的識別結(jié)果候選作為可能的識別結(jié)果候選。
例如，判定部4對第一識別結(jié)果候選的可靠性最高的識別結(jié)果候選的時間長度、與第二識別結(jié)果候選的所有識別結(jié)果候選的時間長度之差進(jìn)行計算。然后，將該時間長度之差為預(yù)先確定的第一閾值以上(或大于閾值)的第二識別結(jié)果候選放棄。然后，采用第一識別結(jié)果候選和未被放棄的第二識別結(jié)果候選，將其輸出至識別結(jié)果整合部5。
作為其它方法，例如對第一識別結(jié)果候選的可靠性最高的識別結(jié)果候選的時間長度、與第二識別結(jié)果候選的可靠性最高的識別結(jié)果候選的時間長度之差進(jìn)行計算。然后，在該時間長度之差為預(yù)先確定的第一閾值以上(或大于閾值)的情況下，將第二識別結(jié)果候選全部放棄，采用第一識別結(jié)果候選。然后，將該所采用的識別結(jié)果候選輸出至整合部5。
[0015]整合部5將第一及第二識別候選獲取部3a、3b所獲取的各個識別結(jié)果候選中的、判定部4采用作為可能的識別結(jié)果候選進(jìn)行整合，以形成一個識別結(jié)果候選組，將識別候選組中的識別結(jié)果候選按照可靠性從高到低的順序進(jìn)行排序。
此外，在無法由判定部4將第二識別結(jié)果候選全部放棄的情況下，整合部5也可以基于第一識別結(jié)果候選的可靠性最高的識別結(jié)果候選的時間長度與第二識別結(jié)果候選的各個識別結(jié)果候選的時間長度之差，來對第二識別結(jié)果候選的各個識別結(jié)果候選的可靠性進(jìn)行修正，并基于該修正后的可靠性來進(jìn)行排序。
[0016]圖2是表示識別引擎的結(jié)構(gòu)的框圖。第一及第二識別引擎2a、2b如圖2所示，采用包括檢測部20、聲音信號處理部21、對照部22及聲音識別詞典23的結(jié)構(gòu)。
檢測部20將從聲音輸入部I輸出的聲音信號進(jìn)行輸入，對發(fā)出該聲音信號的起始端時間和終止端時間進(jìn)行檢測。將根據(jù)檢測部20所檢測出的起始端時間和終止端時間來判斷出的聲音信號的發(fā)聲時間(有聲區(qū)間)部分輸出至聲音信號處理部21。
[0017]圖3是表示聲音起止端檢測的一個示例的圖，從所輸入的整個聲音信號中檢測出發(fā)聲的起始端時間和終止端時間，并對聲音的無聲區(qū)間和有聲區(qū)間(發(fā)聲時間)進(jìn)行分類。如圖3所示，發(fā)聲的起始端由聲音信號的振幅大小來決

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4