定。
例如,在聲音信號(hào)的聲音波形中,將沿時(shí)間軸首次檢測(cè)到超過(guò)振幅基準(zhǔn)值的振幅的時(shí)刻決定為起始時(shí)間。另外,將沿時(shí)間軸最后檢測(cè)到超過(guò)振幅基準(zhǔn)值的振幅的時(shí)刻決定為終止時(shí)間。
[0018]聲音信號(hào)處理部21輸入由檢測(cè)部20所檢測(cè)出的聲音信號(hào)的有聲區(qū)間部分,對(duì)該有聲區(qū)間部分實(shí)施高速傅里葉變換、濾波分析、線性預(yù)測(cè)分析、倒譜分析等信號(hào)處理,以提取出聲音特征參數(shù)。將所提取出的聲音特征參數(shù)輸出至對(duì)照部22。
[0019]對(duì)照部22將聲音信號(hào)處理部21所提取出的聲音信號(hào)的聲音特征參數(shù)與保存于聲音識(shí)別詞典23中的多個(gè)聲音特征參數(shù)進(jìn)行對(duì)照,并輸出可獲得與登記于聲音識(shí)別詞典23的聲音特征參數(shù)的相似度較高的聲音特征參數(shù)的識(shí)別結(jié)果。此時(shí),對(duì)照部22將對(duì)相似度的高低進(jìn)行標(biāo)準(zhǔn)化后的值作為識(shí)別結(jié)果的可靠性來(lái)進(jìn)行輸出。進(jìn)而,輸出對(duì)照處理時(shí)所算出的識(shí)別結(jié)果的時(shí)間長(zhǎng)度。
[0020]聲音識(shí)別詞典23是將成為識(shí)別對(duì)象的一個(gè)以上的字串與其聲音特征參數(shù)一起進(jìn)行登記而得到的詞典數(shù)據(jù)。在實(shí)施方式I中,第一及第二識(shí)別引擎2a、2b具有登記有長(zhǎng)度不同的字串的聲音識(shí)別詞典23。
在第一識(shí)別引擎2a的聲音識(shí)別詞典23中,至少登記有一個(gè)以上的包含登記于第二識(shí)別引擎2b的聲音識(shí)別詞典23中的字串的一部分在內(nèi)的字串。
[0021]登記于聲音識(shí)別詞典23的字串對(duì)應(yīng)于聲音識(shí)別裝置的識(shí)別模式而發(fā)生變化。例如,在設(shè)定有地址的識(shí)別模式的情況下,在第一識(shí)別引擎2a的聲音識(shí)別詞典23中,登記有屬于 “California Los Angeles”、“California San Diego” 這一地址的類(lèi)別的字串。
另一方面,第二識(shí)別引擎2b是對(duì)比第一識(shí)別引擎2a要短的字串進(jìn)行識(shí)別的識(shí)別引擎,因此,在第二識(shí)別引擎2b的聲音識(shí)別詞典23中登記有“California”這一單詞。
[0022]這樣,在圖4中,登記于第二識(shí)別引擎2b的聲音識(shí)別詞典23中的單詞“California”與登記于第一識(shí)別引擎2a的聲音識(shí)別詞典23中的“California LosAngeles”、“California San Diego” 等字串的一部分重復(fù)。
此外,在為聲音識(shí)別裝置的識(shí)別模式的情況下,示出了將屬于地址的類(lèi)別的字串登記于聲音識(shí)別詞典23的示例,但通過(guò)設(shè)定名稱(chēng)的識(shí)別模式,來(lái)將屬于名稱(chēng)的類(lèi)別的字串登記于第一及第二識(shí)別引擎2a、2b的聲音識(shí)別詞典23。即,通過(guò)變更模式,能將屬于地址和名稱(chēng)以外的類(lèi)別的字串也登記于聲音識(shí)別詞典23。
[0023]此外,聲音輸入部1、聲音識(shí)別部2、第一及第二識(shí)別候選獲取部3a、3b、判定部4及整合部5能通過(guò)用微型計(jì)算機(jī)執(zhí)行記述有本發(fā)明所特有的處理的程序,從而作為硬件和軟件協(xié)同工作的具體手段來(lái)實(shí)現(xiàn)。
[0024]接下來(lái)對(duì)動(dòng)作進(jìn)行說(shuō)明。
圖5是表示實(shí)施方式I所涉及的聲音識(shí)別裝置的動(dòng)作的流程圖。
首先,如上所述具有不同聲音識(shí)別詞典23的第一識(shí)別引擎2a和第二識(shí)別引擎2b對(duì)從聲音輸入部I輸入的聲音信號(hào)實(shí)施聲音識(shí)別處理(步驟ST1)。此時(shí),如圖4所示,第一識(shí)別引擎至少能識(shí)別出一個(gè)以上的、包含能被第二識(shí)別引擎所識(shí)別出的字串的一部分在內(nèi)的字串O
[0025]接著,第一及第二識(shí)別候選獲取部3a、3b從第一及第二識(shí)別引擎2a、2b獲取識(shí)別結(jié)果候選的字符串、識(shí)別結(jié)果候選的可靠性及識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度(步驟ST2)。將第一及第二識(shí)別引擎2a、2b的聲音識(shí)別處理結(jié)果從第一及第二識(shí)別候選獲取部3a、3b輸出至判定部4。
[0026]判定部4對(duì)第一識(shí)別結(jié)果候選中可靠性最高的識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度、與第二識(shí)別結(jié)果候選中可靠性最高的識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差進(jìn)行計(jì)算。這樣,基于由第一及第二識(shí)別引擎2a、2b的聲音識(shí)別所分別檢測(cè)出的識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差和識(shí)別結(jié)果候選的可靠性,來(lái)對(duì)識(shí)別結(jié)果的可能性進(jìn)行評(píng)價(jià),從而能更高精度地篩選出可能的識(shí)別結(jié)果候選。
[0027]接著,判定部4對(duì)第一識(shí)別結(jié)果候選的可靠性最高的識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度、與第二識(shí)別結(jié)果候選的可靠性最高的識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差是否為預(yù)先確定的第一閾值以上進(jìn)行判定(步驟ST3)。
這里,設(shè)第一閾值例如是判定部4通過(guò)實(shí)施以下處理而獲得的值:預(yù)先對(duì)登記于第一識(shí)別引擎2a的聲音識(shí)別詞典23和第二識(shí)別引擎2b的聲音識(shí)別詞典23的字串的時(shí)間長(zhǎng)度之差進(jìn)行計(jì)算,并對(duì)它們實(shí)施平均等統(tǒng)計(jì)上的處理。
在這種情況下,第一閾值設(shè)定為可對(duì)應(yīng)于第一識(shí)別引擎2a的聲音識(shí)別詞典23和第二識(shí)別引擎2b的聲音識(shí)別詞典23中所登記的字串的類(lèi)別而發(fā)生變化。
即,聲音識(shí)別詞典23如使用圖4所說(shuō)明的那樣,登記有屬于與聲音識(shí)別裝置的識(shí)別模式相對(duì)應(yīng)的類(lèi)別的字串,因此,判定部4對(duì)應(yīng)于識(shí)別模式來(lái)變更上述第一閾值。由此,判定部4能將聲音識(shí)別裝置的識(shí)別模式也考慮在內(nèi)來(lái)高精度地放棄識(shí)別結(jié)果候選。
[0028]在時(shí)間長(zhǎng)度之差為第一閾值以上的情況下(步驟ST3 ;是),判定部4放棄第二識(shí)別結(jié)果候選(步驟ST4)。這樣,在利用可識(shí)別的字串的長(zhǎng)度不同的識(shí)別引擎的情況下,能基于識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差來(lái)實(shí)施對(duì)錯(cuò)判定,從而高精度地放棄被誤識(shí)別的識(shí)別結(jié)果候選。
另一方面,若識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差小于第一閾值(步驟ST3 ;否),則從判定部4向整合部5輸出第一及第二識(shí)別結(jié)果候選。若整合部5從判定部4獲取到第一及第二識(shí)別結(jié)果候選,則將它們整合于一個(gè)識(shí)別結(jié)果候選組(步驟ST5)。
[0029]整合部5在整合第一及第二識(shí)別結(jié)果候選、或在步驟ST4的處理中放棄第二識(shí)別候選而輸入剩余的第一識(shí)別結(jié)果候選的情況下,將這些識(shí)別結(jié)果候選按照可靠性從高到低的順序進(jìn)行排序(步驟ST6)。由此,能根據(jù)可靠性來(lái)將所篩選出的可能的識(shí)別結(jié)果候選的結(jié)果呈現(xiàn)給用戶(hù)。
此外,在識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差小于第一閾值(步驟ST3 ;否)、判定部4無(wú)法放棄第二識(shí)別結(jié)果候選的情況下,也可以基于步驟ST3中所計(jì)算出的識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差,來(lái)對(duì)第二識(shí)別結(jié)果候選的各個(gè)識(shí)別結(jié)果候選的可靠性進(jìn)行修正,并基于該修正后的可靠性來(lái)進(jìn)行排序。
另外,也可以將從上位到預(yù)先確定的位次為止作為最終的識(shí)別結(jié)果候選來(lái)進(jìn)行輸出。
[0030]下面,舉出具體例來(lái)進(jìn)行說(shuō)明。
在發(fā)出“California Los Angeles”這一聲音的情況下,聲音輸入部I收集所發(fā)出的聲音,將“California Los Angeles”這一聲音信號(hào)輸出至第一及第二識(shí)別引擎2a、2b。
第一及第二識(shí)別引擎2a、2b對(duì)“California Los Angeles”的聲音信號(hào)實(shí)施聲音識(shí)別處理。此時(shí),第一及第二識(shí)別引擎2a、2b的聲音識(shí)別詞典23中登記有圖4所示的字串。
[0031]接著,第一及第二識(shí)別候選獲取部3a、3b從第一及第二識(shí)別引擎2a、2b獲取識(shí)別結(jié)果候選的字符串、識(shí)別結(jié)果候選的可靠性及識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度并將其輸出至判定部4。圖6示出了由第一及第二識(shí)別候選獲取部3a、3b所獲取到的、第一及第二識(shí)別結(jié)果候選的一個(gè)不例。
判定部4對(duì)從第一識(shí)別結(jié)果候選的可靠性最高的“California Los Angeles”的時(shí)間長(zhǎng)度即4000ms減去第二識(shí)別結(jié)果候選的可靠性最高的“California”的時(shí)間長(zhǎng)度即2500ms而得到的差1500ms進(jìn)行計(jì)算。 然后,判定部4對(duì)時(shí)間長(zhǎng)度之差1500ms與預(yù)先確定的第一閾值進(jìn)行比較。此外,考慮到登記于各識(shí)別引擎的聲音識(shí)別詞典23的字串的時(shí)間長(zhǎng)度之差,將第一閾值設(shè)定為1000ms。
[0032]由于各個(gè)識(shí)別結(jié)果候選的時(shí)間長(zhǎng)度之差即1500ms為第一閾值100ms以上,因此,判定部4將第二識(shí)別結(jié)果候選全部放棄。
例如,第一及第二識(shí)別結(jié)果候選中的、可靠性最高的候選是在第二識(shí)別結(jié)果候選中可靠性為6000的“California”。因此,以往,將可靠性作為選擇基準(zhǔn),無(wú)論是否發(fā)出了“California Los Angeles”這一聲音,都存在將由第二識(shí)別引擎2b的聲音識(shí)別所獲得的“