各音素取得的輸出概率,基于通過搜索部117的搜索與各音素建立了對應(yīng)關(guān)系的幀的數(shù)量執(zhí)行標準化運算。
[0114]參照圖10,對標準化運算部140的標準化運算處理進行說明。圖10的(a)表示在區(qū)間指定部114指定的似然計算區(qū)間中,通過僅包含與檢索詞“歹一y y”相對應(yīng)的音素串“r,a:,m,e,N”中的一部分的音素“a: ”的區(qū)間中的最大似然序列的搜索而取得的路徑。另一方面,圖10的(b)表示通過包含與檢索詞“歹一 7 V”相對應(yīng)的音素串“r,a:,m,e,N”中的全部音素的區(qū)間中的最大似然序列的搜索而取得的路徑。
[0115]在圖10的(a)中,關(guān)于在全體路徑中進行標準化后的累積距離,通過將全體路徑中的累積距尚除以遷移數(shù)11,計算為“3.45 = (6+2+2+2+3+3+1+2+7+4+6)/I I ”。同樣地,在圖10的(b)中,關(guān)于在全體路徑中進行標準化后的累積距離,通過將全體路徑中的累積距1? 除以遷移數(shù) 11,計算為 “ 3.54 = (4+4+3+3+3+3+4+3+3+4+5) /11”。
[0116]S卩,僅包含與檢索詞相對應(yīng)的音素串中的一部分音素的區(qū)間中的累積距離小于包含全部音素的區(qū)間中的累積距離。這是因為音素串中的一部分音素“a: ”的路徑在全體路徑中為較長的部分(圖10的(a))占據(jù)了第I幀到第7幀。如此,在僅與檢索詞所對應(yīng)的音素串中的一部分音素類似的音素占據(jù)較長的路徑的情況下,容易判定為在整個音素串中類似度高。因此,如果以在全體路徑中進行了標準化后的累積距離作為基準來進行聲音檢索時,有時產(chǎn)生誤檢測。
[0117]為了避免該情況,標準化運算部140在區(qū)間指定部114指定的似然計算區(qū)間,通過與該音素相對應(yīng)的幀的數(shù)量,針對每個音素將基于針對通過搜索部117的搜索而與各幀建立了對應(yīng)關(guān)系的各音素所取得的輸出概率的值即距離,進行標準化處理然后進行加法運算,由此計算對每個音素進行了標準化后的累積距離。
[0118]在圖10的(a)中,由于音素“r”僅與第O幀關(guān)聯(lián),故標準化運算部140將該音素的距離值“6”除以幀數(shù)“I”。由于音素“a: ”與從第I幀到第7幀的7個幀關(guān)聯(lián),所以標準化運算部140將該音素的累積距離值除以幀數(shù)“7”。如此,標準化運算部140直到音素串的末尾的音素為止,將各音素的累積距離除以與各音素相對應(yīng)的幀的數(shù)量,即各音素的迀移數(shù),取得針對每個音素進行標準化后的累積距尚“25.1 = 6/1+ (2+2+2+3+3+1+2) /7+7/1+4/1+6/I”。
[0119]同樣地,在圖10的(b)中,標準化運算部140從音素串的起始音素到末尾的音素,將各音素的累積距離除以與各音素對應(yīng)的迀移數(shù),取得針對每個音素進行標準化后的累積距離 “18.5 = (4+4)/2+(3+3+3+3)/4+4/1+(3+3)/2+(4+5)/2”。
[0120]作為計算針對每個音素進行標準化后的累積距離的結(jié)果,由于使各音素的權(quán)重均勻,所以僅包含與檢索詞相對應(yīng)的音素串中的一部分音素的區(qū)間的累積距離大于包含全部音素的區(qū)間的累積距尚。由此,能夠抑制誤檢測,能夠以尚的精度進彳丁聲音檢索。
[0121]標準化運算部140針對區(qū)間指定部114指定的各似然計算區(qū)間,計算這樣的針對每個音素進行標準化后的累積距離。接著,對針對每個音素進行標準化后的累積距離,執(zhí)行累積距離越小似然越大的運算,計算對該似然計算區(qū)間的似然進行標準化后的標準化似然。
[0122]確定部120根據(jù)標準化運算部140計算出的標準化似然,從區(qū)間指定部114指定的似然計算區(qū)間中,確定被推定為從檢索對象的聲音信號中發(fā)出了與檢索詞相對應(yīng)的聲音的推定區(qū)間。例如,確定部120按照標準化運算部140計算出的標準化似然從大到小的順序,將預(yù)定數(shù)量的區(qū)間確定為推定區(qū)間。將確定部120確定的區(qū)間的位置信息作為最終的檢索結(jié)果,經(jīng)由輸出裝置5具有的畫面向外部顯示。
[0123]參照圖11所示的流程圖,對以上這樣的聲音檢索裝置200進行的聲音檢索處理進行說明。
[0124]如果檢索詞取得部111取得檢索詞(步驟S31),則圖11所示的流程圖的處理開始。如果檢索詞取得部111取得檢索詞,則變換部112將檢索詞變換為音素串(步驟S32),按照音素串的音素順序排列聲學(xué)模型的音素(步驟S33)。具體來說,變換部112將作為字符串輸入的檢索詞變換為基于單音素的單音素音素串等。
[0125]如果將檢索詞變換為音素串,則輸出概率取得部116根據(jù)檢索對象的聲音信號的特征量和聲學(xué)模型,取得從音素串中包含的各音素輸出各幀的特征量的輸出概率(步驟S34)。該特征量通過特征量計算部115而預(yù)先計算出。特征量計算部115從檢索對象的聲音信號的起始到末尾,每次指定I幀,依次計算指定的幀的聲音信號的特征量。
[0126]當(dāng)輸出概率取得部116取得了輸出概率時,時間長度導(dǎo)出部113導(dǎo)出與檢索詞相對應(yīng)的聲音的發(fā)音時間(步驟S35)。具體來說,時間長度導(dǎo)出部113取得在時間長度存儲部104中針對音素的每個狀態(tài)存儲的平均連續(xù)長度,將取得的平均連續(xù)長度相加,由此導(dǎo)出與檢索詞相對應(yīng)的聲音的發(fā)音時間長度。
[0127]如果時間長度導(dǎo)出部113導(dǎo)出發(fā)音時間長度,則區(qū)間指定部114從檢索對象的聲音信號的起始到末尾,依次指定導(dǎo)出的發(fā)音時間長度的區(qū)間即似然計算區(qū)間。接著,搜索部117通過DP匹配搜索所指定的似然計算區(qū)間中的各幀與音素串中包含的各音素的對應(yīng),生成累積距離表和迀移方向表(步驟S36)。
[0128]在區(qū)間指定部114指定的各似然計算區(qū)間,如果搜索部117生成了累積距離表和迀移方向表,則標準化運算部140執(zhí)行標準化運算處理(步驟S37)。參照圖12所示的流程圖,對該標準化運算處理的詳細內(nèi)容進行說明。
[0129]在標準化運算處理中,首先,標準化運算部140指定從檢索對象的聲音信號的起始幀開始的似然計算區(qū)間(步驟S371)。為了搜索部117生成累積距離表和迀移方向表,該似然計算區(qū)間與區(qū)間指定部114指定的區(qū)間相同。標準化運算部140再次從起始開始按照順序,指定區(qū)間指定部114指定的似然計算區(qū)間。
[0130]如果指定了似然計算區(qū)間,則標準化運算部140對指定的似然計算區(qū)間的標準化后的累積距離(在下面稱為“標準化距離”。)進行重置(步驟S372)。接著,標準化運算部140指定變換部112從檢索詞變換后的音素串的末尾的音素(步驟S373)。將指定的音素與前I個的音素的累積距離差除以通過指定的音素迀移的幀數(shù),將其結(jié)果與標準化距離相加(步驟S374)。
[0131]具體地參照圖9的例子來進行說明。圖9所示的路徑在音素串“r,a:,m,e,N”的末尾的音素“N”中,迀移第9、10幀這2個幀,從第8幀到第9幀,從前I個的音素“e”進行迀移。標準化運算部140參照指定的似然計算區(qū)間的迀移方向表,取得這樣的迀移信息。根據(jù)該信息,標準化運算部140得出到末尾的音素“N”迀移的幀數(shù)為“2”。
[0132]另外,標準化運算部140通過參照累積距離表,取得到末尾的幀即第10幀的累積距離“47”、到前I個音素“e”的最后的幀即第8幀的累積距離“35”的信息。根據(jù)該信息,標準化運算部140得出從前I個音素“e迀移到末尾的音素“N”時起的累積距離差“12 =47-35”。接著,標準化運算部140將末尾的音素“N”的累積距離差“12”除以迀移的幀數(shù)“ 2 ”得到的值“ 6 ”與重置后的標準化距離相加。
[0133]如果結(jié)束了指定的音素的加法運算處理,則標準化運算部140判斷指定的音素是否到達音素串的起始的音素(步驟S375)。在指定的音素沒有達到起始的音素的情況下(步驟S375 ;否),標準化運算部140指定前I個音素(步驟S376),將處理返回到步驟S374。即,標準化運算部140從音素串的末尾的音素到起始的音素依次進行指定,重復(fù)進行將累積距離差除以通過指定的音素進行迀移的幀數(shù),然后將得到的值與標準化距離相加的處理。
[0134]在指定的音素達到起始的音素時(步驟S375 ;是),標準化運算部140根據(jù)取得的標準化距離,計算標準化似然,將其與區(qū)間的起始的幀和末尾的幀一起,存儲在RAM2等的存儲區(qū)域中(步驟S377)。
[0135]標準化運算部140將計算出的標準化似然和進行標準化前的似然進行比較,如果進行標準化前的似然大于標準化似然,則可以將進行標準化前的似然作為指定的似然計算區(qū)間的似然。
[0136]當(dāng)如此指定的似然計算區(qū)間的似然的標準化結(jié)束時,標準化運算部140判斷是否指定了檢索對象的聲音信號的全部似然計算區(qū)間(步驟S378)。在全部似然計算區(qū)間的指定沒有結(jié)束時(步驟S378 ;否),標準化運算部140指定從下一幀開始的似然計算區(qū)間(步驟S379),將處理返回到步驟S372。S卩,標準化運算部140對新指定的似然計算區(qū)間,進行似然的標準化運算處理。
[0137]如此,標準化運算部140對檢索對象的聲音信號的全部似然計算區(qū)間,重復(fù)進行標準化運算處理,計算標準化似然。當(dāng)最終全部似然計算區(qū)間的指定結(jié)束時(步驟S378 ;是),圖12所示的標準化運算處理結(jié)束。
[0138]返回圖11所示的流程圖的說明,如果對全部區(qū)間的似然進行了標準化,則確定部120根據(jù)標準化似然,確定與檢索詞相對應(yīng)的區(qū)間(步驟S38)。例如,確定部120按照標準化似然從大到小的順序,將預(yù)定數(shù)量的區(qū)間確定為被推定為發(fā)出了與檢索詞對應(yīng)的聲音的區(qū)間。接著,確定部120經(jīng)由輸出裝置5,輸出確定結(jié)果(步驟S39)。通過以上所述,聲音檢索裝置200執(zhí)行的聲音檢索處理結(jié)束。
[0139]如以上說明的那樣,實施方式2的聲音檢索裝置200在采用DP匹配的聲音檢索中,針對每個音素對通過DP匹配而取得的路徑的累積距離進行標準化來進行計算。然后,根據(jù)進行標準化后的結(jié)果,確定被推定為從檢索對象的聲音信號中,發(fā)出了與檢索詞相對應(yīng)的聲音的區(qū)間。結(jié)果,能夠抑制比包含全部音素的區(qū)間優(yōu)先地檢測出僅與檢索詞所對應(yīng)的音素串中的部分音素相類似的區(qū)間的誤檢索,能夠高精度地進行聲音檢索。
[0140](變形例)
[0141]以上,對本發(fā)明的實施方式進行了說明,但是上述實施方式為一個例子,本發(fā)明的適用范圍并不限于此。即,本發(fā)明的實施方式可以有各種的應(yīng)用,所謂的實施方式包括在本發(fā)明的范圍中。
[0142]例如,在實施方式1、2中,檢索詞取得部111通過字符串(文本)取得了檢索詞(查詢