3從時間長度存儲部104取得在變換部112變換后的音素列中包含的各音素的平均持續(xù)長度。然后,根據(jù)取得的平均持續(xù)長度,導出與檢索字符串對應的語音的發(fā)言時間長度。
[0044]S卩,語音檢索裝置100用字符串取得查詢,因此無法直接得到與該查詢對應的語音的發(fā)言時間長度的信息。因此,語音檢索裝置100預先在時間長度存儲部104中對每個音素的狀態(tài)準備發(fā)言時的典型的持續(xù)長度,使用每個狀態(tài)的持續(xù)長度預測與檢索字符串取得部111取得的檢索字符串對應的語音的發(fā)言時間長度。
[0045]例如,在音素列是“r,a:,m,e,N”的情況下,時間長度導出部113針對這5個音素的3個狀態(tài)分別取得存儲在時間長度存儲部104中的合計15個平均持續(xù)長度。然后,導出將取得的15個平均持續(xù)長度相加所得的時間長度作為與檢索字符串對應的語音的發(fā)言時間長度。
[0046]區(qū)間指定部114從語音信號存儲部101取得作為檢索對象的語音信號,從作為檢索對象的語音信號的開頭開始按順序地指定時間長度導出部113導出的時間長度的區(qū)間即似然度計算區(qū)間。似然度是表示與檢索字符串對應的語音和指定的區(qū)間的語音信號之間的類似程度的指標。區(qū)間指定部114為了對從檢索字符串變換所得的音素列和語音信號進行比較,而分割出所指定的似然度計算區(qū)間內的語音信號,使包含在分割出的語音信號中的各幀和包含在音素列中的各音素的狀態(tài)對應起來。
[0047]幀是指語音信號中的具有預定時間長度的時間窗。具體地,參照圖3說明在作為檢索對象的語音信號中設定的幀。圖3(a)是從開頭到末尾的時間長度T的作為檢索對象的語音信號的波形圖。縱軸表示波形的振幅(能量)的大小,橫軸表示時間t。圖3(b)表示在圖3(a)所示的語音信號中設定的幀。從第O幀到第(N-1)幀,逐次偏移預定的偏移長度S地設定幀長度為F的N個幀。
[0048]幀長度F和偏移長度S與在制作聲音模型時設定的時間長度一致(例如幀長度F=25暈秒(msec),偏移長度S = 10暈秒(msec)等)。幀長度F比偏移長度S長,因此各幀與相鄰的幀只重復時間長度(F-S)。
[0049]圖3(c)表示在作為檢索對象的語音信號中通過區(qū)間指定部114指定的似然度計算區(qū)間。區(qū)間指定部114首先指定包含從第O幀到第(M-1)幀的M個幀的時間長度L的第O似然度計算區(qū)間。
[0050]特征量計算部115針對每個幀計算區(qū)間指定部114指定的似然度計算區(qū)間中的作為檢索對象的語音信號的特征量。例如通過組合在頻率軸上對被稱為倒頻譜、梅爾頻率倒頻譜的語音數(shù)據(jù)進行變換所得的頻率軸系特征參數(shù)、和通過計算語音數(shù)據(jù)的能量的平方和、其對數(shù)所得的功率系特征參數(shù),而得到該特征量。
[0051]例如,將特征量構成為具有合計38個分量的38維向量量。該38維向量量,由頻率軸系特征參數(shù)的12個分量(12維)、功率系特征參數(shù)的I個分量(I維)、△頻率軸系特征參數(shù)的12個分量(12維)、△功率系特征參數(shù)的I個分量(I維)、△ △頻率軸系特征參數(shù)的12個分量(12維)構成。此外,Δ頻率軸系特征參數(shù)的12個分量(12維)采用與上一個時間窗的各分量的差。另外,△ △頻率軸系特征參數(shù)的12個分量(12維)采用與上一個時間窗的各分量的差的差。
[0052]輸出概率取得部116根據(jù)特征量計算部115計算出的特征量,對每個幀取得從包含在音素列中的各音素輸出該特征量的輸出概率。具體地說,輸出概率取得部116從單音素模型存儲部102取得單音素模型,對特征量計算部115計算出的各幀的特征量、與包含在音素列中的音素狀態(tài)中的與該幀對應的狀態(tài)的單音素模型進行比較。然后,計算從對應的狀態(tài)輸出各幀的特征量的概率。通過對多個高斯分布加權地相加所得的正態(tài)混合連續(xù)分布來表示該輸出概率。
[0053]如果輸出概率取得部116針對似然度計算區(qū)間中的全部幀取得輸出概率,則置換部117將取得的輸出概率分別置換為在包含該輸出概率的連續(xù)多個幀中取得的多個輸出概率中的值最大的輸出概率。將該置換處理稱為下界化。
[0054]具體地參照圖4說明下界化。在圖4中,實線表示對每個幀取得的輸出概率??v軸表示為越向下則輸出概率的高度越高,橫軸表示時間t。置換部117將各幀的輸出概率置換為其前后η個幀中的最大的輸出概率。例如將η設定為相當于10msec的幀數(shù)。置換的結果是將用實線表示的輸出概率變換為如用虛線所示的LB (Lower-Bound:下界)化輸出概率那樣在時間方向上值的變化變小的輸出概率。
[0055]通過這樣的下界化,能夠在前后η個幀的范圍內吸收存儲在時間長度存儲部104中的各音素的平均持續(xù)長度和實際的持續(xù)長度之間的誤差、以及與時間長度導出部113導出的檢索字符串對應的語音的發(fā)言時間長度和實際的發(fā)言時間長度之間的誤差。
[0056]似然度計算部118根據(jù)置換部117的置換后的輸出概率,計算表示區(qū)間指定部114指定的似然度計算區(qū)間是發(fā)出與檢索字符串對應的語音的區(qū)間的似然性的似然度。具體地說,似然度計算部118通過在似然度計算區(qū)間的從開頭到末尾的全部幀中將取得置換后的輸出概率的對數(shù)所得的值相加,來取得該似然度計算區(qū)間的似然度。S卩,越多地包含輸出概率高的幀的似然度計算區(qū)間,則似然度計算部118計算出的似然度越大。
[0057]重復部119改變區(qū)間指定部114指定的似然度計算區(qū)間,重復進行區(qū)間指定部114、特征量計算部115、輸出概率取得部116、置換部117以及似然度計算部118的處理。
[0058]如果具體地參照圖3(c)進行說明,則重復部119使區(qū)間指定部114指定的似然度計算區(qū)間偏移I幀的量,新指定包含從第I幀到第M幀的M個幀的時間長度L的第一似然度計算區(qū)間。然后,在新指定的第一似然度計算區(qū)間中,執(zhí)行與上述的從特征量計算部115到似然度計算部118的處理相同的處理,來計算第一似然度計算區(qū)間的似然度。
[0059]同樣,重復部119從第二似然度計算區(qū)間到第(P-1)似然度計算區(qū)間,使區(qū)間指定部114指定的似然度計算區(qū)間每次偏移I幀,針對在作為檢索對象的語音信號中能夠指定的P個似然度計算區(qū)間分別計算似然度。其結果是針對作為檢索對象的語音信號的每一個幀,計算假定為從該區(qū)間發(fā)出與檢索字符串對應的語音的情況下的似然度。此外,使用語音信號的時間長度T和似然度計算區(qū)間的時間長度L和偏移長度S,將在作為檢索對象的語音信號中能夠指定的似然度計算區(qū)間的個數(shù)P確定為P = (T-L+S)。
[0060]選擇部120根據(jù)似然度計算部118計算出的似然度,從區(qū)間指定部114指定的似然度計算區(qū)間中選擇被推定為發(fā)出與檢索字符串對應的語音的推定區(qū)間的多個候選。即,選擇部120為了抑制后級的基于三音素模型更高精度地計算似然度的計算量,從計算出似然度的P個似然度計算區(qū)間中預備地選擇成為最終檢索結果的候選的區(qū)間,從候選中排除剩余的似然度推定區(qū)間。
[0061]這時,區(qū)間指定部114指定的似然度計算區(qū)間具有多個重疊,因此時序地連續(xù)存在似然度大的區(qū)間的情況多。因此,如果選擇部120從P個似然度計算區(qū)間中簡單地從似然度大的區(qū)間起按順序選擇推定區(qū)間的候選,則選擇的區(qū)間集中在作為檢索對象的語音信號中的一部分的可能性變大。
[0062]為了避免該情況,選擇部120從區(qū)間指定部114指定的似然度計算區(qū)間中,針對每個預定的選擇時間長度,逐一地選擇從該預定的選擇時間長度的區(qū)間中開始的似然度計算區(qū)間中的似然度最大的似然度計算區(qū)間,由此選擇推定區(qū)間的多個候選。例如將該預定的選擇時間長度設定為如相當于似然度計算區(qū)間的時間長度L的Ι/k(例如1/2)的時間長度那樣,比似然度計算區(qū)間的時間長度L短的時間。在該情況下,對每個時間長度(L/k)逐一地選擇似然度計算區(qū)間作為候選,從候選中排除剩余。由此,選擇部120能夠在作為檢索對象的語音信號整體中均勻地選擇推定區(qū)間的候選。
[0063]從這樣選擇出的推定區(qū)間的候選中,選擇部120從似然度大的區(qū)間起按順序地再選擇X個區(qū)間。經(jīng)由輸出裝置5具備的畫面向外部顯示選擇部120的選擇結果。然后,語音檢索裝置100針對選擇出的X個區(qū)間,執(zhí)行基于三音素模型和動態(tài)計劃法(DP(DynamicProgramming:動態(tài)編程)匹配)的更高精度的似然度計算處理。
[0064]第二變換部121依照檢索字符串取得部111取得的檢索字符串,對作為依存于相鄰的音素的第二聲音模型的三音素模型的音素進行排列,將檢索字符串變換為作為第二音素列的三音素音素列。例如在輸入了日語“歹一 y ”作為檢索字符串的情況下,“ aV”包含“r-a:+m”、“a:-m+e”、“m-e+N” 3個三音素模型,因此第二變換部121生成排列了這3個三音素所得的三音素音素列。
[0065]第二輸出概率取得部122針對每個幀取得從包含在第二變換部121變換后的第二音素列中的各音素輸出由選擇部120選擇為推定區(qū)間的候選的區(qū)間中的作為檢索對象的語音信號的特征量的輸出概率。具體地說,第二輸出概率取得部122從三音素模型存儲部103取得三音素模型,對特征量計算部115計算出的各幀的特征量和包含在三音素音素列中的各三音素的模型進行比較。然后,計算從各三音素輸出各幀的特征量的概率。
[0066]第二似然度計算部123針對選擇部120選擇出的多個候選,分別計算表示由選擇部120選擇為推定區(qū)間的候選的區(qū)間是發(fā)出與檢索字符串對應的語音的區(qū)間的似然性的第二似然度。第二似然度根據(jù)作為第二音素列的三音素音素列計算,因此與似然度計算部118根據(jù)單音素音素列和下界化的輸出概率計算出的似然度相比,是表示與檢索字符串對應的語音和選擇出的區(qū)間的語音信號之間的類似程度的更高精度的指標。
[0067]例如,第二似然度計算部123根據(jù)第二輸出概率取得部122取得的輸出概率,通過DP匹配來搜索選擇部120選擇出的區(qū)間中的各幀和包含在三音素音素列中的各三音素之間的對應。然后,通過將取得針對與選擇部120選擇出的區(qū)間中的各幀對應的三音素分別取得的輸出概率的對數(shù)所得的值相加,得到該區(qū)間中的第二似然度。
[0068]確定部124根據(jù)第二似然度計算部123計算出