的第二似然度,從選擇部120選擇出的多個(gè)候選中確定從作為檢索對象的語音信號中推定為發(fā)出與檢索字符串對應(yīng)的語音的推定區(qū)間。例如,確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序?qū)㈩A(yù)定個(gè)數(shù)的區(qū)間確定為推定區(qū)間。確定部124確定的區(qū)間的位置信息作為最終的檢索結(jié)果,經(jīng)由輸出裝置5具備的畫面向外部顯不。
[0069]參照圖5所示的流程圖說明以上那樣的語音檢索裝置100執(zhí)行的語音檢索處理的流程。
[0070]如果檢索字符串取得部111取得檢索字符串(步驟Sll),則開始圖5所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串,則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S12),按照音素列的音素順序排列聲音模型的音素(步驟S13)。具體地說,變換部112將檢索字符串變換為基于單音素的單音素音素列,第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0071]如果將檢索字符串變換為音素列,則時(shí)間長度導(dǎo)出部113導(dǎo)出與檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度(步驟S14)。具體地說,時(shí)間長度導(dǎo)出部113取得在時(shí)間長度存儲部104中針對每個(gè)音素的狀態(tài)存儲的平均持續(xù)長度,將取得的平均持續(xù)長度相加,由此導(dǎo)出與檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度。
[0072]如果時(shí)間長度導(dǎo)出部113導(dǎo)出發(fā)言時(shí)間長度,則語音檢索處理從作為檢索對象的語音信號的開始到末尾,按順序地指定所導(dǎo)出的發(fā)言時(shí)間長度的區(qū)間即似然度計(jì)算區(qū)間,轉(zhuǎn)移到計(jì)算似然度的處理。首先,區(qū)間指定部114指定從作為檢索對象的語音信號的開頭幀開始的似然度計(jì)算區(qū)間(步驟S15)。
[0073]如果區(qū)間指定部114指定似然度計(jì)算區(qū)間,則特征量計(jì)算部115針對每個(gè)幀計(jì)算所指定的似然度計(jì)算區(qū)間的語音信號的特征量(步驟S16)。然后,輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對應(yīng)的單音素模型,對每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S17)。
[0074]如果輸出概率取得部116取得輸出概率,則置換部117將對每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率,由此執(zhí)行下界化處理(步驟S18)。由此,吸收時(shí)間長度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長度和實(shí)際的發(fā)言時(shí)間長度之間的誤差。
[0075]似然度計(jì)算部118取得下界化后的輸出概率在對數(shù)軸上的和,由此計(jì)算區(qū)間指定部114指定的似然度計(jì)算區(qū)間的似然度(步驟S19)。如果似然度計(jì)算部118計(jì)算出似然度,則重復(fù)部119判定作為檢索對象的語音信號的全部區(qū)間的似然度計(jì)算是否結(jié)束(步驟S20)。
[0076]在全部區(qū)間的似然度計(jì)算沒有結(jié)束的情況下(步驟S20:否),區(qū)間指定部114指定從上一個(gè)指定的幀的下一個(gè)幀開始的似然度計(jì)算區(qū)間(步驟S21),語音檢索處理返回到步驟S16。然后,重復(fù)部119針對新指定的似然度計(jì)算區(qū)間重復(fù)進(jìn)行上述的步驟S16?S20的處理,計(jì)算似然度。這樣,重復(fù)部119直到到達(dá)作為檢索對象的語音信號的末尾為止,使區(qū)間指定部114指定的似然度計(jì)算區(qū)間逐幀地偏移,依次計(jì)算似然度。
[0077]最終,如果全部區(qū)間的似然度計(jì)算結(jié)束(步驟S20:是),則語音檢索處理轉(zhuǎn)移到根據(jù)計(jì)算出的似然度確定與檢索字符串對應(yīng)的區(qū)間的處理(步驟S22)。參照圖6所示的流程圖說明該確定處理的細(xì)節(jié)。
[0078]在似然度計(jì)算處理結(jié)束的狀態(tài)下,選擇部120從區(qū)間指定部114指定的似然度計(jì)算區(qū)間中,針對每個(gè)預(yù)定的選擇時(shí)間長度逐一地選擇區(qū)間(步驟S101)。進(jìn)而,選擇部120從這樣選擇出的區(qū)間中,按照似然度從高到低的順序選擇X個(gè)區(qū)間(步驟S102)。S卩,選擇部120從作為檢索對象的語音信號的全體中預(yù)備地選擇確定為最終檢索結(jié)果的區(qū)間的候選,使得候選均勻地剩余。
[0079]在選擇部120的預(yù)備選擇后,第二輸出概率取得部122根據(jù)三音素音素列,對每個(gè)幀取得選擇部120選擇出的區(qū)間中的輸出概率(步驟S103)。然后,第二似然度計(jì)算部123通過DP匹配計(jì)算選擇部120選擇出的區(qū)間的似然度(步驟S104)。S卩,第二輸出概率取得部122和第二似然度計(jì)算部123根據(jù)三音素模型和DP匹配,執(zhí)行精度比輸出概率取得部116和似然度計(jì)算部118高的似然度計(jì)算處理。
[0080]如果第二似然度計(jì)算部123計(jì)算出第二似然度,則確定部124根據(jù)計(jì)算出的第二似然度確定與檢索字符串對應(yīng)的區(qū)間(步驟S105)。例如,確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序,將預(yù)定個(gè)數(shù)的區(qū)間確定為推定為發(fā)出與檢索字符串對應(yīng)的語音的區(qū)間。以上,圖6所示的流程圖的處理結(jié)束。
[0081]返回到圖5所示的流程圖的說明,如果確定與檢索字符串對應(yīng)的區(qū)間,則確定部124經(jīng)由輸出裝置5輸出確定結(jié)果(步驟S23)。通過以上步驟,語音檢索裝置100執(zhí)行的語音檢索處理結(jié)束。
[0082]如以上說明的那樣,實(shí)施方式I的語音檢索裝置100用字符串(文本)取得檢索詞(查詢),從作為檢索對象的語音信號中確定被推定為發(fā)出與查詢對應(yīng)的語音的區(qū)間。由于用字符串取得檢索詞,因此在作為檢索對象的語音包含多個(gè)發(fā)言者的語音的情況、查詢輸入者的語音在聲音上特異的情況、或查詢輸入者原本就難以發(fā)聲等情況下,也能夠高精度并且高速地進(jìn)行語音檢索。
[0083]另外,實(shí)施方式I的語言檢索裝置100首先通過進(jìn)行使用了將狀態(tài)轉(zhuǎn)移固定化了的高速聲音模型即單音素模型的計(jì)算量少的匹配,來預(yù)備選擇被推定為發(fā)出與查詢對應(yīng)的語音的區(qū)間的候選。然后,語音檢索裝置100進(jìn)行使用了考慮到狀態(tài)轉(zhuǎn)移的聲音模型即三音素模型的計(jì)算量多并且高精度的匹配,由此得到最終的檢索結(jié)果。其結(jié)果是語音檢索裝置100能夠在抑制計(jì)算量的同時(shí)高精度地進(jìn)行語音檢索。
[0084](實(shí)施方式2)
[0085]接著,說明本發(fā)明的實(shí)施方式2。
[0086]在實(shí)施方式I中,時(shí)間長度導(dǎo)出部113導(dǎo)出一個(gè)時(shí)間長度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度。另外,通過下界化在各音素的前后η幀的范圍內(nèi)吸收了時(shí)間長度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長度和實(shí)際的發(fā)言時(shí)間長度之間的誤差。
[0087]但是,存在以下的問題,即在語速原本快或慢的情況下,導(dǎo)出的發(fā)言時(shí)間長度比實(shí)際的發(fā)言時(shí)間長度長或短,超過了前后η幀的范圍。為了應(yīng)對該問題,在實(shí)施方式2中,時(shí)間長度導(dǎo)出部113導(dǎo)出相互不同的多個(gè)時(shí)間長度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度。
[0088]為此,在實(shí)施方式2中,時(shí)間長度存儲部104對各音素以狀態(tài)為單位對應(yīng)地存儲在聲音模型中利用的各音素的平均持續(xù)長度、比平均持續(xù)長度短的時(shí)間長度、比平均持續(xù)長度長的時(shí)間長度這3種時(shí)間長度。比平均持續(xù)長度長的時(shí)間長度例如是平均持續(xù)長度的
1.3倍的時(shí)間長度。比平均持續(xù)長度短的時(shí)間長度例如是平均持續(xù)長度的0.7倍的時(shí)間長度。
[0089]即,實(shí)施方式2的語音檢索裝置100準(zhǔn)備與快/普通/慢這3個(gè)語速對應(yīng)的時(shí)間長度,作為各音素的每個(gè)狀態(tài)的持續(xù)時(shí)間長度。由此,防止由于語速的不同而檢索精度惡化。
[0090]參照圖7所示的流程圖說明實(shí)施方式2的語音檢索裝置100執(zhí)行的語音檢索處理的流程。
[0091]如果檢索字符串取得部111取得檢索字符串(步驟S31),則開始圖7所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串,則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S32),按照音素列的音素順序排列聲音模型的音素(步驟S33)。具體地說,變換部112將檢索字符串變換為基于單音素的單音素音素列,第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0092]如果將檢索字符串變換為音素列,則時(shí)間長度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長度作為與檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度(步驟S34)。作為3個(gè)時(shí)間長度,第一,時(shí)間長度導(dǎo)出部113取得在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度,將取得的平均持續(xù)長度相加,由此導(dǎo)出第一時(shí)間長度。第二,時(shí)間長度導(dǎo)出部113取得比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度短的時(shí)間長度,將取得的時(shí)間長度相加,由此導(dǎo)出第二時(shí)間長度。第三,時(shí)間長度導(dǎo)出部113取得比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度長的時(shí)間長度,將取得的時(shí)間長度相加,由此導(dǎo)出第三時(shí)間長度。
[0093]在比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度短的時(shí)間長度一律是平均持續(xù)長度的0.7倍的時(shí)間長度的情況下,第二時(shí)間長度為第一時(shí)間長度的0.7倍。在比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度長的時(shí)間長度一律是平均持續(xù)長度的1.3倍的時(shí)間長度的情況下,第三時(shí)間長度為第一時(shí)間長度的1.3倍。
[0094]如果時(shí)間長度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長度作為發(fā)言時(shí)間長度,則語音檢索處理從作為檢索對象的語音信號的開始到末尾,順序地指定導(dǎo)出的各時(shí)間長度的區(qū)間即似然度計(jì)算區(qū)間,轉(zhuǎn)移到計(jì)算似然度的處理。首先,區(qū)間指定部114針對時(shí)間長度導(dǎo)出部113導(dǎo)出的3個(gè)時(shí)間長度,分別指定從作為檢索對象的語音信號的開頭幀開始的似然度計(jì)算區(qū)間(步驟S35)。
[0095]如果區(qū)間指定部114針對各時(shí)間長度指定似然度計(jì)算區(qū)間,則特征量計(jì)算部115針對每個(gè)幀計(jì)算指定的似然度計(jì)算區(qū)間的語音信號的特征量(步驟S36)。然后,輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對應(yīng)的單音素模型,對每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S37)。
[0096]如果輸出概率取得部116取得輸出概率,則置換部117將對每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率,由此執(zhí)行下界化處理(步驟S38)。由此,吸收時(shí)間長度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長度和實(shí)際的發(fā)言時(shí)間長度之間的誤差。
[0097]似然度計(jì)算部118取得下界化后的輸出概率在對數(shù)軸上的和,由此計(jì)算區(qū)間指定部114針對3個(gè)時(shí)間長度分別指定的似然度計(jì)算區(qū)間的似然度(步驟S