語音檢索裝置以及語音檢索方法_3

文檔序號：8923595閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>語音檢索裝置以及語音檢索方法

的第二似然度，從選擇部120選擇出的多個(gè)候選中確定從作為檢索對象的語音信號中推定為發(fā)出與檢索字符串對應(yīng)的語音的推定區(qū)間。例如，確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序?qū)㈩A(yù)定個(gè)數(shù)的區(qū)間確定為推定區(qū)間。確定部124確定的區(qū)間的位置信息作為最終的檢索結(jié)果，經(jīng)由輸出裝置5具備的畫面向外部顯不。
[0069]參照圖5所示的流程圖說明以上那樣的語音檢索裝置100執(zhí)行的語音檢索處理的流程。
[0070]如果檢索字符串取得部111取得檢索字符串(步驟Sll)，則開始圖5所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串，則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S12)，按照音素列的音素順序排列聲音模型的音素(步驟S13)。具體地說，變換部112將檢索字符串變換為基于單音素的單音素音素列，第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0071]如果將檢索字符串變換為音素列，則時(shí)間長度導(dǎo)出部113導(dǎo)出與檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度(步驟S14)。具體地說，時(shí)間長度導(dǎo)出部113取得在時(shí)間長度存儲部104中針對每個(gè)音素的狀態(tài)存儲的平均持續(xù)長度，將取得的平均持續(xù)長度相加，由此導(dǎo)出與檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度。
[0072]如果時(shí)間長度導(dǎo)出部113導(dǎo)出發(fā)言時(shí)間長度，則語音檢索處理從作為檢索對象的語音信號的開始到末尾，按順序地指定所導(dǎo)出的發(fā)言時(shí)間長度的區(qū)間即似然度計(jì)算區(qū)間，轉(zhuǎn)移到計(jì)算似然度的處理。首先，區(qū)間指定部114指定從作為檢索對象的語音信號的開頭幀開始的似然度計(jì)算區(qū)間(步驟S15)。
[0073]如果區(qū)間指定部114指定似然度計(jì)算區(qū)間，則特征量計(jì)算部115針對每個(gè)幀計(jì)算所指定的似然度計(jì)算區(qū)間的語音信號的特征量(步驟S16)。然后，輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對應(yīng)的單音素模型，對每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S17)。
[0074]如果輸出概率取得部116取得輸出概率，則置換部117將對每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率，由此執(zhí)行下界化處理(步驟S18)。由此，吸收時(shí)間長度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長度和實(shí)際的發(fā)言時(shí)間長度之間的誤差。
[0075]似然度計(jì)算部118取得下界化后的輸出概率在對數(shù)軸上的和，由此計(jì)算區(qū)間指定部114指定的似然度計(jì)算區(qū)間的似然度(步驟S19)。如果似然度計(jì)算部118計(jì)算出似然度，則重復(fù)部119判定作為檢索對象的語音信號的全部區(qū)間的似然度計(jì)算是否結(jié)束(步驟S20)。
[0076]在全部區(qū)間的似然度計(jì)算沒有結(jié)束的情況下(步驟S20:否)，區(qū)間指定部114指定從上一個(gè)指定的幀的下一個(gè)幀開始的似然度計(jì)算區(qū)間(步驟S21)，語音檢索處理返回到步驟S16。然后，重復(fù)部119針對新指定的似然度計(jì)算區(qū)間重復(fù)進(jìn)行上述的步驟S16?S20的處理，計(jì)算似然度。這樣，重復(fù)部119直到到達(dá)作為檢索對象的語音信號的末尾為止，使區(qū)間指定部114指定的似然度計(jì)算區(qū)間逐幀地偏移，依次計(jì)算似然度。
[0077]最終，如果全部區(qū)間的似然度計(jì)算結(jié)束(步驟S20:是)，則語音檢索處理轉(zhuǎn)移到根據(jù)計(jì)算出的似然度確定與檢索字符串對應(yīng)的區(qū)間的處理(步驟S22)。參照圖6所示的流程圖說明該確定處理的細(xì)節(jié)。
[0078]在似然度計(jì)算處理結(jié)束的狀態(tài)下，選擇部120從區(qū)間指定部114指定的似然度計(jì)算區(qū)間中，針對每個(gè)預(yù)定的選擇時(shí)間長度逐一地選擇區(qū)間(步驟S101)。進(jìn)而，選擇部120從這樣選擇出的區(qū)間中，按照似然度從高到低的順序選擇X個(gè)區(qū)間(步驟S102)。S卩，選擇部120從作為檢索對象的語音信號的全體中預(yù)備地選擇確定為最終檢索結(jié)果的區(qū)間的候選，使得候選均勻地剩余。
[0079]在選擇部120的預(yù)備選擇后，第二輸出概率取得部122根據(jù)三音素音素列，對每個(gè)幀取得選擇部120選擇出的區(qū)間中的輸出概率(步驟S103)。然后，第二似然度計(jì)算部123通過DP匹配計(jì)算選擇部120選擇出的區(qū)間的似然度(步驟S104)。S卩，第二輸出概率取得部122和第二似然度計(jì)算部123根據(jù)三音素模型和DP匹配，執(zhí)行精度比輸出概率取得部116和似然度計(jì)算部118高的似然度計(jì)算處理。
[0080]如果第二似然度計(jì)算部123計(jì)算出第二似然度，則確定部124根據(jù)計(jì)算出的第二似然度確定與檢索字符串對應(yīng)的區(qū)間(步驟S105)。例如，確定部124按照第二似然度計(jì)算部123計(jì)算出的第二似然度從大到小的順序，將預(yù)定個(gè)數(shù)的區(qū)間確定為推定為發(fā)出與檢索字符串對應(yīng)的語音的區(qū)間。以上，圖6所示的流程圖的處理結(jié)束。
[0081]返回到圖5所示的流程圖的說明，如果確定與檢索字符串對應(yīng)的區(qū)間，則確定部124經(jīng)由輸出裝置5輸出確定結(jié)果(步驟S23)。通過以上步驟，語音檢索裝置100執(zhí)行的語音檢索處理結(jié)束。
[0082]如以上說明的那樣，實(shí)施方式I的語音檢索裝置100用字符串(文本)取得檢索詞(查詢)，從作為檢索對象的語音信號中確定被推定為發(fā)出與查詢對應(yīng)的語音的區(qū)間。由于用字符串取得檢索詞，因此在作為檢索對象的語音包含多個(gè)發(fā)言者的語音的情況、查詢輸入者的語音在聲音上特異的情況、或查詢輸入者原本就難以發(fā)聲等情況下，也能夠高精度并且高速地進(jìn)行語音檢索。
[0083]另外，實(shí)施方式I的語言檢索裝置100首先通過進(jìn)行使用了將狀態(tài)轉(zhuǎn)移固定化了的高速聲音模型即單音素模型的計(jì)算量少的匹配，來預(yù)備選擇被推定為發(fā)出與查詢對應(yīng)的語音的區(qū)間的候選。然后，語音檢索裝置100進(jìn)行使用了考慮到狀態(tài)轉(zhuǎn)移的聲音模型即三音素模型的計(jì)算量多并且高精度的匹配，由此得到最終的檢索結(jié)果。其結(jié)果是語音檢索裝置100能夠在抑制計(jì)算量的同時(shí)高精度地進(jìn)行語音檢索。
[0084](實(shí)施方式2)
[0085]接著，說明本發(fā)明的實(shí)施方式2。
[0086]在實(shí)施方式I中，時(shí)間長度導(dǎo)出部113導(dǎo)出一個(gè)時(shí)間長度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度。另外，通過下界化在各音素的前后η幀的范圍內(nèi)吸收了時(shí)間長度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長度和實(shí)際的發(fā)言時(shí)間長度之間的誤差。
[0087]但是，存在以下的問題，即在語速原本快或慢的情況下，導(dǎo)出的發(fā)言時(shí)間長度比實(shí)際的發(fā)言時(shí)間長度長或短，超過了前后η幀的范圍。為了應(yīng)對該問題，在實(shí)施方式2中，時(shí)間長度導(dǎo)出部113導(dǎo)出相互不同的多個(gè)時(shí)間長度作為與檢索字符串取得部111取得的一個(gè)檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度。
[0088]為此，在實(shí)施方式2中，時(shí)間長度存儲部104對各音素以狀態(tài)為單位對應(yīng)地存儲在聲音模型中利用的各音素的平均持續(xù)長度、比平均持續(xù)長度短的時(shí)間長度、比平均持續(xù)長度長的時(shí)間長度這3種時(shí)間長度。比平均持續(xù)長度長的時(shí)間長度例如是平均持續(xù)長度的
1.3倍的時(shí)間長度。比平均持續(xù)長度短的時(shí)間長度例如是平均持續(xù)長度的0.7倍的時(shí)間長度。
[0089]即，實(shí)施方式2的語音檢索裝置100準(zhǔn)備與快/普通/慢這3個(gè)語速對應(yīng)的時(shí)間長度，作為各音素的每個(gè)狀態(tài)的持續(xù)時(shí)間長度。由此，防止由于語速的不同而檢索精度惡化。
[0090]參照圖7所示的流程圖說明實(shí)施方式2的語音檢索裝置100執(zhí)行的語音檢索處理的流程。
[0091]如果檢索字符串取得部111取得檢索字符串(步驟S31)，則開始圖7所示的流程圖的處理。如果檢索字符串取得部111取得檢索字符串，則變換部112和第二變換部121將檢索字符串變換為音素列(步驟S32)，按照音素列的音素順序排列聲音模型的音素(步驟S33)。具體地說，變換部112將檢索字符串變換為基于單音素的單音素音素列，第二變換部121將檢索字符串變換為基于三音素的三音素音素列。
[0092]如果將檢索字符串變換為音素列，則時(shí)間長度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長度作為與檢索字符串對應(yīng)的語音的發(fā)言時(shí)間長度(步驟S34)。作為3個(gè)時(shí)間長度，第一，時(shí)間長度導(dǎo)出部113取得在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度，將取得的平均持續(xù)長度相加，由此導(dǎo)出第一時(shí)間長度。第二，時(shí)間長度導(dǎo)出部113取得比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度短的時(shí)間長度，將取得的時(shí)間長度相加，由此導(dǎo)出第二時(shí)間長度。第三，時(shí)間長度導(dǎo)出部113取得比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度長的時(shí)間長度，將取得的時(shí)間長度相加，由此導(dǎo)出第三時(shí)間長度。
[0093]在比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度短的時(shí)間長度一律是平均持續(xù)長度的0.7倍的時(shí)間長度的情況下，第二時(shí)間長度為第一時(shí)間長度的0.7倍。在比在時(shí)間長度存儲部104中對每個(gè)狀態(tài)存儲的平均持續(xù)長度長的時(shí)間長度一律是平均持續(xù)長度的1.3倍的時(shí)間長度的情況下，第三時(shí)間長度為第一時(shí)間長度的1.3倍。
[0094]如果時(shí)間長度導(dǎo)出部113導(dǎo)出3個(gè)時(shí)間長度作為發(fā)言時(shí)間長度，則語音檢索處理從作為檢索對象的語音信號的開始到末尾，順序地指定導(dǎo)出的各時(shí)間長度的區(qū)間即似然度計(jì)算區(qū)間，轉(zhuǎn)移到計(jì)算似然度的處理。首先，區(qū)間指定部114針對時(shí)間長度導(dǎo)出部113導(dǎo)出的3個(gè)時(shí)間長度，分別指定從作為檢索對象的語音信號的開頭幀開始的似然度計(jì)算區(qū)間(步驟S35)。
[0095]如果區(qū)間指定部114針對各時(shí)間長度指定似然度計(jì)算區(qū)間，則特征量計(jì)算部115針對每個(gè)幀計(jì)算指定的似然度計(jì)算區(qū)間的語音信號的特征量(步驟S36)。然后，輸出概率取得部116根據(jù)特征量計(jì)算部115計(jì)算出的特征量和對應(yīng)的單音素模型，對每個(gè)幀取得從包含在音素列中的各音素輸出該特征量的輸出概率(步驟S37)。
[0096]如果輸出概率取得部116取得輸出概率，則置換部117將對每個(gè)幀取得的輸出概率置換為其前后η個(gè)幀中的最大的輸出概率，由此執(zhí)行下界化處理(步驟S38)。由此，吸收時(shí)間長度導(dǎo)出部113導(dǎo)出的發(fā)言時(shí)間長度和實(shí)際的發(fā)言時(shí)間長度之間的誤差。
[0097]似然度計(jì)算部118取得下界化后的輸出概率在對數(shù)軸上的和，由此計(jì)算區(qū)間指定部114針對3個(gè)時(shí)間長度分別指定的似然度計(jì)算區(qū)間的似然度(步驟S

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3 4 5

相關(guān)技術(shù)