語音檢索裝置以及語音檢索方法_4

文檔序號：8923595閱讀：來源：國知局

39)。如果似然度計算部118計算出似然度，則重復部119針對時間長度導出部113導出的各時間長度，判定作為檢索對象的語音信號的全部區(qū)間的似然度計算是否結束(步驟S40)。
[0098]在全部區(qū)間的似然度計算沒有結束的情況下(步驟S40:否)，針對時間長度導出部113導出的3個時間長度，分別由區(qū)間指定部114指定從上一個指定的幀的下一個幀開始的似然度計算區(qū)間(步驟S41)，語音檢索處理返回到步驟S36。然后，重復部119針對各時間長度對新指定的似然度計算區(qū)間重復進行上述的步驟S36?S40的處理，計算似然度。這樣，重復部119直到到達作為檢索對象的語音信號的末尾為止，使區(qū)間指定部114指定的似然度計算區(qū)間逐幀地偏移，依次計算似然度。
[0099]最終，如果區(qū)間的似然度計算結束(步驟S40:是)，則語音檢索處理轉移到根據(jù)計算出的似然度確定與檢索字符串對應的區(qū)間的處理(步驟S42)。該確定處理與參照圖6的流程圖說明的處理相同。
[0100]S卩，選擇部120從區(qū)間指定部114針對3個時間長度分別指定的似然度計算區(qū)間中，針對每個預定的選擇時間長度逐一地選擇區(qū)間(步驟S101)。進而，選擇部120從這樣選擇出的區(qū)間中按照似然度從高到低的順序選擇X個區(qū)間(步驟S102)。第二輸出概率取得部122根據(jù)三音素音素列，對每個幀取得選擇部120選擇出的區(qū)間中的輸出概率(步驟
5103)。第二似然度計算部123通過DP匹配計算選擇部120選擇出的區(qū)間的似然度(步驟
5104)。然后，確定部124根據(jù)計算出的第二似然度，確定被推定為發(fā)出與檢索字符串對應的的語音的區(qū)間(步驟S105)。
[0101]如果確定與檢索字符串對應的區(qū)間，則確定部124經(jīng)由輸出裝置5輸出確定結果(步驟S43)。通過以上步驟，語音檢索裝置100執(zhí)行的語音檢索處理結束。
[0102]如以上說明的那樣，實施方式2的語音檢索裝置100導出與快/普通/慢的3個語速對應的3個時間長度，作為與檢索字符串對應的語音的發(fā)言時間長度。然后，將分別與導出的3個時間長度相當?shù)臅r間長度的區(qū)間指定為似然度計算區(qū)間，從指定的似然度計算區(qū)間中確定被推定為發(fā)出與檢索字符串對應的語音的區(qū)間。其結果是能夠減少由于語速的不同而似然度惡化，從候選中遺漏的情況，在針對與平均的語速有偏差的語音信號的語音檢索中，也能夠提高檢索精度。
[0103](實施方式3)
[0104]接著，說明本發(fā)明的實施方式3。
[0105]實施方式I和實施方式2的語音檢索裝置100在檢索字符串取得部111取得了檢索字符串后執(zhí)行用于似然度的計算的輸出概率的計算。但是，輸出概率的計算是計算量多的處理。因此，實施方式3的語音檢索裝置，預先在預備選擇與檢索字符串對應的區(qū)間的候選時使用單音素模型計算輸出概率，謀求檢索時的高速化。以下進行說明。
[0106]實施方式3的語音檢索裝置與實施方式I的語音檢索裝置100同樣地在物理上如圖1所示那樣構成。因此，在此省略詳細的說明。
[0107]實施方式3的語音檢索裝置在功能上如圖8所示那樣構成。語音檢索裝置300不具備實施方式I和實施方式2的語音檢索裝置100所具備的單音素模型存儲部102，代替它而具備輸出概率存儲部105。在外部存儲裝置3的存儲區(qū)域中構筑輸出概率存儲部105。另外，與實施方式I和實施方式2的語音檢索裝置100相比，替換了各部的處理的順序。以下，說明各部的細節(jié)。
[0108]輸出概率存儲部105對包含在作為檢索對象的語音信號中的每個幀，對應地存儲聲音模型的各音素、從該各音素輸出作為檢索對象的語音信號的特征量的輸出概率。聲音模型是在預備選擇時使用的單音素模型。例如，日語的單音素全部具有約40種音素。輸出概率存儲部105將針對向這40種音素追加了無音的I個音素的41個音素123狀態(tài)預先計算作為檢索對象的語音信號的從開頭到末尾的全部幀的全部輸出概率所得的結果存儲為檢索索引。
[0109]例如，如果假定用8字節(jié)的雙精度(double)型保存每一個狀態(tài)的輸出概率，則可以用約960字節(jié)存儲每一幀的輸出概率。另一方面，如果基于16位PCM/16kHz采樣的條件，將偏移長度S假定為10msec，則語音信號的容量對每一個偏移長度是320字節(jié)。因此，為了存儲輸出概率所需要的容量只是為了存儲語音信號所需要的容量的最多3倍。
[0110]此外，可以由語音檢索裝置300執(zhí)行使用單音素模型預先計算輸出概率的處理?；蛘?，也可以由其他信息處理裝置計算輸出概率，由語音檢索裝置300取得其結果，存儲在輸出概率存儲部105中。
[0111]檢索字符串取得部111取得檢索字符串。檢索字符串取得部111例如經(jīng)由操作部12取得用戶輸入的檢索字符串。變換部112依照檢索字符串取得部111取得的檢索字符串對不依存于相鄰的音素的聲音模型即單音素模型的音素進行排列，將檢索字符串變換為音素列。
[0112]如果變換部12將檢索字符串變換為音素列，則輸出概率取得部116從存儲在輸出概率存儲部105中的輸出概率中取得與包含在該音素列中的各音素對應地存儲的輸出概率。具體地說，輸出概率取得部116從對每幀存儲的單音素模型的全部音素的輸出概率中，針對作為檢索對象的語音信號的全部幀取得檢索所需要的音素的輸出概率。
[0113]如果輸出概率取得部116取得輸出概率，則置換部117針對取得的輸出概率執(zhí)行下界(Lower-Bound)化處理。S卩，置換部117將針對作為檢索對象的語音信號的全部幀取得的輸出概率置換為在連續(xù)的多個幀中取得的多個輸出概率中的值最大的輸出概率。
[0114]時間長度導出部113從時間長度存儲部104取得包含在變換部112變換后的音素列中的各音素的平均持續(xù)長度。然后，根據(jù)取得的平均持續(xù)長度，導出與檢索字符串對應的語音的發(fā)言時間長度。區(qū)間指定部114從作為檢索對象的語音信號的開頭開始按順序地指定時間長度導出部113導出的時間長度的區(qū)間即似然度計算區(qū)間。
[0115]似然度計算部118根據(jù)置換部117的置換后的輸出概率，計算表示區(qū)間指定部114指定的似然度計算區(qū)間是發(fā)出與檢索字符串對應的語音的區(qū)間的似然性的似然度。具體地說，似然度計算部118確定區(qū)間指定部114指定的似然度計算區(qū)間中的各幀、包含在音素列中的音素的狀態(tài)中的與該幀對應的狀態(tài)的置換后的輸出概率。然后，通過在似然度計算區(qū)間的從開頭到末尾的全部幀中將取所確定的輸出概率的對數(shù)而得的值相加，得到該似然度計算區(qū)間的似然度。
[0116]重復部119使區(qū)間指定部114指定的似然度計算區(qū)間每次偏移I幀，重復進行區(qū)間指定部114、似然度計算部118的處理。然后，針對在作為檢索對象的語音信號中能夠指定的似然度計算區(qū)間分別計算似然度。
[0117]選擇部120根據(jù)似然度計算部118計算出的似然度，從區(qū)間指定部114指定的似然度計算區(qū)間中，選擇被推定為發(fā)出與檢索字符串對應的語音的推定區(qū)間的多個候選。經(jīng)由輸出裝置5所具備的畫面向外部顯示選擇部120的選擇結果。然后，語音檢索裝置300針對選擇出的X個區(qū)間，執(zhí)行基于三音素模型和DP匹配的更高精度的似然度計算處理。
[0118]特征量計算部115從語音信號存儲部101取得作為檢索對象的語音信號，對每個幀計算作為檢索對象的語音信號的特征量。第二變換部121依照檢索字符串取得部111取得的檢索字符串，對作為依存于相鄰的音素的第二聲音模型的三音素模型的音素進行排列，將檢索字符串變換為作為第二音素列的三音素音素列。
[0119]第二輸出概率取得部122從三音素模型存儲部103取得三音素模型，對每個幀取得從包含在第二變換部121變換后的三音素音素列中的各音素輸出選擇部120選擇為推定區(qū)間的候選的區(qū)間中的作為檢索對象的語音信號的特征量的輸出概率。
[0120]第二似然度計算部123針對選擇部120選擇出的多個候選分別計算表示由選擇部120選擇為推定區(qū)間的候選的區(qū)間是發(fā)出與檢索字符串對應的語音的區(qū)間的似然性的第二似然度。
[0121]例如，第二似然度計算部123根據(jù)第二輸出概率取得部122取得的輸出概率，通過DP匹配來搜索選擇部120選擇出的區(qū)間中的各幀和包含在三音素音素列中的各三音素之間的對應。然后，通過將取針對與選擇部120選擇出的區(qū)間中的各幀對應的三音素分別取得的輸出概率的對數(shù)所得的值相加，而得到該區(qū)間中的第二似然度。
[0122]確定部124根據(jù)第二似然度計算部123計算出的第二似然度，從選擇部120選擇出的多個候選中，確定被推定為從作為檢索對象的語音信號中發(fā)出與檢索字符串對應的語音的推定區(qū)間。例如，確定部124按照第二似然度計算部123計算出的第二似然度從大到小的順序將預定個數(shù)的區(qū)間確定為推定區(qū)間。確定部124所確定的區(qū)間的位置信息作為最終的檢索結果，經(jīng)由輸出裝置5具備的畫面向外部顯示。
[0123]如以上說明的那樣，實施方式3的語音檢索裝置300在預備選擇的似然度計算時不計算輸出概率，而預先計算作為檢索對象的語音信號全體的輸出概率，保存為檢索索引。然后，在檢索時，語音檢索裝置300利用該檢索索引預備選擇最終結果的候選，只針對作為候選而剩下的區(qū)間，使用包含在檢索字符串中的三音素音素來計算輸出概率。其結果是能夠高速地進行語音檢索。
[0124]此外，如果能夠作為預先具備用于實現(xiàn)本發(fā)明的功能的結構的語音檢索裝置來提供，則也能夠通過程序的應用而使現(xiàn)有的個人計算機、信息終端設備等作為本發(fā)明的語音檢索裝置發(fā)揮功能。即，通過以由控制現(xiàn)有的個人計算機、信息終端設備等的CPU等能夠執(zhí)行用于實現(xiàn)在上述實施方式中例示的語音檢索裝置100、300的各功能結構的程序的方式來應用，能夠使其作為本發(fā)明的語音檢索裝置發(fā)揮功能。另外，能夠使用語音檢索裝置實施本發(fā)明的語音檢索方法。
[0125]另外，這樣的程序的應用方法是任意的。例如，可以將程序存儲在計算機可讀取的記錄介質(CD-ROM (Compact Disc Read-Only Memory)、DVD (Digital Versatile Disc)、MO (

完整全部詳細技術資料下載

當前第4頁1 2 3 4 5

相關技術