語音檢索裝置以及語音檢索方法_5

文檔序號：8923595閱讀：來源：國知局

Magneto Optical disc:磁光盤)等)中來應用。另外，也可以將程序存儲在因特網等網絡上的存儲裝置中，通過下載它來應用。
【主權項】
1.一種語音檢索裝置，其特征在于，具備: 檢索字符串取得單元，其取得檢索字符串；變換單元，其將上述檢索字符串取得單元取得的檢索字符串變換為音素列；時間長度導出單元，其取得在上述變換單元變換而得的音素列中包含的各音素的持續(xù)長度，根據該取得的持續(xù)長度，導出與上述檢索字符串對應的語音的發(fā)言時間長度；區(qū)間指定單元，其指定作為檢索對象的語音信號中的由上述時間長度導出單元導出的時間長度的區(qū)間即似然度取得區(qū)間；似然度取得單元，其取得表示上述區(qū)間指定單元指定的似然度取得區(qū)間是發(fā)出與上述檢索字符串對應的語音的區(qū)間的似然性的似然度；重復單元，其改變上述區(qū)間指定單元指定的似然度取得區(qū)間，重復進行上述區(qū)間指定單元和上述似然度取得單元的處理；以及確定單元，其根據上述似然度取得單元針對上述區(qū)間指定單元指定的似然度取得區(qū)間分別取得的似然度，從上述作為檢索對象的語音信號中確定被推定為發(fā)出與上述檢索字符串對應的語音的推定區(qū)間。2.根據權利要求1所述的語音檢索裝置，其特征在于，還具備:輸出概率取得單元，其對每個幀取得從包含在上述音素列中的各音素輸出上述作為檢索對象的語音信號的特征量的輸出概率，上述似然度取得單元根據上述輸出概率取得單元在上述區(qū)間指定單元指定的似然度取得區(qū)間中取得的輸出概率，取得該似然度取得區(qū)間的上述似然度。3.根據權利要求2所述的語音檢索裝置，其特征在于，還具備:特征量計算單元，其對每個幀計算上述區(qū)間指定單元指定的似然度取得區(qū)間中的上述作為檢索對象的語音信號的特征量，上述輸出概率取得單元根據上述特征量計算單元計算出的特征量，取得上述輸出概率。4.根據權利要求2所述的語音檢索裝置，其特征在于，還具備:輸出概率存儲單元，其對包含在上述作為檢索對象的語音信號中的每個幀，對應地存儲聲音模型的各音素、從該各音素輸出上述作為檢索對象的語音信號的特征量的輸出概率，如果上述變換單元將上述檢索字符串變換為上述音素列，則上述輸出概率取得單元從存儲在上述輸出概率存儲單元中的輸出概率中取得與包含在該音素列中的各音素對應地存儲的輸出概率。5.根據權利要求2所述的語音檢索裝置，其特征在于，還具備:置換單元，其將上述輸出概率取得單元對每個幀取得的輸出概率分別置換為在包含該輸出概率的連續(xù)的多個幀中取得的多個輸出概率中的值最大的輸出概率，上述似然度取得單元根據上述置換單元的置換后的輸出概率，取得上述區(qū)間指定單元指定的似然度取得區(qū)間的上述似然度。6.根據權利要求2所述的語音檢索裝置，其特征在于，上述變換單元對不依存于相鄰的音素的聲音模型的音素進行排列，將上述檢索字符串變換為上述音素列，上述似然度取得單元根據上述音素列，取得上述區(qū)間指定單元指定的似然度取得區(qū)間的上述似然度，所述語音檢索裝置還具備: 選擇單元，其根據上述似然度取得單元取得的似然度，從上述區(qū)間指定單元指定的似然度取得區(qū)間中選擇上述推定區(qū)間的多個候選；第二變換單元，其對依存于相鄰的音素的第二聲音模型的音素進行排列，將上述檢索字符串變換為第二音素列；以及第二似然度取得單元，其根據上述第二音素列，針對上述選擇單元選擇出的多個候選分別取得表示上述選擇單元選擇為上述推定區(qū)間的候選的區(qū)間是發(fā)出與上述檢索字符串對應的語音的區(qū)間的似然性的第二似然度，上述確定單元根據上述第二似然度取得單元取得的第二似然度，從上述選擇單元選擇出的多個候選中確定上述推定區(qū)間。7.根據權利要求6所述的語音檢索裝置，其特征在于，上述選擇單元，針對每個預定的選擇時間長度，在該預定的選擇時間長度的區(qū)間中包含的似然度取得區(qū)間中，逐一地選擇上述似然度最大的似然度取得區(qū)間，由此選擇上述推定區(qū)間的多個候選。8.根據權利要求1所述的語音檢索裝置，其特征在于，上述時間長度導出單元導出相互不同的多個時間長度，作為與上述檢索字符串取得單元取得的一個檢索字符串對應的語音的發(fā)言時間長度，上述區(qū)間指定單元針對上述多個時間長度分別指定上述作為檢索對象的語音信號中的由上述時間長度導出單元導出的時間長度的區(qū)間即似然度取得區(qū)間，上述似然度取得單元取得上述區(qū)間指定單元針對上述多個時間長度分別指定的似然度取得區(qū)間的上述似然度，上述確定單元根據上述似然度取得單元取得的似然度，從上述區(qū)間指定單元針對上述多個時間長度分別指定的似然度取得區(qū)間中確定上述推定區(qū)間。9.一種語音檢索方法，其特征在于，具備: 取得檢索字符串的檢索字符串取得步驟；將在上述檢索字符串取得步驟中取得的檢索字符串變換為音素列的變換步驟；取得在上述變換步驟中變換而得的音素列中包含的各音素的持續(xù)長度，根據該取得的持續(xù)長度，導出與上述檢索字符串對應的語音的發(fā)言時間長度的時間長度導出步驟；指定作為檢索對象的語音信號中的由上述時間長度導出單元導出的時間長度的區(qū)間即似然度取得區(qū)間的區(qū)間指定步驟；取得表示在上述區(qū)間指定步驟中指定的似然度取得區(qū)間是發(fā)出與上述檢索字符串對應的語音的區(qū)間的似然性的似然度的似然度取得步驟；改變在上述區(qū)間指定步驟中指定的似然度取得區(qū)間，重復進行上述區(qū)間指定步驟和上述似然度取得步驟的處理的重復步驟；以及根據上述似然度取得步驟針對在上述區(qū)間指定步驟中指定的似然度取得區(qū)間分別取得的似然度，從上述作為檢索對象的語音信號中確定被推定為發(fā)出與上述檢索字符串對應的語音的推定區(qū)間的確定步驟。10.根據權利要求9所述的語音檢索方法，其特征在于，還具備:針對每個幀取得從包含在上述音素列中的各音素輸出上述作為檢索對象的語音信號的特征量的輸出概率的輸出概率取得步驟，在上述似然度取得步驟中，根據上述輸出概率取得步驟在上述區(qū)間指定步驟中指定的似然度取得區(qū)間中取得的輸出概率，取得該似然度取得區(qū)間的上述似然度。11.根據權利要求10所述的語音檢索方法，其特征在于，還具備:針對每個幀計算在上述區(qū)間指定步驟中指定的似然度取得區(qū)間中的上述作為檢索對象的語音信號的特征量的特征量計算步驟，在上述輸出概率取得步驟中，根據上述特征量計算步驟計算出的特征量，取得上述輸出概率。12.根據權利要求10所述的語音檢索方法，其特征在于，還具備:對包含在上述作為檢索對象的語音信號中的每個幀，對應地存儲聲音模型的各音素、從該各音素輸出上述作為檢索對象的語音信號的特征量的輸出概率的輸出概率存儲步驟，在上述輸出概率取得步驟中，如果上述變換步驟將上述檢索字符串變換為上述音素列，則從在上述輸出概率存儲步驟中存儲的輸出概率中取得與包含在該音素列中的各音素對應地存儲的輸出概率。13.根據權利要求10所述的語音檢索方法，其特征在于，還具備:將在上述輸出概率取得步驟中針對每個幀取得的輸出概率分別置換為在包含該輸出概率的連續(xù)的多個幀中取得的多個輸出概率中的值最大的輸出概率的置換步驟，在上述似然度取得步驟中，根據上述置換步驟的置換后的輸出概率，取得上述區(qū)間指定步驟指定的似然度取得區(qū)間的上述似然度。14.根據權利要求10所述的語音檢索方法，其特征在于，在上述變換步驟中，對不依存于相鄰的音素的聲音模型的音素進行排列，將上述檢索字符串變換為上述音素列，在上述似然度取得步驟中，根據上述音素列，取得在上述區(qū)間指定步驟中指定的似然度取得區(qū)間的上述似然度，所述語音檢索方法還具備: 根據在上述似然度取得步驟中取得的似然度，從在上述區(qū)間指定步驟中指定的似然度取得區(qū)間中選擇上述推定區(qū)間的多個候選的選擇步驟；對依存于相鄰的音素的第二聲音模型的音素進行排列，將上述檢索字符串變換為第二音素列的第二變換步驟；以及根據上述第二音素列，針對在上述選擇步驟中選擇出的多個候選分別取得表示上述選擇步驟選擇為上述推定區(qū)間的候選的區(qū)間是發(fā)出與上述檢索字符串對應的語音的區(qū)間的似然性的第二似然度的第二似然度取得步驟，上述確定步驟根據上述第二似然度取得步驟取得的第二似然度，從在上述選擇步驟中選擇出的多個候選中確定上述推定區(qū)間。15.根據權利要求14所述的語音檢索方法，其特征在于，在上述選擇步驟中，針對每個預定的選擇時間長度，在該預定的選擇時間長度的區(qū)間中包含的似然度取得區(qū)間中，逐一地選擇上述似然度最大的似然度取得區(qū)間，由此選擇上述推定區(qū)間的多個候選。16.根據權利要求9所述的語音檢索方法，其特征在于，在上述時間長度導出步驟中，導出相互不同的多個時間長度，作為與上述檢索字符串取得步驟取得的一個檢索字符串對應的語音的發(fā)言時間長度，在上述區(qū)間指定步驟中，針對上述多個時間長度分別指定上述作為檢索對象的語音信號中的由上述時間長度導出步驟導出的時間長度的區(qū)間即似然度取得區(qū)間，在上述似然度取得步驟中，取得上述區(qū)間指定步驟針對上述多個時間長度分別指定的似然度取得區(qū)間的上述似然度，在上述確定步驟中，根據上述似然度取得步驟取得的似然度，從在上述區(qū)間指定步驟中針對上述多個時間長度分別指定的似然度取得區(qū)間中確定上述推定區(qū)間。
【專利摘要】本發(fā)明提供一種語音檢索裝置以及語音檢索方法。在本發(fā)明的語音檢索裝置中，檢索字符串取得部(111)取得檢索字符串。變換部(112)將檢索字符串變換為音素列。時間長度導出部(113)導出與檢索字符串對應的語音的發(fā)言時間長度。區(qū)間指定部(114)指定作為檢索對象的語音信號中的似然度取得區(qū)間。似然度取得部(118)取得表示似然度取得區(qū)間是發(fā)出與檢索字符串對應的語音的區(qū)間的似然性的似然度。重復部(119)改變區(qū)間指定部(114)指定的似然度取得區(qū)間，重復進行區(qū)間指定部(114)和似然度取得部(118)的處理。確定部(124)根據針對似然度取得區(qū)間分別取得的似然度，從作為檢索對象的語音信號中確定被推定為發(fā)出與檢索字符串對應的語音的推定區(qū)間。
【IPC分類】G10L15/08
【公開號】CN104900231
【申請?zhí)枴緾N201510098118
【發(fā)明人】井手博康
【申請人】卡西歐計算機株式會社
【公開日】2015年9月9日
【申請日】2015年3月5日
【公告號】US20150255059...

完整全部詳細技術資料下載

當前第5頁1 2 3 4 5

相關技術