語音檢索裝置以及語音檢索方法
【專利說明】語音檢索裝置以及語音檢索方法
[0001]本申請(qǐng)主張以2014年3月5日申請(qǐng)的日本專利申請(qǐng)?zhí)卦?014-42542為基礎(chǔ)的優(yōu)先權(quán),將該基礎(chǔ)申請(qǐng)的內(nèi)容全部組合到本申請(qǐng)中。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及一種語音檢索裝置以及語音檢索方法。
【背景技術(shù)】
[0003]近年來,伴隨著語音、動(dòng)畫等多媒體內(nèi)容的擴(kuò)大、普及,要求高精度的多媒體檢索技術(shù)。關(guān)于語音檢索,研宄了從語音中確定發(fā)出與所給出的檢索詞(查詢)對(duì)應(yīng)的語音的位置的語音檢索技術(shù)。在語音檢索中,由于語音識(shí)別的難度等特有的原因,與從字符串中確定包含希望的檢索詞的位置的字符串檢索技術(shù)相比,還沒有確立充分性能的檢索方法。因此,研宄了各種用于實(shí)現(xiàn)充分性能的語音檢索的技術(shù)。
[0004]例如,非專利文獻(xiàn)I (Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping,,,in Proc.1CASSP, 2011,pp.5660 ~ 5663.)公開了將語音信號(hào)彼此高速地比較的方法。由此,能夠從作為檢索對(duì)象的語音信號(hào)中高速地確定與用語音輸入的查詢對(duì)應(yīng)的位置。
[0005]但是,在非專利文獻(xiàn)I中用語音輸入查詢,因此在作為檢索對(duì)象的語音包含多個(gè)發(fā)言者的語音的情況下,有時(shí)特征與查詢輸入者的語音近似的發(fā)言者的發(fā)言優(yōu)先。
[0006]另外,在查詢輸入者的語音在聲音上特異的情況下,或查詢輸入者原本就難以發(fā)聲的情況下,無法利用通過語音輸入查詢的方法。
【發(fā)明內(nèi)容】
[0007]本發(fā)明用于解決上述那樣的問題,其目的在于提供一種能夠高精度并且高速地進(jìn)行語音檢索的語音檢索裝置以及語音檢索方法。
[0008]為了達(dá)到上述目的,本發(fā)明的語音檢索裝置具備:
[0009]檢索字符串取得單元,其取得檢索字符串;
[0010]變換單元,其將上述檢索字符串取得單元取得的檢索字符串變換為音素列;
[0011]時(shí)間長(zhǎng)度導(dǎo)出單元,其取得在上述變換單元變換而得的音素列中包含的各音素的持續(xù)長(zhǎng)度,根據(jù)該取得的持續(xù)長(zhǎng)度,導(dǎo)出與上述檢索字符串對(duì)應(yīng)的語音的發(fā)言時(shí)間長(zhǎng)度;
[0012]區(qū)間指定單元,其指定作為檢索對(duì)象的語音信號(hào)中的由上述時(shí)間長(zhǎng)度導(dǎo)出單元導(dǎo)出的時(shí)間長(zhǎng)度的區(qū)間即似然度取得區(qū)間;
[0013]似然度取得單元,其取得表示上述區(qū)間指定單元指定的似然度取得區(qū)間是發(fā)出與上述檢索字符串對(duì)應(yīng)的語音的區(qū)間的似然性的似然度;
[0014]重復(fù)單元,其改變上述區(qū)間指定單元指定的似然度取得區(qū)間,重復(fù)進(jìn)行上述區(qū)間指定單元和上述似然度取得單元的處理;以及
[0015]確定單元,其根據(jù)上述似然度取得單元針對(duì)上述區(qū)間指定單元指定的似然度取得區(qū)間分別取得的似然度,從上述作為檢索對(duì)象的語音信號(hào)中確定被推定為發(fā)出與上述檢索字符串對(duì)應(yīng)的語音的推定區(qū)間。
[0016]根據(jù)本發(fā)明,能夠高精度并且高速地進(jìn)行語音檢索。
【附圖說明】
[0017]圖1是表示本發(fā)明的實(shí)施方式I的語音檢索裝置的物理結(jié)構(gòu)的圖。
[0018]圖2是表示本發(fā)明的實(shí)施方式I的語音檢索裝置的功能結(jié)構(gòu)的圖。
[0019]圖3(a)是作為檢索對(duì)象的語音信號(hào)的波形圖。圖3(b)是表示在作為檢索對(duì)象的語音信號(hào)中設(shè)定的幀的圖。圖3(c)是表示在作為檢索對(duì)象的語音信號(hào)中指定的似然度計(jì)算區(qū)間的圖。
[0020]圖4是表示對(duì)輸出概率進(jìn)行下界化的例子的圖。
[0021]圖5是表示本發(fā)明的實(shí)施方式I的語音檢索裝置執(zhí)行的語音檢索處理的流程的流程圖。
[0022]圖6是表示確定與檢索字符串對(duì)應(yīng)的區(qū)間的處理的流程的流程圖。
[0023]圖7是表示本發(fā)明的實(shí)施方式2的語音檢索裝置執(zhí)行的語音檢索處理的流程的流程圖。
[0024]圖8是表示本發(fā)明的實(shí)施方式3的語音檢索裝置的功能結(jié)構(gòu)的圖。
【具體實(shí)施方式】
[0025]以下,參照【附圖說明】本發(fā)明的實(shí)施方式。此外,在圖中對(duì)相同或相當(dāng)?shù)牟糠仲x予相同符號(hào)。
[0026](實(shí)施方式I)
[0027]實(shí)施方式I的語音檢索裝置在物理上如圖1所示那樣構(gòu)成。語音檢索裝置100具備ROM(只讀存儲(chǔ)器)1、RAM(隨機(jī)存取存儲(chǔ)器)2、外部存儲(chǔ)裝置3、輸入裝置4、輸出裝置5和CPU (中央處理單元)6。
[0028]ROMl存儲(chǔ)用于進(jìn)行各種初始設(shè)定、硬件的檢查、程序的裝載等的初始程序。RAM2暫時(shí)存儲(chǔ)CPU6執(zhí)行的各種軟件程序、這些軟件程序的執(zhí)行所需要的數(shù)據(jù)等。
[0029]外部存儲(chǔ)裝置3例如是硬盤等,存儲(chǔ)各種軟件程序、數(shù)據(jù)等。在這些軟件程序中包含應(yīng)用軟件程序、OS (操作系統(tǒng))那樣的基本軟件程序等。
[0030]輸入裝置4例如是鍵盤等。輸入裝置4將用戶使用鍵盤操作輸入的文本數(shù)據(jù)等輸入到CPU6。輸出裝置5例如具備液晶顯示器等的畫面、揚(yáng)聲器等。輸出裝置5將由CPU6輸出的文本數(shù)據(jù)顯示在畫面上,從揚(yáng)聲器輸出語音數(shù)據(jù)。
[0031]CPU6將存儲(chǔ)在外部存儲(chǔ)裝置3中的軟件程序讀出到RAM2中,執(zhí)行控制該軟件程序,由此實(shí)現(xiàn)以下的功能結(jié)構(gòu)。
[0032]語音檢索裝置100在功能上如圖2所示那樣構(gòu)成。語音檢索裝置100具備語音信號(hào)存儲(chǔ)部101、單音素模型(mono-phone model)存儲(chǔ)部102、三音素模型(tr1-phonemodel)存儲(chǔ)部103、時(shí)間長(zhǎng)度存儲(chǔ)部104、檢索字符串取得部111、變換部112、時(shí)間長(zhǎng)度導(dǎo)出部113、區(qū)間指定部114、特征量計(jì)算部115、輸出概率取得部116、置換部117、似然度計(jì)算部118、重復(fù)部119、選擇部120、第二變換部121、第二輸出概率取得部122、第二似然度計(jì)算部123、確定部124。在外部存儲(chǔ)裝置3的存儲(chǔ)區(qū)域中構(gòu)筑語音信號(hào)存儲(chǔ)部101、單音素模型存儲(chǔ)部102、三音素模型存儲(chǔ)部103以及時(shí)間長(zhǎng)度存儲(chǔ)部104。
[0033]語音信號(hào)存儲(chǔ)部101存儲(chǔ)作為檢索對(duì)象的語音信號(hào)。作為檢索對(duì)象的語音信號(hào)例如是新聞廣播等的語音、被錄音的會(huì)議的語音、電影的語音等的語音信號(hào)。
[0034]單音素模型存儲(chǔ)部102和三音素模型存儲(chǔ)部103存儲(chǔ)聲音模型。對(duì)構(gòu)成能夠作為檢索字符串而取得的字符串的各音素的頻率特性進(jìn)行模型化來得到聲音模型。具體地說,單音素模型存儲(chǔ)部102存儲(chǔ)基于單音素(一個(gè)音素)的聲音模型(mono-phone model),三音素模型存儲(chǔ)部103存儲(chǔ)基于三音素(3個(gè)音素)的聲音模型(tr1-phone model)。
[0035]單音素模型是對(duì)每個(gè)音素生成的聲音模型,是不依存于相鄰的音素的、即將與前后的音素狀態(tài)的狀態(tài)轉(zhuǎn)移固定化了的聲音模型。三音素模型是對(duì)每3個(gè)音素生成的聲音模型,是依存于相鄰的音素的、即考慮到與前后的音素狀態(tài)的狀態(tài)轉(zhuǎn)移的聲音模型。語音檢索裝置100通過普通的方法學(xué)習(xí)單音素模型和三音素模型,分別預(yù)先存儲(chǔ)在單音素模型存儲(chǔ)部102和三音素模型存儲(chǔ)部103中。
[0036]作為單音素模型和三音素模型,例如可以利用作為在普通的語音識(shí)別中利用的聲音模型的HMM(Hidden Markov Model,隱馬爾科夫模型)。HMM是用于通過統(tǒng)計(jì)的方法概率地從語音信號(hào)中推定成為輸出該語音信號(hào)的基礎(chǔ)的詞匯的模型。HMM使用以表示時(shí)間性的狀態(tài)波動(dòng)的轉(zhuǎn)移概率、輸出從各狀態(tài)輸入的特征量的概率(輸出概率)作為參數(shù)的標(biāo)準(zhǔn)模式。通過將用預(yù)定的加權(quán)系數(shù)加權(quán)后的高斯(正態(tài))分布相加所得的混合高斯分布來表示該輸出概率。
[0037]時(shí)間長(zhǎng)度存儲(chǔ)部104以各音素的狀態(tài)為單位存儲(chǔ)在聲音模型中利用的各音素的平均持續(xù)長(zhǎng)度。各音素的平均持續(xù)長(zhǎng)度是發(fā)出各音素時(shí)的平均的時(shí)間長(zhǎng)度。各音素的狀態(tài)是指在時(shí)間方向上對(duì)各音素進(jìn)行細(xì)分所得的單位,相當(dāng)于聲音模型的最小單位。對(duì)各音素預(yù)先確定了狀態(tài)數(shù)。
[0038]以下,以對(duì)各音素確定的狀態(tài)數(shù)是“3”的情況為例進(jìn)行說明。例如,音素“a”被分為包含該音素的發(fā)言開始時(shí)的第一狀態(tài)“al”、作為中間狀態(tài)的第二狀態(tài)“a2”、包含發(fā)言結(jié)束時(shí)的第三狀態(tài)“a3”這3個(gè)狀態(tài)。在將在聲音模型中利用的全部音素的個(gè)數(shù)設(shè)為Q的情況下,存在(3XQ)個(gè)狀態(tài)。語音檢索裝置100針對(duì)(3XQ)個(gè)狀態(tài)分別根據(jù)大量語音信號(hào)的數(shù)據(jù)計(jì)算持續(xù)長(zhǎng)度的平均值,預(yù)先存儲(chǔ)在時(shí)間長(zhǎng)度存儲(chǔ)部104中。
[0039]此外,為了提高檢索精度,適合的是在與發(fā)出作為檢索對(duì)象的語音信號(hào)的域(環(huán)境)相同的域中發(fā)出用于學(xué)習(xí)聲音模型的語音信號(hào)、以及用于計(jì)算音素的平均持續(xù)長(zhǎng)度的語音信號(hào)。例如,在檢索對(duì)象是在會(huì)議室中錄音的語音信號(hào)的情況下,適合的是使用在會(huì)議室中錄音的語音信號(hào)學(xué)習(xí)聲音模型,計(jì)算音素的平均持續(xù)長(zhǎng)度。但是,也可以在與發(fā)出作為檢索對(duì)象的語音信號(hào)的域不同的域中發(fā)出用于學(xué)習(xí)聲音模型的語音信號(hào)、以及用于計(jì)算音素的平均持續(xù)長(zhǎng)度的語音信號(hào)。
[0040]檢索字符串取得部111取得檢索字符串。檢索字符串取得部111例如取得用戶經(jīng)由輸入裝置4輸入的檢索字符串。即,用戶用字符串(文本)給出用于從作為檢索對(duì)象的語音信號(hào)中檢索發(fā)出目標(biāo)語音的部分的檢索詞(查詢)。
[0041]變換部112依照檢索字符串取得部111取得的檢索字符串,對(duì)不依存于相鄰的音素的聲音模型即單音素模型的音素進(jìn)行排列,將檢索字符串變換為音素列。即,變換部112按照與包含在檢索字符串中的字符相同的順序,排列對(duì)各字符發(fā)聲時(shí)的音素(單音素),由此將檢索字符串變換為單音素音素列。
[0042]例如,在輸入日語“歹一 7 V ”作為檢索字符串的情況下,“歹一 7 V ”包含“r”、“a: ”、“m”、“e”、“N”這5個(gè)音素(單音素),因此變換部112生成音素列“r,a:,m,e,N”?;蛘?,在輸入了英語“cake”作為檢索字符串的情況下,“cake”包含“k”、“e”、“i”、“k”這4個(gè)音素(單音素),因此變換部112生成音素列“k,e,i,k”。
[0043]時(shí)間長(zhǎng)度導(dǎo)出部11