亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聲音檢索裝置、聲音檢索方法

文檔序號(hào):8922607閱讀:679來源:國(guó)知局
聲音檢索裝置、聲音檢索方法
【專利說明】聲音檢索裝置、聲音檢索方法
[0001]相關(guān)申請(qǐng)的參照
[0002]關(guān)于本申請(qǐng)要求以2014年3月5日提交的日本專利申請(qǐng)?zhí)卦?014-42541號(hào)為基礎(chǔ)的優(yōu)先權(quán),通過本申請(qǐng)而援引該基礎(chǔ)申請(qǐng)的內(nèi)容。
技術(shù)領(lǐng)域
[0003]本發(fā)明涉及聲音檢索裝置以及聲音檢索方法。
【背景技術(shù)】
[0004]近年,伴隨聲音、動(dòng)畫等的多媒體內(nèi)容的擴(kuò)大/普及,要求高精度的多媒體檢索技術(shù)。關(guān)于聲音檢索,正在研宄一種聲音檢索的技術(shù),其從聲音中確定發(fā)出了與提供的檢索詞(查詢)相對(duì)應(yīng)的聲音的部位。在聲音檢索中,由于聲音識(shí)別困難這樣的特有的原因,與從字符串中確定包括所希望的檢索詞的部位的字符串檢索的技術(shù)相比,還沒有確立足夠的性能的檢索方法。由此,正在研宄各種用于實(shí)現(xiàn)足夠的性能的聲音檢索的技術(shù)。
[0005]例如,非專利文獻(xiàn)I (巖見圭祐、坂本渚、中川聖一,“距離O ?音節(jié)n-gram索引?二dt §音聲検索語(yǔ)検出ω距離尺度ω厳密化”,情報(bào)處理學(xué)會(huì)論文誌,Vol.54,N0.2,495-505,(2013.2))公開了在以聲音識(shí)別結(jié)果為基礎(chǔ)的聲音檢索中,考慮未知詞/識(shí)別錯(cuò)誤的問題,穩(wěn)健地進(jìn)行聲音檢索的方法。
[0006]發(fā)明要解決的課題
[0007]但是,為了實(shí)現(xiàn)高精度的聲音檢索,具有各種的課題。例如,根據(jù)檢索對(duì)象的聲音信號(hào)的區(qū)間,存在如長(zhǎng)音或接近無(wú)聲的信號(hào)的區(qū)間那樣,無(wú)論對(duì)于怎樣的檢索詞均容易被推定為發(fā)出與檢索詞相對(duì)應(yīng)的聲音的區(qū)間和不是這樣的區(qū)間,從而成為誤檢測(cè)的原因。另夕卜,根據(jù)檢索詞,在檢索詞中的僅一部分接近檢索對(duì)象的聲音信號(hào)的情況下,有時(shí)僅僅根據(jù)該一部分,錯(cuò)誤地推定為檢索詞整體與聲音信號(hào)對(duì)應(yīng)。

【發(fā)明內(nèi)容】

[0008]本發(fā)明是為了解決上述那樣的課題而提出的,本發(fā)明的目的在于提供可高精度地進(jìn)行聲音檢索的聲音檢索裝置以及聲音檢索方法。
[0009]用于解決課題的技術(shù)方案
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明的聲音檢索裝置包括:
[0011]檢索詞取得單兀,其取得檢索詞;
[0012]變換單元,其將上述檢索詞取得單元取得的檢索詞變換為音素串;
[0013]輸出概率取得單元,其針對(duì)每一幀,取得從上述音素串包含的各音素輸出檢索對(duì)象的聲音信號(hào)的特征量的輸出概率;
[0014]相對(duì)化運(yùn)算單元,其對(duì)于上述輸出概率取得單元針對(duì)上述各音素取得的輸出概率,根據(jù)針對(duì)上述音素串中包含的另一音素而取得的輸出概率執(zhí)行相對(duì)化運(yùn)算;
[0015]區(qū)間指定單元,其在上述檢索對(duì)象的聲音信號(hào)中,指定多個(gè)似然取得區(qū)間;
[0016]似然取得單元,其根據(jù)上述相對(duì)化運(yùn)算單元運(yùn)算后的輸出概率,取得表示上述區(qū)間指定單元所指定的似然取得區(qū)間為發(fā)出與上述檢索詞相對(duì)應(yīng)的聲音的區(qū)間的可能性的似然;
[0017]確定單元,其根據(jù)上述似然取得單元針對(duì)上述區(qū)間指定單元指定的各個(gè)似然取得區(qū)間所取得的似然,確定被推定為從上述檢索對(duì)象的聲音信號(hào)中發(fā)出了與上述檢索詞對(duì)應(yīng)的聲音的推定區(qū)間。
[0018]發(fā)明的效果
[0019]根據(jù)本發(fā)明,可高精度地進(jìn)行聲音檢索。
【附圖說明】
[0020]圖1為表示本發(fā)明的實(shí)施方式I的聲音檢索裝置的物理結(jié)構(gòu)的圖。
[0021]圖2為表示本發(fā)明的實(shí)施方式I的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0022]圖3中(a)為檢索對(duì)象的聲音信號(hào)的波形圖,(b)為表示在檢索對(duì)象的聲音信號(hào)中設(shè)定的幀的圖,(C)為表示在檢索對(duì)象的聲音信號(hào)中指定的似然計(jì)算區(qū)間的圖。
[0023]圖4中(a)為表示各音素的各幀的距離的圖,(b)為表示各幀中的基準(zhǔn)音素的圖,(C)為表示通過基準(zhǔn)音素的距離進(jìn)行相對(duì)化后的距離的圖。
[0024]圖5是采用各幀中的聲音信號(hào)的特征量和各音素的距離的矩陣來表示基于DP匹配的最大似然序列的檢索的圖。
[0025]圖6為表示本發(fā)明的實(shí)施方式I的聲音檢索裝置所進(jìn)行的聲音檢索處理的流程的流程圖。
[0026]圖7為表示本發(fā)明的實(shí)施方式I的相對(duì)化運(yùn)算處理的流程的流程圖。
[0027]圖8為表示本發(fā)明的實(shí)施方式2的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0028]圖9為表示基于DP匹配的最大似然序列的檢索和此時(shí)生成的累積距離表以及迀移方向表的圖。
[0029]圖10中(a)為表示包含與檢索詞相對(duì)應(yīng)的音素串中的僅僅一部分音素的區(qū)間中的通過最大似然序列的檢索而取得的路徑和標(biāo)準(zhǔn)化的累積距離的圖,(b)為表示包含與檢索詞相對(duì)應(yīng)的音素串中的全部音素的區(qū)間中的最大似然序列的檢索和標(biāo)準(zhǔn)化的累積距離的圖。
[0030]圖11為表示本發(fā)明的實(shí)施方式2的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
[0031]圖12為表示本發(fā)明的實(shí)施方式2的標(biāo)準(zhǔn)化運(yùn)算處理的流程的流程圖。
[0032]用于實(shí)施發(fā)明的方式
[0033]下面參照附圖,對(duì)本發(fā)明的實(shí)施方式進(jìn)行說明。另外,在圖中對(duì)于相同或相應(yīng)的部分賦予相同的符號(hào)。
[0034]實(shí)施方式I
[0035]實(shí)施方式I的聲音檢索裝置在物理上如圖1所示的那樣構(gòu)成。聲音檢索裝置100包括R0M(只讀存儲(chǔ)器,Read Only Memory) 1、RAM(隨機(jī)存取存儲(chǔ)器,Random AccessMemory) 2、外部存儲(chǔ)器3、輸入裝置4、輸出裝置5、CPU (中央處理器,Central ProcessingUnit)6。
[0036]ROMl存儲(chǔ)用于進(jìn)行各種初始設(shè)定、硬件的檢查、程序的下載等的初始程序。RAM2暫時(shí)存儲(chǔ)CPU6執(zhí)行的各種軟件程序、執(zhí)行這些軟件程序所需要的數(shù)據(jù)等。
[0037]外部存儲(chǔ)器3例如是硬盤等,存儲(chǔ)各種軟件程序、數(shù)據(jù)等。在這些軟件程序中,包括應(yīng)用軟件程序、OS (操作系統(tǒng),Operating System)這樣的基本軟件程序等。
[0038]輸入裝置4例如是鍵盤等,輸入裝置4將用戶采用鍵盤而操作輸入的文本數(shù)據(jù)等輸入到CPU6。輸出裝置5例如具備液晶顯示器等的畫面、揚(yáng)聲器等。輸出裝置5將通過CPU6輸出的文本數(shù)據(jù)顯示在畫面中,從揚(yáng)聲器輸出聲音數(shù)據(jù)。
[0039]CPU6將存儲(chǔ)在外部存儲(chǔ)器3中的軟件程序讀出到RAM2中,通過執(zhí)行控制該軟件程序,來實(shí)現(xiàn)下述的功能結(jié)構(gòu)。
[0040]聲音檢索裝置100從功能上如圖2所示那樣構(gòu)成。聲音檢索裝置100包括聲音信號(hào)存儲(chǔ)部101、聲學(xué)模型存儲(chǔ)部102、時(shí)間長(zhǎng)度存儲(chǔ)部104、檢索詞取得部111、變換部112、時(shí)間長(zhǎng)度導(dǎo)出部113、區(qū)間指定部114、特征量計(jì)算部115、輸出概率取得部116、搜索部117、似然計(jì)算部118、重復(fù)部119、確定部120、相對(duì)化運(yùn)算部130。聲音信號(hào)存儲(chǔ)部101、聲學(xué)模型存儲(chǔ)部102以及時(shí)間長(zhǎng)度存儲(chǔ)部104由外部存儲(chǔ)器3的存儲(chǔ)區(qū)域構(gòu)成。
[0041]聲音信號(hào)存儲(chǔ)部101存儲(chǔ)檢索對(duì)象的聲音信號(hào)。檢索對(duì)象的聲音信號(hào)例如是與新聞廣播等的聲音、錄音的會(huì)議的聲音、圖像的聲音等有關(guān)的聲音?目號(hào)。
[0042]聲學(xué)模型存儲(chǔ)部102存儲(chǔ)聲學(xué)模型。聲學(xué)模型是對(duì)構(gòu)成可作為檢索詞而取得的字符串的各音素的頻率特性進(jìn)行模型化而得到的。聲學(xué)模型存儲(chǔ)部102例如存儲(chǔ)單音(I音素)的聲學(xué)模型(單音模型)、雙音(2音素)的聲學(xué)模型(雙音模型)、三音(3音素)的聲學(xué)模型(三音模型)等。
[0043]單音模型為針對(duì)每個(gè)I音素而生成的聲學(xué)模型,是不依賴于鄰接的音素,亦即將與前后的音素狀態(tài)的狀態(tài)迀移固定化的聲學(xué)模型。雙音模型和三音模型分別是針對(duì)每個(gè)2音素和每個(gè)3音素而生成的聲學(xué)模型,是依賴于鄰接的音素的聲學(xué)模型。雙音模型是考慮了與前后單方的音素狀態(tài)的狀態(tài)迀移的聲學(xué)模型。三音模型是考慮了與前后雙方的音素狀態(tài)的狀態(tài)迀移的聲學(xué)模型。下面以作為聲學(xué)模型采用單音模型的情況為例子來進(jìn)行說明。聲音檢索裝置100通過普通的方法學(xué)習(xí)聲學(xué)模型,將其預(yù)先存儲(chǔ)在聲學(xué)模型存儲(chǔ)部102中。
[0044]作為聲學(xué)模型,例如可以采用在普通的聲音識(shí)別中使用的聲學(xué)模型即HMM(HiddenMarkov Model ;隱馬爾可夫模型)。HMM是用于通過統(tǒng)計(jì)學(xué)的方法,從聲音信號(hào)中概率性地推定出成為輸出該聲音信號(hào)的輸出源的語(yǔ)言的模型。HMM采用將表示時(shí)序的狀態(tài)波動(dòng)的迀移概率和輸出從各個(gè)狀態(tài)而輸入的特征量的概率(輸出概率)作為參數(shù)的標(biāo)準(zhǔn)圖。該輸出概率通過對(duì)按照預(yù)定的權(quán)重系數(shù)進(jìn)行加權(quán)后的高斯(標(biāo)準(zhǔn))分布相加后的混合高斯分布來
[0045]時(shí)間長(zhǎng)度存儲(chǔ)部104按照各音素的狀態(tài)單位來存儲(chǔ)在聲學(xué)模型中采用的各音素的平均繼續(xù)長(zhǎng)度。各音素的平均繼續(xù)長(zhǎng)度是發(fā)出各音素時(shí)的平均的時(shí)間長(zhǎng)度。各音素的狀態(tài)是在時(shí)間方向上對(duì)各音素進(jìn)行細(xì)分后的單位,相當(dāng)于聲學(xué)模型的最小單位。在各音素中,預(yù)先確定狀態(tài)數(shù)量。
[0046]下面以在各音素中確定的狀態(tài)數(shù)量為“3”的情況為例子來進(jìn)行說明。例如,音素“a”被分為包括該音素的發(fā)音開始時(shí)的第I狀態(tài)“al”、作為中間狀態(tài)的第2狀態(tài)“a2”、包括發(fā)音結(jié)束時(shí)的第3狀態(tài)“a3”這的3個(gè)狀態(tài)。在將聲學(xué)模型中采用的全部音素的數(shù)量設(shè)為Q時(shí),存在“3 X Q”個(gè)的狀態(tài)。聲音檢索裝置100針對(duì)“3 X Q”個(gè)的各個(gè)狀態(tài),根據(jù)大量的聲音信號(hào)的數(shù)據(jù),計(jì)算繼續(xù)長(zhǎng)度的平均值,將其預(yù)先存儲(chǔ)在時(shí)間長(zhǎng)度存儲(chǔ)部104中。
[0047]另外,為了提高檢索精度,優(yōu)選用于學(xué)習(xí)聲學(xué)模型的聲音信號(hào)以及用于計(jì)算音素的平均繼續(xù)長(zhǎng)度的聲音信號(hào)是通過與發(fā)出檢索對(duì)象的聲音信號(hào)的域(環(huán)境)相同的域而發(fā)出的聲音信號(hào)。例如,在檢索對(duì)象為在會(huì)議室中錄音得到的聲音信號(hào)時(shí),優(yōu)選采用在會(huì)議室中錄音得到的聲音信號(hào)來學(xué)習(xí)聲學(xué)模型,并計(jì)算音素的平均繼續(xù)長(zhǎng)度。但是,用于學(xué)習(xí)聲學(xué)模型的聲音信號(hào)以及用于計(jì)算音素的平均繼續(xù)長(zhǎng)度的聲音信號(hào)也可以是通過與發(fā)出檢索對(duì)象的聲音信號(hào)的域不同的域而發(fā)出的聲音信號(hào)。
[0048]檢索詞取得部111取得檢索詞。檢索詞取得部111例如取得用戶經(jīng)由輸入裝置4輸入的檢索字符串來作為檢索詞。即,用戶通過字符串(文本),向聲音檢索裝置100賦予用于從檢索對(duì)象的聲音信號(hào)中檢索發(fā)出目標(biāo)聲音的部分的檢索詞(查詢)。
[0049]變換部112按照檢索詞取得部111取得的檢索詞,對(duì)聲學(xué)模型的音素進(jìn)行排列,將檢索詞變換為音素串。即,變換部112按照與檢索詞中包含的字符相同的順序,排列對(duì)各字符進(jìn)行發(fā)聲時(shí)的音
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1