亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聲音處理裝置、聲音處理方法、程序及集成電路的制作方法

文檔序號(hào):2827094閱讀:240來(lái)源:國(guó)知局
聲音處理裝置、聲音處理方法、程序及集成電路的制作方法
【專利摘要】本發(fā)明提供一種聲音處理裝置,根據(jù)AV內(nèi)容的音頻信號(hào)檢測(cè)聲音特征的變化點(diǎn)。為了解決上述問(wèn)題,該聲音處理裝置具有:特征計(jì)算單元,按照所輸入的音頻信號(hào)的預(yù)定時(shí)間長(zhǎng)度的每個(gè)單位區(qū)間,計(jì)算表示所述音頻信號(hào)的特征的區(qū)間特征;邊界計(jì)算單元,對(duì)于多個(gè)所述單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)所述單位區(qū)間構(gòu)成的相似區(qū)間、和其它區(qū)間的邊界相關(guān)的邊界信息;以及判定單元,計(jì)算所述邊界信息所表示的各個(gè)邊界的優(yōu)先度,根據(jù)所述優(yōu)先度判定所述各個(gè)邊界是否是場(chǎng)景變化點(diǎn)。
【專利說(shuō)明】聲音處理裝置、聲音處理方法、程序及集成電路
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及從音頻信號(hào)中檢測(cè)頻率等特征的變化點(diǎn)的技術(shù)。
【背景技術(shù)】
[0002]目前需要這樣的功能:即對(duì)于用戶使用數(shù)字照相機(jī)等拍攝的AV內(nèi)容,能夠?qū)⒂脩舨恍枰膱?chǎng)景跳過(guò)而只視聽用戶期望的場(chǎng)景。
[0003]因此,使用AV內(nèi)容中的聲壓或頻率等聲音信息來(lái)檢測(cè)場(chǎng)景與場(chǎng)景之間的變化點(diǎn)(以后稱為場(chǎng)景變化點(diǎn))的技術(shù)受到關(guān)注。
[0004]例如,提出了這樣的方法:按照AV內(nèi)容的每幀,將聲音信息作為特征量而定量化,檢測(cè)幀間的特征量的變化超過(guò)閾值的幀來(lái)作為場(chǎng)景變化點(diǎn)(參照專利文獻(xiàn)I)。
[0005]現(xiàn)有技術(shù)文獻(xiàn)
[0006]專利文獻(xiàn)
[0007]專利文獻(xiàn)1:日本特開平5 - 20367號(hào)公報(bào)發(fā)明概要
[0008]發(fā)明要解決的問(wèn)題
[0009]可是,對(duì)于用戶拍攝的AV內(nèi)容而言,內(nèi)容根據(jù)用戶的想法而富于變化,其結(jié)果是應(yīng)該檢測(cè)的場(chǎng)景變化點(diǎn)也涉及多個(gè)方面。對(duì)于這種涉及多個(gè)方面的場(chǎng)景變化點(diǎn),僅使用特定的方法來(lái)網(wǎng)羅應(yīng)該檢測(cè)的場(chǎng)景變化點(diǎn)是很困難的,而且存在即使使用上述現(xiàn)有的方法也難以檢測(cè)的場(chǎng)景變化點(diǎn)。
[0010]
【發(fā)明內(nèi)容】

[0011]因此,本發(fā)明的目的在于,提供一種聲音處理裝置,能夠檢測(cè)利用現(xiàn)有的方法難以檢測(cè)的場(chǎng)景變化點(diǎn)。
[0012]用于解決問(wèn)題的手段
[0013]為了達(dá)到上述目的,本發(fā)明的聲音處理裝置的特征在于,該聲音處理裝置具有:特征計(jì)算單元,按照所輸入的音頻信號(hào)的預(yù)定時(shí)間長(zhǎng)度的每個(gè)單位區(qū)間,計(jì)算表示所述音頻信號(hào)的特征的區(qū)間特征;邊界計(jì)算單元,對(duì)于多個(gè)所述單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)單位區(qū)間構(gòu)成的相似區(qū)間、和其它區(qū)間的邊界相關(guān)的邊界信息;以及判定單元,計(jì)算所述邊界信息所表示的各個(gè)邊界的優(yōu)先度,根據(jù)所述優(yōu)先度判定所述各個(gè)邊界是否是場(chǎng)景變化點(diǎn)。
[0014]發(fā)明效果
[0015]根據(jù)本發(fā)明的聲音處理裝置,能夠檢測(cè)對(duì)多個(gè)單位區(qū)間中的每個(gè)單位區(qū)間設(shè)定的相似區(qū)間的邊界來(lái)作為場(chǎng)景變化點(diǎn)。
【專利附圖】

【附圖說(shuō)明】
[0016]圖1是表示構(gòu)成AV內(nèi)容的場(chǎng)景和音頻信號(hào)的具體示例的圖。[0017]圖2是表示特征量向量的計(jì)算方法的圖。
[0018]圖3是表示特征量向量的一例的圖。
[0019]圖4是表不錨定模型的一例的圖。
[0020]圖5是表示兩個(gè)第I單位區(qū)間中的似然度向量的示例的圖。
[0021]圖6是表示第I單位區(qū)間與第2單位區(qū)間的關(guān)系的圖。
[0022]圖7是表示頻次向量的一例的圖。
[0023]圖8是表示邊界信息計(jì)算部計(jì)算出的邊界信息的一例的圖。
[0024]圖9是橫軸表示時(shí)刻、縱軸表示邊界度的曲線圖。
[0025]圖10是表示具有聲音處理裝置的影像視聽裝置的功能構(gòu)成例的框圖。
[0026]圖11是表示聲音處理裝置的功能構(gòu)成例的框圖。
[0027]圖12是表示在計(jì)算基準(zhǔn)向量時(shí)使用的基準(zhǔn)區(qū)間的一例的圖。
[0028]圖13是使用向量空間的概念來(lái)表示基準(zhǔn)向量、頻次向量和閾值的圖。
[0029]圖14是表示相似區(qū)間的時(shí)間軸反方向的區(qū)間擴(kuò)展處理的示意圖。
[0030]圖15是表示索引生成部的功能構(gòu)成例的框圖。
[0031]圖16是表示錨定模型制作裝置的功能構(gòu)成例的框圖。
[0032]圖17是表示聲音處理裝置的動(dòng)作的流程圖。
[0033]圖18是表示區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算處理的流程圖。
[0034]圖19是表示邊界信息計(jì)算處理的流程圖。
[0035]圖20是表示索引生成處理的流程圖。
[0036]圖21是表示聲音處理裝置的功能構(gòu)成例的框圖。
[0037]圖22是表示邊界信息計(jì)算部計(jì)算出的邊界信息的一例的圖。
[0038]圖23是表示索引生成部的功能構(gòu)成例的框圖。
[0039]圖24是表示索引生成部生成的索引信息的一例的圖。
[0040]圖25是表示影像視聽系統(tǒng)的構(gòu)成例的框圖。
[0041]圖26是表示影像視聽系統(tǒng)中的客戶端的構(gòu)成例的框圖。
[0042]圖27是表示影像視聽系統(tǒng)中的服務(wù)器的構(gòu)成例的框圖。
【具體實(shí)施方式】
[0043]〈想到本發(fā)明的經(jīng)過(guò)〉
[0044]AV內(nèi)容根據(jù)捕捉場(chǎng)景的粒度,由各種長(zhǎng)度的區(qū)間構(gòu)成。例如,假設(shè)AV內(nèi)容是拍攝了聚會(huì)的內(nèi)容,由圖1 (a)所示的場(chǎng)景構(gòu)成。并且,假設(shè)圖1 (b)表現(xiàn)了該場(chǎng)景中的音頻信號(hào)。如圖所示,在聚會(huì)中存在干杯的場(chǎng)景10及其后續(xù)的聚餐的場(chǎng)景20,聚餐的場(chǎng)景20又由主要在就餐的場(chǎng)景21、和主要在暢談的場(chǎng)景22構(gòu)成。場(chǎng)景20是從主要在就餐的場(chǎng)景21向主要在暢談的場(chǎng)景22轉(zhuǎn)變的過(guò)渡場(chǎng)景。
[0045]這種過(guò)渡場(chǎng)景的聲音信息的變化緩慢,如過(guò)去那樣使用幀間的聲音信息的變化量來(lái)檢測(cè)出場(chǎng)景內(nèi)的變化點(diǎn)是很困難的。
[0046]另外,還具有如下性質(zhì):在這種過(guò)渡場(chǎng)景內(nèi)具有某種程度的長(zhǎng)度的區(qū)間的兩端,聲音信息的變化量累積,因而能夠檢測(cè)出兩端分別屬于過(guò)渡場(chǎng)景內(nèi)的不同場(chǎng)景。本
【發(fā)明者】們著眼于該性質(zhì)而發(fā)現(xiàn):能夠?qū)⑦^(guò)渡場(chǎng)景內(nèi)的變化點(diǎn)作為聲音信息相似的區(qū)間(相似區(qū)間)與其它區(qū)間的邊界、例如場(chǎng)景前半部分的相似區(qū)間與場(chǎng)景后半部分的相似區(qū)間的邊界而檢測(cè)出來(lái)。
[0047]在音頻信號(hào)中,相似區(qū)間能夠通過(guò)將成為該區(qū)間內(nèi)的某種基準(zhǔn)的位置(基準(zhǔn)位置)的聲音信息與其前后的聲音信息進(jìn)行比較來(lái)求出。因此,通過(guò)將過(guò)渡場(chǎng)景的一點(diǎn)指定為基準(zhǔn)位置來(lái)求出過(guò)渡場(chǎng)景內(nèi)的相似區(qū)間。
[0048]可是,為了求出事前無(wú)法知道位于音頻信號(hào)內(nèi)的哪個(gè)位置的過(guò)渡場(chǎng)景內(nèi)的相似區(qū)間,需要指定音頻信號(hào)的隨意位置來(lái)作為基準(zhǔn)位置。但是,如果將基準(zhǔn)位置設(shè)定得多,則根據(jù)所設(shè)定的基準(zhǔn)位置的數(shù)量而求出的邊界(變化點(diǎn))的數(shù)量增多。
[0049]如果被檢測(cè)的變化點(diǎn)的數(shù)量相對(duì)于用戶期望的場(chǎng)景數(shù)量較多,則將導(dǎo)致用戶在視聽到期望的場(chǎng)景之前的動(dòng)作變復(fù)雜。即,用戶需要從數(shù)量龐大的變化點(diǎn)中檢索作為所期望的場(chǎng)景的開始的變化點(diǎn)。即,隨著變化點(diǎn)的數(shù)量的增加,有可能不能得到使用戶容易視聽所期望的場(chǎng)景這種效果。
[0050]作為解決該問(wèn)題的一種方法,可以考慮挑選被檢測(cè)的變化點(diǎn)來(lái)抑制待索引化的變化點(diǎn)的數(shù)量的方法。
[0051]本
【發(fā)明者】們根據(jù)上述的經(jīng)過(guò)想出了本發(fā)明。下面,參照附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施方式。
[0052]<實(shí)施方式1>
[0053]〈1-1.> 概要
[0054]下面示出本發(fā)明的一個(gè)實(shí)施方式涉及的聲音處理裝置的概況。
[0055]本實(shí)施方式涉及的聲音處理裝置首先對(duì)將動(dòng)態(tài)圖像文件中所包含的音頻信號(hào)分割成預(yù)定時(shí)間長(zhǎng)度后的單位區(qū)間計(jì)算特征量,該特征量表現(xiàn)各單位區(qū)間中的音頻信號(hào)的特征。
[0056]然后,聲音處理裝置對(duì)于各單位區(qū)間,基于計(jì)算出的特征量的相似性,來(lái)計(jì)算與該單位區(qū)間相似的區(qū)間和其它區(qū)間的邊界。
[0057]并且,聲音處理裝置按照計(jì)算出的每個(gè)邊界來(lái)計(jì)算邊界度,基于邊界度來(lái)檢測(cè)場(chǎng)景變化點(diǎn)。
[0058]最后,聲音處理裝置將檢測(cè)出的場(chǎng)景變化點(diǎn)作為索引信息進(jìn)行輸出。
[0059]在本實(shí)施方式中,邊界度是表不同一時(shí)刻的邊界的數(shù)量。本實(shí)施方式的聲音處理裝置能夠在從屬于用戶期望的同一場(chǎng)景的單位區(qū)間中計(jì)算出表示同一時(shí)刻的邊界這一假設(shè)下,優(yōu)先檢測(cè)用戶期望的場(chǎng)景與其它場(chǎng)景的變化點(diǎn)。
[0060]<1-2.數(shù)據(jù) >
[0061]在此,對(duì)在本實(shí)施方式的聲音處理裝置中使用的數(shù)據(jù)進(jìn)行說(shuō)明。
[0062]〈動(dòng)態(tài)圖像文件〉
[0063]動(dòng)態(tài)圖像文件由音頻信號(hào)X (t)和多個(gè)圖像數(shù)據(jù)構(gòu)成。音頻信號(hào)X (t)是振幅值的時(shí)間序列數(shù)據(jù),能夠用如圖2 (a)所示的波形來(lái)表現(xiàn)。圖2 (a)是橫軸取時(shí)間、縱軸取振幅的音頻信號(hào)的波形例。
[0064]<特征量向量>
[0065]特征量向量M是表示音頻信號(hào)X (t)的特征的向量,在本實(shí)施方式中,使用按照每個(gè)第I單位區(qū)間進(jìn)行分割后的音頻信號(hào)的美爾頻率倒譜系數(shù)MFCC (Mel - FrequencyCepstrum Coefficients),來(lái)表示特征量向量M。其中,第I單位區(qū)間是指音頻信號(hào)X (t)在時(shí)間軸中的規(guī)定長(zhǎng)度(例如IOmsec)的區(qū)間,是圖2 Ca)中從時(shí)刻Tn到Tn+丨的區(qū)間。
[0066]按照每個(gè)第I單位區(qū)間計(jì)算出該特征量向量M。因此,如圖3所示,根據(jù)從時(shí)刻Osec到時(shí)刻Isec之間的音頻信號(hào),生成100個(gè)特征量向量M。另外,圖3是對(duì)從時(shí)刻Osec到時(shí)刻Isec之間的各第I單位區(qū)間計(jì)算出的特征量向量M的一例。[0067]<錨定模型>
[0068]錨定模型AJr = 1、2、…、K)是使用特征量向量生成的概率模型,用于表示各種音素(sound pieces)各自的特征,該特征量向量是從作為多種音素的聲音數(shù)據(jù)生成的。即,錨定模型是對(duì)應(yīng)各種音素而生成的。在本實(shí)施方式中米用混合正態(tài)分布模型(GMM:GaussianMixture Model),各個(gè)錨定模型\利用規(guī)定正態(tài)分布的參數(shù)構(gòu)成。
[0069]如圖4所示,錨定模型按照多種(在本實(shí)施方式中是1024種)音素中的每種音素生成,并利用與多種音素分別對(duì)應(yīng)的特征量出現(xiàn)概率函數(shù)bAr (M)表示。特征量出現(xiàn)概率函數(shù)bAr (M)是各個(gè)錨定模型所規(guī)定的正態(tài)分布的概率密度函數(shù),將特征量向量M作為自變量而計(jì)算出針對(duì)音頻信號(hào)X (t)的每個(gè)音素的似然度L = bAr (M)0
[0070]〈似然度向量〉
[0071]似然度向量F是以根據(jù)所述錨定模型而計(jì)算出的、針對(duì)音頻信號(hào)X (t)的多種音素中的每種音素的似然度L為成分的向量。
[0072]圖5是表示兩個(gè)第I單位區(qū)間中的似然度向量F的圖。圖5 (a)表示例如與從時(shí)刻0數(shù)起第n個(gè)第I單位區(qū)間(從時(shí)刻(10Xn)msec到時(shí)刻(IOX (n + l))msec之間的區(qū)間)對(duì)應(yīng)的似然度向量Fn,圖5 (b)表示例如與從時(shí)刻0數(shù)起第m個(gè)第I單位區(qū)間(從時(shí)刻(IOXm) msec到時(shí)刻(IOX (m + I)) msec之間的區(qū)間)對(duì)應(yīng)的似然度向量Fm (n〈m)。
[0073]〈頻次向量〉
[0074]頻次向量NF是表示音頻信號(hào)的每個(gè)第2單位區(qū)間的特征的向量,尤其是表示與音頻信號(hào)的第2單位區(qū)間相關(guān)的各個(gè)音素的出現(xiàn)頻次的向量。其中,第2單位區(qū)間是指音頻信號(hào)X (t)在時(shí)間軸中的規(guī)定長(zhǎng)度(例如Isec)的區(qū)間,如圖6所示,相當(dāng)于多個(gè)連續(xù)的第I單位區(qū)間的長(zhǎng)度。
[0075]具體地講,頻次向量NF是指第2單位區(qū)間中所包含的似然度向量F的正態(tài)化累計(jì)似然度、即將第2單位區(qū)間中所包含的似然度向量F的各個(gè)成分的累計(jì)值進(jìn)行正態(tài)化得到的向量。另外,此處所講正態(tài)化是指將頻次向量NF的范數(shù)設(shè)為I。圖7是表示頻次向量NF的一例的不意圖。
[0076]<邊界信息>
[0077]邊界信息是按照音頻信號(hào)的每個(gè)第2單位區(qū)間而計(jì)算出的、與頻次向量和該第2單位區(qū)間相似的相似區(qū)間的邊界相關(guān)的信息。本實(shí)施方式的聲音處理裝置計(jì)算相似區(qū)間的起始端的時(shí)刻和相似區(qū)間的終止端的時(shí)刻,作為邊界信息。圖8是在本實(shí)施方式中計(jì)算出的邊界信息的一例。例如,表示從第0個(gè)第2單位區(qū)間(時(shí)刻0~Is之間的區(qū)間)起計(jì)算出表示起始端時(shí)刻為Os、終止端時(shí)刻為IOs的邊界信息。
[0078]<邊界度>
[0079]如上所述,邊界度是表示同一時(shí)刻的邊界信息的數(shù)量。例如,在圖8中,表示起始端時(shí)刻或者終止端時(shí)刻為Os的邊界信息是從第0個(gè)第2單位區(qū)間(時(shí)刻0~Is之間的區(qū)間)、第I個(gè)第2單位區(qū)間(時(shí)刻I?2s之間的區(qū)間)以及第2個(gè)第2單位區(qū)間(時(shí)刻2?3s之間的區(qū)間)計(jì)算出的3個(gè)邊界信息,因而時(shí)刻Os的邊界度為3。圖9是橫軸表示時(shí)刻、縱軸表示計(jì)算出的邊界度的曲線的一例。
[0080]<1-3.結(jié)構(gòu)〉
[0081]下面,對(duì)具有本實(shí)施方式的聲音處理裝置104的影像視聽裝置100的功能構(gòu)成進(jìn)行說(shuō)明。
[0082]<影像視聽裝置100〉
[0083]圖10是表示影像視聽裝置100的功能構(gòu)成例的框圖。如圖所示,影像視聽裝置100具有輸入裝置101、內(nèi)容存儲(chǔ)裝置102、聲音提取裝置103、聲音處理裝置104、索引存儲(chǔ)裝置105、輸出裝置106、錨定模型制作裝置107、聲音數(shù)據(jù)存儲(chǔ)裝置108、和界面裝置109。
[0084]〈輸入裝置101〉
[0085]輸入裝置101利用盤驅(qū)動(dòng)裝置等實(shí)現(xiàn),在安裝記錄介質(zhì)120后,從記錄介質(zhì)120讀入動(dòng)態(tài)圖像文件,將所取得的動(dòng)態(tài)圖像文件存儲(chǔ)在內(nèi)容存儲(chǔ)裝置102中。另外,記錄介質(zhì)120是具有存儲(chǔ)各種數(shù)據(jù)的功能的介質(zhì),例如是光盤、軟盤、SD卡、閃存等。
[0086]<內(nèi)容存儲(chǔ)裝置102〉
[0087]內(nèi)容存儲(chǔ)裝置102利用例如硬盤裝置等實(shí)現(xiàn),存儲(chǔ)輸入裝置101從記錄介質(zhì)120取得的動(dòng)態(tài)圖像文件。動(dòng)態(tài)圖像文件在被附加了各個(gè)動(dòng)態(tài)圖像文件固有的ID后進(jìn)行存儲(chǔ)。
[0088]<聲音提取裝置103〉
[0089]聲音提取裝置103從存儲(chǔ)于內(nèi)容存儲(chǔ)裝置102的動(dòng)態(tài)圖像文件中提取音頻信號(hào),將所提取的音頻信號(hào)輸入聲音處理裝置104。另外,聲音提取裝置103通過(guò)對(duì)被編碼后的音頻信號(hào)進(jìn)行解碼處理,生成如圖2 (a)所示的音頻信號(hào)X (t)。另外,聲音提取裝置103利用例如執(zhí)行程序的處理器等實(shí)現(xiàn)。
[0090]<聲音處理裝置104〉
[0091]聲音處理裝置104根據(jù)從聲音提取裝置103輸入的音頻信號(hào)X(t),進(jìn)行場(chǎng)景變化點(diǎn)的檢測(cè),將由檢測(cè)出的場(chǎng)景變化點(diǎn)構(gòu)成的索引信息存儲(chǔ)在索引存儲(chǔ)裝置105中。關(guān)于聲音處理裝置104的功能構(gòu)成的詳細(xì)情況將在后面進(jìn)行說(shuō)明。
[0092]〈索引存儲(chǔ)裝置105〉
[0093]索引存儲(chǔ)裝置105利用例如硬盤裝置等實(shí)現(xiàn),存儲(chǔ)從聲音處理裝置104輸入的索引信息。索引信息由動(dòng)態(tài)圖像文件的ID和動(dòng)態(tài)圖像文件中的時(shí)刻(場(chǎng)景變化點(diǎn)的時(shí)刻)構(gòu)成。
[0094]〈輸出裝置106〉
[0095]輸出裝置106從索引存儲(chǔ)裝置105取得索引信息,將與所取得的索引信息對(duì)應(yīng)的影像數(shù)據(jù)(存儲(chǔ)于內(nèi)容存儲(chǔ)裝置102中的動(dòng)態(tài)圖像文件的一部分)輸出給顯示裝置130。輸出裝置106對(duì)輸出給顯示裝置130的影像數(shù)據(jù)附加信息,根據(jù)輸入到界面裝置109的用戶操作來(lái)進(jìn)行跳過(guò)等再現(xiàn)控制,所述附加的信息例如是對(duì)與索引信息對(duì)應(yīng)的時(shí)刻附加了標(biāo)記的進(jìn)度條等與用戶界面(U1:User Interface)相關(guān)的信息。
[0096]另外,聲音提取裝置103利用例如執(zhí)行程序的處理器等實(shí)現(xiàn)。
[0097]<錨定模型制作裝置107〉
[0098]錨定模型制作裝置107根據(jù)在聲音數(shù)據(jù)存儲(chǔ)裝置108中存儲(chǔ)的音頻信號(hào)來(lái)生成錨定模型Ar,將所生成的錨定模型Ar輸出給聲音處理裝置104。關(guān)于錨定模型制作裝置107的功能構(gòu)成的詳細(xì)情況將在后面進(jìn)行說(shuō)明。
[0099]另外,錨定模型制作裝置107在生成錨定模型4時(shí)使用的音頻信號(hào),是預(yù)先從與作為檢測(cè)場(chǎng)景變化點(diǎn)的對(duì)象的動(dòng)態(tài)圖像文件不同的多個(gè)動(dòng)態(tài)圖像文件中提取得到的音頻信號(hào)。
[0100]<聲音數(shù)據(jù)存儲(chǔ)裝置108〉
[0101]聲音數(shù)據(jù)存儲(chǔ)裝置108利用例如硬盤裝置等實(shí)現(xiàn),預(yù)先存儲(chǔ)錨定模型制作裝置107在生成錨定模型時(shí)使用的聲音數(shù)據(jù)。
[0102]〈界面裝置109〉
[0103]界面裝置109具有鍵盤等操作部(未圖示),其受理來(lái)自用戶的輸入操作,并將進(jìn)度條的操作信息等通知輸出裝置106,將應(yīng)該制作的錨定模型的個(gè)數(shù)K通知錨定模型制作裝置 107。
[0104]<聲音處理裝置104 (詳細(xì)情況)>
[0105]聲音處理裝置104由存儲(chǔ)器(未圖示)和處理器(未圖示)構(gòu)成,通過(guò)由處理器執(zhí)行被讀入到存儲(chǔ)器中的程序,實(shí)現(xiàn)圖11所示的構(gòu)成。
[0106]圖11是表示聲音處理裝置104的功能構(gòu)成例的框圖。如圖11所示,聲音處理裝置104具有特征量向量生成部201、似然度向量生成部202、似然度向量緩沖器203、頻次向量生成部204、頻次向量緩沖器205、區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206、邊界信息計(jì)算部207、索引生成部208和錨定模型存儲(chǔ)部209。下面對(duì)各個(gè)構(gòu)成要素進(jìn)行說(shuō)明。
[0107]〈特征量向量生成部201〉
[0108]特征量向量生成部201根據(jù)從聲音提取裝置103輸入的音頻信號(hào)X(t),按照每個(gè)第I單位區(qū)間生成特征量向量M。
[0109]下面,說(shuō)明在根據(jù)音頻信號(hào)X (t)生成特征量向量M之前的概要。
[0110]首先,特征量向量生成部201計(jì)算第I單位區(qū)間的音頻信號(hào)X(t)的功率譜S( co )(參照?qǐng)D2 (b))。功率譜S (?)是將音頻信號(hào)X (t)從時(shí)間軸變換為頻率軸并將各個(gè)頻率成分進(jìn)行平方得到的。
[0111]然后,特征量向量生成部201計(jì)算將功率譜S ( CO )的頻率軸變換為美爾頻率軸后的美爾頻率譜S ( Wmei)(參照?qǐng)D2 (C))。
[0112]最后,特征量向量生成部201根據(jù)美爾頻率譜S ( Cofflel)計(jì)算美爾頻率倒譜,將規(guī)定數(shù)量(在本實(shí)施方式中是26個(gè))的成分作為特征量向量M。
[0113]<錨定模型存儲(chǔ)部209〉
[0114]錨定模型存儲(chǔ)部209利用存儲(chǔ)器的一部分區(qū)域構(gòu)成,存儲(chǔ)由錨定模型制作裝置107制作出的錨定模型Ar。在本實(shí)施方式中,錨定模型存儲(chǔ)部209在聲音處理裝置104執(zhí)行各處理之前預(yù)先存儲(chǔ)錨定模型4。
[0115]〈似然度向量生成部202〉
[0116]似然度向量生成部202使用由特征量向量生成部201生成的特征量向量M、和在錨定模型存儲(chǔ)部209中存儲(chǔ)的錨定模型計(jì)算音頻信號(hào)X (t)的針對(duì)各個(gè)音素的似然度Lp并按照每個(gè)第I單位區(qū)間生成以各個(gè)似然度為成分的似然度向量F。
[0117]〈似然度向量緩沖器203〉[0118]似然度向量緩沖器203利用存儲(chǔ)器的一部分區(qū)域構(gòu)成,存儲(chǔ)由似然度向量生成部202生成的似然度向量F。
[0119]<頻次向量生成部204〉
[0120]頻次向量生成部204根據(jù)在似然度向量緩沖器203中存儲(chǔ)的似然度向量F,按照每個(gè)第2單位區(qū)間生成頻次向量NF。
[0121]〈頻次向量緩沖器205〉
[0122]頻次向量緩沖器205利用存儲(chǔ)器的一部分區(qū)域構(gòu)成,存儲(chǔ)由頻次向量生成部204生成的頻次向量NF。
[0123]〈區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206〉
[0124]區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206針對(duì)各個(gè)第2單位區(qū)間,計(jì)算作為后述的區(qū)間擴(kuò)展處理的基準(zhǔn)指標(biāo)的基準(zhǔn)區(qū)間、基準(zhǔn)向量S和閾值Rth。
[0125]區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206將處理對(duì)象的第2單位區(qū)間附近的多個(gè)第2單位區(qū)間作為基準(zhǔn)區(qū)間,從頻次向量緩沖器205取得基準(zhǔn)區(qū)間的頻次向量,并計(jì)算所取得的多個(gè)頻次向量的重心來(lái)作為基準(zhǔn)向量S。圖12表示將處理對(duì)象的第2單位區(qū)間附近的合計(jì)9個(gè)區(qū)間作為基準(zhǔn)區(qū)間時(shí),使用基準(zhǔn)區(qū)間的頻次向量(NFl?NF9)計(jì)算基準(zhǔn)向量S的示例。
[0126]區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206還分別計(jì)算在生成基準(zhǔn)向量S時(shí)使用的多個(gè)頻次向量NF與基準(zhǔn)向量S之間的歐幾里得距離,并計(jì)算與基準(zhǔn)向量S之間的歐幾里得距離為最大的頻次向量NF與基準(zhǔn)向量S之間的歐幾里得距離,作為在判定是否屬于相似區(qū)間時(shí)使用的閾值Rth。
[0127]圖13是使用向量空間的概念表示基準(zhǔn)向量S、各個(gè)頻次向量NF和閾值Rth的圖。在圖13中,白圓圈表示在計(jì)算基準(zhǔn)向量S時(shí)使用的頻次向量NF (對(duì)應(yīng)于圖12所示的基準(zhǔn)區(qū)間內(nèi)的各個(gè)頻次向量NFl?NF9),呈圓狀的陰影區(qū)域的中心的黑圓點(diǎn)表示基準(zhǔn)向量S。從基準(zhǔn)向量S到各個(gè)頻次向量NF的箭頭的長(zhǎng)度表示頻次向量NF與基準(zhǔn)向量S之間的歐幾里得距離,其最大距離為閾值Rth。
[0128]〈邊界信息計(jì)算部207〉
[0129]返回到圖11,邊界信息計(jì)算部207針對(duì)第2單位區(qū)間計(jì)算由頻次向量相似的區(qū)間構(gòu)成的相似區(qū)間,并確定相似區(qū)間的起始端的時(shí)刻和終止端的時(shí)刻。邊界信息計(jì)算部207將在頻次向量緩沖器205中存儲(chǔ)的頻次向量NF、處理對(duì)象的第2單位區(qū)間、和由區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206計(jì)算出的基準(zhǔn)指標(biāo)(基準(zhǔn)區(qū)間、基準(zhǔn)向量S和閾值Rth)作為輸入,將所確定的起始端的時(shí)刻和終止端的時(shí)刻作為邊界信息,輸出給索引生成部208。
[0130]首先,邊界信息計(jì)算部207將由區(qū)間擴(kuò)展基準(zhǔn)指標(biāo)計(jì)算部206計(jì)算出的基準(zhǔn)區(qū)間設(shè)定為相似區(qū)間的初始值。如圖14所示,邊界信息計(jì)算部207向時(shí)間軸反方向進(jìn)行追溯,將相似區(qū)間緊前的第2單位區(qū)間作為對(duì)象區(qū)間,并判定對(duì)象區(qū)間是否包含在相似區(qū)間中。具體地講,邊界信息計(jì)算部207計(jì)算對(duì)象區(qū)間中的頻次向量NF與基準(zhǔn)向量S之間的歐幾里得距離,在計(jì)算出的歐幾里得距離為閾值Rth以下的情況下,使對(duì)象區(qū)間包含在相似區(qū)間中。邊界信息計(jì)算部207反復(fù)上述處理,并確定所計(jì)算出的歐幾里得距離第一次超過(guò)閾值Rth時(shí)的相似區(qū)間的起始端的時(shí)刻。
[0131]在上述處理中一個(gè)區(qū)間一個(gè)區(qū)間地將相似區(qū)間擴(kuò)展,因而稱為區(qū)間擴(kuò)展處理。邊界信息計(jì)算部207也沿時(shí)間軸正方向進(jìn)行區(qū)間擴(kuò)展處理,并確定相似區(qū)間的終止端的時(shí)刻。
[0132]邊界信息計(jì)算部207在進(jìn)行區(qū)間擴(kuò)展處理時(shí),判定對(duì)象區(qū)間是否包含在相似區(qū)間中,同時(shí)也判定相似區(qū)間的長(zhǎng)度是否比預(yù)先設(shè)定的相似區(qū)間的長(zhǎng)度Ie短。在計(jì)算出的歐幾里得距離未超過(guò)閾值Rth、而且相似區(qū)間的長(zhǎng)度比預(yù)先設(shè)定的相似區(qū)間的長(zhǎng)度的上限Ie短的情況下,邊界信息計(jì)算部207將對(duì)象區(qū)間包含在相似區(qū)間中。在相似區(qū)間的長(zhǎng)度為相似區(qū)間的長(zhǎng)度的上限Ie以上的情況下,邊界信息計(jì)算部207計(jì)算該時(shí)刻的相似區(qū)間的邊界信息。另外,相似區(qū)間的長(zhǎng)度的上限Ie采用預(yù)先設(shè)定的值。
[0133]邊界信息計(jì)算部207按照每個(gè)第2單位區(qū)間計(jì)算邊界信息(參照?qǐng)D8)。
[0134]〈索引生成部208〉
[0135]索引生成部208根據(jù)由邊界信息計(jì)算部207計(jì)算出的邊界信息來(lái)檢測(cè)場(chǎng)景變化點(diǎn),把將檢測(cè)出的場(chǎng)景變化點(diǎn)索引化得到的索引信息輸出給索引存儲(chǔ)裝置105。圖15是表示索引生成部208的功能構(gòu)成例的框圖。如圖15所示,索引生成部208具有投票部301、閾值計(jì)算部302和邊界判定部303。下面,對(duì)各構(gòu)成進(jìn)行說(shuō)明。
[0136]〈投票部301〉
[0137]投票部301按照由邊界信息計(jì)算部207計(jì)算出的邊界信息所表示的每個(gè)時(shí)刻,計(jì)算表示同一時(shí)刻的邊界信息的數(shù)量作為邊界度。投票部301針對(duì)從邊界信息計(jì)算部207輸入的各個(gè)邊界信息,在所輸入的邊界信息所表示的時(shí)刻進(jìn)行投票(將與時(shí)刻i對(duì)應(yīng)的邊界度KKi加1),由此計(jì)算邊界度。另外,投票部301在利用一個(gè)邊界信息指定的起始端的時(shí)刻和終止端的時(shí)刻這兩個(gè)時(shí)刻進(jìn)行投票。
[0138]〈閾值計(jì)算部302〉
[0139]閾值計(jì)算部302使用由投票部301計(jì)算出的每個(gè)時(shí)刻的邊界度的平均U和標(biāo)準(zhǔn)偏差O,計(jì)算閾值Th。在邊界信息所表示的時(shí)刻是Ti (i=l、2、3、…、N)、與其對(duì)應(yīng)的邊界度是KKi (i=l、2、3、…、N)的情況下,利用下面的式(1)、(2)和(3)對(duì)平均值y、標(biāo)準(zhǔn)偏差O和閾值Th賦值。
[0140][數(shù)學(xué)式I]
【權(quán)利要求】
1.一種聲音處理裝置,其特征在于,該聲音處理裝置具有: 特征計(jì)算單元,按照每個(gè)單位區(qū)間來(lái)計(jì)算表示所輸入的音頻信號(hào)的單位區(qū)間的特征的區(qū)間特征; 邊界計(jì)算單元,對(duì)于多個(gè)單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)單位區(qū)間構(gòu)成的相似區(qū)間、和其它區(qū)間的邊界相關(guān)的邊界信息;以及 判定單元,計(jì)算所述邊界信息所表示的各個(gè)邊界的優(yōu)先度,根據(jù)所述優(yōu)先度判定所述各個(gè)邊界是否是場(chǎng)景變化點(diǎn)。
2.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述判定單元計(jì)算表示同一邊界的邊界信息的數(shù)量,作為所述優(yōu)先度。
3.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述邊界計(jì)算單元還計(jì)算表示所述相似區(qū)間與其它區(qū)間之間的音頻信號(hào)的特征的變化程度的變化度,作為所述邊界信息, 所述判定單元計(jì)算表示同一邊界的邊界信息的所述變化度的累計(jì)值,作為所述優(yōu)先度。
4.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述邊界計(jì)算單元還計(jì)算表示所述相似區(qū)間與其它區(qū)間之間的音頻信號(hào)的特征的變化程度的變化度,作為所述邊界信息, 所述判定單元計(jì)算表示同一邊界的邊界信息的所述變化度的最大值,作為所述優(yōu)先度。
5.根據(jù)權(quán)利要求4所述的聲音處理裝置,其特征在于, 所述邊界計(jì)算單元還使用所述相似區(qū)間中包含的所述單位區(qū)間的區(qū)間特征,來(lái)計(jì)算表示該相似區(qū)間的聲音環(huán)境的聲音環(huán)境信息,以作為所述邊界信息, 所述聲音處理裝置還具有分類單元,該分類單元使用所述聲音環(huán)境信息將所述場(chǎng)景變化點(diǎn)分類,并將分類結(jié)果的分類信息賦予所述場(chǎng)景變化點(diǎn)。
6.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述聲音處理裝置還具有根據(jù)所述優(yōu)先度來(lái)計(jì)算閾值的閾值計(jì)算單元, 所述判定單元檢測(cè)超過(guò)所述閾值的優(yōu)先度的邊界的時(shí)刻,作為所述場(chǎng)景變化點(diǎn)。
7.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述判定單元按照所述優(yōu)先度從高到低的順序檢測(cè)規(guī)定數(shù)量的所述邊界,作為所述場(chǎng)景變化點(diǎn)。
8.根據(jù)權(quán)利要求7所述的聲音處理裝置,其特征在于, 所述判定單元根據(jù)所述音頻信號(hào)的長(zhǎng)度來(lái)決定所述規(guī)定數(shù)量。
9.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述邊界計(jì)算單元計(jì)算所述相似區(qū)間的起始端的時(shí)刻,作為所述邊界信息。
10.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述邊界計(jì)算單元計(jì)算所述相似區(qū)間的終止端的時(shí)刻,作為所述邊界信息。
11.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 所述邊界計(jì)算單元針對(duì)所述音頻信號(hào)的所有單位區(qū)間計(jì)算所述邊界信息。
12.根據(jù)權(quán)利要求1所述的聲音處理裝置,其特征在于, 將所述單位區(qū)間設(shè)為第2單位區(qū)間,所述第2單位區(qū)間由多個(gè)連續(xù)的第I單位區(qū)間構(gòu)成, 所述聲音處理裝置還具有: 模型存儲(chǔ)單元,預(yù)先存儲(chǔ)表示多種音素的各個(gè)音素的特征的概率模型;以及似然度向量生成單元,使用所述概率模型,按照每個(gè)所述第I單位區(qū)間生成似然度向量,該似然度向量以相對(duì)于所述音頻信號(hào)的所述各個(gè)音素的似然度為成分, 所述區(qū)間特征使用所述第2單位區(qū)間中包含的多個(gè)第I單位區(qū)間的似然度向量而生成,所述區(qū)間特征是表示所述各個(gè)音素的出現(xiàn)頻次的頻次向量。
13.根據(jù)權(quán)利要求12所述的聲音處理裝置,其特征在于, 所述聲音處理裝置還具有特征量向量生成單元,所述特征量向量生成單元計(jì)算表示音頻信號(hào)的所述第I單位區(qū)間中的頻率特性的特征量向量, 所述似然度向量生成單元使用所述特征量向量和所述概率模型來(lái)生成所述似然度向量。
14.一種聲音處理裝置,其特征在于,該聲音處理裝置具有: 特征計(jì)算單元,按照每個(gè)單位區(qū)間來(lái)計(jì)算表示所輸入的音頻信號(hào)的單位區(qū)間的特征的區(qū)間特征; 邊界計(jì)算單元,對(duì)于多個(gè)單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)單位區(qū)間構(gòu)成的相似區(qū)間和其它區(qū)間的邊界相關(guān)的邊界信息;以及場(chǎng)景構(gòu)造推定單元,從所述邊界信息所表示的邊界中,檢測(cè)由所述音頻信號(hào)表示的場(chǎng)景中所包含的第I場(chǎng)景的邊界、和包含在該第I場(chǎng)景中的第2場(chǎng)景的邊界。
15.一種聲音處理方法,其特征在于,該聲音處理方法包括: 特征計(jì)算步驟,按照每個(gè)單位區(qū)間來(lái)計(jì)算表示所輸入的音頻信號(hào)的單位區(qū)間的特征的區(qū)間特征; 邊界計(jì)算步驟,對(duì)于多個(gè)單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)單位區(qū)間構(gòu)成的相似區(qū)間和其它區(qū)間的邊界相關(guān)的邊界信息;以及判定步驟,計(jì)算所述邊界信息所表示的各個(gè)邊界的優(yōu)先度,根據(jù)所述優(yōu)先度判定所述各個(gè)邊界是否是場(chǎng)景變化點(diǎn)。
16.一種程序,被記錄在計(jì)算機(jī)可讀的非臨時(shí)性記錄介質(zhì)中,執(zhí)行根據(jù)音頻信號(hào)來(lái)檢測(cè)場(chǎng)景變化點(diǎn)的場(chǎng)景變化點(diǎn)檢測(cè)處理,其特征在于,所述場(chǎng)景變化點(diǎn)檢測(cè)處理包括: 特征計(jì)算步驟,按照每個(gè)單位區(qū)間來(lái)計(jì)算表示所輸入的音頻信號(hào)的單位區(qū)間的特征的區(qū)間特征; 邊界計(jì)算步驟,對(duì)于多個(gè)單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)單位區(qū)間構(gòu)成的相似區(qū)間和其它區(qū)間的邊界相關(guān)的邊界信息;以及判定步驟,計(jì)算所述邊界信息所表示的各個(gè)邊界的優(yōu)先度,根據(jù)所述優(yōu)先度判定所述各個(gè)邊界是否是場(chǎng)景變化點(diǎn)。
17.一種集成電路,其特征在于,該集成電路具有: 特征計(jì)算部,按照每個(gè)單位區(qū)間來(lái)計(jì)算表示所輸入的音頻信號(hào)的單位區(qū)間的特征的區(qū)間特征;邊界計(jì)算部, 對(duì)于多個(gè)單位區(qū)間中的每個(gè)單位區(qū)間,計(jì)算與包括該單位區(qū)間在內(nèi)的由區(qū)間特征相似的多個(gè)單位區(qū)間構(gòu)成的相似區(qū)間和其它區(qū)間的邊界相關(guān)的邊界信息;以及判定部,計(jì)算所述邊界信息所表示的各個(gè)邊界的優(yōu)先度,根據(jù)所述優(yōu)先度判定所述各個(gè)邊界是否是場(chǎng)景變化點(diǎn)。
【文檔編號(hào)】G10L25/57GK103534755SQ201380001357
【公開日】2014年1月22日 申請(qǐng)日期:2013年3月11日 優(yōu)先權(quán)日:2012年4月20日
【發(fā)明者】小沼知浩, 上野山努 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1