亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信號(hào)處理裝置、信號(hào)處理方法及程序的制作方法

文檔序號(hào):2835961閱讀:171來源:國知局
專利名稱:信號(hào)處理裝置、信號(hào)處理方法及程序的制作方法
技術(shù)領(lǐng)域
本公開涉及信號(hào)處理裝置、信號(hào)處理方法及程序,并且更具體地涉及能夠從混合有樂曲和噪聲的輸入信號(hào)中識(shí)別該樂曲的信號(hào)處理裝置、信號(hào)處理方法及程序。
背景技術(shù)
在相關(guān)技術(shù)中,為了識(shí)別作為輸入信號(hào)而輸入的樂曲,進(jìn)行將輸入信號(hào)的特征量與作為要被識(shí)別的樂曲的候選的參考信號(hào)的特征量相匹配的匹配處理。然而,例如,當(dāng)電視節(jié)目(諸如戲劇)的廣播聲源作為輸入信號(hào)被輸入時(shí),該輸入信號(hào)通常包括作為背景音樂 (BGM)的樂曲的信號(hào)分量以及除了該樂曲以外的諸如人類對(duì)話或噪聲(環(huán)境噪聲)的噪聲分量(在下文中也被稱為噪聲),并且由噪聲導(dǎo)致的該輸入信號(hào)的特征量的變化影響匹配處理的結(jié)果。因此,已經(jīng)提出了如下技術(shù)該技術(shù)通過利用對(duì)輸入信號(hào)的特征量中的低可靠性分量進(jìn)行屏蔽的屏蔽模式而只使用高可靠性分量來進(jìn)行匹配處理。特別地,已經(jīng)提出了如下技術(shù)該技術(shù)準(zhǔn)備與表示輸入信號(hào)的特征量的特征矩陣的預(yù)定時(shí)頻域相對(duì)應(yīng)的、用于屏蔽矩陣分量的多種屏蔽模式,并且使用所有屏蔽模式來進(jìn)行將該輸入信號(hào)的特征量與數(shù)據(jù)庫中的多個(gè)參考信號(hào)的特征量相匹配的匹配處理,從而將具有最高相似程度的參考信號(hào)的樂曲識(shí)別為輸入信號(hào)的樂曲,其中該輸入信號(hào)被轉(zhuǎn)換為該時(shí)頻域中的信號(hào)(例如,參見日本未審查專利申請(qǐng)公開2009-276776)。還提出了如下技術(shù)該技術(shù)假定輸入信號(hào)中具有高平均功率的時(shí)間段的分量是疊加有除樂曲以外的噪聲的分量,并且創(chuàng)建允許只使用輸入信號(hào)中具有低平均功率的時(shí)間段的特征量來進(jìn)行匹配處理的屏蔽模式(例如,參見日本未審查專利申請(qǐng)公開 2004-326050)。

發(fā)明內(nèi)容
然而,由于難以預(yù)測(cè)輸入信號(hào)中疊加了噪聲的時(shí)間段和疊加了噪聲的頻率,并且也難以預(yù)先準(zhǔn)備適合于這種輸入信號(hào)的屏蔽模式,所以在日本未審查專利申請(qǐng)公開 2009-276776中公開的技術(shù)并未進(jìn)行適當(dāng)?shù)钠ヅ涮幚恚也荒芤愿呔_度從混合了樂曲和噪聲的輸入信號(hào)中識(shí)別出該樂曲。在日本未審查專利申請(qǐng)公開2004-3^050中所公開的技術(shù)中,能夠創(chuàng)建與輸入信號(hào)相對(duì)應(yīng)的屏蔽模式,但是由于沒有考慮頻率分量,因此很難說這個(gè)屏蔽模式是適合于該輸入信號(hào)的屏蔽模式。如圖1左側(cè)所示,當(dāng)時(shí)頻域中的輸入信號(hào)中的樂曲的信號(hào)分量Dm中包括了基于人類對(duì)話的噪聲Dv的時(shí)候,日本未審查專利申請(qǐng)公開2004-3^050中所公開的技術(shù)能夠僅使用人類對(duì)話中斷的區(qū)域Sl和S2中的幾個(gè)時(shí)間段的特征量來進(jìn)行匹配處理, 因而很難以高精確度從混合了該樂曲和噪聲的輸入信號(hào)中識(shí)別出該樂曲。為了以高精確度從混合了樂曲和噪聲的輸入信號(hào)中識(shí)別出該樂曲,優(yōu)選地,應(yīng)該使用如圖1右側(cè)所示的區(qū)域S3和S4中的該樂曲的信號(hào)分量Dm的特征量來進(jìn)行匹配處理。
期望以高精確度從輸入信號(hào)中識(shí)別樂曲。根據(jù)本公開的一個(gè)實(shí)施例,提供一種通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較而識(shí)別所述輸入信號(hào)的樂曲的信號(hào)處理裝置,所述信號(hào)處理裝置包括權(quán)重分布生成部,用于生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及相似度計(jì)算部,用于以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。所述權(quán)重分布生成部可以生成所述權(quán)重分布,所述權(quán)重分布通過基于表示所述音樂類似度的音樂度對(duì)所述音樂度大于預(yù)定閾值的區(qū)域進(jìn)行權(quán)重設(shè)置來屏蔽所述音樂度不大于所述預(yù)定閾值的區(qū)域。所述信號(hào)處理裝置可以進(jìn)一步包括檢測(cè)部,用于從所述輸入信號(hào)中檢測(cè)信號(hào)分量的功率譜為最大值的點(diǎn);以及音樂度計(jì)算部,用于基于預(yù)定時(shí)間段中所述最大值點(diǎn)的出現(xiàn)頻度計(jì)算所述音樂度。所述出現(xiàn)頻度可以是每個(gè)頻率的最大值點(diǎn)的出現(xiàn)頻度。所述相似度計(jì)算部可以計(jì)算所述輸入信號(hào)的特征量和所述多個(gè)參考信號(hào)的特征量之間的相似程度。在此情況下,所述信號(hào)處理裝置可以進(jìn)一步包括確定部,該確定部將各相似程度當(dāng)中被計(jì)算出比預(yù)定閾值高的最高相似程度的參考信號(hào)的樂曲確定為所述輸入信號(hào)的樂曲。所述相似度計(jì)算部可以計(jì)算所述輸入信號(hào)的特征量和所述多個(gè)參考信號(hào)的特征量之間的相似程度。在此情況下,所述信號(hào)處理裝置可以進(jìn)一步包括確定部,該確定部將各相似程度當(dāng)中被計(jì)算出比預(yù)定閾值高的相似程度的多個(gè)參考信號(hào)的樂曲確定為所述輸入信號(hào)的樂曲。所述相似度計(jì)算部可以以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域且與預(yù)定時(shí)間相對(duì)應(yīng)的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域且與所述預(yù)定時(shí)間相對(duì)應(yīng)的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。根據(jù)本公開的另一個(gè)實(shí)施例,提供一種通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較而識(shí)別所述輸入信號(hào)的樂曲的信號(hào)處理方法,所述信號(hào)處理方法包括生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。根據(jù)本公開的又一個(gè)實(shí)施例,提供一種使計(jì)算機(jī)執(zhí)行通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較而識(shí)別所述輸入信號(hào)的樂曲的信號(hào)處理過程的程序,所述信號(hào)處理過程包括生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。根據(jù)本公開的實(shí)施例,生成與變換到時(shí)頻域的輸入信號(hào)的各區(qū)域中的音樂類似度相對(duì)應(yīng)的權(quán)重分布,并且以基于該權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到時(shí)頻域的輸入信號(hào)的各區(qū)域中的特征量和變換到時(shí)頻域的參考信號(hào)的各區(qū)域中的特征量之間的相似程度。 根據(jù)本公開的實(shí)施例,可以以高精確度從輸入信號(hào)中識(shí)別樂曲。


圖1是示出用于匹配處理的輸入信號(hào)的特征量的圖。
圖2是示出根據(jù)本公開實(shí)施例的信號(hào)處理裝置的配置的框圖。
圖3是示出音樂度計(jì)算部的功能配置的框圖。
圖4是示出屏蔽模式生成部的功能配置的框圖。
圖5是示出樂曲識(shí)別處理的流程圖。
圖6是示出輸入信號(hào)分析處理的流程圖。
圖7是示出輸入信號(hào)的特征量的圖。
圖8是示出音樂度計(jì)算處理的流程圖。
圖9是示出音樂度計(jì)算的圖。
圖10是示出音樂度計(jì)算的圖。
圖11是示出屏蔽模式生成處理的流程圖。
圖12是示出屏蔽模式生成的圖。
圖13是示出參考信號(hào)分析處理的流程圖。
圖14是示出匹配處理的流程圖。
圖15是示出將輸入信號(hào)的特征量與參考信號(hào)的特征量相匹配的匹配處理的圖。
圖16是示出計(jì)算機(jī)的硬件配置的框圖。
具體實(shí)施例方式下文中將參考附圖詳細(xì)描述本公開的各實(shí)施例。根據(jù)本公開的實(shí)施例,提供了一種信號(hào)處理裝置,用于通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較來識(shí)別所述輸入信號(hào)的樂曲,所述信號(hào)處理裝置包括權(quán)重分布生成部,用于生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及相似度計(jì)算部,用于以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。根據(jù)本公開的實(shí)施例,提供了一種信號(hào)處理方法,用于通過比較輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)來識(shí)別所述輸入信號(hào)的樂曲,所述信號(hào)處理方法包括生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。信號(hào)處理裝置的配置圖2是示出根據(jù)本公開實(shí)施例的信號(hào)處理裝置的配置的圖。圖2中所示的信號(hào)處理裝置11通過將包括樂曲的信號(hào)分量以及諸如人類對(duì)話和噪聲的噪聲分量(噪聲)的輸入信號(hào)與不包括噪聲而只包括樂曲的參考信號(hào)相比較,來識(shí)別輸入信號(hào)的樂曲并輸出識(shí)別結(jié)果。
信號(hào)處理裝置11包括輸入信號(hào)分析器31、參考信號(hào)分析器32和匹配部33。輸入信號(hào)分析器31分析從外部裝置等輸入的輸入信號(hào),從輸入信號(hào)中提取表示輸入信號(hào)的特征的特征量,生成用于輸入信號(hào)與參考信號(hào)的比較的屏蔽模式,并將所提取的特征量和該屏蔽模式提供給匹配部33。稍后將參考圖12等描述生成屏蔽模式的細(xì)節(jié)。輸入信號(hào)分析器31包括剪切部51、時(shí)頻變換部52、特征量提取部53、音樂度計(jì)算部討以及屏蔽模式生成部陽。剪切部51從到時(shí)頻變換部52的輸入信號(hào)中切出與預(yù)定時(shí)間相對(duì)應(yīng)的信號(hào)片段, 并將該信號(hào)片段提供給時(shí)頻變換部52。時(shí)頻變換部52將來自剪切部51的預(yù)定時(shí)間的信號(hào)片段變換為時(shí)頻域中的信號(hào) (譜圖,spectrogram),并將變換后的信號(hào)提供給特征量提取部53和音樂度計(jì)算部M。特征量提取部53從來自時(shí)頻變換部52的輸入信號(hào)的譜圖中提取該譜圖的每個(gè)時(shí)頻區(qū)域的表示輸入信號(hào)的特征的特征量,并將提取的特征量提供給匹配部33。音樂度計(jì)算部M基于來自時(shí)頻變換部52的輸入信號(hào)的譜圖來針對(duì)該譜圖的每個(gè)時(shí)頻區(qū)域計(jì)算作為輸入信號(hào)的音樂類似度指標(biāo)的音樂度,并將計(jì)算出的音樂度提供給屏蔽模式生成部55。屏蔽模式生成部55基于來自音樂度計(jì)算部M的譜圖的每個(gè)時(shí)頻區(qū)域的音樂度來生成被用于將輸入信號(hào)的特征量與參考信號(hào)的特征量相匹配的匹配處理的屏蔽模式,并將該屏蔽模式提供給匹配部33。參考信號(hào)分析器32分析存儲(chǔ)在未示出的存儲(chǔ)單元中的或從外部裝置輸入的多個(gè)參考信號(hào),從這些參考信號(hào)中提取表示各個(gè)參考信號(hào)的特征的特征量,并將提取的特征量提供給匹配部33。參考信號(hào)分析器32包括時(shí)頻變換部61和特征量提取部62。時(shí)頻變換部61將參考信號(hào)變換為譜圖,并將該譜圖提供給特征量提取部62。特征量提取部62從來自時(shí)頻變換部61的參考信號(hào)的譜圖中提取該譜圖的每個(gè)時(shí)頻區(qū)域的表示參考信號(hào)的特征的特征量,并將提取的特征量提供給匹配部33。匹配部33通過使用來自輸入信號(hào)分析器31的屏蔽模式進(jìn)行將來自輸入信號(hào)分析器31的輸入信號(hào)的特征量與來自參考信號(hào)分析器32的參考信號(hào)的特征量相匹配的匹配處理,來識(shí)別輸入信號(hào)中所包括的樂曲。匹配部33包括相似度計(jì)算部71和比較及確定部72。相似度計(jì)算部71使用來自輸入信號(hào)分析器31的屏蔽模式來計(jì)算來自輸入信號(hào)分析器31的輸入信號(hào)的特征量和來自參考信號(hào)分析器32的多個(gè)參考信號(hào)的特征量之間的相似程度,并將計(jì)算出的相似程度提供給比較及確定部72。比較及確定部72將來自相似度計(jì)算部71的各相似程度當(dāng)中被計(jì)算出高于預(yù)定閾值的最高相似程度的那個(gè)參考信號(hào)的樂曲確定為輸入信號(hào)的樂曲,并且輸出表示該參考信號(hào)的樂曲的屬性的樂曲信息作為識(shí)別結(jié)果。音樂度計(jì)算部的配置下面將參考圖3描述圖2中所示的音樂度計(jì)算部M的詳細(xì)配置。圖3中所示的音樂度計(jì)算部M包括時(shí)間段選擇部81、峰值檢測(cè)部82、峰值出現(xiàn)頻度計(jì)算部83、強(qiáng)調(diào)部84和輸出部85。時(shí)間段選擇部81在來自時(shí)頻變換部52的輸入信號(hào)的譜圖中選擇預(yù)定時(shí)間段的譜圖,并將所選擇的譜圖提供給峰值檢測(cè)部82。峰值檢測(cè)部82針對(duì)由時(shí)間段選擇部81選擇的預(yù)定時(shí)間段的譜圖中的每個(gè)時(shí)幀, 檢測(cè)信號(hào)分量的強(qiáng)度為最大值的峰值。峰值出現(xiàn)頻度計(jì)算部83針對(duì)每個(gè)頻率來計(jì)算由峰值檢測(cè)部82檢測(cè)到的峰值在預(yù)定時(shí)間段的譜圖中的出現(xiàn)頻度。強(qiáng)調(diào)部84進(jìn)行強(qiáng)調(diào)由峰值出現(xiàn)頻度計(jì)算部83計(jì)算出的出現(xiàn)頻度的值的強(qiáng)調(diào)處理,并將結(jié)果提供給輸出部85。輸出部85存儲(chǔ)被強(qiáng)調(diào)部84進(jìn)行了強(qiáng)調(diào)處理的預(yù)定時(shí)間段的譜圖的峰值出現(xiàn)頻度。輸出部85將全部時(shí)間段的譜圖的峰值出現(xiàn)頻度作為表示輸入信號(hào)的音樂類似度的音樂度來提供(輸出)給屏蔽模式生成部陽。這樣,針對(duì)各時(shí)頻區(qū)域中的每個(gè)預(yù)定時(shí)間段計(jì)算出具有每個(gè)單位頻率的值(元素)的音樂度。屏蔽模式生成部的配置下面將參考圖4描述圖2中所示的屏蔽模式生成部55的詳細(xì)配置。圖4中所示的屏蔽模式生成部55包括提取部91、線性變換部92、分配部93、屏蔽部94和再采樣部95。提取部91從來自音樂度計(jì)算部M的音樂度的元素中提取值大于預(yù)定閾值的元素,并將所提取的元素提供給線性變換部92。線性變換部92對(duì)由提取部91提取的元素的值進(jìn)行預(yù)定的線性變換處理,并將結(jié)果提供給分配部93。分配部93將通過線性變換部92的預(yù)定線性變換處理而獲得的值分配到時(shí)頻域的音樂度中由提取部91提取的元素的周邊元素。屏蔽部94屏蔽時(shí)頻域的音樂度中未被提取部91提取的、且未被分配部93分配線性變換后的值的區(qū)域(元素)。再采樣部95在時(shí)間方向上對(duì)被屏蔽了上述區(qū)域的時(shí)頻域的音樂度進(jìn)行再采樣處理,從而與特征量提取部53所提取的輸入信號(hào)的特征量的時(shí)間粒度(每個(gè)元素的時(shí)間段的大小)相對(duì)應(yīng)。再采樣部95將作為再采樣處理結(jié)果而獲取的音樂度作為被用于將輸入信號(hào)的特征量與參考信號(hào)的特征量相匹配的匹配處理的屏蔽模式提供給匹配部33。信號(hào)處理裝置的樂曲識(shí)別處理下面參考圖5中所示的流程圖來描述信號(hào)處理裝置11中的樂曲識(shí)別處理。當(dāng)包括要被識(shí)別的樂曲的輸入信號(hào)被從外部裝置等輸入到信號(hào)處理裝置11時(shí)啟動(dòng)該樂曲識(shí)別處理。該輸入信號(hào)在時(shí)間上連續(xù)地被輸入到信號(hào)處理裝置11。在步驟S11,輸入信號(hào)分析器31進(jìn)行輸入信號(hào)分析處理,從而分析從外部裝置等輸入的輸入信號(hào),從輸入信號(hào)中提取輸入信號(hào)的特征量,并生成用于輸入信號(hào)與參考信號(hào)的比較的屏蔽模式。輸入信號(hào)分析處理這里將參考圖6中所示的流程圖來描述圖5中所示的流程圖的步驟Sll中的輸入信號(hào)分析處理的細(xì)節(jié)。在步驟S31,輸入信號(hào)分析器31的剪切部51從輸入信號(hào)中切出與預(yù)定時(shí)間(例如,15秒)相對(duì)應(yīng)的信號(hào),并將切出的信號(hào)提供給時(shí)頻變換部52。
在步驟S32,時(shí)頻變換部52將來自剪切部51的預(yù)定時(shí)間的輸入信號(hào)變換為譜圖, 并將譜圖提供給特征量提取部53和音樂度計(jì)算部M。時(shí)頻變換部52可以進(jìn)行頻率軸變形(frequency axis distorting)處理,諸如以Mel比例來壓縮譜圖的頻率分量的Mel頻率變換處理。在步驟S33,特征量提取部53從來自時(shí)頻變換部52的輸入信號(hào)的譜圖中提取該譜圖的每個(gè)時(shí)頻區(qū)域的特征量,并將所提取的特征量提供給匹配部33。更具體來說,特征量提取部53計(jì)算輸入信號(hào)的譜圖中每個(gè)預(yù)定時(shí)間段(例如,0. 25秒)的功率譜的平均值,將這些平均值歸一化,并將這些平均值按時(shí)間序列的排列定義為特征量。圖7是示出由特征量提取部53提取的特征量的圖。如圖7中所示,從輸入信號(hào)的譜圖中提取的輸入信號(hào)的特征量S包括時(shí)間方向和頻率方向上的元素(在下文中也稱為分量)。特征量S中的方塊(單元)分別代表每個(gè)時(shí)間和每個(gè)頻率的元素,并且雖然圖中未示出,但是特征量S中的方塊(單元)具有作為特征量的值。如圖7中所示,特征量S的時(shí)間粒度是0. 25秒。這樣,由于從輸入信號(hào)的譜圖提取的輸入信號(hào)的特征量具有每個(gè)時(shí)間和每個(gè)頻率的元素,所以可以將特征量作為矩陣處理。特征量不局限于歸一化的平均功率譜,也可以是稍后描述的音樂度或可以是通過將輸入信號(hào)變換為時(shí)頻域中的信號(hào)而獲得的譜圖本身。再次參考圖6中所示的流程圖,在步驟S34,音樂度計(jì)算部M基于來自時(shí)頻變換部52的輸入信號(hào)的譜圖進(jìn)行音樂度計(jì)算處理,以計(jì)算輸入信號(hào)的譜圖的每個(gè)時(shí)頻區(qū)域的、 作為輸入信號(hào)的音樂類似度指標(biāo)的音樂度。輸入信號(hào)中音調(diào)的穩(wěn)定性被用于音樂度計(jì)算處理中音樂度的計(jì)算。在此,音調(diào)被定義為代表每個(gè)頻率的信號(hào)分量的強(qiáng)度(功率譜)。一般來說,由于在樂曲中具有特定音樂音高(頻率)的聲音持續(xù)預(yù)定的時(shí)間,所以音調(diào)在時(shí)間方向上是穩(wěn)定的。另一方面,在人類對(duì)話中音調(diào)在時(shí)間方向上是不穩(wěn)定的,并且環(huán)境噪聲中罕有在時(shí)間方向上持續(xù)的音調(diào)。因此,在音樂度計(jì)算處理中,通過對(duì)預(yù)定時(shí)間段的輸入信號(hào)中的音調(diào)的存在和穩(wěn)定性進(jìn)行數(shù)值轉(zhuǎn)換,計(jì)算音樂度。音樂度計(jì)算處理下面,將參考圖8中所示的流程圖來描述圖6中所示的流程圖的步驟S34中的音樂度計(jì)算處理的細(xì)節(jié)。在步驟S51,音樂度計(jì)算部M的時(shí)間段選擇部81在來自時(shí)頻變換部52的輸入信號(hào)的譜圖中選擇預(yù)定時(shí)間段的譜圖(例如,15秒的輸入信號(hào)中的第1秒),并將所選擇的譜圖提供給峰值檢測(cè)部82。在步驟S52,峰值檢測(cè)部82針對(duì)時(shí)間段選擇部81所選擇的1秒的譜圖中的每個(gè)時(shí)幀(時(shí)間元)來檢測(cè)時(shí)頻區(qū)域中每個(gè)頻帶的信號(hào)分量的功率譜(強(qiáng)度)為該頻帶附近的最大值的那個(gè)點(diǎn),作為峰值。例如,在對(duì)應(yīng)于1秒的樂曲的譜圖中,由于具有特定頻率的聲音持續(xù)預(yù)定時(shí)間,所以如圖9左側(cè)所示,信號(hào)分量的峰值出現(xiàn)在特定頻帶中。另一方面,例如,在對(duì)應(yīng)于一秒的人類對(duì)話的譜圖中,由于人類對(duì)話的音調(diào)是不穩(wěn)定的,所以如圖10左側(cè)所示,信號(hào)分量的峰值出現(xiàn)在各個(gè)頻帶中。
8
在步驟S53,峰值出現(xiàn)頻度計(jì)算部83在一秒的譜圖中計(jì)算每個(gè)頻率由峰值檢測(cè)部 82檢測(cè)到的峰值在時(shí)間方向上的出現(xiàn)(存在)(在下文中稱為峰值出現(xiàn)頻度)。例如,當(dāng)在一秒的譜圖中檢測(cè)到圖9左側(cè)所示的峰值時(shí),這些峰值在時(shí)間方向上出現(xiàn)在固定頻帶中。因此,計(jì)算出如圖9中央所示的具有固定頻率的峰值的峰值出現(xiàn)頻度。另一方面,例如,當(dāng)在一秒的譜圖中檢測(cè)到圖10左側(cè)所示的峰值時(shí),這些峰值在時(shí)間方向上出現(xiàn)在不同頻帶上。因此,計(jì)算出如圖10中央所示的在時(shí)間方向上平緩的峰值出現(xiàn)頻度。在計(jì)算峰值出現(xiàn)頻度時(shí),可以考慮持續(xù)預(yù)定時(shí)間或持續(xù)更久的峰值來計(jì)算峰值出現(xiàn)頻度,即考慮峰值的長(zhǎng)度來計(jì)算峰值出現(xiàn)頻度。以這種方式計(jì)算出的每個(gè)頻率的峰值出現(xiàn)頻度可以作為一維矢量來處理。在步驟S54,強(qiáng)調(diào)部84進(jìn)行用于強(qiáng)調(diào)由峰值出現(xiàn)頻度計(jì)算部83計(jì)算出的峰值出現(xiàn)頻度的強(qiáng)調(diào)處理,并將結(jié)果提供給輸出部85。特別地,強(qiáng)調(diào)部84例如使用[-1/2,1,-1/2] 濾波器對(duì)表示峰值出現(xiàn)頻度的矢量進(jìn)行濾波處理。例如,當(dāng)對(duì)圖9中央所示的在固定頻率處具有峰值的峰值出現(xiàn)頻度進(jìn)行濾波處理時(shí),可以獲得如圖9右側(cè)所示的具有被強(qiáng)調(diào)的峰值的峰值出現(xiàn)頻度。另一方面,當(dāng)對(duì)圖10中央所示的具有在頻率方向上平緩的峰值的峰值出現(xiàn)頻度進(jìn)行濾波處理時(shí),可以獲得如圖10右側(cè)所示的具有被削弱的峰值的峰值出現(xiàn)頻度。強(qiáng)調(diào)處理不局限于濾波處理,還可以通過從峰值出現(xiàn)頻度的值減去其附近的峰值出現(xiàn)頻度的值的平均值或中值來強(qiáng)調(diào)峰值出現(xiàn)頻率的值。在步驟S55,輸出部85存儲(chǔ)經(jīng)過強(qiáng)調(diào)部84的強(qiáng)調(diào)處理的一秒鐘譜圖的峰值出現(xiàn)頻度,并確定是否對(duì)所有時(shí)間段(例如,15秒)都進(jìn)行了上述處理。當(dāng)在步驟S55確定沒有對(duì)所有時(shí)間段都進(jìn)行上述處理時(shí),處理流程返回到步驟 S51,并對(duì)下一時(shí)間段(一秒鐘)的譜圖重復(fù)步驟S51至S54的處理??梢匀缟纤鰧?duì)一秒鐘時(shí)間段的譜圖進(jìn)行步驟S51至S54的處理,或者可以在把要被處理的譜圖的時(shí)間段移位例如0. 5秒并且使要被處理的時(shí)間段的一部分與先前處理的時(shí)間段重疊的同時(shí)進(jìn)行步驟 S51至S54的處理。另一方面,當(dāng)在步驟S55確定對(duì)所有時(shí)間段都進(jìn)行了上述處理時(shí),處理流程前進(jìn)到步驟S56。在步驟S56,輸出部85將通過按時(shí)間序列排列所存儲(chǔ)的每個(gè)時(shí)間段(一秒鐘)的峰值出現(xiàn)頻度(一維矢量)而獲取的矩陣作為音樂度提供(輸出)給屏蔽模式生成部陽, 并且處理流程返回到步驟S34。這樣,與由特征量提取部53提取的特征量類似地,從輸入信號(hào)的譜圖計(jì)算出的音樂度可以作為具有每個(gè)時(shí)間和每個(gè)頻率的元素的矩陣來處理。在此,由特征量提取部53提取的特征量的時(shí)間粒度是0. 25秒,而音樂度的時(shí)間粒度是1秒。在進(jìn)行圖6中的步驟S34的處理之后,處理流程前進(jìn)到步驟S35,并且屏蔽模式生成部55基于來自音樂度計(jì)算部M的音樂度進(jìn)行屏蔽模式生成處理,并生成被用于將輸入信號(hào)的特征量與參考信號(hào)的特征量相匹配的匹配處理的屏蔽模式。屏蔽模式生成處理下面將參考圖11中所示的流程圖來描述圖6中所示的流程圖中步驟S35的屏蔽模式生成處理的細(xì)節(jié)。在步驟S71,屏蔽模式生成部55的提取部91在來自音樂度計(jì)算部M的音樂度的各元素(分量)中提取值大于預(yù)定閾值的元素,并將所提取的元素提供給線性變換部92。例如,當(dāng)從音樂度計(jì)算部M提供圖12左上端所示的音樂度G作為音樂度時(shí),提取部91在音樂度G的元素中提取值大于0. 3的元素。在此,在音樂度G的元素中,當(dāng)關(guān)于音樂度G的左下元素在頻率方向上的元素由f定義(其中f在1至8的范圍內(nèi))并且在時(shí)間方向上的元素由u定義(其中u在1至3范圍內(nèi))時(shí),提取的元素Gfu是值為0. 8的元素G21 和(i22、值為0. 6的元素G71以及值為0. 5的元素(;63,并且獲取圖12左側(cè)中央所示的音樂度 Gl作為結(jié)果。在步驟S72,線性變換部92對(duì)提取部91所提取的元素的值進(jìn)行預(yù)定的線性變換處理,并將結(jié)果提供給分配部93。特別地,如果由χ定義線性變換處理之前的元素的值并且由y定義線性變換處理之后的元素的值,則對(duì)音樂度Gl中由提取部91提取的元素的值進(jìn)行線性變換處理,以滿足例如y = X-0. 3,從而獲得圖12左下端所示的音樂度G2。盡管上面陳述了對(duì)元素的值進(jìn)行線性變換處理,但是也可以使用S形函數(shù) (sigmoid function)等對(duì)元素的值進(jìn)行非線性變換處理,或者通過進(jìn)行二值化處理將元素的值變換為預(yù)定的二進(jìn)制值。在步驟S73,分配部93把作為線性變換部92中的線性變換的結(jié)果而獲得的值分配給與提取部91提取的元素所對(duì)應(yīng)的時(shí)頻區(qū)域?qū)儆谕粫r(shí)間段的周邊區(qū)域。特別地,在圖12左下端所示的音樂度G2中,值0. 5被分配給與值被變換為0. 5的元素G21所對(duì)應(yīng)的區(qū)域?qū)儆谕粫r(shí)間段的相鄰區(qū)域的元素,即元素G11和(;31。類似地,值0.5 被分配給與值被變換為0.5的元素(^2所對(duì)應(yīng)的區(qū)域?qū)儆谕粫r(shí)間段的相鄰區(qū)域的元素,即元素(;32和G12。值0. 3被分配給與值被變換為0. 3的元素G71所對(duì)應(yīng)的區(qū)域?qū)儆谕粫r(shí)間段的相鄰區(qū)域的元素,即元素(^61和(i81。值0. 2被分配給與值被變換為0. 2的元素G63所對(duì)應(yīng)的區(qū)域?qū)儆谕粫r(shí)間段的相鄰區(qū)域的元素,即元素G53和G73。這樣,獲得圖12右上端所示的音樂度G3。在音樂度G3中,陰影區(qū)域中的元素的值是分配部93分配的值。在圖12的音樂度G3中,通過線性變換部92中的線性變換獲得的值被分配給與提取部91提取的元素所對(duì)應(yīng)的時(shí)頻區(qū)域?qū)儆谕粫r(shí)間段的相鄰區(qū)域的元素。然而,可以將該值分配給進(jìn)一步鄰近于這些相鄰區(qū)域的區(qū)域或者更進(jìn)一步鄰近于這些相鄰區(qū)域的區(qū)域。在步驟S74,屏蔽部94屏蔽時(shí)頻域的音樂度中未被提取部91提取的、且未被分配部93分配線性變換后的值的區(qū)域(元素),即圖12右上端所示的音樂度G3中的空白區(qū)域, 從而獲得圖12右側(cè)中央所示的音樂度G4。在步驟S75,再采樣部95在時(shí)間方向上對(duì)被屏蔽了特定區(qū)域的音樂度進(jìn)行再采樣處理,從而與特征量提取部53提取的輸入信號(hào)的特征量的時(shí)間粒度相對(duì)應(yīng)。特別地,再采樣部95通過在時(shí)間方向上對(duì)圖12右側(cè)中央所示的音樂度G4進(jìn)行再采樣處理,將時(shí)間粒度從1秒改變到0. 25秒,0. 25秒是輸入信號(hào)的特征量的時(shí)間粒度。再采樣部95將作為再采樣處理結(jié)果而獲得的音樂度作為圖12右下端所示的屏蔽模式W來提供給匹配部33,并且處理流程返回到圖6中所示的流程圖中的步驟S35。
這樣,在輸入信號(hào)的譜圖中,生成作為權(quán)重分布的屏蔽模式,在該權(quán)重分布中,具有高音樂度的區(qū)域被賦予基于音樂度的權(quán)重,音樂度是音樂類似度的指標(biāo),并且具有低音樂度的區(qū)域被屏蔽。與特征量提取部53所提取的特征量類似地,可以將屏蔽模式作為具有每個(gè)時(shí)間和每個(gè)頻率的元素的矩陣來處理,并且時(shí)間粒度是0. 25秒,這等于特征量提取部 53提取的特征量的時(shí)間粒度。圖6中所示的流程圖中步驟S35之后的處理流程返回到圖5中所示的流程圖中的步驟Sll。在圖5中所示的流程圖中,步驟Sll之后的處理流程前進(jìn)到步驟S12,并且參考信號(hào)分析器32進(jìn)行參考信號(hào)分析處理,以分析從外部裝置等輸入的參考信號(hào)并從參考信號(hào)中提取參考信號(hào)的特征量。參考信號(hào)分析處理下面將參考圖13中所示的流程圖來描述圖5中所示的流程圖中步驟S12的參考信號(hào)分析處理的細(xì)節(jié)。在步驟S91,參考信號(hào)分析器32的時(shí)頻變換部61將輸入的參考信號(hào)變換為譜圖, 并將得到的譜圖提供給特征量提取部62。在步驟S92,與特征量提取部53類似地,特征量提取部62從來自時(shí)頻變換部61的參考信號(hào)的譜圖中提取該譜圖的各時(shí)頻區(qū)域的特征量,并將所提取的特征量提供給匹配部 33。以這種方式提取的參考信號(hào)的特征量的時(shí)間粒度與輸入信號(hào)的特征量的時(shí)間粒度(例如,0. 25秒)相同。輸入信號(hào)的特征量與從輸入信號(hào)切出的預(yù)定時(shí)間(例如,15秒) 的信號(hào)相對(duì)應(yīng),而參考信號(hào)的特征量與樂曲的信號(hào)相對(duì)應(yīng)。因此,與輸入信號(hào)的特征量類似地,可以將參考信號(hào)的特征量作為具有每個(gè)時(shí)間和每個(gè)頻率的元素的矩陣來處理,但是參考信號(hào)的特征量在時(shí)間方向上具有比輸入信號(hào)的特征量的元素更多的元素。此時(shí),特征量提取部62從信號(hào)處理裝置11中的數(shù)據(jù)庫(未示出)中讀取表示每個(gè)參考信號(hào)的樂曲的屬性的樂曲信息(如,樂曲名稱、音樂家名字和樂曲ID),將讀取的樂曲屬性信息與提取的參考信號(hào)的特征量相關(guān)聯(lián),并且將關(guān)聯(lián)結(jié)果提供給匹配部33。在參考信號(hào)分析處理中,對(duì)多個(gè)參考信號(hào)進(jìn)行上述處理。匹配部33將多個(gè)參考信號(hào)的特征量和樂曲屬性信息存儲(chǔ)在匹配部33中的存儲(chǔ)區(qū)(未示出)中。多個(gè)參考信號(hào)的特征量和樂曲屬性信息可以存儲(chǔ)在信號(hào)處理裝置11中的數(shù)據(jù)庫 (未示出)中。圖13中所示的流程圖中步驟S92之后的處理流程返回到圖5中所示的流程圖中的步驟S12。圖5中所示的流程圖中步驟S12之后的處理流程前進(jìn)到步驟S13,并且匹配部33 進(jìn)行匹配處理以識(shí)別輸入信號(hào)中所包括的樂曲,并且輸出識(shí)別結(jié)果。匹配處理下面將參考圖14中所示的流程圖來描述圖5中所示的流程圖中步驟S13的匹配處理的細(xì)節(jié)。在步驟Sl 11,匹配部33的相似度計(jì)算部71基于來自輸入信號(hào)分析器31的屏蔽模式而計(jì)算來自輸入信號(hào)分析器31的輸入信號(hào)的特征量與從參考信號(hào)分析器32提供的且存儲(chǔ)在匹配部33中的存儲(chǔ)區(qū)(未示出)中的預(yù)定參考信號(hào)的特征量之間的相似程度,并將計(jì)算出的相似程度提供給比較及確定部72。當(dāng)參考信號(hào)的特征量和樂曲屬性信息存儲(chǔ)在未示出的數(shù)據(jù)庫中時(shí),從該數(shù)據(jù)庫中讀取預(yù)定參考信號(hào)的特征量和樂曲屬性信息。下面將參考圖15來描述計(jì)算輸入信號(hào)的特征量和參考信號(hào)的特征量之間的相似程度的示例。在圖15中,上端示出參考信號(hào)的特征量L,左下端示出輸入信號(hào)的特征量S,而右下端示出屏蔽模式W。如上所述,可以將它們作為矩陣來處理。如圖15中所示,參考信號(hào)的特征量L在時(shí)間方向上的分量數(shù)目大于輸入信號(hào)的特征量S在時(shí)間方向上的分量數(shù)目(輸入信號(hào)S在時(shí)間方向上的分量數(shù)目等于屏蔽模式W在時(shí)間方向上的分量數(shù)目)。因此,在計(jì)算輸入信號(hào)的特征量和參考信號(hào)的特征量之間相似程度時(shí),相似度計(jì)算部71從參考信號(hào)的特征量L順序切出在時(shí)間方向上與輸入信號(hào)的特征量 S具有相同分量數(shù)目的子矩陣A,同時(shí)在時(shí)間方向上(向圖中的右側(cè))移位該子矩陣(產(chǎn)生時(shí)間方向上的偏移量),并計(jì)算子矩陣A和輸入信號(hào)的特征量S之間的相似程度。在此,如果切出子矩陣A時(shí)在時(shí)間方向上的偏移量為t,則由表達(dá)式1來表示相似程度R(t)。表達(dá)式1
權(quán)利要求
1.一種信號(hào)處理裝置,用于通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較來識(shí)別所述輸入信號(hào)的樂曲,所述信號(hào)處理裝置包括權(quán)重分布生成部,用于生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及相似度計(jì)算部,用于以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。
2.根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中,所述權(quán)重分布生成部生成下述權(quán)重分布,所述權(quán)重分布通過基于表示所述音樂類似度的音樂度對(duì)所述音樂度大于預(yù)定閾值的區(qū)域進(jìn)行權(quán)重設(shè)置來屏蔽所述音樂度不大于所述預(yù)定閾值的區(qū)域。
3.根據(jù)權(quán)利要求2所述的信號(hào)處理裝置,進(jìn)一步包括檢測(cè)部,用于從所述輸入信號(hào)中檢測(cè)信號(hào)分量的功率譜為最大值的點(diǎn);以及音樂度計(jì)算部,用于基于預(yù)定時(shí)間段中最大值點(diǎn)的出現(xiàn)頻度計(jì)算所述音樂度。
4.根據(jù)權(quán)利要求3所述的信號(hào)處理裝置,其中,所述出現(xiàn)頻度是每個(gè)頻率的最大值點(diǎn)的出現(xiàn)頻度。
5.根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中,所述相似度計(jì)算部計(jì)算所述輸入信號(hào)的特征量和所述多個(gè)參考信號(hào)的特征量之間的相似程度,并且其中,所述信號(hào)處理裝置進(jìn)一步包括確定部,所述確定部將各相似程度當(dāng)中被計(jì)算出比預(yù)定閾值高的最高相似程度的參考信號(hào)的樂曲確定為所述輸入信號(hào)的樂曲。
6.根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中,所述相似度計(jì)算部計(jì)算所述輸入信號(hào)的特征量和所述多個(gè)參考信號(hào)的特征量之間的相似程度,并且其中,所述信號(hào)處理裝置進(jìn)一步包括確定部,所述確定部將各相似程度當(dāng)中被計(jì)算出比預(yù)定閾值高的相似程度的多個(gè)參考信號(hào)的樂曲確定為所述輸入信號(hào)的樂曲。
7.根據(jù)權(quán)利要求1所述的信號(hào)處理裝置,其中,所述相似度計(jì)算部以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域且與預(yù)定時(shí)間相對(duì)應(yīng)的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域且與所述預(yù)定時(shí)間相對(duì)應(yīng)的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。
8.一種信號(hào)處理方法,用于通過比較輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)來識(shí)別所述輸入信號(hào)的樂曲,所述信號(hào)處理方法包括生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。
9.一種使計(jì)算機(jī)執(zhí)行通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較來識(shí)別所述輸入信號(hào)的樂曲的信號(hào)處理過程的程序,所述信號(hào)處理過程包括生成與變換到時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及以基于所述權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到所述時(shí)頻域的所述輸入信號(hào)的各區(qū)域中的特征量和變換到所述時(shí)頻域的所述參考信號(hào)的各區(qū)域中的特征量之間的相似程度。
全文摘要
本公開提供了信號(hào)處理裝置、信號(hào)處理方法及程序。該信號(hào)處理裝置通過將輸入信號(hào)與僅包括樂曲的多個(gè)參考信號(hào)進(jìn)行比較來識(shí)別輸入信號(hào)的樂曲,該信號(hào)處理裝置包括權(quán)重分布生成部,用于生成與變換到時(shí)頻域的輸入信號(hào)的各區(qū)域中的音樂類似度對(duì)應(yīng)的權(quán)重分布;以及相似度計(jì)算部,用于以基于該權(quán)重分布的權(quán)重設(shè)置為基礎(chǔ),計(jì)算變換到時(shí)頻域的輸入信號(hào)的各區(qū)域中的特征量和變換到時(shí)頻域的參考信號(hào)的各區(qū)域中的特征量之間的相似程度。
文檔編號(hào)G10L11/00GK102568474SQ20111032998
公開日2012年7月11日 申請(qǐng)日期2011年10月21日 優(yōu)先權(quán)日2010年10月29日
發(fā)明者東山惠祐, 安部素嗣, 澁谷崇 申請(qǐng)人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1