專利名稱:樂曲區(qū)間檢測方法及其裝置、及數(shù)據(jù)記錄方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及從電視播放等數(shù)據(jù)中檢測樂曲區(qū)間的方法及裝置、以及
將包含利用該方法檢測出的樂曲區(qū)間在內(nèi)的數(shù)據(jù)記錄在包括DVD-R或 DVD-RW等的記錄型DVD盤、硬盤驅(qū)動器或藍(lán)光光盤(Blu-ray Disc)
等記錄介質(zhì)中的記錄方法及裝置。
背景技術(shù):
作為電視播放的一種,存在被稱為所謂「歌曲節(jié)目」或「音樂節(jié)目J 的類型。音樂節(jié)目大多由演出者進(jìn)行的演奏或歌唱、或者基于視頻圖像 的樂曲圖像(下面記述為「樂曲場景」。另外,在本說明書中,所謂「樂曲 場景」普遍指將歌曲或演奏等的音樂包含在聲音中的圖像。)、和主持人 等進(jìn)行的樂曲介紹或與演出者的談話(會話)節(jié)目等樂曲以外的圖像(下面 記述為「非樂曲場景」。)構(gòu)成。
并且,如果是私營播放,則有時也在節(jié)目結(jié)構(gòu)中包含用于節(jié)目廣告 商的宣傳或廣播電視臺自身的廣告宣傳的廣告播放(下面記述為「CM播 放」。并且,將CM (廣告)播放的區(qū)間記述為「CM播放區(qū)間」。)。
可是,在對錄制的音樂節(jié)目進(jìn)行再現(xiàn)時,對于想專心致意于樂曲的 視聽者而言,期望高效地跳過非樂曲場景或CM播放等樂曲場景以外的 部分。并且,相反,對于對樂曲沒有興趣的視聽者,期望跳過樂曲場景 或CM播放,僅視聽談話節(jié)目等非樂曲場景。
對于這種期望,在現(xiàn)有的樂曲檢測方法及記錄方法中,利用聲音信 息頻譜的峰值相對頻率方向在時間上穩(wěn)定的特征來確定樂曲場景,僅存 儲樂曲的圖像聲音(例如,參照專利文獻(xiàn)l)。
專利文獻(xiàn)l:日本特開平11-266435號公報(第5頁,圖1)
可是,在專利文獻(xiàn)1所述的樂曲檢測方法中,由于利用單一的方法來判定樂曲場景的檢測,所以對于搖滾或民間流行歌曲、古典音樂等曲 調(diào)不同的全部樂曲,難以同樣地確保檢測精度。
發(fā)明內(nèi)容
本發(fā)明為了解決上述問題而作出,提供一種從包含電視播放等的圖 像信號及聲音信號的數(shù)據(jù)中高效地檢測樂曲場景的方法及裝置。 本發(fā)明的樂曲區(qū)間檢測方法具備以下步驟 數(shù)據(jù)輸入步驟,輸入包含聲音信號和圖像信號的數(shù)據(jù); 多個樂曲候選區(qū)間檢測步驟,根據(jù)各個不同的基準(zhǔn),從所述聲音信 號中檢測所述輸入數(shù)據(jù)的樂曲候選區(qū)間;以及
樂曲區(qū)間檢測步驟,根據(jù)所述檢測出的多個樂曲候選區(qū)間,來檢測 樂曲區(qū)間。
發(fā)明的效果
根據(jù)本發(fā)明的樂曲區(qū)間檢測方法,由于根據(jù)各個不同的多個基準(zhǔn), 對聲音信號進(jìn)行樂曲候選區(qū)間檢測,且從該檢測出的多個樂曲候選區(qū)間 中檢測樂曲區(qū)間,所以可對搖滾或民間流行音樂、古典音樂等曲調(diào)不同 的寬范圍的樂曲確保較高的檢測精度。
圖1是表示實施方式1的圖像聲音記錄裝置的系統(tǒng)框圖。
圖2是表示實施方式1的樂曲區(qū)間的檢測、記錄方法的流程圖。
圖3是表示實施方式1的第一樂曲候選檢測部的框圖。
圖4是表示實施方式1的第二樂曲候選檢測部的框圖。
圖5是表示實施方式1的校正處理的圖。
圖6是表示實施方式1的樂曲區(qū)間的檢測處理的圖。
圖7是實施方式1的圖像聲音記錄裝置的文件構(gòu)成圖。
圖8是實施方式1的元數(shù)據(jù)(metadata)結(jié)構(gòu)圖。
圖9是表示實施方式2的樂曲區(qū)間的檢測處理的圖。
圖10是表示實施方式3的圖像聲音記錄裝置的系統(tǒng)框圖。圖11是表示實施方式3的樂曲區(qū)間的檢測、記錄方法的流程圖。 圖12是表示實施方式3的CM播放區(qū)間的檢測處理的圖。 標(biāo)號說明
1、存儲介質(zhì) 2、寫入驅(qū)動器 3、圖像信號 4、聲音信號 5、 視頻編碼器 6、A/D轉(zhuǎn)換器 7、音頻編碼器 8、多路復(fù)用器 9、 寫入緩沖存儲器 10、第一樂曲候選檢測部 11、第二樂曲候選檢 測部 12、第一校正部 13、第二校正部 14、樂曲檢測部15、 元數(shù)據(jù)生成部16、記錄控制部20、正交變換處理部 21、似然比 較處理部 22、模型數(shù)據(jù)30、差分運(yùn)算處理部40、吋間經(jīng)過(橫軸) 41、差異量(縱軸)42、差異量 43、閾值 44、標(biāo)簽(label)軸 45、 標(biāo)簽 46a、 46b、 46c、樂曲候選區(qū)間 47、校正處理后的標(biāo)簽 48、 校正處理后的樂曲候選區(qū)間 50、校正處理后的標(biāo)簽51a、 51b、 51c、 校正處理后的樂曲候選區(qū)間52、校正處理后的標(biāo)簽 53a、 53b、 53c、 53d、校正處理后的樂曲候選區(qū)間 54、檢測處理后的標(biāo)簽 55a、 55b、 55c、 55d、樂曲區(qū)間 60、檢測處理后的標(biāo)簽 61a、 61b、 61c、 樂曲區(qū)間 70、CM檢測部 71、樂曲檢測部 80、檢測處理后的 標(biāo)簽 81a、81b、樂曲區(qū)間 82、CM標(biāo)簽 83a、CM播放區(qū)間 84、 CM校正處理后的標(biāo)簽 85a、 85b、樂曲區(qū)間 86、標(biāo)簽軸 卯、 根目錄 91、多媒體目錄 92、元數(shù)據(jù)目錄93、信息管理文件 94、多媒體數(shù)據(jù)文件 95、備份文件 96、元數(shù)據(jù)文件100、圖像 聲音記錄裝置130、元數(shù)據(jù)131a、元數(shù)據(jù)管理信息 131b、節(jié)目元 數(shù)據(jù)信息搜索指針 131c、節(jié)目元數(shù)據(jù)信息 132a、元數(shù)據(jù)一般信息 132b、樂曲地圖信息 133a、樂曲地圖一般信息 133b、樂曲入口 134a、樂曲開始時刻信息 134b、樂曲結(jié)束時刻信息 400、差異量 曲線 405、標(biāo)簽曲線 407、校正處理后的標(biāo)簽曲線 500、校正 處理后的標(biāo)簽曲線 502、校正處理后的標(biāo)簽曲線 504、檢測處 理后的標(biāo)簽曲線 600、檢測處理后的標(biāo)簽曲線 700、圖像聲音記 錄裝置。
具體實施方式
實施方式1
下面,用圖來說明本實施方式1的樂曲檢測方法及檢測裝置、以及 記錄方法及記錄裝置。本實施方式1的樂曲檢測方法的特征在于,根據(jù) 各個不同的多個基準(zhǔn),對聲音信號進(jìn)行樂曲候選區(qū)間檢測,且從該檢測 出的多個樂曲候選區(qū)間中檢測樂曲區(qū)間。
另外,在本說明書中,在記錄樂曲場景時,設(shè)以記錄開始為基點、 由成為樂曲場景的開始時刻的時間位置信息和成為樂曲場景的結(jié)束時刻 的時間位置信息所確定的區(qū)間為「樂曲區(qū)間」。
這里,說明對記錄在存儲介質(zhì)中的圖像聲音進(jìn)行再現(xiàn)控制的方法。 通常,在執(zhí)行上述這樣的再現(xiàn)控制時,廣泛使用以90kHz計數(shù)時間位置
信息的呈現(xiàn)時間(PTM, presentation time)。艮卩,是為了確定樂曲區(qū)間,將 開始時刻和結(jié)束時刻的PTM參照為時間位置信息的方法??墒?,除此之 外,還存在如下等方法,即,在以錄制時間軸上1秒鐘等的固定時間離 散化圖像聲音時,進(jìn)行將作為樂曲場景的區(qū)間設(shè)為High(l)、將作為非樂 曲場景的區(qū)間設(shè)為Low(O)等的二值化,并檢索為High的區(qū)間。在本說明 書中,將這些用于確定樂曲區(qū)間的開始點和結(jié)束點的信息稱為「樂曲信 息」。
圖1是表示本實施方式1的圖像聲音記錄裝置的系統(tǒng)框圖。并且, 圖2是表示本實施方式1的樂曲區(qū)間的檢測、記錄方法的流程圖。首先, 利用圖1及圖2來概述本實施方式1的圖像聲音記錄裝置。在圖像聲音 記錄裝置100中,輸入成為進(jìn)行記錄的對象的電視播放等的圖像信號3 和聲音信號4(ST1)。接著,圖像信號3在視頻編碼器5中按照MPEG-2 方式等進(jìn)行編碼壓縮,成為圖像數(shù)據(jù)。
另一方面,在聲音信號4是模擬信號時,利用模數(shù)轉(zhuǎn)換器(A/D轉(zhuǎn)換 器)6每隔固定時間對聲音波形進(jìn)行采樣,并通過數(shù)據(jù)化振幅的PCM(Pulse Code Modulation,脈沖編碼調(diào)制)方式等轉(zhuǎn)換成數(shù)字信號(ST2)。之后,在 音頻編碼器7中,根據(jù)杜比(Dolby) -AC-3方式等進(jìn)行編碼壓縮,成為 聲音數(shù)據(jù)。在多路復(fù)用器8中,對圖像數(shù)據(jù)和聲音數(shù)據(jù)進(jìn)行復(fù)用,生成多媒體 數(shù)據(jù)。之后,在由寫入緩沖存儲器9依次取入多媒體數(shù)據(jù)后發(fā)送至寫入
驅(qū)動器2,記錄在DVD-R、DVD-RW盤或者記錄型藍(lán)光光盤(Blu-ray Disc) 等可移動的存儲介質(zhì)1中(一系列的處理也稱為「錄制」)。圖像聲音記錄 裝置100及寫入驅(qū)動器2的動作通過由微處理器等構(gòu)成的記錄控制部16 統(tǒng)一管理控制。另外,存儲介質(zhì)1和寫入驅(qū)動器2也可置換成硬盤驅(qū)動 器(HDD)等非可移動的存儲介質(zhì)。
下面,說明作為本實施方式1的圖像聲音記錄裝置之特征構(gòu)成要素 的多個樂曲候選檢測部。在第一樂曲候選檢測部10中,分析從A/D轉(zhuǎn)換 器6輸出的PCM方式的數(shù)字信號,檢測樂曲候選區(qū)間(ST3、 4)。根據(jù)需 要,由第一校正部12對由第一樂曲候選檢測部10檢測出的樂曲候選區(qū) 間的撿測誤差進(jìn)行校正(ST6)。并且,即便是具有與第一樂曲候選檢測部 10不同的基準(zhǔn)的第二樂曲候選檢測部11,也與第一樂曲候選檢測部10 同樣地檢測樂曲候選區(qū)間(ST3、 5),根據(jù)需要由第二校正部13校正檢測 誤差(ST6)。
由第一樂曲候選檢測部10和第一校正部12檢測/校正后的樂曲候選 區(qū)間和由第二樂曲候選檢測部11和第二校正部13檢測/校正后的樂曲候 選區(qū)間在樂曲檢測部14中進(jìn)行合并或取舍選擇的判斷,來檢測樂曲區(qū)間 (ST7)。檢測出的樂曲區(qū)間由元數(shù)據(jù)生成部15生成為元數(shù)據(jù)文件,經(jīng)寫入 緩沖存儲器9記錄在存儲介質(zhì)1中(ST8)。另外,元數(shù)據(jù)生成部15具有保 持逐次算出確定的樂曲區(qū)間的樂曲信息的存儲功能。
另外,作為圖像聲音記錄裝置100的記錄部的概念,可以僅包含寫 入驅(qū)動器2,也可以包含多路復(fù)用器8、元數(shù)據(jù)生成部15、寫入緩沖存儲 器9、及記錄控制部16。
并且,這里記載了檢測樂曲候選區(qū)間的樂曲候選檢測部10、 11為2 個的情況,但也可以是具有更多的樂曲候選檢測部的結(jié)構(gòu)。并且,記載 了在校正部12、 13分別對樂曲候選檢測部10、 ll各自單獨(dú)進(jìn)行校正之 后,將校正后的樂曲候選區(qū)間輸出至樂曲檢測部14的結(jié)構(gòu),但也可為不 進(jìn)行單獨(dú)的校正,而由一個校正部進(jìn)行校正之后,將校正后的樂曲候選區(qū)間輸出至樂曲檢測部14的結(jié)構(gòu)。另外,也可為對由樂曲檢測部14檢 測出的樂曲區(qū)間進(jìn)行校正的結(jié)構(gòu)。
圖3是詳細(xì)記述了本實施方式1的第一樂曲候選檢測部10的功能框
圖。第一樂曲候選檢測部10由正交變換處理部20和似然比較處理部21、 及作為參照用數(shù)據(jù)表的模型數(shù)據(jù)22構(gòu)成。如圖所示,由A/D轉(zhuǎn)換器6轉(zhuǎn) 換后的數(shù)字信號的正交變換系數(shù)由正交變換處理部20算出,且在似然比 較處理部21參照模型數(shù)據(jù)22分配標(biāo)簽之后,輸出至第一校正部12。
并且,描述第一樂曲候選檢測部IO執(zhí)行的樂曲候選區(qū)間檢測的具體 情況。在聲音信號4是立體聲信號時,A/D轉(zhuǎn)換器6分別得到右聲道和 左聲道的PCM數(shù)據(jù)。該立體聲信號如果是民用錄音機(jī)設(shè)備,則使用釆樣 頻率為48kHz、量化位數(shù)為16位等的品質(zhì)。
接著,在正交變換處理部20中,將時域的PCM數(shù)據(jù)正交變換為頻 域(ST3)。在正交變換中,對使用在時間上50。/。重復(fù)PCM數(shù)據(jù)的MDCT(變 形離散余弦轉(zhuǎn)換)的示例進(jìn)行描述。由于進(jìn)行50%重疊,所以若釆樣512 個PCM數(shù)據(jù),則就右聲道和左聲道各自而言,分別得到256個正交變換 系數(shù)(MDCT系數(shù))。根據(jù)關(guān)于立體聲信號的一方聲道(例如左聲道)、或者 單聲道信號的1個聲道的正交變換系數(shù),可以得到256維的系數(shù)矢量。 系數(shù)矢量以減少計算量為目的,可通過投影轉(zhuǎn)換來實現(xiàn)維數(shù)的降低。
另外,在對所輸入的聲音信號進(jìn)行分析之前,預(yù)先收集在主觀評價 中被明顯判斷為樂曲場景的聲音的系數(shù)矢量作為訓(xùn)練數(shù)據(jù),使用混合高 斯分布模型(GMM法),對系數(shù)矢量的分布傾向進(jìn)行模型化。將根據(jù)樂曲 場景生成的模型稱為「音樂種類模型」。之外,關(guān)于明顯的觀眾的歡聲或 聲援、鼓掌、笑聲、演出者的談話節(jié)目等非樂曲場景,也同樣地收集訓(xùn) 練數(shù)據(jù)生成混合高斯分布模型,準(zhǔn)備多個聲音種類模型。
模型數(shù)據(jù)22成為這些聲音種類模型可參照的數(shù)據(jù)表。在似然比較處 理部21中,參照模型數(shù)據(jù)22,將正在進(jìn)行記錄的聲音信號的正交變換系 數(shù)矢量作為矢量空間,搜索似然最高的聲音種類,將該聲音的種類作為 該區(qū)間的標(biāo)簽來分配(ST4)。
艮口,當(dāng)存在與音樂種類模型的頻率特性的似然高的聲音輸入時,可對其分配表示樂曲的標(biāo)簽,檢測為該區(qū)間是樂曲場景。另外,如果是參 照預(yù)先準(zhǔn)備的模型來確定輸入信號的聲音種類的方法,則也可以不是基
于混合高斯分布模型的似然比較,使用隱馬爾科夫法(HMM (Hidden Markov Model)法)等統(tǒng)計方法也無妨。
根據(jù)基于混合高斯分布模型的似然比較來分配表示樂曲的標(biāo)簽的方 法的優(yōu)點在于,可以不受立體聲播放或單聲道播放等的聲道數(shù)的影響高 準(zhǔn)確度地僅檢測出樂曲場景。另一方面,缺點在于檢測樂曲場景和非樂 曲場景的交界的精度稍含糊。并且,利用訓(xùn)練數(shù)據(jù)的收集方法,存在產(chǎn) 生搖滾、民間流行歌曲或古典音樂等因曲調(diào)或樂器構(gòu)成而引起的擅長、 不擅長的情況。
下面,說明第二樂曲候選檢測部ll。圖4是詳細(xì)記述了本實施方式 1的第二樂曲候選檢測部11的功能框圖。第二樂曲候選檢測部11由正交 變換處理部20和差分運(yùn)算處理部30構(gòu)成。如圖所示,由A/D轉(zhuǎn)換器6 轉(zhuǎn)換后的數(shù)字信號的正交變換系數(shù)通過正交變換處理部20算出,且在由 差分運(yùn)算處理部30算出正交變換系數(shù)的差異量之后,輸出至第二校正部 13。
并且,描述第二樂曲候選檢測部11執(zhí)行的樂曲候選區(qū)間檢測的具體 內(nèi)容。從聲音信號4經(jīng)正交變換處理部20得到256個正交變換系數(shù) (MDCT系數(shù))為止的過程(ST3)與第一檢測部10中所述內(nèi)容相同,在此省 略。
設(shè)正交變換系數(shù)為(lx256)矩陣,若設(shè)第n行的右聲道的正交變換系
數(shù)為Mr(n),左聲道的正交變換系數(shù)為Ml(n),則在差分運(yùn)算處理部30中
算出兩聲道的正交變換系數(shù)矩陣的差,利用下式得到作為系數(shù)平方和的 蘭Q縣
D = Z(M,(")-Mr("))2 (式l)
通過繼續(xù)執(zhí)行該處理,可把握進(jìn)行記錄的節(jié)目的差異量D的變化
(ST5)。另外,差異量D設(shè)為基于正交系數(shù)矩陣的差的系數(shù)平方和,但只 要是對右聲道和左聲道之間的差異進(jìn)行數(shù)值化的方法,使用其他算式也無妨。
這里,差異量表示右聲道與左聲道的差異,也表達(dá)為聲音的寬闊感、 立體聲感等。通常,可知在樂曲場景中聲音的寬闊感強(qiáng),而在基于演出 者的談話場景等非樂曲場景中聲音的寬闊感弱。即,可檢測為差異量超 過規(guī)定值(閾值)的區(qū)間是樂曲場景。
通常,由于在樂曲場景和非樂曲場景的交界處差異量變動大,所以 檢測左右聲道的正交系數(shù)矩陣的差異量的方法的優(yōu)點在于,可以高精度 地檢測樂曲區(qū)間的開始時刻及結(jié)束時刻。另一方面,其缺點在于,在音 樂會或?qū)崨r會場等聲音的寬闊感始終較高的節(jié)目中,即便非樂曲場景也 檢測出高的差異量,或者在單聲道播放中差異量無法檢測等。并且,存 在產(chǎn)生搖滾、民間流行歌曲或古典音樂等因曲調(diào)或樂器構(gòu)成等而引起的 擅長、不擅長的情況。
圖5是表示本實施方式1的校正處理(在圖2中,相當(dāng)于ST6的「濾 波器」)的過程的圖。在該圖中,(l)是標(biāo)繪了由第二樂曲候選檢測部11 算出的差異量42的曲線圖400,橫軸是所記錄的節(jié)目的時間經(jīng)過40,縱 軸41是差異量。
在第二校正部13中,以規(guī)定的閾值43對差異量42進(jìn)行二值化,對 超過閾值43的區(qū)間附以表示樂曲的標(biāo)簽,低于閾值43的區(qū)間附以表示 非樂曲的標(biāo)簽。在該圖中,(2)是標(biāo)繪了二值化的標(biāo)簽45的曲線圖402, 利用標(biāo)簽軸44將添加了表示樂曲的標(biāo)簽的區(qū)間表示為High,將添加了表 示非樂曲場景的標(biāo)簽的區(qū)間表示為Low。并且,該圖(3)是標(biāo)繪了通過對 標(biāo)簽45進(jìn)行校正處理而得到的校正后的標(biāo)簽47的曲線圖407。
這里,用圖5說明第二校正部13對由第二樂曲候選檢測部11算出 的差異量進(jìn)行的校正處理的具體情況。若以閾值43對作為一例的差異量 42進(jìn)行二值化,則如標(biāo)簽45那樣,檢測出3個樂曲候選區(qū)間46a、 46b、 46c。
而且,接著,根據(jù)需要對通過二值化得到的標(biāo)簽45進(jìn)行如下3條校 正處理。
(a)如果樂曲候選區(qū)間為規(guī)定時間Tl(例如5秒)以下,則添加標(biāo)簽為樂曲的區(qū)間將標(biāo)簽變更為非樂曲(Low)。
(b) 如果連續(xù)的樂曲候選區(qū)間的間隔在規(guī)定時間T2(例如5秒)以內(nèi), 則添加標(biāo)簽為非樂曲的間隔將標(biāo)簽變更為樂曲(High)。
(c) 在進(jìn)行上述(a)、 (b)的標(biāo)簽變更之后,設(shè)添加標(biāo)簽為樂曲的區(qū)間超 過規(guī)定時間T3(例如60秒)的區(qū)間為校正后的樂曲候選區(qū)間。另外,(a) 和(b)的任一方亦可。
使用圖5(2)進(jìn)行說明,由于間隔A不滿足規(guī)定時間T,所以樂曲候 選區(qū)間46c通過校正處理(a)變?yōu)榉菢非鷧^(qū)間,樂曲候選區(qū)間46a和46b 之間的間隔B由于比規(guī)定時間T2短,所以通過校正處理(b)變?yōu)橐粋€樂 曲候選區(qū)間。其結(jié)果,由于得到的樂曲候選區(qū)間的間隔C超過規(guī)定時間 T3,所以通過該校正處理得到樂曲區(qū)間48。
并且,同樣地用圖5來說明第一校正部12對由第一樂曲候選檢測部 IO算出的標(biāo)簽執(zhí)行的校正處理。在第一樂曲候選檢測部10中,由于本來 既以二值算出表示樂曲的標(biāo)簽和表示非樂曲的標(biāo)簽,所以原樣成為圖5(2) 的標(biāo)簽45的標(biāo)繪圖。對于作為一例示出的標(biāo)簽45,由于檢測出3個樂曲 候選區(qū)間46a、 46b、 46c,所以與第二校正部13相同,根據(jù)需要實施校 正處理(a)、 (b)、 (c),得到樂曲候選區(qū)間48。
這樣,通過在各個校正部中實施校正處理,可校正以下區(qū)間等艮P, 演出者的談話節(jié)目中的效果音等非樂曲場景中被瞬間誤檢測為樂曲場景 的區(qū)間,或者盡管是作為正在進(jìn)行演奏中演出的全休止等樂曲場景,但 也被部分誤檢測為非樂曲場景的區(qū)間等。并且,通常通過設(shè)超過規(guī)定時 間檢測出樂曲的區(qū)間為樂曲候選區(qū)間,還可去除談話節(jié)目中短時間的背 景音樂(BGM)或用于宣傳的樂曲的精練部分的推銷新曲用錄像介紹、 或者節(jié)目的序幕或結(jié)束曲等不適于處理為樂曲場景的場景,其中,該規(guī) 定時間相當(dāng)于樂曲的一個合唱曲的60秒等。
下面,說明圖1的樂曲檢測部14中的處理(ST7)。圖6是表示本實 施方式1的樂曲檢測部14執(zhí)行的樂曲區(qū)間檢測處理的過程的圖。在該圖 中,(l)是標(biāo)繪了由第一校正部12對由第一樂曲候選檢測部IO算出的標(biāo) 簽實施校正處理得到的標(biāo)簽50的曲線圖500。并且,同樣地,該圖(2)是標(biāo)繪了由第二校正部13對由第二樂曲候選檢測部11算出的差異量實施
校正處理得到的標(biāo)簽52的曲線圖502。該圖(3)是標(biāo)繪了根據(jù)標(biāo)簽50和 標(biāo)簽51進(jìn)行檢測處理后的標(biāo)簽54的曲線圖504。曲線圖500、 502、 504 都在標(biāo)簽軸44上將添加了表示樂曲的標(biāo)簽的區(qū)間表示為High,將添加了 表示非樂曲場景的標(biāo)簽的區(qū)間表示為Low。
并且,用圖6說明樂曲檢測部14的樂曲區(qū)間的檢測處理。作為一例, 如圖所示,設(shè)為檢測出示于標(biāo)簽50中的樂曲候選區(qū)間51a、 51b、 51c和 示于標(biāo)簽52中的樂曲候選區(qū)間53a、 53b、 53c、 53d。在本實施方式1的 樂曲檢測部14中,利用邏輯"或"(邏輯和)處理雙方的樂曲候選區(qū)間,檢 測樂曲區(qū)間。下面,使用圖6具體地進(jìn)行說明。
在根據(jù)一部分時刻被重復(fù)檢測的樂曲候選區(qū)間51a和53a檢測樂曲 區(qū)間時,如果開始時刻Al和Bl相同,則檢測后的樂曲區(qū)間55a的開始 時刻確定為Cl。接著,由于結(jié)束時刻A2比B2長(樂曲區(qū)間的時間延長 的方向)。所以檢測后的樂曲區(qū)間55a的結(jié)束時刻采用A2的時刻,而成 為C2。
同樣地,在根據(jù)樂曲候選區(qū)間51b和53b檢測樂曲區(qū)間時,由于在 開始時刻A3和B3中B3 —方長,所以檢測后的樂曲區(qū)間55b的開始時 刻采用B3的時刻,而成為C3。由于在結(jié)束時刻A4和B4中B4 —方長, 所以檢測后的樂曲區(qū)間55b的結(jié)束時刻釆用B4的時刻,而成為C4。
并且,關(guān)于樂曲候選區(qū)間53c,由于不存在時刻重復(fù)的另外一方的樂 曲候選區(qū)間,所以開始時刻B5和結(jié)束時刻B6被原樣釆用為檢測后的樂 曲區(qū)間55c的開始時刻C5和結(jié)束時刻C6。
最后,在根據(jù)樂曲候選區(qū)間51c和53d檢測樂曲區(qū)間時,由于在開 始時刻A5和B7中A5 —方長,所以檢測后的樂曲區(qū)間55d的開始時刻 采用A5的時刻,而成為C7。由于在結(jié)束時刻A6和B8中A6—方長, 所以檢測后的樂曲區(qū)間55b的結(jié)束時刻釆用A6的時刻,而成為C8。由 此確定檢測后的樂曲區(qū)間55a、 55b、 55c、 55d。
這樣,通過利用樂曲候選區(qū)間的邏輯"或"來判定樂曲區(qū)間的檢測, 將由多個樂曲檢測單元以各個不同的基準(zhǔn)檢測出的樂曲候選區(qū)間全部確定為樂曲區(qū)間。由此,可以對應(yīng)于所采用的樂曲檢測單元,檢測較寬范 圍種類的樂曲。并且,由于在基于邏輯"或"的檢測中對樂曲區(qū)間進(jìn)行相 加,所以即便在基于多個樂曲檢測單元的樂曲候選區(qū)間中包含誤檢測出 的非樂曲場景,也不會將在判定處理過程中用其他的樂曲檢測單元檢測 出的樂曲場景作為妨害而刪除。
并且,如上所述,第一樂曲候選檢測單元10具有如下的檢測特性 即,可以高準(zhǔn)確度地檢測樂曲場景、即樂曲區(qū)間的中間部分,但檢測樂 曲場景和非樂曲場景之間的交界的精度稍含糊。另外,第二樂曲候選檢 測部11具有可以高精度地檢測樂曲區(qū)間的開始時刻及結(jié)束時刻的檢測特 性。在本實施方式1的樂曲檢測方法中,通過如上述那樣使檢測特性彼 此不同的檢測方法互相組合,而成為更高精度的方法。目卩,由于第一樂 曲候選檢測單元10的檢測特性和第二樂曲候選檢測部11的檢測特性為 互相補(bǔ)充彼此的檢測特性的關(guān)系,所以使樂曲檢測的精度更高。
下面,用圖7、 8說明由元數(shù)據(jù)生成部15將檢測出的樂曲區(qū)間的樂 曲信息生成為元數(shù)據(jù)文件的方法。圖7是本實施方式1的圖像聲音記錄
裝置的文件構(gòu)成圖。即,圖7表示存儲介質(zhì)1的邏輯文件結(jié)構(gòu),在邏輯 上構(gòu)成分層結(jié)構(gòu)的目錄結(jié)構(gòu)的最上位層配置根目錄90,在該根目錄卯的 下位層配置多媒體目錄91及元數(shù)據(jù)目錄92。
在多媒體目錄91中配置記述了包含記錄在存儲介質(zhì)l中的節(jié)目管 理序號在內(nèi)的管理信息的信息管理文件93、編碼壓縮節(jié)目的圖像信號或 聲音信號并復(fù)用的多媒體數(shù)據(jù)文件94、及信息管理文件93等的備份文件 95。
另一方面,在元數(shù)據(jù)目錄92中,將記錄節(jié)目、生成多媒體數(shù)據(jù)文件 94時檢測出的樂曲區(qū)間的樂曲信息記述、配置在由獨(dú)立的邏輯文件構(gòu)成 的元數(shù)據(jù)文件96中。
另外,在圖7中,示出將多媒體數(shù)據(jù)文件94和元數(shù)據(jù)文件96配置 在不同目錄中的示例。可是,也可配置在同一目錄內(nèi),或?qū)⒃獢?shù)據(jù)目錄 96直接配置在根目錄90中。并且,多媒體數(shù)據(jù)文件94或者元數(shù)據(jù)文件 96也可對應(yīng)于所記錄的節(jié)目數(shù)而分割,或根據(jù)文件容量的限制等分割成多個。并且,本實施方式l中的元數(shù)據(jù)文件96不限其數(shù)據(jù)形式,可以是文 本形式,也可是二進(jìn)制形式。并且,為了阻止篡改記述在元數(shù)據(jù)文件96 中的數(shù)據(jù)或信息的流出,也可實施加密處理。并且,管理信息文件93中也可預(yù)先記述是否存在對應(yīng)于所期望節(jié)目 的元數(shù)據(jù)文件96,或者在元數(shù)據(jù)文件96中是否存在有效的值等信息。若 將該信息記錄在管理信息文件93中,則在再現(xiàn)節(jié)目時,.可通過參照相應(yīng)信息盡快地判斷樂曲信息的存在或有效性。這樣,設(shè)元數(shù)據(jù)文件96為不與多媒體數(shù)據(jù)文件94重疊、復(fù)用的獨(dú) 立的邏輯文件。由此,在再現(xiàn)節(jié)目時,可通過讀出文件容量較小的元數(shù) 據(jù)文件96來盡快取得樂曲信息,而不掃描文件容量大的多媒體數(shù)據(jù)文件 94。另外,元數(shù)據(jù)文件96也可與多媒體數(shù)據(jù)文件94重疊。這時,可減 少文件數(shù),由于是與多媒體數(shù)據(jù)相同的文件,所以在將伴隨樂曲信息的 多媒體數(shù)據(jù)記錄在可移動的記錄介質(zhì)中,用其他設(shè)備進(jìn)行編輯或復(fù)制等 文件操作時,可抑制元數(shù)據(jù)丟失。圖8是作為分層結(jié)構(gòu)的本實施方式1的元數(shù)據(jù)結(jié)構(gòu)圖。在圖中,(A) 是數(shù)據(jù)結(jié)構(gòu)最上位層的元數(shù)據(jù)130。下面,用圖8(B)說明元數(shù)據(jù)130的數(shù)據(jù)結(jié)構(gòu)。將元數(shù)據(jù)整體信息總 括記述在元數(shù)據(jù)管理信息131a中。在該層中配置與具有樂曲信息的節(jié) 目數(shù)(l n個)對應(yīng)的節(jié)目元數(shù)據(jù)信息131c;和作為分別訪問節(jié)目元數(shù)據(jù) 信息131c用的地址信息的節(jié)目元數(shù)據(jù)信息搜索指針131b。這里,當(dāng)在存儲介質(zhì)l中不存在具有樂曲信息的節(jié)目時,也可不生 成元數(shù)據(jù)文件96,或者,在元數(shù)據(jù)管理信息131a中也可準(zhǔn)備將節(jié)目元數(shù) 據(jù)信息131c記述為0個的元數(shù)據(jù)文件96。下面,用圖8(C)說明節(jié)目元數(shù)據(jù)信息131c的數(shù)據(jù)結(jié)構(gòu)。在該層中配 置元數(shù)據(jù)常規(guī)信息132a和樂曲地圖信息132b。在元數(shù)據(jù)常規(guī)信息132a 中,除了用于訪問樂曲地圖信息132b的地址信息等之外,還記述節(jié)目元 數(shù)據(jù)信息131c應(yīng)對應(yīng)的節(jié)目的管理序號。這是在記錄了音樂節(jié)目以外的節(jié)目時等,由于存在根據(jù)節(jié)目的不同而不生成樂曲信息的情況,所以在 由信息管理文件93管理的節(jié)目的管理序號和節(jié)目元數(shù)據(jù)信息131c的序 號不一致時,用于使節(jié)目和元數(shù)據(jù)相關(guān)聯(lián)的表。下面,用圖8(D)說明樂曲地圖信息132b的數(shù)據(jù)結(jié)構(gòu)。在該層中配置 樂曲地圖常規(guī)信息133a、和與檢測出的樂曲數(shù)(l m個)對應(yīng)的樂曲入口 133b。在樂曲地圖常規(guī)信息133a中,記述用于分別訪問樂曲入口 133b 的地址信息。最后,用圖8(E)說明樂曲入口 133b的數(shù)據(jù)結(jié)構(gòu)。在該層中配置檢測 出的樂曲區(qū)間的樂曲開始時刻信息134a、和樂曲結(jié)束時刻信息134b。在 時刻信息中使用呈現(xiàn)時間(PTM)等。如上所述,在本實施方式1中,記述了在元數(shù)據(jù)中記述樂曲區(qū)間的 開始時刻和結(jié)束時刻的方法的示例,但只要是可根據(jù)記錄的節(jié)目確定樂 曲信息的數(shù)據(jù)結(jié)構(gòu)即可。例如,即便是將以1秒鐘等固定時間對節(jié)目進(jìn) 行離散化時作為樂曲場景的區(qū)間設(shè)為High(l)、將作為非樂曲場景的區(qū)間 設(shè)為Low(O)等二值化后的結(jié)果列舉為樂曲地圖信息的數(shù)據(jù)結(jié)構(gòu),可也實 現(xiàn)同等的功能。由此,在再現(xiàn)記錄于存儲介質(zhì)l中的節(jié)目時,可從元數(shù)據(jù)文件96中 讀出元數(shù)據(jù)130,可把握存在于節(jié)目中的樂曲的樂曲信息。因此,可通過 進(jìn)行基于樂曲信息的再現(xiàn)控制,僅連續(xù)再現(xiàn)樂曲區(qū)間、或利用手動跳讀 至樂曲區(qū)間的開始點或結(jié)束點的功能等有效地視聽樂曲場景。艮P,以前為了跳過非樂曲場景或CM播放(在實施方式3中說明CM 播放),必需手動操作執(zhí)行快進(jìn)或快退再現(xiàn),檢索樂曲場景的開頭或結(jié)尾 等的邊界。并且,在想從長時間記錄于記錄介質(zhì)中的節(jié)目中視聽樂曲場景時、 或想視聽非樂曲場景時等,視聽者必須邊看快進(jìn)(正向掃描)或快退(逆向 掃描)圖像邊搜索所期望的場景、或通過15秒等固定時間的跳讀,重復(fù)操 作直至出現(xiàn)所期望的場景。因此,如果未預(yù)先正確地把握樂曲場景的部 位,不錯過樂曲場景的始點或終所以需要從節(jié)目開頭開始檢索樂曲場景耗費(fèi)時間??墒牵谠佻F(xiàn)利用本實施方式1記錄的節(jié)目時,無需進(jìn)行上述那樣 的操作。即,由于在再現(xiàn)時,即便初次觀看的節(jié)目也可預(yù)先把握樂曲區(qū) 間,所以可進(jìn)行僅樂曲區(qū)間的連續(xù)再現(xiàn)、或手動跳讀至樂曲區(qū)間的始點 或終點等再現(xiàn)控制。另外,在本實施方式l中,作為圖像信號3和聲音信號4,以電視 播放為例進(jìn)行了說明,但例如也可是其它使用圖像再現(xiàn)裝置、從外部輸 入端子供給的圖像聲音信號?;蛘?,也可讀出記錄在可移動的存儲介質(zhì)1 或內(nèi)置于圖像記錄再現(xiàn)裝置中的硬盤驅(qū)動器(未圖示)等中的圖像聲音數(shù) 據(jù),對編碼壓縮后的聲音數(shù)據(jù)進(jìn)行解碼(解密)處理,得到PCM信號,檢 測樂曲信息。若是該方法,則由于記錄時無需實時進(jìn)行樂曲區(qū)間的檢測 處理,所以即便是記錄控制部的處理能力低的情況,也可在記錄后花費(fèi) 時間進(jìn)行檢測。并且,也可從已記錄在存儲介質(zhì)中的節(jié)目中得到樂曲信 息。實施方式2在本實施方式2中,作為樂曲檢測部14執(zhí)行的樂曲區(qū)間的檢測處理, 說明與實施方式l.中說明的方法不同的檢測方法。圖6是表示本實施方 式2的樂曲檢測部14執(zhí)行的樂曲區(qū)間檢測處理的過程的圖。在該圖中, (1)、 (2)與實施方式1的圖6中示出內(nèi)容的相同,該圖(3)是標(biāo)繪了利用與 實施方式1不同的檢測方法檢測出的標(biāo)簽60的曲線圖600。用圖9說明與實施方式1不同的樂曲檢測部14的樂曲區(qū)間檢測處 理。本實施方式2的特征在于,以標(biāo)簽50或標(biāo)簽52中的任一方為基點 來檢測樂曲區(qū)間這一點。作為一例,如圖所示,設(shè)為檢測標(biāo)簽50所示的樂曲候選區(qū)間51a、 51b、 51c和標(biāo)簽52所示的樂曲候選區(qū)間53a、 53b、 53c、 53d。這里,說 明以標(biāo)簽50為基點的情況。首先,若在樂曲候選區(qū)間51a的開始時刻Al附近檢索標(biāo)簽52的樂 曲候選區(qū)間的開始時刻,則找到B1。如果開始時刻A1與B1相同,則檢 測后的樂曲區(qū)間61a的開始時刻確定為Pl。接著,由于當(dāng)在樂曲候選區(qū)間51a的結(jié)束時刻A2附近檢索標(biāo)簽52的樂曲候選區(qū)間的結(jié)束時刻時找 到B2,所以檢測后的樂曲區(qū)間61a的結(jié)束時刻釆用B2的時刻,而成為 P2。并且,由于當(dāng)在樂曲候選區(qū)間51b的開始時刻A3附近檢索標(biāo)簽52 的樂曲候選區(qū)間的開始時刻時找到B3,所以檢測后的樂曲區(qū)間61b的 開始時刻采用B3,而成為P3。同樣地,關(guān)于結(jié)束時刻A4,由于找到結(jié) 束時刻B4,所以檢測后的樂曲區(qū)間61b的結(jié)束點采用B4,而成為P4。另外,這時,設(shè)以A3為基點檢索標(biāo)簽52的樂曲候選區(qū)間的開始時 刻的范圍為A2至A4的時刻,以A4為基點檢索標(biāo)簽52的樂曲候選區(qū)間 的結(jié)束時刻的范圍為A3至A5。這時,假如在不存在標(biāo)簽52的樂曲候選 區(qū)間的情況下,標(biāo)簽50的樂曲候選區(qū)間為檢測后的樂曲區(qū)間。下面同樣,關(guān)于樂曲區(qū)間61c,開始時刻P5和結(jié)束時刻P6通過檢 測處理來確定。另外,關(guān)于標(biāo)簽52的樂曲候選區(qū)間53c,由于不存在作 為基點的標(biāo)簽50的樂曲候選區(qū)間,所以通過檢測處理進(jìn)行刪除。這樣,在本實施方式2中,以通過第一樂曲候選檢測單元10檢測出 的樂曲候選區(qū)間為基準(zhǔn),該第一樂曲候選檢測單元10具有以下特性即 雖然可以高準(zhǔn)確度地檢測樂曲場景、即樂曲區(qū)間的中間部分,但檢測樂 曲場景和非樂曲場景的交界的精度稍含糊。而且,檢測有無通過第二樂 曲候選檢測單元11檢測出的樂曲候選區(qū)間,該第二樂曲候選檢測單元11 具有可以高精度地檢測樂曲區(qū)間的開始時刻或結(jié)束時刻之外,還會檢測 非樂曲場景的檢測特性。艮P,在檢測時,考慮兩者的檢測特性,對于樂曲區(qū)間的開始時刻及 結(jié)束時刻,進(jìn)行優(yōu)先采用由第二樂曲候選檢測單元11檢測出的樂曲候選 區(qū)間的開始時刻和結(jié)束時刻的檢測處理。由此,在可降低非樂曲場景的 誤檢測的同時,可以高精度地檢測樂曲區(qū)間的開始時刻和結(jié)束時刻。艮P,可通過考慮在兩者為互相補(bǔ)充的關(guān)系的檢測特性,以作為樂曲 區(qū)間的中間部分的樂曲場景為基準(zhǔn),檢測樂曲區(qū)間的開始時刻和結(jié)束時 刻,高精度地檢測樂曲區(qū)間。實施方式3本實施方式3的特征在于檢測CM播放區(qū)間。圖10是表示本實施方式3的圖像聲音記錄裝置的系統(tǒng)框圖。并且,圖11是表示本實施方式3 的樂曲區(qū)間的檢測、記錄方法的流程圖。在圖像聲音記錄裝置700中具 備CM檢測部70(ST9),該CM檢測部70根據(jù)作為進(jìn)行記錄的對象的電 視播放等圖像信號3和聲音信號4的特征,檢測CM播放區(qū)間。由CM 檢測部70檢測出的CM播放區(qū)間的開始時刻和結(jié)束時刻輸出至樂曲檢測 部71。關(guān)于其它構(gòu)成要素,與實施方式1中示出的相同,這里省略說明。下面,用圖IO、圖11說明CM檢測部70的動作。首先,視頻編碼 器5監(jiān)視在以MPEG-2方式對圖像信號3進(jìn)行編碼壓縮后的圖像數(shù)據(jù)中 的I圖片等圖像幀的亮度信號或色差分量(YUV格式)等的變化量。而且, CM檢測部70具有在該變化量為規(guī)定閾值以上時判定為產(chǎn)生了場景更換 的功能。并且,CM檢測部70還具有將A/D轉(zhuǎn)換器6中將聲音信號4轉(zhuǎn) 換為PCM方式后的聲音數(shù)據(jù)中的聲音波形的振幅為規(guī)定閾值以下的情況 判定為無聲的功能。另外,在電視播放中,設(shè)去除CM播放區(qū)間后的節(jié)目正篇的區(qū)間為 「主篇播放區(qū)間」。通常在CM播放區(qū)間和主篇播放區(qū)間的交界、或多個 連續(xù)的CM播放區(qū)間和CM播放區(qū)間的交界,在同一時刻存在無聲和鏡 頭更換。并且,1個CM播放規(guī)定為15秒、30秒等時間。著眼于這些現(xiàn) 象,在同步檢測到場景更換和無聲的部位以規(guī)定間隔連續(xù)時,CM檢測部 70判斷為該區(qū)間是CM播放區(qū)間。CM檢測部70算出表示CM播放多個 連續(xù)的區(qū)間的開始時刻和結(jié)束時刻的時間信息的呈現(xiàn)時間(PTM),輸出至 樂曲檢測部71。另外,CM播放的檢測手段只要是可檢測CM播放區(qū)間的開始時刻 和結(jié)束時刻的方法,則不限于何種手法。例如,聲音信號4的聲音方式 也可檢測從主篇播放時較多的單聲道信號變化至CM播放時較多的立體 聲信號的部位。并且,也可以是在圖像信號3中檢測在主篇播放區(qū)間和 CM播放區(qū)間的交界出現(xiàn)的黑畫面(黑幀)的方法。并且,也可僅根據(jù)聲音 信號或僅根據(jù)圖像信號檢測CM播放區(qū)間。圖12是表示本實施方式3的樂曲檢測部71執(zhí)行的檢測處理(在圖11中相當(dāng)于ST9的「CM檢測」)的過程的圖。在該圖中(l)是標(biāo)繪了作為檢 測出的樂曲區(qū)間的標(biāo)簽80的曲線圖800。關(guān)于樂曲區(qū)間的檢測處理方法, 使用在實施方式1及2中說明的方法。并且,該圖(2)是標(biāo)繪了表示由CM 檢測部檢測出的CM播放區(qū)間的CM標(biāo)簽82的曲線圖802。圖中,用標(biāo) 簽軸86將檢測為CM播放區(qū)間的區(qū)間表示為High,其以外的區(qū)間表示為 Low。而且,該圖(3)是標(biāo)繪了對檢測處理后的標(biāo)簽80和CM標(biāo)簽82進(jìn)行 再次檢測得到的CM校正后的標(biāo)簽84的曲線圖804。曲線圖800、 804 都用標(biāo)簽軸44將添加表示樂曲區(qū)間的標(biāo)簽的區(qū)間表示為High,添加表示 非樂曲場景的標(biāo)簽的區(qū)間表示為Low。下面,用圖12說明樂曲檢測部71的CM播放的檢測處理。作為一 例,在存在根據(jù)基于第一樂曲檢測單元和第二樂曲檢測單元的樂曲候選 區(qū)間得到的標(biāo)簽80示出的樂曲區(qū)間81a、 81b和由CM檢測部70檢測出 CM播放的CM播放區(qū)間83a時,進(jìn)行將樂曲區(qū)間81a、 81b中與CM播 放區(qū)間83a重復(fù)的區(qū)間設(shè)為非樂曲場景的校正處理。下面,用圖12具體地進(jìn)行說明。樂曲區(qū)間85a的開始時刻Dl雖不 與CM播放重復(fù),但結(jié)束時刻D2與CM播放區(qū)間83a重復(fù)。因此,CM 校正處理后的樂曲區(qū)間85a的開始時刻采用Dl的時刻,而成為F1,結(jié) 束時刻采用CM播放區(qū)間83a的開始時刻El,而成為F2。同樣地,樂曲區(qū)間81b的結(jié)束時刻D4雖不與CM播放重復(fù),但開 始時刻D3與CM播放區(qū)間83a重復(fù)。因此,CM校正處理后的樂曲區(qū)間 85b的開始時刻采用CM播放區(qū)間83a的結(jié)束時刻E2,而成為F3,結(jié)束 時刻采用D4的時刻,而成為F4。這里雖未圖示,但在檢測處理后的樂 曲區(qū)間完全與CM播放區(qū)間重復(fù)時,通過CM校正處理刪除該樂曲區(qū)間。這樣,由于從樂曲區(qū)間中去除檢測出CM播放的區(qū)間,所以具有不 將多用樂曲作為BGM(背景音樂)或效果音的CM播放與本來想作為音樂 節(jié)目進(jìn)行視聽的樂曲混同、誤檢測的效果。另外,在本實施方式3中,說明了樂曲區(qū)間檢測后去除CM播放區(qū) 間的方法,但也可在樂曲候選區(qū)間確定后,從各樂曲候選區(qū)間中去除CM播放區(qū)間,之后檢測樂曲區(qū)間。并且,也可在檢測樂曲候選區(qū)間之前去 除CM播放區(qū)間。另外,在上述實施方式1 3中,設(shè)樂曲候選檢測單元和校正部件為 不同的單元,但也可設(shè)為具有該二個單元的功能的一個樂曲檢測單元。并且,在上述實施方式1 3中,設(shè)為對包含了樂曲區(qū)間的多媒體數(shù) 據(jù)進(jìn)行記錄,但也可僅記錄檢測出的樂曲區(qū)間的多媒體數(shù)據(jù)。
權(quán)利要求
1、一種樂曲區(qū)間檢測方法,其具備以下步驟數(shù)據(jù)輸入步驟,輸入包含聲音信號和圖像信號的數(shù)據(jù);多個樂曲候選區(qū)間檢測步驟,根據(jù)各個不同的基準(zhǔn),從所述聲音信號中檢測所述輸入數(shù)據(jù)的樂曲候選區(qū)間;以及樂曲區(qū)間檢測步驟,根據(jù)所述檢測出的多個樂曲候選區(qū)間,來檢測樂曲區(qū)間。
2、 根據(jù)權(quán)利要求l所述的樂曲區(qū)間檢測方法,其特征在于, 包含于所述多個基準(zhǔn)中的一個基準(zhǔn)的檢測特性設(shè)定為補(bǔ)充所述一個以外的其他基準(zhǔn)的檢測特性。
3、 根據(jù)權(quán)利要求l所述的樂曲區(qū)間檢測方法,其特征在于, 所述基準(zhǔn)之一設(shè)定為檢測所述樂曲候選區(qū)間和所述樂曲候選區(qū)間以外的區(qū)間之間的交界。
4、 根據(jù)權(quán)利要求l所述的樂曲區(qū)間檢測方法,其特征在于, 所述基準(zhǔn)之一設(shè)定為檢測所述樂曲候選區(qū)間的中間部分。
5、 根據(jù)權(quán)利要求l所述的樂曲區(qū)間檢測方法,其特征在于, 所述樂曲候選區(qū)間檢測步驟具備對所述檢測出的樂曲候選區(qū)間進(jìn)行校正的校正步驟。
6、 根據(jù)權(quán)利要求l所述的樂曲區(qū)間檢測方法,其特征在于, 該樂曲區(qū)間檢測方法具備檢測廣告區(qū)間的廣告檢測步驟, 從所述樂曲區(qū)間中去除所述廣告區(qū)間。
7、 一種數(shù)據(jù)記錄方法,其具備以下步驟數(shù)據(jù)記錄步驟,記錄包含利用權(quán)利要求1所述的樂曲區(qū)間檢測方法 檢測出的樂曲區(qū)間的數(shù)據(jù);以及信息記錄步驟,記錄用于確定所述樂曲區(qū)間的信息。
8、 一種樂曲區(qū)間檢測裝置,其具備多個樂曲候選區(qū)間檢測部,其根據(jù)各個不同的基準(zhǔn),從包含聲音信 號和圖像信號的輸入數(shù)據(jù)的所述聲音信號中,檢測所述輸入數(shù)據(jù)的樂曲候選區(qū)間;以及樂曲區(qū)間檢測部,其根據(jù)所述檢測出的多個樂曲候選區(qū)間,來檢測 樂曲區(qū)間。
9、 根據(jù)權(quán)利要求8所述的樂曲區(qū)間檢測裝置,其特征在于, 包含于所述多個基準(zhǔn)中的一個基準(zhǔn)的檢測特性設(shè)定為補(bǔ)充所述一個以外的其他基準(zhǔn)的檢測特性。
10、 根據(jù)權(quán)利要求8所述的樂曲區(qū)間檢測裝置,其特征在于, 所述基準(zhǔn)之一設(shè)定為檢測所述樂曲候選區(qū)間和所述樂曲候選區(qū)間以外的區(qū)間之間的交界。
11、 根據(jù)權(quán)利要求所述的樂曲區(qū)間檢測裝置,其特征在于, 所述基準(zhǔn)之一設(shè)定為檢測所述樂曲候選區(qū)間的中間部分。
12、 根據(jù)權(quán)利要求8所述的樂曲區(qū)間檢測裝置,其特征在于, 該樂曲區(qū)間檢測裝置具備對所述檢測出的樂曲候選區(qū)間進(jìn)行校正的校正部,所述樂曲檢測部根據(jù)由所述校正部校正后的多個樂曲候選區(qū)間,來 檢測樂曲區(qū)間。
13、 根據(jù)權(quán)利要求8所述的樂曲區(qū)間檢測裝置,其特征在于, 該樂曲區(qū)間檢測裝置具備檢測廣告區(qū)間的廣告檢測部, 所述樂曲區(qū)間檢測部從所述樂曲區(qū)間中去除所述廣告區(qū)間。
14、 一種數(shù)據(jù)記錄裝置,其特征在于,該數(shù)據(jù)記錄裝置具備數(shù)據(jù)記錄部,該數(shù)據(jù)記錄部記錄包含由權(quán)利要 求8所述的樂曲區(qū)間檢測裝置檢測出的樂曲區(qū)間的數(shù)據(jù), 所述數(shù)據(jù)記錄部記錄用于確定所述樂曲區(qū)間的信息。
全文摘要
本發(fā)明提供一種從電視播放中高效檢測樂曲場景的方法。本發(fā)明的樂曲區(qū)間檢測方法具備以下步驟輸入包含聲音信號和圖像信號的數(shù)據(jù)的數(shù)據(jù)輸入步驟;根據(jù)各個不同的基準(zhǔn),從所述聲音信號中檢測樂曲候選區(qū)間的多個樂曲候選區(qū)間檢測步驟;和根據(jù)所述檢測出的多個樂曲候選區(qū)間,來檢測樂曲區(qū)間的樂曲區(qū)間檢測步驟。由此,可對搖滾、民間流行歌曲、古典音樂等曲調(diào)不同的寬范圍的樂曲確保較高的檢測精度。
文檔編號G10L11/00GK101310327SQ200680043035
公開日2008年11月19日 申請日期2006年12月25日 優(yōu)先權(quán)日2005年12月27日
發(fā)明者大塚功, 杉之原英嗣 申請人:三菱電機(jī)株式會社