專利名稱:用于檢測(cè)新聞主持人鏡頭的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及活動(dòng)圖像處理,具體涉及用于檢測(cè)活動(dòng)圖像的新聞主持人鏡頭的方法和裝置。
背景技術(shù):
在用于檢測(cè)在諸如新聞之類的領(lǐng)域中或像電影那樣的活動(dòng)圖像中使用的廣播信號(hào)中的新聞主持人鏡頭的傳統(tǒng)方法中,使用關(guān)于新聞主持人鏡頭的模板來(lái)檢測(cè)新聞主持人鏡頭。在所述方法中,提前假定和識(shí)別關(guān)于新聞主持人鏡頭的格式信息,并且使用所識(shí)別的格式信息或使用利用新聞主持人的臉或衣服的顏色產(chǎn)生的模板來(lái)提取新聞主持人鏡頭。但是,在所述方法中,因?yàn)槭褂昧诵侣勚鞒秩说念A(yù)定模板,因此檢測(cè)新聞主持人鏡頭的性能可能由于新聞主持人鏡頭的格式的改變而大大地變差。而且,在使用新聞主持人的臉或衣服的顏色來(lái)檢測(cè)新聞主持人鏡頭的傳統(tǒng)方法中,當(dāng)新聞主持人的臉或衣服的顏色類似于背景的顏色或改變照明時(shí),檢測(cè)新聞主持人鏡頭的性能變差。另外,在使用第一新聞主持人鏡頭來(lái)獲得新聞主持人鏡頭信息的傳統(tǒng)方法中,檢測(cè)新聞主持人鏡頭受新聞主持人的數(shù)量或新聞主持人鏡頭的格式改變的程度影響。即,當(dāng)錯(cuò)誤地檢測(cè)到新聞主持人鏡頭時(shí),檢測(cè)新聞主持人鏡頭的性能變差。
同時(shí),在檢測(cè)新聞主持人鏡頭的另一種傳統(tǒng)方法中,通過(guò)聚合諸如在新聞主持人鏡頭中的類似顏色分布或當(dāng)產(chǎn)生新聞主持人鏡頭的時(shí)間來(lái)檢測(cè)新聞主持人鏡頭。在所述方法中,具有類似于新聞主持人鏡頭的顏色分布的報(bào)告鏡頭可能被錯(cuò)誤地檢測(cè)為新聞主持人鏡頭,并且不能檢測(cè)到意外出現(xiàn)的一個(gè)新聞主持人鏡頭。
發(fā)明內(nèi)容
本發(fā)明提供了一種使用從活動(dòng)圖像分離的音頻信號(hào)即使用新聞主持人的語(yǔ)音信息來(lái)檢測(cè)新聞主持人鏡頭的方法。
本發(fā)明也提供了一種使用從活動(dòng)圖像分離的音頻信號(hào)、即使用新聞主持人的語(yǔ)音信息來(lái)檢測(cè)新聞主持人鏡頭的裝置。
按照本發(fā)明的一個(gè)方面,提供了一種檢測(cè)新聞主持人鏡頭的方法,所述方法包括將活動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào);使用視頻信號(hào)來(lái)確定鏡頭之間的邊界;使用所述邊界來(lái)從音頻信號(hào)提取具有大于第一門限值的長(zhǎng)度的鏡頭和具有大于第二門限值的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭確定為新聞主持人語(yǔ)音鏡頭。
按照本發(fā)明的另一個(gè)方面,提供了一種檢測(cè)新聞主持人鏡頭的裝置,所述裝置包括信號(hào)分離單元,用于將活動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào);邊界確定單元,用于使用視頻信號(hào)來(lái)確定鏡頭之間的邊界;新聞主持人語(yǔ)音鏡頭提取單元,用于使用所述邊界來(lái)從音頻信號(hào)提取具有大于第一門限值的長(zhǎng)度的鏡頭和具有大于第二門限值的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭輸出為新聞主持人語(yǔ)音鏡頭。
通過(guò)參照附圖詳細(xì)說(shuō)明本發(fā)明的示例實(shí)施例,本發(fā)明的上述和其他特點(diǎn)和優(yōu)點(diǎn)將會(huì)變得更加清楚,其中圖1是圖解按照本發(fā)明的一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的方法的流程圖;圖2A和2B是用于說(shuō)明圖1的步驟14的波形圖;圖3是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖1的步驟16的流程圖;圖4是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖3的步驟34的流程圖;圖5示出了在步驟32選擇的鏡頭中的一個(gè)鏡頭的結(jié)構(gòu);圖6是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖4的步驟52的流程圖;圖7是示出幀的數(shù)量對(duì)能量的圖;圖8圖解幀相對(duì)于能量的分布以理解圖4的步驟54;圖9示出了在步驟32中選擇的鏡頭中的一個(gè)鏡頭的結(jié)構(gòu)以理解圖4的步驟56;圖10A、10B、10C、10D和10E示出了在圖1的步驟16中確定的新聞主持人語(yǔ)音鏡頭;
圖11是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖1的步驟18的流程圖;圖12是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖11的步驟130的流程圖;圖13是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖11的步驟130的流程圖;圖14是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖13的步驟172的流程圖;圖15是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖11的步驟132的流程圖;圖16A-16E是用于理解圖11的步驟132的視圖;圖17是圖解按照本發(fā)明的另一個(gè)實(shí)施例的、圖11的步驟132的流程圖;圖18是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖1的步驟20的流程圖;圖19A、19B和19C示出了通過(guò)將圖10A-10E的新聞主持人語(yǔ)音鏡頭編組而確定的相似組;圖20是圖解按照本發(fā)明的另一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的方法的流程圖;圖21是圖解按照本發(fā)明的一個(gè)實(shí)施例的、圖20的步驟274的流程圖;圖22是按照本發(fā)明的一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的裝置的方框圖;圖23是按照本發(fā)明的另一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的裝置的方框圖。
具體實(shí)施例方式
以下,參照附圖來(lái)詳細(xì)說(shuō)明按照本發(fā)明的檢測(cè)新聞主持人鏡頭的方法。
圖1是圖解按照本發(fā)明的一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的方法的流程圖。檢測(cè)圖1的新聞主持人鏡頭的方法包括獲得在活動(dòng)圖像中的新聞主持人語(yǔ)音鏡頭(步驟10-16),獲得在新聞主持人語(yǔ)音鏡頭中的新聞主持人語(yǔ)音模型(步驟18-24)。
在步驟10中,將活動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào)。以下,假定活動(dòng)圖像包括音頻信號(hào)以及視頻信號(hào)。在這種情況下,活動(dòng)圖像可以是通過(guò)MPEG格式壓縮的數(shù)據(jù)。如果通過(guò)MPEG-1來(lái)壓縮活動(dòng)圖像,則從活動(dòng)圖像分離的音頻信號(hào)的頻率可以是例如48kHz或44.1kHz,它對(duì)應(yīng)于壓密光盤(CD)的聲音質(zhì)量。為了執(zhí)行步驟10,可以從活動(dòng)圖像提取原始(raw)脈沖編碼調(diào)制(PCM)格式,并且可以將所提取的原始PCM格式確定為分離的音頻信號(hào)。在步驟10后的步驟12,使用視頻信號(hào)來(lái)確定鏡頭之間的邊界。為此,當(dāng)檢測(cè)到其中具有活動(dòng)圖像中的較大改變的部分時(shí),所檢測(cè)的部分被確定為鏡頭之間的邊界??梢詸z測(cè)活動(dòng)圖像的亮度、顏色數(shù)量和運(yùn)動(dòng)中至少一個(gè)的改變,并且可以將在檢測(cè)結(jié)果中具有迅速改變的部分確定為鏡頭之間的邊界。
圖2A和2B是用于說(shuō)明圖1的步驟14的波形圖。圖2A是分離的音頻信號(hào)的波形圖,圖2B是下采樣的音頻信號(hào)的波形圖。
在步驟12后的步驟14,下采樣音頻信號(hào)。所分離的音頻信號(hào)的大小太大,并且不必分析整個(gè)音頻信號(hào)。因此,以諸如8kHz、12kHz或16kHz的下采樣頻率來(lái)下采樣所分離的音頻信號(hào)。在這種情況下,可以將下采樣的結(jié)果存儲(chǔ)為波形格式。在此,不像在圖1中那樣,可以在步驟12之前或與步驟12同時(shí)執(zhí)行步驟14。
如果通過(guò)MPEG-1標(biāo)準(zhǔn)來(lái)壓縮活動(dòng)圖像,則所分離的音頻信號(hào)的頻率是48kHz并且以8kHz的頻率來(lái)下采樣分離的音頻信號(hào),則圖2A所示的音頻信號(hào)可以被下采樣,如圖2B所示。
在步驟14后的步驟16,使用在步驟12獲得的邊界來(lái)從下采樣的音頻信號(hào)提取具有大于第一門限值TH1的長(zhǎng)度的鏡頭和具有大于第二門限值TH2的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭確定為新聞主持人語(yǔ)音鏡頭(anchorperson speech shot)。所述新聞主持人語(yǔ)音鏡頭表示包括新聞主持人的語(yǔ)音的鏡頭,但是不限于此,并且可以是包括報(bào)告者的語(yǔ)音或?qū)τ谟脩粲幸饬x的聲音的鏡頭。一般,新聞主持人鏡頭的長(zhǎng)度相當(dāng)長(zhǎng),大于10秒,并且在新聞主持人鏡頭結(jié)束的部分中存在一些無(wú)聲部分,它是當(dāng)新聞主持人鏡頭和報(bào)告鏡頭連續(xù)地存在時(shí)在新聞主持人鏡頭和報(bào)告鏡頭之間的邊界。在步驟16,根據(jù)其特性來(lái)確定新聞主持人語(yǔ)音鏡頭。即,鏡頭的長(zhǎng)度應(yīng)當(dāng)大于第一門限值TH1,具有大于第二門限值TH2的長(zhǎng)度的無(wú)聲部分應(yīng)當(dāng)存在于所述鏡頭結(jié)束的部分中,以便鏡頭可以是新聞主持人語(yǔ)音鏡頭,所述無(wú)聲部分是鏡頭之間的邊界。
圖1的檢測(cè)新聞主持人鏡頭的方法可能不包括步驟14。在這種情況下,在步驟12后的步驟16,使用在步驟12獲得的邊界來(lái)提取具有大于第一門限值TH1的長(zhǎng)度的鏡頭和具有大于第二門限值TH2的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭確定為新聞主持人語(yǔ)音鏡頭。
圖3是圖解按照本發(fā)明的一個(gè)實(shí)施例16A的、圖1的步驟16的流程圖。圖3的實(shí)施例16A包括使用鏡頭的長(zhǎng)度和無(wú)聲部分的長(zhǎng)度來(lái)確定新聞主持人語(yǔ)音鏡頭(步驟30-38)。
首先,在步驟30中,使用在步驟12獲得的邊界來(lái)獲得每個(gè)鏡頭的長(zhǎng)度。鏡頭之間的邊界表示在鏡頭的結(jié)尾和新鏡頭的開(kāi)始之間的部分,因此所述邊界可以用于獲得鏡頭的長(zhǎng)度。
在步驟30后的步驟32,從鏡頭選擇具有大于第一門限值TH1的長(zhǎng)度的鏡頭。
在步驟32后的步驟34,獲得所選擇的鏡頭的每個(gè)的無(wú)聲部分的長(zhǎng)度。所述無(wú)聲部分是其中沒(méi)有有意義的聲音的部分。
圖4是圖解按照本發(fā)明的一個(gè)實(shí)施例34A的、圖3的步驟34的流程圖。圖4的實(shí)施例34A包括使用幀的音頻能量來(lái)獲得無(wú)聲門限值(步驟50和52),并且計(jì)數(shù)使用無(wú)聲門限值獲得的無(wú)聲部分中包括的幀的數(shù)量(步驟54和56)。
圖5示出了在步驟32選擇的鏡頭中的一個(gè)鏡頭的結(jié)構(gòu)。圖5的鏡頭包括N個(gè)幀,即幀1、幀2、幀3、...、幀i、...、幀N。為了方便,假定N是等于或大于1的正整數(shù),1≤i≤N,幀1是開(kāi)始幀,幀N是結(jié)束幀。
首先,在步驟50中,獲得在步驟32中選擇的鏡頭的每個(gè)中包括的幀幀1、幀2、幀3、...、幀i、...、幀N的每個(gè)的能量。在此,可以通過(guò)方程1來(lái)給出在步驟32中選擇的鏡頭的每個(gè)中包括的每個(gè)幀的能量。
Ei=Σn=1fdtfpcmn2fdtf---(1)]]>在此,Ei是在鏡頭中包括的幀中第i個(gè)幀的能量,fd是下采樣音頻信號(hào)的頻率,tf是第i個(gè)幀的長(zhǎng)度70,pcm是在第i個(gè)幀中包括的每個(gè)采樣的脈沖編碼調(diào)制(PCM)值,并且是整數(shù)。當(dāng)fd是8kHz并且tf是25毫秒時(shí),fdtf是200。即,在第i個(gè)幀中存在200個(gè)采樣。
在步驟50后的步驟52,使用在步驟32中選擇的鏡頭中包括的幀的能量來(lái)獲得無(wú)聲門限值。在每個(gè)廣播站中,在諸如新聞的活動(dòng)圖像中的無(wú)聲部分中包括的幀的能量的大小可以彼此不同。因此,使用在步驟50獲得的能量來(lái)獲得無(wú)聲門限值。
圖6是圖解按照本發(fā)明的一個(gè)實(shí)施例52A的、圖4的步驟52的流程圖。圖6的實(shí)施例52A包括使用被表達(dá)為整數(shù)的能量來(lái)獲得幀相對(duì)于能量的分布(步驟80和82),并且將對(duì)應(yīng)的能量確定為無(wú)聲門限值(步驟84)。
圖7是示出幀的數(shù)量對(duì)能量的圖。橫軸是能量,縱軸是幀數(shù)量。
在步驟80中,在步驟32中選擇的每個(gè)鏡頭中包括的幀中的、在步驟50獲得的每個(gè)能量被舍入并且被表達(dá)為整數(shù)。在步驟80后的步驟82,使用被表達(dá)為整數(shù)的能量來(lái)獲得幀相對(duì)于能量的分布。例如,在步驟32中選擇的每個(gè)鏡頭中包括的每個(gè)幀的能量被示出為幀相對(duì)于能量的分布,如圖7所示。
在步驟82后的步驟84,將參考能量確定為在幀相對(duì)于能量的分布中的無(wú)聲門限值,并且執(zhí)行步驟54。選擇參考能量,以便等于或小于參考能量的能量中分布的幀的數(shù)量大約等于對(duì)應(yīng)于在步驟32選擇的鏡頭中包括的幀的總數(shù)X的預(yù)定百分比Y%、即XY/100的數(shù)量。例如,當(dāng)幀相對(duì)于能量的分布被示出在圖7中并且X=4500和Y=20時(shí),可以將包括大約900個(gè)幀的、具有大約8的初始值的能量90選擇為參考能量。
圖8圖解幀相對(duì)于能量的分布以理解圖4的步驟54,它示出了在一個(gè)新聞主持人語(yǔ)音鏡頭的后部中的能量分布。在此,橫軸表示幀數(shù)量(時(shí)間流),縱軸表示能量。
在步驟52后的步驟54,使用無(wú)聲門限值來(lái)確定在步驟32中選擇的每個(gè)鏡頭的無(wú)聲部分。例如,如圖8所示,將具有等于或小于無(wú)聲門限值100的幀所屬的部分確定為無(wú)聲部分102。
圖9示出了在步驟32中選擇的鏡頭中的一個(gè)鏡頭的結(jié)構(gòu)以理解圖4的步驟56。圖9的鏡頭包括N個(gè)幀,即幀N、幀N-1、...、幀1。
在步驟54后的步驟56,在步驟32選擇的每個(gè)鏡頭中計(jì)數(shù)無(wú)聲幀的數(shù)量,將計(jì)數(shù)結(jié)果確定為無(wú)聲部分的長(zhǎng)度,并且執(zhí)行步驟36。無(wú)聲幀是無(wú)聲部分中包括并且具有等于或小于無(wú)聲門限值的能量的幀。例如,如圖9所示,可以從在步驟32中選擇的每個(gè)鏡頭的結(jié)束幀幀N到開(kāi)始幀幀1的方向110中進(jìn)行計(jì)數(shù)。
在步驟32中選擇的每個(gè)鏡頭的結(jié)束幀可以不被計(jì)數(shù),因此所選擇的鏡頭的每個(gè)的結(jié)束幀具有不大于fdtf的采樣數(shù)量。
另外,當(dāng)計(jì)數(shù)屬于無(wú)聲部分的幀的數(shù)量時(shí),即當(dāng)確定是否一個(gè)幀屬于無(wú)聲部分中時(shí),如果連續(xù)地存在大于無(wú)聲門限值的能量,則可以停止計(jì)數(shù)操作。例如,當(dāng)從在步驟32中選擇的每個(gè)鏡頭查看是否幀是無(wú)聲幀時(shí),即使第L個(gè)幀不是無(wú)聲幀并且當(dāng)?shù)?L-1)個(gè)幀是無(wú)聲幀時(shí),所述第L個(gè)幀被當(dāng)作無(wú)聲幀。另外,當(dāng)?shù)?L-M)個(gè)幀和第(L-M-1)個(gè)幀不是無(wú)聲幀時(shí),停止計(jì)數(shù)操作。
在步驟34后的步驟36,從在步驟32選擇的鏡頭提取具有無(wú)聲部分的鏡頭,所述無(wú)聲部分具有大于第二門限值TH2的長(zhǎng)度。例如,當(dāng)幀的長(zhǎng)度tf是25毫秒并且第二門限值TH2被設(shè)置為0.85秒時(shí),如果在鏡頭的無(wú)聲部分中包括的無(wú)聲幀的數(shù)量大于34,則在步驟36提取所述鏡頭。
在步驟36后的步驟38中,僅僅具有較長(zhǎng)長(zhǎng)度的預(yù)定百分比Q%的鏡頭(PQ/100)是從P(其中P是正整數(shù))個(gè)所提取鏡頭中選擇的,并且被確定為新聞主持人語(yǔ)音鏡頭,并且執(zhí)行步驟18。例如,當(dāng)P是200并且Q是80時(shí),丟棄在步驟36中提取的200個(gè)鏡頭中具有短長(zhǎng)度的40個(gè)鏡頭,并且將具有長(zhǎng)長(zhǎng)度的僅僅160個(gè)鏡頭選擇和確定為新聞主持人語(yǔ)音鏡頭。
圖3的步驟16A包括步驟38,以便防止具有長(zhǎng)無(wú)聲部分的報(bào)告鏡頭被提取為新聞主持人語(yǔ)音鏡頭。但是,步驟16A可以不包括步驟38。在這種情況下,在執(zhí)行步驟36后,執(zhí)行步驟18。
圖10A、10B、10C、10D和10E示出了在圖1的步驟16中確定的示例新聞主持人語(yǔ)音鏡頭。
通過(guò)執(zhí)行圖1的步驟10-16來(lái)從活動(dòng)圖像僅僅提取例如圖10A-10E所示的新聞主持人語(yǔ)音鏡頭。
同時(shí),在步驟16后的步驟18,從所述新聞主持人語(yǔ)音鏡頭分離包括多個(gè)新聞主持人的語(yǔ)音的多個(gè)新聞主持人的語(yǔ)音鏡頭。所述多個(gè)新聞主持人可以是相同性別或相反性別的新聞主持人。即,所述多個(gè)新聞主持人的語(yǔ)音鏡頭可以包括僅僅女新聞主持人語(yǔ)音或男新聞主持人語(yǔ)音或兩者。
圖11是圖解按照本發(fā)明的一個(gè)實(shí)施例18A的、圖1的步驟18的流程圖。圖11的實(shí)施例18A包括從每個(gè)新聞主持人語(yǔ)音鏡頭去除無(wú)聲幀和輔音幀(consonant frame),然后檢測(cè)多個(gè)新聞主持人的語(yǔ)音鏡頭(步驟130和132)。
在步驟16后的步驟130,從每個(gè)新聞主持人語(yǔ)音鏡頭去除所述無(wú)聲幀和輔音幀。
圖12是圖解按照本發(fā)明的一個(gè)實(shí)施例130A的、圖11的步驟130的流程圖。圖12的實(shí)施例130A包括去除屬于通過(guò)使用幀的能量獲得的無(wú)聲門限值確定的無(wú)聲部分的幀(步驟150到156)。
在步驟150中,為了從每個(gè)新聞主持人語(yǔ)音鏡頭去除無(wú)聲幀,獲得在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀的能量。
在步驟150后的步驟152,使用在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的幀的能量來(lái)獲得無(wú)聲門限值。在步驟152后的步驟154,使用無(wú)聲門限值來(lái)確定每個(gè)新聞主持人語(yǔ)音鏡頭的無(wú)聲部分。在步驟154后的步驟156,從每個(gè)新聞主持人語(yǔ)音鏡頭去除在所確定的無(wú)聲部分中包括的無(wú)聲幀。
對(duì)于在步驟16中確定的每個(gè)新聞主持人語(yǔ)音鏡頭執(zhí)行圖12的步驟150、152和154,并且對(duì)于在步驟32中選擇的每個(gè)鏡頭執(zhí)行圖4的步驟50、52和54。除了這一點(diǎn),圖12的步驟150、152和154對(duì)應(yīng)于圖4的步驟50、52和54。因此,通過(guò)將對(duì)于在步驟32中選擇的鏡頭執(zhí)行替代為對(duì)于在步驟16中確定的新聞主持人語(yǔ)音鏡頭執(zhí)行,圖6-8的說(shuō)明可以被應(yīng)用到圖12的步驟150、152和154。
或者,不必在圖12的步驟150-154中獨(dú)立地獲得在步驟16中確定的新聞主持人語(yǔ)音鏡頭的無(wú)聲幀,僅僅使用在步驟50-54中已經(jīng)確定的無(wú)聲部分中的、在步驟16中確定的新聞主持人語(yǔ)音鏡頭的無(wú)聲部分。因此,在步驟156,已經(jīng)在步驟54中確定的無(wú)聲部分中包括的幀被當(dāng)作無(wú)聲幀,并且從每個(gè)新聞主持人語(yǔ)音鏡頭中去除。
圖13是圖解按照本發(fā)明的一個(gè)實(shí)施例130B的、圖11的步驟130的流程圖。實(shí)施例130B包括使用按照在每個(gè)新聞主持人語(yǔ)音鏡頭中的每個(gè)幀獲得的過(guò)零率(ZCR)確定輔音幀(步驟170和172),并且去除所確定的輔音幀(步驟174)。
首先,在步驟170中,獲得按照在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀的ZCR。所述ZCR可以通過(guò)方程2給出。
ZCR=#fdtf---(2)]]>在此,#是在脈沖編碼調(diào)制(PCM)數(shù)據(jù)的分貝值中的符號(hào)改變的數(shù)量,tf是在其中獲得所述ZCR的幀的長(zhǎng)度。在這種情況下,當(dāng)音頻信號(hào)的頻率提高時(shí),所述ZCR提高。另外,所述ZCR用于分類新聞主持人語(yǔ)音的輔音部分和元音部分,因?yàn)檎Z(yǔ)音的基波頻率主要存在于語(yǔ)音的元音部分。
在步驟170后的步驟172,使用在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀的ZCR來(lái)確定輔音幀。
圖14是圖解按照本發(fā)明的一個(gè)實(shí)施例172A的、圖13的步驟172的流程圖。圖14的實(shí)施例172A包括使用ZCR的平均值來(lái)確定輔音幀(步驟190和192)。
在步驟170后的步驟190,獲得在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的幀的ZCR的平均值。在步驟190后的步驟192,在每個(gè)新聞主持人語(yǔ)音鏡頭中,將具有大于ZCR的平均值的預(yù)定倍數(shù)的ZCR的幀確定為輔音幀,并且執(zhí)行步驟174。所述預(yù)定倍數(shù)可以設(shè)置為2。
在步驟172后的步驟174,從每個(gè)新聞主持人語(yǔ)音鏡頭去除所確定的輔音幀。
可以同時(shí)執(zhí)行圖12的步驟130A和圖13的步驟130B。在這種情況下,如圖12和13所示,在圖12的步驟156后,執(zhí)行步驟132,并且在圖13的步驟174后,執(zhí)行步驟132。
或者,在圖12的步驟130A后,可以執(zhí)行圖13的步驟130B。在這種情況下,不像在圖12中那樣,而是在圖12的步驟156后,執(zhí)行步驟170。
或者,在圖12的步驟130A之前,可以執(zhí)行圖13的步驟130B。在這種情況下,不像在圖13中那樣,而是在圖13的步驟174后,執(zhí)行步驟150。
同時(shí),按照本發(fā)明的一個(gè)實(shí)施例,在步驟130后,在步驟132,獲得按照從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀的每個(gè)系數(shù)的嘜耳頻率對(duì)數(shù)倒頻譜系數(shù)(mel-frequency cepstral coeffcient,MFCC),并且使用所述MFCC來(lái)檢測(cè)多個(gè)新聞主持人的語(yǔ)音鏡頭。所述MFCC已經(jīng)由Davis S.B.和Mermelstein P.引入[“Comparison of ParametricRepresentations of Monosllabic Word Recognition in Continuously SpokenSentences”,IEEE Trans.Acoustics,Speech and Signal Processing,28,pp.357-366,1980(“在連續(xù)說(shuō)出的語(yǔ)句中的單音節(jié)字識(shí)別的參數(shù)表示的比較”,IEEE會(huì)刊聲音、語(yǔ)音和信號(hào)處理,28,第357-366頁(yè),1980)]。
圖15是圖解按照本發(fā)明的一個(gè)實(shí)施例132A的、圖11的步驟132的流程圖。圖15的實(shí)施例132A包括使用在每個(gè)新聞主持人語(yǔ)音鏡頭中的MFCC來(lái)確定多個(gè)新聞主持人的語(yǔ)音鏡頭(步驟210-214)。
圖16A-16E是用于理解圖11的步驟132的視圖。圖16A示出了新聞主持人語(yǔ)音鏡頭,圖16B-16E示出了示例窗口。
在步驟210,對(duì)于從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭,在具有預(yù)定長(zhǎng)度的窗口以預(yù)定的時(shí)間間隔移動(dòng)的同時(shí)獲得按照在每個(gè)窗口中包括的一個(gè)幀的每個(gè)系數(shù)的MFCC的平均值。所述MFCC是在語(yǔ)音識(shí)別中廣泛使用的特征值,并且一般在每個(gè)幀中包括13個(gè)系數(shù)。在本發(fā)明中,排除了第零個(gè)系數(shù)即12個(gè)MFCC以用于語(yǔ)音識(shí)別。
在這種情況下,每個(gè)窗口可以包括多個(gè)幀,每個(gè)幀具有按照一個(gè)幀的每個(gè)系數(shù)的MFCC。因此,通過(guò)平均按照每個(gè)窗口的多個(gè)幀的每個(gè)系數(shù)的MFCC而獲得按照每個(gè)窗口的每個(gè)系數(shù)的MFCC的平均值。
在步驟210后的步驟212,在相鄰的窗口之間獲得在MFCC的平均值之間的差。在步驟212后的步驟214,對(duì)于從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭,如果在相鄰窗口之間的MFCC的平均值之間的差大于第三門限值TH3,則所述新聞主持人語(yǔ)音鏡頭被確定為多個(gè)新聞主持人的語(yǔ)音鏡頭。
例如,參見(jiàn)圖16,當(dāng)預(yù)定長(zhǎng)度的窗口是3秒并且所述窗口移動(dòng)的預(yù)定時(shí)間間隔是1秒時(shí),如圖16B-16E所示,在步驟210,在所述窗口以1秒的時(shí)間間隔移動(dòng)的同時(shí)獲得按照在每個(gè)窗口中包括的幀的每個(gè)系數(shù)的MFCC的平均值。在這種情況下,可以相對(duì)于第七、第八、第九、第十、第十一和第十二系數(shù)的每個(gè)來(lái)獲得在每個(gè)窗口中獲得的MFCC的平均值。在這種情況下,在步驟212,可以在圖16B和16C的相鄰窗口之間、圖16C和16D的相鄰窗口之間和在圖16D和16E的相鄰窗口之間獲得在MFCC的平均值之間的差。如果在步驟212獲得的差中至少一個(gè)大于第三門限值TH3,則在步驟214,將圖16A的新聞主持人語(yǔ)音鏡頭確定為多個(gè)新聞主持人的語(yǔ)音鏡頭。
按照本發(fā)明的另一個(gè)實(shí)施例,在步驟130后的步驟132,在從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀中獲得按照每個(gè)系數(shù)和在預(yù)定頻率帶寬中的功率譜密度PSD的MFCC,并且使用按照每個(gè)系數(shù)和PSD的MFCC來(lái)檢測(cè)多個(gè)新聞主持人的語(yǔ)音鏡頭。所述預(yù)定頻率帶寬是其中在男人語(yǔ)音和女人語(yǔ)音的平均頻譜之間存在大差別的頻率帶寬,并且可以設(shè)置為例如100-150Hz。在男人語(yǔ)音和女人語(yǔ)音的頻譜之間的差被Irii,H.、Itoh,K.和Kitawaki,N.引入[“Multi-lingual Speech Database for Speech QualityMeasurements and its Statistic Characteristics”,Trans.Committee on SpeechResearch,Acoust.Soc.Jap,pp.S87-69,1987(“用于語(yǔ)音質(zhì)量測(cè)量的多語(yǔ)言語(yǔ)音數(shù)據(jù)庫(kù)機(jī)器統(tǒng)計(jì)特性”,語(yǔ)音研究委員會(huì)會(huì)刊,日本聲音協(xié)會(huì),第S87-69頁(yè),1987)],并且被Saito,S.、Kato,K.和Teranishi,N引入[“Statistical Propertiesof Fundamental Frequencies of Japanese Speech Voices”,J.Acoust.Soc.Jap,14,2,pp.111-1116,1958(“日本語(yǔ)音聲音的基本頻率的統(tǒng)計(jì)特性”,日本聲音協(xié)會(huì),14,2,第111-116頁(yè),1958)]。
圖17是圖解按照本發(fā)明的另一個(gè)實(shí)施例132B的、圖11的步驟132的流程圖。圖17的實(shí)施例132B包括使用在每個(gè)新聞主持人語(yǔ)音鏡頭中的預(yù)定頻率帶寬中的MFCC和PSD來(lái)確定多個(gè)新聞主持人的語(yǔ)音鏡頭(步驟230-236)。
在步驟230,在具有預(yù)定長(zhǎng)度的窗口以預(yù)定的時(shí)間間隔移動(dòng)的同時(shí),在從中消除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭中獲得按照在每個(gè)窗口中包括的每個(gè)幀的每個(gè)系數(shù)和在預(yù)定頻率帶寬中的PSD的平均分貝值的MFCC的平均值。通過(guò)下述方式來(lái)獲得在每個(gè)窗口的預(yù)定頻率帶寬中的PSD的平均分貝值計(jì)算在每個(gè)窗口中包括的每個(gè)幀的預(yù)定頻率帶寬中的頻譜,平均被計(jì)算的頻譜,并且將所計(jì)算的平均頻譜轉(zhuǎn)換為分貝值。
例如,如圖16B-16E所示,在具有3秒長(zhǎng)度的窗口以1秒的時(shí)間間隔移動(dòng)的同時(shí),獲得在每個(gè)窗口中包括的預(yù)定頻率帶寬中的PSD的平均分貝值以及按照在每個(gè)窗口中包括的每個(gè)幀的每個(gè)系數(shù)的MFCC的平均值。每個(gè)窗口的三個(gè)幀的每個(gè)具有在預(yù)定頻率帶寬中的PSD的一個(gè)分貝值。因此,通過(guò)平均每個(gè)窗口的三個(gè)幀的PSD的分貝值來(lái)獲得在每個(gè)窗口的預(yù)定頻率帶寬中的PSD的平均分貝值。
在步驟230后的步驟232,獲得在相鄰的窗口WD1和WD2之間的MFCC的平均值之間的差Δ1和在相鄰的窗口WD1和WD2之間的PSD的平均分貝值之間的差Δ2。
在步驟232后的步驟234,在從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭中獲得所述差Δ1和Δ2的加權(quán)和。所述加權(quán)和WS1可以通過(guò)方程3給出。
WS1=W1Δ1+(1-W1)Δ2 (3)在此,WS1是加權(quán)和,W1是第一加權(quán)值。
在步驟234后的步驟236,具有大于第四門限值TH4的加權(quán)和WS1的新聞主持人語(yǔ)音鏡頭被確定為多個(gè)新聞主持人的語(yǔ)音鏡頭,并且執(zhí)行步驟20。
在圖15的步驟132A中,僅僅使用MFCC的平均值,還未使用PSD的平均分貝值。因此,可以執(zhí)行圖15的步驟132A來(lái)確定包括具有來(lái)自新聞主持人語(yǔ)音鏡頭的不同聲音的同一性別的新聞主持人的評(píng)述的多個(gè)新聞主持人的語(yǔ)音鏡頭。在這種情況下,在圖17的步驟132B中,使用PSD的平均分貝值以及MFCC的平均值。以這種方式,使用PSD的平均分貝值,可以執(zhí)行圖17的步驟132B來(lái)確定包括來(lái)自新聞主持人語(yǔ)音鏡頭的男新聞主持人和女新聞主持人的評(píng)述的多個(gè)新聞主持人的語(yǔ)音鏡頭。
同時(shí),在步驟18后的步驟20,將多個(gè)新聞主持人的語(yǔ)音鏡頭匯集,將除了來(lái)自新聞主持人語(yǔ)音鏡頭的多個(gè)新聞主持人的語(yǔ)音鏡頭之外的新聞主持人的語(yǔ)音鏡頭分組,并且將分組結(jié)果確定為相似組。
圖18是圖解按照本發(fā)明的一個(gè)實(shí)施例20A的、圖1的步驟20的流程圖。圖18的實(shí)施例20A包括使用MFCC和PSD來(lái)確定相似分組(步驟250-258)。
在步驟250,在每個(gè)新聞主持人的語(yǔ)音鏡頭中獲得按照每個(gè)系數(shù)的MFCC的平均值。
在步驟250后的步驟252,當(dāng)使用按照兩個(gè)新聞主持人的語(yǔ)音鏡頭Sj和Sj+1的每個(gè)系數(shù)的MFCC的平均值計(jì)算的MFCC距離是在新聞主持人語(yǔ)音鏡頭中最近的并且小于第五門限值TH5時(shí),所述兩個(gè)新聞主持人的語(yǔ)音鏡頭Sj和Sj+1被確定為相似候選鏡頭Sj′和Sj+1′。按照在步驟252中使用的每個(gè)系數(shù)的MFCC的平均值的系數(shù)可以是第三到第十二系數(shù),j表示一個(gè)新聞主持人的語(yǔ)音鏡頭的索引,并且在步驟250中被初始化。在這種情況下,可以通過(guò)方程4來(lái)給出MFCC距離WMFCC。
WMFCC=(a1-b1)2(a2-b2)2+...+(ak-bk)2---(4)]]>在此,a1、a2、...和ak是按照新聞主持人的語(yǔ)音鏡頭Sj的每個(gè)系數(shù)的MFCC的平均值,b1、b2、...和bk是按照新聞主持人的語(yǔ)音鏡頭Sj+1的每個(gè)系數(shù)的MFCC的平均值,k是按照從新聞主持人的語(yǔ)音鏡頭Sj或Sj+1獲得的每個(gè)系數(shù)的MFCC的平均值中的系數(shù)的總數(shù)。
在步驟252后的步驟254,獲得在相似候選鏡頭Sj′和Sj+1′的預(yù)定頻率帶寬中的PSD的平均分貝值之間的差。
在步驟254后的步驟256,當(dāng)在步驟254申獲得的PSD的平均分貝值之間的差小于第六門限值TH6時(shí),相似候選鏡頭Sj′和Sj+1′被編組和確定為相似分組。在這種情況下,當(dāng)在PSD的平均分貝值之間的差大于第六門限值TH6時(shí),可以向其中MFCC的平均值相似的相似候選鏡頭分配標(biāo)記,因?yàn)榉乐箤?duì)于被分配標(biāo)記的相似候選鏡頭再次執(zhí)行步驟252、254和256。
在步驟256后的步驟258,確定是否所有的新聞主持人的語(yǔ)音鏡頭被編組。如果確定所有的新聞主持人的語(yǔ)音鏡頭未被編組,則執(zhí)行步驟252,并且對(duì)于其中MFCC的兩個(gè)不同平均值最近的新聞主持人的語(yǔ)音鏡頭Sj+1和Sj+2執(zhí)行步驟252、254和256。但是,如果確定所有的新聞主持人的語(yǔ)音鏡頭被編組,則結(jié)束圖18的步驟20A。
圖19A、19B和19C示出了通過(guò)將圖10A-10E的新聞主持人語(yǔ)音鏡頭編組而確定的示例相似組。
例如,通過(guò)在圖1的步驟20中編組圖10A-10E的新聞主持人語(yǔ)音鏡頭,男新聞主持人語(yǔ)音鏡頭可以被編組到一個(gè)相似組(如圖19A所示),女新聞主持人語(yǔ)音鏡頭可以被編組到另一個(gè)相似組(如圖19B所示),而多個(gè)新聞主持人的語(yǔ)音鏡頭可以被編組到另一個(gè)相似組(如圖19C所示)。
同時(shí),在步驟20后的步驟22,每個(gè)相似組的代表值作為一個(gè)新聞主持人語(yǔ)音模型獲得。所述代表值是按照屬于相似組的鏡頭的每個(gè)系數(shù)的MFCC的平均值和屬于相似組的鏡頭的預(yù)定頻率帶寬中的PSD的平均分貝值。
在步驟22后的步驟24,使用關(guān)于在每個(gè)相似組中包括的每個(gè)鏡頭的幀中的初始幀的信息來(lái)產(chǎn)生獨(dú)立的語(yǔ)音模型。所述初始幀可以是對(duì)應(yīng)于在每個(gè)相似組中包括的每個(gè)鏡頭中最初4秒的幀。例如,可以平均關(guān)于初始幀的信息,并且平均結(jié)果可以被確定為獨(dú)立的語(yǔ)音模型。
圖20是圖解按照本發(fā)明的另一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的方法的流程圖。圖20的方法包括驗(yàn)證使用新聞主持人圖像模型檢測(cè)的新聞主持人候選鏡頭是否是實(shí)際的新聞主持人鏡頭(步驟270-274)。
在步驟270,產(chǎn)生新聞主持人圖像模型。
在步驟270后的步驟272,使用所產(chǎn)生的新聞主持人圖像模型來(lái)檢測(cè)新聞主持人候選鏡頭。例如,可以將一個(gè)運(yùn)動(dòng)圖像劃分為多個(gè)鏡頭,并且可以通過(guò)下述方式來(lái)檢測(cè)新聞主持人候選鏡頭通過(guò)獲得在多個(gè)被劃分的鏡頭的每個(gè)的關(guān)鍵幀和新聞主持人圖像模型之間的色差,并且通過(guò)比較所述色差。為了獲得所述色差,在所述運(yùn)動(dòng)圖像中包括的多個(gè)鏡頭的每個(gè)被劃分為R×R(其中R是等于或大于1的正整數(shù))個(gè)子塊,并且新聞主持人圖像模型被劃分為R×R個(gè)子塊。在這種情況下,將物體鏡頭的子塊的顏色與與所述子塊位于相同位置的新聞主持人圖像模型的子塊的顏色相比較,并且將比較結(jié)果確定為在子塊之間的色差。如果在一個(gè)鏡頭的關(guān)鍵幀和新聞主持人圖像模型之間的色差小于色差門限值,則所述鏡頭被確定為新聞主持人候選鏡頭。
所述色差是基于Grey世界理論的歸一化值,并且可以被確定為相對(duì)于一些照明變化是強(qiáng)壯的。Grey世界理論是由E.H.Land和J.J.McCann引入的[“Lightness and Retinex Theory”,Journal of the Optical Society of America,vol.61,pp.1-11,1971(“亮度和視網(wǎng)膜(Retinex)理論”,美國(guó)光學(xué)學(xué)會(huì)學(xué)報(bào),第61卷,第1-11頁(yè),1971)]。
在步驟272后的步驟274中,使用獨(dú)立的語(yǔ)音模型和新聞主持人語(yǔ)音模型來(lái)驗(yàn)證新聞主持人候選鏡頭是否是包括新聞主持人圖像的實(shí)際新聞主持人鏡頭。例如,使用獨(dú)立的語(yǔ)音模型來(lái)驗(yàn)證具有小于6秒的很小長(zhǎng)度的新聞主持人候選鏡頭是否是實(shí)際的新聞主持人鏡頭。因此,當(dāng)具有大長(zhǎng)度的新聞主持人候選鏡頭是實(shí)際的新聞主持人鏡頭時(shí)不使用獨(dú)立的語(yǔ)音模型。在這種情況下,圖1的方法可以不包括步驟24。
圖21是圖解按照本發(fā)明的實(shí)施例274A的圖20的步驟274的流程圖。圖21的實(shí)施例274A包括使用色差信息、產(chǎn)生新聞主持人候選鏡頭的時(shí)間和新聞主持人候選鏡頭的代表值來(lái)驗(yàn)證新聞主持人候選鏡頭是否是實(shí)際的新聞主持人鏡頭(步驟292-298)。
在步驟292中,使用產(chǎn)生新聞主持人候選鏡頭的時(shí)間來(lái)獲得每個(gè)新聞主持人候選鏡頭的代表值。所述新聞主持人候選鏡頭的代表值是按照屬于所述鏡頭的幀的每個(gè)系數(shù)的MFCC的平均值和屬于所述鏡頭的幀的預(yù)定頻率帶寬中的PSD的平均分貝值。另外,在步驟272獲得產(chǎn)生新聞主持人候選鏡頭的時(shí)間,并且它是當(dāng)開(kāi)始和結(jié)束新聞主持人候選鏡頭時(shí)的時(shí)間。
在步驟292后的步驟294,獲得在每個(gè)新聞主持人語(yǔ)音鏡頭的代表值和新聞主持人語(yǔ)音模型之間的差DIFF。所述差DIFF可以通過(guò)方程5給出。
DIFF=W2Δ3+(1-W2)Δ4 (5)在此,W2是第二加權(quán)值,Δ3是在按照新聞主持人候選鏡頭的每個(gè)系數(shù)的MFCC的平均值和新聞主持人語(yǔ)音模型之間的差,Δ4是在新聞主持人候選鏡頭的PSD的平均分貝值和新聞主持人語(yǔ)音模型之間的差。
在步驟294后的步驟296,在每個(gè)新聞主持人候選鏡頭中獲得色差信息ΔCOLOR和例如通過(guò)方程5可以表達(dá)的差DIFF的加權(quán)和WS2。色差信息ΔCOLOR是關(guān)于在新聞主持人候選鏡頭和在步驟272檢測(cè)的新聞主持人語(yǔ)音模型之間的色差的信息,并且在步驟296獲得的加權(quán)和WS2可以通過(guò)方程6給出。
WS2=W3ΔCOLOR+(1-W3)DIFF (6)
在此,W3是第三加權(quán)值。在這種情況下,加權(quán)和WS2反映作為運(yùn)動(dòng)圖像的視頻信息的色差信息ΔCOLOR和作為音頻信息的差DIFF,因此被稱為多模態(tài)信息。
在步驟296后的步驟298,當(dāng)加權(quán)值WS2不大于第七門限值TH7時(shí),所述新聞主持人候選鏡頭被確定為實(shí)際新聞主持人鏡頭。但是,當(dāng)加權(quán)值WS2大于第七門限值TH7時(shí),確定所述新聞主持人候選鏡頭不是實(shí)際的新聞主持人鏡頭。
按照本發(fā)明的一個(gè)實(shí)施例,在圖20的步驟270中,可以使用可視信息來(lái)產(chǎn)生新聞主持人圖像模型。所述可視信息是新聞主持人的臉、背景顏色、新聞主持人的衣服顏色或相似的代表幀的發(fā)生頻率的至少一個(gè)。使用可視信息來(lái)產(chǎn)生新聞主持人圖像模型的傳統(tǒng)方法被HongJiang Zhang、Yihong Gong、Smoliar S.W.和Shuang Yeo Tan[“Automatic Parsing of News Video”,MultimediaComputing and Systems,Proceedings of International Conference on,pp.45-54,1994(“新聞視頻的自動(dòng)語(yǔ)法分析”,多媒體計(jì)算和系統(tǒng)國(guó)際會(huì)議會(huì)刊,第45-54頁(yè),1994)]、Hanjalic,A.、Lagensijk,R.L.和Biemond,J.[“Template-basedDetection of Anchorperson Shots in News Program”,Image Processing,ICIP 98.Proceedings,International Conference on,v3,pp.148-152,1998(“在新聞節(jié)目中的新聞主持人鏡頭的基于模板的檢測(cè)”,國(guó)際信息處理會(huì)議98圖像處理國(guó)際會(huì)議會(huì)刊,第3卷,第148-152頁(yè),1998)]、M.Tekalp等[“Video Indexing throughIntegration of Syntactic and Semantic Features”,Proc.Workshop Applications ofComputer Vision,1996(“通過(guò)集成語(yǔ)法和語(yǔ)義特性的視頻索引”,計(jì)算機(jī)視覺(jué)的工作室應(yīng)用會(huì)刊,1996)]、Nakajima,Y、Yamguchi,D.、Kato,H.、Yanagihara,H.和Hatori,Y.[“Automatic Anchorperson Detection from an MPEG coded TVProgram”,Consumer Electronics,ICCE.2002 Digest of Technical Papers.International Conference on,pp.122-123(“從MPEG編碼的電視節(jié)目自動(dòng)新聞主持人檢測(cè)”,消費(fèi)者電子國(guó)際會(huì)議,ICCE 2002技術(shù)論文摘要,第122-123頁(yè))]引入。以這種方式,當(dāng)產(chǎn)生新聞主持人圖像模型時(shí),可以在執(zhí)行圖1的方法的同時(shí)執(zhí)行步驟270和272。在這種情況下,在執(zhí)行步驟24和272后執(zhí)行步驟274。
按照本發(fā)明的另一個(gè)實(shí)施例,在步驟270,可以使用在圖1的步驟16或20獲得的新聞主持人語(yǔ)音鏡頭或相似組來(lái)產(chǎn)生新聞主持人圖像模型。在這種情況下,在步驟270,使用所述新聞主持人語(yǔ)音鏡頭或相似組來(lái)掌握在鏡頭代表幀中的新聞主持人位置,并且使用所述新聞主持人的位置來(lái)產(chǎn)生新聞主持人圖像模型。
如果使用在圖1的步驟16中獲得的新聞主持人語(yǔ)音鏡頭來(lái)產(chǎn)生新聞主持人圖像模型,則可以在圖1的步驟16后執(zhí)行步驟18-24的同時(shí)執(zhí)行步驟270和272。在這種情況下,在步驟24后執(zhí)行步驟274。
或者,如果使用在圖1的步驟20中獲得的相似組來(lái)產(chǎn)生新聞主持人圖像模型,則在圖1的步驟20后執(zhí)行步驟270和272。在這種情況下,在步驟24后執(zhí)行步驟274。
同時(shí),可以通過(guò)執(zhí)行步驟270和272來(lái)實(shí)現(xiàn)圖20的方法。
在這種情況下,按照本發(fā)明的一個(gè)實(shí)施例,當(dāng)在步驟270使用在圖1的步驟16中獲得的新聞主持人語(yǔ)音鏡頭來(lái)產(chǎn)生新聞主持人圖像模型時(shí),在圖1的步驟16后執(zhí)行步驟270和272。在這種情況下,圖1的方法不必包括步驟18-24。
按照本發(fā)明的另一個(gè)實(shí)施例,當(dāng)在步驟270使用在圖1的步驟20中獲得的相似組產(chǎn)生新聞主持人圖像模型時(shí),在圖1的步驟20后執(zhí)行步驟270和272。在這種情況下,圖1的方法不必包括步驟22和24。
以下,將參照附圖來(lái)詳細(xì)說(shuō)明按照本發(fā)明的用于檢測(cè)新聞主持人鏡頭的裝置。
圖22是按照本發(fā)明的一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的裝置的方框圖。圖22的裝置包括信號(hào)分離單元400、邊界確定單元402、下采樣單元404、新聞主持人語(yǔ)音鏡頭提取單元406、鏡頭分離單元408、鏡頭分組單元410、代表值產(chǎn)生單元412和分離的語(yǔ)音模型產(chǎn)生單元414。
圖22的裝置可以執(zhí)行圖1的方法。
為了執(zhí)行步驟10,信號(hào)分離單元400將通過(guò)輸入端IN1輸入的運(yùn)動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào),向下采樣單元404輸出所分離的音頻信號(hào),并且向邊界確定單元402輸出被分離的視頻信號(hào)。
為了執(zhí)行步驟12,邊界確定單元402使用由信號(hào)分離單元400輸入的分離的視頻信號(hào)來(lái)確定鏡頭之間的邊界,并且向新聞主持人語(yǔ)音鏡頭提取單元406輸出鏡頭之間的邊界。
為了執(zhí)行步驟14,下采樣單元404下采樣由信號(hào)分離單元400輸入的分離的音頻信號(hào),并且向新聞主持人語(yǔ)音鏡頭提取單元406輸出下采樣結(jié)果。
為了執(zhí)行步驟16,新聞主持人語(yǔ)音鏡頭提取單元406使用由邊界確定單元402輸入的邊界作為新聞主持人語(yǔ)音鏡頭從下采樣的音頻信號(hào)提取具有大于第一門限值TH1的長(zhǎng)度的鏡頭和具有大于第二門限值TH2的無(wú)聲部分,并且通過(guò)輸出端OUT2向鏡頭分離單元408輸出被提取的新聞主持人語(yǔ)音鏡頭。
如上所述,當(dāng)圖1的方法不包括步驟14時(shí),圖22的裝置可以不包括下采樣單元404。在這種情況下,新聞主持人語(yǔ)音鏡頭提取單元406使用由邊界確定單元402輸入的邊界從音頻信號(hào)提取具有大于第一門限值TH1的長(zhǎng)度的鏡頭和具有大于第二門限值TH2的無(wú)聲部分,并且輸出所提取的鏡頭作為新聞主持人語(yǔ)音鏡頭。
同時(shí),為了執(zhí)行步驟18,鏡頭分離單元408從由新聞主持人語(yǔ)音鏡頭提取單元406輸入的新聞主持人語(yǔ)音鏡頭分離多個(gè)新聞主持人的語(yǔ)音鏡頭,并且向鏡頭分布單元410輸出分離結(jié)果。
為了執(zhí)行步驟20,鏡頭分組單元410從新聞主持人語(yǔ)音鏡頭分組所述多個(gè)新聞主持人的語(yǔ)音鏡頭和新聞主持人的語(yǔ)音鏡頭,將分組結(jié)果確定為相似組,并且通過(guò)輸出端OUT3向代表值產(chǎn)生單元412輸出確定結(jié)果。
為了執(zhí)行步驟22,代表值產(chǎn)生單元412獲得由鏡頭分組單元410輸入的相似組的每個(gè)的代表值,并且向分離的語(yǔ)音模型產(chǎn)生單元414輸出所獲得的結(jié)果作為主持人語(yǔ)音模型。
為了執(zhí)行步驟24,分離的語(yǔ)音模型產(chǎn)生單元414使用關(guān)于在每個(gè)相似組中包括的每個(gè)鏡頭的幀中的初始幀的信息來(lái)產(chǎn)生分離的語(yǔ)音模型,并且通過(guò)輸出端OUT1輸出所產(chǎn)生的分離語(yǔ)音模型。
如上所述,當(dāng)圖1的方法不包括步驟24時(shí),圖22的裝置可以不包括分離的語(yǔ)音模型產(chǎn)生單元414。
圖23是按照本發(fā)明的另一個(gè)實(shí)施例的、用于檢測(cè)新聞主持人鏡頭的裝置的方框圖。圖23的裝置包括圖像模型產(chǎn)生單元440、新聞主持人候選鏡頭檢測(cè)單元442和新聞主持人鏡頭驗(yàn)證單元444。
圖23的裝置可以執(zhí)行圖20的方法。
圖像模型產(chǎn)生單元440產(chǎn)生新聞主持人圖像模型,并且向新聞主持人候選鏡頭檢測(cè)單元442輸出所產(chǎn)生的圖像模型。在這種情況下,圖像模型產(chǎn)生單元440通過(guò)輸入端IN2輸入從圖22的新聞主持人語(yǔ)音鏡頭提取單元406輸出的新聞主持人語(yǔ)音鏡頭?;蛘?,圖像模型產(chǎn)生單元440通過(guò)輸入端IN2輸入從圖22的鏡頭分組單元410輸出的相似組,并且使用所輸入的相似組來(lái)產(chǎn)生新聞主持人語(yǔ)音模型。
為了執(zhí)行步驟272,新聞主持人候選鏡頭檢測(cè)單元442通過(guò)比較由圖像模型產(chǎn)生單元440產(chǎn)生的新聞主持人圖像模型和通過(guò)輸入端IN3輸入的每個(gè)被劃分的鏡頭的關(guān)鍵幀來(lái)檢測(cè)新聞主持人候選鏡頭,并且向新聞主持人鏡頭驗(yàn)證單元444輸出所檢測(cè)到的新聞主持人候選鏡頭。
為了執(zhí)行步驟274,新聞主持人鏡頭驗(yàn)證單元444使用由分離的語(yǔ)音模型產(chǎn)生單元414和代表值產(chǎn)生單元412通過(guò)輸入端IN4輸入的分離的語(yǔ)音模型和新聞主持人語(yǔ)音模型來(lái)驗(yàn)證由新聞主持人候選鏡頭檢測(cè)單元442輸入的新聞主持人候選鏡頭是否是包括新聞主持人圖像的實(shí)際新聞主持人鏡頭,并且通過(guò)輸出端OUT4來(lái)輸出驗(yàn)證結(jié)果。
上述的第一加權(quán)值W1可以設(shè)置為0.5,第三加權(quán)值W3可以設(shè)置為0.5,第一加權(quán)值TH1可以設(shè)置為6,第二加權(quán)值TH2可以設(shè)置為0.85,第四加權(quán)值TH4可以設(shè)置為4,第七加權(quán)值TH7可以設(shè)置為0.51。在這種情況下,彼此比較使用按照本發(fā)明的用于檢測(cè)新聞主持人鏡頭的方法和裝置的結(jié)果和使用用于檢測(cè)在由幾個(gè)廣播站產(chǎn)生的720分鐘長(zhǎng)度數(shù)量的新聞運(yùn)動(dòng)圖像中的新聞主持人鏡頭的傳統(tǒng)方法的結(jié)果,如表1所示。所述傳統(tǒng)方法由Xinbo Gao、Jie Li和Bing Yang[“A Graph-Theoretical Clustering based Anchorperson ShotDetection for News Video Indexing”,ICCIMA,2003(“基于用于新聞視頻索引的新聞主持人鏡頭檢測(cè)的圖形理論分組”,ICCIMA,2003)].引入。
表1
如表1中所示,按照本發(fā)明的用于檢測(cè)新聞主持人鏡頭的方法和裝置比用于檢測(cè)新聞主持人鏡頭的傳統(tǒng)方法具有更多的優(yōu)點(diǎn)。
通過(guò)按照新聞情節(jié)來(lái)分類按照本發(fā)明的方法和裝置檢測(cè)的新聞主持人鏡頭,用戶可以從因特網(wǎng)看見(jiàn)像新聞情節(jié)串連圖板(storyboard)那樣的鏡頭。結(jié)果,用戶可以通過(guò)選擇所感興趣的項(xiàng)目來(lái)簡(jiǎn)要地按鍵對(duì)應(yīng)的運(yùn)動(dòng)圖像報(bào)告。即,使用按照本發(fā)明的用于檢測(cè)新聞主持人鏡頭的方法和裝置,用戶可以自動(dòng)地在期望的時(shí)間記錄運(yùn)動(dòng)圖像的期望內(nèi)容,并且可以從被記錄的鏡頭中選擇和看見(jiàn)用戶最感興趣的鏡頭。
現(xiàn)在,在因?yàn)橐曨l內(nèi)容經(jīng)由廣播、因特網(wǎng)或其他幾種媒體泛濫而改變傳統(tǒng)的電視觀看文化并且出現(xiàn)個(gè)人視頻記錄機(jī)(PVR)、電子節(jié)目指南(EPG)和大容量硬盤驅(qū)動(dòng)器的環(huán)境中,按照本發(fā)明的用于檢測(cè)新聞主持人鏡頭的方法和裝置可以向具有諸如在體育或新聞中的規(guī)則圖形的運(yùn)動(dòng)圖像提供簡(jiǎn)化的情節(jié)串連圖板或精彩場(chǎng)面,并且可以即使在記錄后長(zhǎng)時(shí)間觀看。
如上所述,在按照本發(fā)明的用于檢測(cè)新聞主持人鏡頭的方法和裝置中,可以在諸如具有新聞主持人鏡頭的新聞之類的運(yùn)動(dòng)圖像中產(chǎn)生新聞主持人圖像模型而沒(méi)有預(yù)定的新聞主持人圖像模型,并且即使當(dāng)新聞主持人的衣服或臉的顏色與背景顏色相似時(shí)候,也可以強(qiáng)壯地檢測(cè)新聞主持人鏡頭,可以沒(méi)有第一新聞主持人鏡頭的檢測(cè)新聞主持人鏡頭,并且去除了可能錯(cuò)誤地將類似于新聞主持人鏡頭的報(bào)告鏡頭檢測(cè)為新聞主持人鏡頭的可能,即可以準(zhǔn)確地檢測(cè)新聞主持人鏡頭以便將新聞劃分為情節(jié),按照語(yǔ)音和性別來(lái)分組新聞主持人鏡頭的類型,可以在用于提供內(nèi)容的家用音頻/視頻存儲(chǔ)器或編輯器件中索引運(yùn)動(dòng)圖像的內(nèi)容,因此僅僅包含確定的新聞主持人的評(píng)述的新聞主持人鏡頭被提取和搜索或匯總。
雖然已經(jīng)參照本發(fā)明的示例實(shí)施例具體示出和說(shuō)明了本發(fā)明,但本領(lǐng)域的技術(shù)人員會(huì)理解,在不脫離所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下,可以進(jìn)行形式和細(xì)節(jié)上的各種改變。
權(quán)利要求
1.一種檢測(cè)新聞主持人鏡頭的方法,所述方法包括將活動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào);使用視頻信號(hào)來(lái)確定鏡頭之間的邊界;以及使用所述邊界來(lái)從音頻信號(hào)提取具有大于第一門限值的長(zhǎng)度的鏡頭和具有大于第二門限值的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭確定為新聞主持人語(yǔ)音鏡頭。
2.按照權(quán)利要求1的方法,其中,確定鏡頭之間的邊界包括將在運(yùn)動(dòng)圖像中存在較大改變的部分確定為邊界。
3.按照權(quán)利要求2的方法,其中,在確定鏡頭之間的邊界時(shí),通過(guò)感測(cè)運(yùn)動(dòng)圖像的亮度、色量和運(yùn)動(dòng)中至少一個(gè)的改變來(lái)確定邊界。
4.按照權(quán)利要求1的方法,還包括下采樣音頻信號(hào),并且具有大于第一門限值的長(zhǎng)度的鏡頭和具有大于第二門限值的長(zhǎng)度的無(wú)聲部分利用所述邊界從下采樣的音頻信號(hào)提取,并且確定為新聞主持人語(yǔ)音鏡頭。
5.按照權(quán)利要求4的方法,其中,新聞主持人語(yǔ)音鏡頭的確定包括使用鏡頭之間的邊界來(lái)獲得每個(gè)鏡頭的長(zhǎng)度;從鏡頭選擇具有大于第一門限值的長(zhǎng)度的鏡頭;獲得每個(gè)所選擇的鏡頭的無(wú)聲部分的長(zhǎng)度;以及從所選擇的鏡頭提取具有長(zhǎng)度大于第二門限值的無(wú)聲部分的鏡頭。
6.按照權(quán)利要求5的方法,其中,每個(gè)所選擇的鏡頭的無(wú)聲部分的長(zhǎng)度的獲得包括獲得在每個(gè)所選擇的鏡頭中包括的每個(gè)幀的能量;使用所述能量來(lái)獲得無(wú)聲門限值;使用所述無(wú)聲門限值來(lái)確定每個(gè)所選擇的鏡頭的無(wú)聲部分;以及計(jì)數(shù)在所述無(wú)聲部分中包括的幀的數(shù)量,并且將計(jì)數(shù)結(jié)果確定為所述無(wú)聲部分的長(zhǎng)度。
7.按照權(quán)利要求6的方法,其中通過(guò)下式給出在每個(gè)所選擇的鏡頭中包括的每個(gè)幀的能量Ei=Σn=1fdtfpcmn2fdtf]]>其中,Ei是在每個(gè)鏡頭中包括的幀中第i個(gè)幀的能量,fd是下采樣音頻信號(hào)的頻率,tf是第i個(gè)幀的長(zhǎng)度,pcm是在第i個(gè)幀中包括的每個(gè)采樣的脈沖編碼調(diào)制(PCM)值。
8.按照權(quán)利要求6的方法,其中無(wú)聲門限值的獲得包括將每個(gè)能量表達(dá)為整數(shù);使用被表達(dá)的結(jié)果來(lái)獲得幀相對(duì)于能量的分布;并且將幀相對(duì)于能量的分布中的參考能量確定為無(wú)聲門限值,以及相對(duì)于等于或小于窗口能量的能量分布的幀的數(shù)量大致等于對(duì)應(yīng)于在所選擇的鏡頭中包括的幀的總數(shù)的預(yù)定百分比的數(shù)量。
9.按照權(quán)利要求5的方法,其中,新聞主持人語(yǔ)音鏡頭的確定包括僅僅從所提取的鏡頭中選擇具有較大長(zhǎng)度的預(yù)定百分比的鏡頭,并且將所選擇的鏡頭確定為新聞主持人語(yǔ)音鏡頭。
10.按照權(quán)利要求6的方法,其中,在計(jì)數(shù)幀數(shù)量時(shí),不計(jì)數(shù)每個(gè)所選鏡頭的最后幀。
11.按照權(quán)利要求6的方法,其中,當(dāng)連續(xù)地存在具有大于無(wú)聲門限值的能量的幀時(shí),停止計(jì)數(shù)幀數(shù)量。
12.按照權(quán)利要求1的方法,還包括從新聞主持人語(yǔ)音鏡頭分離包括多個(gè)新聞主持人的語(yǔ)音的多個(gè)新聞主持人的語(yǔ)音鏡頭;分組從新聞主持人語(yǔ)音鏡頭排除了所述多個(gè)新聞主持人的語(yǔ)音鏡頭之外的新聞主持人的語(yǔ)音鏡頭,分組所述多個(gè)新聞主持人的語(yǔ)音鏡頭,并且將分組結(jié)果確定為相似組;以及獲得每個(gè)相似組的代表值作為新聞主持人語(yǔ)音模型。
13.按照權(quán)利要求12的方法,其中從新聞主持人語(yǔ)音鏡頭分離多個(gè)新聞主持人的語(yǔ)音鏡頭包括從每個(gè)新聞主持人語(yǔ)音鏡頭中去除無(wú)聲幀和輔音幀;以及獲得按照從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀的每個(gè)系數(shù)的嘜耳頻率對(duì)數(shù)倒頻譜系數(shù)(MFCC),并且使用所述MFCC來(lái)檢測(cè)多個(gè)新聞主持人的語(yǔ)音鏡頭。
14.按照權(quán)利要求13的方法,其中,無(wú)聲幀的去除包括獲得在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀的能量;使用所述能量來(lái)獲得無(wú)聲門限值;使用所述無(wú)聲門限值來(lái)確定每個(gè)新聞主持人語(yǔ)音鏡頭的無(wú)聲部分;以及從每個(gè)新聞主持人語(yǔ)音鏡頭去除在被確定的無(wú)聲部分中包括的無(wú)聲幀。
15.按照權(quán)利要求13的方法,其中,輔音幀的去除包括獲得在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀中的過(guò)零率;使用在每個(gè)新聞主持人語(yǔ)音鏡頭中包括的每個(gè)幀中的過(guò)零率來(lái)確定輔音幀;以及從每個(gè)新聞主持人語(yǔ)音鏡頭去除所確定的輔音幀。
16.按照權(quán)利要求15的方法,其中,通過(guò)下式來(lái)給出過(guò)零率(ZCR)ZCR=#fdtf]]>其中,#是在脈沖編碼調(diào)制數(shù)據(jù)中的分貝值中的符號(hào)改變的數(shù)量,fd是下采樣音頻信號(hào)的頻率,tf是其中獲得所述ZCR的幀的長(zhǎng)度。
17.按照權(quán)利要求15的方法,其中,輔音幀的確定包括獲得在新聞主持人語(yǔ)音鏡頭中包括的幀的過(guò)零率的平均值;以及將具有大于所述平均值的倍數(shù)的過(guò)零率的幀確定為在每個(gè)新聞主持人語(yǔ)音鏡頭中的輔音幀。
18.按照權(quán)利要求13的方法,其中多個(gè)新聞主持人的語(yǔ)音鏡頭的檢測(cè)包括對(duì)于從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭,在具有預(yù)定長(zhǎng)度的窗口以預(yù)定的時(shí)間間隔移動(dòng)的同時(shí)獲得按照在每個(gè)窗口中包括的幀的每個(gè)系數(shù)的MFCC的平均值;獲得在相鄰窗口之間的MFCC的平均值之間的差;以及對(duì)于從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭,將所述新聞主持人語(yǔ)音鏡頭確定為具有大于第三門限值的差的多個(gè)新聞主持人的語(yǔ)音鏡頭。
19.按照權(quán)利要求13的方法,其中,在多個(gè)新聞主持人的語(yǔ)音鏡頭的檢測(cè)時(shí),在從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭包括的每個(gè)幀中獲得按照每個(gè)系數(shù)和在預(yù)定頻率帶寬中的功率譜密度(PSD)的MFCC,并且使用按照每個(gè)系數(shù)和PSD的MFCC來(lái)檢測(cè)多個(gè)新聞主持人的語(yǔ)音鏡頭。
20.按照權(quán)利要求19的方法,其中多個(gè)新聞主持人的語(yǔ)音鏡頭的檢測(cè)包括對(duì)于從中消除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭,在具有預(yù)定長(zhǎng)度的窗口以預(yù)定的時(shí)間間隔移動(dòng)的同時(shí),獲得按照在每個(gè)窗口中包括的每個(gè)幀的每個(gè)系數(shù)和在預(yù)定頻率帶寬中的PSD的平均分貝值的MFCC的平均值;獲得在相鄰的窗口WD1和WD2之間的MFCC的平均值之間的差Δ1和在相鄰的窗口WD1和WD2之間的PSD的平均分貝值之間的差Δ2;在從中去除了無(wú)聲幀和輔音幀的每個(gè)新聞主持人語(yǔ)音鏡頭中獲得所述差Δ1和Δ2的加權(quán)和;以及將具有大于第四門限值的加權(quán)和的新聞主持人語(yǔ)音鏡頭確定為獨(dú)個(gè)新聞主持人語(yǔ)音鏡頭。
21.按照權(quán)利要求12的方法,其中新聞主持人的語(yǔ)音鏡頭的分組和確定相似組包括獲得在每個(gè)新聞主持人的語(yǔ)音鏡頭中的MFCC的平均值;當(dāng)使用按照兩個(gè)新聞主持人的語(yǔ)音鏡頭的每個(gè)系數(shù)的MFCC的平均值計(jì)算的MFCC距離是在新聞主持人語(yǔ)音鏡頭之中最近的并且小于第五門限值TH5時(shí),所述兩個(gè)新聞主持人語(yǔ)音鏡頭被確定為相似候選鏡頭;獲得在相似候選鏡頭的預(yù)定頻率帶寬中的PSD的平均分貝值之間的差;當(dāng)在平均分貝值之間的差小于第六門限值時(shí),分組相似候選鏡頭,并且將被分組的相似候選鏡頭確定為相似組;并且確定是否分組所有的;以及如果確定所有的新聞主持人語(yǔ)音鏡頭未被分組,則執(zhí)行確定相對(duì)于其他兩個(gè)新聞主持人的語(yǔ)音鏡頭的相似候選鏡頭,獲得所述差,并且確定相似組。
22.按照權(quán)利要求19的方法,其中,所述預(yù)定頻率帶寬是100-150Hz。
23.按照權(quán)利要求21的方法,其中,分組新聞主持人的語(yǔ)音鏡頭和確定相似組還包括當(dāng)在PSD的平均分貝值之間的差不小于第六門限值時(shí),向相似候選鏡頭分配標(biāo)記,以及在向相似候選鏡頭分配所述標(biāo)記后,不再執(zhí)行確定相對(duì)于分配了所述標(biāo)記的相似候選鏡頭的相似候選鏡頭、獲得所述差和確定相似組。
24.按照權(quán)利要求12的方法,其中,所述代表值是按照屬于相似組的鏡頭的每個(gè)系數(shù)的MFCC的平均值和屬于相似組的鏡頭的預(yù)定頻率帶寬中的PSD的平均分貝值。
25.按照權(quán)利要求12的方法,還包括使用關(guān)于在每個(gè)相似組中包括的幀中初始幀的信息來(lái)產(chǎn)生分離的語(yǔ)音模型。
26.按照權(quán)利要求12的方法,還包括產(chǎn)生新聞主持人圖像模型。
27.按照權(quán)利要求26的方法,還包括比較所產(chǎn)生的新聞主持人圖像模型與每個(gè)被劃分的鏡頭的關(guān)鍵幀,并且檢測(cè)新聞主持人語(yǔ)音鏡頭。
28.按照權(quán)利要求25的方法,還包括產(chǎn)生新聞主持人圖像模型。
29.按照權(quán)利要求28的方法,還包括比較所產(chǎn)生的新聞主持人圖像模型與每個(gè)被劃分的鏡頭的關(guān)鍵幀,并且檢測(cè)新聞主持人語(yǔ)音鏡頭。
30.按照權(quán)利要求29的方法,還包括使用分離的語(yǔ)音模型和新聞主持人語(yǔ)音模型來(lái)驗(yàn)證新聞主持人候選鏡頭是否是包括新聞主持人圖像的實(shí)際新聞主持人鏡頭。
31.按照權(quán)利要求26的方法,其中,使用新聞主持人語(yǔ)音鏡頭來(lái)產(chǎn)生所述新聞主持人圖像模型。
32.按照權(quán)利要求26的方法,其中,使用可視信息來(lái)產(chǎn)生所述新聞主持人圖像模型。
33.按照權(quán)利要求26的方法,其中,使用相似組來(lái)產(chǎn)生新聞主持人圖像模型。
34.按照權(quán)利要求30的方法,其中,驗(yàn)證新聞主持人候選鏡頭是否是實(shí)際的新聞主持人鏡頭包括使用在檢測(cè)新聞主持人候選鏡頭中獲得的、產(chǎn)生新聞主持人候選鏡頭的時(shí)間來(lái)獲得每個(gè)新聞主持人候選鏡頭的代表值;獲得在每個(gè)新聞主持人候選鏡頭的代表值和新聞主持人語(yǔ)音模型之間的差;獲得所述差和在檢測(cè)新聞主持人候選鏡頭中獲得的新聞主持人候選鏡頭與相對(duì)于每個(gè)新聞主持人候選鏡頭的新聞主持人語(yǔ)音模型之間的色差信息的加權(quán)和;以及當(dāng)所述加權(quán)和小于第七門限值時(shí),將所述新聞主持人候選鏡頭確定為實(shí)際新聞主持人鏡頭。
35.一種檢測(cè)新聞主持人鏡頭的裝置,所述裝置包括信號(hào)分離單元,用于將活動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào);邊界確定單元,用于使用視頻信號(hào)來(lái)確定鏡頭之間的邊界;以及新聞主持人語(yǔ)音鏡頭提取單元,用于使用所述邊界來(lái)從音頻信號(hào)提取具有大于第一門限值的長(zhǎng)度的鏡頭和具有大于第二門限值的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭輸出為新聞主持人語(yǔ)音鏡頭。
36.按照權(quán)利要求35的裝置,還包括下采樣單元,用于下采樣所分離的音頻信號(hào),并且所述新聞主持人語(yǔ)音鏡頭提取單元提取長(zhǎng)度大于第一門限值的鏡頭作為新聞主持人語(yǔ)音鏡頭,并且使用所述邊界從被下采樣的音頻信號(hào)提取長(zhǎng)度大于第二門限值的無(wú)聲部分。
37.按照權(quán)利要求35的裝置,還包括鏡頭分離單元,用于從新聞主持人語(yǔ)音鏡頭分離包括新聞主持人的語(yǔ)音的鏡頭;鏡頭分組單元,用于分組從新聞主持人語(yǔ)音鏡頭排除了包括所述新聞主持人的語(yǔ)音之外的多個(gè)新聞主持人的語(yǔ)音鏡頭的新聞主持人的語(yǔ)音鏡頭,分組所述多個(gè)新聞主持人的語(yǔ)音鏡頭,并且將分組結(jié)果確定為相似組;以及代表值產(chǎn)生單元,用于計(jì)算每個(gè)相似組的代表值,并且輸出計(jì)算結(jié)果作為新聞主持人語(yǔ)音模型。
38.按照權(quán)利要求37的裝置,還包括分離語(yǔ)音模型產(chǎn)生單元,用于使用關(guān)于在每個(gè)相似組中包括的每個(gè)鏡頭的幀中的初始幀的信息來(lái)產(chǎn)生分離的語(yǔ)音模型。
39.按照權(quán)利要求37的裝置,還包括圖像模型產(chǎn)生單元,用于產(chǎn)生新聞主持人圖像模型。
40.按照權(quán)利要求39的裝置,還包括新聞主持人候選鏡頭檢測(cè)單元,用于比較所產(chǎn)生的新聞主持人圖像模型與每個(gè)所劃分出的鏡頭的關(guān)鍵幀,并且檢測(cè)新聞主持人候選鏡頭。
41.按照權(quán)利要求38的裝置,還包括圖像模型產(chǎn)生單元,用于產(chǎn)生新聞主持人語(yǔ)音模型,
42.按照權(quán)利要求41的裝置,還包括新聞主持人候選鏡頭檢測(cè)單元,用于比較被產(chǎn)生的新聞主持人圖像模型與每個(gè)所劃分出的鏡頭的關(guān)鍵幀,并且檢測(cè)新聞主持人候選鏡頭。
43.按照權(quán)利要求42的裝置,還包括新聞主持人鏡頭驗(yàn)證單元,用于使用分離的語(yǔ)音模型和新聞主持人語(yǔ)音模型來(lái)驗(yàn)證新聞主持人候選鏡頭是否是包括新聞主持人圖像的實(shí)際新聞主持人鏡頭。
全文摘要
本發(fā)明提供了用于檢測(cè)新聞主持人鏡頭的方法和裝置。所述方法包括將活動(dòng)圖像分離為音頻信號(hào)和視頻信號(hào);使用視頻信號(hào)來(lái)確定鏡頭之間的邊界;使用所述邊界來(lái)從音頻信號(hào)提取具有大于第一門限值的長(zhǎng)度的鏡頭和具有大于第二門限值的長(zhǎng)度的無(wú)聲部分,并且將所提取的鏡頭確定為新聞主持人語(yǔ)音鏡頭。
文檔編號(hào)G10L17/00GK1658226SQ20051000366
公開(kāi)日2005年8月24日 申請(qǐng)日期2005年1月7日 優(yōu)先權(quán)日2004年2月20日
發(fā)明者金相均, 黃斗善, 金智淵, 文永秀, 許永植 申請(qǐng)人:三星電子株式會(huì)社