專(zhuān)利名稱(chēng):電子設(shè)備、視頻內(nèi)容編輯方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及能夠編輯視頻內(nèi)容的電子設(shè)備、在該電子設(shè)備中的視頻內(nèi)容 編輯方法、以及其程序。
背景技術(shù):
過(guò)去,已進(jìn)行了給用攝像機(jī)等所拍攝的視頻內(nèi)容添加BGM(背景音樂(lè))、 聲音效果等的編輯4乘作。例如,曰本專(zhuān)利申請(qǐng)?zhí)亻_(kāi)No. 2001-202082 (第0024 和0031段、圖2等)(以下稱(chēng)其為專(zhuān)利文獻(xiàn)l)揭示了視頻信號(hào)編輯設(shè)備,在此 設(shè)備中,提取作為編輯目標(biāo)的視頻的特征(記錄時(shí)段和圖像數(shù)量),并根據(jù)預(yù)定 用戶(hù)給出的指令,自動(dòng)產(chǎn)生用于編輯目標(biāo)視頻的最佳音樂(lè),并將其添加到編 輯目標(biāo)視頻。
發(fā)明內(nèi)容
然而,在專(zhuān)利文獻(xiàn)1所揭示的4支術(shù)中,當(dāng)向編輯目標(biāo)3見(jiàn)頻中加入音樂(lè)時(shí), 擦除了被記錄在原始編輯目標(biāo)視頻上的原始音頻信號(hào)。因此,取決于場(chǎng)景 (scene ),在某些情況下留下原始信號(hào)而不添加音樂(lè)能夠使編輯目標(biāo)視頻給 人更為深刻的印象。但是,利用專(zhuān)利文獻(xiàn)l中揭示的技術(shù),難于實(shí)現(xiàn)這一點(diǎn), 這就會(huì)讓用戶(hù)感到不方便。此外,通常,用戶(hù)可以手動(dòng)選擇在編輯目標(biāo)視頻 中要加入音樂(lè)的部分,和其中有要保留原始音頻信號(hào)以便對(duì)其進(jìn)行編輯的部 分。然而,這些任務(wù)是極為復(fù)雜和麻煩的。
鑒于上述的情況,希望提供一種電子設(shè)備、視頻內(nèi)容編輯方法和程序, 它們能夠有效地保留在原始視頻內(nèi)容中的音頻信號(hào),并根據(jù)場(chǎng)景來(lái)添加另外 的音頻信號(hào)。
根據(jù)本發(fā)明的具體實(shí)施例,提出了一種電子設(shè)備。該電子設(shè)備包括第 一輸入裝置、第二輸入裝置、第一計(jì)算裝置、第二計(jì)算裝置、設(shè)置裝置和產(chǎn) 生裝置。第一輸入裝置輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)。 第二輸入裝置輸入不同于第一音頻信號(hào)的第二音頻信號(hào)。第 一計(jì)算裝置從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū),并計(jì)算用于評(píng)估所 檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。第二計(jì)算裝置從輸入的第 一音頻 信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。 設(shè)置裝置根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一 加權(quán)因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重,第二加 權(quán)因子指示第二音頻信號(hào)的權(quán)重。產(chǎn)生裝置根據(jù)所設(shè)置的第一加權(quán)因子和第 二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信 號(hào),并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
在此,這種電子設(shè)備的例子包括PC(個(gè)人計(jì)算機(jī)),使用諸如HDD(硬盤(pán) 驅(qū)動(dòng)器)/DVD/BD(藍(lán)光盤(pán))之類(lèi)的記錄介質(zhì)的記錄/再現(xiàn)裝置、數(shù)字視頻攝像 機(jī)、移動(dòng)AV(音頻/視頻)設(shè)備、移動(dòng)電話(huà)和游戲機(jī)等。第一視頻內(nèi)容是指由 諸如攝像機(jī)之類(lèi)的設(shè)備記錄的視頻內(nèi)容、通過(guò)網(wǎng)絡(luò)接收的視頻內(nèi)容等。第二 音頻信號(hào)是指BGM的音頻信號(hào)、聲音效果等。
通過(guò)這個(gè)結(jié)構(gòu),該電子設(shè)備能夠根據(jù)在第一視頻內(nèi)容中包括的面部圖像 和語(yǔ)音來(lái)改變第一和第二音頻信號(hào)的權(quán)重,并從第一視頻內(nèi)容來(lái)產(chǎn)生第二視 頻內(nèi)容。這樣,就能根據(jù)場(chǎng)景按原樣保留人的語(yǔ)音或者插入另外的聲音,其 結(jié)果是,與只將另一個(gè)聲音插入到第一視頻內(nèi)容中的情況相比,能夠提高編 輯效果并能產(chǎn)生給人印象更為深刻的第二視頻內(nèi)容。
當(dāng)面部評(píng)估值等于或大于第一閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值 時(shí),設(shè)置裝置可以將第一加權(quán)因子設(shè)置為大于第二加權(quán)因子的第一值。
在面部評(píng)估值和語(yǔ)音評(píng)估值都大的情況下,極可能在第一視頻內(nèi)容中出 現(xiàn)的那個(gè)人在說(shuō)話(huà)。在此情況下,盡可能地將第一加權(quán)因子設(shè)置得大于第二 加權(quán)因子,以便強(qiáng)調(diào)這個(gè)人的語(yǔ)音,其結(jié)果是,能夠使得對(duì)此人的印象更為 深刻。在此,可以將第一值設(shè)置為1。
當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值小于第二閾值時(shí),設(shè)置裝置 可以將第一加權(quán)因子設(shè)置為小于第二加權(quán)因子的第二值。
在面部評(píng)估值和語(yǔ)音評(píng)估值都小的情況下,極可能這個(gè)人沒(méi)出現(xiàn)在第一 視頻內(nèi)容中。在此情況下,盡可能地將第一加權(quán)因子設(shè)置得小于第二加權(quán)因 子,以便強(qiáng)調(diào)第二音頻信號(hào),因此,可能進(jìn)行編輯以使得在第一視頻內(nèi)容中 的不起眼的場(chǎng)景變得更加吸引人。在此,可以將第二值設(shè)置為0。
當(dāng)面部評(píng)估值等于或大于第一閾值并且語(yǔ)音評(píng)估值小于第二閾值時(shí),設(shè)置裝置可以根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置得大于第二加 權(quán)因子。
在面部評(píng)估值大而語(yǔ)音評(píng)估值小的情況下,人的面部出現(xiàn)在第 一視頻內(nèi) 容中,因此,這個(gè)人可能是用小的語(yǔ)音說(shuō)某些事情。在此情況下,將第一音 頻信號(hào)的權(quán)重設(shè)置得大,并同時(shí)添加第二音頻信號(hào),其結(jié)果是,在強(qiáng)調(diào)第一 音頻信號(hào)的同時(shí),能夠添加第二音頻信號(hào)的效果。
當(dāng)面部評(píng)估值小于第 一 閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值時(shí),設(shè) 置裝置可以根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置得小于第二加 權(quán)因子。
在面部評(píng)估值小而語(yǔ)音評(píng)估值大的情況下,這個(gè)人幾乎不出現(xiàn)在第一視 頻內(nèi)容中,因此,即使在包含人的某些語(yǔ)音的情況下,語(yǔ)音可能幾乎與圖像 無(wú)關(guān)。在此情況下,在保留第一音頻信號(hào)的同時(shí),將第二音頻信號(hào)的權(quán)重設(shè) 置得大,其結(jié)果是,在保留第一音頻信號(hào)的同時(shí),能夠添加第二音頻信號(hào)的 效果。
根據(jù)本發(fā)明的電子設(shè)備可以還包括用于存儲(chǔ)指示特定人的面部的特征的 面部特征數(shù)據(jù)的存儲(chǔ)裝置。
在此情況下,第 一計(jì)算裝置能夠根據(jù)所存儲(chǔ)的面部特征數(shù)據(jù)來(lái)檢測(cè)其中 含了特定人的面部的面部圖像區(qū)。
通過(guò)此結(jié)構(gòu),即使在視頻內(nèi)容中出現(xiàn)了多個(gè)人的面部,也可能區(qū)別特定 人面部和其它人的面部并檢測(cè)該面部。因此,能夠根據(jù)所聚焦的特定人來(lái)有 效地進(jìn)行第 一和第二音頻信號(hào)的加權(quán)因子的設(shè)置處理。
該電子設(shè)備可以還包括存儲(chǔ)裝置,用以存儲(chǔ)指示特定人的語(yǔ)音的特征的 語(yǔ)音特征數(shù)據(jù)。
在此情況下,第二計(jì)算裝置能夠根據(jù)所存儲(chǔ)的語(yǔ)音特征數(shù)據(jù)來(lái)檢測(cè)特定 人的語(yǔ)音。
通過(guò)此結(jié)構(gòu),即使在視頻內(nèi)容中包含多個(gè)人的語(yǔ)音的情況下,也可能區(qū) 別特定人的語(yǔ)音和其它人的語(yǔ)音。因此,能夠根據(jù)所聚焦的特定人來(lái)有效地 進(jìn)行第一和第二音頻信號(hào)的加權(quán)因子的設(shè)置處理。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供了編輯視頻內(nèi)容的方法。該方法包括 輸入構(gòu)成第 一視頻內(nèi)容的圖像信號(hào)和第 一音頻信號(hào),并輸入不同于第 一音頻 信號(hào)的第二音頻信號(hào)。該方法還包括從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像 區(qū),并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。
該方法還包括從輸入的第一音頻信號(hào)中^r測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng) 估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
此方法還包括根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信 號(hào)的第一加權(quán)因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重, 第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重。
這個(gè)方法還包括根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中 混合了第 一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào),并產(chǎn)生由第三音頻信 號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
通過(guò)此結(jié)構(gòu),能根據(jù)場(chǎng)景照原樣保留人的語(yǔ)音或者插入另外的聲音,其 結(jié)果是,與只將另一個(gè)聲音插入到第一視頻內(nèi)容中的情況相比,增加了編輯 效果并能產(chǎn)生更力。印象深刻的第二視頻內(nèi)容。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提出了一種程序,以便使得該電子設(shè)備執(zhí) 行第一輸入步驟、第二輸入步驟、第一計(jì)算步驟、第二計(jì)算步驟、設(shè)置步驟 和產(chǎn)生步驟。
在第 一輸入步驟中,輸入構(gòu)成第 一視頻內(nèi)容的圖像信號(hào)和第 一音頻信號(hào)。
在第二輸入步驟中,輸入不同于第 一音頻信號(hào)的第二音頻信號(hào)。
在第 一計(jì)算步驟中,從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面 部圖像區(qū),并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。
在第二計(jì)算步驟中,從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算 用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
在設(shè)置步驟中,根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像 信號(hào)的第一加權(quán)因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán) 重,第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重。
在產(chǎn)生步驟中,根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中 混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào),并產(chǎn)生由第三音頻信 號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提出了一種電子設(shè)備。該電子設(shè)備包括第 一輸入單元、第二輸入單元、第一計(jì)算單元、第二計(jì)算單元、設(shè)置單元和產(chǎn) 生單元。第一輸入單元輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)。第二輸入單元輸入不同于第 一音頻信號(hào)的第二音頻信號(hào)。第 一計(jì)算單元從輸 入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū),并計(jì)算用于評(píng)估所 檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。第二計(jì)算單元從輸入的第 一音頻
信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估所;險(xiǎn)測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
設(shè)置單元根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一 加權(quán)因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重,第二加 權(quán)因子指示第二音頻信號(hào)的權(quán)重。產(chǎn)生單元根據(jù)所設(shè)置的第一加權(quán)因子和第 二加權(quán)因子來(lái)產(chǎn)生其中混合了第 一音頻信號(hào)和第二音頻信號(hào)的第三音頻信
號(hào),并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二^L頻信號(hào)內(nèi)容。
如上所述,根據(jù)本發(fā)明,在有效地保留在原始視頻內(nèi)容中的音頻信號(hào)的
同時(shí),還可以才艮據(jù)場(chǎng)景添加另外的音頻信號(hào)。
如附圖所示,根據(jù)下面對(duì)本發(fā)明的最佳模式實(shí)施例的詳細(xì)陳述,本發(fā)明
的上述和其他目的、特征和優(yōu)點(diǎn)將會(huì)變得更加清楚。
圖1是示出了根據(jù)本發(fā)明的實(shí)施例的記錄/再現(xiàn)裝置的結(jié)構(gòu)的方塊圖; 圖2概念性地說(shuō)明了在本發(fā)明的實(shí)施例中的、用于面部圖像的檢測(cè)的學(xué) 習(xí)處理的圖3是示出了根據(jù)本發(fā)明的實(shí)施例的用記錄/再現(xiàn)裝置對(duì)視頻內(nèi)容進(jìn)行 BGM插入處理的流程的流程圖4是概念性地示出了在本發(fā)明的實(shí)施例中的面部圖像區(qū)的檢測(cè)處理的
圖5是概念性地示出了在本發(fā)明的實(shí)施例中的語(yǔ)音檢測(cè)處理的圖6是示出了在本發(fā)明的實(shí)施例中的加權(quán)因子k和m的設(shè)置處理的表格;
圖7是示出了在本發(fā)明的實(shí)施例中、在幀圖像與每個(gè)面部評(píng)估值、語(yǔ)音
評(píng)估值、加權(quán)因子k和m以及視頻內(nèi)容之間的關(guān)系的圖;以及
圖8是概念性地示出了在本發(fā)明的另一個(gè)實(shí)施例中、使用邊緣強(qiáng)度圖像
的面部識(shí)別處理的圖。
具體實(shí)施例方式
以下,將參照附圖來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施例。圖1是示出了根據(jù)本發(fā)明的實(shí)施例的記錄/再現(xiàn)裝置的結(jié)構(gòu)的方塊圖。 如圖1所示,根據(jù)此實(shí)施例的記錄/再現(xiàn)裝置100包括圖像信號(hào)輸入單
元1和3、,音頻信號(hào)輸入單元2和4、輸入圖像處理單元5、輸入音頻處理 單元6、圖像特征檢測(cè)單元7、音頻特征檢測(cè)單元8、記錄單元9、和記錄介 質(zhì)10。記錄/再現(xiàn)裝置100還包括再現(xiàn)單元11、輸出圖像處理單元12、輸 出音頻處理單元13、用戶(hù)接口單元14、 CPU(中央處理單元)15、以及RAM(隨 機(jī)存取存儲(chǔ)器)16。
圖像信號(hào)輸入單元1和3是各種有線(xiàn)通信端子或無(wú)線(xiàn)通信單元。有線(xiàn)通 信端子的例子包括S端子、RCA端子、DVI(數(shù)字視頻接口)端子、HDMI(高 分辨率多媒體接口)端子、以太(注冊(cè)商標(biāo))端子。此外,還可以使用USB(通用 串行總線(xiàn))端子、IEEE 1394端子等。無(wú)線(xiàn)通信單元的例子包括無(wú)線(xiàn)LAN、藍(lán) 牙(注冊(cè)商標(biāo))、無(wú)線(xiàn)USB、和無(wú)線(xiàn)HDMI。有線(xiàn)通信端子和無(wú)線(xiàn)通信通信端 子并非僅限于此。從每個(gè)圖像信號(hào)輸入單元1和3上向記錄/再現(xiàn)裝置100 輸入視頻內(nèi)容的圖像信號(hào),并通過(guò)各種電纜或無(wú)線(xiàn)網(wǎng)絡(luò)將其提供給輸入圖像 處理單元5。在此,視頻內(nèi)容是指例如用攝像機(jī)等拍攝的內(nèi)容或者是互聯(lián)網(wǎng) 上的內(nèi)容。
音頻信號(hào)輸入單元2和4也是各種有線(xiàn)通信端子或無(wú)線(xiàn)通信單元,除了 S端子和DVI端子之外,這些端子的例子幾乎與上述的端子和單元相同。從 每一個(gè)音頻信號(hào)輸入單元2和4,向記錄/再現(xiàn)裝置100輸入圖像內(nèi)容的音 頻信號(hào),并通過(guò)各種電纜或無(wú)線(xiàn)網(wǎng)絡(luò)將其提供給輸入音頻處理單元6。
此外,圖像信號(hào)輸入單元1和3以及音頻信號(hào)輸入單元2和4中的每一 個(gè)都可以是例如,調(diào)諧器和用于通過(guò)天線(xiàn)(未示出)將被包括在數(shù)字廣播信號(hào)中 的圖像信號(hào)和音頻信號(hào)輸入到記錄/再現(xiàn)裝置100中的天線(xiàn)輸入端子。
輸入圖像處理單元5對(duì)輸入的圖像信號(hào)進(jìn)行各種信號(hào)處理,例如,數(shù)字 轉(zhuǎn)換處理和編碼處理,然后,將該信號(hào)輸出到圖像特征檢測(cè)單元7和記錄單 元9作為數(shù)字圖像信號(hào)。
輸入音頻處理單元6對(duì)輸入的音頻信號(hào)進(jìn)行各種信號(hào)處理,例如,數(shù)字 轉(zhuǎn)換處理和編碼處理,然后,將該信號(hào)輸出到音頻特征4企測(cè)單元8和記錄單 元9作為數(shù)字音頻信號(hào)。
圖像特征檢測(cè)單元7根據(jù)從輸入圖像處理單元5提供的圖像信號(hào)來(lái)檢測(cè) 指示人的面部的面部圖像(面部圖像區(qū)),并計(jì)算用于評(píng)估面部圖像區(qū)的確定性(certainty)的面部評(píng)估值。
人的語(yǔ)音,并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
記錄單元9多路復(fù)用從輸入圖^f象處理單元5提供的圖像信號(hào)以及從輸入 音頻處理單元6提供的音頻信號(hào),并將此多^各復(fù)用的信號(hào)記錄在記錄介質(zhì)10 上。
作為記錄介質(zhì)10,可以使用諸如HDD和閃存之類(lèi)的內(nèi)置記錄介質(zhì)以及 諸如光盤(pán)和存儲(chǔ)卡之類(lèi)的便攜式記錄介質(zhì)。作為光盤(pán),可以使用BD、 DVD、 CD等。記錄介質(zhì)IO存儲(chǔ)各種視頻內(nèi)容、各種程序和數(shù)據(jù)等等。在記錄介質(zhì) IO是內(nèi)置的記錄介質(zhì)的情況下,記錄介質(zhì)IO存儲(chǔ)OS以及用于進(jìn)行以下處理 的各種程序和數(shù)據(jù)面部圖像的檢測(cè)處理、語(yǔ)音的檢測(cè)處理、這些檢測(cè)處理 的學(xué)習(xí)(learning)處理、視頻內(nèi)容的音頻編輯處理等。在記錄介質(zhì)10是便 攜式的記錄介質(zhì)的情況下,為記錄/再現(xiàn)裝置100另外提供了內(nèi)置的記錄介 質(zhì)(未示出),用于記錄上述的各種程序和數(shù)據(jù)。
再現(xiàn)單元11讀取在記錄介質(zhì)10上記錄的多路復(fù)用的圖像信號(hào)和音頻信 號(hào),以便分離它們,解碼分離了的圖像信號(hào)和音頻信號(hào),并將圖像信號(hào)提供 給輸出圖像處理單元12,將音頻信號(hào)提供給輸出音頻處理單元13。作為圖像 信號(hào)和音頻信號(hào)的壓縮格式,可以使用例如,MPEG(運(yùn)動(dòng)圖像專(zhuān)家組)-2和 MPEG畫(huà)4。
輸出圖像處理單元12進(jìn)行各種信號(hào)處理,例如,模擬轉(zhuǎn)換處理和OSD(屏 上顯示)處理,并將圖像信號(hào)輸出到諸如與記錄/再現(xiàn)裝置100相連的液晶顯 示器或在記錄/再現(xiàn)裝置100中并入的液晶顯示器的外部裝置。
輸出音頻處理單元13進(jìn)行諸如模擬轉(zhuǎn)換處理之類(lèi)的各種信號(hào)處理,并將 音頻信號(hào)輸出到外部裝置或內(nèi)置的液晶顯示器。
用戶(hù)接口單元14的例子包括操作按鈕、開(kāi)關(guān)、鼠標(biāo)、鍵盤(pán)和遙控器的紅 外線(xiàn)信號(hào)接收單元。將由用戶(hù)操作的各種指令輸入到用戶(hù)接口單元14,并從 這里輸出到CPU 15。
CPU 15適當(dāng)?shù)卮嫒AM 16等,并對(duì)記錄/再現(xiàn)裝置100的塊進(jìn)行全面 的控制。將RAM16用作為CPU15的工作區(qū)等,并暫時(shí)存儲(chǔ)OS(操作系統(tǒng))、 程序、處理數(shù)據(jù)等。
外部音頻源17是諸如PC和各種AV器件的外部裝置,并存儲(chǔ)要插入到視頻內(nèi)容中的BGM(或聲音效果)的音頻信號(hào)(以下稱(chēng)其為BGM聲音),并通過(guò) 各種接口將音頻信號(hào)輸入到CPU 15。或者,外部音頻源17可以是被并入或 被安裝在記錄/再現(xiàn)裝置100中的記錄介質(zhì),例如,記錄介質(zhì)10。 下面,將說(shuō)明上述構(gòu)造的記錄/再現(xiàn)裝置100的操作。 在此實(shí)施例中,記錄/再現(xiàn)裝置100能夠編輯視頻內(nèi)容以在視頻內(nèi)容中 插入被存儲(chǔ)在外部音頻源17中的BGM聲音。如上所述,在插入BGM聲音 時(shí),記錄/再現(xiàn)裝置100從視頻內(nèi)容的圖像信號(hào)檢測(cè)面部圖像,并從音頻信 號(hào)檢測(cè)語(yǔ)音。據(jù)此,記錄/再現(xiàn)裝置100判斷BGM聲音的插入是否是合適 的。具體地,對(duì)于面部圖像的檢測(cè)而言,記錄/再現(xiàn)裝置100進(jìn)行作為預(yù)處 理的學(xué)習(xí)處理。下面將要說(shuō)明該學(xué)習(xí)處理。
圖2概念性地說(shuō)明了在本發(fā)明的實(shí)施例中的、用于面部圖像的檢測(cè)的學(xué) 習(xí)處理。
如圖2所示,在記錄/再現(xiàn)裝置100的記錄介質(zhì)10中,表示各個(gè)人的面 部圖像的采樣的面部圖像采樣數(shù)據(jù)和指示非面部圖像的采樣的非面部圖像采 樣數(shù)據(jù)被編譯作為數(shù)據(jù)庫(kù),并被存儲(chǔ)作為供學(xué)習(xí)用的數(shù)據(jù)。
記錄/再現(xiàn)裝置100的圖像特征檢測(cè)單元7利用特征過(guò)濾器(feature filter)來(lái)過(guò)濾在面部圖像采樣數(shù)據(jù)庫(kù)和非面部圖像采樣數(shù)據(jù)庫(kù)中存儲(chǔ)的采樣 圖像數(shù)據(jù),并提取各個(gè)面部特征,以及檢測(cè)特征向量(特征數(shù)據(jù))。
如圖2所示,特征過(guò)濾器檢測(cè)在圖像中的的矩形的某些部分并蓋住其它 部分。利用特征過(guò)濾器,并從作為面部特征的面部圖^f象采樣數(shù)據(jù)來(lái)檢測(cè)在眼 睛、眉毛、鼻子、面頰和其它部分之間的位置關(guān)系,并且,從作為非面部特 征的非面部圖像采樣數(shù)據(jù)中檢測(cè)除了該面部以外的對(duì)象的形狀、對(duì)象的組成
部分之間的位置關(guān)系等。特征過(guò)濾器并非只限于矩形特征過(guò)濾器,還可以使 用用于檢測(cè)圓形特征的分離度過(guò)濾器、用于根據(jù)在特定方向上的邊緣來(lái)檢測(cè) 面部的各個(gè)部分之間的位置關(guān)系的Gabor過(guò)濾器等。對(duì)于面部特征的檢測(cè), 除了特征過(guò)濾器而外,例如,還可以使用亮度分布信息和膚色信息。
在此,圖像特征檢測(cè)單元7難于基于采樣圖像數(shù)據(jù)來(lái)識(shí)別面部區(qū)的尺寸 和位置。因此,在改變特征過(guò)濾器的幀尺寸并進(jìn)行特征過(guò)濾的情況下,圖像 特征檢測(cè)單元7在獲取最可能的檢測(cè)值的時(shí)候,識(shí)別特征過(guò)濾器尺寸作為面 部區(qū)尺寸,并提取面部特征。此外,在用特征過(guò)濾器來(lái)掃描釆樣圖像數(shù)據(jù)的 整個(gè)區(qū)域的情況下,圖像特征檢測(cè)單元7在獲取最可能的檢測(cè)值的時(shí)候 識(shí)
12別特征過(guò)濾器的位置作為面部區(qū)的位置,并提取面部特征。
圖像特征檢測(cè)單元7根據(jù)從面部圖像采樣數(shù)據(jù)和非面部圖像采樣數(shù)據(jù)中
提取的特征來(lái)產(chǎn)生多維特征向量。然后,圖^f象特征檢測(cè)單元7用多維向量空 間來(lái)表示特征向量,并通過(guò)統(tǒng)計(jì)機(jī)學(xué)習(xí)(statistical machine leaming)來(lái)產(chǎn)生辨別 函數(shù)。所產(chǎn)生的辨別函數(shù)被存儲(chǔ)在記錄介質(zhì)IO等中,并當(dāng)從作為編輯目標(biāo)的 視頻內(nèi)容中檢測(cè)面部圖像時(shí)被使用。
此外,除了使用辨別函數(shù)的辨別分析處理外,可以進(jìn)行使用諸如支持向 量機(jī)(SVM)、 Ado-boost和神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法的辨別分析處理。在此情 況下,除了辨別函數(shù)外,在記錄/再現(xiàn)裝置100中并入用于進(jìn)行辨別處理的 處理模塊。在以下說(shuō)明中,涉及辨別函數(shù)的處理也同樣是成立的。
下面,將要說(shuō)明使用在此實(shí)施例中的記錄/再現(xiàn)裝置100來(lái)編輯視頻內(nèi) 容和在視頻內(nèi)容中插入BGM數(shù)據(jù)的處理。
圖3是示出了根據(jù)本發(fā)明的實(shí)施例的用記錄/再現(xiàn)裝置100向視頻內(nèi)容 的BGM插入處理的流程的流程圖。
如圖3所示,首先,從記錄介質(zhì)10讀取或從圖傳_信號(hào)輸入單元1或3 和音頻信號(hào)輸入單元2或4輸入編輯目標(biāo)一見(jiàn)頻內(nèi)容。隨后,CPU 15從^見(jiàn)頻內(nèi) 容上提取預(yù)定部分(預(yù)定數(shù)量的連續(xù)幀)的圖l象信號(hào)和音頻信號(hào)(步驟31)。將所 提取的預(yù)定部分的圖像信號(hào)提供給圖像特征檢測(cè)單元7,并將所提取的預(yù)定 部分的音頻信號(hào)提供給音頻特征檢測(cè)單元8。
隨后,圖像特征檢測(cè)單元7通過(guò)使用辨別函數(shù)來(lái)從預(yù)定部分的圖像信號(hào) 檢測(cè)面部圖像區(qū)(步驟32)。圖4是概念性地示出了面部圖像區(qū)的檢測(cè)處理的 圖。如圖4所示,圖像特征檢測(cè)單元7使用特征過(guò)濾器來(lái)過(guò)濾預(yù)定部分的圖 像信號(hào),檢測(cè)面部特征,以及產(chǎn)生多維特征向量。然后,圖像特征檢測(cè)單元 7將特征向量的每維的值放入到辨別函數(shù)的每維的變量中,并根據(jù)辨別函數(shù) 的輸出是正的還是負(fù)的來(lái)判斷圖像信號(hào)是否包括面部圖像區(qū)。
然后,圖像特征檢測(cè)單元7根據(jù)辨別函數(shù)的輸出值來(lái)計(jì)算面部評(píng)估值Tf, 以便評(píng)估面部圖像檢測(cè)的確定性(步驟32)。面部評(píng)估值是指當(dāng)根據(jù)預(yù)定的、 確定的面部圖像數(shù)據(jù)來(lái)產(chǎn)生特征向量并將所產(chǎn)生的特征向量輸入到辨別函數(shù) 中時(shí)、用百分比表達(dá)的辨別函數(shù)的輸出值,。
隨后,音頻特征檢測(cè)單元8從預(yù)定部分的音頻信號(hào)檢測(cè)含有人的語(yǔ)音的 部分(步驟34)。圖5是概念性地示出了語(yǔ)音檢測(cè)處理的圖。在圖5中,指示了預(yù)定部分的音頻信號(hào)的功率。圖5所示的波形A指示人的語(yǔ)音,圖5所示 的波形B指示除了人的語(yǔ)音之外的聲音。
如圖5所示,首先,音頻特征檢測(cè)單元8設(shè)置與音頻功率相關(guān)的閾值A(chǔ)th, 以便消除噪聲影響。隨后,當(dāng)預(yù)定部分中的平均功率大于Ath時(shí),音頻特征 檢測(cè)單元8判斷該部分是音頻部分。當(dāng)平均功率小于Ath時(shí),音頻特征;險(xiǎn)測(cè) 單元8判斷該部分是非音頻部分。這就是說(shuō),在圖5中,確定除了波形A和 B以外的音頻信號(hào)為非音頻部分的信號(hào)。
在音頻部分中,個(gè)人的語(yǔ)音包括輔音、元音、吸氣等,因此,其具有的 特征在于,預(yù)定功率或更大功率的連續(xù)部分短于除了在音樂(lè)等中語(yǔ)音以外的 聲音的連續(xù)部分。通過(guò)使用這個(gè)特征,音頻特征檢測(cè)單元8設(shè)置與時(shí)間段相
率)小于Tth的情況下,音頻特征;險(xiǎn)測(cè)單元8判斷這個(gè)部分是語(yǔ)音部分,而在
況下,音頻特征檢測(cè)單元8判斷這個(gè)部分是非語(yǔ)音部分。
隨后,音頻特征檢測(cè)單元8才艮據(jù)所纟企測(cè)的語(yǔ)音的音量(功率級(jí)別或振幅) 來(lái)計(jì)算語(yǔ)音評(píng)估值Tv(步驟35)。語(yǔ)音評(píng)估值是指表示在能被檢測(cè)的語(yǔ)音的最 大功率級(jí)別是1的情況下按百分比表述的語(yǔ)音功率級(jí)別的值。
隨后,CPU 15判斷面部評(píng)估值Tf是否等于或大于預(yù)定的閾值Tfs(步驟 36)。當(dāng)面部評(píng)估值Tf等于或大于預(yù)定的閾值Tfs(是)時(shí),CPU15就判斷語(yǔ)音 評(píng)估值Tv是否等于或大于預(yù)定的閾值Tvs(步驟37)。
當(dāng)語(yǔ)音評(píng)估值Tv等于或大于Tvs(是)時(shí),CPU 15就將BGM聲音的加權(quán) 因子k設(shè)置為小于0.5的預(yù)定權(quán)重kl,并將一見(jiàn)頻內(nèi)容的音頻信號(hào)的加權(quán)因子m 設(shè)置為l-kl。例如,將kl設(shè)置為0。即使當(dāng)不是0時(shí),也將kl設(shè)置成盡可 能接近于0的值。
在步驟37中,當(dāng)語(yǔ)音評(píng)估值Tv小于閾值Tvs(否)時(shí),那么,CPU 15就 根據(jù)面部評(píng)估值Tf和語(yǔ)音評(píng)估值Tv來(lái)設(shè)置加權(quán)因子k和m(步驟39)。這就 是說(shuō),雖然加權(quán)因子k和m兩者都不是O或1,也將加權(quán)因子k設(shè)置得小于 加4又因子m。
在步驟36中,當(dāng)面部評(píng)估值Tf小于閾值Tfs(否)時(shí),CPU 15就判斷語(yǔ) 音評(píng)估值Tv是否等于或大于預(yù)定的閾值Tvs(步驟40)。如果語(yǔ)音評(píng)估值Tv 等于或大于閾值Tvs(是),那么,CPU15就根據(jù)面部評(píng)估值Tf和語(yǔ)音評(píng)估值Tv來(lái)設(shè)置加權(quán)因子k和m(步驟41)。這就是說(shuō),雖然加權(quán)因子k和m兩者 都不是0或1,也將加權(quán)因子k設(shè)置得大于加權(quán)因子m。
在步驟40中,如果語(yǔ)音評(píng)估^直Tv小于閾值Tvs(否),那么,CPU 15就 將加權(quán)因子k設(shè)置為大于0.5的預(yù)定權(quán)重k2,并將加;f又因子m設(shè)置為l-k2。 例如,將k2設(shè)置為1。即使不為1,也要把k2設(shè)置成盡可能接近于1的值。
CPU 15^f艮據(jù)上述設(shè)置的加權(quán)因子k和m來(lái)為一見(jiàn)頻內(nèi)容的每個(gè)預(yù)定部分 (每個(gè)幀)編輯;f見(jiàn)頻內(nèi)容,并插入從外部音頻源17輸入的BGM聲音(步驟43)。
CPU 15對(duì)視頻內(nèi)容的全部預(yù)定部分進(jìn)行上述的處理,或者進(jìn)行上述的處 理直到用戶(hù)等給出停止處理的指令為止(步驟44和45)。最后,CPU 15多路 復(fù)用已用原始圖像信號(hào)編輯了的視頻內(nèi)容,并在記錄介質(zhì)10中存儲(chǔ)多路復(fù)用 的內(nèi)容作為新的視頻內(nèi)容。
圖6是示出了上述的加權(quán)因子k和m的設(shè)置處理的表格。如圖6所示, 取決于面部評(píng)估值是否等于或大于閾值Tfs以及語(yǔ)音評(píng)估值是否等于或大于 閾值Tvs來(lái)設(shè)置四個(gè)模式的加權(quán)因子。
圖7是示出了在幀圖像與面部評(píng)估值、語(yǔ)音評(píng)估值、加權(quán)因子k和m, 以及視頻內(nèi)容的每個(gè)之間的關(guān)系的圖。作為例子,圖7所示的幀fl到f6指示 包含用攝像機(jī)等拍攝的學(xué)校體育運(yùn)動(dòng)會(huì)的場(chǎng)景在內(nèi)的視頻內(nèi)容的幀的部分。
如圖7所示,在^L頻內(nèi)容的幀fl和£2中,面部是如此之小以至于由圖 像特征檢測(cè)單元7檢測(cè)不到面部圖像區(qū)。因此,面部評(píng)估值較小(小于閾值 Tfs)。此外,在幀fl和f2的部分中,遠(yuǎn)距離拍攝場(chǎng)景,因此,幾乎釆集不到 個(gè)人的語(yǔ)音。因此,語(yǔ)音評(píng)估值較小(小于閾值Tvs)。所以,在那些部分中, 將BGM聲音的加權(quán)因子k設(shè)置為高,并將內(nèi)容的音頻信號(hào)的加權(quán)因子m設(shè) 置為低。結(jié)果,進(jìn)行編輯處理以使得不起眼的場(chǎng)景可以變得更吸引人。
在幀f3和f4中,由于在稍許近些的距離上拍攝人物,采集到的語(yǔ)音就 稍許響亮一些。因此,在那些部分中,根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)分別 設(shè)置加權(quán)因子k和m。因此,保留下了人的語(yǔ)音,與此同時(shí),能夠得到BGM 插入的效果。換句話(huà)說(shuō),如果面部評(píng)估值是等于或大于閾值Tfs而語(yǔ)音評(píng)估 值小于閾值Tvs,圖像特征檢測(cè)單元7把BGM聲音的權(quán)重設(shè)置得較低,其結(jié) 果是,能強(qiáng)化出現(xiàn)在圖像中的人的語(yǔ)音。進(jìn)而,如果面部評(píng)估值小于闊值Tfs 而語(yǔ)音評(píng)估值等于或大于閾值Tvs,圖像特征檢測(cè)單元7把BGM聲音的權(quán)重 設(shè)置得較高,其結(jié)果是,能夠提高BGM的效果,而不是增強(qiáng)與圖像無(wú)關(guān)的人的語(yǔ)音。
在幀f5和f6中,是在如此近的距離上拍攝人的,以至能夠清晰地檢測(cè) 他們的面部。因此,面部評(píng)估值大(等于或大于閾值Tfs)。此外,所;險(xiǎn)測(cè)的語(yǔ) 音的功率級(jí)也大,因此,語(yǔ)音評(píng)估值也大(等于或大于閾值Tvs)。這樣,在那 些部分中,將加權(quán)因子k設(shè)置為低,將加權(quán)因子m設(shè)置為高。因此,強(qiáng)化了 個(gè)人的語(yǔ)音,其結(jié)果是,該人的印象能被加深。
如上所述,根據(jù)此實(shí)施例,根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將BGM聲音 插入到視頻內(nèi)容中。因此,在有效地保留原始視頻內(nèi)容中的音頻信號(hào)的同時(shí), 能夠取決于場(chǎng)景插入BGM聲音。其結(jié)果是,與只是單一地插入BGM聲音的 情況相比,能夠得到更加感人、更令人難忘的視頻內(nèi)容。
本發(fā)明并不只限于上面的實(shí)施例,只要不偏離本發(fā)明的要旨,就能進(jìn)行 各種修改。
在上述的實(shí)施例中,圖像特征檢測(cè)單元7除了可用于檢測(cè)人的面部圖像 而外,還可以用于4企測(cè)動(dòng)物的面部圖像。此外,音頻特征;險(xiǎn)測(cè)單元8除了可 用于檢測(cè)人的語(yǔ)音而外,還可以用于檢測(cè)動(dòng)物的語(yǔ)音。
在上述的實(shí)施例中,圖像特征檢測(cè)單元7不僅可以檢測(cè)面部圖像,而且 也能識(shí)別特定人的面部圖像。在用辨別函數(shù)進(jìn)行的面部檢測(cè)處理之后,進(jìn)行 面部識(shí)別處理。對(duì)于面部識(shí)別處理,能夠使用邊緣強(qiáng)度圖像、頻率強(qiáng)度圖像、 高階(high order)自相關(guān)、彩色轉(zhuǎn)換圖像等。
圖8是概念性地示出了使用邊緣強(qiáng)度圖像的面部識(shí)別處理的圖。
如圖8所示,在記錄介質(zhì)IO等的記錄介質(zhì)中,存儲(chǔ)灰度圖像和邊緣強(qiáng)度 圖像作為要識(shí)別其面部的人的特征數(shù)據(jù)(字典圖樣)。圖像特征檢測(cè)單元7從所 檢測(cè)的面部圖像中提取灰度圖像和邊緣強(qiáng)度圖像作為特征數(shù)據(jù)。然后,圖像 特征檢測(cè)單元7進(jìn)行在所提取的灰度圖像和邊緣強(qiáng)度圖像與所存儲(chǔ)的人的灰 度圖像和邊緣強(qiáng)度圖像之間的比較處理,在此,所述的這個(gè)人其面部是用圖 樣匹配進(jìn)行識(shí)別的,其結(jié)果是,能夠識(shí)別特定人的面部圖像。在此情況下, 圖像特征檢測(cè)單元7按百分比來(lái)表達(dá)面部圖像的識(shí)別率(匹配率),并將此識(shí)別 率當(dāng)作為面部評(píng)估值。在獲取關(guān)于面部特征點(diǎn)(如眼睛、鼻子)的信息的情況下, 圖像特征檢測(cè)單元7也能使用除了邊緣強(qiáng)度圖像等等以外的信息。
通過(guò)上述的處理,可能根據(jù)特定人的面部的識(shí)別率來(lái)將BGM插入到視 頻內(nèi)容中,例如,諸如在圖7的例子中那樣,在多個(gè)小孩之中,只根據(jù)用戶(hù)的小孩的面部的識(shí)別率來(lái)進(jìn)行插入。結(jié)果,能夠使已經(jīng)編輯了的視頻內(nèi)容更 加印象深刻。
在上面的實(shí)施例中,音頻特征檢測(cè)單元8不僅可以檢測(cè)語(yǔ)音,而且還能 識(shí)別特定人的語(yǔ)音。按如下程序進(jìn)行語(yǔ)音識(shí)別處理。例如,音頻特征檢測(cè)單
元8對(duì)要識(shí)別的人的語(yǔ)音信號(hào)進(jìn)行頻率分析,并檢測(cè)其頻譜特征,并將該其 存儲(chǔ)在記錄介質(zhì)IO等中,并與所檢測(cè)的語(yǔ)音頻譜特征進(jìn)行比較處理(圖樣比
較)。作為頻譜特征,使用了輔音部分和元音部分的每個(gè)的頻譜峰值頻率、頻 譜間隔等。此外,吸氣的間隔等在各個(gè)人之間是不同的。因此,除了頻譜特
征之外,音頻特征檢測(cè)單元8還可以使用關(guān)于吸氣間隔的信息。在此情況下, 音頻特征檢測(cè)單元8按百分比來(lái)表達(dá)語(yǔ)音識(shí)別率(匹配率),并將此語(yǔ)音識(shí)別 率當(dāng)作為語(yǔ)音評(píng)估值。
通過(guò)該處理,能夠根據(jù)特定人的語(yǔ)音識(shí)別率,將BGM插入到視頻內(nèi)容 中,其結(jié)果是,能使已經(jīng)編輯了的視頻內(nèi)容給人更加深刻印象。
在上面的實(shí)施例中,在面部評(píng)估值小于閾值Tfs和語(yǔ)音評(píng)估值等于或大 于閾值Tvs的情況下,圖像特征檢測(cè)單元7將BGM聲音的權(quán)重設(shè)置為高。 然而,在此情況下,圖像特征檢測(cè)單元7也可以相反地將BGM聲音的權(quán)重 設(shè)置為低。利用此設(shè)置,能夠保留作為拍攝目標(biāo)的人的語(yǔ)音以及拍攝該目標(biāo) 的人的語(yǔ)音。此外,在能夠識(shí)別多個(gè)語(yǔ)音的情況下,如果進(jìn)行拍攝的人的語(yǔ) 音的語(yǔ)音評(píng)估值等于或大于閾值Tvs,即使當(dāng)識(shí)別了進(jìn)行拍攝的人的語(yǔ)音、 但面部評(píng)估值小于閾值Tfs時(shí),也可將BGM聲音的4又重設(shè)置為低。利用此設(shè) 置,能夠更可靠和更有效地保留進(jìn)行拍攝的人的語(yǔ)音。
在上面的實(shí)施例中,記錄/再現(xiàn)裝置100并不對(duì)語(yǔ)音檢測(cè)處理進(jìn)行學(xué)習(xí) 處理,但是,它當(dāng)然是可以進(jìn)行學(xué)習(xí)處理的。
在上面的實(shí)施例中,將本發(fā)明用于作為例子的記錄/再現(xiàn)裝置,但是, 當(dāng)然也可用在其它的電子設(shè)備中,這諸如PC、數(shù)碼相才幾、可移動(dòng)的AV設(shè)備、 移動(dòng)電話(huà)和游戲機(jī)等。
本申請(qǐng)書(shū)包括與在日本的優(yōu)先級(jí)專(zhuān)利申請(qǐng)書(shū)JP 2008-164652中揭示的內(nèi) 容相關(guān)的主題內(nèi)容,該專(zhuān)利申請(qǐng)書(shū)是在2008年6月24日在日本專(zhuān)利局中提 供的,其全部?jī)?nèi)容歸并于此,以供參考。
權(quán)利要求
1.一種電子設(shè)備,包括第一輸入裝置,用于輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào);第二輸入裝置,用于輸入不同于第一音頻信號(hào)的第二音頻信號(hào);第一計(jì)算裝置,用于從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū),并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值;第二計(jì)算裝置,用于從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值;設(shè)置裝置,用于根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重,第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重;以及產(chǎn)生裝置,用于根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào),并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
2. 根據(jù)權(quán)利要求1的電子設(shè)備,其中,當(dāng)面部評(píng)估值等于或大于第一閾值并且語(yǔ)音評(píng)估值等于或大于第 二閾值時(shí),所述設(shè)置裝置將第一加權(quán)因子設(shè)置為大于第二加權(quán)因子的第一值。
3. 根據(jù)權(quán)利要求2的電子設(shè)備,其中,當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值小于第二闊值時(shí),所 述設(shè)置裝置將第 一加權(quán)因子設(shè)置為小于第二加權(quán)因子的第二值。
4. 根據(jù)權(quán)利要求3的電子設(shè)備,其中,當(dāng)面部評(píng)估值等于或大于第一闊值并且語(yǔ)音評(píng)估值小于第二閾值 時(shí),所述設(shè)置裝置根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置為大于 第二加權(quán)因子。
5. 根據(jù)權(quán)利要求3的電子設(shè)備,其中,當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值 時(shí),所述設(shè)置裝置根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置為小于 第二加權(quán)因子。
6. 根據(jù)權(quán)利要求3的電子設(shè)備,還包括存儲(chǔ)裝置,用于存儲(chǔ)指示特定人的面部的特征的面部特征數(shù)據(jù),其中,所述第一計(jì)算裝置能夠根據(jù)所存儲(chǔ)的面部特征數(shù)據(jù)來(lái)檢測(cè)其中包 含了特定人的面部的面部圖像區(qū)。
7. 根據(jù)權(quán)利要求3的電子設(shè)備,還包括存儲(chǔ)裝置,用于存儲(chǔ)指示特定人的語(yǔ)音的特征的語(yǔ)音特征數(shù)據(jù), 其中,所述第二計(jì)算裝置能夠根據(jù)所存儲(chǔ)的語(yǔ)音特征數(shù)據(jù)來(lái)檢測(cè)特定人 的語(yǔ)音。
8. —種編輯-見(jiàn)頻內(nèi)容的方法,包括 輸入構(gòu)成第 一視頻內(nèi)容的圖像信號(hào)和第 一音頻信號(hào); 輸入不同于第 一音頻信號(hào)的第二音頻信號(hào);從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū),并計(jì)算用 于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值;從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ) 音的音量的語(yǔ)音評(píng)估值;根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán) 因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重,第二加權(quán)因 子指示第二音頻信號(hào)的權(quán)重;以及根據(jù)所設(shè)置的第 一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第 一音頻 信號(hào)和第二音頻信號(hào)的第三音頻信號(hào),并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu) 成的第二視頻信號(hào)內(nèi)容。
9. 一種使電子設(shè)備執(zhí)行如下步驟的程序 輸入構(gòu)成第 一視頻內(nèi)容的圖像信號(hào)和第 一音頻信號(hào); 輸入不同于第 一音頻信號(hào)的第二音頻信號(hào);從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū),并計(jì)算用 于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值;從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ) 音的音量的語(yǔ)音評(píng)估值;根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第 一加權(quán) 因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重,第二加權(quán)因 子指示第二音頻信號(hào)的權(quán)重;以及根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻 信號(hào)和第二音頻信號(hào)的第三音頻信號(hào),并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
10. —種電子設(shè)備,包括第 一輸入單元,用于輸入構(gòu)成第 一視頻內(nèi)容的圖像信號(hào)和第 一音頻信號(hào); 第二輸入單元,用于輸入不同于第 一音頻信號(hào)的第二音頻信號(hào); 第 一計(jì)算單元,用于從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面 部圖像區(qū),并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值;第二計(jì)算單元,用于從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值;設(shè)置單元,用于根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像 信號(hào)的第一加權(quán)因子和第二加權(quán)因子,第一加權(quán)因子指示第一音頻信號(hào)的權(quán) 重,第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重;以及產(chǎn)生單元,用于根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中 混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào),并產(chǎn)生由第三音頻信 號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
全文摘要
本發(fā)明的電子設(shè)備包括第一輸入裝置,用于輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào);第二輸入裝置,用于輸入不同于第一音頻信號(hào)的第二音頻信號(hào);第一計(jì)算裝置,用于從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū),并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值;第二計(jì)算裝置,用于從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音,并計(jì)算用于評(píng)估語(yǔ)音的音量的語(yǔ)音評(píng)估值;設(shè)置裝置,用于設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子;以及產(chǎn)生裝置,用于產(chǎn)生第三音頻信號(hào),并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
文檔編號(hào)G10H1/00GK101615389SQ20091014997
公開(kāi)日2009年12月30日 申請(qǐng)日期2009年6月24日 優(yōu)先權(quán)日2008年6月24日
發(fā)明者村林升 申請(qǐng)人:索尼株式會(huì)社