電子設(shè)備、視頻內(nèi)容編輯方法和程序的制作方法

文檔序號(hào)：2832271閱讀：161來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專(zhuān)利名稱(chēng)：電子設(shè)備、視頻內(nèi)容編輯方法和程序的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及能夠編輯視頻內(nèi)容的電子設(shè)備、在該電子設(shè)備中的視頻內(nèi)容編輯方法、以及其程序。
背景技術(shù)：
過(guò)去，已進(jìn)行了給用攝像機(jī)等所拍攝的視頻內(nèi)容添加BGM(背景音樂(lè))、聲音效果等的編輯4乘作。例如，曰本專(zhuān)利申請(qǐng)?zhí)亻_(kāi)No. 2001-202082 (第0024 和0031段、圖2等)(以下稱(chēng)其為專(zhuān)利文獻(xiàn)l)揭示了視頻信號(hào)編輯設(shè)備，在此設(shè)備中，提取作為編輯目標(biāo)的視頻的特征(記錄時(shí)段和圖像數(shù)量)，并根據(jù)預(yù)定用戶(hù)給出的指令，自動(dòng)產(chǎn)生用于編輯目標(biāo)視頻的最佳音樂(lè)，并將其添加到編輯目標(biāo)視頻。

發(fā)明內(nèi)容
然而，在專(zhuān)利文獻(xiàn)1所揭示的4支術(shù)中，當(dāng)向編輯目標(biāo)3見(jiàn)頻中加入音樂(lè)時(shí)，擦除了被記錄在原始編輯目標(biāo)視頻上的原始音頻信號(hào)。因此，取決于場(chǎng)景 (scene ),在某些情況下留下原始信號(hào)而不添加音樂(lè)能夠使編輯目標(biāo)視頻給人更為深刻的印象。但是，利用專(zhuān)利文獻(xiàn)l中揭示的技術(shù)，難于實(shí)現(xiàn)這一點(diǎn)，這就會(huì)讓用戶(hù)感到不方便。此外，通常，用戶(hù)可以手動(dòng)選擇在編輯目標(biāo)視頻中要加入音樂(lè)的部分，和其中有要保留原始音頻信號(hào)以便對(duì)其進(jìn)行編輯的部分。然而，這些任務(wù)是極為復(fù)雜和麻煩的。
鑒于上述的情況，希望提供一種電子設(shè)備、視頻內(nèi)容編輯方法和程序，它們能夠有效地保留在原始視頻內(nèi)容中的音頻信號(hào)，并根據(jù)場(chǎng)景來(lái)添加另外的音頻信號(hào)。
根據(jù)本發(fā)明的具體實(shí)施例，提出了一種電子設(shè)備。該電子設(shè)備包括第一輸入裝置、第二輸入裝置、第一計(jì)算裝置、第二計(jì)算裝置、設(shè)置裝置和產(chǎn) 生裝置。第一輸入裝置輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)。第二輸入裝置輸入不同于第一音頻信號(hào)的第二音頻信號(hào)。第一計(jì)算裝置從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。第二計(jì)算裝置從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。設(shè)置裝置根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重。產(chǎn)生裝置根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
在此，這種電子設(shè)備的例子包括PC(個(gè)人計(jì)算機(jī))，使用諸如HDD(硬盤(pán) 驅(qū)動(dòng)器)/DVD/BD(藍(lán)光盤(pán))之類(lèi)的記錄介質(zhì)的記錄/再現(xiàn)裝置、數(shù)字視頻攝像機(jī)、移動(dòng)AV(音頻/視頻)設(shè)備、移動(dòng)電話(huà)和游戲機(jī)等。第一視頻內(nèi)容是指由諸如攝像機(jī)之類(lèi)的設(shè)備記錄的視頻內(nèi)容、通過(guò)網(wǎng)絡(luò)接收的視頻內(nèi)容等。第二音頻信號(hào)是指BGM的音頻信號(hào)、聲音效果等。
通過(guò)這個(gè)結(jié)構(gòu)，該電子設(shè)備能夠根據(jù)在第一視頻內(nèi)容中包括的面部圖像和語(yǔ)音來(lái)改變第一和第二音頻信號(hào)的權(quán)重，并從第一視頻內(nèi)容來(lái)產(chǎn)生第二視頻內(nèi)容。這樣，就能根據(jù)場(chǎng)景按原樣保留人的語(yǔ)音或者插入另外的聲音，其結(jié)果是，與只將另一個(gè)聲音插入到第一視頻內(nèi)容中的情況相比，能夠提高編輯效果并能產(chǎn)生給人印象更為深刻的第二視頻內(nèi)容。
當(dāng)面部評(píng)估值等于或大于第一閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值時(shí)，設(shè)置裝置可以將第一加權(quán)因子設(shè)置為大于第二加權(quán)因子的第一值。
在面部評(píng)估值和語(yǔ)音評(píng)估值都大的情況下，極可能在第一視頻內(nèi)容中出現(xiàn)的那個(gè)人在說(shuō)話(huà)。在此情況下，盡可能地將第一加權(quán)因子設(shè)置得大于第二加權(quán)因子，以便強(qiáng)調(diào)這個(gè)人的語(yǔ)音，其結(jié)果是，能夠使得對(duì)此人的印象更為深刻。在此，可以將第一值設(shè)置為1。
當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值小于第二閾值時(shí)，設(shè)置裝置可以將第一加權(quán)因子設(shè)置為小于第二加權(quán)因子的第二值。
在面部評(píng)估值和語(yǔ)音評(píng)估值都小的情況下，極可能這個(gè)人沒(méi)出現(xiàn)在第一視頻內(nèi)容中。在此情況下，盡可能地將第一加權(quán)因子設(shè)置得小于第二加權(quán)因子，以便強(qiáng)調(diào)第二音頻信號(hào)，因此，可能進(jìn)行編輯以使得在第一視頻內(nèi)容中的不起眼的場(chǎng)景變得更加吸引人。在此，可以將第二值設(shè)置為0。
當(dāng)面部評(píng)估值等于或大于第一閾值并且語(yǔ)音評(píng)估值小于第二閾值時(shí)，設(shè)置裝置可以根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置得大于第二加權(quán)因子。
在面部評(píng)估值大而語(yǔ)音評(píng)估值小的情況下，人的面部出現(xiàn)在第一視頻內(nèi) 容中，因此，這個(gè)人可能是用小的語(yǔ)音說(shuō)某些事情。在此情況下，將第一音頻信號(hào)的權(quán)重設(shè)置得大，并同時(shí)添加第二音頻信號(hào)，其結(jié)果是，在強(qiáng)調(diào)第一音頻信號(hào)的同時(shí)，能夠添加第二音頻信號(hào)的效果。
當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值時(shí)，設(shè) 置裝置可以根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置得小于第二加權(quán)因子。
在面部評(píng)估值小而語(yǔ)音評(píng)估值大的情況下，這個(gè)人幾乎不出現(xiàn)在第一視頻內(nèi)容中，因此，即使在包含人的某些語(yǔ)音的情況下，語(yǔ)音可能幾乎與圖像無(wú)關(guān)。在此情況下，在保留第一音頻信號(hào)的同時(shí)，將第二音頻信號(hào)的權(quán)重設(shè) 置得大，其結(jié)果是，在保留第一音頻信號(hào)的同時(shí)，能夠添加第二音頻信號(hào)的效果。
根據(jù)本發(fā)明的電子設(shè)備可以還包括用于存儲(chǔ)指示特定人的面部的特征的面部特征數(shù)據(jù)的存儲(chǔ)裝置。
在此情況下，第一計(jì)算裝置能夠根據(jù)所存儲(chǔ)的面部特征數(shù)據(jù)來(lái)檢測(cè)其中含了特定人的面部的面部圖像區(qū)。
通過(guò)此結(jié)構(gòu)，即使在視頻內(nèi)容中出現(xiàn)了多個(gè)人的面部，也可能區(qū)別特定人面部和其它人的面部并檢測(cè)該面部。因此，能夠根據(jù)所聚焦的特定人來(lái)有效地進(jìn)行第一和第二音頻信號(hào)的加權(quán)因子的設(shè)置處理。
該電子設(shè)備可以還包括存儲(chǔ)裝置，用以存儲(chǔ)指示特定人的語(yǔ)音的特征的語(yǔ)音特征數(shù)據(jù)。
在此情況下，第二計(jì)算裝置能夠根據(jù)所存儲(chǔ)的語(yǔ)音特征數(shù)據(jù)來(lái)檢測(cè)特定人的語(yǔ)音。
通過(guò)此結(jié)構(gòu)，即使在視頻內(nèi)容中包含多個(gè)人的語(yǔ)音的情況下，也可能區(qū) 別特定人的語(yǔ)音和其它人的語(yǔ)音。因此，能夠根據(jù)所聚焦的特定人來(lái)有效地進(jìn)行第一和第二音頻信號(hào)的加權(quán)因子的設(shè)置處理。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，提供了編輯視頻內(nèi)容的方法。該方法包括輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)，并輸入不同于第一音頻信號(hào)的第二音頻信號(hào)。該方法還包括從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。
該方法還包括從輸入的第一音頻信號(hào)中^r測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng) 估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
此方法還包括根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重。
這個(gè)方法還包括根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
通過(guò)此結(jié)構(gòu)，能根據(jù)場(chǎng)景照原樣保留人的語(yǔ)音或者插入另外的聲音，其結(jié)果是，與只將另一個(gè)聲音插入到第一視頻內(nèi)容中的情況相比，增加了編輯效果并能產(chǎn)生更力。印象深刻的第二視頻內(nèi)容。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，提出了一種程序，以便使得該電子設(shè)備執(zhí) 行第一輸入步驟、第二輸入步驟、第一計(jì)算步驟、第二計(jì)算步驟、設(shè)置步驟和產(chǎn)生步驟。
在第一輸入步驟中，輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)。
在第二輸入步驟中，輸入不同于第一音頻信號(hào)的第二音頻信號(hào)。
在第一計(jì)算步驟中，從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。
在第二計(jì)算步驟中，從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
在設(shè)置步驟中，根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán) 重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重。
在產(chǎn)生步驟中，根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
根據(jù)本發(fā)明的另一個(gè)實(shí)施例，提出了一種電子設(shè)備。該電子設(shè)備包括第一輸入單元、第二輸入單元、第一計(jì)算單元、第二計(jì)算單元、設(shè)置單元和產(chǎn) 生單元。第一輸入單元輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)。第二輸入單元輸入不同于第一音頻信號(hào)的第二音頻信號(hào)。第一計(jì)算單元從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值。第二計(jì)算單元從輸入的第一音頻
信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所;險(xiǎn)測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
設(shè)置單元根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重。產(chǎn)生單元根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信
號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二^L頻信號(hào)內(nèi)容。
如上所述，根據(jù)本發(fā)明，在有效地保留在原始視頻內(nèi)容中的音頻信號(hào)的
同時(shí)，還可以才艮據(jù)場(chǎng)景添加另外的音頻信號(hào)。
如附圖所示，根據(jù)下面對(duì)本發(fā)明的最佳模式實(shí)施例的詳細(xì)陳述，本發(fā)明
的上述和其他目的、特征和優(yōu)點(diǎn)將會(huì)變得更加清楚。

圖1是示出了根據(jù)本發(fā)明的實(shí)施例的記錄/再現(xiàn)裝置的結(jié)構(gòu)的方塊圖；圖2概念性地說(shuō)明了在本發(fā)明的實(shí)施例中的、用于面部圖像的檢測(cè)的學(xué) 習(xí)處理的圖3是示出了根據(jù)本發(fā)明的實(shí)施例的用記錄/再現(xiàn)裝置對(duì)視頻內(nèi)容進(jìn)行 BGM插入處理的流程的流程圖4是概念性地示出了在本發(fā)明的實(shí)施例中的面部圖像區(qū)的檢測(cè)處理的
圖5是概念性地示出了在本發(fā)明的實(shí)施例中的語(yǔ)音檢測(cè)處理的圖6是示出了在本發(fā)明的實(shí)施例中的加權(quán)因子k和m的設(shè)置處理的表格；
圖7是示出了在本發(fā)明的實(shí)施例中、在幀圖像與每個(gè)面部評(píng)估值、語(yǔ)音
評(píng)估值、加權(quán)因子k和m以及視頻內(nèi)容之間的關(guān)系的圖；以及
圖8是概念性地示出了在本發(fā)明的另一個(gè)實(shí)施例中、使用邊緣強(qiáng)度圖像
的面部識(shí)別處理的圖。
具體實(shí)施例方式
以下，將參照附圖來(lái)詳細(xì)說(shuō)明本發(fā)明的實(shí)施例。圖1是示出了根據(jù)本發(fā)明的實(shí)施例的記錄/再現(xiàn)裝置的結(jié)構(gòu)的方塊圖。如圖1所示，根據(jù)此實(shí)施例的記錄/再現(xiàn)裝置100包括圖像信號(hào)輸入單
元1和3、，音頻信號(hào)輸入單元2和4、輸入圖像處理單元5、輸入音頻處理單元6、圖像特征檢測(cè)單元7、音頻特征檢測(cè)單元8、記錄單元9、和記錄介質(zhì)10。記錄/再現(xiàn)裝置100還包括再現(xiàn)單元11、輸出圖像處理單元12、輸出音頻處理單元13、用戶(hù)接口單元14、 CPU(中央處理單元)15、以及RAM(隨機(jī)存取存儲(chǔ)器)16。
圖像信號(hào)輸入單元1和3是各種有線(xiàn)通信端子或無(wú)線(xiàn)通信單元。有線(xiàn)通信端子的例子包括S端子、RCA端子、DVI(數(shù)字視頻接口)端子、HDMI(高分辨率多媒體接口)端子、以太(注冊(cè)商標(biāo))端子。此外，還可以使用USB(通用串行總線(xiàn))端子、IEEE 1394端子等。無(wú)線(xiàn)通信單元的例子包括無(wú)線(xiàn)LAN、藍(lán) 牙(注冊(cè)商標(biāo))、無(wú)線(xiàn)USB、和無(wú)線(xiàn)HDMI。有線(xiàn)通信端子和無(wú)線(xiàn)通信通信端子并非僅限于此。從每個(gè)圖像信號(hào)輸入單元1和3上向記錄/再現(xiàn)裝置100 輸入視頻內(nèi)容的圖像信號(hào)，并通過(guò)各種電纜或無(wú)線(xiàn)網(wǎng)絡(luò)將其提供給輸入圖像處理單元5。在此，視頻內(nèi)容是指例如用攝像機(jī)等拍攝的內(nèi)容或者是互聯(lián)網(wǎng) 上的內(nèi)容。
音頻信號(hào)輸入單元2和4也是各種有線(xiàn)通信端子或無(wú)線(xiàn)通信單元，除了 S端子和DVI端子之外，這些端子的例子幾乎與上述的端子和單元相同。從每一個(gè)音頻信號(hào)輸入單元2和4，向記錄/再現(xiàn)裝置100輸入圖像內(nèi)容的音頻信號(hào)，并通過(guò)各種電纜或無(wú)線(xiàn)網(wǎng)絡(luò)將其提供給輸入音頻處理單元6。
此外，圖像信號(hào)輸入單元1和3以及音頻信號(hào)輸入單元2和4中的每一個(gè)都可以是例如，調(diào)諧器和用于通過(guò)天線(xiàn)(未示出)將被包括在數(shù)字廣播信號(hào)中的圖像信號(hào)和音頻信號(hào)輸入到記錄/再現(xiàn)裝置100中的天線(xiàn)輸入端子。
輸入圖像處理單元5對(duì)輸入的圖像信號(hào)進(jìn)行各種信號(hào)處理，例如，數(shù)字轉(zhuǎn)換處理和編碼處理，然后，將該信號(hào)輸出到圖像特征檢測(cè)單元7和記錄單元9作為數(shù)字圖像信號(hào)。
輸入音頻處理單元6對(duì)輸入的音頻信號(hào)進(jìn)行各種信號(hào)處理，例如，數(shù)字轉(zhuǎn)換處理和編碼處理，然后，將該信號(hào)輸出到音頻特征4企測(cè)單元8和記錄單元9作為數(shù)字音頻信號(hào)。
圖像特征檢測(cè)單元7根據(jù)從輸入圖像處理單元5提供的圖像信號(hào)來(lái)檢測(cè) 指示人的面部的面部圖像(面部圖像區(qū))，并計(jì)算用于評(píng)估面部圖像區(qū)的確定性(certainty)的面部評(píng)估值。
人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值。
記錄單元9多路復(fù)用從輸入圖^f象處理單元5提供的圖像信號(hào)以及從輸入音頻處理單元6提供的音頻信號(hào)，并將此多^各復(fù)用的信號(hào)記錄在記錄介質(zhì)10 上。
作為記錄介質(zhì)10,可以使用諸如HDD和閃存之類(lèi)的內(nèi)置記錄介質(zhì)以及諸如光盤(pán)和存儲(chǔ)卡之類(lèi)的便攜式記錄介質(zhì)。作為光盤(pán)，可以使用BD、 DVD、 CD等。記錄介質(zhì)IO存儲(chǔ)各種視頻內(nèi)容、各種程序和數(shù)據(jù)等等。在記錄介質(zhì) IO是內(nèi)置的記錄介質(zhì)的情況下，記錄介質(zhì)IO存儲(chǔ)OS以及用于進(jìn)行以下處理的各種程序和數(shù)據(jù)面部圖像的檢測(cè)處理、語(yǔ)音的檢測(cè)處理、這些檢測(cè)處理的學(xué)習(xí)(learning)處理、視頻內(nèi)容的音頻編輯處理等。在記錄介質(zhì)10是便攜式的記錄介質(zhì)的情況下，為記錄/再現(xiàn)裝置100另外提供了內(nèi)置的記錄介質(zhì)(未示出)，用于記錄上述的各種程序和數(shù)據(jù)。
再現(xiàn)單元11讀取在記錄介質(zhì)10上記錄的多路復(fù)用的圖像信號(hào)和音頻信號(hào)，以便分離它們，解碼分離了的圖像信號(hào)和音頻信號(hào)，并將圖像信號(hào)提供給輸出圖像處理單元12,將音頻信號(hào)提供給輸出音頻處理單元13。作為圖像信號(hào)和音頻信號(hào)的壓縮格式，可以使用例如，MPEG(運(yùn)動(dòng)圖像專(zhuān)家組)-2和 MPEG畫(huà)4。
輸出圖像處理單元12進(jìn)行各種信號(hào)處理，例如，模擬轉(zhuǎn)換處理和OSD(屏上顯示)處理，并將圖像信號(hào)輸出到諸如與記錄/再現(xiàn)裝置100相連的液晶顯示器或在記錄/再現(xiàn)裝置100中并入的液晶顯示器的外部裝置。
輸出音頻處理單元13進(jìn)行諸如模擬轉(zhuǎn)換處理之類(lèi)的各種信號(hào)處理，并將音頻信號(hào)輸出到外部裝置或內(nèi)置的液晶顯示器。
用戶(hù)接口單元14的例子包括操作按鈕、開(kāi)關(guān)、鼠標(biāo)、鍵盤(pán)和遙控器的紅外線(xiàn)信號(hào)接收單元。將由用戶(hù)操作的各種指令輸入到用戶(hù)接口單元14,并從這里輸出到CPU 15。
CPU 15適當(dāng)?shù)卮嫒AM 16等，并對(duì)記錄/再現(xiàn)裝置100的塊進(jìn)行全面的控制。將RAM16用作為CPU15的工作區(qū)等，并暫時(shí)存儲(chǔ)OS(操作系統(tǒng))、程序、處理數(shù)據(jù)等。
外部音頻源17是諸如PC和各種AV器件的外部裝置，并存儲(chǔ)要插入到視頻內(nèi)容中的BGM(或聲音效果)的音頻信號(hào)(以下稱(chēng)其為BGM聲音)，并通過(guò) 各種接口將音頻信號(hào)輸入到CPU 15。或者，外部音頻源17可以是被并入或被安裝在記錄/再現(xiàn)裝置100中的記錄介質(zhì)，例如，記錄介質(zhì)10。下面，將說(shuō)明上述構(gòu)造的記錄/再現(xiàn)裝置100的操作。在此實(shí)施例中，記錄/再現(xiàn)裝置100能夠編輯視頻內(nèi)容以在視頻內(nèi)容中插入被存儲(chǔ)在外部音頻源17中的BGM聲音。如上所述，在插入BGM聲音時(shí)，記錄/再現(xiàn)裝置100從視頻內(nèi)容的圖像信號(hào)檢測(cè)面部圖像，并從音頻信號(hào)檢測(cè)語(yǔ)音。據(jù)此，記錄/再現(xiàn)裝置100判斷BGM聲音的插入是否是合適的。具體地，對(duì)于面部圖像的檢測(cè)而言，記錄/再現(xiàn)裝置100進(jìn)行作為預(yù)處理的學(xué)習(xí)處理。下面將要說(shuō)明該學(xué)習(xí)處理。
圖2概念性地說(shuō)明了在本發(fā)明的實(shí)施例中的、用于面部圖像的檢測(cè)的學(xué) 習(xí)處理。
如圖2所示，在記錄/再現(xiàn)裝置100的記錄介質(zhì)10中，表示各個(gè)人的面部圖像的采樣的面部圖像采樣數(shù)據(jù)和指示非面部圖像的采樣的非面部圖像采樣數(shù)據(jù)被編譯作為數(shù)據(jù)庫(kù)，并被存儲(chǔ)作為供學(xué)習(xí)用的數(shù)據(jù)。
記錄/再現(xiàn)裝置100的圖像特征檢測(cè)單元7利用特征過(guò)濾器(feature filter)來(lái)過(guò)濾在面部圖像采樣數(shù)據(jù)庫(kù)和非面部圖像采樣數(shù)據(jù)庫(kù)中存儲(chǔ)的采樣圖像數(shù)據(jù)，并提取各個(gè)面部特征，以及檢測(cè)特征向量(特征數(shù)據(jù))。
如圖2所示，特征過(guò)濾器檢測(cè)在圖像中的的矩形的某些部分并蓋住其它部分。利用特征過(guò)濾器，并從作為面部特征的面部圖^f象采樣數(shù)據(jù)來(lái)檢測(cè)在眼睛、眉毛、鼻子、面頰和其它部分之間的位置關(guān)系，并且，從作為非面部特征的非面部圖像采樣數(shù)據(jù)中檢測(cè)除了該面部以外的對(duì)象的形狀、對(duì)象的組成
部分之間的位置關(guān)系等。特征過(guò)濾器并非只限于矩形特征過(guò)濾器，還可以使用用于檢測(cè)圓形特征的分離度過(guò)濾器、用于根據(jù)在特定方向上的邊緣來(lái)檢測(cè) 面部的各個(gè)部分之間的位置關(guān)系的Gabor過(guò)濾器等。對(duì)于面部特征的檢測(cè)，除了特征過(guò)濾器而外，例如，還可以使用亮度分布信息和膚色信息。
在此，圖像特征檢測(cè)單元7難于基于采樣圖像數(shù)據(jù)來(lái)識(shí)別面部區(qū)的尺寸和位置。因此，在改變特征過(guò)濾器的幀尺寸并進(jìn)行特征過(guò)濾的情況下，圖像特征檢測(cè)單元7在獲取最可能的檢測(cè)值的時(shí)候，識(shí)別特征過(guò)濾器尺寸作為面部區(qū)尺寸，并提取面部特征。此外，在用特征過(guò)濾器來(lái)掃描釆樣圖像數(shù)據(jù)的整個(gè)區(qū)域的情況下，圖像特征檢測(cè)單元7在獲取最可能的檢測(cè)值的時(shí)候識(shí)
12別特征過(guò)濾器的位置作為面部區(qū)的位置，并提取面部特征。
圖像特征檢測(cè)單元7根據(jù)從面部圖像采樣數(shù)據(jù)和非面部圖像采樣數(shù)據(jù)中
提取的特征來(lái)產(chǎn)生多維特征向量。然后，圖^f象特征檢測(cè)單元7用多維向量空間來(lái)表示特征向量，并通過(guò)統(tǒng)計(jì)機(jī)學(xué)習(xí)(statistical machine leaming)來(lái)產(chǎn)生辨別函數(shù)。所產(chǎn)生的辨別函數(shù)被存儲(chǔ)在記錄介質(zhì)IO等中，并當(dāng)從作為編輯目標(biāo)的視頻內(nèi)容中檢測(cè)面部圖像時(shí)被使用。
此外，除了使用辨別函數(shù)的辨別分析處理外，可以進(jìn)行使用諸如支持向量機(jī)(SVM)、 Ado-boost和神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)方法的辨別分析處理。在此情況下，除了辨別函數(shù)外，在記錄/再現(xiàn)裝置100中并入用于進(jìn)行辨別處理的處理模塊。在以下說(shuō)明中，涉及辨別函數(shù)的處理也同樣是成立的。
下面，將要說(shuō)明使用在此實(shí)施例中的記錄/再現(xiàn)裝置100來(lái)編輯視頻內(nèi) 容和在視頻內(nèi)容中插入BGM數(shù)據(jù)的處理。
圖3是示出了根據(jù)本發(fā)明的實(shí)施例的用記錄/再現(xiàn)裝置100向視頻內(nèi)容的BGM插入處理的流程的流程圖。
如圖3所示，首先，從記錄介質(zhì)10讀取或從圖傳_信號(hào)輸入單元1或3 和音頻信號(hào)輸入單元2或4輸入編輯目標(biāo)一見(jiàn)頻內(nèi)容。隨后，CPU 15從^見(jiàn)頻內(nèi) 容上提取預(yù)定部分(預(yù)定數(shù)量的連續(xù)幀)的圖l象信號(hào)和音頻信號(hào)(步驟31)。將所提取的預(yù)定部分的圖像信號(hào)提供給圖像特征檢測(cè)單元7,并將所提取的預(yù)定部分的音頻信號(hào)提供給音頻特征檢測(cè)單元8。
隨后，圖像特征檢測(cè)單元7通過(guò)使用辨別函數(shù)來(lái)從預(yù)定部分的圖像信號(hào) 檢測(cè)面部圖像區(qū)(步驟32)。圖4是概念性地示出了面部圖像區(qū)的檢測(cè)處理的圖。如圖4所示，圖像特征檢測(cè)單元7使用特征過(guò)濾器來(lái)過(guò)濾預(yù)定部分的圖像信號(hào)，檢測(cè)面部特征，以及產(chǎn)生多維特征向量。然后，圖像特征檢測(cè)單元 7將特征向量的每維的值放入到辨別函數(shù)的每維的變量中，并根據(jù)辨別函數(shù) 的輸出是正的還是負(fù)的來(lái)判斷圖像信號(hào)是否包括面部圖像區(qū)。
然后，圖像特征檢測(cè)單元7根據(jù)辨別函數(shù)的輸出值來(lái)計(jì)算面部評(píng)估值Tf, 以便評(píng)估面部圖像檢測(cè)的確定性(步驟32)。面部評(píng)估值是指當(dāng)根據(jù)預(yù)定的、確定的面部圖像數(shù)據(jù)來(lái)產(chǎn)生特征向量并將所產(chǎn)生的特征向量輸入到辨別函數(shù) 中時(shí)、用百分比表達(dá)的辨別函數(shù)的輸出值，。
隨后，音頻特征檢測(cè)單元8從預(yù)定部分的音頻信號(hào)檢測(cè)含有人的語(yǔ)音的部分(步驟34)。圖5是概念性地示出了語(yǔ)音檢測(cè)處理的圖。在圖5中，指示了預(yù)定部分的音頻信號(hào)的功率。圖5所示的波形A指示人的語(yǔ)音，圖5所示的波形B指示除了人的語(yǔ)音之外的聲音。
如圖5所示，首先，音頻特征檢測(cè)單元8設(shè)置與音頻功率相關(guān)的閾值A(chǔ)th, 以便消除噪聲影響。隨后，當(dāng)預(yù)定部分中的平均功率大于Ath時(shí)，音頻特征檢測(cè)單元8判斷該部分是音頻部分。當(dāng)平均功率小于Ath時(shí)，音頻特征;險(xiǎn)測(cè) 單元8判斷該部分是非音頻部分。這就是說(shuō)，在圖5中，確定除了波形A和 B以外的音頻信號(hào)為非音頻部分的信號(hào)。
在音頻部分中，個(gè)人的語(yǔ)音包括輔音、元音、吸氣等，因此，其具有的特征在于，預(yù)定功率或更大功率的連續(xù)部分短于除了在音樂(lè)等中語(yǔ)音以外的聲音的連續(xù)部分。通過(guò)使用這個(gè)特征，音頻特征檢測(cè)單元8設(shè)置與時(shí)間段相
率)小于Tth的情況下，音頻特征;險(xiǎn)測(cè)單元8判斷這個(gè)部分是語(yǔ)音部分，而在
況下，音頻特征檢測(cè)單元8判斷這個(gè)部分是非語(yǔ)音部分。
隨后，音頻特征檢測(cè)單元8才艮據(jù)所纟企測(cè)的語(yǔ)音的音量(功率級(jí)別或振幅) 來(lái)計(jì)算語(yǔ)音評(píng)估值Tv(步驟35)。語(yǔ)音評(píng)估值是指表示在能被檢測(cè)的語(yǔ)音的最大功率級(jí)別是1的情況下按百分比表述的語(yǔ)音功率級(jí)別的值。
隨后，CPU 15判斷面部評(píng)估值Tf是否等于或大于預(yù)定的閾值Tfs(步驟 36)。當(dāng)面部評(píng)估值Tf等于或大于預(yù)定的閾值Tfs(是)時(shí)，CPU15就判斷語(yǔ)音評(píng)估值Tv是否等于或大于預(yù)定的閾值Tvs(步驟37)。
當(dāng)語(yǔ)音評(píng)估值Tv等于或大于Tvs(是)時(shí)，CPU 15就將BGM聲音的加權(quán) 因子k設(shè)置為小于0.5的預(yù)定權(quán)重kl,并將一見(jiàn)頻內(nèi)容的音頻信號(hào)的加權(quán)因子m 設(shè)置為l-kl。例如，將kl設(shè)置為0。即使當(dāng)不是0時(shí)，也將kl設(shè)置成盡可能接近于0的值。
在步驟37中，當(dāng)語(yǔ)音評(píng)估值Tv小于閾值Tvs(否)時(shí)，那么，CPU 15就根據(jù)面部評(píng)估值Tf和語(yǔ)音評(píng)估值Tv來(lái)設(shè)置加權(quán)因子k和m(步驟39)。這就是說(shuō)，雖然加權(quán)因子k和m兩者都不是O或1,也將加權(quán)因子k設(shè)置得小于加4又因子m。
在步驟36中，當(dāng)面部評(píng)估值Tf小于閾值Tfs(否)時(shí)，CPU 15就判斷語(yǔ) 音評(píng)估值Tv是否等于或大于預(yù)定的閾值Tvs(步驟40)。如果語(yǔ)音評(píng)估值Tv 等于或大于閾值Tvs(是)，那么，CPU15就根據(jù)面部評(píng)估值Tf和語(yǔ)音評(píng)估值Tv來(lái)設(shè)置加權(quán)因子k和m(步驟41)。這就是說(shuō)，雖然加權(quán)因子k和m兩者都不是0或1，也將加權(quán)因子k設(shè)置得大于加權(quán)因子m。
在步驟40中，如果語(yǔ)音評(píng)估^直Tv小于閾值Tvs(否)，那么，CPU 15就將加權(quán)因子k設(shè)置為大于0.5的預(yù)定權(quán)重k2，并將加;f又因子m設(shè)置為l-k2。例如，將k2設(shè)置為1。即使不為1，也要把k2設(shè)置成盡可能接近于1的值。
CPU 15^f艮據(jù)上述設(shè)置的加權(quán)因子k和m來(lái)為一見(jiàn)頻內(nèi)容的每個(gè)預(yù)定部分 (每個(gè)幀)編輯;f見(jiàn)頻內(nèi)容，并插入從外部音頻源17輸入的BGM聲音(步驟43)。
CPU 15對(duì)視頻內(nèi)容的全部預(yù)定部分進(jìn)行上述的處理，或者進(jìn)行上述的處理直到用戶(hù)等給出停止處理的指令為止(步驟44和45)。最后，CPU 15多路復(fù)用已用原始圖像信號(hào)編輯了的視頻內(nèi)容，并在記錄介質(zhì)10中存儲(chǔ)多路復(fù)用的內(nèi)容作為新的視頻內(nèi)容。
圖6是示出了上述的加權(quán)因子k和m的設(shè)置處理的表格。如圖6所示，取決于面部評(píng)估值是否等于或大于閾值Tfs以及語(yǔ)音評(píng)估值是否等于或大于閾值Tvs來(lái)設(shè)置四個(gè)模式的加權(quán)因子。
圖7是示出了在幀圖像與面部評(píng)估值、語(yǔ)音評(píng)估值、加權(quán)因子k和m, 以及視頻內(nèi)容的每個(gè)之間的關(guān)系的圖。作為例子，圖7所示的幀fl到f6指示包含用攝像機(jī)等拍攝的學(xué)校體育運(yùn)動(dòng)會(huì)的場(chǎng)景在內(nèi)的視頻內(nèi)容的幀的部分。
如圖7所示，在^L頻內(nèi)容的幀fl和￡2中，面部是如此之小以至于由圖像特征檢測(cè)單元7檢測(cè)不到面部圖像區(qū)。因此，面部評(píng)估值較小(小于閾值 Tfs)。此外，在幀fl和f2的部分中，遠(yuǎn)距離拍攝場(chǎng)景，因此，幾乎釆集不到個(gè)人的語(yǔ)音。因此，語(yǔ)音評(píng)估值較小(小于閾值Tvs)。所以，在那些部分中，將BGM聲音的加權(quán)因子k設(shè)置為高，并將內(nèi)容的音頻信號(hào)的加權(quán)因子m設(shè) 置為低。結(jié)果，進(jìn)行編輯處理以使得不起眼的場(chǎng)景可以變得更吸引人。
在幀f3和f4中，由于在稍許近些的距離上拍攝人物，采集到的語(yǔ)音就稍許響亮一些。因此，在那些部分中，根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)分別設(shè)置加權(quán)因子k和m。因此，保留下了人的語(yǔ)音，與此同時(shí)，能夠得到BGM 插入的效果。換句話(huà)說(shuō)，如果面部評(píng)估值是等于或大于閾值Tfs而語(yǔ)音評(píng)估值小于閾值Tvs,圖像特征檢測(cè)單元7把BGM聲音的權(quán)重設(shè)置得較低，其結(jié) 果是，能強(qiáng)化出現(xiàn)在圖像中的人的語(yǔ)音。進(jìn)而，如果面部評(píng)估值小于闊值Tfs 而語(yǔ)音評(píng)估值等于或大于閾值Tvs,圖像特征檢測(cè)單元7把BGM聲音的權(quán)重設(shè)置得較高，其結(jié)果是，能夠提高BGM的效果，而不是增強(qiáng)與圖像無(wú)關(guān)的人的語(yǔ)音。
在幀f5和f6中，是在如此近的距離上拍攝人的，以至能夠清晰地檢測(cè) 他們的面部。因此，面部評(píng)估值大(等于或大于閾值Tfs)。此外，所;險(xiǎn)測(cè)的語(yǔ) 音的功率級(jí)也大，因此，語(yǔ)音評(píng)估值也大(等于或大于閾值Tvs)。這樣，在那些部分中，將加權(quán)因子k設(shè)置為低，將加權(quán)因子m設(shè)置為高。因此，強(qiáng)化了個(gè)人的語(yǔ)音，其結(jié)果是，該人的印象能被加深。
如上所述，根據(jù)此實(shí)施例，根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將BGM聲音插入到視頻內(nèi)容中。因此，在有效地保留原始視頻內(nèi)容中的音頻信號(hào)的同時(shí)，能夠取決于場(chǎng)景插入BGM聲音。其結(jié)果是，與只是單一地插入BGM聲音的情況相比，能夠得到更加感人、更令人難忘的視頻內(nèi)容。
本發(fā)明并不只限于上面的實(shí)施例，只要不偏離本發(fā)明的要旨，就能進(jìn)行各種修改。
在上述的實(shí)施例中，圖像特征檢測(cè)單元7除了可用于檢測(cè)人的面部圖像而外，還可以用于4企測(cè)動(dòng)物的面部圖像。此外，音頻特征;險(xiǎn)測(cè)單元8除了可用于檢測(cè)人的語(yǔ)音而外，還可以用于檢測(cè)動(dòng)物的語(yǔ)音。
在上述的實(shí)施例中，圖像特征檢測(cè)單元7不僅可以檢測(cè)面部圖像，而且也能識(shí)別特定人的面部圖像。在用辨別函數(shù)進(jìn)行的面部檢測(cè)處理之后，進(jìn)行面部識(shí)別處理。對(duì)于面部識(shí)別處理，能夠使用邊緣強(qiáng)度圖像、頻率強(qiáng)度圖像、高階(high order)自相關(guān)、彩色轉(zhuǎn)換圖像等。
圖8是概念性地示出了使用邊緣強(qiáng)度圖像的面部識(shí)別處理的圖。
如圖8所示，在記錄介質(zhì)IO等的記錄介質(zhì)中，存儲(chǔ)灰度圖像和邊緣強(qiáng)度圖像作為要識(shí)別其面部的人的特征數(shù)據(jù)(字典圖樣)。圖像特征檢測(cè)單元7從所檢測(cè)的面部圖像中提取灰度圖像和邊緣強(qiáng)度圖像作為特征數(shù)據(jù)。然后，圖像特征檢測(cè)單元7進(jìn)行在所提取的灰度圖像和邊緣強(qiáng)度圖像與所存儲(chǔ)的人的灰度圖像和邊緣強(qiáng)度圖像之間的比較處理，在此，所述的這個(gè)人其面部是用圖樣匹配進(jìn)行識(shí)別的，其結(jié)果是，能夠識(shí)別特定人的面部圖像。在此情況下，圖像特征檢測(cè)單元7按百分比來(lái)表達(dá)面部圖像的識(shí)別率(匹配率)，并將此識(shí)別率當(dāng)作為面部評(píng)估值。在獲取關(guān)于面部特征點(diǎn)(如眼睛、鼻子)的信息的情況下，圖像特征檢測(cè)單元7也能使用除了邊緣強(qiáng)度圖像等等以外的信息。
通過(guò)上述的處理，可能根據(jù)特定人的面部的識(shí)別率來(lái)將BGM插入到視頻內(nèi)容中，例如，諸如在圖7的例子中那樣，在多個(gè)小孩之中，只根據(jù)用戶(hù)的小孩的面部的識(shí)別率來(lái)進(jìn)行插入。結(jié)果，能夠使已經(jīng)編輯了的視頻內(nèi)容更加印象深刻。
在上面的實(shí)施例中，音頻特征檢測(cè)單元8不僅可以檢測(cè)語(yǔ)音，而且還能識(shí)別特定人的語(yǔ)音。按如下程序進(jìn)行語(yǔ)音識(shí)別處理。例如，音頻特征檢測(cè)單
元8對(duì)要識(shí)別的人的語(yǔ)音信號(hào)進(jìn)行頻率分析，并檢測(cè)其頻譜特征，并將該其存儲(chǔ)在記錄介質(zhì)IO等中，并與所檢測(cè)的語(yǔ)音頻譜特征進(jìn)行比較處理(圖樣比
較)。作為頻譜特征，使用了輔音部分和元音部分的每個(gè)的頻譜峰值頻率、頻譜間隔等。此外，吸氣的間隔等在各個(gè)人之間是不同的。因此，除了頻譜特
征之外，音頻特征檢測(cè)單元8還可以使用關(guān)于吸氣間隔的信息。在此情況下，音頻特征檢測(cè)單元8按百分比來(lái)表達(dá)語(yǔ)音識(shí)別率(匹配率)，并將此語(yǔ)音識(shí)別率當(dāng)作為語(yǔ)音評(píng)估值。
通過(guò)該處理，能夠根據(jù)特定人的語(yǔ)音識(shí)別率，將BGM插入到視頻內(nèi)容中，其結(jié)果是，能使已經(jīng)編輯了的視頻內(nèi)容給人更加深刻印象。
在上面的實(shí)施例中，在面部評(píng)估值小于閾值Tfs和語(yǔ)音評(píng)估值等于或大于閾值Tvs的情況下，圖像特征檢測(cè)單元7將BGM聲音的權(quán)重設(shè)置為高。然而，在此情況下，圖像特征檢測(cè)單元7也可以相反地將BGM聲音的權(quán)重設(shè)置為低。利用此設(shè)置，能夠保留作為拍攝目標(biāo)的人的語(yǔ)音以及拍攝該目標(biāo) 的人的語(yǔ)音。此外，在能夠識(shí)別多個(gè)語(yǔ)音的情況下，如果進(jìn)行拍攝的人的語(yǔ) 音的語(yǔ)音評(píng)估值等于或大于閾值Tvs,即使當(dāng)識(shí)別了進(jìn)行拍攝的人的語(yǔ)音、但面部評(píng)估值小于閾值Tfs時(shí)，也可將BGM聲音的4又重設(shè)置為低。利用此設(shè) 置，能夠更可靠和更有效地保留進(jìn)行拍攝的人的語(yǔ)音。
在上面的實(shí)施例中，記錄/再現(xiàn)裝置100并不對(duì)語(yǔ)音檢測(cè)處理進(jìn)行學(xué)習(xí) 處理，但是，它當(dāng)然是可以進(jìn)行學(xué)習(xí)處理的。
在上面的實(shí)施例中，將本發(fā)明用于作為例子的記錄/再現(xiàn)裝置，但是，當(dāng)然也可用在其它的電子設(shè)備中，這諸如PC、數(shù)碼相才幾、可移動(dòng)的AV設(shè)備、移動(dòng)電話(huà)和游戲機(jī)等。
本申請(qǐng)書(shū)包括與在日本的優(yōu)先級(jí)專(zhuān)利申請(qǐng)書(shū)JP 2008-164652中揭示的內(nèi) 容相關(guān)的主題內(nèi)容，該專(zhuān)利申請(qǐng)書(shū)是在2008年6月24日在日本專(zhuān)利局中提供的，其全部?jī)?nèi)容歸并于此，以供參考。
權(quán)利要求
1.一種電子設(shè)備，包括第一輸入裝置，用于輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)；第二輸入裝置，用于輸入不同于第一音頻信號(hào)的第二音頻信號(hào)；第一計(jì)算裝置，用于從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值；第二計(jì)算裝置，用于從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值；設(shè)置裝置，用于根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重；以及產(chǎn)生裝置，用于根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
2. 根據(jù)權(quán)利要求1的電子設(shè)備，其中，當(dāng)面部評(píng)估值等于或大于第一閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值時(shí)，所述設(shè)置裝置將第一加權(quán)因子設(shè)置為大于第二加權(quán)因子的第一值。
3. 根據(jù)權(quán)利要求2的電子設(shè)備，其中，當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值小于第二闊值時(shí)，所述設(shè)置裝置將第一加權(quán)因子設(shè)置為小于第二加權(quán)因子的第二值。
4. 根據(jù)權(quán)利要求3的電子設(shè)備，其中，當(dāng)面部評(píng)估值等于或大于第一闊值并且語(yǔ)音評(píng)估值小于第二閾值時(shí)，所述設(shè)置裝置根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置為大于第二加權(quán)因子。
5. 根據(jù)權(quán)利要求3的電子設(shè)備，其中，當(dāng)面部評(píng)估值小于第一閾值并且語(yǔ)音評(píng)估值等于或大于第二閾值時(shí)，所述設(shè)置裝置根據(jù)面部評(píng)估值和語(yǔ)音評(píng)估值將第一加權(quán)因子設(shè)置為小于第二加權(quán)因子。
6. 根據(jù)權(quán)利要求3的電子設(shè)備，還包括存儲(chǔ)裝置，用于存儲(chǔ)指示特定人的面部的特征的面部特征數(shù)據(jù)，其中，所述第一計(jì)算裝置能夠根據(jù)所存儲(chǔ)的面部特征數(shù)據(jù)來(lái)檢測(cè)其中包含了特定人的面部的面部圖像區(qū)。
7. 根據(jù)權(quán)利要求3的電子設(shè)備，還包括存儲(chǔ)裝置，用于存儲(chǔ)指示特定人的語(yǔ)音的特征的語(yǔ)音特征數(shù)據(jù)，其中，所述第二計(jì)算裝置能夠根據(jù)所存儲(chǔ)的語(yǔ)音特征數(shù)據(jù)來(lái)檢測(cè)特定人的語(yǔ)音。
8. —種編輯-見(jiàn)頻內(nèi)容的方法，包括輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)；輸入不同于第一音頻信號(hào)的第二音頻信號(hào)；從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值；從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ) 音的音量的語(yǔ)音評(píng)估值；根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán) 因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重；以及根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu) 成的第二視頻信號(hào)內(nèi)容。
9. 一種使電子設(shè)備執(zhí)行如下步驟的程序輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)；輸入不同于第一音頻信號(hào)的第二音頻信號(hào)；從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值；從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ) 音的音量的語(yǔ)音評(píng)估值；根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán) 因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán)重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重；以及根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
10. —種電子設(shè)備，包括第一輸入單元，用于輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)；第二輸入單元，用于輸入不同于第一音頻信號(hào)的第二音頻信號(hào)；第一計(jì)算單元，用于從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值；第二計(jì)算單元，用于從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估所檢測(cè)的語(yǔ)音的音量的語(yǔ)音評(píng)估值；設(shè)置單元，用于根據(jù)所計(jì)算的面部評(píng)估值和語(yǔ)音評(píng)估值來(lái)設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子，第一加權(quán)因子指示第一音頻信號(hào)的權(quán) 重，第二加權(quán)因子指示第二音頻信號(hào)的權(quán)重；以及產(chǎn)生單元，用于根據(jù)所設(shè)置的第一加權(quán)因子和第二加權(quán)因子來(lái)產(chǎn)生其中混合了第一音頻信號(hào)和第二音頻信號(hào)的第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
全文摘要
本發(fā)明的電子設(shè)備包括第一輸入裝置，用于輸入構(gòu)成第一視頻內(nèi)容的圖像信號(hào)和第一音頻信號(hào)；第二輸入裝置，用于輸入不同于第一音頻信號(hào)的第二音頻信號(hào)；第一計(jì)算裝置，用于從輸入的圖像信號(hào)中檢測(cè)其中包含了個(gè)人面部的面部圖像區(qū)，并計(jì)算用于評(píng)估所檢測(cè)的面部圖像區(qū)的確定性的面部評(píng)估值；第二計(jì)算裝置，用于從輸入的第一音頻信號(hào)中檢測(cè)個(gè)人的語(yǔ)音，并計(jì)算用于評(píng)估語(yǔ)音的音量的語(yǔ)音評(píng)估值；設(shè)置裝置，用于設(shè)置每個(gè)圖像信號(hào)的第一加權(quán)因子和第二加權(quán)因子；以及產(chǎn)生裝置，用于產(chǎn)生第三音頻信號(hào)，并產(chǎn)生由第三音頻信號(hào)和圖像信號(hào)構(gòu)成的第二視頻信號(hào)內(nèi)容。
文檔編號(hào)G10H1/00GK101615389SQ20091014997
公開(kāi)日2009年12月30日申請(qǐng)日期2009年6月24日優(yōu)先權(quán)日2008年6月24日
發(fā)明者村林升申請(qǐng)人:索尼株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：村林升
技術(shù)所有人：索尼株式會(huì)社
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

音視頻電子設(shè)備標(biāo)準(zhǔn)相關(guān)技術(shù)

小程序編輯器相關(guān)技術(shù)

程序編輯器相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

電子設(shè)備、視頻內(nèi)容編輯方法和程序的制作方法