一種基于視頻和音頻的交互式數(shù)字多媒體制作方法

文檔序號：7961324閱讀：353來源：國知局

專利名稱：一種基于視頻和音頻的交互式數(shù)字多媒體制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種計算機人機交互技術(shù)方法，特別是一種基于視頻和音頻的交互式數(shù)字多媒體制作方法。
背景技術(shù)：
近年來，隨著信息技術(shù)的革新，多媒體技術(shù)的廣泛運用，通訊傳媒產(chǎn)業(yè)飛速發(fā)展，各類媒體發(fā)布(如廣告)的創(chuàng)意及形式也是層出不窮，豐富多彩。但是傳統(tǒng)的媒體發(fā)布創(chuàng)意及形式一旦固定，都具有不變性、單向性、重復性的弊端。雖然隨著計算機視覺和語音識別技術(shù)的發(fā)展，應(yīng)用視覺和語音技術(shù)進行自然的人機簡單交互已經(jīng)成為可能，但如何使受眾與各類媒體發(fā)布進行非接觸式互動，使媒體發(fā)布盡量融入受眾自身和場地周圍景物的運動和聲音信息，并且通過這種不同的互動會使媒體發(fā)布內(nèi)容產(chǎn)生不同的變化，提高媒體發(fā)布時受眾與發(fā)布的交互性和趣味性，成為制作相關(guān)的多媒體文件時面臨的一個復雜問題。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于視頻和音頻的交互式數(shù)字多媒體制作方法，通過人機交互制作多媒體文件。
為解決上述技術(shù)問題，本發(fā)明包括如下步驟開始；步驟一、通過數(shù)字光學設(shè)備實時獲取現(xiàn)場視頻圖像并進行預處理，獲得初步視頻信息；步驟二、將步驟一所獲初步視頻信息處理轉(zhuǎn)化為視頻控制信息；步驟三、通過數(shù)字音頻設(shè)備實時獲取現(xiàn)場音頻數(shù)據(jù)，并進行預處理，獲得初步音頻信息；步驟四、將步驟三所獲初步音頻信息處理轉(zhuǎn)化為音頻控制信息；其中步驟一和步驟二組成按順序執(zhí)行的步驟組一，步驟三和步驟四組成按順序執(zhí)行的步驟組二，步驟組一、步驟組二彼此獨立，可同時執(zhí)行，也可不同時執(zhí)行，且無論步驟組一、步驟組二是否同時執(zhí)行，執(zhí)行完后都進入步驟五；步驟五、處理融合視頻控制信息和音頻控制信息，并輸出對本體的控制命令，通過控制接口按所述控制命令驅(qū)動本體，改變本體內(nèi)容并輸出，其中本體指多媒體文件；結(jié)束。
本發(fā)明由于采用視頻與音頻的互動式控制，并將結(jié)果轉(zhuǎn)化為多媒體文件的控制指令，實現(xiàn)對多媒體文件中虛擬元素的直接控制。

圖1是本發(fā)明方法應(yīng)用到廣告制作中的流程圖；圖2是對圖1中控制信息融合輸出，即把視頻和音頻的分析和識別結(jié)果映射到相應(yīng)的廣告控制中的流程圖；圖3是本發(fā)明方法一具體實施例，即為一海洋館所開發(fā)的一款互動式展示項目的效果圖。
具體實施例方式
下面結(jié)合附圖及具體實施例對本發(fā)明作進一步詳細的說明。
本發(fā)明方法從原理上可分為基于音頻的交互式數(shù)字多媒體制作方法和基于視頻的交互式數(shù)字多媒體制作方法。
其中基于視頻的交互式數(shù)字多媒體制作方法包括如下步驟①通過攝像頭設(shè)備，實時捕獲視頻圖像并進行光線校正、除噪等預處理；②利用視頻圖像在時間和空間上的變化及特征對其進行分割，將分割后的圖像進行特征提取、分析，求得圖像中的全局運動信息和局部人體姿態(tài)信息(位置、方向、幅度及他們組成的基本形狀參數(shù))；通過規(guī)則化處理，將這些信息，轉(zhuǎn)化為廣告的控制命令；③控制接口根據(jù)控制命令驅(qū)動廣告。
基于音頻的交互式數(shù)字多媒體制作方法包括如下步驟①將從麥克風和聲卡設(shè)備，實時采集音頻數(shù)據(jù)并進行除噪等預處理；②采用音調(diào)分析和語音識別技術(shù)對采集的音頻進行處理，得到聲音的頻率值、幅度值以及相對應(yīng)語意詞匯識別結(jié)果，轉(zhuǎn)化為廣告的控制命令；③控制接口根據(jù)控制命令驅(qū)動廣告。
必須強調(diào)上述兩種方法可獨立運用，也可以組合使用。
下面以本方法運用于廣告制作的實施例來進一步闡述本發(fā)明。圖1是該實施例的流程圖，其中步驟(1-5)和步驟(6-10)可單獨應(yīng)用，也可并行應(yīng)用。
如圖1所示，該實施例具體步驟如下(1)獲取視頻圖像通過高速圖像捕獲模塊從連接至計算機的攝像頭獲取實時圖像。由于要對每一幀圖像進行處理，所以要從視頻流中，將圖像逐幀提取出來。根據(jù)應(yīng)用目的的不同，攝像頭的角度可以是正對場地中的人和景物，也可以從場地頂部拍攝人和景物；(2)除噪等預處理為提高后續(xù)運動信息提取和姿態(tài)信息提取的精度和速度，需要對步驟(1)獲得的幀圖像進行除噪等預處理。首先，為了降低運算量提高計算速度，將所采集的彩色圖像分辨率縮小為原來的1/4，并轉(zhuǎn)換為256等級的灰度圖像。其次，求空間(幀內(nèi))和時間(幀間)上對應(yīng)象素平均值，對每幀圖像進行平滑處理，除去采集過程所造成的隨機噪聲。另外，對亮度進行補償以消除光照變化的影響。即將每個象素點的象素值減去整幅圖像象素值的均值，除以整幅圖像象素值的方差，再然后乘以一個系數(shù)。經(jīng)過上述處理，從而一定程度上消除光線變化的影響；(3)運動信息提取為了后續(xù)提取姿態(tài)信息，需要從步驟(2)處理后的圖像中提取全局的運動信息。首先，對當前幀與前一幀圖像的每個對應(yīng)象素做相減運算，并求相減結(jié)果的絕對值，得到描述幀間差異信息的幀間差圖像；然后，對幀間差圖像進行閾值處理，判斷每個象素是大于等于還是小于某個固定的閾值，得到描述運動區(qū)域的二值圖像(0表示小于、1表示大于或等于)；最后，對前述獲得的二值圖像進行邊緣提取，獲得運動區(qū)域的邊緣。另外，對于某個固定區(qū)域，可以根據(jù)該區(qū)域內(nèi)1所占的比例、重心位置和歷史信息，求得該區(qū)域運動的幅度、方向和速度參數(shù)；(4)姿態(tài)信息提取根據(jù)步驟(3)運動信息提取結(jié)果，進一步將運動前景分割出來，分別對不同區(qū)域單獨進行特征，分析前述二值圖像中特定區(qū)域內(nèi)的邊緣輪廓的形狀以及形狀的變化過程，提取出具有旋轉(zhuǎn)縮放不變性的特征，得出對應(yīng)的姿態(tài)信息，并通過上一時刻的結(jié)果進行跟蹤校驗及預測；(5)視頻控制參數(shù)提取與轉(zhuǎn)化把步驟(3)和(4)所提取的全局運動信息以及局部人體姿態(tài)信息轉(zhuǎn)化成相應(yīng)的控制信息；(6)獲取音頻數(shù)據(jù)通過麥克風、聲卡采集實時音頻數(shù)據(jù)；
(7)除噪等預處理對于實時采集的音頻，通過平滑處理進行除噪；(8)音調(diào)信息提取對于除噪后的音頻，進行音調(diào)分析，提取聲音的頻率值、幅度值；(8)有限詞匯語音識別采用非特定人、連續(xù)語音識別方法，識別某些離散且實時性要求不高的有限詞匯命令，如開始，停止等；(9)音頻控制參數(shù)提取與轉(zhuǎn)化將所提取的音調(diào)信息以及有限詞匯識別結(jié)果轉(zhuǎn)化成相應(yīng)的控制信息；(10)命令實現(xiàn)最后將識別的結(jié)果，通過預先定義好的命令集進行映射轉(zhuǎn)換，得到廣告的控制信息；(11)多通道融合將視頻和音頻的控制信息結(jié)合，形成高效全面的廣告控制指令。
下面詳細說明上述步驟11，即將視頻和音頻的分析和識別結(jié)果映射到相應(yīng)的廣告控制中的過程，如圖2所示，基本步驟如下(1)首先對廣告內(nèi)容控制命令進行分類根據(jù)視頻具有快速、直觀、連續(xù)輸出但易受干擾的特點，以及聲音具有自然快捷但識別過程即時性不高的特點，對所需的命令集進行有效的分類。
(2)基于視頻的控制首先需要設(shè)定各種運動信息和各種人體姿態(tài)與廣告控制量的對應(yīng)關(guān)系，然后通過攝像頭采集場地周圍景物和受眾群體，對于圖像中的運動和人體的姿態(tài)，進行實時分析和識別，根據(jù)當前的狀態(tài)，采用一定的預測跟蹤算法，輸出相應(yīng)的控制量；(3)基于音頻的控制，首先需要建立關(guān)鍵詞庫，以及關(guān)鍵詞與相關(guān)命令的映射表，然后通過麥克風采集受眾群體及場地周圍景物的聲音信號，根據(jù)音調(diào)分析和語音識別結(jié)果，產(chǎn)生相應(yīng)的控制命令；(4)通過廣告控制接口，將視頻和音頻的命令，實時整合到廣告的虛擬元素和內(nèi)容控制中，或者直接調(diào)整模型達到控制的目的。
綜上所述，本發(fā)明方法采用視頻與音頻的互動式控制，就是將受眾及場地周圍景物的運動和聲音在計算機中進行分析和識別，并將結(jié)果轉(zhuǎn)化為對多媒體文件的控制指令，實現(xiàn)對多媒體中虛擬元素的直接控制。
權(quán)利要求
1.一種基于視頻和音頻的交互式制作數(shù)字多媒體文件方法，其特征在于，包括如下步驟開始；步驟一、通過數(shù)字光學設(shè)備實時獲取現(xiàn)場視頻圖像并進行預處理，獲得初步視頻信息；步驟二、將步驟一所獲初步視頻信息處理轉(zhuǎn)化為視頻控制信息；步驟三、通過數(shù)字音頻設(shè)備實時獲取現(xiàn)場音頻數(shù)據(jù)，并進行預處理，獲得初步音頻信息；步驟四、將步驟三所獲初步音頻信息處理轉(zhuǎn)化為音頻控制信息；其中步驟一和步驟二組成按順序執(zhí)行的步驟組一，步驟三和步驟四組成按順序執(zhí)行的步驟組二，所述步驟組一、步驟組二彼此獨立，可同時執(zhí)行，也可不同時執(zhí)行，且無論步驟組一、步驟組二是否同時執(zhí)行，執(zhí)行完后都進入步驟五；步驟五、處理融合所述視頻控制信息和音頻控制信息，并輸出對本體的控制命令，通過控制接口按所述控制命令驅(qū)動本體，改變本體內(nèi)容并輸出，其中所述本體指多媒體文件；結(jié)束。
2.根據(jù)權(quán)利要求1所述的基于視頻和音頻的交互式制作數(shù)字多媒體文件方法，其特征在于，所述多媒體文件是用于形象展示或廣告的多媒體文件；所述數(shù)字光學設(shè)備為數(shù)碼攝像機；所述數(shù)字音頻設(shè)備為麥克風和聲卡。
3.根據(jù)權(quán)利要求2所述的基于視頻和音頻的交互式制作數(shù)字多媒體文件方法，其特征在于，步驟一中所述預處理包括對所述現(xiàn)場視頻圖像進行光線校正、除噪；步驟二中所述將所獲初步視頻信息處理轉(zhuǎn)化為視頻控制信息包括對視頻圖像按其在時間和空間上的變化及特征分割，再對分割后的圖像提取和分析特征，提取全局運動信息和局部人體姿態(tài)信息，其中所述局部人體姿態(tài)信息包括人體位置、方向、幅度及人體組成的基本形狀參數(shù)；步驟三中所述預處理包括采用音調(diào)分析和語音識別技術(shù)處理現(xiàn)場音頻數(shù)據(jù)；步驟四中所述將所獲初步音頻信息處理轉(zhuǎn)化為音頻控制信息包括提取聲音的頻率值、幅度值，進行有限詞匯語音識別；所述步驟五中處理融合所述視頻控制信息和音頻控制信息涉及命令集預處理模塊、視頻控制轉(zhuǎn)換模塊及音頻控制轉(zhuǎn)換模塊，其中命令集預處理模塊對視頻音頻命令集進行分類，并按接受的所述視頻音頻控制信息和音頻控制信息分別將對應(yīng)命令映射給視頻控制轉(zhuǎn)換模塊和音頻控制轉(zhuǎn)換模塊，視頻控制轉(zhuǎn)換模塊接受所述視頻控制信息及前述命令集預處理模塊映射的命令并輸出對本體的視頻控制命令到控制接口，音頻控制轉(zhuǎn)換模塊接受所述音頻控制信息及前述命令集預處理模塊映射的命令并輸出對本體的音頻控制命令到控制接口。
4.根據(jù)權(quán)利要求3所述的基于視頻和音頻的交互式制作數(shù)字多媒體文件方法，其特征在于，所述現(xiàn)場視頻圖像進行除噪，包括首先將現(xiàn)場視頻圖像分辨率縮小為原來的1/4，并轉(zhuǎn)換為256等級的灰度圖像；然后求幀內(nèi)和幀間上對應(yīng)象素平均值，對每幀圖像進行平滑處理，除去采集過程所造成的隨機噪聲；所述現(xiàn)場視頻圖像進行光線校正指將每個象素點的象素值減去整幅圖像象素值的均值，除以整幅圖像象素值的方差，然后再乘以一個系數(shù)；所述提取全局運動信息包括首先對當前幀與前一幀圖像的每個對應(yīng)象素做相減運算，并求相減結(jié)果的絕對值，得到描述幀間差異信息的幀間差圖像；然后對幀間差圖像進行閾值處理，判斷每個象素是大于等于還是小于某個固定的閾值，得到描述運動區(qū)域的二值圖像，用0表示小于、1表示大于或等于；最后對前述獲得的二值圖像進行邊緣提取，獲得運動區(qū)域的邊緣；所述提取局部人體姿態(tài)信息指根據(jù)前述提取全局運動信息結(jié)果，進一步分割運動前景，對不同區(qū)域單獨進行特征分析，分析前述二值圖像中特定區(qū)域內(nèi)的邊緣輪廓的形狀以及形狀的變化過程，提取出具有旋轉(zhuǎn)縮放不變性的特征，得出對應(yīng)的姿態(tài)信息，并通過上一時刻的結(jié)果進行跟蹤校驗及預測。
全文摘要
本發(fā)明公開了一種基于視頻和音頻的交互式數(shù)字多媒體制作方法，通過人機交互制作多媒體文件。包括開始；步驟一、實時獲取現(xiàn)場視頻圖像并進行預處理，獲得初步視頻信息；步驟二、將初步視頻信息處理轉(zhuǎn)化為視頻控制信息；步驟三、實時獲取現(xiàn)場音頻數(shù)據(jù)，并進行預處理，獲得初步音頻信息；步驟四、將初步音頻信息處理轉(zhuǎn)化為音頻控制信息；步驟一、步驟二組成步驟組一，步驟三、步驟四組成步驟組二，步驟組一、步驟組二彼此獨立，且執(zhí)行完后都進入步驟五；步驟五、融合視頻控制信息和音頻控制信息，并輸出本體控制命令，改變本體內(nèi)容并輸出；結(jié)束。本發(fā)明采用視頻與音頻的互動式控制，實現(xiàn)對了多媒體文件中虛擬元素的直接控制。
文檔編號H04N7/14GK101079996SQ20061008146
公開日2007年11月28日申請日期2006年5月22日優(yōu)先權(quán)日2006年5月22日
發(fā)明者侯啟檳, 王陽生, 曾祥永, 魯鵬申請人:北京盛開交互娛樂科技有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：侯啟檳;王陽生;曾祥永;魯鵬
技術(shù)所有人：北京盛開交互娛樂科技有限公司
我是此專利的發(fā)明人

上一篇：移動對講機一對多群發(fā)服務(wù)的方法
上一篇：一種正交頻分復用系統(tǒng)及選擇性映射發(fā)送和接收方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)字音視頻技術(shù)相關(guān)技術(shù)

數(shù)字音視頻技術(shù)及應(yīng)用相關(guān)技術(shù)

數(shù)字音視頻處理技術(shù)相關(guān)技術(shù)

數(shù)字圖像及音視頻處理相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于視頻和音頻的交互式數(shù)字多媒體制作方法