專利名稱:一種多媒體視頻對象處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多媒體視頻對象處理方法,尤其是涉及一種多媒體視頻的 視頻智能化場景分割、無縫拼接和對象提取的方法。
技術(shù)背景隨著計算機和網(wǎng)絡技術(shù)的發(fā)展,以媒體為代表的應用對人類社會產(chǎn)生的影 響和作用越來越明顯,極大地推動了諸多工業(yè)的相互滲透和飛速發(fā)展,逐步改 變了整個人類社會的工作結(jié)構(gòu)和生活方式,由此,對多媒體對象的處理也越來 越受到重視。多媒體信息的主要成分是視覺信息,具有直觀、信息量大等特點。視覺信 息是人類認知世界的重要功能手段,它包括靜止圖像、視頻及圖像序列、計算IH圖形和動畫等等,更廣義的視覺信息還可以包括文本信息等。在最初的工程應用中,比如衛(wèi)星圖像和醫(yī)學圖像中對象的識別和提取、工業(yè)加工過程的控制 等等,人們針對不同的應用場景提出多種不同的對象分割和提取算法。但這些 場合有一個共同的特點,都是基于靜態(tài)圖像領(lǐng)域。由于計算機多媒體技術(shù)和網(wǎng) 絡技術(shù)的持續(xù)發(fā)展,特別是一些特殊的視頻處理應用場合的需要,使得動態(tài)圖 像視頻領(lǐng)域的對象分割和提取變得極為迫切。通過對視頻信息進行分析和處理, 可以獲得從單一的靜態(tài)圖像中不可能得到的信息。視頻分析和處理在商業(yè)、軍事、工業(yè)等領(lǐng)域有著十分廣泛的應用,例如在商業(yè)上,視頻處理技術(shù)廣泛應 用于數(shù)字電視、多媒體、桌面視頻圖像、視頻會議系統(tǒng)、可視電話和移動圖像 通信以及其他消費娛樂領(lǐng)域;在工業(yè)方面,視頻處理技術(shù)用于工業(yè)過程控制、 機器人視覺、自主運載器導航等;在軍事上,用于對空監(jiān)視中的多目標跟蹤等;其他的應用領(lǐng)域包括重點部門的監(jiān)視系統(tǒng)、智能化交通高速公路系統(tǒng)、港口交 通控制、航空和飛行控制、遠程多媒體教育系統(tǒng)等。多媒體視頻對象處理的主要任務包括對視頻本身的處理,即按照一定的規(guī)則和方法,將一個完整的視頻對象分割為若干個視頻對象;或者是將若干個視 頻對象進行無縫拼接,成為一個完整的視頻對象;另一方面,是對采集的視頻 對象進行分析、處理,并按照不同的應用要求提取其中的圖像信息,并對這些 信息進行進一步的處理,以獲取用戶最終需要的信息。對于視頻的分割,迄今為止已經(jīng)提出了許多從視頻流中檢測場景變換的方 法。目前,大量的視頻數(shù)據(jù)是以壓縮格式(如MPEG)存儲的,早期的許多算 法都是針對全解壓的視頻數(shù)據(jù)的,如像素對比較方法、模板比較方法、直方圖 比較方法等。但上述方法都需要對視頻進行全部解壓,計算復雜性高、速度慢, 并且需要占用很大的存儲空間。主要研究成果有Pei等提出的基于MPEG編 碼視頻流中P幀和B幀的預測方向來檢測場景突變的方法;Lee等基于"B幀內(nèi) 雙向預測的宏塊(MB)個數(shù)越多,幀間的相關(guān)度越高,則鏡頭變換的可能性越 小"這一思想提出的視頻分割方法;Liu等提出了一種基于彩色信息和抽樣檢測 的視頻分割算法;Wang等提出了一種改進的基于統(tǒng)計模型的視頻分割算法。目前國外較多廠家在進行視頻對象的無縫拼接的相關(guān)研究,國內(nèi)主要有北 京算通科技發(fā)展有限公司、北京匯視源科技有限公司等,許多大學或者研究所 也都不同程度地涉及過多媒體視頻對象無縫拼接這個方面。從視頻中的對感興趣的圖像進行分割和提取一直是數(shù)字圖像處理的核心問 題之一,也一直是一個研究熱點。近年來,國內(nèi)外對于視頻序列中運動目標分 割技術(shù)的研究取得了大量的成果,許多新的方法也相繼出現(xiàn)。但分割算法的分 類在不同文獻中有著不同的分類標準,不同分類的分割方法中又可能發(fā)生重疊。 主要的分割技術(shù)分為基于運動的分割方法,主要利用視頻序列的運動信息進行分割提取,如Meyer和Bouthem提出的區(qū)域跟蹤算法在每一個區(qū)域內(nèi)利用密 度流場的仿射模型來進行運動分割和區(qū)域邊界傳播;基于時空信息的分割方法, 常見的算法如空間分割獲得初始模板,再時域跟蹤;同時進行空間分割和時域 分割的方法;交互式分割方法,主要采用人工交互的方式來確定分割對象的方 法,通過此類分割方法,可以提高視頻分割的精度。如Kruse等人提出了利用活 動輪廓來進行視頻對象分割,這種方法屬于基于邊界的交互式視頻對象分割方 法。
由此可見,多媒體視頻對象處理的各個關(guān)鍵步驟積累了相當多的理論成果, 也有相應的應用軟件面世。目前已有的多媒體視頻對象處理方法主要存在以下 問題(1)、許多視頻分割方法需要對視頻進行全部解壓,計算復雜性高、速度 慢,占用很大的存儲空間;(2)、視頻拼接耗費資源多、效率低、效果較差;(3)、 視頻中截取的圖像準確度較低,截取速度較慢;(4)、自動化程度不夠高, 一定 程度上還較依賴人機交互。
發(fā)明內(nèi)容
為了克服已有的多媒體視頻對象處理方法中存在的耗費資源多、處理效率 低下、處理效果不佳、較依賴人機交互等不足,本發(fā)明提供了一種處理速度快、 效果好、自動化程度高的多媒體視頻對象處理方法。
本發(fā)明的上述技術(shù)問題主要是通過下述技術(shù)方案得以解決的 一種多媒體 視頻對象處理方法,該方法包括以下步驟
(1)標準的MPEG視頻格式的語法結(jié)構(gòu)的最上層是幀圖像組GOP (Group of picture),由三種主要的壓縮類型的圖像幀(I幀、P幀、B幀)組成, 一個 GOP可分為3種子類(SGOP, Sub Group of picture )。在處理視頻時,分別對每 個SGOP中各幀的宏塊(MB , Marco Block)的類型進行分析,凡是滿足一定 規(guī)則的,就認為有一個MB發(fā)生了變化。將各幀發(fā)生變化的MB個數(shù)與總的MB 個數(shù)相比得到鏡頭變化可能程度c, c越接近l,表明鏡頭發(fā)生轉(zhuǎn)換的幾率就越大。設置某個閾值。若c",則認為場景發(fā)生了變化,進行分割;(2) 預讀兩個要進行拼接的標準MPEG視頻流,分別找到兩個視頻流的節(jié) 目關(guān)聯(lián)表(PAT),通過節(jié)目關(guān)聯(lián)表(PAT)找到相應的節(jié)目映射表(PMT),然 后在節(jié)目映射表(PMT)里面得到各種信息,主要包括音頻、視頻和節(jié)目時鐘 基準(PCR)的識別符(PID),并尋找合適的拼接場景;(3) 尋找視頻拼接的入點和出點,并對接入的視頻流的各種信息進行調(diào)整, 主要包括視頻流的節(jié)目專用信息(PSI),音頻、視頻傳輸流數(shù)據(jù)包的識別符(PID),包含節(jié)目時鐘基準(PCR)的傳輸流數(shù)據(jù)包的PID,以及所有這些數(shù)據(jù) 包的版本號,同時修改第二個視頻流的時間信息;(4) 根據(jù)已經(jīng)存在的視頻拼接點選取合適的音頻拼接點,保證音頻和視頻 同步拼接;(5) 設置視頻緩沖區(qū)驗證模型,簡稱VBV (video buffering verifier),使解碼器輸入端有碼流緩沖區(qū),使不規(guī)則的幀邊界規(guī)則化。同時通過調(diào)節(jié)視頻流中 空包的數(shù)量,將進行拼接的兩個視頻的碼率調(diào)整為一致,保證視頻的無縫拼接;(6) 基于變化檢測對視頻圖像在時間域中進行運動對象提取。將兩幀彩色 圖像轉(zhuǎn)化為灰度圖像,設置合適的閾值得到灰度幀差掩模圖像,同理取得HSV 彩色空間的幀差掩模圖像,兩者進行或運算得到聯(lián)合幀差圖像。通過數(shù)學形態(tài) 學的膨脹和腐蝕操作形成連通域,得到運動對象的區(qū)域;(7) 對得到的運動對象區(qū)域經(jīng)預處理后進行分水嶺變換,并進行時域和空域的區(qū)域合并,實現(xiàn)運動對象的精確分割。作為技術(shù)方案的進一步改進,所述步驟(1)具體包括以下步驟(1.1) MPEG視頻中的一個幀圖像組(GOP)由三種主要的壓縮類型的圖像幀組成,包括I幀、P幀、B幀,其標準結(jié)構(gòu)為IBBPBBPBBPBBPBB;將幀圖像組(GOP)分為三類子類(SGOP):PBBP結(jié)構(gòu)(SGOPl),PBBI結(jié)構(gòu)(SGOP2)和IBBP結(jié)構(gòu)(SGOP3);其中前一個子類(SGOP)的最后一幀圖像即是后面一 個子類(SGOP)的第一幀圖像,所以只需分析一個子類(SGOP)中的最后3 幀圖像即可;
(1.2) 將可能發(fā)生在一個幀圖像組(GOP)中的場景變換分為三類變換
發(fā)生在P幀或I幀,稱為SPI;變換發(fā)生在前面的B幀,稱為SFB;變換發(fā)生在
后面的B幀,稱為SRB;
(1.3) 宏塊(MB)的變化類型參考以下規(guī)則(1.3.1)對于SPI而言, 兩個B幀圖像(5/,A)的大多數(shù)宏塊(MB)都是前向運動補償方式,稱為F 模式,它們與后面的參考幀A更相似;參考幀A為場景變換所在的幀,大多數(shù) 宏塊(MB)都是幀內(nèi)編碼,稱為I模式;(1.3.2)對于SFB而言,參考幀(尸》 中的大多數(shù)宏塊(MB)也是I模式,但是由于在B幀圖像^處鏡頭內(nèi)容發(fā)生了 變化,B幀圖像A和B幀圖像5,圖像的內(nèi)容與后面參考幀的內(nèi)容相似,因此兩 個B幀的大多數(shù)宏塊(MB)將是后向運動補償方式,稱為B模式;(1.3.3)對 于SRB,由于鏡頭內(nèi)容在后面的B幀處發(fā)生了變化,所以B幀圖像^與后面的 參考幀不相似,它的大多數(shù)宏塊(MB)為F模式;而B幀圖像J5,與前面的參 考幀不相似,它的大多數(shù)宏塊(MB)為B模式;
(1.4) 在檢測鏡頭時,分別對子類(SGOP)各幀的宏塊(MB)類型進行 分析,凡是類型關(guān)系滿足上述規(guī)則之一的,就認為有一個宏塊(MB)發(fā)生了變 化;
(1.5) 統(tǒng)計各幀中宏塊(MB)發(fā)生變化的次數(shù),與總的宏塊(MB)數(shù)量 相比,若大于一定的閾值則認為場景發(fā)生了變化,進行切割。
作為技術(shù)方案的進一步改進,所述的步驟(2)具體包括以下步驟 (2.1)從視頻流的開始,尋找載有節(jié)目關(guān)聯(lián)表(PAT)信息的數(shù)據(jù)包,從 中可獲得該視頻流復用節(jié)目數(shù)、每路節(jié)目的節(jié)目號和每路節(jié)目的節(jié)目映射表(PMT)的識別符(PID)等信息;(2.2) 通過節(jié)目映射表(PMT)的識別符(PID),在視頻流里找到包含節(jié) 目映射表(PMT)信息的數(shù)據(jù)包,從中查出該路節(jié)目的節(jié)目時鐘基準(PCR) 的識別符(PID),判斷某個對象是音頻還是視頻;(2.3) 通過得到的視頻的識別符(PID),獲取視頻序列頭信息,判斷兩個 視頻流編碼的類、級、圖像大小、幅型比、幀率等信息是否相同,如果不同, 則不能拼接;同時,根據(jù)得到的節(jié)目時鐘基準(PCR)的識別符(PID),取得 兩個視頻流的碼率;(2.4) 對視頻圖像進行預覽,尋找預覽圖像周圍的部分拼接點,得到主觀 合適的拼接點,節(jié)省資源并提高處理速度。作為技術(shù)方案的進一步改進,所述的步驟(3)具體包括以下步驟-(3. 1)對于一組標準MPEG視頻序列,出點只能在I幀或P幀之前最后一 幀的最后一個數(shù)據(jù)結(jié)束點,入點只能在I幀(包括I幀前面的序列頭和圖組頭) 的第一個數(shù)據(jù);(3.2) 以預覽圖像中得到的預覽位置為起點,向前和向后搜尋一定數(shù)量的 視頻傳輸流包,判斷該傳輸流包是不是一個圖像的開頭,如果是,判斷該圖像 的幀類型是I幀、P幀還是B幀;若是I幀,則該傳輸流包可以直接作為該傳輸 流的一個入點包,也就是說可以從這個傳輸流包開始進入該視頻流;同樣,如 果判斷出該傳輸流包包含I幀或P幀的圖像頭,則該包前面的一個傳輸流包就可 以作為該視頻流的一個出點包;(3.3) 找到可能的拼接點后,記錄拼接點的信息,包括拼接點的位置(包 括接口幀在傳輸流里的起始和結(jié)束位置),拼接點類型(出點還是入點),接口 幀的幀類型,接口幀的顯示時間標記(PTS)和解碼時間標記(DTS), DTS的 間隔值,接口幀從開始到下一幀開始在傳輸流里所占的數(shù)據(jù)包數(shù),接口幀凈打包的基本流(PES)包數(shù)據(jù)在傳輸流里所占的數(shù)據(jù)包數(shù)等;(3.4) 把拼入視頻流中除了節(jié)目關(guān)聯(lián)表(PAT)的傳輸流包之外所有需要 識別符(PID)進行識別的傳輸流包,其識別符(PID)都改成與拼出視頻流一 致,同時把節(jié)目關(guān)聯(lián)表(PAT)和節(jié)目映射表(PMT)的內(nèi)容替換為拼出流的相 應內(nèi)容以保證正確解碼;(3.5) 對時間信息進行調(diào)整,在拼出流的出點之前找到最近的一個節(jié)目時 鐘基準(PCR)值尸CA,記錄該PCR字段距離拼出點的字節(jié)數(shù)^,該PCR字 段的最后一位字節(jié)進入系統(tǒng)目標解碼器的時間為~;同樣再找到入流的入點之后 最近的PCR值PC^,記錄^和^,則第二個流PCR的調(diào)整量77we_c#^的計 算方法如下77we—c#" = 0, -,2) (1 )其中rafe為視頻的碼率,若兩個視頻碼率不同,則公式(1)記為7V附e —眷"=^~ + ~^_ + "-。 (2) rag rafe2入流拼接點之后的每一個PCR處理后的時間值f與其處理前的原值f'的關(guān) 系如下Z = /'+77ff e —q^e/1 (3) 作為技術(shù)方案的進一步改進,所述的步驟(4)具體包括以下步驟(4.1) 根據(jù)對拼接點所記錄的顯示時間標記(PTS)信息,找到顯示時間 標記(PTS)與之最為接近的音頻幀的位置,保證出點的音頻比視頻提前、入點 的音頻比視頻滯后;(4.2) —般出流音頻不止一幀,在開始插入入流視頻時,中間遇到入流音 頻包時用出流音頻替換,如果出流音頻包多于入流音頻包,則多余的部分堆積 在入流視頻數(shù)據(jù)之后。作為技術(shù)方案的進一步改進,所述的步驟(6)具體包括以下步驟(6.1) 對視頻序列中的兩幀進行灰度化,灰度化的公式是Gra"0.229i + 0.587G + 0.1145 (4)(6.2) 對兩幀灰度圖像進行幀差計算,計算公式是d = / O,>0—/ O,j), w>" (5) 其中m,"分別代表兩幀的序號。(6.3) 設置合理的閾值r,得到幀差掩模圖像FZM4^,計算公式如下-印 ,k其他 (6)(6.4) 將RGB顏色空間轉(zhuǎn)化到HSV顏色空間,分別求出三個分量的幀差 掩模圖像FDMh、 FDMs、 得到關(guān)于HSV空間的幀差掩模圖像如下F慶腺=FDMH I F層、'I ( 7 )(6.5) 將灰度幀差掩模圖像與HSV空間的幀差掩模圖像進行或運算,得 到聯(lián)合幀差掩模圖像FDM:F房=F層,I卯M縦 (8)(6.6) 對FDM進行數(shù)學形態(tài)學的膨脹或腐蝕運算,去除零散的噪聲干擾, 并填充運動對象區(qū)域的空洞,得到分割結(jié)果。作為技術(shù)方案的進一步改進,所述的步驟(7)具體包括以下步驟 (7. 1)步驟(6)中取得的運動對象區(qū)域經(jīng)過中值濾波之后,按照Lue Vincent算法進行分水嶺算法變換;(7.2)分水嶺算法往往會因為噪音以及圖像紋理造成許多小區(qū)域的過分割,因此把空間與時間信息同時考慮,運用區(qū)域合并來消除這種影響。分水嶺算法的輸出是N個區(qū)域",&,…,i ",及,區(qū)域像素的個數(shù)是iV,, i^則區(qū)域內(nèi)顏色均值//,和方差定義一如下<formula>formula see original document page 17</formula>其中x,是某個像素的顏色值。 (7.3)用Fisher距離度量兩個相鄰區(qū)域的相異度:
<formula>formula see original document page 17</formula> (11)
Fisher距離越大表明兩個區(qū)域之間顏色相關(guān)性越?。环粗瓼isher距離越小表 明兩個區(qū)域顏色相關(guān)性越大,可以考慮合并兩區(qū)域。
(7.4) 用顏色均值進行類距離測量考察相鄰兩幀的差別,定義
<formula>formula see original document page 17</formula> (12) 表示圖像在第A:和第幀的顏色均值差分。則在^和^之間的時間距離
^ 定義為
<formula>formula see original document page 17</formula> (13)
其中A"是區(qū)域A和/ "在邊界上前后兩幀之間的強度差,A"值越大,表明 兩個區(qū)域存在運動相關(guān);反之表明該區(qū)域或者屬于背景,或者屬于同一運動對 象,考慮進行合并;
(7.5) 基于對空間域和時間域的區(qū)域距離定義,應用下式就是相鄰兩區(qū)域 的聯(lián)合距離
<formula>formula see original document page 17</formula> (14)
(7.6) 當兩個相鄰區(qū)域的聯(lián)合距離w小于閾值7^時就合并這兩個區(qū)域,當 重復執(zhí)行次M之后,尚有一些較小區(qū)域未合并;如果區(qū)域內(nèi)包含的像素個數(shù)《S 小于閾值Sw,且此區(qū)域與相鄰區(qū)域最小聯(lián)合距離為w^,若^小于閾值 ;,且 7;>rM,則合并這兩個區(qū)域。重復執(zhí)行A^次得到最終的合并結(jié)果。本發(fā)明的有益效果主要表現(xiàn)在1、視頻場景檢測過程簡單,能以快速有效、 地檢測出場景變換,精確到幀,避免誤檢;2、無縫拼接方案較簡單、快捷,資 源消耗較低,誤碼率低;3、在視頻對象檢測中運用時空結(jié)合的方法,克服了由 于噪音引起的過分割現(xiàn)象,改善了分割質(zhì)量,提高了分割精度。
具體實施方式
下面通過實施例,對本發(fā)明的技術(shù)方案作進一步具體的說明。實施例 一種多媒體視頻對象處理方法,該方法包括以下步驟(1)標準的MPEG視頻格式的語法結(jié)構(gòu)的最上層是幀圖像組GOP (Groupof picture),由三種主要的壓縮類型的圖像幀(I幀、P幀、B幀)組成, 一個GOP可分為3種子類(SGOP, Sub Group of picture )。在處理視頻時,分別對每個SGOP中各幀的宏塊(MB , Marco Block)的類型進行分析,凡是滿足一定規(guī)則的,就認為有一個MB發(fā)生了變化。將各幀發(fā)生變化的MB個數(shù)與總的MB個數(shù)相比得到鏡頭變化可能程度c, c越接近l,表明鏡頭發(fā)生轉(zhuǎn)換的兒率就越大。設置某個閾值6若c",則認為場景發(fā)生了變化,進行分割; 具體包括以下步驟(1.1) MPEG視頻中的一個幀圖像組(GOP)由三種主要的壓縮類型的圖 像幀組成,包括I幀、P幀、B幀,其標準結(jié)構(gòu)為IBBPBBPBBPBBPBB;將幀 圖像組(GOP)分為三類子類(SGOP):PBBP結(jié)構(gòu)(SGOPl),PBBI結(jié)構(gòu)(SGOP2) 和IBBP結(jié)構(gòu)(SGOP3);其中前一個子類(SGOP)的最后一幀圖像即是后面一 個子類(SGOP)的第一幀圖像,所以只需分析一個子類(SGOP)中的最后3 幀圖像即可;(1.2) 將可能發(fā)生在一個幀圖像組(GOP)中的場景變換分為三類變換 發(fā)生在P幀或I幀,稱為SPI;變換發(fā)生在前面的B幀,稱為SFB;變換發(fā)生在 后面的B幀,稱為SRB;(1.3)宏塊(MB)的變化類型參考以下規(guī)則(1.3.1)對于SPI而言, 兩個B幀圖像(S^5r)的大多數(shù)宏塊(MB)都是前向運動補償方式,稱為F 模式,它們與后面的參考幀P,更相似;參考幀&為場景變換所在的幀,大多數(shù) 宏塊(MB)都是幀內(nèi)編碼,稱為I模式;(1.3.2)對于SFB而言,參考幀CP,) 中的大多數(shù)宏塊(MB)也是I模式,但是由于在B幀圖像^處鏡頭內(nèi)容發(fā)生了 變化,B幀圖像J5/和B幀圖像A圖像的內(nèi)容與后面參考幀的內(nèi)容相似,因此兩 個B幀的大多數(shù)宏塊(MB)將是后向運動補償方式,稱為B模式;(1.3.3)對 于SRB,由于鏡頭內(nèi)容在后面的B幀處發(fā)生了變化,所以B幀圖像5,與后面的 參考幀不相似,它的大多數(shù)宏塊(MB)為F模式;而B幀圖像A與前面的參 考幀不相似,它的大多數(shù)宏塊(MB)為B模式;
(1.4)在檢測鏡頭時,分別對子類(SGOP)各幀的宏塊(MB)類型進行 分析,凡是類型關(guān)系滿足上述規(guī)則之一的,就認為有一個宏塊(MB)發(fā)生了變 化;
(1.5)統(tǒng)計各幀中宏塊(MB)發(fā)生變化的次數(shù),與總的宏塊(MB)數(shù)量 相比,若大于一定的閾值t,則認為場景發(fā)生了變化,進行切割。
(2)預讀兩個要進行拼接的標準MPEG視頻流,分別找到兩個視頻流的節(jié) 目關(guān)聯(lián)表(PAT),通過節(jié)目關(guān)聯(lián)表(PAT)找到相應的節(jié)目映射表(PMT),然 后在節(jié)目映射表(PMT)里面得到各種信息,主要包括音頻、視頻和節(jié)目時鐘 基準(PCR)的識別符(PID),并尋找合適的拼接場景; 具體包括以下步驟
(2.1) 從視頻流的開始,尋找載有節(jié)目關(guān)聯(lián)表(PAT)信息的數(shù)據(jù)包,從 中可獲得該視頻流復用節(jié)目數(shù)、每路節(jié)目的節(jié)目號和每路節(jié)目的節(jié)目映射表
(PMT)的識別符(PID)等信息;
(2.2) 通過節(jié)目映射表(PMT)的識別符(PID),在視頻流里找到包含節(jié)目映射表(PMT)信息的數(shù)據(jù)包,從中査出該路節(jié)目的節(jié)目時鐘基準(PCR) 的識別符(PID),判斷某個對象是音頻還是視頻;
(2.3) 通過得到的視頻的識別符(PID),獲取視頻序列頭信息,判斷兩個 視頻流編碼的類、級、圖像大小、幅型比、幀率等信息是否相同,如果不同, 則不能拼接;同時,根據(jù)得到的節(jié)目時鐘基準(PCR)的識別符(PID),取得 兩個視頻流的碼率;
(2.4) 對視頻圖像進行預覽,尋找預覽圖像周圍的部分拼接點,得到主觀 合適的拼接點,節(jié)省資源并提高處理速度。
(3)尋找視頻拼接的入點和出點,并對接入的視頻流的各種信息進行調(diào)整, 主要包括視頻流的節(jié)目專用信息(PSI),音頻、視頻傳輸流數(shù)據(jù)包的識別符 (PID),包含節(jié)目時鐘基準(PCR)的傳輸流數(shù)據(jù)包的PID,以及所有這些數(shù)據(jù) 包的版本號,同時修改第二個視頻流的時間信息; 具體包括以下步驟 (3. 1)對于一組標準MPEG視頻序列,出點只能在I幀或P幀之前最后一 幀的最后一個數(shù)據(jù)結(jié)束點,入點只能在I幀(包括I幀前面的序列頭和圖組頭) 的第一個數(shù)據(jù);
(3.2) 以預覽圖像中得到的預覽位置為起點,向前和向后搜尋一定數(shù)量的 視頻傳輸流包,判斷該傳輸流包是不是一個圖像的開頭,如果是,判斷該圖像 的幀類型是I幀、P幀還是B幀;若是I幀,則該傳輸流包可以直接作為該傳輸 流的一個入點包,也就是說可以從這個傳輸流包開始進入該視頻流;同樣,如 果判斷出該傳輸流包包含I幀或P幀的圖像頭,則該包前面的一個傳輸流包就可 以作為該視頻流的一個出點包;
(3.3) 找到可能的拼接點后,記錄拼接點的信息,包括拼接點的位置(包 括接口幀在傳輸流里的起始和結(jié)束位置),拼接點類型(出點還是入點),接口幀的幀類型,接口幀的顯示時間標記(PTS)和解碼時間標記(DTS), DTS的 間隔值,接口幀從開始到下一幀開始在傳輸流里所占的數(shù)據(jù)包數(shù),接口幀凈打 包的基本流(PES)包數(shù)據(jù)在傳輸流里所占的數(shù)據(jù)包數(shù)等;
(3.4) 把拼入視頻流中除了節(jié)目關(guān)聯(lián)表(PAT)的傳輸流包之外所有需要 識別符(PID)進行識別的傳輸流包,其識別符(PID)都改成與拼出視頻流一 致,同時把節(jié)目關(guān)聯(lián)表(PAT)和節(jié)目映射表(PMT)的內(nèi)容替換為拼出流的相 應內(nèi)容以保證正確解碼;
(3.5) 對時間信息進行調(diào)整,在拼出流的出點之前找到最近的一個節(jié)目時 鐘基準(PCR)值戶0^,記錄該PCR字段距離拼出點的字節(jié)數(shù)/;,該PCR字 段的最后一位字節(jié)進入系統(tǒng)目標解碼器的時間為~;同樣再找到入流的入點之后 最近的PCR值PO "記錄/2和6,則第二個流PCR的調(diào)整量7 me—q僑"的計 算方法如下
77膨<formula>formula see original document page 21</formula> ( 1 )
其中rafe為視頻的碼率,若兩個視頻碼率不同,則公式(1)記為
<formula>formula see original document page 21</formula> (2)
入流拼接點之后的每一個PCR處理后的時間值f與其處理前的原值f'的關(guān) 系如下
/ = ,'+77鵬—(3)
(4)根據(jù)已經(jīng)存在的視頻拼接點選取合適的音頻拼接點,保證音頻和視頻 同步拼接;具體包括以下步驟
(4.1)根據(jù)對拼接點所記錄的顯示時間標記(PTS)信息,找到顯示時間 標記(PTS)與之最為接近的音頻幀的位置,保證出點的音頻比視頻提前、入點 的音頻比視頻滯后;(4.2) —般出流音頻不止一幀,在開始插入入流視頻時,中間遇到入流音 頻包時用出流音頻替換,如果出流音頻包多于入流音頻包,則多余的部分堆積 在入流視頻數(shù)據(jù)之后。
(5) 設置視頻緩沖區(qū)驗證模型,簡稱VBV (video buffering verifier),使解 碼器輸入端有碼流緩沖區(qū),使不規(guī)則的幀邊界規(guī)則化。同時通過調(diào)節(jié)視頻流中 空包的數(shù)量,將進行拼接的兩個視頻的碼率調(diào)整為一致,保證視頻的無縫拼接;
(6) 基于變化檢測對視頻圖像在時間域中進行運動對象提取。將兩幀彩色 圖像轉(zhuǎn)化為灰度圖像,設置合適的閾值得到灰度幀差掩模圖像,同理取得HSV 彩色空間的幀差掩模圖像,兩者進行或運算得到聯(lián)合幀差圖像。通過數(shù)學形態(tài) 學的膨脹和腐蝕操作形成連通域,得到運動對象的區(qū)域;具體包括以下步驟
(6.1) 對視頻序列中的兩幀進行灰度化,灰度化的公式是
Gra"0.229i + 0.587G + 0.1則 (4)
(6.2) 對兩幀灰度圖像進行幀差計算,計算公式是
d = /mO,;v)—/ 0,力,附>" (5) 其中m, w分別代表兩幀的序號。
(6.3) 設置合理的閾值r,得到幀差掩模圖像Fi^14^,計算公式如下-
「1, d > T 、
FDM,=io,其他 (6)
(6.4) 將RGB顏色空間轉(zhuǎn)化到HSV顏色空間,分別求出三個分量的幀差 掩模圖像FDM^ FDMs、 FZ)Mr,得到關(guān)于HSV空間的幀差掩模圖像FDM/^ 如下
F爐艦=FWH I F層s I FZ)MK ( 7 )
(6.5) 將灰度幀差掩模圖像與HSV空間的幀差掩模圖像進行或運算,得 到聯(lián)合幀差掩模圖像FDM:
尸DM-F層脾IF認艦 (8)(6.6)對F/^r進行數(shù)學形態(tài)學的膨脹或腐蝕運算,去除零散的噪聲干擾,
并填充運動對象區(qū)域的空洞,得到分割結(jié)果。
(7)對得到的運動對象區(qū)域經(jīng)預處理后進行分水嶺變換,并進行時域和空
域的區(qū)域合并,實現(xiàn)運動對象的精確分割。具體包括以下步驟
(7. 1 )步驟(6)中取得的運動對象區(qū)域經(jīng)過中值濾波之后,按照Lue Vincent 算法進行分水嶺算法變換;
(7.2)分水嶺算法往往會因為噪音以及圖像紋理造成許多小區(qū)域的過分 割,因此把空間與時間信息同時考慮,運用區(qū)域合并來消除這種影響。分水嶺 算法的輸出是N個區(qū)域",^,…,i^, i ,區(qū)域像素的個數(shù)是^, i ,則區(qū)域內(nèi)顏色 均值A和方差定義CT,2如下
(9)
"N^力ul (io)
其中z,.是某個像素的顏色值。
(7.3)用Fisher距離度量兩個相鄰區(qū)域的相異度:
<formula>formula see original document page 23</formula> (11)
Fisher距離越大表明兩個區(qū)域之間顏色相關(guān)性越?。环粗瓼isher距離越小表 明兩個區(qū)域顏色相關(guān)性越大,可以考慮合并兩區(qū)域。
(7.4)用顏色均值進行類距離測量考察相鄰兩幀的差別,定義
0,力=|^+1-/^| (12) 表示圖像在第A和第幀的顏色均值差分。則在i^和A之間的時間距離
<formula>formula see original document page 23</formula> (13)其中A。是區(qū)域^和^在邊界上前后兩幀之間的強度差,A"值越大,表明 兩個區(qū)域存在運動相關(guān);反之表明該區(qū)域或者屬于背景,或者屬于同一運動對 象,考慮進行合并;
(7.5) 基于對空間域和時間域的區(qū)域距離定義,應用下式就是相鄰兩區(qū)域 的聯(lián)合距離<formula>formula see original document page 24</formula>
(7.6) 當兩個相鄰區(qū)域的聯(lián)合距離w小于閾值7^時就合并這兩個區(qū)域,當 重復執(zhí)行次^之后,尚有一些較小區(qū)域未合并;如果區(qū)域內(nèi)包含的像素個數(shù) 小于閾值&,且此區(qū)域與相鄰區(qū)域最小聯(lián)合距離為a^,若w^小于閾值 ;,且
7;>rM,則合并這兩個區(qū)域。重復執(zhí)行7^次得到最終的合并結(jié)果。
本發(fā)明總體包括視頻處理的三方面內(nèi)容,分別是對視頻中進行場景分割, 對視頻進行無縫拼接,從視頻中進行運動對象截取。
為了對視頻進行有效的組織,需要將視頻分解為基本單元。 一般認為視頻 的基本物理單元是鏡頭, 一個鏡頭是指一系列連續(xù)記錄的圖像幀,用于表示一 個連續(xù)時間段或者相同地點的一段有意義的幀的組合,由攝像機的一次連續(xù)攝 像的開始和結(jié)束決定。
對視頻進行場景分割的基本原理在于判別出相鄰兩幀在內(nèi)容上存在著較大 的差異。所以,場景分割需要一些合適的量化度值,以確定能夠捕獲相鄰兩幀 之間的特征是否發(fā)生較大變化。如果特征差值超過了一個給定的閾值,則意味 著出現(xiàn)一個分割邊界。因此,自動分割的關(guān)鍵問題是建立合適的特征差值度量 技術(shù)來確定切分點,需要解決以下問題(l)選用何種參量來表示幀間差異;(2) 確定鏡頭變化的檢測規(guī)則;(3)鏡頭變化的閾值選擇;(4)如何提取關(guān)鍵幀來有效 地表示場景。
按照傳統(tǒng)的在非壓縮域內(nèi)進行鏡頭檢測的方法,需要對壓縮的視頻進行解壓縮解碼,這將耗費大量的處理時間和設備開銷。如今壓縮格式的圖像或視頻 的使用越來越廣泛,基于內(nèi)容的視頻檢索需求不斷增加,使得傳統(tǒng)方法中解壓
縮編碼所需的額外/重復費用不斷增加。本發(fā)明提出的在標準MPEG壓縮域內(nèi)進 行場景檢索和分割,可以不需要解碼或只需要部分解碼。
標準的MPEG視頻由三種不同的幀組成,I幀、P幀、B幀,且有標準的格 式IBBPBBPBBPBBPBB。三種不同類型的幀在視頻場景分割中有著不同的應 用,其中I幀圖像為幀內(nèi)編碼,不依賴之前或之后的任何幀。當一個場景變換 發(fā)生在兩個連續(xù)的I幀之間時,兩幅圖像是有很大差別的;當一個鏡頭變換發(fā)生 在P幀和前一個I幀或P幀之間時,兩者之間差別很明顯,導致了P幀前向預 測編碼的宏塊數(shù)目大幅度減少,通過計算P幀圖像的內(nèi)部編碼宏塊與整個幀圖 像所有宏塊之比,可檢測出變換發(fā)生所在的幀;當一個鏡頭變換發(fā)生在B幀時, 當前B幀的內(nèi)容與前一個參考幀之間存在較大差別,并且此B幀與下一個參考 幀會特別相似。此時,B幀中的大多數(shù)運動向量參考下一幀,其中的宏塊大多數(shù) 為后向預測。
基于宏塊信息的視頻場景分割算法如下
Step 1.通過檢測I幀,分析相鄰兩個GOP中I幀宏塊編碼數(shù)據(jù)量,通過計 算兩個I幀中宏塊的數(shù)量差,如果宏塊數(shù)量之差大于某個閾值,則認為有場景變 換發(fā)生在當前GOP;反之,則重復步驟l檢測下一個GOP,否則執(zhí)行步驟Step 2;
Step2.分析P4, P7, P1(), P13,通過計算P幀圖像的內(nèi)部編碼宏塊與整個幀 圖像所有宏塊之比,即可檢測出變換發(fā)生所在的幀,進一步定位出變換所發(fā)生 的幀后執(zhí)行步驟Step 3;
Step 3.假設Step 2檢測所得為P4,則利用B幀檢測算法分析B2, B3,如果 算法中只存在一個峰值,則對應峰值所在的幀為場景變換幀;如果存在兩個峰值,則第一個峰值所在的幀為場景變換幀;如果沒有出現(xiàn)峰值,則說明P4幀即 為場景變換幀;
St印4.按照Step3分析P7, P10, P13;
Step 5.如前4步驟沒有檢出可疑的P幀,則下一個GOP中的L幀為場景變
本發(fā)明的算法的有益效果表現(xiàn)在
(1) 在壓縮域中,數(shù)據(jù)量比原始域上或解壓域上的數(shù)據(jù)量要少得多,有利 于提高整個系統(tǒng)的效率,尤其是要求實時響應的場合;
(2) 在壓縮域上可(部分)省略解壓縮的附加環(huán)節(jié),減少處理時間和設備
開銷;
(3) 許多視頻壓縮算法在壓縮過程中已對視頻進行了大量的處理和分析, 在壓縮域上的幀圖像的許多特征信息就包含在壓縮系數(shù)中,充分利用這些處理 和分析的結(jié)果,可以減少場景檢索和分割時的計算量,提高檢索效率;
(4) 本發(fā)明的場景變換檢測是基于MPEG壓縮視頻中的幀的變化,精確到 幀,査全率和査準率高。
視頻的無縫拼接的關(guān)鍵在于拼接點的選取及處理,選取拼接點意味著在第 一個節(jié)目流和第二個節(jié)目流中各自找到一個切斷點(退出點和接入點),并且 保證這兩個切斷點銜接起來以后視頻銜接自然,播放流暢。
選取兩個視頻拼接點時,可以通過預覽圖像,只尋找預覽圖像定位周圍的 一部分拼接點,不需要把一個文件所有的拼接點都找出來,這樣會節(jié)省資源和 提高處理速度。
對于第一個視頻流來說,只能從連續(xù)B幀的最后一個結(jié)束處所在的傳輸流 分組切斷,從I幀、P幀或是非連續(xù)B幀的最后一個結(jié)束處所在傳輸流分組切斷 都會造成一部分顯示幀的缺失,同時需要將B幀結(jié)束處后面剩余的傳輸流分組內(nèi)容用OxFF填充。對于第二個視頻流,從GOP第一個I幀的起始位置所在傳輸流組開始續(xù)接, 在第一個節(jié)目播放的同時,循環(huán)定位第二個節(jié)目GOP第一個I幀的起始位置所 在傳輸流分組,如此操作兩次,并預先將這兩個位置之間的所有傳輸流分組內(nèi) 容讀入緩存,對叩en型GOP,還需對I幀后的連續(xù)B幀進行預處理, 一旦需要 發(fā)生拼接動作,即從緩存中取出數(shù)據(jù)直接插入第一個視頻流的退出點,實現(xiàn)接 入點的低延遲。PAT和PMT提供視頻被正確解碼的索引信息,在進行視頻拼接時,兩者的 PAT和PMT是不同的,因此,為了使拼接后的新視頻符合MPEG的標準規(guī)范, 應該將這些信息修改為一致,才能成為一個規(guī)范的視頻。PAT和PMT需要進行CRC32校驗碼計算,因此預先提取兩個視頻流的PAT 和PMT所在傳輸流分組,分別獲取其關(guān)鍵字段信息,然后以第一個視頻流的PAT 和PMT關(guān)鍵字段為標準來修改第二個視頻流的相應字段,使之和第一個節(jié)目流 一致,并重新進行CRC32校驗碼計算。在拼接事件發(fā)生時,應首先于拼接點處 插入已預處理好的第二個視頻流的PAT和PMT所在傳輸流分組,然后再接入 第二個視頻流的視頻、音頻等其他內(nèi)容。在第二個視頻流中,如出現(xiàn)PAT或PMT , 則用預處理好的相關(guān)數(shù)據(jù)直接替換。由于插入視頻的PAT和PMT進行了修改,則其原有的視頻、音頻傳輸流 分組的識別符亦要作相應的修改,與之保持一致,否則將不能正確解碼。在拼接點處,兩節(jié)目流的PCR及PTS/TS必然出現(xiàn)不連續(xù),如果不加處理 而直接送入解碼器解碼,將會出現(xiàn)黑屏或者抖動等現(xiàn)象。因此,PCR及PTS/TS 字段都需進行重新計算、更新,這是實現(xiàn)無縫拼接的一個關(guān)鍵點。對于音頻信息而言,由于在處理拼接點時是從視頻傳輸流分組角度考慮, 這樣就很可能造成拼接點前后兩個視頻流的音頻傳輸流分組不是以一個完整的PES分組結(jié)束或者開始,因此有必要分析判斷音頻PES分組是否完整。最后通過調(diào)節(jié)碼率實現(xiàn)視頻的無縫拼接,從視頻A的最后一個顯示畫面平 滑過渡到節(jié)目B的第一個顯示畫面。本發(fā)明方案主要在系統(tǒng)層對兩個傳輸流進行無縫拼接,不經(jīng)過視頻接壓縮、 解碼、編碼和重新復用的過程。該方案的關(guān)鍵技術(shù)是選擇合適的拼接點、調(diào)整 PSI信息、調(diào)整時間信息和音頻、視頻同步處理等。該方案基本不改變原始流內(nèi) 容,其中最復雜的是獲取拼接點的信息和對拼接點附近碼流進行處理,其余部 分基本就是讀取和存儲文件。該方法較簡單、快捷,資源消耗較低,能在客觀 上滿足MPEG-2標準要求,主觀上圖像銜接連續(xù),不會出現(xiàn)解碼錯誤和音視頻 失同步現(xiàn)象。對于從視頻中進行運動目標區(qū)域定位的原理是檢測序列圖像中與背景存在 相對運動的前景,將運動前景分割為若干獨立目標,即從相鄰的兩幀或幾幀圖 像中檢測出存在相對運動的區(qū)域,通常對圖像進行差分運算。 一個好的目標檢 測和分割算法,應該能適用于各種環(huán)境,通常應具有以下的特征(l)對環(huán)境的 緩慢變化(如光照變化等)不敏感;(2)對于復雜背景和復雜目標有效;(3)能適 應場景中個別物體運動的干擾(如樹木的搖晃,水面的波動等);(4)能夠去除 目標陰影的影響;(5)檢測和分割的結(jié)果應滿足后續(xù)處理的精度要求。在視頻運動目標檢測過程中,本發(fā)明采用了時間域和空間域區(qū)域合并的方 法。首先運用常規(guī)的方法,通過時域分割,即將運動的對象從相對固定的背景 中提取出來,采取的方法是幀差法。在傳統(tǒng)方法下,幀差圖像都采用圖像的灰 度特征,但對于那些對比度較低的圖像,或者當前景和背景的灰度很接近時, 這種方法就會遺漏一些屬于變化區(qū)域的像素。因此,本發(fā)明提出了一種灰度幀 差圖像結(jié)合HSV彩色空間幀差圖像的方法,將兩者進行或運算,可以很好的檢 測出運動對象的大概位置,盡管背景中還是存在一定的離散的噪音點。檢測出運動對象的大概位置后,對檢測結(jié)果進行處理。由于運動物體內(nèi)部 顏色比較一致,利用幀差法并不能把所有屬于物體內(nèi)部的點都確定出來,這樣 就會在物體內(nèi)部形成"空洞"現(xiàn)象,這些"空洞"是屬于前景的。因此對于這 種情況需要對"空洞"區(qū)域進行填充,采用數(shù)學形態(tài)學的膨脹和腐蝕操作,目 的在于填充內(nèi)部空洞,去除圖像中存在的離散的噪聲點,并且平滑運動對象區(qū) 域,這樣就得到了在時間域分割的最終結(jié)果。在傳統(tǒng)的方法中,基于時間域的方法是獨立的,該方法適用于一些場合, 可以取得比較好的檢測分割效果。但是由于場景中存在噪聲,以及運動估計所 固有的遮擋和孔徑問題,使得時域分割過程不可避免的存在誤差,可能會有部 分運動區(qū)域在跟蹤過程中丟失;另外,如果部分對象區(qū)域停止運動的話,時域 分割時檢測不到區(qū)域運動,同樣會導致部分運動對象的丟失;同時,基于運動 的分割方法一般對有較大運動的目標分割效果不好,影響到運動分割的精度, 不能準確逼近運動物體的邊緣,因此本發(fā)明提出了運用時間域和空間域的區(qū)域 合并的方法來進行運動目標檢測。對于前面利用幀差法獲得的運動對象區(qū)域,再對其進行分水嶺算法,能得 到圖像對象封閉、準確的邊緣,能較好的提取對象的輪廓,兩者結(jié)合能夠極大 提高運動對象檢測的精度。通常,需要分割的目標是圖像中的某個運動對象, 但是該對象在圖像中所占面積往往只占整幅圖像的50%以下,因此,如果對整 個圖像進行分水嶺變換以及區(qū)域合并,也就需要對大塊的背景區(qū)域進行操作, 這樣就會浪費很多沒有必要時間。由于分水嶺算法本身的運算速度較慢,所以 首先運用幀差法取得大致的運動對象區(qū)域,可以有效減少分水嶺算法的運算量, 對于提高運算效率是大有裨益的。時空聯(lián)合的分割方法綜合利用了時間域的幀間運動信息和空間的色度信 息,同時進行空間分割和時域分割的方法,是為了提取足夠準確的邊緣。通過空域分割將圖像分割為具有準確語義邊界的初始分割區(qū)域,時域分割定位圖像 中的運動區(qū)域,最后結(jié)合空間分割和時域分割的結(jié)果產(chǎn)生魯棒性較好的分割結(jié) 果,獲得邊緣定位較精確的分割對象。
本發(fā)明根據(jù)MPEG視頻的規(guī)范,設計了一套完整的處理流程,包括MPEG 視頻的場景分割、音視頻的無縫拼接以及基于視頻的運動對象檢測。實驗結(jié)果 證明,本發(fā)明算法快速高效,有效提高了視頻分割、拼接的效率,降低了系統(tǒng) 資源要求,運動對象檢測精度高。
以上實施例僅是本發(fā)明較有代表性的例子。顯然,本發(fā)明不限于上述實施 例,還可以有許多變形。凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何 簡單修改、等同變化與修飾,均應認為屬于本發(fā)明的保護范圍。
權(quán)利要求
1、一種多媒體視頻對象處理方法,其特征是在所述方法包括以下步驟(1)標準的MPEG視頻格式的語法結(jié)構(gòu)的最上層是幀圖像組(GOP),由三種主要的壓縮類型的圖像幀組成,包括I幀、P幀、B幀;一個幀圖像組(GOP)可分為3種子類(SGOP),在處理視頻時,分別對每個子類(SGOP)中各幀的宏塊(MB)的類型進行分析,凡是滿足一定規(guī)則的,就認為有一個宏塊(MB)發(fā)生了變化,將各幀發(fā)生變化的宏塊(MB)個數(shù)與總的宏塊(MB)個數(shù)相比得到鏡頭變化可能程度c,c越接近1,表明鏡頭發(fā)生轉(zhuǎn)換的幾率就越大;設置某個閾值t,若c>t,則認為場景發(fā)生了變化,進行分割;(2)預讀兩個要進行拼接的標準MPEG視頻流,分別找到兩個視頻流的節(jié)目關(guān)聯(lián)表(PAT),通過節(jié)目關(guān)聯(lián)表(PAT)找到相應的節(jié)目映射表(PMT),然后在節(jié)目映射表(PMT)里面得到各種信息,主要包括音頻、視頻和節(jié)目時鐘基準(PCR)的識別符(PID),并尋找合適的拼接場景;(3)尋找視頻拼接的入點和出點,并對接入的視頻流的各種信息進行調(diào)整,主要包括視頻流的節(jié)目專用信息(PSI),音頻及視頻傳輸流數(shù)據(jù)包的識別符(PID),包含節(jié)目時鐘基準(PCR)的傳輸流數(shù)據(jù)包的識別符(PID),以及所有這些傳輸流數(shù)據(jù)包的版本號,同時修改第二個視頻流的時間信息;(4)根據(jù)已經(jīng)存在的視頻拼接點選取合適的音頻拼接點,保證音頻和視頻同步拼接;(5)設置視頻緩沖區(qū)驗證模型(VBV),使解碼器輸入端有碼流緩沖區(qū),使不規(guī)則的幀邊界規(guī)則化;同時通過調(diào)節(jié)視頻流中空包的數(shù)量,將進行拼接的兩個視頻的碼率調(diào)整為一致,保證視頻的無縫拼接;(6)基于變化檢測對視頻圖像進行提取首先將兩幀彩色圖像轉(zhuǎn)化為灰度圖像,設置合適的閾值得到灰度幀差掩模圖像,同理取得HSV彩色空間的幀差掩模圖像,兩者進行或運算得到聯(lián)合幀差圖像;通過數(shù)學形態(tài)學的膨脹和腐蝕操作得到運動對象的形狀區(qū)域并進行提??;(7)對得到的運動對象區(qū)域經(jīng)預處理后進行分水嶺變換,并進行時域和空域的區(qū)域合并,實現(xiàn)運動對象的精確分割。
2、根據(jù)權(quán)利要求1所述的多媒體視頻對象處理方法,其特征是所述步驟(l)具體包括以下步驟(1.1) MPEG視頻中的一個幀圖像組(GOP)由三種主要的壓縮類型的圖 像幀組成,包括I幀、P幀、B幀,其標準結(jié)構(gòu)為IBBPBBPBBPBBPBB;將幀 圖像組(GOP)分為三類子類(SGOP): PBBP結(jié)構(gòu)(SGOP1), PBBI結(jié)構(gòu)(SGOP2) 和IBBP結(jié)構(gòu)(SGOP3);其中前一個子類(SGOP)的最后一幀圖像即是后面一 個子類(SGOP)的第一幀圖像,所以只需分析一個子類(SGOP)中的最后3 幀圖像即可;(1.2) 將可能發(fā)生在一個幀圖像組(GOP)中的場景變換分為三類變換 發(fā)生在P幀或I幀,稱為SPI;變換發(fā)生在前面的B幀,稱為SFB;變換發(fā)生在 后面的B幀,稱為SRB;(1.3) 宏塊(MB)的變化類型參考以下規(guī)則(1.3.1)對于SPI而言, 兩個B幀圖像(A,A)的大多數(shù)宏塊(MB)都是前向運動補償方式,稱為F 模式,它們與后面的參考幀A更相似;參考幀A為場景變換所在的幀,大多數(shù) 宏塊(MB)都是幀內(nèi)編碼,稱為I模式;(1.3.2) 對于SFB而言,參考幀(尸,)中的大多數(shù)宏塊(MB)也是I模 式,但是由于在B幀圖像^處鏡頭內(nèi)容發(fā)生了變化,B幀圖像5/和B幀圖像 5,圖像的內(nèi)容與后面參考幀的內(nèi)容相似,因此兩個B幀的大多數(shù)宏塊(MB)將 是后向運動補償方式,稱為B模式;(1.3.3) 對于SRB,由于鏡頭內(nèi)容在后面的B幀處發(fā)生了變化,所以B 幀圖像B/與后面的參考幀不相似,它的大多數(shù)宏塊(MB)為F模式;而B幀圖像A與前面的參考幀不相似,它的大多數(shù)宏塊(MB)為B模式;(1.4)在檢測鏡頭時,分別對子類(SGOP)各幀的宏塊(MB)類型進行 分析,凡是類型關(guān)系滿足上述規(guī)則之一的,就認為有一個宏塊(MB)發(fā)生了變 化;(1.5)統(tǒng)計各幀中宏塊(MB)發(fā)生變化的次數(shù),與總的宏塊(MB)數(shù)量 相比,若大于一定的閾值t,則認為場景發(fā)生了變化,進行切割。
3、 根據(jù)權(quán)利要求1所述的多媒體視頻對象處理方法,其特征是在所述的步 驟(2)具體包括以下步驟(2.1) 從視頻流的開始,尋找載有節(jié)目關(guān)聯(lián)表(PAT)信息的數(shù)據(jù)包,從 中可獲得該視頻流復用節(jié)目數(shù)、每路節(jié)目的節(jié)目號和每路節(jié)目的節(jié)目映射表(PMT)的識別符(PID)等信息;(2.2) 通過節(jié)目映射表(PMT)的識別符(PID),在視頻流里找到包含節(jié) 目映射表(PMT)信息的數(shù)據(jù)包,從中査出該路節(jié)目的節(jié)目時鐘基準(PCR) 的識別符(PID),判斷某個對象是音頻還是視頻;(2.3) 通過得到的視頻的識別符(PID),獲取視頻序列頭信息,判斷兩個 視頻流編碼的類、級、圖像大小、幅型比、幀率等信息是否相同,如果不同, 則不能拼接;同時,根據(jù)得到的節(jié)目時鐘基準(PCR)的識別符(PID),取得 兩個視頻流的碼率;(2.4) 對視頻圖像進行預覽,尋找預覽圖像周圍的部分拼接點,得到主觀 合適的拼接點,節(jié)省資源并提高處理速度。
4、 根據(jù)權(quán)利要求1所述的多媒體視頻對象處理方法,其特征是在所述的步 驟(3)具體包括以下步驟(3.1)對于一組標準MPEG視頻序列,出點只能在I幀或P幀之前最后一 幀的最后一個數(shù)據(jù)結(jié)束點,入點只能在I幀的第一個數(shù)據(jù);(3.2) 以預覽圖像中得到的預覽位置為起點,向前和向后搜尋一定數(shù)量的 視頻傳輸流包,判斷該傳輸流包是不是一個圖像的開頭,如果是,判斷該圖像的幀類型是I幀、P幀還是B幀;若是I幀,則該傳輸流包可以直接作為該傳輸 流的一個入點包,也就是說可以從這個傳輸流包開始進入該視頻流;同樣,如 果判斷出該傳輸流包包含I幀或P幀的圖像頭,則該包前面的一個傳輸流包就可 以作為該視頻流的一個出點包;(3.3) 找到可能的拼接點后,記錄拼接點的信息,包括拼接點的位置, 拼接點類型,接口幀的幀類型,接口幀的顯示時間標記(PTS)和解碼時間標記(DTS), DTS的間隔值,接口幀從開始到下一幀開始在傳輸流里所占的數(shù)據(jù)包 數(shù),接口幀凈打包的基本流(PES)包數(shù)據(jù)在傳輸流里所占的數(shù)據(jù)包數(shù);(3.4) 把拼入視頻流中除了節(jié)目關(guān)聯(lián)表(PAT)的傳輸流包之外所有需要 識別符(PID)進行識別的傳輸流包,其識別符(PID)都改成與拼出視頻流一 致,同時把節(jié)目關(guān)聯(lián)表(PAT)和節(jié)目映射表(PMT)的內(nèi)容替換為拼出流的相 應內(nèi)容以保證正確解碼;(3.5) 對時間信息進行調(diào)整,在拼出流的出點之前找到最近的一個節(jié)目時鐘基準(PCR)值戶O ;,記錄該節(jié)目時鐘基準(PCR)字段距離拼出點的字節(jié)數(shù)",該節(jié)目時鐘基準(PCR)字段的最后一位字節(jié)進入系統(tǒng)目標解碼器的時間為~;同樣再找到入流的入點之后最近的節(jié)目時鐘基準(PCR)值PCA,記錄6和^,則第二個流節(jié)目時鐘基準(PCR)的調(diào)整量7 me—c#s"的計算方法如下<formula>formula see original document page 5</formula>其中rate為視頻的碼率,若兩個視頻碼率不同,則公式(1)記為<formula>formula see original document page 5</formula>入流拼接點之后的每一個節(jié)目時鐘基準(PCR)處理后的時間金,與其處理前的原值r的關(guān)系如下f = f'+77膨—(3 )
5、 根據(jù)權(quán)利要求1所述的多媒體視頻對象處理方法,其特征是在所述的步 驟(4)具體包括以下步驟(4.1) 根據(jù)對拼接點所記錄的顯示時間標記(PTS)信息,找到顯示時間 標記(PTS)與之最為接近的音頻幀的位置,保證出點的音頻比視頻提前、入點 的音頻比視頻滯后;(4.2) —般出流音頻不止一幀,在開始插入入流視頻時,中間遇到入流音 頻包時用出流音頻替換,如果出流音頻包多于入流音頻包,則多余的部分堆積 在入流視頻數(shù)據(jù)之后。
6、 根據(jù)權(quán)利要求1所述的多媒體視頻對象處理方法,其特征是在所述的步 驟(6)具體包括以下步驟(6.1) 對視頻序列中的兩幀進行灰度化,灰度化的公式是Gra" 0.2297 + 0.587G +0.1145 (4)(6.2) 對兩幀灰度圖像進行幀差計算,計算公式是^-/Jxj)-/"",:^'附>" (5) 其中m,"分別代表兩幀的序號;(6.3) 設置合理的閾值r,得到幀差掩模圖像FZ^4^,計算公式如下(6. 4)將RGB顏色空間轉(zhuǎn)化到HSV顏色空間,分別求出三個分量的幀差 掩模圖像FDMw、 FDMs、 FDMp得到關(guān)于HSV空間的幀差掩模圖像FDil^w 如下f層鮮=i f層s i f服^ (7)(6.5)將灰度幀差掩模圖像與HSV空間的幀差掩模圖像進行或運算,得到聯(lián)合幀差掩模圖像FDM:F層-F爐兩IF服艦 (8) (6.6)對FDM進行數(shù)學形態(tài)學的膨脹或腐蝕運算,去除零散的噪聲干擾,并填充運動對象區(qū)域的空洞,得到分割結(jié)果。
7、根據(jù)權(quán)利要求1所述的多媒體視頻對象處理方法,其特征是在所述的步驟(7)具體包括以下步驟(7. 1)步驟(6)中取得的運動對象區(qū)域經(jīng)過中值濾波之后,按照Lue Vincent算法進行分水嶺算法變換;(7.2)分水嶺算法往往會因為噪音以及圖像紋理造成許多小區(qū)域的過分割,因此把空間與時間信息同時考慮,運用區(qū)域合并來消除這種影響;分水嶺算法的輸出是N個區(qū)域",i 2,…,i J,《區(qū)域像素的個數(shù)是iV,,《則區(qū)域內(nèi)顏色均值A和方差定義一如下〃'=F^' (9)其中《是某個像素的顏色值; (7. 3)用Fisher距離度量兩個相鄰區(qū)域的相異度、〃m~ iV^+A^2 ," (11)Fisher距離越大表明兩個區(qū)域之間顏色相關(guān)性越??;反之Fisher距離越小表 明兩個區(qū)域顏色相關(guān)性越大,可以考慮合并兩區(qū)域;(7.4)用顏色均值進行類距離測量考察相鄰兩幀的差別,定義<(U)=|pL-W| (12) 表示圖像在第A和第幀的顏色均值差分;則在&和i "之間的時間距離<formula>formula see original document page 8</formula>其中5^是區(qū)域&和/ "在邊界上前后兩幀之間的強度差,^"值越大,表明 兩個區(qū)域存在運動相關(guān);反之表明該區(qū)域或者屬于背景,或者屬于同一運動對 象,考慮進行合并;(7.5) 基于對空間域和時間域的區(qū)域距離定義,應用下式就是相鄰兩區(qū)域 的聯(lián)合距離<formula>formula see original document page 8</formula> (14)(7.6) 當兩個相鄰區(qū)域的聯(lián)合距離w小于閾值7V時就合并這兩個區(qū)域,當 重復執(zhí)行次iV,之后,尚有一些較小區(qū)域未合并;如果區(qū)域內(nèi)包含的像素個數(shù)S 小于閾值^M,且此區(qū)域與相鄰區(qū)域最小聯(lián)合距離為ou,若^u小于閾值 ;,,且 ;>:rM,則合并這兩個區(qū)域;重復執(zhí)行M次得到最終的合并結(jié)果。
全文摘要
本發(fā)明公開了一種多媒體視頻對象處理方法。其步驟包括(1)基于宏塊信息對MPEG視頻進行場景分割;(2)預讀要拼接的視頻,取得各類信息并尋找合適的拼接場景;(3)尋找拼接的入點和出點,對接入視頻各種信息進行調(diào)整;(4)選取合適的音頻拼接點實現(xiàn)音視頻無縫拼接;(5)設置視頻緩沖區(qū),統(tǒng)一待拼接視頻的碼率;(6)在時間域?qū)σ曨l內(nèi)運動對象進行粗提??;(7)對粗提取結(jié)果進行分水嶺處理,進行時空區(qū)域合并精確分割對象。本發(fā)明算法簡單、高效,系統(tǒng)資源消耗低,處理速度快,精度高。
文檔編號G06T5/00GK101409831SQ200810062899
公開日2009年4月15日 申請日期2008年7月10日 優(yōu)先權(quán)日2008年7月10日
發(fā)明者徐慧英, 朱信忠, 胡丞懿, 趙建民, 顧海燕 申請人:浙江師范大學