亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種人像語音視頻同步校準裝置及方法

文檔序號:10698651閱讀:636來源:國知局
一種人像語音視頻同步校準裝置及方法
【專利摘要】本發(fā)明公開了一種人像語音視頻同步校準裝置及方法,使用現(xiàn)有的成熟的人臉識別技術、動態(tài)嘴唇識別技術、人聲提取技術等,通過信息化手段和硬件設備的設計,實現(xiàn)人像語音視頻同步校準功能。本發(fā)明只采用低時間復雜度的左移位,右移位和異或計算,提高了計算性能,而且不需要語音和視頻文件中加入時間戳信息,減少了信息存儲量。本發(fā)明可應用于人像語音視頻的同步檢測以及對異步語音視頻的校準。
【專利說明】
一種人像語音視頻同步校準裝置及方法
技術領域
[0001] 本發(fā)明屬于多媒體信息處理技術領域,具體涉及一種人像語音視頻同步校準裝置 及方法。
【背景技術】
[0002] 隨著多媒體和互聯(lián)網(wǎng)的普及和發(fā)展,人像語音視頻應用在各個領域中,如談話類 娛樂節(jié)目,網(wǎng)絡主播節(jié)目,大規(guī)模開放的在線課程等。人像語音視頻使用的語音信息和視頻 信息一般采用不同硬件分別錄制,然后經(jīng)過計算機進行綜合處理合成一個可以直接播放的 語音視頻文件。在錄制過程中由于硬件或者網(wǎng)絡出現(xiàn)問題,會導致語音信息和視頻信息不 同步。傳統(tǒng)的語音視頻同步校準一般采用人工逐幀播放語音視頻文件,發(fā)現(xiàn)誤差時,人為進 行校準的方法,需要耗費很多工作量;有一些加入時間戳的同步方法只能識別具有時間戳 的語音信息和視頻信息,不能識別沒有加入時間戳的語音信息和視頻信息;還有一些采用 識別視頻幀中運動幅度特征與語音信息特征進行匹配的方法,需要運動隨之產(chǎn)生聲音信息 的變化,而無法判斷沒有產(chǎn)生聲音的運動。

【發(fā)明內容】

[0003] 本發(fā)明的目的在于提供一種人像語音視頻同步校準裝置及方法,以達到對談話類 娛樂節(jié)目,網(wǎng)絡主播節(jié)目,大規(guī)模開放的在線課程等人像語音視頻的同步檢測以及對異步 語音視頻的校準目的。
[0004] 為了解決上述技術問題,本發(fā)明使用現(xiàn)有的成熟的人臉識別技術、動態(tài)嘴唇識別 技術、人聲提取技術等,通過信息化手段和硬件設備的設計,實現(xiàn)人像語音視頻同步校準功 能,所采用的具體技術方案如下:
[0005] -種人像語音視頻同步校準裝置,包括:人臉識別模塊,動態(tài)嘴唇識別模塊,人聲 提取模塊,時間差計算模塊,同步調節(jié)模塊;
[0006] 所述的人臉識別模塊與動態(tài)嘴唇識別模塊連接;
[0007] 所述的時間差計算模塊與動態(tài)嘴唇識別模塊連接;
[0008] 所述的時間差計算模塊與人聲提取模塊連接;
[0009 ]所述的時間差計算模塊與同步調節(jié)模塊連接;
[0010] 所述的人臉識別模塊用于識別圖片信息中的人臉區(qū)域;
[0011] 所述的動態(tài)嘴唇識別模塊用于識別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉合 狀態(tài),進一步判斷嘴唇是否處于發(fā)音狀態(tài);
[0012] 所述的人聲提取模塊用于提取語音信息中的人聲部分;
[0013] 所述的時間差計算模塊用于計算動態(tài)嘴唇絕對時刻和人聲時刻的距離;
[0014] 所述的同步調節(jié)模塊用于調節(jié)動態(tài)嘴唇絕對時刻和人聲時刻;
[0015] -種人像語音視頻同步校準方法如下:
[0016] 步驟Sl,讀取語音視頻頭文件信息,獲得語音視頻的時間總長度T,語音視頻的某 一時刻為t,KtST;
[0017] 步驟S2,設定動態(tài)嘴唇數(shù)組P[k],l<k<T,將數(shù)組P中所有元素初始值設為0,設定 人聲數(shù)組S [ f ],1 < f < T,將數(shù)組S中所有元素初始值設為0;
[0018] 步驟S3,依次提取視頻文件t時刻的圖片幀,采用人臉識別技術識別出某一時刻圖 片幀中的i個人臉區(qū)域Μμ,1<ΚΙ,Ι為識別出來的人臉區(qū)域總數(shù);
[0019] 步驟S4,采用嘴唇識別技術識別出某一時刻人臉區(qū)域Mt,i中的嘴唇區(qū)域Lt, <1;
[0020] 步驟S5,比較嘴唇區(qū)域Lt^與Lt,H,Lt|2,…Uh的位置偏移情況,確定嘴唇區(qū)域 U,」是否處于動態(tài)開啟或閉合狀態(tài),其中J為可以調整的閾值,用于控制比較嘴唇區(qū)域的數(shù) 量,J彡j彡I,如果確定嘴唇區(qū)域Lq處于運動狀態(tài),則將P[t]的值設為1;
[0021] 步驟S6,將語音文件E分成左右兩個聲道文件A,B,用左聲道文件A的音頻信號減去 右聲道文件B的音頻信號,得到文件C,用右聲道文件B的音頻信號減去左聲道文件A的音頻 信號,得到文件D,將C和D兩路信號重新合成F,進一步,從語音文件E中減去語音文件F可以 得到人聲文件G;
[0022]步驟S7,按時序依次提取人聲文件G在t時刻的頻率Ht,Ht單位為Hz,0<t<T,如果 ZaSHtS Zb,則將S[ t ]的值設為1,其中Za為人聲頻率下限閾值,Zb為人聲頻率上限閾值; [0023]步驟S8,完全復制一份S[t],命名為數(shù)組Sr[t],設定用于移位操作的初始值,左移 位Ieft = O,右移位r i ght = 0,確認校準時間間隔sure = 0,并給出左移位上限閾值LEFT,右 移位上限閾值RIGHT,校準閾值Z;
[0024] 步驟S9,對P[t]和S[t]進行異或操作的累加,
,如果X小于Z, 則sure = Ief t,并轉入Sl 3,否則轉入SlO;
[0025] 步驟S10,對S[t]進行一次左移位操作S[t]〈〈,left = left+1,如果left彡LEFT,轉 入S9,否則轉入S11;
[0026] 步驟S11,對P[t]和Sr[t]進行異或操作的累加
,如果X小于 Z,則sure =-right,并轉入Sl 3,否則轉入Sl 2;
[0027] 步驟S12,對S[t]進行一次右移位操作S[t]>>,right = right+l,如果rights; RIGHT,轉入Sll,否則轉入S14;
[0028] 步驟S13,校準檢測成功,將語音文件移位sure個時刻和視頻文件重新合成;
[0029] 步驟S14,校準結束。
[0030] 本發(fā)明具有有益效果。本發(fā)明提供了一種人像語音視頻同步檢測與校準的新方 法,通過識別視頻文件中嘴唇閉合狀態(tài),得到了視頻中人物的發(fā)音信息,通過識別語音文 件,得到了人聲信息,將兩者進行時間差檢測,可以校準語音和視頻不同步情況,本發(fā)明只 采用低時間復雜度的左移位,右移位和異或計算,提高了計算性能,而且不需要語音和視頻 文件中加入時間戳信息,減少了信息存儲量。
[0031] 本發(fā)明裝置的工作過程如下:采用人臉識別模塊識別出圖片信息中的人臉區(qū)域; 然后,采用動態(tài)嘴唇識別模塊識別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉合狀態(tài),進一 步判斷嘴唇是否處于發(fā)音狀態(tài);接著,采用人聲提取模塊提取語音信息中的人聲部分;隨 后,采用時間差計算模塊計算動態(tài)嘴唇絕對時刻和人聲時刻的距離;最后,采用同步調節(jié)模 塊調節(jié)動態(tài)嘴唇絕對時刻和人聲時刻,生成調整好的人像語音視頻。
【附圖說明】
[0032] 圖1是本發(fā)明裝置的總體結構示意圖。
[0033] 圖中:1_人臉識別模塊,2-動態(tài)嘴唇識別模塊,3-人聲提取模塊,4-時間差計算模 塊,5-同步調節(jié)模塊。
[0034] 圖2是一種人像語音視頻同步校準方法的流程圖。
[0035] 圖3是實施例一視頻文件第32秒圖片幀的二值圖。
[0036] 圖4是實施例一視頻文件第32秒圖片幀的人臉區(qū)域圖。
[0037] 圖5是實施例一視頻文件第32秒圖片幀的嘴唇區(qū)域圖。
[0038]圖6是實施例一視頻文件第31秒圖片幀的二值圖。
[0039]圖7是實施例一視頻文件第31秒圖片幀的人臉區(qū)域圖。
[0040]圖8是實施例一視頻文件第31秒圖片幀的嘴唇區(qū)域圖。
[0041 ]圖9是實施例一語音文件的語音聲譜圖和人聲聲譜圖。
[0042]圖10是實施例一動態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢圖。
[0043]圖11是實施例二視頻文件第19秒圖片幀的二值圖。
[0044] 圖12是實施例二視頻文件第19秒圖片幀的人臉區(qū)域圖。
[0045] 圖13是實施例二視頻文件第19秒圖片幀的嘴唇區(qū)域圖。
[0046] 圖14是實施例二視頻文件第18秒圖片幀的識別不意圖。
[0047] 圖15是實施例二視頻文件第18秒圖片幀的人臉區(qū)域圖。
[0048] 圖16是實施例二視頻文件第18秒圖片幀的嘴唇區(qū)域圖。
[0049] 圖17是實施例二語音文件的語音聲譜圖和人聲聲譜圖。
[0050] 圖18是實施例二校準前動態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢圖。
[0051] 圖19是實施例二校準后動態(tài)嘴唇數(shù)組和人聲數(shù)組的數(shù)值趨勢圖。
【具體實施方式】
[0052] 下面結合附圖和【具體實施方式】對本發(fā)明作進一步詳細地說明。
[0053] 由圖1所示的一種人像語音視頻同步校準裝置的總體結構示意圖可知,它包括Ια臉識別模塊, 2-動態(tài)嘴唇識別模塊, 3-人聲提取模塊, 4-時間 差計算模塊, 5-同步調節(jié)模 塊。
[0054]所述的人臉識別模塊1與動態(tài)嘴唇識別模塊2連接;
[0055] 所述的時間差計算模塊4與動態(tài)嘴唇識別模塊2連接;
[0056] 所述的時間差計算模塊4與人聲提取模塊3連接;
[0057]所述的時間差計算模塊4與同步調節(jié)模塊5連接;
[0058] 本發(fā)明在使用時,各部件的功能描述如下。
[0059] 所述的人臉識別模塊1用于識別圖片信息中的人臉區(qū)域;
[0060] 所述的動態(tài)嘴唇識別模塊2用于識別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉 合狀態(tài),進一步判斷嘴唇是否處于發(fā)音狀態(tài);
[0061] 所述的人聲提取模塊3用于提取語音信息中的人聲部分;
[0062] 所述的時間差計算模塊4用于計算動態(tài)嘴唇絕對時刻和人聲時刻的距離;
[0063] 所述的同步調節(jié)模塊5用于調節(jié)動態(tài)嘴唇絕對時刻和人聲時刻。以下是發(fā)明人給 出的實施例:
[0064] -種人像語音視頻同步校準方法的工作流程如圖2所示。
[0065] 實施例1:對同步的語音視頻檢測過程
[0066] 步驟Sl,讀取語音視頻頭文件信息,獲得語音視頻的時間總長度72,單位為秒,語 音視頻的某一時刻為t,l<t<72;
[0067] 步驟S2,設定動態(tài)嘴唇數(shù)組P[k],l<k<72,將數(shù)組P中所有元素初始值設為0,設 定人聲數(shù)組S[f],I,將數(shù)組S中所有元素初始值設為0;
[0068] 步驟S3,依次提取視頻文件t時刻的圖片幀,圖3是視頻文件第32秒提取出來的圖 片幀的二值圖,圖6是視頻文件第31秒提取出來的圖片幀的二值圖,采用人臉識別技術識別 出某一時刻圖片幀中的i個人臉區(qū)域Mt, i,I Si < I,I = 1,圖4是從圖3中提取出來的一個人 臉區(qū)域M32, i,圖7是從圖6提取出來的一個人臉區(qū)域M31, i;
[0069]步驟S4,采用嘴唇識別技術識別出某一時刻人臉區(qū)域Mt,i中的嘴唇區(qū)域Lt, <1,1 = 1,圖5是從圖4中提取出來的一個嘴唇區(qū)域L32,i,圖8是從圖7中提取出來的一個嘴 唇區(qū)域L31,1;
[0070] 步驟S5,比較嘴唇區(qū)域Lt^與…Uh的位置偏移情況,確定嘴唇區(qū)域 Uj是否處于動態(tài)開啟或閉合狀態(tài),J為可以調整的閾值,實施例中J=I,JSjSI,圖5中嘴 唇區(qū)域L 324和圖8中嘴唇區(qū)域L31,i進行比較,確定嘴唇處于動態(tài)開啟狀態(tài),則將P[32]的值設 為1;
[0071] 步驟S6,將語音文件E分成左右兩個聲道文件即左聲道文件A和右聲道文件B,如圖 9(a)所示為語音文件E的頻譜圖,用左聲道文件A的音頻信號減去右聲道文件B的音頻信號, 得到文件C,用右聲道文件B的音頻信號減去左聲道文件A的音頻信號,得到文件D,將文件C 和文件D兩路信號重新合成語音文件F,進一步,從語音文件E中減去語音文件F可以得到人 聲文件G,如圖9 (b)所示為人聲文件G的頻譜圖;
[0072]步驟S7,按時序依次提取人聲文件G在t時刻的頻率Ht,Ht的單位為Hz,0<t<72,如 果Za彡Ht彡Zb,則將S[t]的值設為l,Za為人聲頻率下限閾值,實施例中Za= 100,Zb為人聲 頻率上限閾值,實施例中Zb = 600;
[0073]步驟S8,完全復制一份S[t],命名為數(shù)組Sr[t],設定用于移位操作的初始值,左移 位Ief t = 0,右移位right = 0,確認校準時間間隔sure = 0,并給出左移位上限閾值LEFT = 5, 右移位上限閾值RIGHT = 5,校準閾值Z = 8;
[0074] 步驟S9,對動態(tài)嘴唇數(shù)組P[t]和語音數(shù)組S[t]進行異或操作的累加,X= t(P[i]XORS[t]),如圖1〇所示為P[t]和S[t]的數(shù)值趨勢圖,計算得到X = 5,X小于Z,則 1=0' sure = 0,并轉入步驟Sl 3;
[0075] 步驟S13,校準檢測成功,將語音文件移位0個時刻和視頻文件重新合成;
[0076] 步驟S14,校準結束。
[0077]實施例2:對不同步的語音視頻檢測與校準過程
[0078]步驟SI,讀取語音視頻頭文件信息,獲得語音視頻的時間總長度58,單位為秒,語 音視頻的某一時刻為t,I < t < 58;
[0079]步驟S2,設定動態(tài)嘴唇數(shù)組P[k],l<k<58,將數(shù)組P中所有元素初始值設為0,設 定人聲數(shù)組S[f],I,將數(shù)組S中所有元素初始值設為0;
[0080] 步驟S3,依次提取視頻文件t時刻的圖片幀,圖11是從視頻文件第19S提取出來的 圖片幀的二值圖,圖14是從視頻文件第18秒提取出來的圖片幀的二值圖,采用人臉識別技 術識別出某一時刻圖片幀中的i個人臉區(qū)域= 圖12是從圖11中提取出來 的三個人臉區(qū)域%9,1,119,2,119, 3,圖15是從圖14中提取出來的三個人臉區(qū)域此8,1,118, 2, Ml8,3 ;
[0081] 步驟S4,采用嘴唇識別技術識別出某一時刻人臉區(qū)域Mt,i中的嘴唇區(qū)域LmKi ,I = 3,圖13是從圖12中提取出來的三個嘴唇區(qū)域L19,!,L19,2,L19,3,圖16是從圖15中提取 出來的三個嘴唇區(qū)域Ll8,l,Ll8,2,Ll8,3;
[0082] 步驟S5,比較嘴唇區(qū)域Lt^與Lt^,Lt|2,…Uh的位置偏移情況,確定嘴唇區(qū)域 Uj是否處于動態(tài)開啟或閉合狀態(tài),J為可以調整的閾值,實施例中J=I JSjSI,圖13中嘴 唇區(qū)域Lliu和圖16中嘴唇區(qū)域L18,:進行比較,確定嘴唇處于靜態(tài)狀態(tài),繼續(xù)將圖13中嘴唇區(qū) 域1^ 9,2和圖16中嘴唇區(qū)域L18,2進行比較,確定嘴唇處于動態(tài)閉合狀態(tài),則將P[19]的值設為 1;
[0083]步驟S6,將語音文件E分成左右兩個聲道文件即左聲道文件A和右聲道文件B,如圖 17(a)所示為語音文件E的頻譜圖,用左聲道文件A的音頻信號減去右聲道文件B的音頻信 號,得到文件C,用右聲道文件B的音頻信號減去左聲道文件A的音頻信號,得到文件D,將文 件C和文件D兩路信號重新合成語音文件F,進一步,從語音文件E中減去語音文件F可以得到 人聲文件G,如圖17(b)所示為人聲文件G的頻譜圖;
[0084]步驟S7,按時序依次提取人聲文件G在t時刻的頻率Ht,單位Hz,OSt<58,如果Za SHtSZb,則將S[t]的值設為I,Za為人聲頻率下限閾值,實施例中Za = 80,Zb為人聲頻率上 限閾值,實施例中Zb = 800;
[0085]步驟S8,完全復制一份S[t],命名為數(shù)組Sr[t],設定用于移位操作的初始值,左移 位Ief t = 0,右移位right = 0,確認校準時間間隔sure = 0,并給出左移位上限閾值LEFT = 4, 右移位上限閾值RIGHT = 4,校準閾值Z = 6;
[0086] 步驟S9,對動態(tài)嘴唇數(shù)組P[t]和語音數(shù)組S[t]進行異或操作的累加,X= t(P[i.]XORS[l]),如圖I8所示為P[t]和S[t]的數(shù)值趨勢圖,計算得到X = 9,X大于Z,則 :t=a sure = 0,并轉入步驟SlO;
[0087] 步驟S10,對S[t]進行一次左移位操作S[t]〈〈,left = left+l,計算得到left= 1, left彡LEFT,轉入步驟S9;
[0088] 步驟S9,對P[t]和S[t]進行異或操作的累加
,計算得到X = 6,X大于Z,則sure = l,并轉入步驟S10;
[0089] 步驟S10,對S[t]進行一次左移位操作S[t]〈〈,left = left+l,計算得到left = 2, left彡LEFT,轉入步驟S9;
[0090] 步驟S9,對P[t]和S[t]進行異或操作的累加
如圖19所示為 P[ t]和S[ t]的數(shù)值趨勢圖,計算得到X = 2,X小于Z,則sure = 2,并轉入步驟Sl3;
[0091] 步驟S13,校準檢測成功,將語音文件左移位2個時刻和視頻文件重新合成;
[0092] 步驟S14,校準結束。
【主權項】
1. 一種人像語音視頻同步校準裝置,其特征在于包括:人臉識別模塊、動態(tài)嘴唇識別模 塊、人聲提取模塊、時間差計算模塊和同步調節(jié)模塊; 所述人臉識別模塊與動態(tài)嘴唇識別模塊連接; 所述時間差計算模塊分別與動態(tài)嘴唇識別模塊、人聲提取模塊、同步調節(jié)模塊連接; 所述人臉識別模塊用于識別圖片信息中的人臉區(qū)域; 所述動態(tài)嘴唇識別模塊用于識別出人臉區(qū)域中的嘴唇區(qū)域,并且判斷嘴唇閉合狀態(tài), 進一步判斷嘴唇是否處于發(fā)音狀態(tài); 所述人聲提取模塊用于提取語音信息中的人聲部分; 所述時間差計算模塊用于計算動態(tài)嘴唇絕對時刻和人聲時刻的距離; 所述同步調節(jié)模塊用于調節(jié)動態(tài)嘴唇絕對時刻和人聲時刻。2. 權利要求1所述的一種人像語音視頻同步校準裝置的人像語音視頻同步校準方法, 其特征在于包括以下步驟: 步驟S1,讀取語音視頻頭文件信息,獲得語音視頻的時間總長度T,語音視頻的某一時 刻為 步驟S2,設定動態(tài)嘴唇數(shù)組P[k],l<k<T,將數(shù)組P中所有元素初始值設為0,設定人聲 數(shù)組S[ f ],1 <f <T,將數(shù)組S中所有元素初始值設為0; 步驟S3,依次提取視頻文件t時刻的圖片幀,采用人臉識別技術識別出某一時刻圖片幀 中的i個人臉區(qū)域彡1,1為識別出來的人臉區(qū)域總數(shù); 步驟S4,采用嘴唇識別技術識別出某一時刻人臉區(qū)域Mt>1中的嘴唇區(qū)域LmlSiSl; 步驟S5,比較嘴唇區(qū)域Lq,與的位置偏移情況,確定嘴唇區(qū)域Lt,j 是否處于動態(tài)開啟或閉合狀態(tài),J為可以調整的閾值,用于控制比較嘴唇區(qū)域的數(shù)量, <1; 如果確定嘴唇區(qū)域Ly處于運動狀態(tài),則將P[t ]的值設為1,否則不作操作; 步驟S6,將語音文件E分成左右兩個聲道文件即左聲道文件A和右聲道文件B,用左聲道 文件A的音頻信號減去右聲道文件B的音頻信號,得到文件C,用右聲道文件B的音頻信號減 去左聲道文件A的音頻信號,得到文件D,將文件C和文件D兩路信號重新合成語音文件F,進 一步,從語音文件E中減去語音文件F可以得到人聲文件G; 步驟S7,按時序依次提取人聲文件G在t時刻的頻率Ht,Ht單位為Hz,0<t<T;如果Za< Zb,則將S [ t ]的值設為1,Za為人聲頻率下限閾值,Zb為人聲頻率上限閾值; 步驟S8,完全復制一份S[t],命名為數(shù)組Sr[t],設定用于移位操作的初始值,左移位 left = 0,右移位right = 0,確認校準時間間隔sure = 0,并給出左移位上限閾值LEFT,右移 位上限閾值RIGHT,校準閾值Z; 步驟S9,對動態(tài)嘴唇數(shù)組P[t]和人聲數(shù)組S[t]進行異或操作的累加,X= XOR S[t]),如果X小于Z,則sure = left,并轉入步驟S13,否則轉入步驟S10; t=l 步驟S10,對S[t]進行一次左移位操作S[t]〈〈,left = left+1,如果left<LEFT,轉入步 驟S9,否則轉入步驟SI 1; 步驟S11,對P[t]和Sr[t]進行異或操作的累加,X=t(P[t]X〇RSr[i]),如果X小于Z,則 t=l sure =-right,并轉入步驟SI 3,否則轉入步驟SI 2; 步驟312,對5[1:]進行一次右移位操作5[1:]>>,1^811〖=1^811〖+1,如果1^8111:<1?16!11',轉 入步驟SI 1,否則轉入步驟SI 4; 步驟S13,校準檢測成功,將語音文件移位sure個時刻和視頻文件重新合成; 步驟S14,校準結束。
【文檔編號】H04N21/43GK106067989SQ201610273130
【公開日】2016年11月2日
【申請日】2016年4月28日 公開號201610273130.1, CN 106067989 A, CN 106067989A, CN 201610273130, CN-A-106067989, CN106067989 A, CN106067989A, CN201610273130, CN201610273130.1
【發(fā)明人】陳瀟君, 茍建平, 詹天明, 成科揚, 陳小波, 詹永照, 毛啟容, 柯佳, 汪滿容
【申請人】江蘇大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1