嘴唇運動檢測設(shè)備和方法

文檔序號：2825094閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：嘴唇運動檢測設(shè)備和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及視頻處理領(lǐng)域，具體涉及一種基于視頻的嘴唇運動檢測設(shè)備和方法。
背景技術(shù)：
在有噪聲的環(huán)境中，難以僅僅根據(jù)音頻信號來精確地檢測語音片段。語音片段有時會被不正確地截取和/或附加有噪聲。結(jié)果，語音識別的精度會下降。已知的是，嘴唇運動能夠較好地指示語音。US7343289B2公開了一種用于音頻/視頻講話者檢測的系統(tǒng)和方法。該方法用于根據(jù)視覺信息和音頻信息來檢測講話者(即嘴唇運動的主體)。具體地，該文檔中所公開的方法包括如下步驟從視頻幀中查找臉部；查找并提取嘴部區(qū)域；利用LDA(線性判別分析)提取嘴部張開程度作為視覺特征；提取與視頻幀相對應(yīng)的音頻信號的能量作為音頻特征；以及將上述兩個特征輸入經(jīng)過訓(xùn)練的TDNN(時間延遲神經(jīng)網(wǎng)絡(luò))，并根據(jù)TDNN的輸出來檢測嘴唇運動。然而，該方法從每一個幀中單獨地提取視覺特征。由于該視覺特征包括關(guān)于主體身份的豐富信息，因而其在一定程度上是與個體相關(guān)的。因此，如果使用該方法來檢測未包括在TDNN的訓(xùn)練集中的主體的嘴唇運動，檢測率將會極大程度地降低。

發(fā)明內(nèi)容
為了解決上述技術(shù)問題，本發(fā)明的一個方面提供了一種基于視頻的嘴唇運動檢測設(shè)備，包括臉部查找單元，從輸入的視頻幀中查找臉部；嘴部區(qū)域提取單元，從找到的臉部中提取嘴部區(qū)域；視覺特征提取單元，針對時空窗中每個像素提取時空平面的梯度和時空平面的局部二元模式LBP碼中至少一種，然后基于該提取結(jié)果提取嘴部區(qū)域的視覺特征；以及檢測單元，基于所提取的嘴部區(qū)域的視覺特征來檢測嘴唇運動。優(yōu)選地，利用所提取的嘴部區(qū)域的視覺特征對檢測單元預(yù)先進行訓(xùn)練。優(yōu)選地，基于視頻的嘴唇運動檢測設(shè)備還包括平滑單元，對檢測單元的檢測結(jié)果進行平滑。優(yōu)選地，基于視頻的嘴唇運動檢測設(shè)備還包括音頻特征提取單元，提取與輸入的視頻幀相對應(yīng)的音頻特征。檢測單元基于視覺特征提取單元提取的視覺特征和音頻特征提取單元提取的音頻特征來檢測嘴唇運動。優(yōu)選地，利用所提取的視覺特征和音頻特征對檢測單元預(yù)先進行訓(xùn)練。優(yōu)選地，視覺特征包括基于三正交平面上的局部二元模式LBP-TOP的視覺特征。優(yōu)選地，嘴部區(qū)域是矩形，所述矩形的中心位于兩個嘴角的連線的中點，并且所述矩形的長邊與兩個嘴角的連線平行。優(yōu)選地,檢測單元包括支持向量機SVM。優(yōu)選地，平滑單元包括中值濾波器。優(yōu)選地，臉部查找單元包括Viola-Jones臉部檢測器。優(yōu)選地，嘴部區(qū)域提取單元使用ASM從找到的臉部中提取嘴部區(qū)域。
優(yōu)選地，視覺特征提取單元還針對時空窗中每個像素提取圖像平面的梯度和圖像平面的局部二元模式LBP碼中至少一種，然后基于總的提取結(jié)果提取嘴部區(qū)域的視覺特征。本發(fā)明的另一個方面提供了一種基于視頻的嘴唇運動檢測方法，包括以下步驟從輸入的視頻幀中查找臉部；從找到的臉部中提取嘴部區(qū)域；針對時空窗中每個像素提取時空平面的梯度和時空平面的局部二元模式LBP碼中至少一種，然后基于該提取結(jié)果提取嘴部區(qū)域的視覺特征；以及基于所提取的嘴部區(qū)域的視覺特征來檢測嘴唇運動。優(yōu)選地，在檢測嘴唇運動之前，利用所提取的嘴部區(qū)域的視覺特征預(yù)先進行訓(xùn)練。優(yōu)選地，基于視頻的嘴唇運動檢測方法還包括對檢測結(jié)果進行平滑。優(yōu)選地，基于視頻的嘴唇運動檢測方法還包括提取與輸入的視頻幀相對應(yīng)的音頻特征。基于所提取的視覺特征和音頻特征來檢測嘴唇運動。優(yōu)選地，在檢測嘴唇運動之前，利用所提取的視覺特征和音頻特征預(yù)先進行訓(xùn)練。優(yōu)選地，視覺特征包括基于三正交平面上的局部二元模式LBP-TOP的視覺特征。優(yōu)選地，嘴部區(qū)域是矩形，所述矩形的中心位于兩個嘴角的連線的中點，并且所述矩形的長邊與兩個嘴角的連線平行。優(yōu)選地，使用支持向量機SVM來檢測嘴唇運動。優(yōu)選地，使用中值濾波器對檢測結(jié)果進行平滑。優(yōu)選地，使用Viola-Jones臉部檢測器從輸入的視頻幀中查找臉部。優(yōu)選地，使用ASM從找到的臉部中提取嘴部區(qū)域。優(yōu)選地，還針對時空窗中每個像素提取圖像平面的梯度和圖像平面的局部二元模式LBP碼中至少一種，然后基于總的提取結(jié)果提取嘴部區(qū)域的視覺特征。本發(fā)明的另一個方面提供了一種語音識別系統(tǒng)，包括麥克風(fēng)，用于捕獲音頻信號；攝像機，用于捕獲視頻信號；嘴唇運動檢測設(shè)備，根據(jù)攝像機捕獲的視頻信號來檢測嘴唇運動，以獲取嘴唇運動的開始和結(jié)束時間；語音片段檢測器，根據(jù)麥克風(fēng)捕獲的音頻信號以及嘴唇運動的開始和結(jié)束時間來提取語音片段；特征提取器，從所提取的語音片段中提取音頻特征；以及語音識別器，根據(jù)所提取的音頻特征來識別語音。本發(fā)明的另一個方面提供了一種視頻會議系統(tǒng)，包括麥克風(fēng)，用于捕獲音頻信號；攝像機，用于捕獲視頻信號；嘴唇運動檢測設(shè)備，根據(jù)攝像機捕獲的視頻信號來檢測嘴唇運動，以獲取嘴唇運動的開始和結(jié)束時間；以及發(fā)送器。在嘴唇運動的開始時間，嘴唇運動檢測設(shè)備控制發(fā)送器發(fā)送麥克風(fēng)捕獲的音頻信號和攝像機捕獲的視頻信號；在嘴唇運動的結(jié)束時間，嘴唇運動檢測設(shè)備控制發(fā)送器僅發(fā)送攝像機捕獲的視頻信號。優(yōu)選地，視頻會議系統(tǒng)，還包括視頻幀截取器，從攝像機捕獲的視頻信號中截取視頻。在嘴唇運動的開始時間，嘴唇運動檢測設(shè)備開啟視頻幀截取器，并控制發(fā)送器發(fā)送麥克風(fēng)捕獲的音頻信號和視頻幀截取器所截取的視頻；在嘴唇運動的結(jié)束時間，嘴唇運動檢測設(shè)備關(guān)閉視頻幀截取器，并控制發(fā)送器僅發(fā)送攝像機捕獲的視頻信號。優(yōu)選地，視頻幀截取器通過變焦而截取正在講話的講話者的特寫。本發(fā)明能夠針對具有有限數(shù)目的主體的訓(xùn)練集而實現(xiàn)與主體無關(guān)的嘴唇運動檢測。與現(xiàn)有技術(shù)相比，本發(fā)明對于訓(xùn)練集中未包括的主體具有更高的檢測率。采用本發(fā)明，無需為了提高檢測率而針對不同用戶進行再訓(xùn)練或適配，從而提高了可用性。

通過下文結(jié)合附圖的詳細描述，本發(fā)明的上述和其它特征將會變得更加明顯，其中圖I示出了根據(jù)本發(fā)明一個實施例的基于視頻的嘴唇運動檢測設(shè)備的框圖；圖2示出了根據(jù)本發(fā)明一個實施例的LBP碼計算的一個示例；圖3示出了根據(jù)本發(fā)明一個實施例的提取基于LBP-TOP的特征的一個示例；圖4示出了根據(jù)本發(fā)明另一個實施例的基于視頻的嘴唇運動檢測設(shè)備的框圖；圖5示出了根據(jù)本發(fā)明另一個實施例的基于視頻的嘴唇運動檢測設(shè)備的框圖；圖6示出了根據(jù)本發(fā)明一個實施例的基于視頻的嘴唇運動檢測方法的流程圖；圖7示出了具有根據(jù)本發(fā)明一個實施例的嘴唇運動檢測設(shè)備的視頻輔助語音識別系統(tǒng)的框圖；圖8 (a)-(c)示出了圖7的語音識別系統(tǒng)中的信號；以及圖9示出了具有根據(jù)本發(fā)明一個實施例的嘴唇運動檢測設(shè)備的視頻會議系統(tǒng)的框圖。
具體實施例方式下面，通過結(jié)合附圖對本發(fā)明的具體實施例的描述，本發(fā)明的原理和實現(xiàn)將會變得明顯。應(yīng)當(dāng)注意的是，本發(fā)明不應(yīng)局限于下文所述的具體實施例。另外，為了簡便起見，省略了與本發(fā)明無關(guān)的公知技術(shù)的詳細描述。圖I示出了根據(jù)本發(fā)明一個實施例的基于視頻的嘴唇運動檢測設(shè)備10的框圖。如圖I所示，嘴唇運動檢測設(shè)備10包括臉部查找單元110，從輸入的視頻幀中查找臉部；嘴部區(qū)域提取單元120，從找到的臉部中提取嘴部區(qū)域；視覺特征提取單元130，提取嘴部區(qū)域的視覺特征；以及檢測單元140，基于所提取的嘴部區(qū)域的視覺特征來檢測嘴唇運動。下面，對嘴唇運動檢測設(shè)備10中所包括的各個組件的具體操作進行詳細描述。臉部查找單元110在每一個輸入的視頻幀中查找臉部。如果找到任何臉部，則將臉部的位置傳遞給嘴部區(qū)域提取單元120作為輸入信息。對于沒有從中找到臉部的視頻幀，不會對其進行進一步的處理?？梢允褂酶鞣N已知的臉部檢測和跟蹤技術(shù)來實現(xiàn)臉部查找單元110，例如但不限于=Viola-Jones臉部檢測器、Rowley臉部檢測器、均值漂移(meanshift)跟蹤器和粒子濾波跟蹤器，等等。嘴部區(qū)域提取單元120從臉部查找單元110找到的臉部中查找嘴部區(qū)域，并從臉部中提取出該嘴部區(qū)域。具體地，對于每一個找到的臉部，首先查找兩個嘴角。然后，根據(jù)找到的兩個嘴角來確定嘴部區(qū)域?？梢允褂靡阎腁SM(主動形狀模型)來定位兩個嘴角的位置。備選地，還可以使用AAM (主動外觀模型)和Snakes (也被稱為主動輪廓模型)來定位兩個嘴角的位置。在確定兩個嘴角的位置后，可確定一個矩形區(qū)域，該矩形區(qū)域的中心位于兩個嘴角的連線的中點，并且該矩形區(qū)域的長邊與兩個嘴角的連線平行。然后，將該矩形區(qū)域作為嘴部區(qū)域。優(yōu)選地，矩形區(qū)域的縱橫比是3 2。然而，其他的縱橫比也是可以應(yīng)用的。備選地，嘴部區(qū)域還可以具有其他形狀，例如橢圓，其只要包含整個嘴唇外輪廓即可。另外，這些形狀不一定是對稱的，它們的中心也不一定要和嘴角連線中心重合。進一步地，與嘴唇外輪廓有較大交集的任意形狀也可以作為嘴部區(qū)域。視覺特征提取單元130根據(jù)時空窗來提取視覺特征，該時空窗包括一個或多個連續(xù)的嘴部區(qū)域。在本發(fā)明的一個實施例中，采用三正交平面上的局部二元模式(LocalBinary Pattern on Three Orthogonal Planes,LBP-TOP)特征來描述視覺特征，該特征是已知的局部二元模式LBP特征的時空擴展。具體地，對于給定像素(Xc;，y。)，通過插值來提取中心位于(Xc;，y。)且半徑為R的圓上的P個均勻間隔的近鄰像素的值。該像素的LBP碼由下式給出
權(quán)利要求
1.一種基于視頻的嘴唇運動檢測設(shè)備，包括臉部查找單元，從輸入的視頻幀中查找臉部；嘴部區(qū)域提取單元，從找到的臉部中提取嘴部區(qū)域；視覺特征提取単元，針對時空窗中每個像素提取時空平面的梯度和時空平面的局部ニ元模式LBP碼中至少ー種，然后基于該提取結(jié)果提取嘴部區(qū)域的視覺特征；以及檢測單元，基于所提取的嘴部區(qū)域的視覺特征來檢測嘴唇運動。
2.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，利用所提取的嘴部區(qū)域的視覺特征對檢測單元預(yù)先進行訓(xùn)練。
3.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，還包括平滑単元，對檢測単元的檢測結(jié)果進行平滑。
4.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，還包括音頻特征提取單元，提取與輸入的視頻幀相對應(yīng)的音頻特征；其中，檢測單元基于視覺特征提取單元提取的視覺特征和音頻特征提取單元提取的音頻特征來檢測嘴唇運動。
5.如權(quán)利要求4所述的基于視頻的嘴唇運動檢測設(shè)備，其中，利用所提取的視覺特征和音頻特征對檢測単元預(yù)先進行訓(xùn)練。
6.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述視覺特征包括基于三正交平面上的局部ニ元模式LBP-TOP的視覺特征。
7.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述嘴部區(qū)域是矩形，所述矩形的中心位于兩個嘴角的連線的中點，并且所述矩形的長邊與兩個嘴角的連線平行。
8.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述檢測単元包括支持向量機SVM。
9.如權(quán)利要求3所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述平滑単元包括中值濾波器。
10.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述臉部查找單元包括Viola-Jones臉部檢測器。
11.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述嘴部區(qū)域提取單元使用主動形狀模型ASM從找到的臉部中提取嘴部區(qū)域。
12.如權(quán)利要求I所述的基于視頻的嘴唇運動檢測設(shè)備，其中，所述視覺特征提取単元還針對時空窗中每個像素提取圖像平面的梯度和圖像平面的局部ニ元模式LBP碼中至少ー種，然后基于總的提取結(jié)果提取嘴部區(qū)域的視覺特征。
13.一種基于視頻的嘴唇運動檢測方法，包括以下步驟從輸入的視頻幀中查找臉部；從找到的臉部中提取嘴部區(qū)域；針對時空窗中每個像素提取時空平面的梯度和時空平面的局部ニ元模式LBP碼中至少ー種，然后基于該提取結(jié)果提取嘴部區(qū)域的視覺特征；以及基于所提取的嘴部區(qū)域的視覺特征來檢測嘴唇運動。
14.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，在檢測嘴唇運動之前，利用所提取的嘴部區(qū)域的視覺特征預(yù)先進行訓(xùn)練。
15.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，還包括對檢測結(jié)果進行平滑。
16.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，還包括提取與輸入的視頻幀相對應(yīng)的音頻特征；其中，基于所提取的視覺特征和音頻特征來檢測嘴唇運動。
17.如權(quán)利要求16所述的基于視頻的嘴唇運動檢測方法，其中，在檢測嘴唇運動之前，利用所提取的視覺特征和音頻特征預(yù)先進行訓(xùn)練。
18.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，所述視覺特征包括基于三正交平面上的局部ニ元模式LBP-TOP的視覺特征。
19.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，所述嘴部區(qū)域是矩形，所述矩形的中心位于兩個嘴角的連線的中點，并且所述矩形的長邊與兩個嘴角的連線平行。
20.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，使用支持向量機SVM來檢測嘴唇運動。
21.如權(quán)利要求15所述的基于視頻的嘴唇運動檢測方法，其中，使用中值濾波器對檢測結(jié)果進行平滑。
22.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，使用Viola-Jones臉部檢測器從輸入的視頻幀中查找臉部。
23.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，使用主動形狀模型ASM從找到的臉部中提取嘴部區(qū)域。
24.如權(quán)利要求13所述的基于視頻的嘴唇運動檢測方法，其中，還針對時空窗中每個像素提取圖像平面的梯度和圖像平面的局部ニ元模式LBP碼中至少ー種，然后基于總的提取結(jié)果提取嘴部區(qū)域的視覺特征。
25.—種語音識別系統(tǒng),包括麥克風(fēng)，用于捕獲音頻信號；攝像機，用于捕獲視頻信號；如權(quán)利要求1-12中任意一項所述的嘴唇運動檢測設(shè)備，根據(jù)攝像機捕獲的視頻信號來檢測嘴唇運動，以獲取嘴唇運動的開始和結(jié)束時間；語音片段檢測器，根據(jù)麥克風(fēng)捕獲的音頻信號以及嘴唇運動的開始和結(jié)束時間來提取語音片段；特征提取器，從所提取的語音片段中提取音頻特征；以及語音識別器，根據(jù)所提取的音頻特征來識別語音。
26.—種視頻會議系統(tǒng),包括麥克風(fēng)，用于捕獲音頻信號；攝像機，用于捕獲視頻信號；如權(quán)利要求1-12中任意一項所述的嘴唇運動檢測設(shè)備，根據(jù)攝像機捕獲的視頻信號來檢測嘴唇運動，以獲取嘴唇運動的開始和結(jié)束時間；以及發(fā)送器; 其中，在嘴唇運動的開始時間，嘴唇運動檢測設(shè)備控制發(fā)送器發(fā)送麥克風(fēng)捕獲的音頻信號和攝像機捕獲的視頻信號；在嘴唇運動的結(jié)束時間，嘴唇運動檢測設(shè)備控制發(fā)送器僅發(fā)送攝像機捕獲的視頻信號。
27.根據(jù)權(quán)利要求26所述的視頻會議系統(tǒng)，還包括視頻幀截取器，從攝像機捕獲的視頻信號中截取視頻；其中，在嘴唇運動的開始時間，嘴唇運動檢測設(shè)備開啟視頻幀截取器，并控制發(fā)送器發(fā)送麥克風(fēng)捕獲的音頻信號和視頻幀截取器所截取的視頻；在嘴唇運動的結(jié)束時間，嘴唇運動檢測設(shè)備關(guān)閉視頻幀截取器，并控制發(fā)送器僅發(fā)送攝像機捕獲的視頻信號。
28.根據(jù)權(quán)利要求27所述的視頻會議系統(tǒng)，其中，視頻幀截取器通過變焦而截取正在講話的講話者的特寫。
全文摘要
本發(fā)明提供了一種基于視頻的嘴唇運動檢測設(shè)備，包括臉部查找單元，從輸入的視頻幀中查找臉部；嘴部區(qū)域提取單元，從找到的臉部中提取嘴部區(qū)域；視覺特征提取單元，針對時空窗中每個像素提取時空平面的梯度和時空平面的局部二元模式LBP碼中至少一種，然后基于該提取結(jié)果提取嘴部區(qū)域的視覺特征；以及檢測單元，基于所提取的嘴部區(qū)域的視覺特征來檢測嘴唇運動。本發(fā)明還提供了一種基于視頻的嘴唇運動檢測方法。本發(fā)明無需針對特定用戶進行再訓(xùn)練或適配，提高了檢測的準(zhǔn)確性。
文檔編號G10L15/24GK102682273SQ20111007748
公開日2012年9月19日申請日期2011年3月18日優(yōu)先權(quán)日2011年3月18日
發(fā)明者嚴(yán)望申請人:夏普株式會社

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：嚴(yán)望
技術(shù)所有人：夏普株式會社
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

運動代謝檢測設(shè)備相關(guān)技術(shù)

指紋鎖檢測設(shè)備和方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

嘴唇運動檢測設(shè)備和方法