用軟件實現(xiàn),以便由各種類型的處理器執(zhí)行。舉例來說,一個標識的可執(zhí)行代碼模塊可以包括計算機指令的一個或多個物理或者邏輯塊,舉例來說,其可以被構(gòu)建為對象、過程或函數(shù)。盡管如此,所標識模塊的可執(zhí)行代碼無需物理地位于一起,而是可以包括存儲在不同位里上的不同的指令,當這些指令邏輯上結(jié)合在一起時,其構(gòu)成單元/模塊并且實現(xiàn)該單元/模塊的規(guī)定目的。
[0070]在單元/模塊可以利用軟件實現(xiàn)時,考慮到現(xiàn)有硬件工藝的水平,所以可以以軟件實現(xiàn)的單元/模塊,在不考慮成本的情況下,本領(lǐng)域技術(shù)人員都可以搭建對應(yīng)的硬件電路來實現(xiàn)對應(yīng)的功能,所述硬件電路包括常規(guī)的超大規(guī)模集成(VLSI)電路或者門陣列以及諸如邏輯芯片、晶體管之類的現(xiàn)有半導體或者是其它分立的元件。模塊還可以用可編程硬件設(shè)備,諸如現(xiàn)場可編程門陣列、可編程陣列邏輯、可編程邏輯設(shè)備等實現(xiàn)。
[0071]在上面詳細描述的本公開的示例實施例僅僅是說明性的,而不是限制性的。本領(lǐng)域技術(shù)人員應(yīng)該理解,在不脫離本公開的原理和精神的情況下,可對這些實施例進行各種修改,組合或子組合,并且這樣的修改應(yīng)落入本公開的范圍內(nèi)。
【主權(quán)項】
1.一種信息處理方法,包括: 采集包括被攝者的唇部動作的視頻; 識別所述視頻,以生成與所述被攝者通過所述唇部動作所表達的含義對應(yīng)的識別信息;以及 顯示所述識別信息。2.如權(quán)利要求1所述的信息處理方法,其中,所述識別信息為文本形式的信息,并且,識別所述視頻以生成所述識別信息的步驟包括: 識別所述視頻,以生成文本形式的初步信息;以及 基于預定語言模型對所述初步信息進行修改,以生成所述識別信息。3.如權(quán)利要求1所述的信息處理方法,其中,識別所述視頻的步驟包括: 對于所述視頻的每一幀圖像,提取所述圖像中表示唇部的結(jié)構(gòu)信息的關(guān)鍵點集; 跟蹤所述關(guān)鍵點集中的每一關(guān)鍵點在各幀圖像之間的位置的變化,以得到表示唇部動作的關(guān)鍵特征;以及 基于所述關(guān)鍵特征識別所述視頻,以生成所述識別信息。4.如權(quán)利要求3所述的信息處理方法,其中,基于所述關(guān)鍵特征識別所述視頻以生成所述識別信息的步驟包括: 基于所述關(guān)鍵特征,使用預先訓練的神經(jīng)網(wǎng)絡(luò)來生成所述識別信息。5.如權(quán)利要求3所述的信息處理方法,其中,提取所述圖像中表示唇部的結(jié)構(gòu)信息的關(guān)鍵點集的步驟包括: 通過基于級聯(lián)回歸的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于支持向量機的方法中的至少一個,提取所述關(guān)鍵點集。6.如權(quán)利要求4所述的信息處理方法,其中,所述神經(jīng)網(wǎng)絡(luò)預先通過以下步驟而進行訓練: 獲取訓練視頻集以及相關(guān)聯(lián)的訓練目標集,所述訓練視頻集中的每個訓練視頻包含唇部動作,所述訓練目標集中的每個訓練目標表示相關(guān)聯(lián)的訓練視頻中的唇部動作所表達的含義; 對于每個訓練視頻的每一幀圖像,提取表示唇部的結(jié)構(gòu)信息的訓練關(guān)鍵點集; 跟蹤所述訓練關(guān)鍵點集中的每一訓練關(guān)鍵點在所述訓練視頻的各幀圖像之間的位置的變化,以得到表示唇部動作的訓練關(guān)鍵特征;以及 將每個訓練視頻的所述訓練關(guān)鍵特征作為待訓練的神經(jīng)網(wǎng)絡(luò)的輸入,將與每個訓練視頻相關(guān)聯(lián)的訓練目標作為所述神經(jīng)網(wǎng)絡(luò)的輸出,訓練所述神經(jīng)網(wǎng)絡(luò)。7.如權(quán)利要求4所述的信息處理方法,其中,所述神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、反饋層、全連接層和輸出層,并且,基于所述關(guān)鍵特征使用預先訓練的神經(jīng)網(wǎng)絡(luò)來生成所述識別信息包括: 將作為特征向量序列的所述關(guān)鍵特征輸入所述輸入層; 通過所述卷積層,從所述特征向量序列提取卷積層特征; 通過所述反饋層,結(jié)合所述視頻的前一幀反饋層特征和后一幀反饋層特征,從所述卷積層特征提取當前幀的反饋層特征; 通過所述全連接層,對所述當前幀的反饋層特征進行抽象處理,以生成所述識別信息; 以及 通過所述輸出層輸出所述識別信息。8.一種信息處理系統(tǒng),包括: 視頻采集單元,采集包括被攝者的唇部動作的視頻; 處理單元,識別所述視頻,以生成與所述被攝者通過所述唇部動作所表達的含義對應(yīng)的識別信息;以及 顯示單元,顯示所述識別信息。9.如權(quán)利要求8所述的信息處理系統(tǒng),其中,所述識別信息為文本形式的信息,并且,所述處理單元包括: 識別單元,識別所述視頻,以生成文本形式的初步信息;以及 生成單元,基于預定語言模型對所述初步信息進行修改,以生成所述識別信息。10.如權(quán)利要求8所述的信息處理系統(tǒng),其中,所述處理單元包括: 提取單元,對于所述視頻的每一幀圖像,提取所述圖像中表示唇部的結(jié)構(gòu)信息的關(guān)鍵點集; 跟蹤單元,跟蹤所述關(guān)鍵點集中的每一關(guān)鍵點在各幀圖像之間的位置的變化,以得到表示唇部動作的關(guān)鍵特征;以及 生成單元,基于所述關(guān)鍵特征識別所述視頻,以生成所述識別信息。11.如權(quán)利要求10所述的信息處理系統(tǒng),其中,所述生成單元配置為: 基于所述關(guān)鍵特征,使用預先訓練的神經(jīng)網(wǎng)絡(luò)來生成所述識別信息。12.如權(quán)利要求10所述的信息處理系統(tǒng),其中,所述提取單元配置為: 通過基于級聯(lián)回歸的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于支持向量機的方法中的至少一個,提取所述關(guān)鍵點集。13.如權(quán)利要求11所述的信息處理系統(tǒng),還包括: 獲取單元,獲取訓練視頻集以及相關(guān)聯(lián)的訓練目標集,所述訓練視頻集中的每個訓練視頻包含唇部動作,所述訓練目標集中的每個訓練目標表示相關(guān)聯(lián)的訓練視頻中的唇部動作所表達的含義; 訓練關(guān)鍵點提取單元,對于每個訓練視頻的每一幀圖像,提取表示唇部的結(jié)構(gòu)信息的訓練關(guān)鍵點集; 訓練關(guān)鍵點跟蹤單兀,跟蹤所述訓練關(guān)鍵點集中的每一訓練關(guān)鍵點在所述訓練視頻的各幀圖像之間的位置的變化,以得到表示唇部動作的訓練關(guān)鍵特征;以及 訓練單元,將每個訓練視頻的所述訓練關(guān)鍵特征作為待訓練的神經(jīng)網(wǎng)絡(luò)的輸入,將與每個訓練視頻相關(guān)聯(lián)的訓練目標作為所述神經(jīng)網(wǎng)絡(luò)的輸出,訓練所述神經(jīng)網(wǎng)絡(luò)。14.如權(quán)利要求11所述的信息處理系統(tǒng),其中,所述神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、反饋層、全連接層和輸出層,并且,所述生成單元配置為: 將作為特征向量序列的所述關(guān)鍵特征輸入所述輸入層; 通過所述卷積層,從所述特征向量序列提取卷積層特征; 通過所述反饋層,結(jié)合所述視頻的前一幀反饋層特征和后一幀反饋層特征,從所述卷積層特征提取當前幀的反饋層特征; 通過所述全連接層,對所述當前幀的反饋層特征進行抽象處理,以生成所述識別信息; 以及 通過所述輸出層輸出所述識別信息。15.一種信息處理裝置,包括: 視頻采集單元,采集包括被攝者的唇部動作的視頻; 發(fā)送單元,將所述視頻發(fā)送至與所述信息處理裝置可通信地連接的計算機; 接收單元,從所述計算機接收與所述被攝者通過所述唇部動作所表達的含義對應(yīng)的識別信息;以及 顯示單元,顯示所述識別信息。16.如權(quán)利要求15所述的信息處理裝置,其中,所述計算機識別所述視頻,以生成所述識別信息。
【專利摘要】本公開提供了一種信息處理方法、系統(tǒng)和裝置,所述信息處理方法包括:采集包括被攝者的唇部動作的視頻;識別所述視頻,以生成與所述被攝者通過所述唇部動作所表達的含義對應(yīng)的識別信息;以及顯示所述識別信息。
【IPC分類】G06K9/00
【公開號】CN104881647
【申請?zhí)枴緾N201510278162
【發(fā)明人】張弛
【申請人】北京曠視科技有限公司, 北京小孔科技有限公司
【公開日】2015年9月2日
【申請日】2015年5月27日