鍵點(diǎn)集。
[0029]更具體地,以基于級(jí)聯(lián)回歸的方法為例,所述信息處理方法可以從互聯(lián)網(wǎng)上收集大量圖片,人工標(biāo)記出唇部關(guān)鍵點(diǎn)??蛇x地,所述信息處理方法還可以進(jìn)一步計(jì)算每個(gè)唇部關(guān)鍵點(diǎn)與平均關(guān)鍵點(diǎn)(即,將所有關(guān)鍵點(diǎn)的向量進(jìn)行算術(shù)平均后所得到的向量所對(duì)應(yīng)的關(guān)鍵點(diǎn))的距離。接下來,所述信息處理方法在每個(gè)關(guān)鍵點(diǎn)上提取特征向量,所述特征向量例如為多維(例如128維)SIFT (Scale-1nvariant feature transform,尺度不變特征轉(zhuǎn)換)特征。此后,所述信息處理方法根據(jù)如上所獲得的特征向量和距離,采用諸如最小二乘法等的算法得到一個(gè)線性模型。在得到所述線性模型之后,所述信息處理方法即可將所述視頻的每一幀圖像輸入所述線性模型,以提取所述關(guān)鍵點(diǎn)集。
[0030]需要指出的是,以上所述的提取方法僅為示例。本領(lǐng)域技術(shù)人員可以采用本領(lǐng)域已知的或?qū)黹_發(fā)的任何適當(dāng)?shù)奶幚矸椒▉硖崛∷鲫P(guān)鍵點(diǎn)集。
[0031]在提取了所述關(guān)鍵點(diǎn)集之后,所述信息處理方法跟蹤所述關(guān)鍵點(diǎn)集中的每一關(guān)鍵點(diǎn)在各幀圖像之間的位置的變化,以得到表示唇部動(dòng)作的關(guān)鍵特征。所述關(guān)鍵特征可以為多維矢量(例如,3維或4維)的形式。此后,所述信息處理方法基于所述關(guān)鍵特征識(shí)別所述視頻,以生成所述識(shí)別信息。
[0032]具體地,在一示例中,所述信息處理方法可以基于所述關(guān)鍵特征,使用預(yù)先訓(xùn)練的各種神經(jīng)網(wǎng)絡(luò)來生成所述識(shí)別信息。所述神經(jīng)網(wǎng)絡(luò)包括但不限于回饋式深度人工神經(jīng)網(wǎng)絡(luò)。
[0033]更具體地,所述信息處理方法可以通過以下步驟對(duì)所述神經(jīng)網(wǎng)絡(luò)預(yù)先進(jìn)行訓(xùn)練。首先,所述信息處理方法獲取訓(xùn)練視頻集以及相關(guān)聯(lián)的訓(xùn)練目標(biāo)集。所述訓(xùn)練視頻集中的每個(gè)訓(xùn)練視頻包含唇部動(dòng)作。所述訓(xùn)練目標(biāo)集中的每個(gè)訓(xùn)練目標(biāo)表示相關(guān)聯(lián)的訓(xùn)練視頻中的唇部動(dòng)作所表達(dá)的含義。例如,所述信息處理方法可以通過網(wǎng)絡(luò)獲取大量人物說話的視頻,作為所述訓(xùn)練視頻集。另一方面,所述信息處理方法可以獲取與所述視頻集中的各個(gè)視頻相關(guān)聯(lián)的字幕或人工標(biāo)記所述視頻的說話內(nèi)容,作為與所述視頻相關(guān)聯(lián)的訓(xùn)練目標(biāo)。
[0034]接下來,所述信息處理方法可以對(duì)于每個(gè)訓(xùn)練視頻的每一幀圖像,提取表示唇部的結(jié)構(gòu)信息的訓(xùn)練關(guān)鍵點(diǎn)集,并跟蹤所述訓(xùn)練關(guān)鍵點(diǎn)集中的每一訓(xùn)練關(guān)鍵點(diǎn)在所述訓(xùn)練視頻的各幀圖像之間的位置的變化,以得到表示唇部動(dòng)作的訓(xùn)練關(guān)鍵特征。所述信息處理方法提取訓(xùn)練關(guān)鍵點(diǎn)集的處理和得到訓(xùn)練關(guān)鍵特征的處理分別與如上所述的提取關(guān)鍵點(diǎn)集的處理和得到關(guān)鍵特征的處理類似,在此不再重復(fù)。
[0035]在得到訓(xùn)練關(guān)鍵特征之后,所述信息處理方法將每個(gè)訓(xùn)練視頻的所述訓(xùn)練關(guān)鍵特征作為待訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的輸入,將與每個(gè)訓(xùn)練視頻相關(guān)聯(lián)的訓(xùn)練目標(biāo)作為所述神經(jīng)網(wǎng)絡(luò)的輸出,訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)。
[0036]更具體地,所述神經(jīng)網(wǎng)絡(luò)例如可以包括輸入層、卷積層、反饋層、全連接層和輸出層。由此,所述信息處理方法將作為特征向量序列的所述關(guān)鍵特征輸入所述輸入層。然后,通過所述卷積層,從所述特征向量序列提取卷積層特征??蛇x地,還可在提取卷積層特征之前對(duì)所述特征向量序列進(jìn)行諸如平滑處理等的預(yù)處理。接下來,通過所述反饋層,結(jié)合所述視頻的前一幀反饋層特征和后一幀反饋層特征,從所述卷積層特征提取當(dāng)前幀的反饋層特征。所述反饋層可以通過包括但不限于LSTM(Long Short Term Memory,長短期記憶)等的方式來實(shí)現(xiàn)。此后,通過所述全連接層,對(duì)所述當(dāng)前幀的反饋層特征進(jìn)行抽象處理,以生成所述識(shí)別信息。最后,通過所述輸出層輸出所述識(shí)別信息。所述輸出層可以通過包括但不限于CTC (Connect1nist Temporal Classificat1n,連接時(shí)間分類)等的方式來實(shí)現(xiàn)。
[0037]需要指出的是,以上以神經(jīng)網(wǎng)絡(luò)為例描述了基于所述關(guān)鍵特征而生成所述識(shí)別信息的處理。然而,本公開不限于此。本領(lǐng)域技術(shù)人員可以通過本領(lǐng)域已知或未來開發(fā)的各種適當(dāng)方式來從所述關(guān)鍵特征而生成所述識(shí)別信息。
[0038]此外,需要指出的是,以上以基于關(guān)鍵點(diǎn)的方法為例描述了識(shí)別視頻的處理。然而,本公開不限于此。本領(lǐng)域技術(shù)人員可以通過本領(lǐng)域已知或未來開發(fā)的各種適當(dāng)方式來識(shí)別所述視頻。
[0039]此外,需要指出的是,通過以上所述的步驟獲得的識(shí)別信息可以作為初步信息而經(jīng)歷進(jìn)一步的處理。示例性地,為使所述識(shí)別信息更加合理,可以首先通過如上所述的處理識(shí)別所述視頻,以生成文本形式的初步信息。然后,基于預(yù)定語言模型對(duì)所述初步信息進(jìn)行修改,以生成所述識(shí)別信息。所述語言模型包括但不限于N-gram模型等。由此,所述信息處理方法能夠基于語言習(xí)慣對(duì)所述識(shí)別信息中的不合理的部分進(jìn)行修正,以提高識(shí)別精度。
[0040]在通過如上所述的處理獲得了所述識(shí)別信息之后,所述信息處理方法進(jìn)行到步驟S230,并顯示所述識(shí)別信息。例如,在應(yīng)用所述信息處理方法的設(shè)備為智能眼鏡或頭盔的情況下,所述識(shí)別信息可以顯示在作為顯示單元的鏡片上。在應(yīng)用所述信息處理方法的設(shè)備為手機(jī)或平板電腦的情況下,所述識(shí)別信息可以顯示在所述手機(jī)或平板電腦的顯示屏上。
[0041]以上參照?qǐng)D2詳細(xì)描述了本公開實(shí)施例的信息處理方法。在本公開實(shí)施例的信息處理方法中,通過采集說話者的唇部視頻,對(duì)其進(jìn)行識(shí)別并以例如文本形式將說話內(nèi)容的識(shí)別結(jié)果顯示出來,能夠不受背景噪音影響地、快捷準(zhǔn)確地識(shí)別說話者所表達(dá)的含義,并將所述含義直觀地顯示,從而有利于背景噪音巨大的情況下的人際交流,也使得嚴(yán)重聽力障礙人士能夠流暢地與他人進(jìn)行交流。
[0042]下面,將參照?qǐng)D3描述本公開實(shí)施例的信息處理系統(tǒng)。
[0043]圖3是示意性圖示根據(jù)本公開實(shí)施例的信息處理系統(tǒng)的主要配置的框圖。如圖3所示,根據(jù)本公開實(shí)施例的信息處理系統(tǒng)300主要包括:視頻采集單元310、處理單元320和顯示單元330。
[0044]所述視頻采集單元310采集包括被攝者的唇部動(dòng)作的視頻。所述處理單元320識(shí)別所述視頻,以生成與所述被攝者通過所述唇部動(dòng)作所表達(dá)的含義對(duì)應(yīng)的識(shí)別信息。所述顯示單元330顯示所述識(shí)別信息。
[0045]在一實(shí)施例中,所述識(shí)別信息為文本形式的信息,并且,所述處理單元320包括:識(shí)別單元,識(shí)別所述視頻,以生成文本形式的初步信息;以及生成單元,基于預(yù)定語言模型對(duì)所述初步信息進(jìn)行修改,以生成所述識(shí)別信息。
[0046]在另一實(shí)施例中,所述處理單元320包括:提取單元,對(duì)于所述視頻的每一幀圖像,提取所述圖像中表示唇部的結(jié)構(gòu)信息的關(guān)鍵點(diǎn)集;跟蹤單元,跟蹤所述關(guān)鍵點(diǎn)集中的每一關(guān)鍵點(diǎn)在各幀圖像之間的位置的變化,以得到表示唇部動(dòng)作的關(guān)鍵特征;以及生成單元,基于所述關(guān)鍵特征識(shí)別所述視頻,以生成所述識(shí)別信息。
[0047]在另一實(shí)施例中,所述生成單元配置為:基于所述關(guān)鍵特征,使用預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò)來生成所述識(shí)別信息。
[0048]在另一實(shí)施例中,所述提取單元配置為:通過基于級(jí)聯(lián)回歸的方法、基于神經(jīng)網(wǎng)絡(luò)的方法、基于支持向量機(jī)的方法中的至少一個(gè),提取所述關(guān)鍵點(diǎn)集。
[0049]在另一實(shí)施例中,所述信息處理系統(tǒng)300還包括:獲取單元,獲取訓(xùn)練視頻集以及相關(guān)聯(lián)的訓(xùn)練目標(biāo)集,所述訓(xùn)練視頻集中的每個(gè)訓(xùn)練視頻包含唇部動(dòng)作,所述訓(xùn)練目標(biāo)集中的每個(gè)訓(xùn)練目標(biāo)表示相關(guān)聯(lián)的訓(xùn)練視頻中的唇部動(dòng)作所表達(dá)的