通過跟蹤講話者的嘴部的一組感興趣點(diǎn)的局部變形來進(jìn)行視覺語音識(shí)別的方法
【專利摘要】本申請(qǐng)涉及通過跟蹤講話者的嘴部的一組感興趣點(diǎn)的局部變形來進(jìn)行視覺語音識(shí)別的方法。該方法包括下列步驟:a)對(duì)于每一圖像的每一興趣點(diǎn),計(jì)算局部梯度描述符和局部移動(dòng)描述符;b)形成n個(gè)興趣點(diǎn)的微結(jié)構(gòu),每一微結(jié)構(gòu)由n階元組來定義,其中n≥1;c)對(duì)于每一元組,基于局部描述符來確定結(jié)構(gòu)化視覺特性的向量(d0…d3…);d)對(duì)于每一元組,通過選擇形成碼本(CB)的碼字集合中的單個(gè)碼字的分類算法來映射這一向量;e)對(duì)于視頻序列的各連續(xù)圖像,生成碼字的有序時(shí)間序列(a0…a3…);以及f)通過串核類型的函數(shù),測量碼字的時(shí)間序列與來自另一講話者的碼字的另一時(shí)間序列的相似性。
【專利說明】通過跟蹤講話者的嘴部的一組感興趣點(diǎn)的局部變形來進(jìn)行視覺語音識(shí)別的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視覺語音-活動(dòng)識(shí)別或VSR(視覺話音識(shí)別),這是一種也稱為“讀唇”的技術(shù),其在于通過分析由講話者的嘴部區(qū)域的一連串圖像形成的視頻序列來操作所講語言的自動(dòng)識(shí)別。
【背景技術(shù)】
[0002]所研究的區(qū)域(此后稱為“嘴部區(qū)域”)包括唇部及其緊鄰區(qū)域,并且可能擴(kuò)展至覆蓋臉部的更廣區(qū)域,包括例如下巴和臉頰。
[0003]這一技術(shù)的可能應(yīng)用(這當(dāng)然是非限制性的)是在非常嘈雜的環(huán)境中(如在機(jī)動(dòng)車的旅客車廂中)使用的“免提”電話系統(tǒng)的語音識(shí)別。
[0004]鏈接到周圍噪聲的這種困難在這一應(yīng)用中尤其具有限制性,這是由于話筒(置于儀表板處或在旅客車廂頂?shù)纳喜拷锹渲?與講話者之間的巨大距離(其遠(yuǎn)離程度受駕駛位置的約束),這造成拾取了相對(duì)高的噪聲水平并且因此造成了難以提取嵌入在噪聲中的有用信號(hào)。此外,機(jī)動(dòng)車的典型的非常嘈雜的環(huán)境具有因變于駕駛條件(碾在不平或鋪鵝卵石的路面上、運(yùn)行車載收音機(jī),等等)而不可預(yù)期地演化的特性,這非常復(fù)雜而不能由隔音算法基于對(duì)話筒所拾取的信號(hào)的分析考慮進(jìn)去。
[0005]因此,存在著對(duì)使得可能在其中聲學(xué)裝置的識(shí)別由于過度降級(jí)的信號(hào)/噪聲比而不再能正確地實(shí)現(xiàn)的情境中以高度的確定性來識(shí)別例如講話者所說出的電話號(hào)碼的數(shù)字的系統(tǒng)的需求。此外,已經(jīng)觀察到,諸如/b/、/v/、/n/或/m/等聲音在音頻域中通常易于誤解,而在視覺域中則沒有模糊性,從而聲學(xué)識(shí)別裝置與視覺識(shí)別裝置的關(guān)聯(lián)可以自然地提供其中常規(guī)純音頻系統(tǒng)缺少魯棒性的嘈雜環(huán)境中的性能的顯著改進(jìn)。
[0006]然而,迄今為止所提出的自動(dòng)讀唇系統(tǒng)的性能仍然不足,主要困難在于提取與區(qū)別講話者所說的不同單詞或單詞部分的真正相關(guān)的視覺特性。此外,各講話者之間唇部的外觀和移動(dòng)中所存在的固有可變性使得現(xiàn)有系統(tǒng)的性能很差。
[0007]另外,迄今所提出的視覺語音-活動(dòng)識(shí)別系統(tǒng)實(shí)現(xiàn)了需要非常重要的軟件和硬件裝置的人工智能的技術(shù),幾乎不能在具有非常嚴(yán)格的成本約束的非常廣泛地分布的產(chǎn)品的框架內(nèi)構(gòu)想,而不管它們是合并到車輛的系統(tǒng)還是合并了電話通信的所有信號(hào)處理組件和功能的可移動(dòng)盒形式的附件。
[0008]因此,仍然存在著對(duì)具有其實(shí)現(xiàn)既魯棒又節(jié)省計(jì)算資源的視覺語音識(shí)別算法的真實(shí)需求,尤其是在能夠“在進(jìn)行中”(幾乎實(shí)時(shí)地)執(zhí)行這一語音識(shí)別的情況下。
[0009]Ju 等人的文章“Speaker Dependent Visual Speech Recognit1n by Symboland Rear Value Assignment (通過符號(hào)和后賦值的講話者無關(guān)的視覺語音識(shí)別)”,RobotIntelligence Technology and Applicat1ns2012Advances in Intelligent Systemsand Computing (智能系統(tǒng)和計(jì)算中的機(jī)器人智能技術(shù)和應(yīng)用2012進(jìn)步),施普林格,第1015-1022頁,2013年I月,第1015-1022頁,描述了這樣的通過對(duì)視頻序列的VSR分析來進(jìn)行自動(dòng)語音識(shí)別的算法,但在它沒有將局部視覺語音特性與各興趣點(diǎn)之間的空間關(guān)系進(jìn)行組合的程度上,其效率仍然具體地受限的。
[0010]這些算法的其他方面在以下文獻(xiàn)中開發(fā):
[0011]- Navneet 等人的“Human Detect1n Using Oriented Histograms of Flow andAppearance (使用流和外觀的有向直方圖進(jìn)行人類檢測)'Proceedings of the EuropeanConference on Computer Vis1n (計(jì)算機(jī)視覺歐洲會(huì)議錄),施普林格,第428-441頁,2006年5月;
[0012]- Sivic 等人的“Video Google:A Text Retrieval Approach to ObjectMatching in Videos (視頻Google:視頻中的對(duì)象匹配的文本檢索方法)”, Proceedings ofthe8th IEEE Internat1nal Conference on Computer Vis1n (第 8 屆計(jì)算機(jī)視覺 IEEE國際會(huì)議錄),第1470-1477頁,2003年10月;
[0013]- Zheng 等人的 “Effective and efficient Object-based Image RetrievalUsing Visual Phrases (使用視覺短語的有效且高效的基于對(duì)象的圖像檢索)”,Proceedings of thel4th Annual ACM Internat1nal Conference on Multimedia(ACM多媒體國際會(huì)議14周年會(huì)議錄),第77-80頁,2006年I月;
[0014]- Zavesky 的 “ L ipAc t s: Eff i c i ent Representat1ns for VisualSpeakers (LipActs:視覺講話者高效表不),,,2011 IEEE Internat1nal Conference onMultimedia and Expo (2011IEEE多媒體和博覽會(huì)國際會(huì)議),第1-4頁;2011年7月;
[0015]- Yao等人的“Grouplet:A structured image Representat1n for RecognisingHuman and Object Interact1ns (Grouplet:用于識(shí)別人類和對(duì)象交互的結(jié)構(gòu)化圖像表不),,,2010IEEE Conference on Computer Vis1n and Pattern Recognit1n (2010IEEE計(jì)算機(jī)視覺和模式識(shí)別會(huì)議),第9-16頁,2010年6月;
[0016]- Zhang 等人的 “Generating Descriptive Visual Words and Visual Phrasesfor Large-Scale Image Applicat1ns (生成用于大規(guī)模圖像應(yīng)用的描述性視覺字和視覺短語)”, IEEE圖像處理會(huì)議錄,卷20,第9號(hào),第2664-2667頁,2011年9月;
[0017]- Zheng 等人的 “Visual Synset: Towards a Higher-Level Visualrepresentat1n (Visual Synset:為了更高級(jí)的視覺表不),,,2008IEEE Conference onComputer Vis1n and Pattern Recognit1n (2008IEEE 計(jì)算機(jī)視覺和模式識(shí)別會(huì)議),第9-16 頁,2008 年 6 月。
【發(fā)明內(nèi)容】
[0018]本發(fā)明的目標(biāo)是向現(xiàn)有的視覺語音識(shí)別技術(shù)提供多個(gè)處理改進(jìn)和簡化,從而使得既改進(jìn)整體性能(具體地是具有改進(jìn)的魯棒性和講話者之間的較少的可變性)又降低計(jì)算復(fù)雜度成為可能,以使得該識(shí)別兼容廣泛分布的設(shè)備中存在的裝置。
[0019]根據(jù)第一方面,本發(fā)明提出了一種結(jié)構(gòu)化視覺特性的新概念。
[0020]它們是與描述在講話者的嘴部的圖像上選擇的點(diǎn)的鄰近區(qū)域的方式有關(guān)的特性,此后稱為“興趣點(diǎn)”(一種也被稱為“地標(biāo)”或“參考點(diǎn)”的概念)。這些結(jié)構(gòu)化特性(在科學(xué)界也稱為特征)一般由大小很大的特性向量或“特征向量”(它們處理起來很復(fù)雜)來描述。本發(fā)明提出了對(duì)這些向量應(yīng)用變換,使得既簡化其表達(dá)又高效地編碼視覺語言所引起的可變性成為可能,從而允許更簡單但同樣高效的分析,而沒有關(guān)鍵信息丟失并保存講話的時(shí)間一致性。
[0021]根據(jù)第二方面,作為前一方面的補(bǔ)充,本發(fā)明提出了基于結(jié)構(gòu)特性的組合的特定策略的新學(xué)習(xí)過程。內(nèi)容是形成被編組成“元組”的各組一個(gè)或多個(gè)興趣點(diǎn),其中元組可以是單元組(I階元組)、對(duì)元組(2階元組)、三元組(3階元組),等等。該學(xué)習(xí)將包括在所有可能的I到N(N —般限于N = 3或N = 4)階元組中提取最相關(guān)元組的選擇并對(duì)這一經(jīng)縮減的元組子集執(zhí)行視覺語音識(shí)另O。
[0022]為了構(gòu)造元組,本發(fā)明提出實(shí)現(xiàn)聚集的原理,具體地經(jīng)由多核學(xué)習(xí)MKL由支持向量機(jī)(SVM)的性能的最大化來引導(dǎo),從單元組(隔離的興趣點(diǎn))開始到相關(guān)聯(lián)的其他單元組,以形成將隨后從屬于最相關(guān)元組的第一選擇的對(duì),來組合元組及其相關(guān)聯(lián)的特性。
[0023]該聚集是通過單元組與這些所選擇的對(duì)的關(guān)聯(lián)以形成三元組來繼續(xù)的,這將也從屬于一選擇,并以此類推。在新創(chuàng)建的每一組較高階元組處,應(yīng)用選擇準(zhǔn)則以在它們之間只保持在視覺語音識(shí)別的意義內(nèi)最高效的元組,即具體地,在視頻序列的各連續(xù)圖像中具有最顯著變形的那些元組(從以下假設(shè)開始:移動(dòng)得最多的元組將對(duì)于視覺語音識(shí)別而言最具區(qū)別性)。
[0024]更確切地,根據(jù)上述第一方面,本發(fā)明提出了一種方法,包括以下步驟:
[0025]a)對(duì)于每一圖像的每一興趣點(diǎn),計(jì)算:
[0026].局部梯度描述符,它是有向梯度的分布的估計(jì)的函數(shù),以及
[0027].局部移動(dòng)描述符,它是各連續(xù)圖像之間的有向光流的估計(jì)的函數(shù),
[0028]所述描述符是在所考慮的興趣點(diǎn)的鄰近區(qū)域中的各連續(xù)圖像之間計(jì)算的;
[0029]b)形成η個(gè)興趣點(diǎn)的微結(jié)構(gòu),每一個(gè)都由一 η階元組來定義,其中η彡I ;
[0030]c)對(duì)于步驟b)的每一元組,確定編碼了局部變形以及底層興趣點(diǎn)之間的空間關(guān)系的結(jié)構(gòu)化視覺特性的向量,這一向量是基于該元組的興趣點(diǎn)的所述局部梯度和移動(dòng)描述符來形成的;
[0031]d)對(duì)于每一元組,通過應(yīng)用適于選擇形成碼本的碼字的有限集中的單個(gè)碼字的分類算法,將在步驟c)處確定的向量映射到對(duì)應(yīng)的碼字;
[0032]e)對(duì)于視頻序列的各連續(xù)圖像,為每一元組生成在步驟d)處確定的碼字的有序時(shí)間序列;
[0033]f)對(duì)于每一元組,通過測量與來自另一講話者的碼字的另一時(shí)間序列的相似性,分析在步驟e)處生成的碼字的時(shí)間序列。
[0034]步驟f)的相似性的測量有利地通過串核(String Kernel)類型的函數(shù)來實(shí)現(xiàn),適于:
[0035]fl)識(shí)別所生成的時(shí)間序列中以及其他時(shí)間序列中分別存在的預(yù)定大小的匹配的碼字子序列,其中容忍預(yù)定大小的潛在不協(xié)調(diào)性,以及
[0036]f2)計(jì)算碼字的所述子序列的出現(xiàn)率,以對(duì)于每一元組,將碼字的時(shí)間序列映射到固定長度的串核表示。
[0037]局部梯度描述符優(yōu)選地是有向梯度HOG類型的直方圖描述符,并且局部移動(dòng)描述符是光流HOF類型的直方圖的描述符。
[0038]步驟d)的分類算法可以是k均值算法類型的無監(jiān)督分類算法。
[0039]上述方法可尤其應(yīng)用來:
[0040]g)使用步驟f)的相似性的測量結(jié)果來用于支持向量機(jī)SVM類型的監(jiān)督分類算法的學(xué)習(xí)。
[0041]根據(jù)上述第二方面,本發(fā)明提出了一種方法,包括以下步驟:
[0042]a)形成η個(gè)興趣點(diǎn)的微結(jié)構(gòu)的起始集合,每一個(gè)都由一 η階元組來定義,其中I ^ n ^ N ;
[0043]b)對(duì)于步驟a)的每一元組,基于該元組的興趣點(diǎn)的局部梯度和/或移動(dòng)描述符來確定相關(guān)聯(lián)的結(jié)構(gòu)化視覺特性;
[0044]c)通過以下步驟來迭代地搜索并選擇最具區(qū)別性的元組:
[0045]Cl)將適于考慮元組及其相關(guān)聯(lián)的結(jié)構(gòu)化特性的組合的算法應(yīng)用于該元組集合并為該組合的每一元組確定對(duì)應(yīng)的相關(guān)性分?jǐn)?shù);
[0046]c2)從在步驟Cl)處考慮的該元組集合中,提取產(chǎn)生最高相關(guān)性分?jǐn)?shù)的元組的子集;
[0047]c3)將附加的I階元組聚集到在步驟c2)處提取的子集的元組,以獲得更高階元組的新集合;
[0048]c4)確定與在步驟c3)處形成的每一所聚集的元組相關(guān)聯(lián)的結(jié)構(gòu)化視覺特性;
[0049]c5)在所述較高階的新集合中,選擇最具區(qū)別性的元組的新子集;以及
[0050]c6)重復(fù)步驟cl)到c5)直至最大階N ;以及
[0051]d)基于在步驟c)選擇的元組來執(zhí)行視覺語言識(shí)別算法。
[0052]有利地,步驟Cl)的算法是多核學(xué)習(xí)MKL類型的算法,步驟Cl)的組合是元組與針對(duì)每一元組的最優(yōu)權(quán)重的線性組合,最優(yōu)權(quán)重是通過MKL算法計(jì)算得到元組在該組合中的貢獻(xiàn),并且在步驟c2)處提取的元組的子集是具有最高權(quán)重的元組的子集。
[0053]在上述方法的第一實(shí)施例中:
[0054]-步驟c3)到c5)實(shí)現(xiàn)了一種算法,適于:
[0055].在一連串圖像上評(píng)估所考慮的元組的興趣點(diǎn)的速度,以及
[0056]?計(jì)算步驟c3)的附加元組與步驟2)處提取的子集的元組之間的距離;以及-在步驟c5)處提取的最具區(qū)別性的元組的子集是滿足方差最大化準(zhǔn)則VMC的元組的子集。
[0057]在這一方法的第二(替換)實(shí)施例中:
[0058]-步驟c3)到c5)實(shí)現(xiàn)多核學(xué)習(xí)MKL類型的算法,適于:
[0059].形成元組的線性組合,以及
[0060].對(duì)于每一元組,計(jì)算其在該組合中的貢獻(xiàn)的最優(yōu)權(quán)重;以及
[0061]-在步驟c5)處提取的最具區(qū)別性的元組的子集是具有最高權(quán)重的元組的子集。
【專利附圖】
【附圖說明】
[0062]現(xiàn)在將參考附圖描述本發(fā)明設(shè)備的示例性實(shí)施例,在所有附圖中,相同的附圖標(biāo)記指示相同或功能上相似的元素。
[0063]圖1中的(a)和(b)示出了講話者的嘴部的兩個(gè)連續(xù)圖像,示出了各興趣點(diǎn)的位置的變化以及這些點(diǎn)的三元組從一個(gè)圖像到下一圖像的變形。
[0064]圖2示出了旨在用于視覺詞匯表的初步構(gòu)建的處理鏈的主要步驟。
[0065]圖3圖示了通過應(yīng)用分類算法的碼字解碼,對(duì)應(yīng)的碼本是出于在二維空間中的解釋的需求而在此表示的。
[0066]圖4示意性地示出實(shí)現(xiàn)本發(fā)明的第一方面的教導(dǎo)的視覺語言分析的不同步驟。
[0067]圖5示出了根據(jù)本發(fā)明的第一方面,通過根據(jù)本發(fā)明的技術(shù)確定結(jié)構(gòu)化特性進(jìn)行元組解碼的方式。
[0068]圖6示出了通過對(duì)易于服從相似性的測量的視覺字符的時(shí)間序列的視覺語言的解碼(尤其是出于學(xué)習(xí)和識(shí)別的目的)而產(chǎn)生的結(jié)果。
[0069]圖7是描述操作元組與最相關(guān)結(jié)構(gòu)的選擇的組合的處理鏈的主要步驟的流程圖,其中本發(fā)明的實(shí)現(xiàn)根據(jù)后者的第二方面。
[0070]圖8示出了根據(jù)本發(fā)明的第二方面的用于構(gòu)造并選擇階數(shù)遞增的元組的聚集過程。
[0071]圖9是示出作為不同的元組選擇策略和碼本大小的函數(shù)的本發(fā)明的性能的圖表。
[0072]圖10示出根據(jù)本發(fā)明的第二方面的在聚集過程之后選擇的結(jié)構(gòu)化特性的元組階數(shù)的分布。
【具體實(shí)施方式】
[0073]在圖1中,示出了從視頻序列中取得的講話者的嘴部的兩個(gè)連續(xù)圖像,在該視頻序列期間后者講出待識(shí)別的單詞,例如講話者所說的電話號(hào)碼的數(shù)字
[0074]以本質(zhì)上已知的方式,嘴部的移動(dòng)的分析是通過檢測并跟蹤特定數(shù)量(在該示例中是十二個(gè))的興趣點(diǎn)10來操作的。
[0075]本發(fā)明的方法的概括體系結(jié)構(gòu)
[0076]對(duì)這些興趣點(diǎn)的跟蹤實(shí)現(xiàn)了外觀和移動(dòng)分量。對(duì)于所跟蹤的每一點(diǎn),這兩個(gè)分量也以本質(zhì)上已知的方式在所考慮的點(diǎn)的鄰近區(qū)域中通過(一方面)有向梯度的空間直方圖(或H0G)以及(另一方面)有向光流HOF的空間直方圖被表征。
[0077]對(duì)于這些HOG和HOF直方圖的更詳細(xì)描述,分別參考下文來作出:
[0078][I]N.Dalal 和 B.Triggs, “Histograms of Oriented Gradients for HumanDetect1n (用于人類檢測的有向梯度的直方圖)”,Computer Vis1n and PatternRecognit1n (計(jì)算機(jī)視覺和模式識(shí)別),2005.CVPR2005.1EEE Computer SocietyConference on IEEE (IEEE 計(jì)算機(jī)社會(huì)會(huì)議),2005,卷 I,第 886-893 頁。
[0079][2]N.Dalai, B.Triggs 以及 C.Schmid, “Human Detect1n Using OrientedHistograms of Flow and Appearance (使用流和外觀的有向直方圖的人類檢測)”,Computer Vis1n (計(jì)算機(jī)視覺)-ECCV2006,第 428-441 頁,2006。
[0080]HOG描述符的選擇來自以下事實(shí):圖像中對(duì)象的局部外觀和形狀可由最顯著輪廓的方向的分布來描述。該實(shí)現(xiàn)可以通過將圖像劃分成諸很小的相鄰區(qū)域或單元并通過對(duì)于每一單元編譯該單元內(nèi)部的各像素的輪廓的定向或梯度的方向的直方圖,來變得簡單。直方圖的組合隨后形成HOG描述符。
[0081]以本質(zhì)上已知的方式,HOF描述符以類似的方式基于兩個(gè)連續(xù)圖像之間的光流的估計(jì)來形成。
[0082]在發(fā)言的視頻序列的時(shí)刻t,每一所跟蹤的興趣點(diǎn)Pm因而將通過經(jīng)由將對(duì)于點(diǎn)i所提取的歸一化HOG和HOF直方圖串接而獲得的視覺特性向量fu來描述。
[0083]厶=[HOG,u..HOF7J
[0084]在特性上,根據(jù)本發(fā)明的第一方面,視頻序列的每一視覺特性向量將遭受變換,以簡化其表達(dá)同時(shí)高效地編碼視覺語言所引起的可變性,以獲得非常有限的視覺詞匯表的“單詞”或碼字的有序序列,從而描述這一視頻序列。隨后,基于這些碼字序列,例如通過串核類型的函數(shù)以簡單的方式測量彼此之間的序列相似性將是可能的。
[0085]根據(jù)第二特性方面,本發(fā)明提出了不(或不僅)跟蹤隔離的興趣點(diǎn),而是跟蹤一個(gè)或若干個(gè)這些點(diǎn)的組合,從而形成稱為“元組”的微結(jié)構(gòu),例如如圖1所示的三元組12(3階元組),其變形將被分析并被跟蹤以允許語音識(shí)別。
[0086]這一方法具有組合(興趣點(diǎn)的那些)局部視覺特性和所考慮的元組的各點(diǎn)之間的空間關(guān)系(即,興趣點(diǎn)的…四元組、三元組對(duì)所形成的圖的變形)兩者的優(yōu)點(diǎn)。
[0087]構(gòu)造這些元組以及選擇最具區(qū)別性的各個(gè)元組以用于視覺語音分析的方式將在下文相關(guān)于圖7和8描述。
[0088]視覺詞匯表的初步構(gòu)造
[0089]圖2示出了旨在用于基于針對(duì)不同講話者所拾取的視頻序列的學(xué)習(xí)數(shù)據(jù)庫,對(duì)視覺詞匯表進(jìn)行初步構(gòu)造的處理鏈的主要步驟。
[0090]第一步驟包括,對(duì)于視頻序列的所有圖像且對(duì)于所跟蹤的每一興趣點(diǎn),通過計(jì)算HOG和HOF直方圖并串接(如上所示)來提取局部梯度和移動(dòng)描述符(框14)。
[0091]興趣點(diǎn)隨后被編組成元組(框16),并且隨后根據(jù)所考慮的元組的每一興趣點(diǎn)的局部描述符,確定結(jié)構(gòu)化特性以具體地描述每一元組。
[0092]對(duì)于學(xué)習(xí)數(shù)據(jù)庫的所有視頻序列重復(fù)這些操作,并且應(yīng)用分類算法(框20),例如k均值類型的無監(jiān)督分類算法,從而允許定義視覺字的詞匯表,這將在此后按它們的常用名“碼字”來稱呼,以與在不同科學(xué)出版物中使用的術(shù)語相一致并避免任何歧義。這些視覺字一起形成稱為“碼本”的詞匯表,其由K個(gè)碼字形成。
[0093]圖3示意性地示出了這樣的碼本CB,它被分成有限數(shù)量的群集CLR,每一 CLR由定義每一群集的中心的碼字CW來表征;各個(gè)叉與受最接近群集的索引影響的不同特性向量ds,t相對(duì)應(yīng),并且因此與表征該群集的碼字相對(duì)應(yīng)。
[0094]根據(jù)本發(fā)明的第一方面的分析視覺語言的技術(shù)
[0095]圖4示意性地示出實(shí)現(xiàn)本發(fā)明的第一方面的教導(dǎo)的視覺語言分析的不同步驟。
[0096]對(duì)于給定元組,并且對(duì)于視頻序列的所有圖像,該算法進(jìn)行提取該元組的每一興趣點(diǎn)的局部HOG和HOF描述符,并確定該元組的結(jié)構(gòu)化特性的向量dt,s(框22)向量。令該元組的階數(shù)為η(例如,對(duì)于興趣點(diǎn)的三元組而言,η = 3),元組s的描述向量通過串接局部標(biāo)識(shí)符的η個(gè)向量Zu= [H0G&,..H0F&,.]來形成,即dt,s = [ft,Jies(對(duì)于興趣點(diǎn)的三元組,該描述向量因而是三個(gè)向量ft,」的串接)。
[0097]重要的是注意到,通過構(gòu)造,每一特性向量屯,3也編碼了局部視覺特性(S卩,興趣點(diǎn)中的每一個(gè)的視覺特性)以及臉部的各點(diǎn)之間的空間關(guān)系(因此,該元組所特有的那些點(diǎn)的空間關(guān)系)。
[0098]后續(xù)步驟是解碼步驟(框24),該步驟將相關(guān)于圖5更詳細(xì)地描述。
[0099]本質(zhì)上,對(duì)于該組元組中的元組S,考慮在位置索引s處從學(xué)習(xí)視頻序列的不同幀中提取的所有結(jié)構(gòu)化特性向量的并集Ds。為了將單個(gè)碼字與特性向量dt,s相關(guān)聯(lián),該算法將Ds分成k個(gè)分區(qū)或群集(在數(shù)據(jù)分區(qū)(或數(shù)據(jù)群集)的意義上,該技術(shù)是作為數(shù)據(jù)分析的統(tǒng)計(jì)方法的技術(shù))。
[0100]它尤其可用于k均值算法類型的無監(jiān)督分類算法的目的,這包括在數(shù)據(jù)空間中搜索將相鄰點(diǎn)(在歐幾里得距離的意義上)聚集在同一類中的分區(qū),使得每一數(shù)據(jù)屬于具有最近均值的群集。這一分析技術(shù)的細(xì)節(jié)尤其可在以下文獻(xiàn)中找到:
[0101][3] S.P.Lloyd 的 “Least squares quantizat1n in PCM(PCM 中的最小均方量化)”, IEEE Transact1ns on Informat1n Theory (IEEE 信息理論會(huì)議錄),28 (2): 129 -137,1982。
[0102]向量屯,3隨后受最近群集的索引的影響,如上述圖3中示意性地示出的,它示意性地示出了被分成有限數(shù)量的群集CLR的碼本CB,每一 CLR由碼字CW來表征。解碼包括使每一特性向量dt,s受最近群集CLR的索引的影響,并且因而受表征該群集的碼字CW的影響。
[0103]步驟24的解碼的結(jié)果(應(yīng)用于視頻序列的所有圖像)產(chǎn)生描述該視頻序列的碼字的有序序列,表示為Xs。
[0104]隨后,基于這些碼字序列,以簡單的方式執(zhí)行彼此之間的序列相似性的測量將是可能的(框26),例如通過串核類型的函數(shù),如此后將關(guān)于圖6解釋的。
[0105]將這一技術(shù)對(duì)所有學(xué)習(xí)視頻序列(框28)的應(yīng)用可被用來實(shí)現(xiàn)監(jiān)督學(xué)習(xí),例如通過支持向量機(jī)SVM類型的監(jiān)督分類算法。
[0106]對(duì)于SVM算法的更詳細(xì)的描述,可參考以下文獻(xiàn):
[0107][4]H.Drucker, C.J.C.Burges, L.Kaufman, A.Smola 以及 V.Vapnik 的 “SupportVector Regress1n Machines (支持向量回歸機(jī)),,,Advances in Neural Informat1nProcessing Systems9 (神經(jīng)信息處理系統(tǒng)進(jìn)步9),第155 - 161頁,MIT出版社,1997。
[0108]圖5更確切地示出了根據(jù)本發(fā)明的第一方面,通過根據(jù)本發(fā)明的技術(shù)為每一元組確定結(jié)構(gòu)化特性進(jìn)行解碼步驟24的方式。
[0109]這一視覺語言解碼操作是對(duì)于視頻序列的每一圖像并對(duì)于每一圖像的每一元組相繼執(zhí)行的。圖5示出了針對(duì)圖像的兩個(gè)元組(三元組和二元組)執(zhí)行的這樣的解碼,但這一解碼當(dāng)然是針對(duì)所有元組階數(shù)來操作的,以獲得針對(duì)每一個(gè)元組的對(duì)應(yīng)碼字序列Xs。
[0110]每一元組的每一興趣點(diǎn)的局部描述符ft,i被如上所示地計(jì)算(基于HOG和HOG直方圖),并隨后被串接以給出每一元組的描述符dt,以產(chǎn)生結(jié)構(gòu)化視覺特性的對(duì)應(yīng)向量。因而獲得了描述元組s的詞法及其在視頻序列的連續(xù)圖像中的變形的大型向量序列dt,s。
[0111]每一元組隨后由元組解碼器來處理,從而允許將所考慮的圖像的該大型向量dt,s映射到屬于碼本CB的碼字的有限集的單個(gè)對(duì)應(yīng)的碼字。
[0112]結(jié)果是與相關(guān)于該相同序列的視覺特性向量的序列(V"d3...相類似的碼字的時(shí)間序列aya3…。這些簡化時(shí)間序列aya3…是簡單的整數(shù)序列,該序列的每一元素簡單地是標(biāo)識(shí)碼本中的碼字的該群集的索引a。例如,對(duì)于10個(gè)碼字的碼本,索引a可以由O和9之間的簡單數(shù)字來表示,并且對(duì)于256個(gè)碼字的碼本,由簡單的字節(jié)來表示。
[0113]后續(xù)步驟將包括對(duì)元組應(yīng)用多核學(xué)習(xí)MKL類型的算法,包括建立若干元組與對(duì)每一個(gè)的貢獻(xiàn)的相應(yīng)權(quán)重β的線性組合。對(duì)于這些MKL算法的更詳細(xì)的描述,可具體參考以下文獻(xiàn):
[0114][5] A.Zien 和 C.S.Hong, “Multiclass Multiple Kernel Learning (多類多核學(xué)習(xí)),,,Proceedings of the24th Internat1nal Conference on Machine Learning (第 24屆機(jī)器學(xué)習(xí)國際會(huì)議會(huì)議錄),ACM,2007,第1191-1198頁。
[0115]更具體地,圖6示出了使用通過剛剛陳述的視覺語言解碼獲得的視覺特性的時(shí)間序列來測量序列之間的相似性,尤其是用于學(xué)習(xí)和識(shí)別的目的。
[0116]根據(jù)本發(fā)明的一特性方面,提出了適應(yīng)并采用串核類型的函數(shù)的機(jī)制來測量這些視覺語言序列之間的相似性并編碼持續(xù)發(fā)言所內(nèi)在的動(dòng)態(tài)性。
[0117]對(duì)于這些串核函數(shù)的更徹底研究,可具體參考以下文獻(xiàn):
[0118][6] C.Leslie, E.Eskin 以及W.S.Noble,“The Spectrum Kernel: A String Kernelfor SVM Protein Classificat1n(頻譜核:SVM 蛋白分類的串核)”, Proceedings of thePacific Symposium on B1computing(生物計(jì)算太平洋座談會(huì)會(huì)議錄),夏威夷,美國,2002,卷7,第566-575頁,以及
[0119][7] S.V.N.Vishwanathan 以及 A.J.Smola, “Fast Kernels for String and TreeMatching(用于串和樹匹配的快速核)”,Kernel Methods in Computat1nal B1logy (計(jì)算生物學(xué)中的核方法),第113-130頁,2004。
[0120]對(duì)于該圖像中所跟蹤的元組集合中的每一元組S,視頻圖像的序列的解碼,如在圖5中所描述的那樣來操作,產(chǎn)生碼字的時(shí)間序列Xs。
[0121]原理包括構(gòu)造允許不比較表示視覺頻率的碼字的比率而是比較長度為g的公共子序列的比率(搜索相同碼本的g個(gè)相鄰碼字)的映射函數(shù),以便不失去該系列的空間信息。該持續(xù)發(fā)言的時(shí)間一致性因而可被保持。將容忍子序列中的大小為m的潛在不協(xié)調(diào)性。
[0122]例如,在圖6的示例中,可以觀察到碼字的序列\(zhòng)和X’s之間的g = 4個(gè)相鄰字符的子序列,其具有m = I個(gè)字符的不協(xié)調(diào)性。
[0123]該算法確定碼字的兩個(gè)序列Xs和X’ s所共有的子序列的出現(xiàn)率,給定計(jì)入長度為g的彼此最大有m個(gè)不同字符的所有序列的集合的一組測量。對(duì)于每一元組,碼字的時(shí)間序列隨后可被映射到串核的固定長度的表示,這一映射函數(shù)因而允許解決視覺語言的可變大小的序列的分類的問題。
[0124]根據(jù)本發(fā)明的第二方面的構(gòu)造和選擇元組的技術(shù)
[0125]圖7是根據(jù)本發(fā)明的第二方面的描述操作元組與最相關(guān)結(jié)構(gòu)的選擇的組合的處理鏈的主要步驟的流程圖。
[0126]第一步驟包括提取每一點(diǎn)的局部描述符,并確定元組的結(jié)構(gòu)化特性(框30,類似于針對(duì)圖4描述的框22)。
[0127]后續(xù)步驟,根據(jù)本發(fā)明的第二方面的本發(fā)明的特性,包括基于單元組并通過漸進(jìn)聚集來構(gòu)造元組(框32)。將看到,取決于i)聚集的共同原理以及ii)幾何準(zhǔn)則或多核學(xué)習(xí)MKL過程,這一聚集可根據(jù)兩個(gè)不同的可能策略來執(zhí)行。
[0128]為了表征由于不同的發(fā)音和不同種類的視覺發(fā)言所造成的唇部的移動(dòng)的可變性,提出了通過觀察唇部周圍的臉部諸興趣點(diǎn)的速度的統(tǒng)計(jì)數(shù)據(jù)來執(zhí)行選擇。這一選擇方法通過最小階(即,在元組集合中,是單元組)開始,并遵循遞增“貪婪方法”(貪婪算法)以通過將附加元組聚集到當(dāng)前元組選擇的各元組并通過操作基于相關(guān)性分?jǐn)?shù)計(jì)算的新選擇(框34),例如通過方差最大化準(zhǔn)則VMC,如將在下文尤其是關(guān)于圖8描述的,來形成更高階的新元組。
[0129]隨后迭代地選擇最相關(guān)元組(框36)。一旦達(dá)到最大階(例如,4階,它被認(rèn)為是元組大小的上限),將認(rèn)為它足以使用因此選擇的元組,而非所有可能的元組,來用于視覺語言的識(shí)別的任何操作(框38)。
[0130]圖8示出了剛提到的聚集過程,處于其中單元組被添加到已被選擇的二元組以形成三元組集合并在這些三元組中選擇已形成的元組的集合(單元組、二元組以及三元組)中的最相關(guān)元組等的階段。
[0131]在基于幾何策略的元組聚集的情況下,最相關(guān)元組的選擇有利地通過VMC(方差最大化準(zhǔn)則)策略來作出,包括通過選擇產(chǎn)生s(n)的元組與Sa)的元組之間的最佳影響的S(n+1)的元組(這一選擇例如通過應(yīng)用Kuhn-Mundres算法(或“Hungarian算法”)來執(zhí)行),來計(jì)算視頻序列的不同圖像上的i)鏈接到選擇S(n)的各元組的興趣點(diǎn)與ii)集合S(1)的單元組的興趣點(diǎn)之間的距離(如Hausdorff距離)。對(duì)于遞增的η值(實(shí)際上,η = I...4),重復(fù)這一選擇過程,并且在該過程的結(jié)束,只有具有最高方差的元組被保留來用于執(zhí)行視覺語言識(shí)別。
[0132]作為變體,元組聚集可以不再基于幾何學(xué)而由多核學(xué)習(xí)MKL類型的算法來進(jìn)行輔助,其中若干元組與對(duì)每一個(gè)的貢獻(xiàn)的權(quán)重β的線性組合(可參考上述文獻(xiàn)[5]來得到這些MKL算法的更多細(xì)節(jié))。學(xué)習(xí)通過基本單元組的線性組合來開始,該算法隨后選擇具有所獲得的最高M(jìn)KL權(quán)重的單元組。對(duì)于遞增的η值,重復(fù)這一過程,使用在前一次迭代選擇的核(因此使用元組)并執(zhí)行這些核與關(guān)聯(lián)于3(11)的元組的基本核的線性組合。同樣,只有具有所獲得的最高M(jìn)KL權(quán)重的元組被保留。在該過程的最后步驟,所獲得的核的線性組合與不同階數(shù)的區(qū)別性元組的集合相對(duì)應(yīng)。
[0133]通過根據(jù)本發(fā)明的方法所獲得的性能
[0134]圖9示出因變于不同的元組選擇策略和碼本大小的本發(fā)明的性能:
[0135]-對(duì)于根據(jù)實(shí)現(xiàn)應(yīng)用于元組的線性組合的多核學(xué)習(xí)MKL類型的算法的策略的元組選擇(“MKL選擇”);
[0136]-對(duì)于根據(jù)基于方差最大化準(zhǔn)則VMC的幾何策略的元組選擇(“VMC選擇”);
[0137]-對(duì)于隨機(jī)選擇的30個(gè)元組的選擇(“隨機(jī)選擇”);
[0138]-只使用I階元組(的情況,即只基于興趣點(diǎn),而不將興趣點(diǎn)組合成二元組、三元組或者三元組,等等;
[0139]-包括十二個(gè)興趣點(diǎn)的單個(gè)結(jié)構(gòu)的情況,即單個(gè)12階元組(“S(12)”),這對(duì)應(yīng)于將興趣點(diǎn)一起認(rèn)作單個(gè)集合的全局分析。
[0140]結(jié)果作為碼本的大小的函數(shù)來給出,并且可以看到,對(duì)于256個(gè)碼字的碼本達(dá)到了最優(yōu)性能并且這些結(jié)果顯著高于元組的任意選擇,高于純興趣點(diǎn)分析,或高于與所有興趣點(diǎn)的描述符的簡單串接相對(duì)應(yīng)的單個(gè)核。
[0141]最后,圖10示出了作為它們的階數(shù)η的函數(shù)、在最相關(guān)元組的選擇過程的結(jié)束時(shí)元組S(n)的分布。可以看到,這一分布強(qiáng)烈地以階數(shù)η = 2和3為中心,在該所示示例中,這一分布與已經(jīng)獲得由MKL加權(quán)所施加的最佳權(quán)重β的二十個(gè)選擇的元組相對(duì)應(yīng)。這明確地示出了最具區(qū)別性的結(jié)構(gòu)化特性與S(2)和S(3)的元組相對(duì)應(yīng),即與興趣點(diǎn)的二元組和三元組相對(duì)應(yīng)。
【權(quán)利要求】
1.一種用于通過分析視頻序列的視覺語音活動(dòng)、通過跟蹤在講話者的嘴部區(qū)域上選擇的一組預(yù)定興趣點(diǎn)的局部變型來進(jìn)行自動(dòng)語言識(shí)別的方法,所述視頻序列包括所述講話者的嘴部區(qū)域的連續(xù)圖像, 所述方法的特征在于,所述方法包括以下步驟: a)對(duì)于每一圖像的每一興趣點(diǎn)(10),計(jì)算(22): ?局部梯度描述符,它是有向梯度的分布的估計(jì)的函數(shù),以及 ?局部移動(dòng)描述符,它是各連續(xù)圖像之間的有向光流的估計(jì)的函數(shù), 所述描述符是在所考慮的興趣點(diǎn)的鄰近區(qū)域中的各連續(xù)圖像之間計(jì)算的; b)形成(22)n個(gè)興趣點(diǎn)的微結(jié)構(gòu),每一個(gè)微結(jié)構(gòu)都由一η階元組來定義,其中η彡I ; c)對(duì)于步驟b)的每一元組,確定(22)編碼了局部變形以及底層興趣點(diǎn)之間的空間關(guān)系的結(jié)構(gòu)化視覺特性的向量,這一向量是基于所述元組的興趣點(diǎn)的所述局部梯度和移動(dòng)描述符來形成的; d)對(duì)于每一元組,通過應(yīng)用適于選擇形成碼本(CB)的碼字(CW)的有限集中的單個(gè)碼字的分類算法,將在步驟c)處確定的向量映射(24)到對(duì)應(yīng)的碼字; e)對(duì)于視頻序列的各連續(xù)圖像,為每一元組生成在步驟d)處確定的碼字的有序時(shí)間序列(aQ…a3…); f)對(duì)于每一元組,通過測量與來自另一講話者的碼字的另一時(shí)間序列的相似性(26),分析在步驟e)處生成的碼字的時(shí)間序列。
2.如權(quán)利要求1所述的方法,其特征在于,步驟f)的相似性的測量是通過串核類型的函數(shù)來實(shí)現(xiàn)的,適于: Π)識(shí)別所生成的時(shí)間序列(Xs)中以及其他時(shí)間序列(X’s)中分別存在的預(yù) 定大小(g)的匹配的碼字子序列,其中容忍預(yù)定大小(m)的潛在不協(xié)調(diào)性,以及 f2)計(jì)算碼字的所述子序列的出現(xiàn)率,以對(duì)于每一元組,將碼字的時(shí)間序列映射到串核的固定長度的表示。
3.如權(quán)利要求1所述的方法,其特征在于,所述局部梯度描述符是有向梯度HOG類型的直方圖的描述符。
4.如權(quán)利要求1所述的方法,其特征在于,所述局部移動(dòng)描述符是光流HOF類型的直方圖的描述符。
5.如權(quán)利要求1所述的方法,其特征在于,步驟d)的分類算法是k均值算法類型的無監(jiān)督分類算法。
6.如權(quán)利要求1所述的方法,其特征在于,還包括以下步驟: g)使用步驟f)的相似性的測量結(jié)果來用于支持向量機(jī)SVM類型的監(jiān)督分類算法的學(xué)習(xí)(28)ο
【文檔編號(hào)】G06K9/62GK104166855SQ201410203068
【公開日】2014年11月26日 申請(qǐng)日期:2014年5月14日 優(yōu)先權(quán)日:2013年5月15日
【發(fā)明者】E·貝海姆, H·薩比 申請(qǐng)人:鸚鵡股份有限公司