專利名稱:使用多種類型的輸入對(duì)人進(jìn)行標(biāo)識(shí)的制作方法
使用多種類型的輸入對(duì)人進(jìn)行標(biāo)識(shí)
祖旦 冃眾
存在多種多樣期望使用至少部分自動(dòng)化的系統(tǒng)標(biāo)識(shí)人(包括正在說(shuō)話的 人)的情形。 一些標(biāo)識(shí)說(shuō)話者的現(xiàn)有系統(tǒng)使用音頻——例如,他們可能使用"聲 源定位",這包括處理來(lái)自不同位置的多個(gè)話筒的輸入來(lái)嘗試標(biāo)識(shí)語(yǔ)音起源的 一或多個(gè)方向。 一些其它系統(tǒng)嘗試通過(guò)執(zhí)行"決策級(jí)融合(decision level fusion)" 來(lái)提高如聲源定位的方法的精確性,其中在作出有關(guān)人或說(shuō)話者檢測(cè)的決策時(shí) 將來(lái)自多個(gè)輸入的數(shù)據(jù)組合起來(lái)。
概述
下面呈現(xiàn)本公開(kāi)的簡(jiǎn)化概述以便為讀者提供基本的理解。本概述不是本公 開(kāi)的詳盡概觀,并不標(biāo)識(shí)本發(fā)明的關(guān)鍵或重要元素或者描繪本發(fā)明的范圍。其 唯一目的是以簡(jiǎn)化形式呈現(xiàn)本文公開(kāi)的一些概念作為稍后呈現(xiàn)的更詳細(xì)的描 述的序言。
本文描述的是針對(duì)人(包括說(shuō)話者)的標(biāo)識(shí)的各種技術(shù)和技術(shù)方法。這樣 的技術(shù)和技術(shù)方法包括對(duì)來(lái)自包括音頻和視頻兩者的多種類型的輸入或者模 態(tài)(計(jì)算系統(tǒng)可通過(guò)其識(shí)別輸入的路徑)()的標(biāo)識(shí)"特征"池的標(biāo)識(shí);以及 "分類器"的生成,分類器包括來(lái)自特征池的特征子集,其中選擇這些特征子 集使得分類器能高效地標(biāo)識(shí)人或說(shuō)話者可能存在的區(qū)域。
附圖描述
圖1例示示出其中可完成人檢測(cè)的一個(gè)系統(tǒng)的示例性概圖。 圖2例示一個(gè)示例性圖象以及可標(biāo)識(shí)為包含人或說(shuō)話者的示例性區(qū)域的 圖形表示。
圖3例示包含可在標(biāo)識(shí)人時(shí)執(zhí)行的各種操作的示例性概括操作流。
圖4例示示出可在一些實(shí)現(xiàn)中標(biāo)識(shí)和使用的一些示例性特征的示例性概圖。
圖5例示一些示例性視頻特征。
圖6例示包括一些示例性視頻特征的代表性示例性特征矩形。 圖7例示示出其中可完成用于人或說(shuō)話者檢測(cè)的分類器的生成的一個(gè)系 統(tǒng)的示例性概圖。
圖8例示示出其中可完成人或說(shuō)話者的檢測(cè)的一個(gè)系統(tǒng)的示例性概圖。 圖9例示可用作檢測(cè)人或說(shuō)話者的過(guò)程的一部分的檢測(cè)窗口的一些示例
性表示。 '
圖io例示其中可實(shí)現(xiàn)本文描述的各種技術(shù)的示例性計(jì)算機(jī)設(shè)備。
詳細(xì)描述
本發(fā)明延及針對(duì)人(包括說(shuō)話者)的標(biāo)識(shí)的各種技術(shù)和方法。更具體地, 本文描述了促進(jìn)使用多種類型的輸入對(duì)人進(jìn)行標(biāo)識(shí)的方法和系統(tǒng),其中設(shè)想在 檢測(cè)過(guò)程的開(kāi)始時(shí)而非檢測(cè)過(guò)程的結(jié)束時(shí)將多種類型的輸入組合起來(lái)。
現(xiàn)在轉(zhuǎn)到圖1,其中例示的是示出其中可完成人檢測(cè)的一個(gè)系統(tǒng)100的示 例性概圖。對(duì)圖1的描述是參考圖IO作出的。然而,應(yīng)當(dāng)理解參考圖1描述 的元素并不旨在限于與參考圖IO描述的元素一起使用。另外,盡管圖1的示 例性圖指示了具體的元素,但在一些實(shí)現(xiàn)中不是所有這些元素都存在,并且在 一些實(shí)現(xiàn)中可存在另外的元素。
圖1中包括有一或多個(gè)視頻輸入設(shè)備110、 一或多個(gè)音頻輸入設(shè)備120、 一或多個(gè)其它輸入設(shè)備130、視頻數(shù)據(jù)140、音頻數(shù)據(jù)150、其它數(shù)據(jù)160、在 檢測(cè)器設(shè)備165中實(shí)現(xiàn)的人檢測(cè)器170、輔助設(shè)備175以及人檢測(cè)器的輸出即 任何檢測(cè)到的人或說(shuō)話者180。
檢測(cè)器170接受輸入,它隨后可用于嘗試標(biāo)識(shí)一或多個(gè)人180,包括正在 說(shuō)話的人即說(shuō)話者。檢測(cè)器可使用各種機(jī)制來(lái)嘗試標(biāo)識(shí)人,包括在本文更詳細(xì) 地討論的那些機(jī)制。在一些實(shí)現(xiàn)中,檢測(cè)器可執(zhí)行在其它地方確定的檢測(cè)機(jī)制, 而在其它實(shí)現(xiàn)中檢測(cè)器可確定并執(zhí)行檢測(cè)機(jī)制。檢測(cè)器可使用各種輸入,包括 視頻數(shù)據(jù)140、音頻數(shù)據(jù)150和其它數(shù)據(jù)160。
一或多個(gè)視頻輸入設(shè)備110可包括各種視頻輸入設(shè)備,包括具有各種具有一定功能的相機(jī)和相機(jī)類型。在一個(gè)實(shí)現(xiàn)中,視頻輸入設(shè)備110可包括以圓形
排列定位的多個(gè)相機(jī)以便提供360°視圖。在其它實(shí)現(xiàn)中,相同的360°視圖
可由單個(gè)可能具有單個(gè)透鏡的相機(jī)來(lái)提供。在又一實(shí)現(xiàn)中, 一或多個(gè)視頻輸入
設(shè)備可提供覆蓋小于360°范圉的視圖。 一
一或多個(gè)視頻輸入設(shè)備110的輸出的至少一部分是視頻數(shù)據(jù)140。該數(shù)據(jù) 可包括視頻數(shù)據(jù)的多個(gè)單幀,其中每個(gè)幀包括由多個(gè)像素構(gòu)成的圖象。例如, 能夠以每秒30個(gè)視頻幀的速率產(chǎn)生視頻的相機(jī)可每秒輸出30個(gè)圖象。在一些 實(shí)現(xiàn)中,由相機(jī)產(chǎn)生的每個(gè)圖象可稱為"基圖象"(以將它與其它計(jì)算得到的 圖象如下面說(shuō)明的短期差異和長(zhǎng)期平均圖象相區(qū)別')。注意一或多個(gè)視頻輸入 設(shè)備110可提供各種形式的數(shù)據(jù),包括其中每個(gè)視頻幀的所有像素不是地從視 頻輸入設(shè)備顯式發(fā)送的形式。例如, 一或多個(gè)視頻輸入設(shè)備110的輸出可包括 單個(gè)初始視頻幀,其中提供該幀中所有像素的值,并且至少一些附加的后續(xù)幀 的輸出可僅包括距該初始幀的變化。在該情形中,任何后續(xù)幀的逐個(gè)像素的表 示可通過(guò)將這些變化應(yīng)用于原始幀來(lái)確定。在任一情形中,由相機(jī)產(chǎn)生的每個(gè) 基圖象可視為包括完全的逐個(gè)像素的圖象。
另外,視頻數(shù)據(jù)140還可包括其它計(jì)算得到的數(shù)據(jù)。例如,在一些實(shí)現(xiàn)中, 使用多個(gè)視頻幀計(jì)算"短期差異"可能是有用的。這樣的短期差異可用于例如 標(biāo)識(shí)運(yùn)動(dòng)。盡管短期差異可用各種方法來(lái)計(jì)算,但一種可能的方法是,對(duì)于圖 象中的每個(gè)像素,從當(dāng)前幀中的像素值中減去緊接的前一幀中的像素值。同時(shí), 該方法還可從當(dāng)前幀中的像素值中減去緊接的前面第二幀中的像素值。然后, 可取兩個(gè)減法操作的最小值作為該像素的當(dāng)前值。對(duì)于沒(méi)有運(yùn)動(dòng)存在的像 素——即對(duì)于圖象保持相同的區(qū)域——該方法往往將產(chǎn)生接近于零的值。對(duì)于 最近有運(yùn)動(dòng)的像素,該方法在一些情形中產(chǎn)生遠(yuǎn)大于零的值。該特定方法可由 下面的等式來(lái)表示,其中A/,是在時(shí)刻/處的短期差異圖象并且/,是在時(shí)刻/ 處來(lái)自相機(jī)的圖象
M,=min(|/,-/,—」」/,-/,—2|)
注意,取決于相機(jī)的幀速率,由該計(jì)算使用的"前面的"幀可以不僅是緊 接的前面二個(gè)幀。例如,當(dāng)使用具有每秒30幀的幀速率的相機(jī)時(shí),可以使用 10幀以前和20幀以前的幀而非緊接的前面二個(gè)幀。
7在相同或其它實(shí)現(xiàn)中,計(jì)算視頻幀的"長(zhǎng)期平均"可能是有用的,它也可 以是視頻數(shù)據(jù)140的一部分。長(zhǎng)期平均可標(biāo)識(shí)由一或多個(gè)視頻輸入設(shè)備110捕 捉的區(qū)域中先前存在過(guò)運(yùn)動(dòng)的部分,即使該運(yùn)動(dòng)在最近沒(méi)有發(fā)生。盡管長(zhǎng)期平 均可用各種方法來(lái)計(jì)算,但一種可能的方法是計(jì)算短期差異圖象(可能包括用
先前描述的短期差異方法產(chǎn)生的圖象)的移動(dòng)平均(running average)。使用 這樣一種方法,長(zhǎng)期平均視頻幀可不斷地更新使得幀中的每個(gè)像素由來(lái)自所有 或許多前面的短期差異圖象幀的該像素的平均值組成。對(duì)于由相機(jī)捕捉的區(qū)域 中在捕捉該視頻過(guò)程中很少有運(yùn)動(dòng)或沒(méi)有運(yùn)動(dòng)的范圍,該方法往往產(chǎn)生接近于 零的值。相反,對(duì)于在過(guò)去某些時(shí)刻有運(yùn)動(dòng)的范圍,這通常包括區(qū)域中包含人 的范圍,該方法往往產(chǎn)生非零值。
另外,在一些實(shí)現(xiàn)中,代替考慮根據(jù)視頻數(shù)據(jù)的最近幀計(jì)算得到的圖象如 短期差異和長(zhǎng)期平均,將它們?cè)O(shè)想為還包括至少一些"將來(lái)的"數(shù)據(jù)可能是有 用的。例如,短期差異可能通過(guò)等待直至捕捉到下一視頻幀來(lái)使用當(dāng)前幀、最 近的前一幀以及"下一幀"作為輸入并使用這三個(gè)所標(biāo)識(shí)的幀來(lái)計(jì)算短期差異。 任何這樣的操作可使人檢測(cè)過(guò)程的至少該部分的等待時(shí)間增加捕捉附加的"將 來(lái)"數(shù)據(jù)所需的時(shí)間,但在一些情形中該增加的等待時(shí)間可由計(jì)算得到的圖象 所最終表示的數(shù)據(jù)來(lái)彌補(bǔ)。
視頻數(shù)據(jù)140可包括先前討論的任何或所有圖象以及附加圖象或視頻幀。 這些圖象可從各種位置提供,或者如果必要的話可計(jì)算得到,這些位置包括一 或多個(gè)視頻輸入設(shè)備110、檢測(cè)器170或任何其它設(shè)備。另外,盡管該討論涉 及"視頻",但重要的是要理解可使用任何能夠產(chǎn)生圖象的相機(jī),包括在傳統(tǒng) 上不被視為"攝像機(jī)"的那些相機(jī)。例如,在一些實(shí)現(xiàn)中可使用能夠按序拍攝 多個(gè)照片的"靜物"相機(jī)。此外,如果認(rèn)為檢測(cè)運(yùn)動(dòng)不重要,則在一些實(shí)現(xiàn)中 可使用單個(gè)的靜止圖象。另外,在一些情形中可使用附加數(shù)據(jù)。例如,檢測(cè)器
可使用皮膚顏色作為用于標(biāo)識(shí)可能包含人的區(qū)域的附加手段。
一或多個(gè)音頻輸入設(shè)備120可包括各種音頻輸入設(shè)備,包括各種具有一定 功能的話筒和話筒類型。在一些實(shí)現(xiàn)中, 一或多個(gè)音頻設(shè)備可包括由位于不同 位置的多個(gè)話筒構(gòu)成的話筒陣列。使用來(lái)自這樣一組話筒的各種信息,可能包 括對(duì)話筒的不同位置的了解以及在由這些話筒檢測(cè)到的聲音的幅度和到達(dá)時(shí)
8間方面的差異, 一或多個(gè)音頻輸入設(shè)備可提供包括聲音起源的方向的數(shù)據(jù)。這 樣的輸入有時(shí)作為稱為"聲源定位"(SSL)的技術(shù)方法的一部分而被包括。 在一些情形中,這樣的方向信息在確定說(shuō)話者時(shí)是有用的。
音頻數(shù)據(jù)150在一些實(shí)現(xiàn)中通過(guò)某種處理可包括"概率分布函數(shù)",它提 供表示可能包括說(shuō)話者的語(yǔ)音的聲音來(lái)自任何特定方向的概率的似然值。例 如,如果來(lái)自一或多個(gè)音頻輸入設(shè)備110的信息可用于定位來(lái)自任何方向的聲
音,則概率分布函數(shù)(本文也稱為SSL似然函數(shù))可包含不同方位或方向的概
率值。對(duì)于其中檢測(cè)到很少或檢測(cè)不到聲音的那些方向,概率值低,而檢測(cè)到 較多聲音的那些方向,概率值高。
在一些實(shí)現(xiàn)中,可能取決于音頻輸入設(shè)備120的能力,音頻數(shù)據(jù)150可包 括附加信息。例如,在一些實(shí)現(xiàn)中,音頻數(shù)據(jù)可包括聲源的范圍或距離和/或聲 源的仰角。在一些實(shí)現(xiàn)中,該數(shù)據(jù)一一如聲源的范圍和/或聲源的仰角——也可 與概率分布函數(shù)相關(guān)聯(lián)。
音頻數(shù)據(jù)150可包括先前討論的任何或全部數(shù)據(jù)以及附加數(shù)據(jù)。該數(shù)據(jù)可 從包括關(guān)聯(lián)于一或多個(gè)音頻輸入設(shè)備120、檢測(cè)器170或任何其它設(shè)備的硬件 的各種位置提供,或者如果必要的話可計(jì)算得到。例如,在一些實(shí)現(xiàn)中可能產(chǎn) 生SSL似然函數(shù)的聲源定位可使用關(guān)聯(lián)于一或多個(gè)音頻輸入設(shè)備的硬件來(lái)執(zhí) 行、可使用關(guān)聯(lián)于檢測(cè)器的硬件來(lái)執(zhí)行或者可使用某種其它硬件或者在某個(gè)其 它一位置來(lái)執(zhí)行。
在一些實(shí)現(xiàn)中,視頻數(shù)據(jù)140和音頻數(shù)據(jù)150可在某種程度上鏈接起來(lái), 使得關(guān)聯(lián)于視頻數(shù)據(jù)的方向可與關(guān)聯(lián)于音頻數(shù)據(jù)的方向相關(guān)。例如,在這樣一 個(gè)實(shí)現(xiàn)中,從一個(gè)方位到另一方位的SSL似然函數(shù)的區(qū)域可與一或多個(gè)視頻幀 中可能由水平像素位置標(biāo)識(shí)的特定區(qū)域相關(guān)。例如,在一個(gè)實(shí)現(xiàn)中,從例如10 °到20°的區(qū)域可與位于例如從水平像素位置100至200的像素相關(guān)。使用這 樣的相關(guān)性,來(lái)自一或多個(gè)音頻輸入設(shè)備120的信息可在標(biāo)識(shí)圖象中由一或多 個(gè)視頻設(shè)備110提供的特定區(qū)域時(shí)使用,反之亦然。對(duì)于包括附加信息如仰角 的音頻數(shù)據(jù)150,附加信息還可與圖象中的特定區(qū)域相關(guān)。例如,仰角信息可 與垂直像素位置相關(guān)。取決于這些設(shè)備的本質(zhì)和操作,對(duì)任何一或多個(gè)其它輸 入設(shè)備130中的任何一個(gè)也可能存在類似類型的相關(guān)性。
9在一些實(shí)現(xiàn)中,存在附加類型的輸入并且可用作檢測(cè)過(guò)程的一部分。在一 些情形中,這些附加類型的輸入可起源于一或多個(gè)其它輸入設(shè)備130并且產(chǎn)生 其它數(shù)據(jù)160的至少一部分。例如, 一個(gè)可能的其它輸入設(shè)備可包括三維相機(jī), 它能夠提供對(duì)圖象中元素的距離或深度的某種度量。
檢測(cè)器170可在各種計(jì)算設(shè)備中實(shí)現(xiàn),包括如所示的檢測(cè)器設(shè)備165。在
一些實(shí)現(xiàn)中,該檢測(cè)器設(shè)備可包含用于實(shí)現(xiàn)人檢測(cè)的必要硬件并且可以例如通
過(guò)各種連接手段諸如USB、包括無(wú)線網(wǎng)絡(luò)的任何各種網(wǎng)絡(luò)等等連接到一或多個(gè) 視頻輸入設(shè)備和一或多個(gè)音頻輸入設(shè)備,如本領(lǐng)域的技術(shù)人員所了解的。在其 它實(shí)現(xiàn)中,檢測(cè)器可用包括一或多個(gè)視頻輸入設(shè)備或一或多個(gè)音頻輸入設(shè)備諸 如可能是一或多個(gè)視頻輸入設(shè)備110和一或多個(gè)音頻輸入設(shè)備120的檢測(cè)器設(shè) 備實(shí)現(xiàn)。任何檢測(cè)器設(shè)備可包括各種處理元件,包括通用中央處理單元(CPU) 和/或數(shù)字信號(hào)處理器(DSP)單元。下面參考圖10討論其中可實(shí)現(xiàn)檢測(cè)器的 一個(gè)示例性計(jì)算環(huán)境。
無(wú)論檢測(cè)器設(shè)備165包含還是連接至如一或多個(gè)視頻輸入設(shè)備110、 一或 多個(gè)音頻輸入設(shè)備120和其它輸入設(shè)備130的元素,檢測(cè)器設(shè)備在一些實(shí)現(xiàn)中 還可連接至一或多個(gè)輔助設(shè)備175。在該上下文中,輔助設(shè)備可以是提供可與 檢測(cè)器設(shè)備165相關(guān)聯(lián)或者可用于檢測(cè)器設(shè)備165的附加功能的任何設(shè)備。例 如,在一些實(shí)現(xiàn)中,輔助設(shè)備可包括包含檢測(cè)器設(shè)備可在其上存儲(chǔ)捕捉的視頻、 音頻以及可能檢測(cè)到人或說(shuō)話者的區(qū)域的硬盤驅(qū)動(dòng)器的膝上型計(jì)算機(jī)的輔助 設(shè)備。在相同或其它實(shí)現(xiàn)中,輔助設(shè)備可向檢測(cè)器設(shè)備提供計(jì)算機(jī)處理周期, 使得例如檢測(cè)器設(shè)備可將其部分或全部檢測(cè)處理卸載至輔助設(shè)備。在其他實(shí)現(xiàn) 中,輔助設(shè)備可僅包括存儲(chǔ)裝置——它可以是例如USB外殼中的硬盤驅(qū)動(dòng)器。 通常,輔助設(shè)備可使用包括USB、任何形式的網(wǎng)絡(luò)等連接手段連接至檢測(cè)器設(shè) 備。
在一些實(shí)現(xiàn)中,對(duì)來(lái)自不同輸入設(shè)備的數(shù)據(jù)進(jìn)行同步是重要的。例如,來(lái) 自 一或多個(gè)視頻輸入設(shè)備110的輸入可與來(lái)自一或多個(gè)音頻設(shè)備120的輸入同 步。
現(xiàn)在轉(zhuǎn)到圖2,其中示出了一個(gè)示例性圖象200以及可標(biāo)識(shí)為包含人或說(shuō) 話者的示例性區(qū)域的圖形表示。該圖形表示包括有關(guān)聯(lián)于第一標(biāo)識(shí)人的第一區(qū)域210、關(guān)聯(lián)于第二標(biāo)識(shí)人的第二區(qū)域220和第三區(qū)域230。圖2的該描述是 參考圖l作出的。然而,應(yīng)當(dāng)理解參考圖2描述的元素并不旨在限于與參考圖 l描述的元素一起使用。另外,盡管圖2的示例性圖指示了具體的元素,但在 一些實(shí)現(xiàn)中不是所有這些元素都存在,并且在一些實(shí)現(xiàn)中可存在另外的元素。
示例性圖象200可表示由可能包括先前參考圖1描述的一或多個(gè)視頻輸入 設(shè)備110的一或多個(gè)視頻輸入設(shè)備產(chǎn)生的視頻中的一個(gè)幀。
在一些實(shí)現(xiàn)中,可能如圖1的檢測(cè)器170的檢測(cè)器可使用表示矩形或某種 其它形狀的水平和物理像素位置來(lái)指示所標(biāo)識(shí)的人或說(shuō)話者。例如,檢測(cè)器可 指示第一區(qū)域210具有與人或說(shuō)話者相關(guān)聯(lián)的高概率。同樣,并且有可能同時(shí), 它可指示第二區(qū)域220也具有與人或說(shuō)話者相關(guān)聯(lián)的高概率。如可通過(guò)檢查圖 2來(lái)了解的,在第一區(qū)域210和第二區(qū)域220的情形中,這樣的檢測(cè)器是正確 的,因?yàn)槊總€(gè)區(qū)域包含一個(gè)人。檢測(cè)器還可將第三區(qū)域230標(biāo)識(shí)為具有與人相 關(guān)聯(lián)的高概率——可能例如因?yàn)閬?lái)自墻或其它表面的聲音反射。因?yàn)闄z測(cè)器可 僅指示特定區(qū)域與人相關(guān)聯(lián)的概率,所以在一些情形中由檢測(cè)器標(biāo)識(shí)的區(qū)域可 能實(shí)際上不包含人。檢測(cè)器認(rèn)為一個(gè)區(qū)域包含人的閾值或水平可取決于檢測(cè)器 的應(yīng)用或使用來(lái)改變或定義。例如,在一些實(shí)現(xiàn)中,這樣的閾值可以設(shè)置為某 個(gè)相當(dāng)高的值,這可能將限制可能與人相關(guān)聯(lián)的區(qū)域的數(shù)目同時(shí)還可能限制最 終被誤標(biāo)識(shí)的區(qū)域的數(shù)目。
示例性圖象200旨在用于說(shuō)明目的并且不應(yīng)當(dāng)解釋為限制任何所要求保 護(hù)的本發(fā)明的范圍。同樣,所標(biāo)識(shí)的人和誤標(biāo)識(shí)的區(qū)域的表示僅說(shuō)明示出標(biāo)識(shí) 和誤標(biāo)識(shí)的區(qū)域的一個(gè)圖形手段??墒褂帽硎净蚶緟^(qū)域的任何手段。
現(xiàn)在轉(zhuǎn)到圖3,其中示出的是包括可在標(biāo)識(shí)人時(shí)執(zhí)行的各種操作的示例性 概括操作流300。圖3的以下描述是參考包括圖1、圖4、圖8和圖9的其它附 圖來(lái)作出的。然而,應(yīng)當(dāng)理解參考圖3描述的操作流不旨在限制于與參考這些 其它附圖描述的元素一起使用。另外,盡管圖3的示例性操作流指示執(zhí)行的特 定順序,但在一或多個(gè)替換實(shí)施例中,這些操作的次序可有所不同。此外,盡 管示例性操作流包含多個(gè)步驟,但應(yīng)當(dāng)認(rèn)識(shí)到在一些實(shí)現(xiàn)中這些操作中的至少 一些可組合起來(lái)或同時(shí)執(zhí)行。
在操作310的一個(gè)實(shí)現(xiàn)中,標(biāo)識(shí)特征池。然后可在執(zhí)行生成分類器操作
11315時(shí)使用特征池作為輸入。在該上下文中,特征是關(guān)聯(lián)于一或多個(gè)類型的輸 入的實(shí)體,它用于量化在特定時(shí)刻的這一或多個(gè)輸入的某個(gè)元素。存在音頻特 征、視頻特征和關(guān)聯(lián)于其它類型輸入的其它特征。例如,在包括SSL似然函數(shù)
的音頻輸入的情形中,可至少部分地由SSL似然函數(shù)的"局部"最小和最大值 與同一 SSL似然函數(shù)的"全局"最小和最大值的某種比較來(lái)定義(其中"局部" 指整個(gè)SSL似然函數(shù)的子集的值而"全局"指整個(gè)SSL似然函數(shù)的值)。取 決于SSL似然函數(shù)的值,不同的音頻特征將產(chǎn)生不同的數(shù)值結(jié)果。適用于與可 使用的這些特征有關(guān)的一些實(shí)現(xiàn)的一些特定細(xì)節(jié),包括有關(guān)專用于音頻和視頻 輸入的特征的更多信息,在下面例如參考圖4更詳細(xì)地進(jìn)行討論。
可標(biāo)識(shí)特征池的手段可根據(jù)特征和與其相關(guān)聯(lián)的輸入的性質(zhì)而變化。標(biāo)識(shí) 特征以及生成這些特征的方式通常是具有適用于要為其生成的特征池的目標(biāo) 范圍的該領(lǐng)域?qū)I(yè)知識(shí)的一或多個(gè)設(shè)計(jì)者的任務(wù)。例如,至少部分地由在給出 來(lái)自SSL似然函數(shù)的值時(shí)產(chǎn)生一個(gè)數(shù)的函數(shù)定義的音頻特征的創(chuàng)建可能需要 設(shè)計(jì)音頻特征的人類設(shè)計(jì)者方面的考慮。
在一些情形中,可挑選認(rèn)為提供有關(guān)人或說(shuō)話者存在性的某種信息的特 征。然而,重要的是注意特征不必提供特別"良好"或始終準(zhǔn)確的結(jié)果。下面 討論的生成分類器操作315可用于通過(guò)另一過(guò)程來(lái)選擇最適合于人或說(shuō)話者檢 測(cè)的特征。
在這樣的生成分類器操作315的示例性實(shí)現(xiàn)中,可選擇在操作310中標(biāo)識(shí) 的特征的子集來(lái)形成"分類器"。如本文所使用的,術(shù)語(yǔ)"分類器"指一種實(shí) 體,在向它提供輸入時(shí)——在一些實(shí)現(xiàn)中包括如在本申請(qǐng)書(shū)中其它部分討論的 音頻和視頻輸入一一可提供近似結(jié)果,該結(jié)果提供對(duì)圖象中的特定區(qū)域是否包 含人或說(shuō)話者的的某種估計(jì)。
分類器通常使用自動(dòng)化過(guò)程來(lái)建立或創(chuàng)建。例如,在一些實(shí)現(xiàn)中,分類器 可使用某種"學(xué)習(xí)算法"來(lái)創(chuàng)建,該算法包括取某個(gè)輸入并且產(chǎn)生可分類或回 答特定問(wèn)題的輸出的過(guò)程。所生成的分類器一般由在操作310中所標(biāo)識(shí)的特征 的某個(gè)子集組成,其中學(xué)習(xí)算法己經(jīng)選擇了該子集中的這些特征來(lái)回答關(guān)聯(lián)于
該分類器的問(wèn)題。取決于各種需求,所選的特征能更準(zhǔn)確、更高效地回答問(wèn)題。 在一些實(shí)現(xiàn)中,作為分類器一部分的特征可能以使得在用于檢測(cè)時(shí)改進(jìn)分類器的操作的方式位于分類器中。例如,可對(duì)優(yōu)選的特征定序,使得如果這些特征 的評(píng)估需要相對(duì)較少的計(jì)算資源或者如果與其它特征相比這些特征與人或說(shuō) 話者具有更高的相關(guān)性時(shí),這些優(yōu)選的特征在分類器中被較早地評(píng)估。這樣的
定序可通過(guò)在生成分類器時(shí)對(duì)優(yōu)選的特征加權(quán)、通過(guò)在已經(jīng)生成分類器之后分 揀分類器中的特征或者通過(guò)其它手段來(lái)執(zhí)行。適用于與使用學(xué)習(xí)算法的分類器 生成有關(guān)的一些實(shí)現(xiàn)的一些特定細(xì)節(jié)在下面例如參考圖7更詳細(xì)地描述。
一旦己經(jīng)在操作315中生成了分類器,就可以在操作320中使用它來(lái)標(biāo)識(shí) 人或說(shuō)話者。 一般而言,操作320的實(shí)現(xiàn)將諸如音頻和視頻的輸入饋送給分類 器,后者使用該輸入來(lái)確定人或說(shuō)話者存在的似然性。在一些實(shí)現(xiàn)中, 一或多 個(gè)視頻幀可作為輸入提供并且可在邏輯上細(xì)分為各種尺寸的區(qū)域,并且隨后可 在每個(gè)細(xì)分的區(qū)域上評(píng)估分類器。如本文所使用的,每個(gè)細(xì)分的區(qū)域可稱為"檢
測(cè)窗口"。對(duì)于每個(gè)檢測(cè)窗口,檢測(cè)器可評(píng)估分類器中特征的某個(gè)數(shù)量,最終 以某個(gè)置信度級(jí)別確定特定區(qū)域是否包含人或說(shuō)話者的。在一些實(shí)現(xiàn)中,在已 經(jīng)針對(duì)人或說(shuō)話者評(píng)估了檢測(cè)窗口之后,最有希望的——在一些情形中為最有 可能的——區(qū)域可被標(biāo)識(shí)并且輸出為包含人或說(shuō)話者的區(qū)域。最有可能的區(qū)域 可部分地通過(guò)挑選具有某種相對(duì)較大數(shù)量的陽(yáng)性檢測(cè)窗口的區(qū)域來(lái)標(biāo)識(shí)??蓱?yīng) 用于與使用分類器來(lái)標(biāo)識(shí)人或說(shuō)話者有關(guān)的一些實(shí)現(xiàn)的一些特定細(xì)節(jié),包括檢 測(cè)窗口,在下面例如參考圖8和圖9更詳細(xì)地描述。
重要的是注意,參考圖3例示的操作可在各種不同的計(jì)算設(shè)備或平臺(tái)中實(shí) 現(xiàn)或執(zhí)行,包括在同一實(shí)現(xiàn)中使用多個(gè)計(jì)算設(shè)備。例如,標(biāo)識(shí)特征操作310和 生成分類器操作315可關(guān)聯(lián)于一或多個(gè)個(gè)人計(jì)算機(jī)設(shè)備來(lái)執(zhí)行,而評(píng)估用于檢 測(cè)的分類器操作320可在與例如關(guān)聯(lián)于生成分類器操作的一或多個(gè)設(shè)備分開(kāi)的 設(shè)備上執(zhí)行。這在至少一個(gè)示例性實(shí)現(xiàn)中包括如圖1所示的檢測(cè)器設(shè)備165的 設(shè)備。還重要的是理解一些操作可比其它操作執(zhí)行較少或較多次數(shù)。例如,在 一些實(shí)現(xiàn)中,通常要執(zhí)行標(biāo)識(shí)特征操作310和生成分類器操作315某個(gè)數(shù)量的 次數(shù),直至找到合適的分類器為止。隨后如由操作320例示的使用該分類器實(shí) 現(xiàn)檢測(cè)的可執(zhí)行代碼可使用某個(gè)其它設(shè)備一一包括例如適于在會(huì)議室中使用 的相機(jī)設(shè)備——來(lái)實(shí)現(xiàn)并且隨后重復(fù)地執(zhí)行以實(shí)際檢測(cè)說(shuō)話者中的人。在其它 實(shí)現(xiàn)中,生成分類器操作315和評(píng)估用于檢測(cè)的分類器操作320都可在同一設(shè)備中實(shí)現(xiàn)。在這樣的實(shí)現(xiàn)中,或者在其它實(shí)現(xiàn)中,生成分類器操作可針對(duì)每個(gè) 使用設(shè)備的新房間或者區(qū)域來(lái)執(zhí)行,并且可為每個(gè)新房間或區(qū)域產(chǎn)生不同的分 類器。
現(xiàn)在轉(zhuǎn)到圖4,其中例示的是示出可在一些實(shí)現(xiàn)中標(biāo)識(shí)和使用的一些示例 性特征的示例性概圖。圖4的該描述是參考圖5和圖6來(lái)作出的。然而,應(yīng)當(dāng) 理解,參考圖4描述的元素不旨在限于與參考這些其它附圖描述的元素一起使 用。另外,盡管圖4的示例性圖指示了具體的元素,但在一些實(shí)現(xiàn)中不是所有 這些元素都存在,并且在一些實(shí)現(xiàn)中可存在另外的元素。
示例性圖400包括特征池410,它可包含音頻特征420、視頻特征430和 其它特征450。
一般而言,音頻特征是關(guān)聯(lián)于某種類型的音頻輸入的特征??蓜?chuàng)建音頻特 征以反映任意數(shù)量的各種音頻參數(shù),包括音頻信號(hào)的幅度、音頻信號(hào)的頻率等 等。
在音頻數(shù)據(jù)包括SSL似然函數(shù)的環(huán)境中,音頻特征可使用關(guān)聯(lián)于SSL似
然函數(shù)的某個(gè)信息集合。在一些實(shí)現(xiàn)中,基于SSL似然函數(shù)的音頻特征集合可
使用來(lái)自關(guān)聯(lián)于每個(gè)檢測(cè)窗口的SSL似然函數(shù)的值以及整個(gè)SSL似然函數(shù)的
全局值。它可使用離散的時(shí)間點(diǎn)上的這些值——例如當(dāng)前時(shí)刻(SSL數(shù)據(jù)最近
'可用的時(shí)刻)或者例如最后一分鐘內(nèi)的任何時(shí)刻一一以及在某個(gè)時(shí)間段上聚 合。
例如,假設(shè)SSL似然函數(shù)全局最大、全局最小以及全局平均如下計(jì)算得 到全局最大是SSL似然函數(shù)在整個(gè)SSL似然函數(shù)上的最大值;全局 最小()是SSL似然函數(shù)在整個(gè)SSL似然函數(shù)上的最小值;全局平均(gvg )
是SSL似然函數(shù)在整個(gè)SSL似然函數(shù)上的平均值。
還假設(shè),對(duì)于每個(gè)檢測(cè)窗口,使用對(duì)應(yīng)于特定檢測(cè)窗口的SSL似然函數(shù)
的區(qū)域來(lái)計(jì)算一些局部值(這可能要求將圖象和/或檢測(cè)窗口使用的坐標(biāo)空間轉(zhuǎn) 換成SSL似然函數(shù)使用的——有可能按角度的——坐標(biāo)空間):局部最大(ZU
是SSL似然函數(shù)在檢測(cè)窗口中的最大值;局部最小(Z^)是SSL似然函數(shù)在 檢測(cè)窗口中的最小值;局部平均(U是SSL似然函數(shù)在檢測(cè)窗口上的平均 值;以及局部中間輸出(丄」)是SSL似然函數(shù)在檢測(cè)窗口中點(diǎn)處的值——例
14如如果檢測(cè)窗口包括從10°到20°的角度,則局部中間輸出可計(jì)算為SSL似 然函數(shù)在15度處的值。還假設(shè)存在"其余"最大值(Z=),它是SSL似然
函數(shù)在特定檢測(cè)窗口之外的最大值。
給出這些值,可通過(guò)添加至少部分地由如下面列表中的那些函數(shù)定義的音 頻特征420來(lái)填充特征池410的一部分 1.
丄m3x一C mm
丄g 加xrmn
max"mm
/g
—i/. "mm
《 丄'—8.9.10.11.12.13.14.
丄'—
《 丄'—
丄L 丄'
丄
A—
丄f
15.丄L
全局峰值)
《ax<s (二元特征,它測(cè)試檢測(cè)窗口是否包含SSL似然函數(shù)的
1516. ^22^
L加x
創(chuàng)建音頻特征的另一種手段可按與先前說(shuō)明相似的方式使用來(lái)自SSL似 然函數(shù)的數(shù)據(jù),但可使用來(lái)自一或多個(gè)"先前的"時(shí)間段而非只使用來(lái)自"當(dāng) 前"時(shí)間段的函數(shù)的數(shù)據(jù)。例如,除了創(chuàng)建部分由先前列出的函數(shù)定義的(其 中由這些函數(shù)使用的數(shù)據(jù)是由SSL似然函數(shù)產(chǎn)生的最新近的數(shù)據(jù))音頻特征集 合之外,可創(chuàng)建附加特征,其中由這些函數(shù)使用的數(shù)據(jù)來(lái)自一或多個(gè)先前的時(shí) 間段。例如,全局最大(Pmax )值可保留SSL似然函數(shù)在整個(gè)SSL似然函數(shù)上
的最大值,但可能在不同的時(shí)刻,例如1/60秒之前——使用第二最新近的SSL ,似然函數(shù)值。可為任意數(shù)量的先前時(shí)間段創(chuàng)建類似的附加特征。例如,在每1/60 秒提供新SSL似然函數(shù)的環(huán)境中,可創(chuàng)建使用緊接的前六十(60)個(gè)SSL似 然函數(shù)的特征——如果為先前列出的十六(16)個(gè)函數(shù)中的每一個(gè)創(chuàng)建特征, 則這可導(dǎo)致九百六十(960)個(gè)SSL音頻特征。
除了使用SSL似然函數(shù)在離散時(shí)間點(diǎn)處的值之外,還可創(chuàng)建使用從多個(gè) 先前的SSL似然函數(shù)得到的某個(gè)聚合值的一些特征。例如,在一些特征中,全 局最大(丄乙)值可定義為SSL似然函數(shù)在例如前一秒內(nèi)出現(xiàn)的絕對(duì)最大值,
而非只是如由SSL似然函數(shù)的最新近實(shí)例提供的SSL似然函數(shù)的最大值。同 樣,例如,全局平均可定義為SSL似然函數(shù)在某個(gè)先前的時(shí)間段內(nèi)在
全部SSL似然函數(shù)上的平均值。
- 除了使用來(lái)自先前SSL似然函數(shù)的數(shù)據(jù)之外,如果由等待捕捉將來(lái)的數(shù) 據(jù)而引起的增加的等待時(shí)間是可接受的,則還有可能使用來(lái)自"將來(lái)"SSL似 然函數(shù)的數(shù)據(jù)。
任何或所有這些附加特征隨后可添加至同一特征池410并且在生成分類 器的過(guò)程中使用。還可包括至少部分基于SSL似然函數(shù)的其它特征,或者當(dāng)然 包括基于其它音頻數(shù)據(jù)的其它特征,或者包括與來(lái)自其它輸入的其它數(shù)據(jù)組合 在一起的音頻數(shù)據(jù)。
可以作為特征池410的一部分的另一特征集合是視頻特征420。通常視頻 特征可以是關(guān)聯(lián)于某種類型的視頻輸入的任何特征。視頻特征可例如對(duì)圖象中 的部分或全部像素進(jìn)行某種數(shù)學(xué)運(yùn)算,這些圖象包括基圖象以及可能如計(jì)算得 到的短期差異和長(zhǎng)期平均圖象的其它圖象??蓱?yīng)用于與視頻圖象的定義有關(guān)的一些實(shí)現(xiàn)的一些特定細(xì)節(jié)在下面例如參考圖5和圖6更詳細(xì)地描述。
特征池410中還包括有其它特征450。這些其它特征450包括標(biāo)識(shí)為在生 成分類器時(shí)可供考慮的任何附加特征。在一些實(shí)現(xiàn)中,在其中存在其它類型的 輸入的環(huán)境中,關(guān)聯(lián)于其它類型的輸入的特征可以是其它特征的一部分。例如, 在包括來(lái)自三維相機(jī)的輸入諸如圖象中的元素的距離或深度的某種度量的環(huán) 境中,其它特征可包括或者獨(dú)立于其它輸入或者可能結(jié)合其它輸入來(lái)量化該附
加數(shù)據(jù)的其它特征。在相同或其它實(shí)現(xiàn)中,其它特征可包括一起使用其它輸入 的組合的特征——例如, 一些特征可在相同的一或多個(gè)特征中一起使用音頻輸 入和視頻輸入兩者。
在其中輸入提供360。視圖的實(shí)現(xiàn)中,可實(shí)現(xiàn)至少一些特征使得它們"環(huán) 繞"——也就是說(shuō)使得某些特征考慮來(lái)自例如由特定輸入提供的數(shù)據(jù)的"開(kāi)始" 和"末端"兩者的輸入。例如,在包括提供36(T視圖的音頻輸入的環(huán)境中, 至少一些特征可并入例如從355°方位至5°方位的輸入。這樣的特征在一些 情形中可捕捉恰巧位于這些輸入提供的數(shù)據(jù)的"開(kāi)始"和"末端"之間的邊界 上的人或說(shuō)話者。
現(xiàn)在轉(zhuǎn)到圖5,其中示出一些示例性視頻特征。圖5的該描述是參考圖6 作出的,它討論了使用視頻特征的一些方式。然而,應(yīng)當(dāng)理解參考圖5描述的 元素并不旨在限于與參考圖6描述的元素一起使用。另外,盡管圖5的示例性 圖指示了具體的元素,但在一些實(shí)現(xiàn)中不是所有這些元素都存在,并且在一些 實(shí)現(xiàn)中可存在另外的元素。
盡管視頻特征可包括能夠量化特定時(shí)刻的視頻輸入的某個(gè)元素的任何實(shí) 體,但一種有用類型的視頻特征是部分地由一或多個(gè)矩形形成的視頻特征。一 般而言,對(duì)關(guān)聯(lián)于一或多個(gè)矩形中的像素的值進(jìn)行求和或者以其它數(shù)學(xué)方法來(lái) 處理以確定關(guān)聯(lián)于特定矩形的視頻特征的數(shù)值。例如,在其中每個(gè)像素或開(kāi)或 關(guān)(即二進(jìn)制的一 (1)或零(0))的黑白圖象中,關(guān)聯(lián)于視頻特征的數(shù)值可 以是例如特定矩形中開(kāi)的像素或者值具有一 (1)的像素之和。在圖5中矩形 550和矩形560在圖形上示出兩個(gè)可能的單矩形視頻特征。在灰度級(jí)或彩色圖 象中,關(guān)聯(lián)于特定像素的數(shù)值可相似地處理。例如,在其中關(guān)聯(lián)于每個(gè)像素的 數(shù)值范圍從零(0)至二百五十五(255)的灰度級(jí)圖象中,特征可以與矩形中像素的灰度級(jí)值之和相關(guān)聯(lián)。注意盡管在本文例示和討論矩形,但關(guān)聯(lián)于視頻 特征的一或多個(gè)區(qū)域可具有任何形狀,而不限于矩形。
另一種視頻特征可使用父矩形內(nèi)的二或多個(gè)子矩形。矩形510、矩形520、
矩形530和矩形540都是使用子矩形的視頻特征的圖形示例。在這樣的視頻特 征中,關(guān)聯(lián)于特征的數(shù)值可通過(guò)例如在這兩個(gè)子矩形中對(duì)像素值求和且隨后從 所得到的和之一中減去另一個(gè)和來(lái)計(jì)算。在這樣一個(gè)實(shí)現(xiàn)中,取決于子矩形的 位置和方向,所得到的數(shù)值可以不同,即使在特征被應(yīng)用于圖象的相同部分時(shí) 也是如此。例如,父矩形510中的子矩形是水平方向的,而父矩形530的子矩 形是垂直方向的,并且因此所得到的關(guān)聯(lián)于使用這些矩形的視頻特征的數(shù)值可 以不同,即使在這些矩形應(yīng)用于圖象的相同部分時(shí)也是如此。在一些情形中這 種類型的特征可協(xié)助標(biāo)識(shí)高相對(duì)對(duì)比度的區(qū)域一一包括例如可能存在于臉上 眼睛(通常是暗黑的)與周圍的皮膚(通常不是暗黑的)之間的對(duì)比度。
盡管圖5例示包括兩個(gè)子矩形的視頻特征的圖形表示,但也有可能定義包 括三個(gè)矩形、四個(gè)矩形等等的視頻特征。關(guān)聯(lián)于這些視頻特征的數(shù)值可用多種 方法來(lái)計(jì)算得到,包括通過(guò)取不同子矩形中的像素計(jì)數(shù)之間的差。
現(xiàn)在轉(zhuǎn)到圖6,其中示出包括一些示例性視頻特征的代表性示例性特征矩 形610。圖6的該描述是參考圖1、圖4和圖5作出的。然而,應(yīng)當(dāng)理解參考 圖6描述的元素不旨在限制于與參考這些其它附圖描述的元素一起使用。另外, 盡管圖6的示例性圖指示了具體的元素,但在一些實(shí)現(xiàn)中不是所有這些元素都 存在,并且在一些實(shí)現(xiàn)中可存在另外的元素。
盡管圖5中的示圖示出關(guān)聯(lián)于一些示例性視頻特征的矩形(且在一些情形 中為子矩形),但圖5中的示圖沒(méi)有明確地示出如何使用這些矩形和相應(yīng)的視 頻特征來(lái)生成或評(píng)估分類器。標(biāo)識(shí)要被包括在特征池中的視頻特征的一種機(jī)制 是取與各種形狀相關(guān)聯(lián)的各種特征,包括如先前參考圖5描述的那些,并且改 變這些形狀在代表性特征矩形610上的位置和尺寸。代表性特征矩形以及視頻 特征的矩形在其中的位置,隨后可在圖象的特定區(qū)域上在不同的時(shí)刻或者針對(duì) 不同的目的來(lái)進(jìn)行評(píng)估,包括作為檢測(cè)過(guò)程的一部分。
在代表性特征矩形610內(nèi),可改變關(guān)聯(lián)于視頻特征的形狀的位置和尺寸。 例如如所示的,關(guān)聯(lián)于特定視頻特征的父矩形620占據(jù)代表性特征矩形的左上角。除了父矩形620例示的特定位置和尺寸之外,父矩形(及其子矩形)可在 代表性特征矩形內(nèi)沿水平和垂直兩種方向上移動(dòng),每次定義一個(gè)新的視頻特 征。在一些實(shí)現(xiàn)中,父矩形的位置可用確保整個(gè)代表性特征矩形保證得到覆蓋 的方式改變多次。在同一或其它實(shí)現(xiàn)中,當(dāng)改變父矩形的位置時(shí),新的位置可 重疊先前定義的視頻特征的父矩形或者重疊己經(jīng)定義或者將要定義的視頻特 征的父矩形。 .
同樣,父矩形的尺寸也可修改以定義新的視頻特征。例如,在與父矩形
620相比時(shí),父矩形630、父矩形640和父矩形650示出對(duì)不同尺寸的使用。 在一些實(shí)例中,可以想象父矩形可放大直至它占據(jù)整個(gè)代表性特征矩形。
在一些實(shí)現(xiàn)中,使用左右對(duì)稱來(lái)模擬具有特定父矩形的視頻特征的存在是 有用的。也就是說(shuō),當(dāng)存在一個(gè)具有特定位置中的父矩形的視頻特征時(shí),定義 另一個(gè)具有作為第一視頻特征的父矩形的鏡像圖象的父矩形的視頻特征是有
用的。 一個(gè)發(fā)生這種情況的示例性情形由父矩形630和父矩形640例示。
在一些實(shí)現(xiàn)中,可生成應(yīng)用于包括先前參考圖1描述的圖象類型在內(nèi)的不 同圖象的多個(gè)視頻特征。例如,可生成一些視頻特征應(yīng)用于基圖象,同時(shí)其它 視頻特征應(yīng)用于短期差異圖象,以及還有一些其它的視頻特征應(yīng)用于長(zhǎng)期平均 圖象。
在改變包括關(guān)聯(lián)于視頻特征的矩形的位置、關(guān)聯(lián)于視頻特征的矩形的尺寸 和應(yīng)用視頻特征的圖象的各種因素以及為這些因素的任何和所有組合生成不 同視頻特征之后,具有作為如之前參考圖4所述的特征池410的特征池的一部 分的數(shù)千視頻特征并非不常見(jiàn)。在一些實(shí)現(xiàn)中,可在生成分類器過(guò)程期間從這 大量的視頻特征中選擇某個(gè)視頻特征集合。
重要的是再次注意圖5和圖6沒(méi)有示出所有可能的視頻特征。在許多實(shí)現(xiàn) 中,視頻特征將以聚合方式覆蓋一個(gè)或多個(gè)圖象的整體。圖5和圖6所示的視 頻特征僅用于演示如何定義一些視頻特征。
現(xiàn)在轉(zhuǎn)到圖7,其中示出一個(gè)示例性概圖,它示出其中可完成用于人或說(shuō) 話者檢測(cè)的分類器的生成的一個(gè)系統(tǒng)700。圖7的該描述是參考圖3、圖4和 圖10作出的。然而,應(yīng)當(dāng)理解參考圖7描述的元素不旨在限于與參考這些其 它附圖描述的元素一起使用。另外,盡管圖7的示例性圖指示了具體的元素,但在一些實(shí)現(xiàn)中不是所有這些元素都存在,并且在一些實(shí)現(xiàn)中可存在另外的元 素。
系統(tǒng)700可包括特征池710、訓(xùn)練輸入數(shù)據(jù)720、輸入數(shù)據(jù)的標(biāo)記730、 與學(xué)習(xí)算法745相關(guān)聯(lián)的訓(xùn)練模塊740和分類器755。
如上面在參考圖3描述的操作流中介紹的,給定特征池諸如特征池710, 有可能生成可用于實(shí)現(xiàn)人或說(shuō)話者檢測(cè)的分類器。圖7例示的系統(tǒng)演示可用于 生成這樣的分類器的一些機(jī)制。
示例性訓(xùn)練模塊740可使用特定的輸入來(lái)生成分類器諸如分類器755。訓(xùn) 練模塊可在一或多個(gè)計(jì)算設(shè)備中實(shí)現(xiàn),包括下面參考圖10描述的示例性計(jì)算 設(shè)備。
通常,訓(xùn)練模塊可與某種形式的學(xué)習(xí)算法相關(guān)聯(lián)。學(xué)習(xí)算法包括產(chǎn)生分類 器的自動(dòng)化過(guò)程。 一些學(xué)習(xí)算法通過(guò)接受特征池710、訓(xùn)練輸入數(shù)據(jù)720和輸 入數(shù)據(jù)的標(biāo)記730來(lái)產(chǎn)生分類器。特征池710可以是可量化包括訓(xùn)練輸入數(shù)據(jù) 720在內(nèi)的輸入數(shù)據(jù)的某個(gè)或某些元素的實(shí)體集合。在一些實(shí)現(xiàn)中,特征池可 包括如先前參考圖4和其它相關(guān)附圖討論的那些特征。訓(xùn)練輸入數(shù)據(jù)720通常 可由如一旦生成分類器就將向分類器給出的那些輸入數(shù)據(jù)組成。在一些實(shí)現(xiàn) 中,訓(xùn)練輸入數(shù)據(jù)可包括視頻幀組合,可從其檢索或計(jì)算得到圖象——如基圖 象、短期差異圖象和長(zhǎng)期平均圖象,以及音頻信息,可從其生成SSL似然函數(shù)。 輸入數(shù)據(jù)的標(biāo)記730 —般由理想的分類器在給定訓(xùn)練輸入數(shù)據(jù)時(shí)會(huì)產(chǎn)生的"正 確的"回答組成。例如,對(duì)于每個(gè)視頻幀和音頻輸入集合,輸入數(shù)據(jù)的標(biāo)記可 標(biāo)識(shí)視頻幀內(nèi)存在人或說(shuō)話者的特定區(qū)域。
給定特征池710、訓(xùn)練輸入數(shù)據(jù)720和輸入數(shù)據(jù)的標(biāo)記730,訓(xùn)練模塊740 可使用其相關(guān)聯(lián)的學(xué)習(xí)算法745來(lái)生成分類器。學(xué)習(xí)算法的操作取決于所使用 的特定學(xué)習(xí)算法而變化,這在本領(lǐng)域是周知的并且不必在本申請(qǐng)書(shū)中詳細(xì)地說(shuō) 明。例如,如果學(xué)習(xí)算法是Adaboost算法的形式,則學(xué)習(xí)算法的操作可包括 選擇一系列特征使得所得到的分類器的準(zhǔn)確性隨著Adaboost算法的進(jìn)行而提 高。如果學(xué)習(xí)算法是除Adaboost算法以外的算法,諸如例如祌經(jīng)網(wǎng),則學(xué)習(xí) 算法的操作可能不同。
訓(xùn)練模塊740和學(xué)習(xí)算法745的最終輸出包括當(dāng)在一個(gè)特定區(qū)域或檢測(cè)窗口上對(duì)其評(píng)估時(shí),返回對(duì)該特定區(qū)域包括人或說(shuō)話者的似然性的某種估計(jì)的分 類器。分類器本身一般可由已經(jīng)由訓(xùn)練模塊選擇的特征子集構(gòu)成。該所選特征 集合一般比未被選擇的特征能在某種程度上更準(zhǔn)確地執(zhí)行。在一些情形中,分 類器的元素,包括特征子集在內(nèi),被稱為"節(jié)點(diǎn)",其中例如每個(gè)所選特征與 分類器的單個(gè)節(jié)點(diǎn)相關(guān)聯(lián)。
分類器755中的不同特征可能需要不同量的計(jì)算時(shí)間用于在檢測(cè)期間進(jìn) 行評(píng)估或計(jì)算。例如, 一些特征——如至少在一些實(shí)現(xiàn)中的音頻特征——能夠 比其它特征——如至少在一些實(shí)現(xiàn)中的視頻特征更快速地評(píng)估或計(jì)算。因?yàn)樵u(píng) 估速度上的差異,在一些實(shí)現(xiàn)中在所生成的分類器中對(duì)特定特征定序使得將評(píng) 估需要較少時(shí)間的特征定序在評(píng)估需要較多時(shí)間的特征之前是有用的。
在分類器755中的部分所選特征與其它所選特征相比,可相對(duì)較好地完成 在檢測(cè)窗口中標(biāo)識(shí)人或說(shuō)話者的任務(wù)。例如,特定的音頻或視頻特征與某個(gè)其 它音頻或視頻特征相比,與人或說(shuō)話者的檢測(cè)更高度相關(guān)。在一些實(shí)現(xiàn)中,度 分類器的特征定序,使得與人檢測(cè)更高度相關(guān)的特征在相對(duì)較不準(zhǔn)確的特征之 前出現(xiàn)是有用的。
無(wú)論是否與評(píng)估的速度、準(zhǔn)確的程度或者某個(gè)其它屬性有關(guān),特定的特征 可使用各種機(jī)制定序在其它特征之前。在一些實(shí)現(xiàn)中,學(xué)習(xí)算法本身在生成分 類器時(shí)可考慮所需的或者較佳的屬性——包括評(píng)估的速度和準(zhǔn)確程度,這可能 通過(guò)與其它特征相比對(duì)這些特定或較佳的特征加更大的權(quán)來(lái)實(shí)現(xiàn),可導(dǎo)致特定 特征在所生成的分類器中往往較早出現(xiàn)。在相同或其它實(shí)現(xiàn)中,所生成的分類 器中的特征可在學(xué)習(xí)算法生成分類器之后重新定序或分揀。
一般而言,用于生成分類器755的訓(xùn)練輸入數(shù)據(jù)720越多,所得到的分類 器將越準(zhǔn)確。然而,產(chǎn)生訓(xùn)練輸入數(shù)據(jù)需要時(shí)間和精力——例如可能必須為每 個(gè)視頻幀生成輸入數(shù)據(jù)的標(biāo)記730形式的"正確"回答。 一種增加與產(chǎn)生全新 訓(xùn)練輸入數(shù)據(jù)相比可能需要相對(duì)較少工作的訓(xùn)練輸入數(shù)據(jù)量的方法是創(chuàng)建己 經(jīng)存在的訓(xùn)練輸入數(shù)據(jù)和輸入數(shù)據(jù)的標(biāo)記的鏡像圖象。例如,給定視頻幀和 SSL似然函數(shù),可創(chuàng)建作為原始視頻幀的鏡像圖象的新視頻幀并且還對(duì)SSL似 然函數(shù)和輸入數(shù)據(jù)的標(biāo)記形成鏡像。
在至少一些實(shí)現(xiàn)中可選擇一些特征,至少部分地使得在許多情形中"假陽(yáng)
21性"與另一個(gè)人相關(guān)聯(lián)而不與非人的對(duì)象或?qū)嶓w相關(guān)聯(lián)。也就是說(shuō),在沒(méi)有檢 測(cè)到期望的人或說(shuō)話者的情形中,可選擇特征使得在許多情形中檢測(cè)到另一個(gè) 人而不是某個(gè)非人的對(duì)象或?qū)嶓w。例如,可選擇視頻特征,使得在許多情形中 當(dāng)未檢測(cè)到說(shuō)話者時(shí)檢測(cè)到不在說(shuō)話的人。
現(xiàn)在轉(zhuǎn)到圖8,其中所示的是示例性概圖,它示出其中可完成人或說(shuō)話者
的檢測(cè)的一個(gè)系統(tǒng)800。圖8的該描述是參考圖1、圖3、圖7、圖9和圖10 作出的。然而,應(yīng)當(dāng)理解參考圖8描述的元素不旨在限于與參考這些其它附圖 描述的元素一起使用。另外,盡管圖8的示例性圖指示了具體的元素,但在一 些實(shí)現(xiàn)中不是所有這些元素都存在,并且在一些實(shí)現(xiàn)中可存在另外的元素。
系統(tǒng)800可包括輸入數(shù)據(jù)810、關(guān)聯(lián)于分類器855的檢測(cè)器模塊840和檢 測(cè)結(jié)果865。
如以上在參考圖3描述的操作流中介紹的,給定分類器855,包括如圖7 的所生成的分類器755的分類器,可能在檢測(cè)器模塊840中實(shí)現(xiàn)的檢測(cè)器可檢 查輸入數(shù)據(jù)810并使用分類器來(lái)產(chǎn)生檢測(cè)結(jié)果865。圖8例示的系統(tǒng)演示可使 用這樣的分類器來(lái)檢測(cè)人或說(shuō)話者的某些機(jī)制。檢測(cè)器模塊可在一或多個(gè)計(jì)算 設(shè)備中實(shí)現(xiàn),包括先前參考圖1描述的檢測(cè)器設(shè)備165和在下面參考圖10描 述的示例性計(jì)算設(shè)備。
輸入數(shù)據(jù)810可包括多種多樣的輸入數(shù)據(jù)。在一些實(shí)現(xiàn)中輸入數(shù)據(jù)可包括 如先前例如參考圖1描述的輸入數(shù)據(jù),包括一系列視頻幀,從其可確定一系列 基圖象、短期差異圖象和長(zhǎng)期平均圖象。輸入數(shù)據(jù)還可包括如與一或多個(gè)視頻 幀相關(guān)聯(lián)的一系列SSL似然函數(shù)的音頻數(shù)據(jù)。輸入數(shù)據(jù)還可包括其它類型的數(shù) 據(jù),包括先前例如參考圖1描述的那些。
檢測(cè)器模塊840隨后可使用分類器855來(lái)確定輸入視頻數(shù)據(jù)中的區(qū)域可包 括人或說(shuō)話者。在一些實(shí)現(xiàn)中這可通過(guò)將至少一部分輸入數(shù)據(jù)細(xì)分成一系列稱 為檢測(cè)窗口的較小區(qū)域來(lái)完成。檢測(cè)窗口可用各種方法來(lái)定義,包括在下面參 考圖9更詳細(xì)地討論的一些方法。
對(duì)于每個(gè)檢測(cè)窗口,檢測(cè)器模塊840可針對(duì)該檢測(cè)窗口的輸入數(shù)據(jù)評(píng)估分 類器855。分類器的評(píng)估通常可產(chǎn)生對(duì)人或說(shuō)話者存在于特定檢測(cè)窗口中的似 然性的某種估計(jì)。在至少一些實(shí)現(xiàn)中,該似然性估計(jì)可以是檢測(cè)結(jié)果865的一
22部分。
一旦已經(jīng)評(píng)估了某個(gè)數(shù)量或者全部的檢測(cè)窗口,在一些實(shí)現(xiàn)中即可進(jìn)行合 并操作以確定輸入數(shù)據(jù)中特別有可能包含人或說(shuō)話者的特定區(qū)域。這在一些實(shí) 現(xiàn)中可通過(guò)挑選具有相對(duì)大數(shù)量的檢測(cè)窗口進(jìn)而具有包含人或說(shuō)話者的高似 然性的區(qū)域來(lái)完成。這些所標(biāo)識(shí)的區(qū)域在至少一些實(shí)現(xiàn)中也可以是檢測(cè)結(jié)果 865的一部分。
在一些實(shí)現(xiàn)中,可在完全確定特定檢測(cè)窗口包含人或說(shuō)話者的似然性之前 評(píng)估分類器的所有元素或者節(jié)點(diǎn)。在一些實(shí)現(xiàn)中有可能使用稱為"修剪"的技 術(shù)方法來(lái)縮短為一些檢測(cè)窗口評(píng)估分類器所需的時(shí)間。
當(dāng)使用修剪時(shí),分類器的評(píng)估可在分類器中的所有節(jié)點(diǎn)得到評(píng)估之前停 止。例如如果可以確定已經(jīng)計(jì)算出的結(jié)果提供特定檢測(cè)窗口包含或者不包含人 或說(shuō)話者的某種水平的確定性,則可停止分類器的評(píng)估。例如,可以知道,例 如分類器中的前四個(gè)節(jié)點(diǎn)全部評(píng)估為特定結(jié)果,檢測(cè)窗口總是包含人(至少對(duì) 于用于訓(xùn)練分類器的數(shù)據(jù)而言)。在該實(shí)例中,在檢測(cè)過(guò)程期間分類器的評(píng)估 可在所有節(jié)點(diǎn)已經(jīng)得到評(píng)估之前停止,并且可將檢測(cè)窗口確定為包含人或說(shuō)話 者。
在一些實(shí)現(xiàn)中,輸入數(shù)據(jù)的特定子區(qū)域可排除在考慮進(jìn)行人或說(shuō)話者檢測(cè) 的區(qū)域之外。例如, 一個(gè)房間可能有電視或投影儀屏幕,在一些情形中它可顯 示的人或說(shuō)話者,這不應(yīng)當(dāng)由檢測(cè)器標(biāo)識(shí)為人或說(shuō)話者。在這個(gè)示例性情形中, 輸入數(shù)據(jù)中關(guān)聯(lián)于電視或投影儀屏幕的子區(qū)域可排除在考慮進(jìn)行人或說(shuō)話者 檢測(cè)的區(qū)域之外。這可用各種方法來(lái)完成,包括例如通過(guò)不定義涵蓋要排除的 子區(qū)域的檢測(cè)窗口。
現(xiàn)在在轉(zhuǎn)到圖9,其中示出可用作檢測(cè)人或說(shuō)話者的過(guò)程的一部分的檢測(cè)
窗口的一些示例性表示。圖9的該描述是參考圖6作出的并且與為圖8提供的 討論有關(guān)。然而,應(yīng)當(dāng)理解參考圖9描述的元素不旨在限于與參考這些其它附 圖描述的元素一起使用。另外,盡管圖9的示例性圖指示了具體的元素,但在 一些實(shí)現(xiàn)中不是所有這些元素都存在,并且在一些實(shí)現(xiàn)中可存在另外的元素。 在一些實(shí)現(xiàn)中,如視頻幀或者從視頻幀導(dǎo)出的一或多個(gè)圖象的輸入數(shù)據(jù)可 細(xì)分成用作檢測(cè)人或說(shuō)話者的過(guò)程的一部分的多個(gè)檢測(cè)窗口。
23如圖9所示,示例性圖象905可包含多個(gè)示例性檢測(cè)窗口,包括檢測(cè)窗口
910、檢測(cè)窗口 920、檢測(cè)窗口 930、檢測(cè)窗口 940和檢測(cè)窗口 950。每個(gè)檢測(cè) 窗口占據(jù)圖象的某個(gè)部分。重要的是注意,沒(méi)有示出可能存在于圖象905中的 所有檢測(cè)窗口。在許多實(shí)現(xiàn)中,檢測(cè)窗口將以聚合方式覆蓋整個(gè)圖象。圖9所 示的檢測(cè)窗口僅用于演示如何定義檢測(cè)窗口。此外,盡管檢測(cè)窗口示為矩形, 但檢測(cè)窗口可以用任何形狀來(lái)定義。而且,盡管檢測(cè)窗口是參考"圖象"來(lái)描 述的,但檢測(cè)窗口也可應(yīng)用于非視覺(jué)輸入,包括如先前己經(jīng)描述的音頻輸入。 例如,關(guān)聯(lián)于音頻輸入的SSL似然函數(shù)的檢測(cè)窗口可包括SSL似然函數(shù)的某 個(gè)子集。
示例性檢測(cè)窗口 910占據(jù)圖象905的左上角。示例性檢測(cè)窗口 920和示例 性檢測(cè)窗口 930示出檢測(cè)窗口可延伸以覆蓋圖象的更多區(qū)域的一種方式。盡管 未示出,檢測(cè)窗口可定義為在由箭頭960表示的方向上繼續(xù)。這樣的檢測(cè)窗口 可覆蓋圖象的整個(gè)上部。
同樣,示例性檢測(cè)窗口 940示出檢測(cè)窗口如何垂直延伸以覆蓋圖象的附加 區(qū)域。箭頭970例示這樣的檢測(cè)窗口可繼續(xù)的一個(gè)方向,以覆蓋圖象的整個(gè)左 部。
通過(guò)向右延伸示例性檢測(cè)窗口 940,使得在示例性檢測(cè)窗口 920、示例性 檢測(cè)窗口 930之下、且在箭頭960所示方向上存在檢測(cè)窗口,例示定義檢測(cè)窗 口使得它們覆蓋整個(gè)圖象905的一種方法。
檢測(cè)窗口可任意程度地重疊。例如如所示的,檢測(cè)窗口 920的一半與檢測(cè) 窗口910重疊。除了所示的重疊,在表示360°視圖的全景圖象中,檢測(cè)窗口 也可重疊圖象905的端部。例如,未示出的檢測(cè)窗口可占據(jù)圖象的最右邊和圖 象的最左邊。
在一些實(shí)現(xiàn)中,可使用各種尺寸的檢測(cè)窗口。例如,檢測(cè)窗口 950大于檢 測(cè)窗口910。在一些實(shí)現(xiàn)中可使用許多不同尺寸的檢測(cè)窗口。例如在一個(gè)實(shí)現(xiàn) 中,可使用10種不同尺寸的檢測(cè)窗口。每個(gè)相同尺寸的檢測(cè)窗口的集合可被 延伸以覆蓋整個(gè)圖象905,例如使用如先前參考檢測(cè)窗口 910和其它具有與檢 測(cè)窗口 910相同尺寸的檢測(cè)窗口說(shuō)明的同一過(guò)程。
一些視頻特征可使用如先前參考圖6討論的代表性特征矩形。在檢測(cè)過(guò)程期間,可縮放代表性特征矩形以適合檢測(cè)窗口,并且可在同時(shí)成比例縮放關(guān)聯(lián) 于代表性特征矩形的任何視頻特征。例如,假設(shè)一個(gè)尺寸為50像素寬乘50像 素高的示例性代表性特征矩形,包含許多視頻特征,其中一個(gè)視頻特征具有尺 寸為10像素寬乘20像素高的矩形。如果這個(gè)代表性特征矩形與相同尺寸的檢 測(cè)窗口一起使用,則該視頻特征的矩形也可保持相同尺寸。如果該代表性特征
矩形與一個(gè)四倍尺寸的檢測(cè)窗口——例如與尺寸為IOO像素寬乘IOO像素高的
檢測(cè)窗口一一起使用,則代表性特征矩形及其相關(guān)聯(lián)的視頻特征矩形也可縮
放以適合該較大的檢測(cè)窗口。在該示例中,視頻特征的矩形可縮放至尺寸為20 像素寬乘40像素高。
在一些實(shí)現(xiàn)中,使用檢測(cè)器的空間或房間的尺寸和/或方向可能影響在檢 測(cè)過(guò)程中使用的檢測(cè)窗口的尺寸。例如,在小房間中,關(guān)聯(lián)于人或說(shuō)話者的物 理特征——如臉或軀干——與關(guān)聯(lián)于大房間中的人或說(shuō)話者的物理特征相比, 在從一或多個(gè)輸入設(shè)備的角度來(lái)看往往很大,或者在尺寸上變化的程度較小。 發(fā)生這種情況是因?yàn)樵谛》块g中,人或說(shuō)話者離一或多個(gè)輸入設(shè)備的距離相對(duì) 較小一一例如可能導(dǎo)致較大的臉一一而在較大房間中的人或說(shuō)話者可能離一
或多個(gè)輸入設(shè)備或近或遠(yuǎn),并且因此相關(guān)聯(lián)的物理特征的尺寸可在較大程度上 變化。因此,在一些實(shí)現(xiàn)中,可使用這樣的檢測(cè)窗口,使得例如在小房間中檢 測(cè)窗口可限于較大的尺寸,并且可能在尺寸上的范圍變化相對(duì)較少。相反,在 較大房間中,檢測(cè)窗口的范圍可從小到大以便嘗試捕捉物理特征在尺寸方面的 較大變化。
示例的計(jì)算環(huán)境
現(xiàn)在轉(zhuǎn)到圖10,該圖和相關(guān)的討論旨在提供對(duì)其中可實(shí)現(xiàn)本文描述的各 種技術(shù)的示例性計(jì)算環(huán)境的簡(jiǎn)要概括的描述。盡管不是必需的,本文至少部分 地在由諸如圖IO所示的計(jì)算設(shè)備1000的控制器、處理器、個(gè)人計(jì)算機(jī)或其它 計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)可執(zhí)行指令諸如程序模塊的一般上下文中描述這些技 術(shù)。
一般而言,程序模塊包括例程、程序、對(duì)象、組件、用戶界面、數(shù)據(jù)結(jié)構(gòu) 等,它們執(zhí)行特定的任務(wù)、顯示特定的信息或者實(shí)現(xiàn)特定的抽象數(shù)據(jù)類型。由程序模塊執(zhí)行的操作先前已經(jīng)在一或多個(gè)框圖和操作流程圖的幫助下進(jìn)行了 描述。
本領(lǐng)域的技術(shù)人員可以以計(jì)算機(jī)可執(zhí)行指令的形式實(shí)現(xiàn)這些描述、框圖和 流程圖,這些計(jì)算機(jī)可執(zhí)行指令可體現(xiàn)為一或多種計(jì)算機(jī)可讀介質(zhì)的形式。如 本文所使用的,計(jì)算機(jī)可讀指令可以是能存儲(chǔ)或具體化以計(jì)算機(jī)可訪問(wèn)和理解 的形式編碼的信息的任何介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的典型形式非限制性地包括易 失性和非易失性存儲(chǔ)器、數(shù)據(jù)存儲(chǔ)設(shè)備,包括可移動(dòng)和/或不可移動(dòng)介質(zhì),以及 通信介質(zhì)。
通信介質(zhì)以已調(diào)制數(shù)據(jù)信號(hào)如載波或其它傳輸機(jī)制具體化計(jì)算機(jī)可讀信 息,并且包括任何信息傳遞介質(zhì)。術(shù)語(yǔ)"已調(diào)制數(shù)據(jù)信號(hào)"指以將信息編碼到 信號(hào)中的方式設(shè)置或改變其一或多個(gè)特性的信號(hào)。作為示例而非限制,通信介
質(zhì)包括有線介質(zhì)如有線網(wǎng)絡(luò)或直接線連接以及無(wú)線介質(zhì)如聲音、RF、紅外和其 它無(wú)線介質(zhì)。
圖10所示的計(jì)算設(shè)備1000在其最基本的配置中包括至少一個(gè)處理單元 1002和存儲(chǔ)器1004。在一些實(shí)現(xiàn)中,處理單元1002可以是如存在于例如包括 臺(tái)式和膝上型計(jì)算機(jī)在內(nèi)的各種計(jì)算機(jī)上的通用中央處理單元(CPU)。在其 它實(shí)現(xiàn)中,處理單元也可以是數(shù)字信號(hào)處理器(DSP),它特別適合數(shù)字信號(hào) 處理任務(wù),包括例如由如先前參考圖1描述的檢測(cè)器設(shè)備165的檢測(cè)器設(shè)備所 執(zhí)行的那些任務(wù)。取決于計(jì)算設(shè)備的精確配置和類型,存儲(chǔ)器1004可以是易 失性(如RAM)、非易失性(諸如ROM、閃存等)或兩者的某種組合。該最 基本的配置在圖IO中由虛線1006例示。另外,計(jì)算設(shè)備100還可具有附加的 特征和功能。例如,計(jì)算設(shè)備1000還可包括附加的存儲(chǔ)(可移動(dòng)和/或不可移 動(dòng)),包括但不限于磁或光盤或帶。這樣的附加存儲(chǔ)在圖10中由可移動(dòng)存儲(chǔ) 1008和不可移動(dòng)存儲(chǔ)1010例示。
計(jì)算設(shè)備1000還可包含一或多個(gè)通信連接1012,它(們)允許計(jì)算設(shè)備 1000與其它設(shè)備和服務(wù)通信。例如,計(jì)算設(shè)備可具有至包括例如先前參考圖1 描述的輔助設(shè)備175在內(nèi)的其它計(jì)算設(shè)備的一或多個(gè)連接。計(jì)算設(shè)備1000還 可具有一或多個(gè)輸入設(shè)備1014,諸如如相機(jī)或掃描儀的圖象輸入設(shè)備、鍵盤、 鼠標(biāo)、筆、包括話筒陣列在內(nèi)的語(yǔ)音輸入設(shè)備、觸摸輸入設(shè)備等等。諸如顯示器、揚(yáng)聲器、打印機(jī)等等的一或多個(gè)輸出設(shè)備1016也可包括在計(jì)算設(shè)備1000 中。
本領(lǐng)域的技術(shù)人員將了解,本文描述的技術(shù)可由除圖io例示的計(jì)算設(shè)備 IOOO之外的計(jì)算設(shè)備來(lái)實(shí)踐。例如且非限制性地,本文描述的技術(shù)同樣可在包 括移動(dòng)電話和PDA在內(nèi)的手持式設(shè)備、多處理器系統(tǒng)、基于微處理器或可編 程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型機(jī)、大型機(jī)等等中實(shí)踐。這些計(jì)算設(shè)備每一 個(gè)可由圖IO的系統(tǒng)以某種詳細(xì)級(jí)別來(lái)描述,或者可不同地描述。
本文描述的技術(shù)還可在分布式計(jì)算環(huán)境中實(shí)現(xiàn),其中操作是由通過(guò)通信網(wǎng) 絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的。在分布式計(jì)算環(huán)境中,程序模塊可位于本地或 遠(yuǎn)程設(shè)備兩者中。
盡管本文所描述的技術(shù)是用軟件實(shí)現(xiàn)的,但還可了解,本文描述的技術(shù)或 者可全部或者部分地實(shí)現(xiàn)為硬件、固件或者軟件、硬件和/或固件的各種組合。
盡管已經(jīng)在附圖中例示和在上述文本中描述了方法和系統(tǒng)的一些特定實(shí) 現(xiàn),但將理解,所示和所述的方法和系統(tǒng)不限于所述的特定實(shí)現(xiàn),而可以是在 不脫離由所附權(quán)利要求書(shū)闡述和定義的精神的情況下進(jìn)行眾多重置、修改和代 替。 '
權(quán)利要求
1. 一種方法包括標(biāo)識(shí)包括至少一個(gè)來(lái)自第一類型的輸入的特征以及至少一個(gè)來(lái)自第二類型的輸入的特征的特征池(310),其中所述第二類型輸入不同于所述第一類型輸入;以及使用學(xué)習(xí)算法生成用于說(shuō)話者檢測(cè)的分類器(315),其中所述分類器的節(jié)點(diǎn)是使用所述特征池來(lái)選擇的。
2. 如權(quán)利要求1所述的方法,其特征在于,還包括評(píng)估檢測(cè)人的所述分類器(320)。
3. 如權(quán)利要求2所述的方法,其特征在于,所述至少一個(gè)來(lái)自第一類型的 輸入的特征或者所述至少一個(gè)來(lái)自第二類型的輸入的特征中的至少一個(gè)操作, 使得假陽(yáng)性結(jié)果與所述之人不同的第二人相關(guān)聯(lián)。
4. 如權(quán)利要求1所述的方法,其特征在于,還包括 在所述生成步驟(315)之后對(duì)所述分類器的所述節(jié)點(diǎn)分揀,使得較佳特征在所述分類器中位于較不佳特征之前。
5. 如權(quán)利要求4所述的方法,其特征在于,所述較佳特征與所述較不佳特 征相比要求較少的計(jì)算。
6. 如權(quán)利要求4所述的方法,其特征在于,與所述較不佳特征相比,所述 較佳特征與說(shuō)話者檢測(cè)更高度相關(guān)。
7. 如權(quán)利要求1所述的方法,其特征在于,所述生成步驟(315)還包括, 與較不佳特征相比,對(duì)較佳特征加更高的權(quán),使得所述較佳特征在所述分類器 中位于所述較不佳特征之前。
8. 如權(quán)利要求1所述的方法,其特征在于,所述第一類型輸入或者所述第 二類型輸入包括音頻輸入(120),所述特征池包括關(guān)聯(lián)于聲源定位輸入的音 頻特征(420)。
9. 如權(quán)利要求8所述的方法,其特征在于,所述音頻特征(420)與從下 列函數(shù)中選擇的函數(shù)相關(guān)聯(lián)<formula>formula see original document page 3</formula>
10. 如權(quán)利要求1所述的方法,其特征在于,所述第一類型輸入或者所述 第二類型輸入包括視頻輸入(110),所述特征池包括由矩形定義的視頻特征(430)。
11. 如權(quán)利要求1所述的方法,其特征在于,所述學(xué)習(xí)算法(745)包括 AdaBoost算法。
12. —種方法包括接受包括第一類型的輸入數(shù)據(jù)和不同于所述第一類型的輸入數(shù)據(jù)的第二類型的輸入數(shù)據(jù)的輸入數(shù)據(jù)(810);以及評(píng)估人檢測(cè)分類器(855)以檢測(cè)人,其中所述分類器已經(jīng)通過(guò)以下步驟 創(chuàng)建標(biāo)識(shí)包括至少一個(gè)關(guān)聯(lián)于所述第一類型的輸入數(shù)據(jù)的特征和至少一個(gè)關(guān) 聯(lián)于所述第二類型的輸入數(shù)據(jù)的特征的特征池(310);以及通過(guò)使用所述特征池選擇所述分類器的節(jié)點(diǎn),使用學(xué)習(xí)算法生成所述分類器c
13. 如權(quán)利要求12所述的方法,其特征在于,所述之人是說(shuō)話者。
14. 如權(quán)利要求12所述的方法,其特征在于,所述分類器是還通過(guò)在所述 生成步驟之后對(duì)所述分類器的節(jié)點(diǎn)進(jìn)行分揀使得較佳特征在所述分類器中位 于較不佳特征之前來(lái)創(chuàng)建的。
15. 如權(quán)利要求14所述的方法,其特征在于,與所述較不佳特征相比,所 述較佳特征要求較少的計(jì)算。
16. 如權(quán)利要求14所述的方法,其特征在于,與所述較不佳特征相比,所 述較佳特征與人檢測(cè)更高度相關(guān)。
17. 如權(quán)利要求12所述的方法,其特征在于,所述生成步驟還包括,與較 不佳特征相比,對(duì)較佳特征加更高的權(quán),使得所述較佳特征在所述分類器中位 于所述較不佳特征之前。
18. —種系統(tǒng)包括產(chǎn)生視頻數(shù)據(jù)(140)的視頻輸入設(shè)備(110); 產(chǎn)生音頻數(shù)據(jù)(150)的音頻輸入設(shè)備(120);以及包括檢測(cè)器(170)的檢測(cè)器設(shè)備(165),所述檢測(cè)器(170)被配置為 接受所述視頻數(shù)據(jù)和所述音頻數(shù)據(jù)并且評(píng)估人檢測(cè)分類器以檢測(cè)人,其中所述 分類器已經(jīng)通過(guò)以下步驟創(chuàng)建-標(biāo)識(shí)包括至少一個(gè)關(guān)聯(lián)于所述視頻數(shù)據(jù)的特征和至少一個(gè)關(guān)聯(lián)于所述音 頻數(shù)據(jù)的特征的特征池(310);以及通過(guò)使用所述特征池選擇所述分類器的節(jié)點(diǎn),使用學(xué)習(xí)算法生成所述分類器o
19. 如權(quán)利要求18所述的系統(tǒng),其特征在于,還包括輔助設(shè)備(175),為至少一部分所述視頻數(shù)據(jù)或者至少一部分所述音頻 數(shù)據(jù)提供存儲(chǔ)。
20. 如權(quán)利要求18所述的系統(tǒng),其特征在于,所述音頻數(shù)據(jù)包括聲源定位 數(shù)據(jù),以及所述特征池包括關(guān)聯(lián)于從下列函數(shù)中選擇的函數(shù)的音頻特征(420):<formula>formula see original document page 4</formula>
全文摘要
公開(kāi)了以自動(dòng)化方式檢測(cè)人或說(shuō)話者的系統(tǒng)和方法??蓸?biāo)識(shí)包括多于一種類型的輸入(如音頻輸入和視頻輸入)的特征池,該特征池可與學(xué)習(xí)算法一起使用來(lái)生成標(biāo)識(shí)人或說(shuō)話者的分類器。可評(píng)估所得到的分類器以檢測(cè)人或說(shuō)話者。
文檔編號(hào)G01L17/00GK101473207SQ200780022873
公開(kāi)日2009年7月1日 申請(qǐng)日期2007年2月13日 優(yōu)先權(quán)日2006年6月22日
發(fā)明者C·張, P·A·沃拉, P·尹, R·G·柯特勒, X·孫, Y·瑞 申請(qǐng)人:微軟公司