專利名稱:信息處理裝置、信息處理方法和程序的制作方法
技術領域:
本公開內容涉及信息處理裝置、信息處理方法和程序,更具體地涉及如下信息處理裝置、信息處理方法和程序其通過輸入來自外界的諸如圖像、語音等信息的輸入信息來基于輸入信息分析外部環(huán)境,并且具體分析說話人的位置、誰正在說話等。
背景技術:
進行在諸如個人、PC(個人計算機)和機器人的信息處理裝置之間的交互處理(例如通信處理或者交互處理)的系統(tǒng)被稱為人機交互系統(tǒng)。在人機交互系統(tǒng)中,諸如PC、機器人等信息處理裝置通過輸入圖像信息或者語音信息來基于輸入信息進行分析以識別人類動作,比如人類行為或者言語。在個人發(fā)送信息的情況下,使用用于手勢、注視、面部表情等以及言語的各種渠道作為信息發(fā)送渠道。當能夠在機器中分析這些渠道時,即使在人與機器之間的交流也可以達到與人之間的交流水平相同的水平。能夠分析來自這些多渠道(也稱為形態(tài)或模態(tài))的輸入信息的接口被稱為多形態(tài)接口,并且已經(jīng)廣泛進行針對接口的開發(fā)和研究。例如當通過輸入由相機捕獲的圖像信息和由麥克風獲得的聲音信息來進行分析時,為了更具體進行分析,從布置在各點的多個相機和多個麥克風輸入大量信息是有效的。作為具體系統(tǒng),例如假設以下系統(tǒng)。信息處理裝置(電視機)經(jīng)由相機和麥克風輸入電視機前面的用戶(父親、母親、姐姐和弟弟)的圖像和語音,并且分析各用戶的位置、 哪個用戶說話等,從而可以實現(xiàn)如下系統(tǒng),該系統(tǒng)能夠進行根據(jù)分析信息的處理,如關于已經(jīng)說話的用戶的相機推近,關于已經(jīng)說話的用戶進行適當?shù)捻憫?。作為公開現(xiàn)有人機交互系統(tǒng)的有關領域,例如給出公開號為2009-31951的日本待審專利申請和公開號為2009-140366的日本待審專利申請。在這一有關領域中進行如下處理,在該處理中以概率方式統(tǒng)合來自多渠道(形態(tài))的信息,并且關于多個用戶中的各用戶確定多個用戶中的各用戶的位置、多個用戶是誰以及誰發(fā)出信號(也就是誰說話)。例如當確定誰發(fā)出信號時,設置與多個用戶對應的虛擬目標(tID = 1至m),并且根據(jù)由相機捕獲的圖像數(shù)據(jù)或者由麥克風獲得的聲音信息的分析結果來計算各目標為說話源的概率。具體而言,例如進行以下處理。(a)經(jīng)由麥克風獲得的聲音事件的聲源方向信息、根據(jù)說話者識別(ID)信息可獲得的用戶位置信息和僅根據(jù)用戶ID信息可獲得的目標tID的說話源概率P(tID)。(b)基于經(jīng)由相機可獲得的圖像通過面部識別過程可獲得的面部屬性得分 [S(tID)]的面積 S,t(tID)。其中計算(a)和(b),從而使用α作為預設分配權值系數(shù)基于權值α通過加法或者乘法來計算各目標(tID = 1至m)的說話者概率I3S (tID)或Pp(tlD)。此外,例如在公開號為2009-140366的日本待審專利申請中描述了這一處理的細節(jié)。
在上述有關領域中的說話者概率計算處理中有必要如上文所述預先調節(jié)權值系數(shù)α。預先調節(jié)權值系數(shù)令人厭煩,并且當權值系數(shù)未調節(jié)成適當數(shù)值時,有極大地影響說話者概率計算結果的有效性本身這樣的問題。
發(fā)明內容
本公開內容是為了解決上述問題,并且希望提供可以進行如下處理的信息處理裝置、信息處理方法和程序,從而可以改進魯棒性并且可以進行高度準確的分析在用于對來自多個渠道(形態(tài)或模態(tài))的輸入信息進行分析、更具體地進行關于周圍中的人的例如位置等的特定處理的系統(tǒng)中,通過關于在諸如圖像信息、聲音信息等各種輸入信息中包括的不確定信息進行隨機處理來統(tǒng)合為更準確估計的信息。本公開內容用于解決上述問題,并且希望提供如下信息處理裝置、信息處理方法和程序可以在計算說話源概率時,針對來自輸入事件信息內的與用戶的說話對應的語音事件信息使用識別器,從而不必預先調節(jié)上述權值系數(shù)。根據(jù)本公開內容的實施例,提供一種信息處理裝置,該信息處理裝置包括多個信息輸入單元,輸入實際空間的觀察信息;事件檢測單元,基于對從信息輸入單元輸入的信息的分析來生成存在于實際空間中的用戶的包括估計位置信息和估計識別(ID)信息的事件信息;以及信息統(tǒng)合處理單元,輸入事件信息并且基于輸入的事件信息生成各用戶的包括位置信息和用戶ID信息的目標信息,且生成代表針對事件生成源的概率值的信號信息。這里,信息統(tǒng)合處理單元可以包括具有識別器的說話源概率計算單元,并且使用說話源概率計算單元中的識別器基于輸入信息來計算說話源概率。此外,根據(jù)本公開內容的信息處理裝置的該實施例,識別器可以輸入與說話事件對應的(a)用戶位置信息(聲源方向信息)和(b)用戶ID信息(說話者ID信息),作為來自構成事件檢測單元的語音事件檢測單元的輸入信息、還輸入(a)用戶位置信息(面部位置信息)、(b)用戶ID信息(面部ID信息)和(c)嘴唇動作信息,作為基于來自構成事件檢測單元的圖像事件檢測單元的輸入信息而生成的目標信息,并且進行通過應用至少一個輸入信息基于輸入信息來計算說話源概率的過程。此外,根據(jù)本公開內容的信息處理裝置的一個實施例,識別器可以進行如下處理 基于從預設目標選擇的兩個目標的目標信息之間的比較來識別兩個目標的目標信息中的哪個為說話源。此外,根據(jù)本公開內容的信息處理裝置的該實施例,識別器可以在關于識別器對在輸入信息中包括的多個目標的目標信息的比較過程中計算在目標信息中包括的各信息的對數(shù)似然度比,并且進行根據(jù)計算的對數(shù)似然度比計算代表說話源概率的說話源得分的處理。此外,根據(jù)本公開內容的信息處理裝置的該實施例,識別器可以使用用作關于識別器的輸入信息的聲源方向信息(D)、說話者ID信息(S)和嘴唇動作信息(L)來計算諸如 Iog(D1ZD2) Uog(S1ZiS2)和Iog(L1Zl2)的三種對數(shù)似然度比中的至少任何對數(shù)似然度比作為兩個目標1和2的對數(shù)似然度比,從而將說話源得分計算為目標1和2的說話源概率。此外,根據(jù)本公開內容的信息處理裝置的該實施例,信息統(tǒng)合處理單元可以包括 目標信息更新單元,進行其中應用多個粒子的粒子過濾處理并且生成分析信息,多個粒子基于來自構成事件檢測單元的圖像事件檢測單元的輸入信息設置與虛擬用戶對應的多個目標數(shù)據(jù),分析信息包括存在于實際空間中的用戶的位置信息。這里,目標信息更新單元可以通過將粒子設置的各目標數(shù)據(jù)的分組與從事件檢測單元輸入的各事件關聯(lián)來進行設置、 根據(jù)輸入的事件識別符進行對從各粒子選擇的事件對應目標數(shù)據(jù)的更新,并且生成包括 (a)用戶位置信息、(b)用戶ID信息和(C)嘴唇動作信息的目標信息,從而向說話源概率計算單元輸出生成的目標信息。此外,根據(jù)本公開內容的信息處理裝置的該實施例,目標信息更新單元可以通過將目標與在事件檢測單元中檢測到的面部圖像單位的各事件關聯(lián)來進行處理。此外,根據(jù)本公開內容的信息處理裝置的該實施例,目標信息更新單元可以通過進行粒子過濾過程來生成存在于實際空間中的用戶的包括用戶位置信息和用戶ID信息的分析信息。根據(jù)本公開內容的另一實施例,提供一種用于在信息處理裝置中進行信息分析處理的信息處理方法,該方法包括多個信息輸入單元輸入實際空間的觀察信息;檢測事件檢測單元基于對從信息輸入單元輸入的信息的分析對包括存在于實際空間中的用戶的估計位置信息和估計ID信息的事件信息的生成;并且信息統(tǒng)合處理單元輸入事件信息,并基于輸入的事件信息生成各用戶的包括位置信息和用戶ID信息的目標信息以及代表針對事件生成源的概率值的信號信息。這里,在輸入事件信息以及生成目標信息和信號信息時,當生成代表事件生成源的概率的信號信息時可以使用識別器來進行說話源概率計算處理,該識別器用于基于輸入信息計算說話源概率。根據(jù)本發(fā)明的又一實施例,提供一種用于在信息處理裝置中進行信息分析處理的程序,該程序包括多個信息輸入單元輸入實際空間的觀察信息;檢測事件檢測單元基于對從信息輸入單元輸入的信息的分析對包括存在于實際空間中的用戶的估計位置信息和估計ID信息的事件信息的生成;并且信息統(tǒng)合處理單元輸入事件信息,并基于輸入的事件信息生成各用戶的包括位置信息和用戶ID信息的目標信息并且生成代表針對事件生成源的概率值的信號信息。這里,在輸入事件信息以及生成目標信息和信號信息時,當生成代表事件生成源的概率的信號信息時可以使用識別器來進行說話源概率計算處理,該識別器用于基于輸入信息計算說話源概率。此外,本公開內容的程序可以是由存儲介質和通信介質可以關于能執(zhí)行各種程序代碼的信息處理裝置或者計算機系統(tǒng)以計算機可讀格式提供的程序。通過以計算機可讀格式提供該程序,可以在信息處理裝置或者計算機系統(tǒng)中實現(xiàn)根據(jù)該程序的處理。本公開內容的其它目的、特征和優(yōu)點將基于下述本公開實施例和附圖從更具體的描述中變得明顯。另外,在本說明書全文中的系統(tǒng)由多個設備的邏輯組裝組成,并且各種配置的設備并不限于存在于相同外殼內。根據(jù)本公開內容的實施例的配置,實現(xiàn)如下配置,該配置基于不確定和異步輸入信息通過信息分析來生成用戶位置、識別(ID)信息、說話者信息等。本公開內容的信息處理裝置可以包括信息統(tǒng)合處理單元,基于圖像信息或者語音信息輸入用戶的包括估計位置和估計ID數(shù)據(jù)的事件信息,并基于輸入的事件信息生成各用戶的包括位置信息和用戶 ID信息的目標信息和代表針對事件生成源的概率值的信號信息。這里,信息統(tǒng)合處理單元包括具有識別器的說話源概率計算單元,并且使用說話源概率計算單元中的識別器基于輸
6入信息來計算說話源概率。例如,識別器計算例如用戶位置信息、用戶ID信息和嘴唇動作信息的對數(shù)似然度比,從而生成代表針對事件生成源的概率值的信號信息,其中實現(xiàn)在指定說話者時的高度準確處理。
圖1是用于描述根據(jù)本公開內容實施例的信息處理裝置進行的處理的概況的圖;圖2是用于描述根據(jù)本公開內容實施例的信息處理裝置的配置和處理的圖;圖3是用于描述語音事件檢測單元和圖像事件檢測單元生成的并且輸入到信息統(tǒng)合處理單元的信息例子的圖;圖4是用于描述粒子過濾器被應用到的基本處理例子的圖;圖5是用于描述在本處理例子中設置的粒子配置的圖;圖6是用于描述在相應粒子中包括的各目標的目標數(shù)據(jù)配置的圖;圖7是用于描述目標信息的配置和生成處理的圖;圖8是用于描述目標信息的配置和生成處理的圖;圖9是用于描述目標信息的配置和生成處理的圖;圖10是圖示了信息統(tǒng)合處理單元進行的處理序列的流程圖;圖11是用于具體描述粒子權值計算處理的圖;圖12是用于描述說話者指定處理的圖;圖13是圖示了說話源概率計算單元進行的處理序列例子的流程圖;圖14是圖示了說話源概率計算單元進行的處理序列例子的流程圖;圖15是用于描述說話源概率計算單元進行的處理所計算的說話源得分例子的圖;圖16是用于描述說話源概率計算單元進行的處理所獲得的說話源估計信息例子的圖;圖17是用于描述說話源概率計算單元進行的處理所獲得的說話源估計信息例子的圖;圖18是用于描述說話源概率計算單元進行的處理所獲得的說話源估計信息例子的圖;并且圖19是用于描述說話源概率計算單元進行的處理所獲得的說話源估計信息例子的圖。
具體實施例方式現(xiàn)在將參照附圖在下文中具體描述根據(jù)本公開內容示例實施例的信息處理裝置、 信息處理方法和程序。另外將根據(jù)以下項進行描述1.本公開內容的信息處理裝置進行的處理概況2.本公開內容的信息處理裝置的配置和處理細節(jié)3.本公開內容的信息處理裝置進行的處理序列4.說話源概率計算單元進行的處理細節(jié)<1.本公開內容的信息處理裝置進行的處理概況〉
7
首先將描述本公開內容的信息處理裝置進行的處理概況。本公開內容實現(xiàn)如下配置,在該配置中,當計算說話源概率時關于來自輸入事件信息內的與用戶的說話對應的語音事件信息使用識別器,從而不必預先調節(jié)在背景技術中描述的權值系數(shù)。具體而言,使用用于識別各目標是否為說話源的識別器,或者用于僅關于兩個目標信息確定兩個目標信息中的哪一個目標信息更像說話源的識別器。作為到識別器的輸入信息,使用在語音事件信息中包括的聲源方向信息或者說話者識別(ID)信息、在來自事件信息內的圖像事件信息中包括的嘴唇動作信息和在目標信息中包括的目標位置或者目標總數(shù)。通過在計算說話源概率時使用識別器,不必預先調節(jié)在背景技術中描述的權值系數(shù), 從而有可能計算更適當?shù)恼f話源概率。首先將參照圖1描述根據(jù)本公開內容的信息處理裝置進行的處理概況。本公開內容的信息處理裝置100輸入來自傳感器(其中實時輸入觀察信息)(這里例如相機21和多個麥克風31至34)的圖像信息和語音信息并且基于輸入信息進行環(huán)境分析。具體而言,進行多個用戶1、11至4和14的位置分析和對應位置的用戶的識別(ID)。在附圖中所示例子中,例如在父親、母親、姐姐和弟弟(其中用戶1、11至4和14 為家人)的情況下,信息處理裝置100對從相機21和多個麥克風31至34輸入的圖像信息和語音信息進行分析,從而識別四個用戶1至4的位置以及在每個位置是父親、母親、姐姐和弟弟中的哪一個。識別結果用于各種處理。例如識別結果用于諸如相機向已經(jīng)說話的用戶推近、電視機關于具有對話的用戶做出響應等處理。此外,作為根據(jù)本公開內容的信息處理裝置100的主要處理,基于來自多個信息輸入單元(相機21和麥克風31至34)的輸入信息識別用戶位置和用戶作為用戶指定處理。 識別結果的用途不受特定限制。在從相機21和多個麥克風31至34輸入的圖像信息和語音信息中包括各種不確定信息。在根據(jù)本公開內容的信息處理裝置100中,關于在輸入信息中包括的不確定信息進行隨機處理,并且將受到隨機處理的信息統(tǒng)合到估計為高度準確的信息。通過這一估計處理來提高穩(wěn)健性,從而進行準確性高的分析。<2.本公開內容的信息處理裝置的配置和處理細節(jié)〉根據(jù)本發(fā)明實施例,提供一種信息處理裝置,包括多個信息輸入單元,輸入實際空間的觀察信息;事件檢測單元,基于對從信息輸入單元輸入的信息的分析來生成存在于實際空間中的用戶的包括估計位置信息和估計識別信息的事件信息;以及信息統(tǒng)合處理單元,輸入事件信息,并且基于輸入的事件信息生成各用戶的包括位置和用戶識別信息的目標信息以及代表針對事件生成源的概率值的信號信息,其中信息統(tǒng)合處理單元包括具有識別器的說話源概率計算單元,并且使用說話源概率計算單元中的識別器基于輸入信息來計算說話源概率。作為上述根據(jù)本發(fā)明實施例的信息處理裝置的例子,在圖2中圖示了信息處理裝置100的配置例子。信息處理裝置100包括圖像輸入單元(相機)111和多個語音輸入單元(麥克風)121a至121d作為輸入設備。信息處理裝置100輸入來自圖像輸入單元(相機)111的圖像信息并且輸入來自語音輸入單元(麥克風)121的語音信息以由此基于這一輸入信息進行分析。多個語音輸入單元(麥克風)121a至121d中的各語音輸入單元被布置在圖1中所示各種位置。
經(jīng)由語音事件檢測單元122向信息統(tǒng)合處理單元131輸入從多個麥克風121a至 121d輸入的語音信息。語音事件檢測單元122分析和統(tǒng)合從布置在多個不同位置的多個語音輸入單元(麥克風)121a至121d輸入的語音信息。具體而言,基于從語音輸入單元(麥克風)121a至121d輸入的語音信息生成發(fā)聲位置和表明哪個用戶發(fā)聲的用戶ID信息,并將生成的信息輸入到信息統(tǒng)合處理單元131。此外,作為信息處理裝置100進行的具體處理,給出在圖1中所示有多個用戶的環(huán)境中識別各用戶A至D的位置以及用戶A至D中的哪個用戶已經(jīng)說話、也就是進行用戶位置和用戶ID。具體而言,該具體處理是用于指定諸如說話的個人(說話者)等事件生成源的處理。語音事件檢測單元122分析從布置在多個不同位置的多個語音輸入單元(麥克風)121a至121d輸入的語音信息,并生成語音生成源的位置信息作為概率分布數(shù)據(jù)。具體而言,語音事件檢測單元122關于聲源方向生成期望值和分布數(shù)據(jù)NOv?!贰4送?,語音事件檢測單元122基于與預先登記的用戶語音的特征信息的比較來生成用戶ID信息。也生成ID信息作為概率估計值。由于在語音事件檢測單元122中預先登記待驗證的多個用戶的語音特征信息,所以進行在輸入語音與登記語音之間的比較,并且進行確定哪個用戶的語音對應于高概率輸入語音的處理,從而計算關于所有登記用戶的后驗概率或者得分。以這一方式,語音事件檢測單元122分析從布置在多個不同位置的多個語音輸入單元(麥克風)121a至121d輸入的語音信息,生成由概率分布數(shù)據(jù)配置的“統(tǒng)合語音事件信息”作為聲音生成源的位置信息,和由概率估計值構成的用戶ID信息,并將生成的統(tǒng)合語音事件信息輸入到信息統(tǒng)合處理單元131。同時,經(jīng)由圖像事件檢測單元112向信息統(tǒng)合處理單元131輸入從圖像輸入單元 (相機)111輸入的圖像信息。圖像事件檢測單元112分析從圖像輸入單元(相機)111輸入的圖像信息、提取在圖像中包括的人臉并且生成面部的位置信息作為概率分布數(shù)據(jù)。具體而言,生成面部的位置或者方向的期望值以及分布數(shù)據(jù)N(me,ο e)。此外,圖像事件檢測單元112通過進行與預先登記的用戶面部的特征信息的比較來識別面部并且生成用戶ID信息。生成ID信息作為概率估計值。由于在圖像事件檢測單元112中預先登記關于代驗證的多個用戶的面部的特征信息,所以進行在從輸入圖像提取的面部區(qū)域的圖像的特征信息與登記的面部圖像的特征信息之間的比較,進行確定哪個用戶的面部對應于高概率輸入圖像的處理,從而計算關于所有登記用戶的后驗概率或者得分。此外,圖像事件檢測單元112計算與從圖像輸入單元(相機)111輸入的圖像中包括的面部對應的屬性得分,例如基于嘴部區(qū)域的移動生成的面部屬性得分。有可能設置成計算以下各種面部屬性得分(a)與在圖像中包括的面部的嘴部區(qū)域的移動對應的得分,(b)根據(jù)在圖像中包括的面部是否為笑臉來設置的得分,(c)根據(jù)在圖像中包括的面部是男性面部還是女性面部來設置的得分,以及(d)根據(jù)在圖像中包括的面部是成人面部還是兒童面部來設置的得分。在下述實施例中描述如下例子,在該例子中計算(a)與在圖像中包括的面部的嘴部區(qū)域的移動對應的得分并將其用作面部屬性得分。也就是說,計算與面部的嘴部區(qū)域的移動對應的得分作為面部屬性得分,并且基于面部屬性得分進行說話者的指定。圖像事件檢測單元112根據(jù)從圖像輸入單元(相機)111輸入的圖像中包括的面部區(qū)域識別嘴部區(qū)域,并檢測嘴部區(qū)域的移動,從而在確定檢測到與移動檢測結果對應的得分的情況下(例如當檢測到嘴部區(qū)域的移動時)計算值更高的得分。此外,進行嘴部區(qū)域的移動檢測處理作為應用VSD(Visual Speech Detection,視覺話音檢測)的處理。應用在公開號為2005-157679的日本待審專利申請中公開的方法,該專利申請涉及申請人與本公開內容的申請人相同的申請。具體而言,例如,從面部圖像(該面部圖像是根據(jù)從圖像輸入單元(相機)111輸入的圖像檢測的)檢測嘴唇的左和右唇角, 在嘴唇的左和右唇角在第N幀和第(N+1)幀中對準之后計算照度差,并作為閾值處理差的值,從而檢測嘴唇的移動。此外,有關領域的技術可以應用于在語音事件檢測單元122或者圖像事件檢測單元112中進行的語音ID處理,面部檢測處理或者面部ID處理。例如可以應用在以下文獻中公開的技術作為面部檢測處理和面部ID處理。Sabe Kotaro, Hidai Kenichi, "Learning for real-time arbitrary posture face detectors using pixel difference characteristics,,,第十屆圖像感測講演論文集,547-552頁,2004年,公開號為2004-302644的日本待審專利申請(P2004-302644A)〈發(fā)明名禾爾Face ID apparatus, Face ID method, Recording medium, and Robot apparatus〉信息統(tǒng)合處理單元131基于來自語音事件檢測單元122或者圖像事件檢測單元 112的輸入信息進行在概率上估計多個用戶中的各用戶是誰、多個用戶中的各用戶的位置以及誰生成諸如語音等信號的處理。具體而言,信息統(tǒng)合處理單元131基于來自語音事件檢測單元122或者圖像事件檢測單元112的輸入信息向處理確定單元132輸出各信息,比如(a)目標信息,作為關于多個用戶中的各用戶的位置和他們是誰的估計信息,和(b)信號信息,諸如說話的用戶等的事件生成源。此外,在信號信息中包括以下兩個信號信息(bl)基于語音事件的信號信息和 (b2)基于圖像事件的信號信息。信息統(tǒng)合處理單元131的目標信息更新單元141通過輸入在圖像事件檢測單元 112中檢測到的圖像事件信息使用例如粒子過濾器來進行目標更新,并基于圖像事件生成目標信息和信號信息,從而向處理確定單元132輸出生成的信息。此外,甚至向說話源概率計算單元142輸出作為更新結果而獲得的目標信息。信息統(tǒng)合處理單元131的說話源概率計算單元142通過輸入在語音事件檢測單元 122中檢測到的語音事件信息使用ID模型(識別器)來計算各目標為輸入語音事件生成源的概率。說話源概率計算單元142基于計算的值基于語音事件生成信號信息,并將生成的信息輸出到處理確定單元132。后文將描述這一處理。接收ID處理結果(包括信息統(tǒng)合處理單元131生成的目標信息和信號信息)的處理確定單元132使用ID處理結果來進行處理。例如進行諸如關于例如已經(jīng)說話的用戶推近相機或者電視機關于已經(jīng)說話的用戶做出響應等處理。如上文所述,語音事件檢測單元122生成語音生成源的位置信息的概率分布數(shù)據(jù),且更具體地生成關于聲音方向的期望值和分布數(shù)據(jù)NOv J。此外,語音事件檢測單元122基于比較結果(比如預先登記的用戶的特征信息)生成用戶ID信息,并將生成的信息輸入到信息統(tǒng)合處理單元131。此外,圖像事件檢測單元112提取在圖像中包括的人臉,并生成面部的位置信息作為概率分布數(shù)據(jù)。具體而言,圖像事件檢測單元112關于面部的位置和方向生成期望值和分布數(shù)據(jù)NOv ο e)。此外,圖像事件檢測單元112基于與預先登記的用戶面部的特征信息進行的比較處理生成用戶ID信息,并將生成的信息輸入到信息統(tǒng)合處理單元131。此外, 圖像事件檢測單元112根據(jù)從圖像輸入單元(相機)111輸入的圖像內的面部區(qū)域檢測面部屬性得分作為面部屬性信息(例如嘴部區(qū)域的移動),在檢測到嘴部區(qū)域的明顯移動時計算與嘴部區(qū)域的移動檢測結果對應的得分,具體地計算具有高值的面部屬性得分,并將計算的得分輸入到信息統(tǒng)合處理單元131。參照圖3描述語音事件檢測單元122和圖像事件檢測單元112生成、并被輸入到信息統(tǒng)合處理單元131的信息的例子。在本公開內容的配置中,圖像事件檢測單元112生成比如以下數(shù)據(jù)并且向信息統(tǒng)合處理單元131輸入生成的數(shù)據(jù)(Va)關于面部的位置和方向的期望值和分布數(shù)據(jù)N(me, oe), (Vb)基于面部圖像特征信息的用戶ID信息以及(Vc)與檢測到的面部的屬性對應的得分,例如基于嘴部區(qū)域的移動生成的面部屬性得分。此外,語音事件檢測單元122向信息統(tǒng)合處理單元131輸入比如以下數(shù)據(jù)(Aa) 關于聲源方向的期望值和分布數(shù)據(jù)N Ov (O,以及(Ab)基于語音特性的用戶ID信息。在圖3A中圖示了包括與參照圖1描述的相機和麥克風相同的相機和麥克風并且有多個用戶1至k、201至20k的實際環(huán)境例子。在這一環(huán)境中,當任一用戶說話時經(jīng)由麥克風輸入語音。此外,相機連續(xù)拍攝圖像。由語音事件檢測單元122和圖像事件檢測單元112生成且被輸入到信息統(tǒng)合處理單元131的信息分成三類,比如(a)用戶位置信息,(b)用戶ID信息(面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分)。也就是說,(a)用戶位置信息是(Va)圖像事件檢測單元112生成的關于面部位置或者方向的期望值和分布數(shù)據(jù)N Ov C^)和(Aa)語音事件檢測單元122生成的關于聲源方向的期望值和分布數(shù)據(jù)NOv oe)的統(tǒng)合信息。此外,(b)用戶ID信息(面部ID信息或者說話者ID信息)是(Vb)圖像事件檢測單元112生成的基于面部圖像特征信息的用戶ID信息和(Ab)語音事件檢測單元122生成的基于語音特征信息的用戶ID信息的統(tǒng)合信息。(c)面部屬性信息(面部屬性得分)等效于圖像事件檢測單元112生成的與檢測的面部屬性對應的得分(Vc),例如基于嘴唇區(qū)域的移動生成的面部屬性得分。針對各事件生成(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者 ID信息)和(c)面部屬性信息(面部屬性得分)。當從語音輸入單元(麥克風)121a至121d輸入語音信息時,語音事件檢測單元 122基于語音信息生成上述(a)用戶位置信息和(b)用戶ID信息,并將生成的信息輸入到信息統(tǒng)合處理單元131。圖像事件檢測單元112按照預先確定的某一幀間隔基于從圖像輸入單元(相機)111輸入的圖像信息生成(a)用戶位置信息、(b)用戶ID信息和(c)面部屬性信息(面部屬性得分),并將生成的信息輸入到信息統(tǒng)合處理單元131。此外,在這一實施例中,圖像輸入單元(相機)111示出了如下例子,在該例子中設置單個相機并且多個用戶的圖像由該單個相機拍攝。在這一情況下,關于在單個圖像中包括的多個面部中的各面部生成(a)用戶位置信息和(b)用戶ID信息,并且向信息統(tǒng)合處理單元131輸入生成的 fn息ο 將描述如下處理,在該處理中,語音事件檢測單元122基于從語音輸入單元(麥克風)121a至121d輸入的語音信息生成(a)用戶位置信息和(b)用戶ID信息(說話者ID<語音事件檢測單元122生成(a)用戶位置信息的處理>語音事件檢測單元122基于從語音輸入單元(麥克風)121a至121d輸入的語音信息生成發(fā)出所分析的語音的用戶的位置(也就是說話者的位置)的估計信息。也就是說, 語音事件檢測單元122生成估計為說話者所在處的位置,作為根據(jù)期望值(平均值)[mj和分布信息[。J獲得的高斯分布(正態(tài)分布)數(shù)據(jù)NOv ο e)。<語音事件檢測單元122生成(b)用戶ID信息(說話者ID信息)的處理>語音事件檢測單元122通過在輸入語音的特征信息與預先登記的用戶1至k的語音的特征信息之間的比較、基于從語音輸入單元(麥克風)121a_121d輸入的語音信息來估計說話者是誰。具體而言,計算說話者為各用戶1至k的概率。使用計算的值(b)作為用戶ID信息(說話者ID信息)。例如對登記的語音特性與輸入語音的特性最接近的用戶分發(fā)最高得分,而向特性與輸入語音的特性最不相同的用戶分發(fā)最低得分(例如零),從而生成對輸入語音屬于各用戶的概率進行設置的數(shù)據(jù)并且使用生成的數(shù)據(jù)作為(b)用戶ID信息(說話者ID信息)。接著將描述如下處理,在該處理中,圖像事件檢測單元112基于從圖像輸入單元 (相機)111輸入的圖像信息生成信息如(a)用戶位置信息、(b)用戶ID信息(面部ID信息)和(c)面部屬性信息(面部屬性得分)。<圖像事件檢測單元112生成(a)用戶位置信息的處理>圖像事件檢測單元112關于從圖像輸入單元(相機)111輸入的圖像信息中包括的各面部生成面部位置的估計信息。也就是說,將從圖像檢測的面部的估計存在位置生成為根據(jù)期望值(平均值)[mj和分布信息[ο J獲得的高斯分布(正態(tài)分布)數(shù)據(jù)NOv σ e) 0<圖像事件檢測單元112生成(b)用戶ID信息(面部ID信息)的處理>圖像事件檢測單元112基于從圖像輸入單元(相機)111輸入的圖像信息檢測在圖像信息中包括的面部,并且通過在輸入圖像信息與預先登記的各用戶1至k的面部的特征信息之間的比較來估計各面部是誰。具體而言,計算各提取面部為各用戶1至k的概率。 使用計算的值作為(b)用戶ID信息(面部ID信息)。例如向登記面部的特性與在輸入圖像中包括的面部的特性最接近的用戶分發(fā)最高得分,而向特性與面部的特性最不相同的用戶分發(fā)最低得分(例如零),從而生成對輸入語音屬于各用戶的概率進行設置的數(shù)據(jù),并使用生成的數(shù)據(jù)作為(b)用戶ID信息(面部ID信息)。<圖像事件檢測單元112生成(C)面部屬性信息(面部屬性得分)的處理>圖像事件檢測單元112基于從圖像輸入單元(相機)111輸入的圖像信息檢測在圖像信息中包括的面部區(qū)域并且計算檢測到的面部的屬性、具體為屬性得分(比如面部的嘴部區(qū)域的上述移動、檢測到的面部是否為笑臉、檢測到的面部是男性面部還是女性面部、 檢測到的面部是否為成人面部等)。然而在這一處理例子中將描述如下例子,在該例子中計算和使用與在圖像中包括的面部的嘴部區(qū)域的移動對應的得分作為面部屬性得分。作為計算與面部的嘴唇區(qū)域的移動對應的得分的處理,圖像事件檢測單元112從面部圖像(該面部圖像是根據(jù)從圖像輸入單元(相機)111輸入的圖像檢測的)檢測嘴唇的左和右唇角,在嘴唇的左和右唇角在第N幀和第(N+1)幀中對準之后計算照度差,且作為閾值處理該差的值。通過這一處理,檢測嘴唇的移動,設置面部屬性得分,其中隨著嘴唇的移動增加而獲得更高得分。此外,當從相機拍攝的圖像檢測到多個面部時,圖像事件檢測單元112根據(jù)各檢測到的面部生成與各面部對應的事件信息作為單獨事件。也就是說,圖像事件檢測單元112 生成包括比如以下信息的事件信息并且向信息統(tǒng)合處理單元131輸入生成的信息(a)用戶位置信息、(b)用戶ID信息(面部ID信息)和(c)面部屬性信息(面部屬性得分)。在這一實施例中以使用單個相機作為圖像輸入單元111為例,然而可以使用多個相機拍攝的圖像。在這一情況下,圖像事件檢測單元112關于在多個相機的各拍攝圖像中包括的各面部生成(a)用戶位置信息、(b)用戶ID信息(面部ID信息)和(c)面部屬性信息(面部屬性得分)并將生成的信息輸入到信息統(tǒng)合處理單元131。接著將描述信息統(tǒng)合處理單元131進行的處理。信息統(tǒng)合處理單元131輸入如上文所述來自語音事件檢測單元122和圖像事件檢測單元112的圖;3B中所示三個信息,即以下述順序輸入(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者ID信息)和 (c)面部屬性信息(面部屬性得分)。此外,關于上述各個信息的輸入定時可能有各種設置, 然而例如語音事件檢測單元122在新語音被輸入時生成和輸入上述(a)和(b)的各個信息作為語音事件信息,從而圖像事件檢測單元112按某個幀周期單位生成和輸入(a)、(b)和 (c)的各個信息作為語音事件信息。將參照圖4描述信息統(tǒng)合處理單元131進行的處理。如上文所述,信息統(tǒng)合處理單元131包括目標信息更新單元141和說話源概率計算單元142并且進行以下處理。目標信息更新單元141例如輸入在圖像事件檢測單元112中檢測到的圖像事件信息,例如使用粒子過濾器來進行目標更新處理,并基于圖像事件生成目標信息和信號信息, 從而向處理確定單元132輸出生成的信息。此外,向說話源概率計算單元142輸出作為更新結果的目標信息。說話源概率計算單元142輸入在語音事件檢測單元122中檢測到的語音事件信息并且使用ID模型(識別器)來計算各目標為輸入語音事件說話源的概率。說話源概率計算單元142基于計算的值生成基于語音事件的信號信息,并且向處理確定單元132輸出生成的信息。首先將描述目標信息更新單元141進行的處理。信息統(tǒng)合處理單元131的目標信息更新單元141進行如下處理通過設置關于用戶位置和ID信息的假設的概率分布數(shù)據(jù),并基于輸入的信息更新假設從而僅留下更有可能的假設。作為這一處理方案,進行應用粒子過濾器的處理。
通過設置與各種假設對應的大量粒子來進行應用粒子過濾器的處理。在這一實施例中,設置與關于用戶位置和用戶是誰的假設對應的大量粒子,并且進行基于來自圖像事件檢測單元112的圖:3B中所示三個信息(也就是(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分))增加粒子的更可能權值的處理。將參照圖4描述應用粒子過濾器的基本處理例子。例如,圖4中所示例子示出了通過粒子過濾器估計與任何用戶對應的存在位置的處理例子。在圖4中所示例子中,進行估計用戶301在任何直線上的一維區(qū)域中的存在位置的處理。初始假設(H)變成如圖4A中所示的均勻粒子分布數(shù)據(jù)。接著獲取圖像數(shù)據(jù)302, 并且作為圖4B的數(shù)據(jù)獲取以獲取的圖像為基礎的用戶301的存在的概率分布數(shù)據(jù)?;谝垣@取的圖像為基礎的概率分布數(shù)據(jù)更新圖4A的粒子分布數(shù)據(jù),從而獲得圖4C的更新的假設概率分布數(shù)據(jù)。基于輸入信息反復進行這一處理,從而獲得比用戶的位置信息更可能的位置信息。此夕卜,例如在 <D. Schulz, D. Fox 禾口 J. Hightower 的 People Tracking with Anonymous and ID-sensors Using Rao-Blackwel1ised Particle Filters(Proc. of the International Joint Conference on Artificial Intelligence (IJGAI—03)) > 中描述了使用粒子過濾器的處理的細節(jié)。在圖4中所示處理例子中,僅使用圖像數(shù)據(jù)僅關于用戶的存在位置處理輸入信息。這里,各粒子具有僅關于用戶301的存在位置的信息。信息統(tǒng)合處理單元131的目標信息更新單元141從圖像事件檢測單元112獲取圖 3B中所示信息(即(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分))并且確定多個用戶的位置和多個用戶中的各用戶是誰。因而在應用粒子過濾器的處理中,信息統(tǒng)合處理單元131設置與關于用戶位置和用戶是誰的假設對應的大量粒子,從而基于圖像事件檢測單元112中的圖;3B中所示兩個信息進行粒子更新。將參照圖5描述信息統(tǒng)合處理單元131通過輸入圖:3B中所示來自語音事件檢測單元122和圖像事件檢測單元112的三個信息(即(a)用戶位置信息、(b)用戶ID信息 (面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分))來進行的粒子更新處理例子。此外,將作為僅使用信息統(tǒng)合處理單元131的目標信息更新單元141中的圖像事件信息來進行的處理例子描述下文將描述的粒子更新處理。將描述粒子的配置。信息統(tǒng)合處理單元131的目標信息更新單元141具有預定數(shù)目=m的粒子。圖5中所示粒子為1至m。在各粒子中設置作為識別符的粒子ID (PID= 1 至m)。在各粒子中設置與虛擬對象對應的多個目標tID = 1、2、. . .η。在這一實施例中, 設置與比估計存在于實際空間中的人數(shù)更多的虛擬用戶對應的多個(數(shù)目為η)目標作為各粒子。數(shù)目為m的粒子中的各粒子按照目標單位以目標的數(shù)目維持數(shù)據(jù)。在圖5中所示例子中,在單個粒子中包括數(shù)目n(n = 2)的目標。信息統(tǒng)合處理單元131的目標信息更新單元141輸入來自圖像事件檢測單元112
14的圖3B中所示的事件信息,即(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分[SrfD]),并且進行數(shù)目為m的粒子(PID =1至m)的更新。在圖5中所示的由信息統(tǒng)合處理單元131設置的各粒子1至m中包括的各目標1 至η能夠預先與各輸入事件信息(eID = 1至k)相關聯(lián),并且進行根據(jù)該關聯(lián)與輸入事件對應的所選目標的更新。具體而言,例如通過將目標與各面部圖像事件相關聯(lián)來對作為單獨事件的在圖像事件檢測單元112中檢測到的面部圖像進行更新處理。將描述具體更新處理。例如,圖像事件檢測單元112按預先確定的某個幀間隔基于從圖像輸入單元(照相機)111輸入的圖像信息生成(a)用戶位置信息、(b)用戶ID信息和(c)面部屬性信息(面部屬性得分),并且向信息統(tǒng)合處理單元131輸入生成的信息。在這一實例中,當圖5中所示圖像幀350為待檢測的事件的幀時,在圖像幀中包括的與面部圖像數(shù)目對應的事件被檢測。也就是說,檢測與圖5中所示第一面部圖像351對應的事件1 (eID = 1)和與第二面部圖像352對應的事件2 (eID = 2)。圖像事件檢測單元112關于各事件(eID = 1、2、...)生成(a)用戶位置信息、(b) 用戶ID信息和(c)面部屬性信息(面部屬性得分),并將生成的信息輸入到信息統(tǒng)合處理單元131。也就是說,生成的信息是與圖5中所示事件對應的信息361和362。在信息統(tǒng)合處理單元131的目標信息更新單元141中設置的各粒子1至m中包括的各目標1至η能夠與各事件(eID= 1至k)相關聯(lián),并且具有如下配置,在該配置中預先設置更新在各粒子中包括的哪個目標。此外,將與各事件(eID= 1至k)對應的目標(tID) 的關聯(lián)設置成不重疊。也就是說,按照獲取的事件生成事件生成源假設,從而在各粒子中不出現(xiàn)重疊。在圖5中所示例子中,(1)粒子 l(pID = 1)是[事件 ID = l(eID = 1)]=[目標 ID = l(tID = 1)]的對應目標和[事件ID = 2 (eID = 2)]=[目標ID = 2 (tID = 2)]的對應目標,(2)粒子 2(pID = 2)是[事件 ID = l(eID = 1)]=[目標 ID = l(tID = 1)]的對應目標和[事件ID = 2 (eID = 2)]=[目標ID = 2 (tID = 2)]的對應目標,(m)粒子 m(pID = m)是[事件 ID = l(eID = 1)]=[目標 ID = 2(tID = 2)]的對應目標和[事件ID = 2(eID = 2)]=[目標ID = l(tID = 1)]的對應目標。以這一方式,在信息統(tǒng)合處理單元131的目標信息更新單元141中設置的各粒子 1至m中包括的各目標1至η能夠預先與各事件(eID = 1至k)關聯(lián)并且具有如下配置, 在該配置中確定根據(jù)各事件ID更新在各粒子中包括的哪個目標。例如按照圖5中所示的 [事件ID= KeID= 1)]的事件對應信息361,在粒子l(pID = 1)中有選擇地僅更新目標 ID = KtID = 1)的數(shù)據(jù)。類似地,按照圖5中所示[事件ID = KeID = 1)]的事件對應信息361,甚至在粒子2 (pID = 2)中有選擇地僅更新目標ID= l(tID = 1)的數(shù)據(jù)。此外,按照圖5中所示 [事件ID= KeID= 1)]的事件對應信息361,在粒子m(pID = m)中有選擇地僅更新目標 ID = 2(tID = 2)的數(shù)據(jù)。圖5中所示的事件生成源假設數(shù)據(jù)371和372是在各粒子中設置的事件生成源假設數(shù)據(jù),并且根據(jù)與在各粒子中設置事件生成源假設數(shù)據(jù)有關的信息確定與事件ID對應的更新目標。將參照圖6描述在各粒子中包括的各目標數(shù)據(jù)分組。在圖6中示出了在圖5中所示粒子l(pID= 1)中包括的單個目標375(目標ID:tID = n)的目標數(shù)據(jù)的配置。如圖6 中所示,目標375的目標數(shù)據(jù)由以下數(shù)據(jù)配置,S卩(a)與各目標對應的存在位置的概率分布 [高斯分布:N(mln, σ ln)]和(b)表明各目標是誰的用戶確信度信息(uID)uldlnl = 0. 0uldln2 = 0. 1uldlnk = 0.5。此外,在上述(a)中所示高斯分布N(mln,σ ln)中的[mln, σ J的(In)表示高斯分布作為與粒子ID :pID = 1中的目標ID :tID = η對應的存在概率分布。此外,在上述(b)中所示的用戶確信度信息(UlD)的[UlDlnl]中的(Inl)表示粒子ID :pid = 1中的目標ID :tID = η的用戶為用戶1的概率。也就是說,目標ID = η的數(shù)據(jù)表示為用戶1的概率為0. 0、為用戶2的概率為0. 1、...而為用戶k的概率為0. 5。再次參照圖5,將繼續(xù)描述在信息統(tǒng)合處理單元131的目標信息更新單元141中設置的粒子。如圖5中所示,信息統(tǒng)合處理單元131的目標信息更新單元141設置預定數(shù)目 =m的粒子(PID= 1至m),并且各粒子關于估計存在于實際空間中的各目標(tID = 1至 η)具有目標數(shù)據(jù),比如(a)與各目標對應的存在位置的概率分布[高斯分布N(m,ο )]和 (b)表明各目標是誰的用戶確信度信息(uID)。信息統(tǒng)合處理單元131的目標信息更新單元141輸入來自語音事件檢測單元122 和圖像事件檢測單元112的圖:3B中所示的事件信息(eID = 1,2...)(即(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分[srfd])),并且進行與在各粒子中預先設置的事件對應的目標的更新。此外,待更新的目標是在各目標數(shù)據(jù)分組中包括的數(shù)據(jù),s卩(a)用戶位置信息和 (b)用戶ID信息(面部ID信息或者說話者ID信息)。最終使用(c)面部屬性信息(面部屬性得分[seid])作為表明事件生成源的信號信息。當輸入某數(shù)目的事件時,也更新各粒子的權值,從而增加數(shù)據(jù)與實際空間中的信息最接近的粒子的權值而減少數(shù)據(jù)對于實際空間中的信息不適合的粒子的權值。以這一方式, 當粒子的權值出現(xiàn)偏離和收斂時計算基于面部屬性信息(面部屬性得分)的信號信息,即表明事件生成源的信號信息。將任何具體目標x(tID = x)為任何事件(eID = y)的生成源的概率表示為PeID = x(tID = y)。例如如圖5中所示,當設置數(shù)目為m的粒子(pID= 1至m)并且在各粒子中設置兩個目標(tID = 1、2)時,第一目標(tID = 1)為第一事件(eID = 1)的生成源的概率 *PeID = 1(tID = 1),而第二目標(tID = 2)為第一事件(eID = 1)的生成源的概率為PeID = 1(tID = 2)。此外,第一目標(tID = 1)為第二事件(eID = 2)的生成源的概率為PeID = 2(tID =1),而第二目標(tID = 2)為第二事件(eID = 2)的生成源的概率為PeID = 2(tID = 2)。表明事件生成源的信號信息是任何事件(eID = y)的生成源為具體目標χ (tID = χ)的概率Pem = x(tID = y),并且這等效于在信息統(tǒng)合處理單元131的目標信息更新單元 141中設置的粒子數(shù)目m與向各事件分配的目標數(shù)目之比。這里,在圖5中所示例子中獲得以下對應關系PeID^l(tID =1)=[向第--事件(eID =1)分配tID =1的粒子的類淚丨/(m)],
PeID^l(tID =2)=[向第--事件(eID =1)分配tID =2的粒子的類淚丨/(m)],
PeID = 2(tID =1)=[向第二二事件(eID =2)分配tID =1的粒子的美/(m)],
以及PeID = 2(tID = 2)=[向第二事件(eID = 2)分配 tID = 2 的粒子的數(shù)目 /(m)]。最終使用這一數(shù)據(jù)作為表明事件生成源的信號信息。此外,任何事件(eID = y)的生成源為具體目標χ (tID = χ)的概率為PrfD = x (tID = y)。這一數(shù)據(jù)甚至應用于計算在目標信息中包括的面部屬性信息。也就是說,在計算面部屬性信息StID = l5n時使用這一數(shù)據(jù)。面部屬性信息StID = x等效于目標ID = χ的最終面部屬性的期望值,即表明為說話者的概率的值。信息統(tǒng)合處理單元131的目標信息更新單元141輸入來自圖像事件檢測單元112 的事件信息(eID = 1,2...)并且進行與在各粒子中預先設置的事件對應的目標的更新。 接著,目標信息更新單元141生成(a)目標信息,包括表明多個用戶中的各用戶的位置的位置估計信息、表明多個用戶中的各用戶是誰的估計信息(uID估計信息)和面部屬性信息(Stm)的期望值,例如表明用活動嘴部說話的面部屬性期望值,以及(b)表明事件生成源 (比如說話的用戶)的信號信息(圖像事件對應信號信息),并且向處理確定單元132輸出生成的信息。如圖7的右端部分中所示的目標信息380中所示,將目標信息生成為在各粒子 (PID = 1至m)中包括的各目標(tID = 1至η)的對應數(shù)據(jù)的加權求和數(shù)據(jù)。在圖7中示出了信息統(tǒng)合處理單元131的數(shù)目為m的粒子(PID= 1至m)和根據(jù)數(shù)目為m的粒子(PID =1至m)生成的目標信息380。后文將描述各粒子的加權。目標信息380是表明關于與信息統(tǒng)合處理單元131預先設置的虛擬用戶對應的目標(tID = 1至η)的(a)存在位置、(b)用戶是誰(來自用戶uIDl至uIDk之中)和(c)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))的信息?;谂c如上文所述表明事件生成源的信號信息對應的概率PeID = x(tID = y)和與各事件對應的面部屬性得分SrfD = i計算(C)各目標的面部屬性的期望值(在這一實施例中是作為說話者的期望值(概率))。這里‘i’表示事件ID。例如根據(jù)下式計算目標ID = 1的面部屬性的期望值Stm = P當一般化和示出StID = 1 =Σ eIDPeID = i(tID = 1) XSem = i時,根據(jù)下式計算目標的面部屬性的期望值stID?!词?>Stm=E eIDPeID = i(tID)XSeID例如如圖5中所示,在兩個目標存在于系統(tǒng)內的情況下,在圖8中示出了在圖像1 的幀內從圖像事件檢測單元112向信息統(tǒng)合處理單元131輸入兩個面部圖像事件(eID = 1、2)時各目標(tID = 1、2)的面部屬性的期望值計算例子。在圖8的右端所示的數(shù)據(jù)是與圖7中所示的目標信息380對應的目標信息390,并且等效于作為在各粒子(PID = 1至m)中包括的各目標(tID = 1至η)的對應數(shù)據(jù)的加權求和數(shù)據(jù)而生成的信息。
基于與如上文所述表明事件生成源的信號信息對應的概率PeID = x(tID = y)和與各事件對應的面部屬性得分SrfD = i計算目標信息390中的各目標的面部屬性。這里“i”為事件ID。將目標ID = 1的面部屬性的期望值StID = 1表示為StID = 1 =Σ eIDPeID = i(tID = 1) X、D = i,而將目標ID = 2的面部屬性的期望值StID = 2表示為StID = 2 =Σ eIDPeID = i(tID = 2)XSeID.i0各目標的面部屬性的期望值的所有目標之和StID變成[1]。在這一實施例中,由于關于各目標設置面部屬性的期望值Stm為1至0,所以確定期望值高的目標使得為說話者的概率高。此外,當面部屬性得分[SrfD]未存在于面部圖像事件eID中時(例如當即使檢測到面部、但是由于手掩嘴部而未檢測到嘴部的移動時),在面部屬性得分中使用先驗知識值Sphot等。作為先驗知識值,當針對各目標存在先前獲得的值時,使用該值或者使用根據(jù)預先離線獲得的面部圖像事件來計算的面部屬性的平均值。在圖像1的幀內的目標數(shù)目和面部圖像事件的數(shù)目通常并不相同。由于與表明上述事件生成源的信號信息對應的概率之和PrfD (tID)在目標數(shù)目大于面部圖像事件數(shù)目時未變成[1],所以甚至各目標的面部屬性的期望值的上述計算公式關于各目標的期望值之和(也就是Stm=E eIDPeID = JtIDmem (式1))未變成[1],從而沒有計算出準確性高的
期望值。如圖9中所示,當未在圖像幀350中檢測到與存在于先前處理幀中的第三事件對應的第三面部圖像395時,上式1中所示的關于各目標的期望值之和并非[1],并且沒有計算機出準確性高的期望值。在這一情況下,改變各目標的面部屬性的期望值計算式。也就是說,從而各目標的面部屬性的期望值之和Stm為[1],在下式2中使用補數(shù) [1- Σ eIDPeID(tID)]和先驗知識值來計算面部事件屬性的期望值StID?!词?>Stm = Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior在圖9中,在系統(tǒng)內設置與事件對應的三個目標,然而圖示了當從圖像事件檢測單元112向信息統(tǒng)合處理單元131輸入僅兩個目標作為圖像1的幀內的面部圖像事件時的面部屬性的期望值計算例子。進行計算從而目標ID = 1的面部屬性的期望值Stn^i為Stm = 1 =Σ eIDPeID = i(tID = 1) XSeID = i+(l- Σ eIDPeID(tID = 1) XSprior,目標ID = 2的面部屬性的期望值StID = 2為StID = 2 =Σ eIDPeID = i(tID = 2) XSeID = i+(l- Σ eIDPeID(tID = 2) XSprior而目標ID = 3的面部屬性的期望值StID = 3為StID = 3 =Σ eIDPeID = i(tID = 3) XSeID = i+(l- Σ eIDPeID(tID = 3) XSprior.反言之,當目標數(shù)目小于面部圖像事件數(shù)目時生成目標,從而目標數(shù)目與事件數(shù)目相同,并且通過應用上式1來計算各目標的面部屬性的期望值[stID = J。此外,面部屬性在這一實施例中描述為基于與嘴部移動對應的得分的面部屬性期望值、也就是描述為如下數(shù)據(jù),該數(shù)據(jù)表明其中各目標為說話者的期望值,然而能夠將如上文所述面部屬性得分計算為得分如笑臉或者年齡,并且在這一情況下將面部屬性期望值計算為與等效于得分的屬性對應的數(shù)據(jù)。
隨著粒子的更新依次更新目標信息,并且例如當用戶1至k未在實際環(huán)境內移動時,各用戶1至k收斂為與從數(shù)目為η的目標tID = 1至η選擇的數(shù)目為k的目標中的各目標對應的數(shù)據(jù)。例如,在圖7中所示的目標信息380內的頂部目標l(tID = 1)的數(shù)據(jù)中包括的用戶確信度信息(UlD)關于用戶2具有最高概率(UlD12 = 0.7)。因而將這一目標l(tID = 1)的數(shù)據(jù)估計為等效于用戶2。此外,在表明用戶確信度信息UlD的數(shù)據(jù)[UlD12 = 0. 7]內的UlD12的12是與目標ID = 1的用戶=2的用戶確信度信息UlD對應的概率。在這一目標信息380內的頂部目標l(tID = 1)的數(shù)據(jù)中,為用戶2的概率最高, 并且將用戶2估計為在存在概率分布數(shù)據(jù)中所示的范圍內,其中在目標信息380的頂部目標(tID = 1)的數(shù)據(jù)中包括用戶2的存在位置。以這一方式,目標信息380是關于起初設置為虛擬對象(虛擬用戶)的各目標 (tID = 1至η)表明(a)存在位置、(b)用戶是誰(來自用戶uIDl至uIDk之中)和(c)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))的信息。因而,各目標 (tID = 1至η)的數(shù)目為k的目標信息中的各目標信息在用戶未移動時收斂成等效于用戶 1至k。如上文所述,信息統(tǒng)合處理單元131基于輸入信息進行粒子的更新并且生成(a) 目標信息,作為關于多個用戶的位置和多個用戶中的各用戶是誰的估計信息,以及(b)表明事件生成源(比如說話的用戶)的信號信息,從而向處理確定單元132輸出生成的信息。以這一方式,信息統(tǒng)合處理單元131的目標信息更新單元141進行粒子過濾處理 (設置與虛擬用戶對應的多個目標數(shù)據(jù)的多個粒子應用于該粒子過濾處理),并且生成分析信息(包括存在于實際空間中的用戶的位置信息)。也就是說,在粒子中設置的各目標數(shù)據(jù)分組被設置成與從事件檢測單元輸入的各事件關聯(lián),并且更新與根據(jù)輸入事件識別符從各粒子選擇的事件對應的目標數(shù)據(jù)。此外,目標信息更新單元141計算在各粒子和從事件檢測單元輸入的事件信息中設置的事件間生成源假設目標似然度,并且在各粒子中設置與似然度的大小對應的值作為粒子的權值,從而進行優(yōu)先選擇權值大的粒子的重新采樣處理以更新粒子。后文將描述這一處理。此外,關于在各粒子中設置的目標進行隨時間的更新。此外,根據(jù)在各粒子中設置的事件生成源假設目標的數(shù)目,將信號信息生成為事件生成源的概率值。同時,信息統(tǒng)合處理單元131的說話源概率計算單元142輸入在語音事件檢測單元122中檢測到的語音事件信息,并且使用ID模型(識別器)來計算各目標為輸入語音事件說話源的概率。說話源概率計算單元142基于計算值生成關于語音事件的信號信息并且向處理確定單元132輸出生成的信息。后文將描述說話源概率計算單元142進行的處理的細節(jié)。<3.本公開內容的信息處理裝置進行的處理序列〉根據(jù)本發(fā)明另一實施例,提供一種用于在信息處理裝置中進行信息分析處理的信息處理方法,該方法包括多個信息輸入單元輸入實際空間的觀察信息;檢測事件檢測單元基于對從信息輸入單元輸入的信息的分析來生成存在于實際空間中的用戶的包括估計位置信息和估計ID信息的事件信息;并且信息統(tǒng)合處理單元輸入事件信息并且基于輸入的事件信息生成各用戶的包括位置和用戶ID信息的目標信息以及代表針對事件生成源的
19概率值的信號信息,其中在輸入事件信息以及生成目標信息和信號信息時,當生成代表事件生成源的概率的信號信息時使用識別器來進行說話源概率計算處理,該識別器用于基于輸入信息計算說話源概率。接著將參照圖10中所示的流程圖描述信息統(tǒng)合處理單元131進行的處理序列,作為上述根據(jù)本發(fā)明另一實施例的信息處理方法的例子。信息統(tǒng)合處理單元131輸入來自語音事件檢測單元122和圖像事件檢測單元112 的圖3B中所示的事件信息、即用戶位置信息和用戶ID信息(面部ID信息或者說話者ID 信息),生成(a)目標信息,作為關于多個用戶的位置和多個用戶中的各用戶是誰的估計信息,以及(b)表明例如說話的用戶等的事件生成源的信號信息,并且向處理確定單元132輸出生成的信息。將參照圖10中所示流程圖描述這一處理序列。首先,在步驟SlOl中,信息統(tǒng)合處理單元131輸入來自語音事件檢測單元122和圖像事件檢測單元112的事件信息、比如(a)用戶位置信息、(b)用戶ID信息(面部ID信息或者說話者ID信息)和(c)面部屬性信息(面部屬性得分)。當成功進行事件信息的獲取時,該處理繼續(xù)到步驟S102,而當錯誤進行事件信息的獲取時,該處理繼續(xù)到步驟S121。稍后說明步驟S121的處理。當成功進行事件信息的獲取時,信息統(tǒng)合處理單元131在步驟S102中確定語音事件是否被輸入。當輸入事件為語音事件時,該處理繼續(xù)到步驟S111,而當輸入事件為圖像事件時,該處理繼續(xù)到步驟S103。當輸入事件為語音事件時,在步驟Slll中使用ID模型(識別器)來計算各目標為輸入語音事件的說話源的概率。向處理確定單元132(見圖幻輸出計算結果作為基于語音事件的信號信息。后文將描述步驟Slll的細節(jié)。當輸入事件為圖像事件時,在步驟S103中進行基于輸入信息的粒子更新,然而在進行粒子的更新之前在步驟S103中確定是否必須關于各粒子進行新目標的設置。在本公開內容的配置中,如參照圖5所述,在信息統(tǒng)合處理單元131中設置的各粒子1至m中包括的各目標1至η能夠與各輸入事件信息(eID = 1至k)關聯(lián),并且根據(jù)該關聯(lián)來進行與輸入事件對應的所選目標的更新。因而,當從圖像事件檢測單元112輸入的事件的數(shù)目大于目標的數(shù)目時,必須進行新目標的設置。具體而言,這對應于直到現(xiàn)在之前不存在的面部出現(xiàn)于圖5中所示圖像幀350中的情況。在這一情況下,該處理繼續(xù)到步驟S104,從而在各粒子中設置新目標。作為將更新成與新事件對應的目標設置該目標。接著在步驟S105中,在信息統(tǒng)合處理單元131中設置的粒子1至m中的數(shù)目為m 的粒子(pID= 1至m)的每個中設置事件生成源的假設。至于事件生成源,例如,當事件生成源為語音事件時,說話的用戶為事件生成源,而當事件生成源為圖像事件時,具有提取的面部的用戶為事件生成源。如參照圖5所述,進行本公開內容的設置假設的處理,從而將各輸入事件信息 (eID = 1至k)設置成與在各粒子1至m中包括的各目標1至η關聯(lián)。也就是說,如參照圖5所述,在各粒子1至m中包括的各目標1至η與各事件信息 (eID = 1至k)關聯(lián),并且預先設置更新各粒子中包括的哪個目標。以這一方式,在各粒子中生成按照獲取事件的事件生成源假設,從而不出現(xiàn)重疊。此外,起初例如可以使用其中各事件均勻分布的設置。由于粒子數(shù)目m被設置成大于目標數(shù)目n,所以設置多個粒子作為具有相同事件ID-目標ID這一對應的粒子。例如當目標數(shù)目η為10時進行其中設置粒子數(shù)目m = 100至1000的處理。當在步驟S105中完成假設的設置時,該處理繼續(xù)到步驟S106。在步驟S106中計算與各粒子對應的權值、也就是粒子權值[WPID]。至于粒子權值[WPID],起初向各粒子設置統(tǒng)一值,然而根據(jù)事件輸入來進行更新。將參照圖11具體描述粒子權值[WpID]的計算處理。粒子權值[WpID]對應于生成事件生成源假設目標的各粒子的假設正確性指標。將粒子權值[WPID]計算為在事件與目標之間的似然度、也就是與如下輸入事件的相似性,該輸入事件是能夠與在數(shù)目為m的粒子 (pID= 1至m)的每個中設置的多個目標中的各目標關聯(lián)的事件生成源。在圖11中,信息統(tǒng)合處理單元131示出了與從語音事件檢測單元122和圖像事件檢測單元112輸入的單個事件(eID = 1)對應的事件信息401和信息統(tǒng)合處理單元131維持的單個粒子421。粒子421的目標(tID = 2)是能夠與事件(eID = 1)關聯(lián)的目標。在圖11的下端示出了在事件與目標之間的似然度計算處理例子。將粒子權值 [WPID]計算為與在事件與目標之間的似然度之和對應的值作為在各粒子中計算的在事件與目標之間的相似性指標。進行圖11的下端所示的似然度計算處理,從而單獨計算(a)高斯分布間似然度 [DL],作為在關于用戶位置信息的事件與目標數(shù)據(jù)之間的相似性數(shù)據(jù),和(b)用戶確信度信息(UlD)間似然度[UL],作為在關于用戶ID信息(面部ID信息或者說話者ID信息)的事件與目標數(shù)據(jù)之間的相似性數(shù)據(jù)。將高斯分布間似然度[DL]計算為在(a)關于用戶位置信息的事件與假設目標之間的相似性數(shù)據(jù)的處理是以下處理。當與在輸入事件信息內的用戶位置信息對應的高斯分布為NOv ο e)而與從粒子選擇的假設目標的用戶位置信息對應的高斯分布為N(mt,ot)時,按照下式計算高斯分布間似然度[DL]DL = N(mt, σ t+σ e)x|me在上式中,位置χ = me在分布ot+oe這一高斯分布中的值為中心mt。(b)將用戶確信度信息(UlD)間似然度[UL]計算為在針對用戶ID信息(面部ID 信息或者說話者ID信息)的事件與假設目標之間的相似性數(shù)據(jù)的處理如下進行。假設在輸入事件信息內的用戶確信度信息(UlD)的各用戶1至k的確信度值為 Pe[i]。此外,“i”為與用戶識別符1至k對應的變量。使用從粒子選擇的假設目標的用戶確信度信息(UlD)的各用戶1至k的確信度值 (得分)作為Pt[i]按照下式計算用戶確信度信息(UlD)間似然度[UL]。UL=E Pe [i] XPt [i]在上式中,獲得在兩個數(shù)據(jù)的用戶確信度信息(UlD)中包括的相應對應用戶確信度值(得分)的乘積求和,并且使用獲得的和作為用戶確信度信息(UlD)間似然度[UL]?;谏鲜鰞蓚€似然度(也就是高斯分布間似然度[DL]和用戶確信度信息(UlD) 間似然度[UL])使用權值α (α = 0至1)按照下式計算粒子權值[WpID]。[ffpID] = Σ nUL α XDL1^a
這里,η表示與在粒子中包括的事件對應的目標的數(shù)目。使用上式來計算粒子權值[WPID]。然而α = 0至1。關于各粒子計算粒子權值[WpID]。應用于計算粒子權值DVpm]的權值[α ]可以是預定固定值或者是根據(jù)輸入事件值而改變的值。例如當輸入事件為圖像時成功進行面部檢測以獲取位置信息,然而當錯誤進行面部ID時,滿足用戶確信度信息(UlD)間似然度UL = 1作為α = 0的設置,從而可以僅根據(jù)高斯分布間似然度[DL]計算粒子權值[WPID]。此外,當輸入事件為語音時成功進行說話者ID以獲取說話者ID信息,然而當錯誤進行位置信息的獲取時,滿足高斯分布間似然度[DL] = 1作為α =0的設置,從而可以僅根據(jù)用戶確信度信息(UlD)間似然度[UL] 計算粒子權值[WPID]。作為參照圖11描述的處理執(zhí)行在圖10的流程圖的步驟S106中的與各粒子對應的權值[WPID]的計算。接著在步驟S107中進行基于在步驟S106中設置的各粒子的粒子權值[WPID]的粒子的重新采樣處理。作為根據(jù)粒子權值[WpID]從數(shù)目為m的粒子挑選粒子的處理執(zhí)行粒子重新采樣處理。具體而言,例如在粒子數(shù)目為m = 5的情況下,當分別設置以下粒子權值時粒子1 粒子權值[ffpID] = 0. 40,粒子2 粒子權值 DVp1d] = 0. 10,粒子3 粒子權值[WpID] = 0. 25,粒子4 粒子權值DVp1d] = 0. 05,以及粒子5 粒子權值[WpID] = 0. 20。粒子1的重新采樣概率為40 Y,而粒子2的重新采樣概率為10%。此外,事實上 m= 100至1,000,并且重新采樣結果由分布比與粒子權值對應的粒子配置。通過這一處理,粒子權值[WpID]大的更多粒子保留。此外,即使在重新采樣之后, 粒子總數(shù)[m]不變。此外,在重新采樣之后,重置各粒子的權值[WpID],并且根據(jù)來自步驟 SlOl的新事件的輸入反復進行該處理。在步驟S108中,進行在各粒子中包括的目標數(shù)據(jù)(用戶位置和用戶確信度)的更新。如參照圖7所述,各目標由比如以下數(shù)據(jù)配置(a)用戶位置與各目標對應的存在位置的概率分布[高斯分布N(mt,σ t)](b)為用戶1至k的確立值(得分)Pt[i](i = 1至k),作為用戶確信度表明各目標是誰的用戶確信度信息(UlD)、也就是UlDtl = Pt [1]UlDt2 = Pt [2]UlDtk = PtDO,以及(c)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))?;谂c表明事件生成源的上述信號信息對應的概率PeID = x(tID = y)和與各事件對應的面部屬性得分SrfD = i計算(C)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))。這里,“i “為事件ID。例如按照下式計算目標ID = I的面部屬性期望值
StID = i °Stm = 1 =Σ eIDPeID = i(tID = l)XSeID = i0
當被一般化和表明時按照下式1計算目標的面部屬性的期望值、^”〈式1>Stm=E eIDPeID = i(tID)XSeID此外,當目標數(shù)目大于面部圖像事件數(shù)目,從而各目標的面部屬性的期望值之和 [StID]為[1]時,使用補數(shù)[ι- Σ eIDPeID(tID)]和先驗知識值[Sprior]在下式2中計算面部事件屬性的期望值StID?!词?>Stm = Σ eIDPeID (tID) X SeID+(l- Σ eIDPeID (tID)) X Sprior關于(a)用戶位置、(b)用戶確信度和(C)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))中的各項進行在步驟S108中的目標數(shù)據(jù)的更新。首先將描述(a)用戶位置的更新。進行(a)用戶位置的更新作為比如以下兩個階段的更新(al)關于所有粒子的所有目標的更新和(a》關于在各粒子中設置的事件生成源假設目標的更新。關于作為事件生成源假設目標而選擇的目標和其它目標進行(al)關于所有粒子的所有目標的更新?;谟脩粑恢玫碾x散隨時間擴展這一假設進行更新,并且按照從先前更新處理起的流逝時間和事件的位置信息使用卡爾曼濾波器來進行更新。下文將描述在位置信息為一維的情況下的更新處理例子。首先,當在先前更新處理的時間之后的流逝時間[dt]時,關于所有目標計算在dt之后的用戶位置的預測分布。也就是說,關于作為用戶位置分布信息的高斯分布(N(mt,ot)的期望值(平均值)[mt]和分布[ot])進行以下更新。mt = mt+xc X dtot2= σ t2+ σ c2 X dt這里,mt表示預測期望值(預測狀態(tài)),σ t2表示預測協(xié)方差(預測估計協(xié)方差), xc表示移動信息(控制模型),而σ C2表示噪聲(處理噪聲)。此外,在用戶未移動的條件之下進行更新的情況下,使用xc = O來進行更新。通過上述計算處理,更新作為在所有目標中包括的用戶位置信息的高斯分布
N(mt, σ t) 0接著將描述(U)關于在各粒子中設置的事件生成源假設目標的更新。在步驟S104中更新根據(jù)設置的事件生成源假設選擇的目標。首先,如參照圖5所述,設置在各粒子1至m中包括的各目標1至η作為能夠與各事件(eID = 1至k)關聯(lián)的目標。也就是說,預先設置根據(jù)事件ID(elD)更新在各粒子中包括的哪些目標,并且基于該設置僅更新能夠與輸入事件關聯(lián)的目標。例如按照圖5中所示的[事件ID = l(eID =1)]的事件對應信息361,在粒子l(pID= 1)中有選擇地僅更新目標ID = KtID= 1) 的數(shù)據(jù)。在基于事件生成源假設進行的更新處理中,進行能夠與事件關聯(lián)的目標的更新。 進行使用如下高斯分布NOv Oj的更新處理,該高斯分布表明在從語音事件檢測單元122 或者圖像事件檢測單元112輸入的事件信息中包括的用戶位置。例如當假設K表示卡爾曼增益、me表示在輸入事件信息N(me,σ e)中包括的觀察值
23(觀察狀態(tài)),而表示在輸入事件信息NOv oe)中包括的觀察值(觀察協(xié)方差)時, 進行以下更新 接著將描述(b)作為目標數(shù)據(jù)的更新處理而進行的用戶確信度的更新。在目標數(shù)據(jù)中包括除了用戶位置信息之外的為各用戶1至k的概率(得分)Pt[i] (i = 1至k),作為表明各目標是誰的用戶確信度信息(UlD)。在步驟S108中進行關于用戶確信度信息(UlD) 的更新處理。通過應用預先設置的值范圍為O至1的更新率[β]、按照所有登記用戶的后驗概率和在從語音事件檢測單元122或者圖像事件檢測單元112輸入的事件信息中包括的用戶確信度信息(uID)Pt[i] (i = 1至k)來進行關于在各粒子中包括的目標的用戶確信度信息 (uID)Pt[i] (i = 1 至 k)的更新。按照下式進行關于目標的用戶確信度信息(uID)Pt[i] (i = 1至k)的更新。Pt[i] = (1-β ) ΧΡ [ ] + β * Pe[i]這里,i = l至k而β = 0至1。此外,更新率[β]對應于值0至1并且預先加以設置。在步驟S108中,在更新的目標數(shù)據(jù)中包括以下數(shù)據(jù)S卩(a)用戶位置與各目標對應的存在位置的概率分布[高斯分布N(mt,ot)], (b)為用戶1至k的確立值(得分) Pt[i](i = 1至k),作為用戶確信度表明各目標是誰的用戶確信度信息(uID)),也就是UlDtl = PT [1]UlDt2 = PT [2].·UlDtk = PTDO,以及(c)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))。基于上述數(shù)據(jù)和各粒子權值[WpID]生成目標信息,并且向處理確定單元132輸出生成的目標信息。此外,將目標信息生成為在各粒子(PID = 1至m)中包括的各目標(tID = 1至η) 的對應數(shù)據(jù)的加權求和數(shù)據(jù)。目標信息是在圖7的右端所示目標信息308中所示的數(shù)據(jù)。 將目標信息生成為各目標(tID = 1至η)的包括(a)用戶位置信息、(b)用戶確信度信息和(c)面部屬性期望值(在這一實施例中是作為說話者的期望值(概率))的信息。例如將與目標(tID = 1)對應的目標信息的用戶位置信息表示為下式A。
mΣ ^WV(Wil5Oh)W(KA)在上式1中,Wi表示粒子權值DVpm]。此外,將與目標(tID = 1)對應的目標信息的用戶確信度信息表示為下式B。
mX Wi-UlDin
2權利要求
1.一種信息處理裝置,包括多個信息輸入單元,輸入實際空間的觀察信息;事件檢測單元,基于對從所述信息輸入單元輸入的信息的分析來生成包括存在于實際空間中的用戶的估計位置信息和估計識別信息的事件信息;以及信息統(tǒng)合處理單元,輸入所述事件信息,并且基于輸入的所述事件信息生成包括各用戶的位置和用戶識別信息的目標信息以及代表針對事件生成源的概率值的信號信息,其中所述信息統(tǒng)合處理單元包括具有識別器的說話源概率計算單元,并且使用所述說話源概率計算單元中的所述識別器來計算基于輸入信息的說話源概率。
2.根據(jù)權利要求1所述的信息處理裝置,其中所述識別器輸入與說話事件對應的(a)用戶位置信息(聲源方向信息)和(b)用戶ID 信息(說話者ID信息),作為來自構成所述事件檢測單元的語音事件檢測單元的輸入信息,輸入(a)用戶位置信息(面部位置信息)、(b)用戶ID信息(面部ID信息)和(c)嘴唇動作信息,作為基于來自構成所述事件檢測單元的圖像事件檢測單元的輸入信息而生成的所述目標信息,以及進行如下處理通過應用至少一個信息來計算基于所述輸入信息的所述說話源概率。
3.根據(jù)權利要求1所述的信息處理裝置,其中所述識別器進行如下處理基于在從預設目標選擇的兩個目標的目標信息之間的比較,識別所述兩個目標的所述目標信息中的哪個目標信息為說話源。
4.根據(jù)權利要求3所述的信息處理裝置,其中所述識別器在對關于所述識別器的所述輸入信息中包括的多個目標的目標信息的比較處理中,計算在所述目標信息中包括的各信息的對數(shù)似然度比,并且進行如下處理根據(jù)所述計算的對數(shù)似然度比計算代表所述說話源概率的說話源得分。
5.根據(jù)權利要求4所述的信息處理裝置,其中所述識別器使用作為關于所述識別器的所述輸入信息的聲源方向信息(D)、說話者ID信息(S)和嘴唇動作信息(L)來計算例如 Iog(D1ZD2)、Iog(S1ZiS2)和Iog(IVL2)的三種對數(shù)似然度比中的至少任何對數(shù)似然度比,作為兩個目標1和2的對數(shù)似然度比,從而將所述說話源得分計算為所述目標1和2的所述說話源概率。
6.根據(jù)權利要求1所述的信息處理裝置,其中所述信息統(tǒng)合處理單元包括目標信息更新單元,進行其中應用多個粒子的粒子過濾處理并且生成分析信息,所述多個粒子基于來自構成所述事件檢測單元的圖像事件檢測單元的所述輸入信息設置與虛擬用戶對應的多個目標數(shù)據(jù),所述分析信息包括存在于所述實際空間中的所述用戶的所述位置信息,以及所述目標信息更新單元通過將所述粒子設置的各目標數(shù)據(jù)分組與從所述事件檢測單元輸入的各事件關聯(lián)來進行設置,根據(jù)輸入的事件識別符進行對從各所述粒子選擇的事件對應目標數(shù)據(jù)的更新,并且生成包括(a)用戶位置信息(面部位置信息)、(b)用戶ID信息 (面部ID信息)和(c)嘴唇動作信息的所述目標信息,從而向所述說話源概率計算單元輸出生成的目標信息。
7.根據(jù)權利要求6所述的信息處理裝置,其中所述目標信息更新單元通過將目標與在所述事件檢測單元中檢測到的面部圖像單位的各事件關聯(lián)來進行處理。
8.根據(jù)權利要求6所述的信息處理裝置,其中所述目標信息更新單元通過進行所述粒子過濾處理來生成包括存在于所述實際空間中的所述用戶的所述用戶位置信息和所述用戶ID信息的所述分析信息。
9.一種用于在信息處理裝置中進行信息分析處理的信息處理方法,所述方法包括 多個信息輸入單元輸入實際空間的觀察信息;檢測事件檢測單元基于對從所述信息輸入單元輸入的信息的分析對包括存在于所述實際空間中的用戶的估計位置信息和估計ID信息的事件信息的生成;以及信息統(tǒng)合處理單元輸入所述事件信息,并且基于所述輸入的事件信息生成包括各用戶的位置和用戶ID信息的目標信息以及代表針對事件生成源的概率值的信號信息,其中在輸入所述事件信息以及生成所述目標信息和所述信號信息時,當生成代表所述事件生成源的概率的所述信號信息時使用識別器來進行說話源概率計算處理,所述識別器用于計算基于輸入信息的說話源概率。
10.一種使信息處理裝置執(zhí)行信息分析處理的程序,所述信息分析處理包括 多個信息輸入單元輸入實際空間的觀察信息;檢測事件檢測單元基于對從所述信息輸入單元輸入的信息的分析對包括存在于所述實際空間中的用戶的估計位置信息和估計ID信息的事件信息的生成;以及信息統(tǒng)合處理單元輸入所述事件信息,并且基于輸入的事件信息生成包括各用戶的位置信息和用戶ID信息的目標信息并且生成代表針對事件生成源的概率值的信號信息,其中在輸入所述事件信息以及生成所述目標信息和所述信號信息時,當生成代表所述事件生成源的概率的所述信號信息時使用識別器來進行說話源概率計算過程,所述識別器用于計算基于輸入信息的說話源概率。
全文摘要
本發(fā)明涉及信息處理裝置、信息處理方法和程序。該信息處理裝置包括多個信息輸入單元,輸入實際空間的觀察信息;事件檢測單元,基于對從信息輸入單元輸入的信息的分析來生成存在于實際空間中的用戶的包括估計位置信息和估計識別(ID)信息的事件信息;以及信息統(tǒng)合處理單元,輸入事件信息并且基于輸入的事件信息生成各用戶的包括位置和用戶ID信息的目標信息,以及代表針對事件生成源的概率值的信號信息。這里,信息統(tǒng)合處理單元包括具有識別器的說話源概率計算單元,并且使用說話源概率計算單元中的識別器基于輸入信息來計算說話源概率。
文檔編號G06F3/16GK102375537SQ20111022525
公開日2012年3月14日 申請日期2011年8月2日 優(yōu)先權日2010年8月9日
發(fā)明者山田敬一, 澤田務 申請人:索尼公司