專利名稱:信息處理設(shè)備、信息處理方法和程序的制作方法
技術(shù)領(lǐng)域:
本公開涉及信息處理設(shè)備、信息處理方法和程序,并且更加具體地涉及基于用戶等的發(fā)聲來執(zhí)行各種過程的信息處理設(shè)備、信息處理方法和程序。
背景技術(shù):
當使用個人計算機(PC)、電視機、記錄/重放裝置或其它家用電器時,用戶操作針對每個設(shè)備設(shè)置的輸入單元或遙控器,以便使設(shè)備執(zhí)行期望的過程。例如,當使用PC時,鍵盤和鼠標典型地用作輸入裝置。另外,在電視機或記錄/重放裝置等的情況下,使用遙控器來使設(shè)備執(zhí)行各種過程如切換頻道和選擇將要重放的內(nèi)容。對下述系統(tǒng)已實施了各種研究,在所述系統(tǒng)中,用戶可以通過進行發(fā)聲或者通過動作來命令各種設(shè)備。更加具體地,存在比如這樣一種系統(tǒng),在所述系統(tǒng)中,通過使用語音識別過程來識別用戶的發(fā)聲,還存在比如這樣一種系統(tǒng),在所述系統(tǒng)中,通過使用圖像識別過程來識別用戶的動作或姿勢。使用普通輸入裝置如遙控器、鍵盤或鼠標以及各種通信模式如語音識別和圖像識別來執(zhí)行與用戶的通信所通過的界面被稱為“多模界面”。其中記載了多模界面的現(xiàn)有技術(shù)的例子是美國專利第6,988,072號。然而,與多模界面等一起使用的語音識別設(shè)備和圖像識別設(shè)備在其處理能力方面受到限制,并且只能理解有限數(shù)目的用戶發(fā)聲和動作的類型。因此目前存在許多其中用戶的意圖未被系統(tǒng)確切地理解的情形。特別是在采用語音識別的系統(tǒng)中,盡管當用戶可以講的命令類型數(shù)目增加時他/她可以感受自然的互動,但是就接下來講什么而言用戶有時會有困難,因為他/她難以得知可以被系統(tǒng)接收的可用命令。
發(fā)明內(nèi)容
因此,希望在其中信息處理設(shè)備通過接收語音信息和圖像信息如用戶的發(fā)聲和動作來執(zhí)行過程的多模交互系統(tǒng)中,提供一種信息處理設(shè)備、信息處理方法和程序,其可以例如根據(jù)用戶的存在、用戶的臉的方向、用戶的狀態(tài)、系統(tǒng)的狀態(tài)和過去響應(yīng)的歷史向用戶提供最佳幫助信息。根據(jù)本公開的第一實施例的信息處理設(shè)備包括圖像分析單元,其執(zhí)行用于分析通過攝影機捕捉的圖像的過程;語音分析單元,其執(zhí)行用于分析從麥克風輸入的語音的過程;以及數(shù)據(jù)處理單元,其接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制。數(shù)據(jù)處理單元至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算用戶的困難度,并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向用戶輸出幫助信息的過程。進而,在根據(jù)本公開的第一實施例的信息處理設(shè)備中,數(shù)據(jù)處理單元可以基于圖像分析的結(jié)果判斷用戶的臉是否面對信息處理設(shè)備,并且可以通過使用關(guān)于判斷的信息來計算困難度。
進而,在根據(jù)本公開的第一實施例的信息處理設(shè)備中,數(shù)據(jù)處理單元可以基于圖像分析的結(jié)果判斷用戶的臉面對特定方向所經(jīng)歷的持續(xù)時間,并且可以通過使用關(guān)于判斷的信息來計算困難度。進而,在根據(jù)本公開的第一實施例的信息處理設(shè)備中,數(shù)據(jù)處理單元可以通過使用關(guān)于與用戶做出的請求相對應(yīng)的過程是否已被執(zhí)行的判斷的信息來計算困難度。進而,在根據(jù)本公開的第一實施例的信息處理設(shè)備中,數(shù)據(jù)處理單元可以基于關(guān)于用戶做出的請求已被拒絕的次數(shù)的信息來判斷用戶等級,并且可以通過使用關(guān)于判斷的信息來計算困難度。進而,在根據(jù)本公開的第一實施例的信息處理設(shè)備中,數(shù)據(jù)處理單元可以基于關(guān)于自從信息處理設(shè)備執(zhí)行用于對用戶做出響應(yīng)的過程以來所經(jīng)過的時間的信息來計算困難度。進而,根據(jù)本公開的第一實施例的信息處理設(shè)備進一步可以包括系統(tǒng)狀態(tài)控制單元,其獲得并可以存儲信息處理設(shè)備的狀態(tài)轉(zhuǎn)移。數(shù)據(jù)處理單元可以執(zhí)行用于輸出與系統(tǒng)狀態(tài)控制單元中存儲的系統(tǒng)狀態(tài)相對應(yīng)的幫助信息的過程。進而,在信息處理設(shè)備中使用的根據(jù)本公開的第二實施例的信息處理方法包括 使用圖像分析單元執(zhí)行用于分析通過攝影機捕捉的圖像的過程;使用語音分析單元執(zhí)行用于分析從麥克風輸入的語音的過程;以及使用數(shù)據(jù)處理單元接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制。在接收時,至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算用戶的困難度, 并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向用戶輸出幫助信息的過程。進而,使信息過程在信息處理設(shè)備中執(zhí)行的根據(jù)本公開的第三實施例的程序包括使圖像分析單元執(zhí)行用于分析通過攝影機捕捉的圖像的過程;使語音分析單元執(zhí)行用于分析從麥克風輸入的語音的過程;以及使數(shù)據(jù)處理單元接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行向用戶的幫助信息的輸出控制。在使數(shù)據(jù)處理單元接收結(jié)果時,至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算用戶的困難度,并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向用戶輸出幫助信息的過程。要注意的是,根據(jù)本公開的第三實施例的程序例如是可以從存儲介質(zhì)或通信介質(zhì)提供的程序,所述存儲介質(zhì)或通信介質(zhì)將程序作為計算機可讀程序提供給能夠執(zhí)行各種程序代碼的信息處理設(shè)備或計算機系統(tǒng)。通過提供作為計算機可讀程序的程序,可以在信息處理設(shè)備或計算機系統(tǒng)上實現(xiàn)對應(yīng)于程序的過程。基于稍后將會參考的附圖和本公開的實施例,將會通過詳細的描述來闡明本技術(shù)的其它特性和優(yōu)點??梢岳斫獾氖牵颂幍摹跋到y(tǒng)”指的是包括一組多個設(shè)備的邏輯構(gòu)造, 因此不限于這樣一種構(gòu)造,在所述構(gòu)造中,在同樣的情況下提供具有各個構(gòu)造的設(shè)備。在根據(jù)本公開實施例的構(gòu)造中,實現(xiàn)了下述設(shè)備和方法,所述設(shè)備和方法分析用戶的狀態(tài),判斷用戶的困難度,并且根據(jù)判斷的結(jié)果提供幫助信息。更加具體地,數(shù)據(jù)處理單元接收通過圖像分析單元實施的分析的結(jié)果和通過語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制,其中,所述圖像分析單元執(zhí)行用于分析通過攝影機捕捉的圖像的過程,并且所述語音分析單元執(zhí)行用于分析從麥克風輸入的語音的過程。作為圖像分析的結(jié)果,數(shù)據(jù)處理單元例如獲得用戶信息如用戶的臉是否面對設(shè)備,并且基于獲得的用戶信息來計算用戶的困難度。如果計算出的困難度等于或大于預(yù)定閾值,則數(shù)據(jù)處理單元執(zhí)行用于向用戶輸出幫助信息的過程。
圖1是圖示根據(jù)本公開實施例的信息處理設(shè)備的使用的例子的示圖;圖2是圖示根據(jù)本公開實施例的信息處理設(shè)備的構(gòu)造的例子的框圖;圖3是圖示根據(jù)本公開實施例的信息處理設(shè)備的詳細構(gòu)造的例子的框圖;圖4是圖示根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的例子的流程圖;圖5是圖示根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的例子的流程圖;圖6是圖示根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的例子的流程圖;圖7是圖示根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的例子的流程圖;圖8是圖示根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的例子的示圖;圖9是圖示根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的例子的示圖;以及圖10是圖示根據(jù)本公開實施例的信息處理設(shè)備的硬件構(gòu)造的例子的示圖。
具體實施例方式在下文中參考附圖來描述根據(jù)本公開實施例的信息處理設(shè)備、信息處理方法和程序的細節(jié)。要注意的是,描述分成以下幾項1.由根據(jù)本公開實施例的信息處理設(shè)備執(zhí)行的過程概述2.根據(jù)本公開實施例的信息處理設(shè)備的構(gòu)造的例子3.用于輸出用于用戶的幫助信息的過程的特定例子4.信息處理設(shè)備的硬件構(gòu)造的例子1.由根據(jù)本公開實施例的信息處理設(shè)備執(zhí)行的過程概述首先,參考圖1來描述根據(jù)本公開實施例的信息處理設(shè)備所執(zhí)行的過程的概述。 在圖1中,電視機被圖示為根據(jù)本公開實施例的信息處理設(shè)備的例子。信息處理設(shè)備100例如執(zhí)行用于顯示廣播內(nèi)容的過程以及用于重放記錄在內(nèi)置的記錄/重放裝置如硬盤、數(shù)字通用盤(DVD)或藍光盤上的內(nèi)容的過程和用于將節(jié)目記錄在記錄/重放裝置上的過程等。在信息處理設(shè)備100前面有多個用戶。在圖1所示的例子中,有用戶a 11、用戶b 12和用戶c 13。這些用戶向信息處理設(shè)備100做出各種請求。請求例如包括切換頻道、調(diào)整音量、開始記錄過程、顯示記錄內(nèi)容列表、選擇并重放來自列表的內(nèi)容、停止重放以及快進。用戶a 11至c 13用語音亦即用發(fā)聲來做出這些請求。信息處理設(shè)備100包括攝影機101和具有麥克風和揚聲器的語音輸入/輸出單元102。通過具有麥克風和揚聲器的語音輸入/輸出單元102將用戶a 11至c 13說出的話輸入到信息處理設(shè)備100。另外,通過攝影機101將用戶a 11至c 13的圖像輸入到信息處理設(shè)備100。信息處理設(shè)備100分析這些輸入的信息,然后確定由此將要執(zhí)行的行為,并且執(zhí)行所述行為。如果信息處理設(shè)備100可以理解用戶做出的請求,則執(zhí)行與請求相對應(yīng)的過程。過程例如可以是切換頻道或選擇并重放內(nèi)容等。
信息處理設(shè)備100例如分析用戶在過去幾個步驟中的臉的方向、用戶注視的方向、在先前發(fā)聲之后所經(jīng)過的時間、自從系統(tǒng)輸出上次響應(yīng)以來所經(jīng)過的時間、在過去幾個步驟中響應(yīng)于用戶做出的語音命令而執(zhí)行的系統(tǒng)的行為以及系統(tǒng)的當前狀態(tài)等。根據(jù)分析的結(jié)果,信息處理設(shè)備100估計用戶是否想要來自系統(tǒng)的幫助。如果已估計用戶正經(jīng)歷困難,則例如通過呈現(xiàn)用于顯示幫助的一個或多個可用命令的例子來輸出幫助信息。稍后會描述這個操作的特定過程。2.根據(jù)本公開實施例的信息處理設(shè)備的構(gòu)造的例子根據(jù)本公開實施例的信息處理設(shè)備包括圖像分析單元,其執(zhí)行用于分析通過攝影機捕捉的圖像的過程;語音分析單元,其執(zhí)行用于分析從麥克風輸入的語音的過程;以及數(shù)據(jù)處理單元,其接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制,其中,所述數(shù)據(jù)處理單元至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算所述用戶的困難度,并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向所述用戶輸出幫助信息的過程。接下來,參考圖2來描述根據(jù)本公開實施例的信息處理設(shè)備的構(gòu)造的例子。圖2 所示的信息處理設(shè)備100例如對應(yīng)于圖1所示的信息處理設(shè)備100。要注意的是,根據(jù)本公開實施例的信息處理設(shè)備不僅可以實現(xiàn)為電視機,而且還可以實現(xiàn)為PC、記錄/重放裝置或各種其它家用電器。亦即,根據(jù)本公開實施例的信息處理設(shè)備是根據(jù)用戶做出的請求執(zhí)行各種過程的信息處理設(shè)備。如圖2所示,信息處理設(shè)備100包括圖像輸入單元(攝影機)201、圖像分析單元 202、語音輸入單元(麥克風)203、語音分析單元204、數(shù)據(jù)處理單元205、語音輸出單元(揚聲器)206和圖像輸出單元(顯示器)207。圖像輸入單元(攝影機)201接收信息處理設(shè)備100的周圍的圖像,例如接收用戶的圖像。將圖像輸入單元(攝影機)201捕捉的圖像輸入到圖像分析單元202。圖像分析單元202執(zhí)行下述過程例如使用預(yù)先存儲在存儲單元中的登記信息如用戶的臉信息,識別捕捉的圖像中包括的用戶。更加具體地,分析諸如用戶的位置和用戶的身份等之類的信息。 將這個分析信息輸入到數(shù)據(jù)處理單元205。語音輸入單元(麥克風)203接收信息處理設(shè)備100周圍的語音信息,例如接收用戶的發(fā)聲。將語音輸入單元(麥克風)203接收的語音信息輸入到語音分析單元204。語音分析單元204在存儲單元中具有用于語音分析的詞典,并且使用該詞典分析由用戶說出的話,然后將分析信息輸入到數(shù)據(jù)處理單元205。數(shù)據(jù)處理單元205接收來自語音分析單元204的語音分析信息和來自圖像分析單元202的圖像分析信息。根據(jù)輸入的信息,數(shù)據(jù)處理單元205確定將要由信息處理設(shè)備100 執(zhí)行的過程(行為)。亦即,如上所述,如果信息處理設(shè)備100可以理解用戶做出的請求,則執(zhí)行與請求相對應(yīng)的過程。過程例如可以是切換頻道或選擇并重放內(nèi)容。進而,數(shù)據(jù)處理單元205例如分析用戶在過去幾個步驟中的臉的方向、用戶注視的方向、在先前發(fā)聲之后所經(jīng)過的時間、自從系統(tǒng)輸出上次響應(yīng)以來所經(jīng)過的時間、在過去幾個步驟中響應(yīng)于用戶做出的語音命令而執(zhí)行的系統(tǒng)的行為以及系統(tǒng)的當前狀態(tài)等。根據(jù)分析的結(jié)果,數(shù)據(jù)處理單元205估計用戶是否想要來自系統(tǒng)的幫助。如果已估計用戶正經(jīng)歷困難,則例如通過呈現(xiàn)用于顯示幫助的一個或多個可用命令的例子來輸出幫助信息。
通過語音輸出單元(揚聲器)206作為語音輸出,或者通過圖像輸出單元(顯示器)207作為圖像輸出,或者通過這兩者的組合,執(zhí)行用于輸出幫助信息的過程。稍后將會描述這個操作的特定內(nèi)容。圖3是圖示圖2所示的信息處理設(shè)備100的詳細構(gòu)造的示圖。圖像分析單元202具有臉/臉方向識別單元311和個人識別單元312。語音分析單元204具有語音檢測單元321和意義檢測單元322。數(shù)據(jù)處理單元205具有用戶信息管理單元331、用戶交互狀態(tài)估計單元332、系統(tǒng)狀態(tài)控制單元333、系統(tǒng)響應(yīng)生成單元334和系統(tǒng)響應(yīng)輸出單元335。在以預(yù)定幀間隔設(shè)置的每個采樣時間,圖像分析單元202中的臉/臉方向識別單元311和個人識別單元312基于從圖像輸入單元(攝影機)201輸入的捕捉圖像來判斷在幀圖像中是否有臉或人。如果已判斷在幀圖像中有臉或人,則臉/臉方向識別單元311和個人識別單元312例如估計臉的屬性(臉的角度、估計年齡和性別等),分析臉的方向,并且識別臉。對于這個過程所必須的詞典數(shù)據(jù)和臉圖像信息登記在圖像分析單元202中包括的存儲器中。例如,通過執(zhí)行下述過程來執(zhí)行諸如用于識別臉的過程之類的過程將從圖像輸入單元(攝影機)201輸入的圖像中識別的人臉與預(yù)先登記的臉圖像數(shù)據(jù)相匹配?;趶恼Z音輸入單元(麥克風)203輸入的語音數(shù)據(jù),語音分析單元204中的語音檢測單元321和意義檢測單元322例如估計語音來源的方向,檢測音幀,識別意義,并且提供可靠性。語音分析單元204在存儲單元中具有用于語音分析的詞典,并且使用該詞典來分析由用戶說出的話,然后將分析信息輸入到數(shù)據(jù)處理單元205。在語音分析過程期間,執(zhí)行用于拒絕除了語音之外的聲音而只獲得人話音的過程。進而,基于獲得的語音信息執(zhí)行用于提取意義的過程。這個過程例如基于下述過程來執(zhí)行將獲得的語音信息與語音分析單元204中存儲的詞典數(shù)據(jù)相匹配。在這個過程期間, 在其中例如不存在與獲得的語音信息相匹配的登記話語的情況下,獲得的語音信息的數(shù)據(jù)被作為無意義的發(fā)聲而拒絕。進而,計算語音識別的可靠性。例如基于與語音分析單元204 等中存儲的詞典數(shù)據(jù)相關(guān)的匹配比率來計算可靠性。作為與預(yù)定閾值等相比較的結(jié)果而已被判斷為具有低可靠性的發(fā)聲會被拒絕。如圖3所示,數(shù)據(jù)處理單元205具有用戶信息管理單元331、用戶交互狀態(tài)估計單元332、系統(tǒng)狀態(tài)控制單元333、系統(tǒng)響應(yīng)生成單元334和系統(tǒng)響應(yīng)輸出單元335。用戶信息管理單元331接收從臉/臉方向識別單元311和個人識別單元312輸出的信息比如在圖像中是否包括臉,并且如果在圖像中包括臉,則接收信息比如臉屬性估計結(jié)果(臉的角度、估計年齡和性別等)、臉方向分析結(jié)果和臉識別結(jié)果。進而,用戶信息管理單元331從語音分析單元204中的意義檢測單元322接收關(guān)于發(fā)聲內(nèi)容的信息。用戶信息管理單元331存儲并管理這些輸入的信息作為用戶管理信息。要注意的是,隨著時間過去相繼更新這些信息,并且用戶信息管理單元331在存儲器上記錄并管理這些信息,作為對應(yīng)于每個采樣時間(t,t+l,t+2等等)的用戶信息。將用戶信息管理單元331中存儲的用戶信息提供給用戶交互狀態(tài)估計單元332。用戶交互狀態(tài)估計單元332例如執(zhí)行以下過程過程A 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的用戶臉的方向、用戶注視的方向和用戶的臉面對方向所經(jīng)歷的持續(xù)時間等的過程。
過程B 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的系統(tǒng)(信息處理設(shè)備100)的操作歷史(是否音幀檢測失敗和域外發(fā)聲)和用戶的學習等級的過程。過程C 用于根據(jù)自從系統(tǒng)(信息處理設(shè)備100)向用戶輸出上次響應(yīng)以來所經(jīng)過的時間來估計用戶正經(jīng)歷困難的概率(困難度)的過程,以及用于如果已判斷用戶正經(jīng)歷困難則呈現(xiàn)最佳幫助信息的過程。用戶交互狀態(tài)估計單元332通過使用以下信息中的任何一個來計算困難度(1) 關(guān)于臉方向的信息;(2)關(guān)于臉方向持續(xù)時間的信息;(3)用戶等級信息;(4)錯誤等級信息;以及(5)關(guān)于自從系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程以來所經(jīng)過的時間的信息。在下文中將會對此詳細描述。系統(tǒng)狀態(tài)控制單元333獲得并存儲系統(tǒng)(信息處理設(shè)備100)內(nèi)部的狀態(tài)轉(zhuǎn)移。系統(tǒng)響應(yīng)生成單元334判斷用戶的發(fā)聲是否有模糊性,并且根據(jù)用戶的狀態(tài)確定如何輸出系統(tǒng)的響應(yīng)。系統(tǒng)響應(yīng)輸出單元335向用戶輸出響應(yīng)如幫助信息。從語音輸出單元(揚聲器)206或者從圖像輸出單元(顯示器)207輸出響應(yīng)。3.用于輸出用于用戶的幫助信息的過程的特定例子接下來,作為由根據(jù)本公開實施例的信息處理設(shè)備執(zhí)行的過程的例子,描述用于輸出用于用戶的幫助信息的過程的特定例子。如上所述,采用語音識別和圖像識別的多模界面在將要使用的語音識別設(shè)備和圖像識別設(shè)備的處理能力方面受到限制,這不希望地限制了可以理解的用戶的發(fā)聲和動作類型的數(shù)目。結(jié)果,造成的問題在于可能存在下述情況用戶的意圖未被系統(tǒng)識別,因此與用戶的意圖相對應(yīng)的過程未被執(zhí)行。下面描述的過程的例子就是解決這種問題的過程的例子。在過程的這個例子中,分析用戶是否正經(jīng)歷困難,并且計算用戶的困難度,然后根據(jù)計算出的困難度執(zhí)行幫助信息的呈現(xiàn)。如上所述,數(shù)據(jù)處理單元205中的用戶交互狀態(tài)估計單元332執(zhí)行以下過程過程A 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的用戶臉的方向、用戶注視的方向和用戶的臉面對方向所經(jīng)歷的持續(xù)時間等的過程。過程B 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的系統(tǒng)(信息處理設(shè)備100)的操作歷史(是否音幀檢測失敗和域外發(fā)聲)和用戶的學習等級的過程。過程C 用于根據(jù)自從系統(tǒng)(信息處理設(shè)備100)向用戶輸出上次響應(yīng)以來所經(jīng)過的時間來估計用戶正經(jīng)歷困難的概率(困難度)的過程,以及用于如果已判斷用戶正經(jīng)歷困難則呈現(xiàn)最佳幫助信息的過程。參考圖4以及隨后的附圖的流程圖來描述這些過程A至C的特定處理序列。首先,參考圖4來描述過程A的序列。過程A是以下過程過程A 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的用戶臉的方向、用戶注視的方向和用戶的臉面對方向所經(jīng)歷的持續(xù)時間等的過程。在步驟SlOl中,輸入用戶信息。用戶信息是從圖像分析單元202和語音分析單元 204輸入到用戶信息管理單元331的信息。亦即,用戶信息包括在圖像中是否包括臉,并且如果在圖像中包括臉,則包括信息比如臉屬性估計結(jié)果(臉的角度、估計年齡和性別等)、 臉方向分析結(jié)果、臉識別結(jié)果以及關(guān)于發(fā)聲內(nèi)容的信息。要注意的是,隨著時間過去相繼更新這些信息,并且用戶交互狀態(tài)估計單元332從用戶信息管理單元331接收對應(yīng)于每個采樣時間(t,t+1,t+2等等)的信息。在步驟S102中,根據(jù)從用戶信息管理單元331輸入的用戶信息判斷用戶的臉在時間t是否面對系統(tǒng)(信息處理設(shè)備100)。數(shù)據(jù)處理單元205中的用戶交互狀態(tài)估計單元332具有水平方向上的角度閾值 (Θ_ΜΙΝ和Θ_ΜΑΧ)以及垂直方向上的角度閾值(Φ_ΜΙΝ* Φ_ΜΑΧ),作為用于判斷用戶的臉是否面對系統(tǒng)(信息處理設(shè)備100)的閾值。如果用戶的臉的方向處在這些角度的范圍之內(nèi),則判斷用戶面對系統(tǒng)(信息處理設(shè)備100)。亦即,在步驟S102中,判斷臉在時間t的方向(θ,Φ)是否滿足條件θ_ MIN 彡 θ 彡 θ _ΜΑΧ 和 Φ_ΜΙΝ 彡 Φ 彡 Φ_ΜΑΧ。如果已滿足了上述條件,則判斷用戶的臉面對系統(tǒng)(信息處理設(shè)備100),因此判斷步驟S102為“是”,并且處理前進到步驟S103。另一方面,如果上述條件未被滿足,則判斷用戶的臉沒有面對系統(tǒng)(信息處理設(shè)備100),因此判斷步驟S102為“否”,并且處理前進到步驟S104。在步驟S103中,判斷臉面對系統(tǒng),并且指示用戶的臉在時間t的方向的參數(shù) (FaceDirection (t))被設(shè)置如下FaceDirection (t)=針對系統(tǒng)上述數(shù)據(jù)是這樣的數(shù)據(jù),所述數(shù)據(jù)指示用戶的臉在時間t的方向表明用戶的臉面對系統(tǒng)。另一方面,在步驟S104中,判斷臉沒有面對系統(tǒng),并且指示用戶的臉在時間t的方向的參數(shù)(FaceDirection (t))被設(shè)置如下FaceDirection (t)=針對其它上述數(shù)據(jù)是這樣的數(shù)據(jù),所述數(shù)據(jù)指示用戶的臉在時間t的方向表明用戶的臉沒有面對系統(tǒng)。如在步驟SllO中描述的那樣,在步驟S103和S104中設(shè)置的數(shù)據(jù)存儲在存儲器中。存儲的數(shù)據(jù)被存儲為對應(yīng)于時間的數(shù)據(jù)。在步驟S103和S104中的過程之后,處理前進到步驟S105。在步驟S105中,判斷用戶的臉在時間t的方向(FaceDirectionU))是否匹配用戶的臉在先前采樣時間t-Ι的方向(FaceDirectiona-l))。亦即,判斷用戶是否持續(xù)面對同一方向。如果用戶的臉在時間t的方向(FaceDirectionU))匹配用戶的臉在先前采樣時間t-Ι的方向PaceDirecti0n(t-Ι)),則處理前進到步驟S106,并且用戶的臉的方向 (FaceDirection (t))的持續(xù)時間被更新并存儲在存儲器中。如果不匹配,則省略步驟S106中的過程。接下來,在步驟S107中,基于用戶的臉的方向(FaceDirectionU))的持續(xù)時間 (tfd),根據(jù)預(yù)定閾值將臉的方向的持續(xù)時間(FaceDirDur)分成⑴短期時間Ghort)、(2) 中期時間(Medium)或(3)長期時間(Long)。將類別存儲在存儲器中。接下來,參考圖5的流程圖來描述過程B的序列。過程B是以下過程過程B 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的系統(tǒng)(信息處理設(shè)備100)的操作歷史(是否音幀檢測失敗和域外發(fā)聲)和用戶的學習等級的過程。在步驟S201,判斷系統(tǒng)(信息處理設(shè)備100)是否已接收到用戶的發(fā)聲并執(zhí)行了過程。這個過程中的判斷是基于從系統(tǒng)狀態(tài)控制單元333輸入到用戶交互狀態(tài)估計單元332的系統(tǒng)處理信息來進行的。如果在步驟S201中已判斷系統(tǒng)(信息處理設(shè)備100)已接收到用戶的發(fā)聲并執(zhí)行了過程,則處理前進到步驟S202。如果已判斷系統(tǒng)(信息處理設(shè)備100)尚未執(zhí)行過程,則處理前進到步驟S211。當系統(tǒng)(信息處理設(shè)備100)已接收到用戶的發(fā)聲并執(zhí)行了過程時,處理前進到步驟S202。在步驟S202中,用戶的發(fā)聲已被拒絕的次數(shù)、亦即過程尚未根據(jù)用戶的發(fā)聲而被執(zhí)行的次數(shù)存儲在存儲器中作為會話信息。接下來,在步驟S203中,對關(guān)于過去幾次會話中拒絕次數(shù)的預(yù)定閾值和特征量進行比較?!疤卣髁俊痹诖死缰傅氖顷P(guān)于拒絕的原因等的信息。拒絕的原因例如包括音幀檢測失敗、判斷在領(lǐng)域之外進行發(fā)聲以及語音分析的結(jié)果被判斷為具有低可靠性。接下來,在步驟S204中,基于用于比較拒絕的次數(shù)、特征量和預(yù)定閾值的過程,將用戶分成以下用戶等級(User Level)之一 (a)初學者(Beginner)、(b)受訓(xùn)者(Trained) 和(c)專家(Expert)?!皶挕痹诖死缰傅氖侵钡脚c用戶的發(fā)聲相對應(yīng)的過程被估計為已執(zhí)行為止的一段時間。如果用戶的發(fā)聲是請求改變頻道,則“會話”指的是直到系統(tǒng)根據(jù)用戶做出的請求執(zhí)行正確的頻道改變?yōu)橹沟囊欢螘r間。如果在該段時間期間用戶已進行了多次(例如n+1 次)發(fā)聲,并且響應(yīng)于第(n+1)次發(fā)聲執(zhí)行了用于改變頻道的正確過程,則拒絕的次數(shù)為η。在步驟S204中,根據(jù)拒絕的次數(shù)和預(yù)定閾值將用戶分成以下用戶等級之一 (a) 已造成很多拒絕次數(shù)的用戶=初學者(Beginner) ; (b)已造成中等拒絕次數(shù)的用戶=受訓(xùn)者(Trained);以及(c)已造成很少拒絕次數(shù)的用戶=專家(Expert)。要注意的是,可以采用這樣的構(gòu)造,在所述構(gòu)造中,取決于作為拒絕原因的特征量是否相同而改變上述等級設(shè)置。另一方面,在步驟S201中,如果已判斷系統(tǒng)(信息處理設(shè)備100)已接收到用戶的發(fā)聲但尚未執(zhí)行過程,亦即如果用戶的發(fā)聲被拒絕,則處理前進到步驟S211。在步驟S211中,更新存儲在存儲器中的用戶的發(fā)聲已被拒絕的次數(shù)。要注意的是,在為什么未響應(yīng)于用戶的發(fā)聲而執(zhí)行過程的原因方面,亦即在為什么用戶的發(fā)聲被拒絕的原因方面,存在各種因素,比如音幀檢測失敗、在領(lǐng)域之外進行的發(fā)聲以及語音分析的結(jié)果被判斷為具有低可靠性。接下來,在步驟S212中,對已被拒絕的過去幾次會話中的拒絕次數(shù)和預(yù)定閾值進行比較。接下來,在步驟S213中,基于用于比較拒絕次數(shù)和閾值的過程,將錯誤等級分成以下等級(a)低(Low)、(b)中(Mid)和(c)高(High)。接下來,參考圖6的流程圖來描述過程C的第一半的序列(過程C-1)。過程C是以下過程
11
過程C 用于根據(jù)自從系統(tǒng)(信息處理設(shè)備100)向用戶輸出上次響應(yīng)以來所經(jīng)過的時間來估計用戶正經(jīng)歷困難的概率(困難度)的過程,以及用于如果已判斷用戶正經(jīng)歷困難則呈現(xiàn)最佳幫助信息的過程。圖6所示的過程是在過程C的第一半中執(zhí)行的過程(過程C-1),并且是用于計算自從系統(tǒng)(信息處理設(shè)備100)向用戶做出上次響應(yīng)以來所經(jīng)過的時間的過程。在步驟S301中,判斷系統(tǒng)(信息處理設(shè)備100)是否正在等待來自用戶的響應(yīng)。這個過程中的判斷是基于從系統(tǒng)狀態(tài)控制單元333輸入到用戶交互狀態(tài)估計單元332的系統(tǒng)處理信息來進行的。如果在步驟S301中已判斷系統(tǒng)(信息處理設(shè)備100)正在等待來自用戶的響應(yīng), 則處理前進到步驟S302。在步驟S302中,自從系統(tǒng)執(zhí)行用于對用戶做出響應(yīng)的過程以來所經(jīng)過的時間被更新。系統(tǒng)狀態(tài)控制單元333記錄自從系統(tǒng)執(zhí)行用于對用戶做出響應(yīng)的過程以來所經(jīng)過的時間,并且相繼更新數(shù)據(jù)。在步驟S303中,根據(jù)預(yù)定閾值,將自從系統(tǒng)做出響應(yīng)以來所經(jīng)過的時間分成(a) 短期時間(Short)、(b)中期時間(Medium)或(c)長期時間(Long)。接下來,在步驟S304中,將經(jīng)過的時間(RT)作為(a)短期時間(Short)、(b)中期時間(Medium)或(c)長期時間(Long)存儲在存儲器中。圖6的流程示了在過程C的第一半中執(zhí)行的過程(過程C-1)。在過程C的第二半中執(zhí)行的過程(過程C-幻是下述過程通過使用從上述過程 A、B和C-I中獲得的結(jié)果來計算用戶的困難度,根據(jù)計算出的困難度確定是否要向用戶呈現(xiàn)幫助信息,以及如果已確定要呈現(xiàn)幫助信息則呈現(xiàn)幫助信息。參考圖7的流程圖來描述這個過程。在圖7的流程圖中,從步驟S501至步驟S545的過程對應(yīng)于在上述過程A、B和C_1 中執(zhí)行的過程。步驟S551和隨后步驟中的過程對應(yīng)于在過程C的第二半中執(zhí)行的過程(過程 C-2)。步驟S501中的圖像事件輸入是下述過程基于從圖像輸入單元(攝影機)201輸入的圖像信息,將由圖像分析單元202執(zhí)行的分析過程的結(jié)果輸入到數(shù)據(jù)處理單元205。更加具體地,例如在圖像中是否包括臉,以及如果在圖像中包括臉則信息如臉屬性估計結(jié)果(臉的角度、估計年齡和性別等)、臉方向分析結(jié)果和臉識別結(jié)果被輸入,作為由圖像分析單元202執(zhí)行的分析過程的結(jié)果。步驟S502中的語音事件輸入是下述過程基于從語音輸入單元(麥克風)203輸入的語音信息,將由語音分析單元204執(zhí)行的分析過程的結(jié)果輸入到數(shù)據(jù)處理單元205。更加具體地,例如關(guān)于發(fā)聲內(nèi)容等的信息被輸入,作為由語音分析單元204執(zhí)行的分析過程的結(jié)果。步驟S521中的過程A是已參考圖4的流程圖描述的過程。亦即,在步驟S521中,執(zhí)行以下過程過程A 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的用戶臉的方向、用戶注視的方向和用戶的臉面對方向所經(jīng)歷的持續(xù)時間等的過程。在步驟S531、SMI、S532和S542中執(zhí)行用于獲得步驟S521中的過程A的執(zhí)行結(jié)果并將結(jié)果存儲在存儲器中的過程。步驟S531和S541中的過程如下。在步驟S531中,作為過程A的結(jié)果獲得關(guān)于臉在每個采樣時間(t,t+1,t+2等等) 的方向的信息(FaceDir),亦即(a)臉面對系統(tǒng)(信息處理設(shè)備100)(針對系統(tǒng))或(b)臉沒有面對系統(tǒng)(信息處理設(shè)備100)(針對其它)。在步驟S541中將獲得的信息存儲在存儲器中。步驟S532和S542中的過程如下。在步驟S532中,作為過程A的結(jié)果獲得關(guān)于臉的方向在每個采樣時間(t,t+1, t+2等等)的持續(xù)時間的信息(FaceDirDur),亦即(a)臉面對特定方向所經(jīng)歷的持續(xù)時間短(Short)、(b)臉面對特定方向所經(jīng)歷的持續(xù)時間中等(Medium)或(c)臉面對特定方向所經(jīng)歷的持續(xù)時間長(Long)。在步驟S502中的語音事件輸入之后,執(zhí)行步驟S511中的系統(tǒng)操作,然后執(zhí)行步驟 S522中的過程B和步驟S523中的過程C。步驟S502中的語音事件輸入例如是由用戶做出的對系統(tǒng)(信息處理設(shè)備100)的操作請求。更加具體地,語音事件輸入例如包括頻道改變請求。在步驟S502中的語音事件輸入之后執(zhí)行的步驟S511中的系統(tǒng)操作是系統(tǒng)(信息處理設(shè)備100)響應(yīng)于用戶做出的請求而執(zhí)行的過程。要注意的是,系統(tǒng)操作可以是也可以不是響應(yīng)于用戶做出的請求而被正確地執(zhí)行。另外,例如由于音幀檢測失敗、判斷在領(lǐng)域之外進行發(fā)聲或者語音分析的結(jié)果被判斷為具有低可靠性,用戶的發(fā)聲可能被拒絕。步驟 S511中的系統(tǒng)操作包括所有這些操作。在步驟S511中的系統(tǒng)操作之后,在步驟S522中執(zhí)行已參考圖5的流程圖描述的過程B,并且在步驟S523中執(zhí)行已參考圖6的流程圖描述的過程C-1。步驟S522中的過程B是已參考圖5的流程圖描述的過程。亦即,在步驟S522中,執(zhí)行以下過程過程B 用于分析到當前時間為止的預(yù)定時間段(一定采樣時間段)內(nèi)的系統(tǒng)(信息處理設(shè)備100)的操作歷史(是否音幀檢測失敗和域外發(fā)聲)和用戶的學習等級的過程。在步驟S533、S543, S534和S544中執(zhí)行用于獲得步驟S522中的過程B的執(zhí)行結(jié)果并將結(jié)果存儲在存儲器中的過程。步驟S533和S543中的過程如下。在步驟S533中,作為過程B的結(jié)果獲得用戶等級信息(User Level),亦即(a)初學者(Beginner)、(b)受訓(xùn)者(Trained)或(c)專家(Expert)。在步驟S543中將獲得的信息存儲在存儲器中。要注意的是,用戶等級信息也作為對應(yīng)于每個采樣時間(t,t+l,t+2等等)的信息記錄在存儲器上。步驟S534和S544中的過程如下。在步驟S534中,作為過程B的結(jié)果獲得錯誤等級信息(Error)如(a)低(Low)、 (b)中(Mid)或(c)高(High)。要注意的是,如參考圖5的流程圖描述的那樣,基于用戶的發(fā)聲已被拒絕的次數(shù)獲得錯誤等級信息。
在步驟S544中將錯誤等級信息存儲在存儲器中。要注意的是,錯誤等級信息也作為對應(yīng)于每個采樣時間(t,t+l,t+2等等)的信息記錄在存儲器上。進而,在步驟S511中的系統(tǒng)操作之后,在步驟S523中執(zhí)行已參考圖6的流程圖描述的過程C-I。亦即,執(zhí)行以下過程過程C 用于根據(jù)自從系統(tǒng)(信息處理設(shè)備100)向用戶輸出上次響應(yīng)以來所經(jīng)過的時間來估計用戶正經(jīng)歷困難的概率(困難度)的過程,以及用于如果已判斷用戶正經(jīng)歷困難則呈現(xiàn)最佳幫助信息的過程。在步驟S523中執(zhí)行的過程是在過程C的第一半中執(zhí)行的過程(過程C_l)。用于計算自從系統(tǒng)(信息處理設(shè)備100)向用戶做出上次響應(yīng)以來所經(jīng)過的時間的過程被執(zhí)行。在步驟S535和S545中執(zhí)行用于獲得步驟S523中的過程C的執(zhí)行結(jié)果并將結(jié)果存儲在存儲器中的過程。步驟S535和S545中的過程如下。在步驟S535中,作為過程C的結(jié)果,任何的以下信息被獲得作為關(guān)于經(jīng)過時間 (RT)的信息,這是根據(jù)預(yù)定閾值對自從系統(tǒng)執(zhí)行用于對用戶做出響應(yīng)的過程以來所經(jīng)過的時間進行分類的結(jié)果(a)經(jīng)過時間(RT)=短期時間(Short)、(b)經(jīng)過時間(RT)=中期時間(Medium)或(c)經(jīng)過時間(RT)=長期時間(Long)。在步驟S545中將獲得的信息存儲在存儲器中。要注意的是,關(guān)于經(jīng)過時間(RT) 的信息也作為對應(yīng)于每個采樣時間(t,t+l,t+2等等)的信息記錄在存儲器中。作為在上述步驟S521至S523中的過程A至C的結(jié)果而獲得的以下信息記錄在存儲器上。在圖8中圖示了將要記錄在存儲器上的數(shù)據(jù)的例子。在圖8中,圖示了針對三個用戶(Ul至U3)中的每一個獲得的與兩個連續(xù)采樣時間點t-Ι和t相對應(yīng)的數(shù)據(jù)的例子。例如,下面描述的(1)至(5)的值記錄在存儲器上。(1)關(guān)于臉方向的信息(FaceDir)(Ia)臉面對系統(tǒng)(信息處理設(shè)備100)(針對系統(tǒng))=1(Ib)臉沒有面對系統(tǒng)(針對其它)=2(2)關(guān)于臉方向持續(xù)時間的信息(FaceDirDur)(2a)臉面對特定方向所經(jīng)歷的持續(xù)時間短(Short) = 1(2b)臉面對特定方向所經(jīng)歷的持續(xù)時間中等(Medium) = 2(2c)臉面對特定方向所經(jīng)歷的持續(xù)時間長(Long) = 3(3)用戶等級信息(User Level)(3a)初學者(Beginner) = 1(3b)受訓(xùn)者(Trained) = 2(3c)專家(Expert) = 3(4)錯誤等級信息(Error)(4a)低(Low) = 1(4b)中(Mid) = 2(4c)高(High) = 3
(5)關(guān)于在系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程之后所經(jīng)過的時間(RT)的信息(5a)經(jīng)過時間(RT)=短期時間(Short) = 1(5b)經(jīng)過時間(RT)=中期時間(Medium) = 2(5c)經(jīng)過時間(RT)=長期時間(Long) = 3這樣一來,就在步驟S541至S545中將作為步驟S521至S523中的過程A至C的結(jié)果而獲得的上述信息(1)至(5)記錄在存儲器上。在過程C的第二半中執(zhí)行與過程(過程C-幻相對應(yīng)的步驟S551和隨后步驟中的過程。如上所述,過程C是以下過程過程C 用于根據(jù)自從系統(tǒng)(信息處理設(shè)備100)向用戶輸出上次響應(yīng)以來所經(jīng)過的時間來估計用戶正經(jīng)歷困難的概率(困難度)的過程,以及用于如果已判斷用戶正經(jīng)歷困難則呈現(xiàn)最佳幫助信息的過程。在步驟S551和隨后步驟中執(zhí)行的過程是在過程C的第二半中執(zhí)行的過程(過程 C-2),并且是下述過程估計用戶正經(jīng)歷困難的概率(困難度),并且如果已判斷用戶正經(jīng)歷困難,則呈現(xiàn)最佳幫助信息。在下文中描述步驟S551和隨后步驟中的過程的細節(jié)。在步驟S551中,判斷已在步驟S541至S545中存儲在存儲器中的值是否已改變。 如上所述,作為步驟S521至S523中的過程A至C的結(jié)果而獲得的上述信息(1)至(5)在每個預(yù)定采樣時間(t,t+l,t+2等等)獲得,并且作為對應(yīng)于時間的數(shù)據(jù)存儲在存儲器中。 更加具體地,已參考圖8描述的對應(yīng)于時間的數(shù)據(jù)相繼記錄在存儲器上。在步驟S551中,判斷在記錄在存儲器上的于先前采樣時間獲得的數(shù)據(jù)和于上次采樣時間獲得的數(shù)據(jù)之間是否存在不同。如果通過比較記錄在存儲器上的上次采樣時間的數(shù)據(jù)和先前采樣時間的數(shù)據(jù)已判斷在任何的上述數(shù)據(jù)(1)至(5)中存在變化,則執(zhí)行步驟S552和隨后步驟中的過程。在步驟S552中,開始下述過程基于最新獲得的數(shù)據(jù)計算估計值。更加具體地,估計值在此是指示用戶正在經(jīng)歷多大困難的困難度(H)。開始用于計算困難度(H)的過程。更加具體地,通過使用預(yù)定函數(shù)和存儲在存儲器中的上述信息中的每個值來計算困難度(H),存儲在存儲器中的上述信息亦即(1)關(guān)于臉方向的信息(FaceDir) = 1或2; ⑵關(guān)于臉方向持續(xù)時間的信息(FaceDirDur) = 1,2或3 ; (3)用戶等級信息(User Level) =1,2 ^ 3; (4)錯誤等級信息(Error) = 1,2或3;以及(5)關(guān)于自從系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程以來所經(jīng)過的時間(RT)的信息=1,2或3。更加具體地,例如通過使用以下函數(shù)來計算困難度(H)H = p((l)的值)+q((2)的值)+r((3)的值)+s(⑷的值)+t((5)的值)要注意的是,P、q、r、s和t是預(yù)定系數(shù)。通過使用信息(1)至(5),根據(jù)上述表達式來計算用戶的困難度(H)。在步驟S553中將在步驟S552中計算的困難度(H)存儲在存儲器(數(shù)據(jù)庫)中。 在圖8的右端圖示的數(shù)據(jù)就是困難度(H)。例如在0至100的范圍內(nèi)計算困難度(H)。較大的值表明用戶正經(jīng)歷困難的概率較高。
在步驟S5M中,開始基于新近計算的困難度(H)的最新更新值的過程。在步驟S555中,對更新的困難度(H)和預(yù)定閾值(TH)進行比較。如果在步驟S555中已判斷滿足用于判斷的表達式“困難度(H)彡TH”,則處理前進到步驟S556,并且從語音輸出單元(揚聲器)206或圖像輸出單元(顯示器)207輸出幫助信息。要注意的是,根據(jù)系統(tǒng)(信息處理設(shè)備100)的狀態(tài)改變將要呈現(xiàn)的幫助信息。另一方面,如果在步驟S555中已判斷沒有滿足上述用于判斷的表達式,則處理前進到步驟S557,并且不輸出幫助信息。在圖9中圖示了在步驟S556中呈現(xiàn)給用戶的幫助信息的例子。如上所述,根據(jù)系統(tǒng)(信息處理設(shè)備100)的狀態(tài)改變將要呈現(xiàn)的幫助信息。系統(tǒng)狀態(tài)由圖3所示的系統(tǒng)狀態(tài)控制單元333監(jiān)視。如圖9所示,當系統(tǒng)狀態(tài)例如是“顯示推薦節(jié)目”時,從語音輸出單元(揚聲器)206 或圖像輸出單元(顯示器)207向用戶呈現(xiàn)幫助信息如“請從推薦節(jié)目中選擇您想要觀看的節(jié)目,或者使用搜索關(guān)鍵詞搜索節(jié)目”。另外,當系統(tǒng)狀態(tài)是“顯示指定的頻道或日期”時,從語音輸出單元(揚聲器)206 或圖像輸出單元(顯示器)207向用戶呈現(xiàn)幫助信息如“您可以用名稱或類型如戲劇、體育、 雜技、音樂和電影來改進您的搜索”。另外,當系統(tǒng)狀態(tài)是“顯示指定的類型”時,從語音輸出單元(揚聲器)206或圖像輸出單元(顯示器)207向用戶呈現(xiàn)幫助信息如“您可以用名稱或頻道等改進您的搜索”。當在步驟S551中存儲在存儲器中的值已發(fā)生變化時,相繼執(zhí)行步驟S552和隨后步驟中的過程。因此,信息處理設(shè)備100可以根據(jù)時間識別用戶的最新困難度(H),所以可以根據(jù)最新的困難度(H)在最佳時間向用戶呈現(xiàn)幫助信息。因此,根據(jù)本公開實施例的信息處理設(shè)備100通過使用預(yù)定函數(shù)和已在上述過程 A至C中獲得并且已存儲在存儲器中的以下信息中的每個值來計算用戶的困難度(H) (1) 關(guān)于臉方向的信息(FaceDir) = 1或2 ; (2)關(guān)于臉方向持續(xù)時間的信息(FaceDirDur)= 1,2或3 ;(3)用戶等級信息(User Level) = 1,2或3 ;(4)錯誤等級信息(Error) = 1,2 或3 ;以及( 關(guān)于自從系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程以來所經(jīng)過的時間(RT)的信息= 1,2或3。信息處理設(shè)備100然后根據(jù)計算出的困難度(H)和系統(tǒng)狀態(tài)向用戶提供幫助信肩、ο接下來描述用于獲得用戶狀態(tài)的過程、用于計算困難度(H)的過程以及用于呈現(xiàn)幫助信息的過程的特定例子。特定例子1例如,當即使用戶面對系統(tǒng)前方并且專注于系統(tǒng)也沒有來自用戶的響應(yīng)時,判斷用戶正經(jīng)歷困難或者正在困擾,因為用戶不知道要說的命令,此時呈現(xiàn)幫助信息(提示)如 “請從推薦節(jié)目中選擇您想要觀看的節(jié)目,或者使用搜索關(guān)鍵詞搜索節(jié)目”。這種情況下的用戶狀態(tài)信息例如是以下信息(1)關(guān)于臉方向的信息O^aceDir)=臉面對系統(tǒng)(信息處理設(shè)備100)(針對系統(tǒng)) =1(2)關(guān)于臉方向持續(xù)時間的信息(FaceDirDur)=臉面對特定方向所經(jīng)歷的持續(xù)時間長(Long) = 3
16
(3)用戶等級信息(User Level)=初學者(Beginner) = 1(4)錯誤等級信息(Error)=低(Low) = 1(5)關(guān)于自從系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程以來所經(jīng)過的時間(RT)的信息= 長期時間(Long) = 3通過使用這些值和以下函數(shù)來計算困難度(H)H = p((l)的值)+q((2)的值)+r((3)的值)+s(⑷的值)+t((5)的值)例如,根據(jù)用于計算困難度(H)的上述表達式,計算諸如“困難度(H) = 80”之類的值。如果預(yù)定閾值假定為20,那么由于困難度(H)80彡20,所以向用戶呈現(xiàn)如上所述那樣的幫助信息。特定例子2當用戶沒有專注于系統(tǒng)并且系統(tǒng)正在等待來自用戶的響應(yīng)時,系統(tǒng)例如通過以下來執(zhí)行幫助輸出向用戶呈現(xiàn)可用命令,或者通知用戶系統(tǒng)操作的臨時停止或終止將會在幾分鐘之后執(zhí)行。更加具體地,呈現(xiàn)幫助信息(提示)如“請搜索您想要觀看的節(jié)目,或者用類型改進您的搜索”。這種情況下的用戶狀態(tài)信息例如是以下信息(1)關(guān)于臉方向的信息(FaceDir)=臉沒有面對系統(tǒng)(針對其它)=2(2)關(guān)于臉方向持續(xù)時間的信息(FaceDirDur)=臉面對特定方向所經(jīng)歷的持續(xù)時間中等(Medium) = 2(3)用戶等級信息(User Level)=受訓(xùn)者(Trained) = 2(4)錯誤等級信息(Error)=低(Low) = 1(5)關(guān)于自從系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程以來所經(jīng)過的時間(RT)的信息= 長期時間(Long) = 3通過使用這些值和以下函數(shù)來計算困難度(H)H = ρ ((1)的值)+q (⑵的值)+r ((3)的值)+s ((4)的值)+t ((5)的值)例如,根據(jù)用于計算困難度(H)的上述表達式,計算諸如“困難度(H) = 20”之類的值。如果預(yù)定閾值假定為20,那么由于困難度(H) 20彡20,所以向用戶呈現(xiàn)如上所述那樣的幫助信息。特定例子3如果已存在幾個連續(xù)的事件,其中,即使當用戶對系統(tǒng)重復(fù)地做出發(fā)聲時,也由于音幀檢測失敗或意義理解失敗(在領(lǐng)域之外進行的發(fā)聲)等,而沒有生成系統(tǒng)的行為,那么就向用戶呈現(xiàn)幫助信息(提示)如“將會在引導(dǎo)視窗上顯示可用命令”。這種情況下的用戶狀態(tài)信息例如是以下信息(1)關(guān)于臉方向的信息O^aceDir)=臉面對系統(tǒng)(信息處理設(shè)備100)(針對系統(tǒng)) =1(2)關(guān)于臉方向持續(xù)時間的信息(FaceDirDur)=臉面對特定方向所經(jīng)歷的持續(xù)時間長(Long) = 3(3)用戶等級信息(User Level)=初學者(Beginner) = 1(4)錯誤等級信息(Error)=高(High) = 3(5)關(guān)于自從系統(tǒng)已執(zhí)行用于做出響應(yīng)的過程以來所經(jīng)過的時間(RT)的信息=短期時間(Short) = 1通過使用這些值和以下函數(shù)來計算困難度(H)H = p((l)的值)+q((2)的值)+r((3)的值)+s(⑷的值)+t((5)的值)例如,根據(jù)用于計算困難度(H)的上述表達式,計算諸如“困難度(H) = 90”之類的值。如果預(yù)定閾值假定為20,那么由于困難度(H)90彡20,所以向用戶呈現(xiàn)如上所述那樣的幫助信息。4.信息處理設(shè)備的硬件構(gòu)造的例子最后,參考圖10來描述執(zhí)行上述過程的信息處理設(shè)備100的硬件構(gòu)造。中央處理單元(CPU) 701根據(jù)只讀存儲器(ROM) 702或存儲單元708中存儲的程序來執(zhí)行各種過程。例如,執(zhí)行圖2所示的信息處理設(shè)備100的構(gòu)造中的語音分析單元204、圖像分析單元202和數(shù)據(jù)處理單元205的過程。CPU 701所執(zhí)行的程序和數(shù)據(jù)等在必要時存儲在隨機存取存儲器(RAM) 703中。CPU 701、ROM 702和RAM 703通過總線704彼此連接。CPU 701通過總線704連接到輸入/輸出接口 705。包括攝影機、麥克風、遙控器、 鍵盤和鼠標的輸入單元706以及包括顯示器和揚聲器的輸出單元707連接到輸入/輸出接口 705。CPU 701執(zhí)行與從輸入單元706輸入的信息相對應(yīng)的各種過程,并且將過程的結(jié)果例如輸出到輸出單元707。連接到輸入/輸出接口 705的存儲單元708例如由硬件形成,并且存儲由CPU 701 執(zhí)行的程序和各種數(shù)據(jù)。進而,記錄對于語音識別過程而言所必須的各種語音信息和詞典數(shù)據(jù)以及對于用戶識別過程而言所必須的用戶圖像數(shù)據(jù)等等。通信單元709通過網(wǎng)絡(luò)如因特網(wǎng)或局域網(wǎng) (LAN)與外部設(shè)備通信。連接到輸入/輸出接口 705的驅(qū)動器710驅(qū)動可移動介質(zhì)711如磁盤、光盤、磁光盤或半導(dǎo)體存儲器,以便獲得記錄的程序和數(shù)據(jù)。獲得的程序和數(shù)據(jù)必要時被發(fā)送到存儲單元708并被存儲。已參考具體的實施例詳細地描述了本技術(shù)。然而,明顯的是,本領(lǐng)域技術(shù)人員可以在不偏離本公開的范圍的情況下修改和改變這些實施例。亦即,本技術(shù)已以例子的形式進行了公開,因此上述描述不應(yīng)當被解釋為限制本技術(shù)。為了評價本公開的范圍,可以參考權(quán)利要求書。另外,在此描述的系列過程可以通過硬件或軟件來執(zhí)行,或者可以通過從這兩者的組合中獲得的構(gòu)造來執(zhí)行。當過程通過軟件來執(zhí)行時,過程可以通過以下來執(zhí)行將上面記錄了處理序列的程序安裝在結(jié)合在專用硬件中的計算機內(nèi)部的存儲器中,或者將該程序安裝在可以執(zhí)行各種過程的通用計算機中。例如,程序可以預(yù)先記錄在記錄介質(zhì)中。與從記錄介質(zhì)安裝在計算機中一樣,程序可以通過網(wǎng)絡(luò)如LAN或因特網(wǎng)接收,并且安裝在內(nèi)置記錄介質(zhì)如硬盤中。要理解的是,在此描述的各種過程不僅可以根據(jù)描述的順序按時間順序執(zhí)行,而且還可以根據(jù)執(zhí)行過程的設(shè)備的處理能力或必要時彼此并行地或者單獨地執(zhí)行。另外,此處的“系統(tǒng)”指的是包括一組多個設(shè)備的邏輯構(gòu)造,因此不限于這樣一種構(gòu)造,在所述構(gòu)造中,在同樣的情況下提供具有各個構(gòu)造的設(shè)備。本公開包含與2010年6月2日向日本專利局申請的日本優(yōu)先權(quán)專利申請JP2010-127110中公開的主題相關(guān)的主題,該專利申請的整體內(nèi)容通過引用結(jié)合于此。
權(quán)利要求
1.一種信息處理設(shè)備,包括圖像分析單元,其執(zhí)行用于分析通過攝影機捕捉的圖像的過程; 語音分析單元,其執(zhí)行用于分析從麥克風輸入的語音的過程;以及數(shù)據(jù)處理單元,其接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制,其中,所述數(shù)據(jù)處理單元至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算所述用戶的困難度,并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向所述用戶輸出幫助信息的過程。
2.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元基于圖像分析的結(jié)果判斷所述用戶的臉是否面對所述信息處理設(shè)備,并且通過使用關(guān)于所述判斷的信息來計算所述困難度。
3.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元基于圖像分析的結(jié)果判斷所述用戶的臉面對特定方向所經(jīng)歷的持續(xù)時間,并且通過使用關(guān)于所述判斷的信息來計算所述困難度。
4.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元通過使用關(guān)于與所述用戶做出的請求相對應(yīng)的過程是否已被執(zhí)行的判斷的信息來計算所述困難度。
5.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元基于關(guān)于所述用戶做出的請求已被拒絕的次數(shù)的信息來判斷用戶等級,并且通過使用關(guān)于所述判斷的信息來計算所述困難度。
6.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元基于關(guān)于自從所述信息處理設(shè)備執(zhí)行用于對所述用戶做出響應(yīng)的過程以來所經(jīng)過的時間的信息來計算所述困難度。
7.根據(jù)權(quán)利要求1所述的信息處理設(shè)備,進一步包括系統(tǒng)狀態(tài)控制單元,其獲得并存儲所述信息處理設(shè)備的狀態(tài)轉(zhuǎn)移, 其中,所述數(shù)據(jù)處理單元執(zhí)行用于輸出與所述系統(tǒng)狀態(tài)控制單元中存儲的系統(tǒng)狀態(tài)相對應(yīng)的幫助信息的過程。
8.根據(jù)權(quán)利要求7所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元進一步包括用戶信息管理單元,其接收從所述圖像分析單元和所述語音分析單元輸入的信息,并且存儲并管理輸入的信息作為用戶管理信息。
9.根據(jù)權(quán)利要求8所述的信息處理設(shè)備,其中,所述數(shù)據(jù)處理單元進一步包括用戶交互狀態(tài)估計單元,其基于所述用戶信息管理單元中存儲的用戶管理信息和所述系統(tǒng)狀態(tài)控制單元中存儲的系統(tǒng)狀態(tài)來計算所述困難度。
10.一種在信息處理設(shè)備中使用的信息處理方法,所述信息處理方法包括 使用圖像分析單元執(zhí)行用于分析通過攝影機捕捉的圖像的過程;使用語音分析單元執(zhí)行用于分析從麥克風輸入的語音的過程;以及使用數(shù)據(jù)處理單元接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制,其中,在接收時,至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算所述用戶的困難度, 并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向所述用戶輸出幫助信息的過程。
11. 一種使信息過程在信息處理設(shè)備中執(zhí)行的程序,所述程序包括 使圖像分析單元執(zhí)行用于分析通過攝影機捕捉的圖像的過程; 使語音分析單元執(zhí)行用于分析從麥克風輸入的語音的過程;以及使數(shù)據(jù)處理單元接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行向用戶的幫助信息的輸出控制,其中,在使所述數(shù)據(jù)處理單元接收結(jié)果時,至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算所述用戶的困難度,并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向所述用戶輸出幫助信息的過程。
全文摘要
本發(fā)明公開了一種信息處理設(shè)備、信息處理方法和程序。根據(jù)本發(fā)明的信息處理設(shè)備包括圖像分析單元,其執(zhí)行用于分析通過攝影機捕捉的圖像的過程;語音分析單元,其執(zhí)行用于分析從麥克風輸入的語音的過程;以及數(shù)據(jù)處理單元,其接收通過所述圖像分析單元實施的分析的結(jié)果和通過所述語音分析單元實施的分析的結(jié)果,并且執(zhí)行用于用戶的幫助信息的輸出控制。數(shù)據(jù)處理單元至少基于圖像分析的結(jié)果或語音分析的結(jié)果計算用戶的困難度,并且如果計算出的困難度等于或大于預(yù)定閾值,則執(zhí)行用于向用戶輸出幫助信息的過程。
文檔編號G06F3/16GK102270042SQ20111015118
公開日2011年12月7日 申請日期2011年5月26日 優(yōu)先權(quán)日2010年6月2日
發(fā)明者佐野茜 申請人:索尼公司