本申請主張以2015年12月24日申請的日本專利申請第2015-250995號以及2016年4月1日申請的日本專利申請第2016-074175號為基礎申請的優(yōu)先權,將該基礎申請的內(nèi)容全部引入到本申請中。
本發(fā)明情緒估計裝置以及情緒估計方法。
背景技術:
已知一種估計被估計者的情緒的技術。例如特開2014-178970號公報公開了使用被估計者的臉圖像來估計被估計者的情緒的裝置。
然而,有時懷有一種情緒且正在講話的狀態(tài)下的被估計者的口的形狀、和懷有其他情緒且未在講話的狀態(tài)系的被估計者的口的形狀類似。在這樣的情況下,特開2014-178970號公報所公開的裝置,會將懷有一種情緒且正在講話的狀態(tài)下的被估計者的表情誤認識為懷有其他情緒且未在講話的狀態(tài)下的被估計者的表情,沒法防止不正確地估計被估計者的情緒。
技術實現(xiàn)要素:
本發(fā)明鑒于上述狀況而提出,目的在于,使用被估計者的臉圖像以高的精度估計被估計者的情緒。
本發(fā)明的情緒估計裝置的特征在于,具備:講話判定單元,其判定在拍攝被估計者的臉圖像時所述被估計者是否正在講話;和情緒估計單元,其基于所述講話判定單元的判定結果來執(zhí)行利用了所述被估計者的臉圖像的情緒估計處理,由此估計所述被估計者的情緒。
本發(fā)明的情緒估計方法的特征在于,包括:講話判定步驟,判定在拍攝被估計者的臉圖像時所述被估計者是否正在講話;和情緒估計步驟,基于所述講話判定步驟的判定結果來執(zhí)行利用了所述被估計者的臉圖像的情緒估計處理,由此估計所述被估計者的情緒。
附圖說明
圖1是表示本發(fā)明的實施方式所涉及的情緒估計裝置的物理構成的一例的框圖。
圖2是表示本發(fā)明的實施方式所涉及的情緒估計裝置的功能構成的一例的框圖。
圖3是用于說明本發(fā)明的實施方式所涉及的情緒認識模型生成裝置所執(zhí)行的情緒認識模型生成處理的流程圖。
圖4a是用來說明用于生成第1情緒認識模型的情緒認識模型生成處理的圖。
圖4b是用來說明用于生成第2情緒認識模型的情緒認識模型生成處理的圖。
圖5是表示本發(fā)明的實施方式所涉及的情緒認識模型的結構例的框圖。
圖6是用于說明本發(fā)明的實施方式所涉及的情緒估計裝置所執(zhí)行的情緒估計處理的流程圖。
圖7是用于說明本發(fā)明的變形例所涉及的情緒估計裝置所執(zhí)行的情緒估計處理的流程圖。
具體實施方式
以下參考附圖來詳細說明本發(fā)明的實施方式所涉及的情緒估計裝置的功能以及動作。圖中對彼此相同或同等的部分標注相同標號。
情緒估計裝置使用被估計者的臉圖像來估計被估計者的情緒。
情緒估計裝置1如圖1所示那樣,具備centralprocessingunit(中央處理器,以下稱作cpu)10、存儲部20、輸入部30、輸出部40和外部接口50。
cpu10執(zhí)行存儲于存儲部20的各種程序。具體地,cpu10通過執(zhí)行存儲于存儲部20的控制程序21來控制情緒估計裝置1整體。另外,cpu10通過執(zhí)行存儲于存儲部20的情緒估計程序22而實現(xiàn)后述的講話判定部100以及情緒估計部110的功能。
存儲部20具備ram(randomaccessmemory,隨機存取存儲器),作為cpu10的工作內(nèi)存發(fā)揮功能。另外,存儲部20具備rom(read-onlymemory,只讀存儲器)和硬盤驅動器等非易失性存儲器,存儲各種數(shù)據(jù)以及各種程序。具體地,在本實施方式中,存儲部20存儲控制程序21、情緒估計程序22、被估計者的臉圖像23、周邊聲音數(shù)據(jù)24、第1情緒認識模型25和第2情緒認識模型26。
控制程序21是用于控制情緒估計裝置1整體的程序。情緒估計程序22是用于實現(xiàn)后述的講話判定部100以及情緒估計部110的功能的程序。被估計者的臉圖像23是表征被估計者的臉的圖像。情緒估計裝置1使用被估計者的臉圖像23來估計被估計者的情緒。周邊聲音數(shù)據(jù)24是表征拍攝被估計者的臉圖像23時的被估計者的周邊的聲音的聲音數(shù)據(jù)。在存儲部20中,被估計者的臉圖像23和周邊聲音數(shù)據(jù)24相互建立對應而存儲。另外,在被估計者的臉圖像23是靜止圖像數(shù)據(jù)的情況下,周邊聲音數(shù)據(jù)24例如取得拍攝該靜止圖像數(shù)據(jù)的前后數(shù)秒程度的聲音數(shù)據(jù),將靜止圖像數(shù)據(jù)和聲音數(shù)據(jù)相互建立對應,在被估計者的臉圖像23是動態(tài)圖象數(shù)據(jù)的情況下,還與該動態(tài)圖象數(shù)據(jù)的取得同時取得聲音數(shù)據(jù),被估計者的臉圖像23和周邊聲音數(shù)據(jù)24例如也可以如影片文件數(shù)據(jù)那樣包含在1個文件數(shù)據(jù)中。關于第1情緒認識模型25以及第2情緒認識模型26的詳細,之后敘述。
情緒估計裝置1預先取得未圖示的外部的拍攝裝置所拍攝的被估計者的臉圖像23,存儲于存儲部20。情緒估計裝置1預先取得未圖示的外部的錄音裝置所取得的周邊聲音數(shù)據(jù)24,存儲于存儲部20。情緒估計裝置1預先取得未圖示的外部的情緒認識模型生成裝置所生成的第1情緒認識模型25以及第2情緒認識模型26,存儲于存儲部20。情緒認識模型生成裝置例如是在制造情緒估計裝置1的工廠設置的計算機。關于情緒認識模型生成裝置所進行的第1情緒認識模型25以及第2情緒認識模型26的生成的詳細,之后敘述。
輸入部30按照用戶的操作而接受輸入。輸入部30將接受到的輸入提供給cpu10。
輸出部40以能由用戶認識各種數(shù)據(jù)的方式進行輸出。具體地,輸出部40具備未圖示的顯示器,將表征情緒估計裝置1所估計的被估計者的情緒的圖像即情緒圖像顯示在該顯示器。作為情緒圖像的具體例,能舉出表征被估計者的情緒的文本消息等。
外部接口50在與未圖示的外部的裝置之間交換各種數(shù)據(jù)。具體地,情緒估計裝置1經(jīng)由外部接口50取得被估計者的臉圖像23、周邊聲音數(shù)據(jù)24、第1情緒認識模型25以及第2情緒認識模型26。另外,情緒估計裝置1將表征估計出的被估計者的情緒的信息即情緒信息向未圖示的外部的信息處理裝置送出。
具有上述的物理構成的情緒估計裝置1,在功能上如圖2所示那樣具備講話判定部100和情緒估計部110。
講話判定部100判定在拍攝被估計者的臉圖像23時被估計者是否正在講話。
具體地,講話判定部100在被估計者的臉圖像23是靜止圖像數(shù)據(jù)的情況下,將與該靜止圖像數(shù)據(jù)建立對應的聲音數(shù)據(jù)作為周邊聲音數(shù)據(jù)24,在被估計者的臉圖像23例如是影片文件數(shù)據(jù)那樣的動態(tài)圖象數(shù)據(jù)的情況下,將該影片文件數(shù)據(jù)中的聲音數(shù)據(jù)作為周邊聲音數(shù)據(jù)24。并且,若周邊聲音數(shù)據(jù)24的音量不足第1閾值,則判定為被估計者未正在講話,若周邊聲音數(shù)據(jù)24的音量為第1閾值以上,則判定為被估計者正在講話。第1閾值用實驗等任意的方法預先設定即可。
情緒估計部110基于講話判定部100的判定結果來估計利用了被估計者的臉圖像23的被估計者的情緒。
具體地,情緒估計部110具備基于講話判定部100的判定的結果來選擇情緒識別模型的模型選擇部110a,執(zhí)行利用了模型選擇部110a所選擇的情緒認識模型的情緒估計處理。在講話判定部100判定為被估計者未正在講話的情況下,模型選擇部110a選擇第1情緒認識模型25。另一方面,在講話判定部100判定為被估計者正在講話的情況下,模型選擇部110a選擇第2情緒認識模型26。
即,在講話判定部100判定為被估計者未正在講話的情況下,情緒估計部110執(zhí)行利用了第1情緒認識模型25的情緒估計處理。另一方面,在講話判定部100判定為被估計者正在講話的情況下,情緒估計部110執(zhí)行利用了第2情緒認識模型26的情緒估計處理。另外,在被估計者的臉圖像23是例如影片文件數(shù)據(jù)那樣的動態(tài)圖象數(shù)據(jù)的情況下,有在該動態(tài)圖象數(shù)據(jù)的記錄時間的期間內(nèi)被估計者未正在講話的部分和正在講話的部分混合存在的情況,在該情況下,講話判定部100在被估計者未正在講話的部分判定為被估計者未正在講話,在正在講話的部分判定為被估計者正在講話。然后,情緒估計部110在該動態(tài)圖象數(shù)據(jù)的記錄時間內(nèi),基于講話判定部100的判定結果適宜切換第1情緒認識模型25和第2情緒認識模型26,來執(zhí)行情緒估計處理。
第1情緒認識模型25以及第2情緒認識模型26,是用于使用被估計者的臉圖像來估計被估計者的情緒的認識模型。第1情緒認識模型25是適于在被估計者未正在講話的情況下進行情緒估計的情緒認識模型,第2情緒認識模型26是適于在被估計者正在講話的情況下進行情緒估計的情緒認識模型。更具體的,第1情緒認識模型25使用被估計者的臉圖像的包含被估計者的口區(qū)域的圖像來估計被估計者的情緒。第2情緒認識模型26使用被估計者的臉圖像的不含被估計者的口區(qū)域的圖像來估計被估計者的情緒。
第1情緒認識模型25以及第2情緒認識模型26,在被未圖示的外部的情緒認識模型生成裝置生成后,由情緒估計裝置1取得,存儲于存儲部20。第1情緒認識模型25使用多個學習用臉圖像來生成,使用包含各學習用臉圖像中的被攝體的口區(qū)域的圖像來生成。第2情緒認識模型26使用多個學習用臉圖像來生成,使用不含各學習用臉圖像中的被攝體的口區(qū)域的圖像來生成。
[情緒認識模型生成處理的實施方式]
以下參考圖3~圖5來說明情緒認識模型生成裝置生成第1情緒認識模型25以及第2情緒認識模型26的動作。情緒認識模型生成裝置通過執(zhí)行圖3的流程圖所示的情緒認識模型生成處理來生成第1情緒認識模型25以及第2情緒認識模型26。
首先說明情緒認識模型生成裝置通過執(zhí)行圖3的流程圖所示的情緒認識模型生成處理來生成第1情緒認識模型25的動作。
設情緒認識模型生成裝置預先取得外部的拍攝裝置所拍攝的多個臉圖像,并存儲起來。對這些臉圖像預先賦予表征各臉圖像中的被攝體的情緒的情緒標簽。
情緒認識模型生成裝置將存儲的多個臉圖像當中的一部分指定為學習用臉圖像,將剩余的臉圖像指定為評價用臉圖像。
若在該狀態(tài)下,用戶經(jīng)由未圖示的輸入部指示第1情緒認識模型25的生成,則情緒認識模型生成裝置開始圖3的流程圖所示的情緒認識模型生成處理。
首先,情緒認識模型生成裝置,分別對學習用臉圖像檢測各學習用臉圖像的表征被攝體的眼的圖像區(qū)域即眼區(qū)域、各學習用臉圖像的表征被攝體的鼻的圖像區(qū)域即鼻區(qū)域和各學習用臉圖像的表征被攝體的口的圖像區(qū)域即口區(qū)域(步驟s101)。由于從臉圖像檢測眼區(qū)域、鼻區(qū)域以及口區(qū)域的技術為公知,因此省略詳細的說明。
接下來,情緒認識模型生成裝置基于在步驟s101檢測到的眼區(qū)域、鼻區(qū)域以及口區(qū)域的位置,來將學習用臉圖像分別歸一化(步驟s102)。情緒認識模型生成裝置,對在步驟s102中將學習用臉圖像歸一化時所用的參數(shù)即圖像歸一化參數(shù)進行存儲。
具體地,情緒認識模型生成裝置在生成第1情緒認識模型25的情況下,在步驟s102,基于在步驟s101檢測到的眼區(qū)域的位置和口區(qū)域的位置來將學習用臉圖像分別歸一化,由此如圖4a所示那樣,將各學習用臉圖像包含口區(qū)域那樣地歸一化。情緒認識模型生成裝置存儲這時所用的圖像歸一化參數(shù)。
例如若臉圖像的大小不同,即使是相同的人笑時的臉,皺紋的長度、粗細也會變得不同。為此,有可能成為搞錯講話時的情緒認識的要因。為了減輕該誤認識,進行臉圖像的歸一化。
情緒認識模型生成裝置對在步驟s102歸一化的學習用臉圖像分別算出各學習用臉圖像所包含的像素的localbinarypattern(局部二值模式,以下稱作lbp),由此生成lbp圖像(步驟s103)。
情緒認識模型生成裝置將在步驟s103生成的lbp圖像分別分割為多個塊(步驟s104)。情緒認識模型生成裝置存儲在步驟s104將lbp圖像分割為多個塊時所用的參數(shù)即分割參數(shù)。
例如對于眼區(qū)域,可以對內(nèi)眼角、瞳孔、外眼角這樣進一步細致的部分分割區(qū)域,將歸一化的臉圖像以小矩形區(qū)域瓷磚狀鋪滿那樣進行分割。然后,對細致分割的每個區(qū)域提取特征量(lbp)。
情緒認識模型生成裝置,在對在步驟s104分割的每隔塊生成lbp直方圖的基礎上將全部塊的lbp直方圖連結,由此對在步驟s102歸一化的學習用臉圖像分別生成lbp直方圖(步驟s105)。這時,若分割的區(qū)域的像素數(shù)在每個臉圖像中不同,則需要將直方圖歸一化,以使各區(qū)域的頻度的合計成為1。
作成直方圖的目的在于,通過將特征量的分布圖形化,變得易于綜合比較生氣時或開心時的外眼角的皺紋的朝向等。情緒認識模型生成裝置對預先賦予了情緒標簽的每個學習用臉圖像作成lbp直方圖。
情緒認識模型生成裝置,使用基于全部學習用臉圖像的lbp直方圖取得的參數(shù)來將全部lbp直方圖以維度為單位進行歸一化(步驟s106)。情緒認識模型生成裝置,存儲將全部lbp直方圖以維度為單位進行歸一化時所用的參數(shù)即直方圖歸一化參數(shù)。
所謂維度歸一化,用于使lbp直方圖的各維度的擴展狀況不會因不同維度而異。這有助于減輕對情緒識別貢獻大的維度的分布窄、對情緒識別沒有貢獻的維度的分布寬的情況下認識性能降低的問題。作為歸一化方法,有基于最大值最小值的歸一化方法、基于平均標準偏差的歸一化方法等。
情緒認識模型生成裝置將圖4a所示的在步驟s106以維度為單位進行了歸一化的全部學習用臉圖像的lbp直方圖(特征量)、和對各學習用臉圖像預先賦予的情緒標簽用作示教數(shù)據(jù)來進行機器學習,生成支持向量機(supportvectormachine)(步驟s107)。情緒認識模型生成裝置存儲定義生成的支持向量機的參數(shù)即svm參數(shù)。即,情緒認識模型生成裝置將預先賦予了情緒標簽的學習用臉圖像作為示教數(shù)據(jù),來生成將講話者的講話時的情緒狀態(tài)識別為例如喜怒哀樂的支持向量機。另外,在本實施方式中說明了將歸一化的lbp直方圖用作特征量,但這只是一例。第1情緒認識模型25以及第2情緒認識模型26能通過對任意的特征量進行機器學習來生成。
情緒認識模型生成裝置將表示在步驟s102所用的圖像歸一化參數(shù)的信息、表示在步驟s104所用的圖像分割參數(shù)的信息、表示在步驟s106所用的直方圖歸一化參數(shù)的信息和表示在步驟s107取得的svm參數(shù)的信息相互建立對應,由此生成具有圖5所示的結構的第1情緒認識模型25(步驟s108),結束情緒認識模型生成處理。
另外,情緒認識模型生成裝置也可以在步驟s108使用評價用臉圖像來評價生成的情緒認識模型的品質。具體地,情緒認識模型生成裝置使用生成的情緒認識模型來估計評價用臉圖像所表征的被攝體的情緒,基于估計結果和對該評價用臉圖像預先賦予的情緒標簽是否一致來評價情緒認識模型的品質即可。也可以在評價的結果是生成的情緒認識模型的品質不滿足給定的基準的情況下,進行修正情緒認識模型的各參數(shù)的調(diào)諧,或進行再度進行機器學習來重新定義各參數(shù)的再學習。
如以上說明的那樣,情緒認識模型生成裝置使用在步驟s102包含口區(qū)域那樣地歸一化的學習用臉圖像來生成第1情緒認識模型25。即,情緒認識模型生成裝置使用多個學習用臉圖像的包含各學習用臉圖像中的被攝體的口區(qū)域的圖像來生成第1情緒認識模型25。
接下來說明情緒認識模型生成裝置通過執(zhí)行圖3的流程圖所示的情緒認識模型生成處理來生成第2情緒認識模型26的動作。
情緒認識模型生成裝置通過執(zhí)行與生成上述的第1情緒認識模型25時的步驟s101~s108的處理大致相同的處理,來生成第2情緒認識模型26。但步驟s102的處理部分不同。
具體地,情緒認識模型生成裝置在生成第2情緒認識模型26的情況下,在步驟s102基于在步驟s101檢測到的眼區(qū)域的位置和鼻區(qū)域的位置將學習用臉圖像分別歸一化,由此如圖4b所示那樣,將各學習用臉圖像不含口區(qū)域那樣地歸一化。情緒認識模型生成裝置存儲這時所用的圖像歸一化參數(shù)。
情緒認識模型生成裝置使用在步驟s102不含口區(qū)域地歸一化的學習用臉圖像來執(zhí)行步驟s103~s108的處理,由此生成具有圖5所示的結構的第2情緒認識模型26。即,情緒認識模型生成裝置將表征各臉圖像中的被攝體的口的圖像區(qū)域即口區(qū)域除外來使用多個臉圖像,來生成第2情緒認識模型26。
另外,在本實施方式中說明了個別生成第1情緒認識模型25和第2情緒認識模型26,但這只是一例。第1情緒認識模型25和第2情緒認識模型26也可以使用共通的學習用臉圖像通過1個處理匯總生成。
[情緒估計處理的實施方式]
以下參考圖6,來說明具有上述的物理、功能構成的情緒估計裝置1使用被估計者的臉圖像23估計被估計者的情緒的動作。情緒估計裝置1通過執(zhí)行圖6的流程圖所示的情緒估計處理,來使用被估計者的臉圖像23估計被估計者的情緒。
情緒估計裝置1經(jīng)由外部接口50預先取得被估計者的臉圖像23、周邊聲音數(shù)據(jù)24、第1情緒認識模型25以及第2情緒認識模型26,存儲于存儲部20。在存儲部20中,被估計者的臉圖像23和周邊聲音數(shù)據(jù)24相互建立對應而存儲。
若在該狀態(tài)下,由希望估計被估計者的情緒的用戶經(jīng)由輸入部30指示情緒的估計,則cpu10響應于該指示而開始圖6的流程圖所示的情緒估計處理。
首先,講話判定部100判定在拍攝被估計者的臉圖像23時被估計者是否正在講話(步驟s201)。具體地,若周邊聲音數(shù)據(jù)24的音量不足第1閾值,則講話判定部100判定為被估計者未正在講話,若周邊聲音數(shù)據(jù)24的音量為第1閾值以上,則講話判定部100判定為被估計者正在講話。
模型選擇部110a基于步驟s201中的判定結果來選擇第1情緒認識模型25和第2情緒認識模型26當中的任一者(步驟s202)。具體地,在講話判定部100在步驟s201判定為被估計者未正在講話的情況下,模型選擇部110a選擇第1情緒認識模型25,在步驟s201中判定為被估計者正在講話的情況下,模型選擇部110a選擇第2情緒認識模型26。
情緒估計部110檢測被估計者的臉圖像23的表征眼的圖像區(qū)域即眼區(qū)域、表征被估計者的鼻的圖像區(qū)域即鼻區(qū)域和表征被估計者的口的圖像區(qū)域即口區(qū)域(步驟s203),基于檢測到的眼區(qū)域、鼻區(qū)域以及口區(qū)域的位置,使用在步驟s202選擇的情緒認識模型所包含的圖像歸一化參數(shù)來將被估計者的臉圖像23歸一化(步驟s204)。
具體地,在步驟s202中由模型選擇部110a選擇第1情緒認識模型25的情況下,情緒估計部110在步驟s204使用第1情緒認識模型25所包含的圖像歸一化參數(shù)來將被估計者的臉圖像23歸一化,由此將被估計者的臉圖像23包含表征被估計者的口的圖像區(qū)域那樣地歸一化。另外,在步驟s202中由模型選擇部110a選擇第2情緒認識模型26的情況下,情緒估計部110在步驟s204使用第2情緒認識模型26所包含的圖像歸一化參數(shù)來將被估計者的臉圖像23歸一化,由此將被估計者的臉圖像23不含表征被估計者的口的圖像區(qū)域那樣地歸一化。
情緒估計部110算出在步驟s204歸一化的被估計者的臉圖像23所含的全部像素的lbp,由此生成lbp圖像(步驟s205)。
情緒估計部110使用在步驟s202選擇的情緒認識模型所包含的分割參數(shù),將在步驟s205生成的lbp圖像分割為多個塊(步驟s206)。具體地,在步驟s202中由模型選擇部110a選擇第1情緒認識模型25的情況下,情緒估計部110使用第1情緒認識模型25所包含的分割參數(shù)來分割lbp圖像。另外,在步驟s202中由模型選擇部110a選擇第2情緒認識模型26的情況下,情緒估計部110使用第2情緒認識模型26所包含的分割參數(shù)來分割lbp圖像。
情緒估計部110在對步驟s206中分割的每個塊生成lbp直方圖的基礎上將全塊的lbp直方圖連結,由此對在步驟s204歸一化的被估計者的臉圖像23生成lbp直方圖(步驟s207)。
情緒估計部110,使用在步驟s202選擇的情緒認識模型所包含的直方圖歸一化參數(shù),對在步驟s207生成的lbp直方圖以維度為單位進行歸一化(步驟s208)。具體地,在步驟s202中由模型選擇部110a選擇第1情緒認識模型25的情況下,情緒估計部110使用第1情緒認識模型25所包含的直方圖歸一化參數(shù)來將lbp直方圖歸一化。另外,在步驟s202中由模型選擇部110a選擇第2情緒認識模型26的情況下,情緒估計部110使用第2情緒認識模型26所包含的直方圖歸一化參數(shù)來將lbp直方圖歸一化。
情緒估計部110使用在步驟s208歸一化的lbp直方圖和以在步驟s202選擇的情緒認識模型所包含的svm參數(shù)定義的支持向量機,來估計被估計者的情緒(步驟s209)。具體地,在步驟s202中由模型選擇部110a選擇第1情緒認識模型25的情況下,情緒估計部110使用以第1情緒認識模型25所包含的svm參數(shù)定義的支持向量機來估計被估計者的情緒。另外,在步驟s202中由模型選擇部110a選擇第2情緒認識模型26的情況下,情緒估計部110使用以第2情緒認識模型26所包含的svm參數(shù)定義的支持向量機來估計被估計者的情緒。
即,情緒估計部110與情緒認識模型生成裝置生成情緒認識模型時同樣地將被估計者的臉圖像23分割為眼、鼻、口等的區(qū)域。然后,進一步如內(nèi)眼角、外眼角那樣將區(qū)域細分化。然后,對細分化的每個區(qū)域,與情緒認識模型生成裝置同樣地生成lbp直方圖,從而進行維度歸一化。然后將歸一化的lbp直方圖作為被估計者的臉圖像23的特征數(shù)據(jù),使用情緒識別模型內(nèi)的svm,識別該特征數(shù)據(jù)屬于喜怒哀樂哪種情緒狀態(tài)的臉圖像。
情緒估計部110將表征在步驟s209估計出的被估計者的情緒的文本消息作為情緒圖像顯示在輸出部40的顯示器,將表征在步驟s209估計出的被估計者的情緒的情緒信息,經(jīng)由外部接口50向未圖示的外部的信息處理裝置送出(步驟s210),并結束情緒估計處理。
如以上說明的那樣,情緒估計裝置1按照是否由講話判定部100判定為拍攝被估計者的臉圖像23時被估計者正在講話,來執(zhí)行利用了被估計者的臉圖像23的相互不同的情緒估計處理。由此,情緒估計裝置1能使用被估計者的臉圖像23以高的精度估計被估計者的情緒。
以上說明了本發(fā)明的實施方式,但本實施方式只是一例,本發(fā)明的范圍并不限定于本實施方式。本發(fā)明能以種種形態(tài)實施,所有的實施方式均包含在本發(fā)明的范圍中。
在上述的實施方式中,情緒估計裝置1預先取得未圖示的外部的拍攝裝置所拍攝的被估計者的臉圖像23和未圖示的外部的錄音裝置所取得的拍攝該臉圖像23時的被估計者的周邊聲音數(shù)據(jù)24,將被估計者的臉圖像23和周邊聲音數(shù)據(jù)24相互建立對應并存儲在存儲部20。但這只是一例。情緒估計裝置1能用任意的方法取得被估計者的臉圖像23和周邊聲音數(shù)據(jù)24。
例如情緒估計裝置1具備未圖示的拍攝單元,使用該拍攝單元拍攝被估計者的臉來取得被估計者的臉圖像23即可。另外,情緒估計裝置1具備未圖示的聲音輸入單元,使用該聲音輸入單元取得表征由拍攝單元拍攝被估計者的臉圖像23時被估計者的周邊的聲音的聲音數(shù)據(jù),作為周邊聲音數(shù)據(jù)24即可。在該情況下,情緒估計裝置1也可以一直進行被估計者的臉圖像23和被估計者的周邊聲音的取得、和基于被估計者的講話的有無的利用了被估計者的臉圖像23的該被估計者的情緒認識。
在上述的實施方式中,第1情緒認識模型25以及第2情緒認識模型26通過圖3的流程圖所示的情緒認識模型生成處理生成,具有圖5所示的結構。但這只是一例。第1情緒認識模型25只要是使用被估計者的臉圖像的包含被估計者的口區(qū)域的圖像來估計被估計者的情緒的認識模型即可,可以是用任意的方法生成的、具有任意的結構的認識模型。第2情緒認識模型26只要是使用被估計者的臉圖像的不含被估計者的口區(qū)域的圖像來估計被估計者的情緒的認識模型即可,可以是用任意的方法生成的、具有任意的結構的認識模型。
在上述的實施方式中,若周邊聲音數(shù)據(jù)24的音量不足第1閾值,則講話判定部100判定為被估計者未正在講話,若周邊聲音數(shù)據(jù)24的音量為第1閾值以上,則講話判定部100判定為被估計者正在講話。但這只是一例。講話判定部100能用任意的方法判定在拍攝被估計者的臉圖像23時被估計者是否正在講話。
例如,講話判定部100基于周邊聲音數(shù)據(jù)24與元音聲音數(shù)據(jù)以及輔音聲音數(shù)據(jù)之間的類似度來判定被估計者是否正在講話即可。另外,元音聲音數(shù)據(jù)是表征元音的聲音數(shù)據(jù),輔音聲音數(shù)據(jù)是表征輔音的聲音數(shù)據(jù)。具體地,若周邊聲音數(shù)據(jù)24與元音聲音數(shù)據(jù)之間的類似度、和周邊聲音數(shù)據(jù)24與輔音聲音數(shù)據(jù)之間的類似度當中至少任意一方不足第2閾值,則講話判定部100判定為被估計者未正在講話即可。另外,若周邊聲音數(shù)據(jù)24與元音聲音數(shù)據(jù)之間的類似度、和周邊聲音數(shù)據(jù)24與輔音聲音數(shù)據(jù)之間的類似度當中至少任意一方為第2閾值以上,則講話判定部100判定為被估計者正在講話即可。另外,第2閾值能通過實驗等任意的方法預先設定。
或者,講話判定部100也可以從外部取得表示拍攝被估計者的臉圖像23時被估計者是否正在講話的講話信息,基于該講話信息來判定被估計者是否正在講話。講話判定部100能用任意的方法取得講話信息。例如,講話判定部100取得用戶使用輸入部30輸入的表示拍攝被估計者的臉圖像23時被估計者是否正在講話的信息,作為講話信息。
[情緒估計處理的變形例]
在上述的實施方式中,情緒估計部110在講話判定部100判定為被估計者未正在講話的情況下、和講話判定部100判定為被估計者正在講話的情況下,執(zhí)行利用被估計者的臉圖像23的相互不同的情緒估計處理。具體地,在講話判定部100判定為被估計者未正在講話的情況下,情緒估計部110選擇第1情緒認識模型25來執(zhí)行情緒估計處理,在講話判定部100判定為被估計者正在講話的情況下,情緒估計部110選擇第2情緒認識模型26來執(zhí)行情緒估計處理。
在情緒估計處理的變形例中,在講話判定部100判定為被估計者未正在講話的情況下,情緒估計部110執(zhí)行利用了被估計者的臉圖像23的情緒估計處理,在講話判定部100判定為被估計者正在講話的情況下,情緒估計部110不進行利用了被估計者的臉圖像23的情緒估計處理,如此地動作。
以下參考圖7來說明情緒估計處理的變形例。
首先,講話判定部100判定拍攝被估計者的臉圖像23時被估計者是否正在講話(步驟s301)。本處理是與第1實施方式中的步驟s201相同的處理。
情緒估計部110在步驟s301的判定結果中判定為被估計者未正在講話的情況下(步驟s302:“是”),執(zhí)行利用了被估計者的臉圖像23的情緒估計處理(步驟s303)。具體地,使用第1情緒認識模型25進行第1實施方式中的步驟s203~步驟s210的處理,之后結束情緒估計處理。
另外,情緒估計部110在步驟s301的判定結果中判定為被估計者正在講話的情況下(步驟s302:“否”),不執(zhí)行利用了被估計者的臉圖像23的情緒估計處理(禁止利用了被估計者的臉圖像23的情緒估計處理的執(zhí)行)而結束情緒估計處理。另外,在本實施方式中,說明了在判定為被估計者正在講話的情況下不執(zhí)行利用了被估計者的臉圖像23的情緒估計處理而結束情緒估計處理,但這只是一例。還能在判定為被估計者正在講話的情況下,不執(zhí)行利用了被估計者的臉圖像23的情緒估計處理(禁止利用被估計者的臉圖像23的情緒估計處理的執(zhí)行),而執(zhí)行不用被估計者的臉圖像23的任意的情緒估計處理,由此估計被估計者的情緒。例如在判定為被估計者正在講話的情況下,不執(zhí)行利用了被估計者的臉圖像23的情緒估計處理,而是使用周邊聲音數(shù)據(jù)24所表征的被估計者的聲音來估計被估計者的情緒即可。使用被估計者的聲音來估計被估計者的情緒的技術由于在該技術領域中周知,因此省略詳細的說明。
另外,情緒估計部110也可以在判定為被估計者正在講話的情況下執(zhí)行利用了被估計者的臉圖像23的情緒估計處理。具體地,可以使用第2情緒認識模型26進行第1實施方式中的步驟s203~步驟s210的處理,在判定為被估計者未正在講話的情況下,不執(zhí)行利用了被估計者的臉圖像23的情緒估計處理而結束情緒估計處理。
如以上說明的那樣,情緒估計裝置1由于在估計利用被估計者的臉圖像23的被估計者的情緒時,進行不影響到被估計者的講話的有無的情緒估計,因此能以高的精度估計被估計者的情緒。
在上述的實施方式以及變形例中,情緒估計裝置1在輸出部40所具備的顯示器顯示情緒圖像,經(jīng)由外部接口50送出情緒信息,由此輸出情緒估計處理的結果。但這只是一例。情緒估計裝置1能用任意的方法輸出情緒估計處理的結果。例如情緒估計裝置1的輸出部40具備未圖示的揚聲器,將表征情緒估計裝置1所估計出的被估計者的情緒的聲音即情緒聲音從該揚聲器輸出即可。
本發(fā)明所涉及的情緒估計裝置能通過計算機、便攜電話、智能手機、攝像機、pda(personaldigitalassistant,個人數(shù)字助理)等任意的電子設備實現(xiàn)。具體地,通過將用于使這些電子設備作為本發(fā)明所涉及的情緒估計裝置而動作的程序存放在這些電子設備可讀的記錄介質(例如存儲卡或cd-rom(compactdiscread-onlymemory,只讀光盤)、dvd-rom(digitalversatilediscread-onlymemory,數(shù)字多功能盤)等)來進行分發(fā),并安裝在這些電子設備中,由此能實現(xiàn)本發(fā)明所涉及的情緒估計裝置。
或者,也可以將上述程序存放在互聯(lián)網(wǎng)等通信網(wǎng)絡上的服務器裝置所具有的存儲裝置(例如盤裝置等)中,通過計算機、便攜電話、智能手機、攝像機、pda等電子設備下載該程序來實現(xiàn)本發(fā)明所涉及的情緒估計裝置。
另外,在通過os(operatingsystem,操作系統(tǒng))和應用程序的協(xié)作或分擔來實現(xiàn)本發(fā)明所涉及的情緒估計裝置的功能的情況下,也可以僅將應用程序部分存放在記錄介質或存儲裝置。
另外,也可以將應用程序疊加到載波,經(jīng)由通信網(wǎng)絡發(fā)布。例如可以在通信網(wǎng)絡上的布告牌(bbs:bulletinboardsystem)布告應用程序,經(jīng)由網(wǎng)絡發(fā)布應用程序。然后將該應用程序安裝在計算機并起動,在os的控制下與其他應用程序同樣地執(zhí)行,由此實現(xiàn)本發(fā)明所涉及的情緒估計裝置。