控制裝置、控制方法和程序的制作方法
【專利摘要】一種信息處理裝置包括處理器,該處理器接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù),基于捕捉的圖像數(shù)據(jù)來檢測用戶,基于檢測的結(jié)果和捕捉的聲音數(shù)據(jù)來分析環(huán)境的狀況,并且基于分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
【專利說明】控制裝置、控制方法和程序
【技術(shù)領(lǐng)域】
[0001]本技術(shù)涉及控制裝置、控制方法和程序,具體而言涉及使得能夠?qū)χT如τν(電視接收機)之類的用于至少輸出聲音的輸出裝置的聲音輸出進行適當控制的控制裝置、控制方法和程序。
【背景技術(shù)】
[0002]例如,專利文獻I描述了一種TV,其檢測周邊噪音信息,根據(jù)用于拍攝周邊圖像的照相機的圖像判定是否有觀看者,并且在有觀看者時基于噪音信息來抑制噪音。
[0003]另外,例如,專利文獻2描述了一種記錄和再現(xiàn)裝置,其基于內(nèi)容的音頻信號生成內(nèi)容分析信息,基于周邊噪音生成環(huán)境噪音分析信息,并且基于內(nèi)容分析信息和環(huán)境噪音分析信息來調(diào)節(jié)內(nèi)容的音頻信號的音量。
[0004]引文列表
[0005]專利文獻
[0006]PTLl:日本專利申請?zhí)亻_2010-268284號公報
[0007]PTL2:日本專利申請?zhí)亻_2010-154388號公報
【發(fā)明內(nèi)容】
[0008]技術(shù)問題
[0009]當在TV上觀看節(jié)目的用戶聽到TV周圍的說話語音,但該說話語音不是從該用戶產(chǎn)生的時,也就是說該語音是來自一起居住的家庭成員之類的在TV所在的房間之外的地方進行的電話交談的語音時,該電話交談對于觀看節(jié)目的用戶來說是噪音,并且使其難以聽到節(jié)目的聲音(語音)。因此,在此情況下,希望調(diào)節(jié)TV的聲音的輸出,也就是說,增大TV的音量,使得觀看節(jié)目的用戶可容易聽到TV上的節(jié)目的聲音。
[0010]另一方面,當在TV周圍聽到的說話語音是從在TV上觀看節(jié)目的用戶產(chǎn)生的語音時,觀看節(jié)目的用戶自己產(chǎn)生語音。因此,不必調(diào)節(jié)TV的聲音輸出以允許觀看節(jié)目的用戶容易聽到TV上的節(jié)目的聲音。
[0011]如上所述,即使當在TV周圍聽到語音時,也有適于調(diào)節(jié)TV的聲音輸出的情況和適于不調(diào)節(jié)TV的聲音輸出的情況。
[0012]本技術(shù)是鑒于這種情況而完成的,并且使得能夠?qū)χT如TV之類的用于至少輸出聲音的輸出裝置的聲音輸出進行適當?shù)目刂啤?br>
[0013]解決問題的方案
[0014]根據(jù)本技術(shù)的一個方面,提供了一種信息處理裝置,包括:處理器,該處理器:接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù);基于捕捉的圖像數(shù)據(jù)來檢測用戶;基于檢測的結(jié)果和捕捉的聲音數(shù)據(jù)來分析環(huán)境的狀況;以及基于分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
[0015]根據(jù)本技術(shù)的另一方面的一種方法包括以下步驟:接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù);基于捕捉的圖像數(shù)據(jù)來檢測用戶;基于檢測的結(jié)果和捕捉的聲音數(shù)據(jù)來分析環(huán)境的狀況;以及基于分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的
音頻音量。
[0016]在上述方面中,處理器從位于再現(xiàn)內(nèi)容的環(huán)境中的照相機接收捕捉的圖像數(shù)據(jù)并且基于捕捉的圖像數(shù)據(jù)來檢測臉部。
[0017]控制裝置可以是獨立的裝置或者是構(gòu)成一個裝置的內(nèi)部塊。
[0018]可通過經(jīng)由傳輸介質(zhì)傳輸或記錄在記錄介質(zhì)中來提供程序。
[0019]發(fā)明的有利效果
[0020]根據(jù)本技術(shù),可以適當?shù)乜刂戚敵鲅b置的聲音輸出。
【專利附圖】
【附圖說明】
[0021]圖1是圖示應(yīng)用了本技術(shù)的TV的實施例的配置示例的框圖。
[0022]圖2是圖示聲音輸出控制器14的配置示例的框圖。
[0023]圖3是說明聲音輸出控制器14執(zhí)行的處理的流程圖。
[0024]圖4是說明音量/增益控制器35執(zhí)行的聲音輸出控制處理的流程圖。
[0025]圖5說明音量/增益控制器35執(zhí)行的聲音輸出控制的圖。
[0026]圖6是說明反映/登記聲音調(diào)節(jié)鍵操作的處理的流程圖。
[0027]圖7是說明恢復(fù)處理的流程圖。
[0028]圖8是說明恢復(fù)處理的流程圖。
[0029]圖9是說明音量/增益控制器35執(zhí)行的聲音輸出控制的另一示例的圖。
[0030]圖10是圖示應(yīng)用了本技術(shù)的計算機的實施例的配置示例的框圖。
【具體實施方式】
[0031 ] <應(yīng)用了本技術(shù)的TV的實施例>
[0032]圖1是圖示應(yīng)用了本技術(shù)的TV的實施例的配置示例的框圖。
[0033]在圖1中,TV是用于至少輸出聲音的輸出裝置之一,并且具有調(diào)諧器11、信號處理器12、顯示單元13、聲音輸出控制器14、揚聲器單元15、控制器16和操作單元17。
[0034]調(diào)諧器11被提供以由天線(未示出)接收的電視廣播信號的RF(Radio Frequency,射頻)信號。
[0035]調(diào)諧器11對提供給它的RF信號進行檢測和解調(diào),實現(xiàn)由例如操作單元17的用戶操作所選擇的頻道的節(jié)目的數(shù)據(jù),并且將該數(shù)據(jù)提供給信號處理器12。
[0036]信號處理器12對來自調(diào)諧器11的節(jié)目的數(shù)據(jù)執(zhí)行解碼和其他必要的信號處理,將所得到的節(jié)目的視頻(圖像)數(shù)據(jù)提供給顯示單元13,并且還將節(jié)目的音頻(聲音(語音))數(shù)據(jù)提供給揚聲器單元15。
[0037]顯示單元13例如包括IXD (液晶顯示器)、有機EL (電致發(fā)光)等等,并且顯示與來自信號處理器12的視頻數(shù)據(jù)相對應(yīng)的節(jié)目的圖像。
[0038]聲音輸出控制器14拍攝TV周圍的圖像并且收集TV周圍的環(huán)境聲音,并且基于所得到的TV周圍的拍攝圖像和所得到的TV周圍的環(huán)境聲音來控制TV的聲音輸出,也就是說,例如控制揚聲器單兀15 (的揚聲器15L和15R)的音量之類的。[0039]揚聲器單兀15具有用于輸出L (左)聲道的聲音的揚聲器15L和用于輸出R (右)聲道的聲音的揚聲器15R,并且根據(jù)聲音輸出控制器14的控制來輸出與來自信號處理器12的音頻數(shù)據(jù)相對應(yīng)的節(jié)目的聲音。
[0040]控制器16例如根據(jù)操作單元17等的操作來控制構(gòu)成TV的每個塊。
[0041]操作單元17是設(shè)在TV的殼體(主體)上的按鈕、遙控器之類的,并且被用戶操作以向控制器16提供與該操作相對應(yīng)的操作信號。
[0042]<聲音輸出控制器14的配置不例>
[0043]圖2是圖示圖1的聲音輸出控制器14的配置示例的框圖。
[0044]在圖2中,聲音輸出控制器14具有照相機21、麥克風(fēng)(microphone)群組22、控制器23和存儲單元24。
[0045]照相機21以預(yù)定的速率拍攝TV周圍(尤其是例如在與顯示單元13的顯示屏幕相對的一側(cè))的周邊圖像,并且將所得到的拍攝圖像提供給控制器23 (的臉部檢測器31)。
[0046]麥克風(fēng)群組22具有多個麥克風(fēng),收集TV周圍的環(huán)境聲音,并且將環(huán)境聲音提供給控制器23 (的語音判定單元33)。
[0047]控制器23基于來自照相機21的所拍攝的TV周圍的周邊圖像和來自麥克風(fēng)群組22的TV周圍的環(huán)境聲音來控制TV的聲音輸出,例如揚聲器單兀15的揚聲器15L和15R的音量。
[0048]也就是說,控制器23具有臉部檢測器31、臉部信息獲取單元32、語音判定單元33、狀況分析器34、音量/增益控制器35和揚聲器控制器36。
[0049]臉部檢測器31在從照相機21提供來的拍攝圖像上檢測(人的)臉部,并向臉部信息獲取單元42提供表示檢測結(jié)果的臉部檢測信息。
[0050]臉部信息獲取單元32基于來自臉部檢測器31的臉部檢測信息之類的來獲得關(guān)于拍攝圖像上的臉部的臉部信息,并且將臉部信息提供給狀況分析器34。
[0051]也就是說,臉部信息獲取單元32例如從臉部檢測信息中識別拍攝圖像上顯示的臉部的位置(例如在拍攝圖像上的位置)和數(shù)目來作為臉部信息。
[0052]此外,臉部信息獲取單元32對于在拍攝圖像上顯示的臉部執(zhí)行個人識別以獲得用于識別誰具有所識別的臉部(所識別的臉部是誰的臉部)的信息以及由個人識別所識別的人的年齡、性別等等來作為臉部信息。例如,家庭成員的個人識別所必要的信息可在TV等的初始化階段輸入。
[0053]語音判定單元33對從麥克風(fēng)群組22提供來的環(huán)境聲音執(zhí)行頻率分析之類的以檢測環(huán)境聲音的水平(增益)和產(chǎn)生環(huán)境聲音的聲音源的方向,并且還判定環(huán)境聲音是人類的語音還是除了人類語音以外的聲音(以下稱為“非語音”)。
[0054]語音判定單元33將環(huán)境聲音的水平、產(chǎn)生環(huán)境聲音的聲音源的方向和指示環(huán)境聲音是語音還是非語音的判定結(jié)果作為關(guān)于環(huán)境聲音的環(huán)境聲音信息提供給狀況分析器34。
[0055]狀況分析器34基于從臉部信息獲取單元32提供來的從拍攝圖像獲得的臉部信息和從語音判定單元33提供來的從環(huán)境聲音獲得的環(huán)境聲音信息來分析TV周圍的狀況,并且將作為分析結(jié)果獲得的TV周圍的狀況(以下稱為“周邊狀況”)提供給音量/增益控制器35。[0056]音量/增益控制器35根據(jù)來自狀況分析器34的周邊狀況來控制揚聲器控制器
36,從而控制TV的聲音輸出,也就是說,例如,控制揚聲器15L和15R的音量、揚聲器15L和15R的聲音輸出的增益,等等。
[0057]音量/增益控制器35還根據(jù)操作單元17 (圖1)的用戶操作來控制TV的聲音輸出。
[0058]也就是說,作為操作單元17的主體的按鈕(鍵)和遙控器的按鈕設(shè)有被操作來調(diào)節(jié)TV的聲音輸出的聲音調(diào)節(jié)鍵,例如被操作來增大或減小音量的音量鍵、被操作來靜音的靜音鍵,等等。
[0059]當用戶對操作單元17的音量調(diào)節(jié)鍵進行操作時,控制器16向音量/增益控制器35提供作為與對音量調(diào)節(jié)鍵的操作相對應(yīng)的操作信號的音量操作信號。
[0060]音量/增益控制器35根據(jù)從控制器16 (來自圖1)提供來的音量操作信號以及來自狀況分析器34的周邊狀況來控制TV的聲音輸出。
[0061]如后文所述,音量/增益控制器35還可根據(jù)存儲單元24中存儲的信息來控制TV的聲音輸出。
[0062]揚聲器控制器36根據(jù)來自音量/增益控制器35的控制來控制揚聲器15L和15R
的音量。
[0063]外部音頻設(shè)備連接到TV,并且當節(jié)目的聲音從外部音頻設(shè)備的揚聲器輸出時,揚聲器控制器36可根據(jù)來自音量/增益控制器35的控制來控制連接到TV的外部音頻設(shè)備的揚聲器的音量。
[0064]存儲單元24存儲控制器23的操作所必要的信息。
[0065]存儲單元24的部分存儲區(qū)域充當用于臨時存儲由麥克風(fēng)群組22收集的環(huán)境聲音的環(huán)境聲音存儲單元24A。
[0066]由麥克風(fēng)群組22收集的環(huán)境聲音被經(jīng)由控制器23提供給環(huán)境聲音存儲單元24A。環(huán)境聲音存儲單元24A存儲來自麥克風(fēng)群組22的環(huán)境聲音,并且當環(huán)境聲音存儲單元24A存儲與其存儲容量相對應(yīng)量的環(huán)境聲音時,以覆蓋在最舊的環(huán)境聲音上的方式存儲從麥克風(fēng)群組22新提供的環(huán)境聲音。
[0067]因此,在環(huán)境聲音存儲單元24A中始終存儲著預(yù)定時間段(例如,幾十秒之類的)的
最新環(huán)境聲音。
[0068]<聲音輸出控制處理>
[0069]圖3是說明圖2的聲音輸出控制器14執(zhí)行的處理的流程圖。
[0070]在步驟Sll中,聲音輸出控制器14收集環(huán)境聲音信息和臉部信息,并且處理轉(zhuǎn)到步驟S12。
[0071]也就是說,利用照相機21,拍攝TV周圍的周邊圖像,并且所得到的拍攝圖像被提供給臉部檢測器31。
[0072]臉部檢測器31檢測在從照相機21提供來的拍攝圖像上顯示的臉部,并將表示檢測結(jié)果的臉部檢測信息提供給臉部信息獲取單元32。
[0073]基于來自臉部檢測器31的臉部檢測信息之類的,臉部信息獲取單元32獲得例如拍攝圖像上顯示的臉部的位置、數(shù)目等等作為關(guān)于在拍攝圖像上顯示的臉部的臉部信息,并且將所獲得的臉部信息提供給狀況分析器34。[0074]另一方面,TV周圍的環(huán)境聲音被麥克風(fēng)群組22收集,并被提供給語音判定單元33。
[0075]語音判定單元33檢測從麥克風(fēng)群組22提供來的環(huán)境聲音的水平和產(chǎn)生環(huán)境聲音的聲音源的方向,并且還判定環(huán)境聲音是語音還是非語音。
[0076]語音判定單兀33向狀況分析器34提供環(huán)境聲音的水平、產(chǎn)生環(huán)境聲音的聲音源的方向和指不環(huán)境聲音是語音還是非語音的判定結(jié)果,作為環(huán)境聲音信息。
[0077]由麥克風(fēng)群組22收集的環(huán)境聲音被提供給語音判定單元33,并且如上所述還被提供給環(huán)境聲音存儲單元24A并被臨時存儲在其中。
[0078]在步驟S12中,狀況分析器34基于來自臉部信息獲取單元32的臉部信息和來自語音判定單元33的環(huán)境聲音信息來分析TV周圍的周邊狀況,并將所分析的周邊狀況提供給音量/增益控制器35,并且處理轉(zhuǎn)到步驟S13。
[0079]在步驟S13中,音量/增益控制器35根據(jù)來自狀況分析器34的周邊狀況來控制揚聲器控制器36以執(zhí)行聲音輸出控制,用于控制TV的聲音輸出,也就是說,例如,揚聲器15L和15R的音量、揚聲器15L和15R的聲音輸出的增益等等,并且處理轉(zhuǎn)到步驟S14。
[0080]在步驟S14中,音量/增益控制器35判定用戶是否操作了聲音調(diào)節(jié)鍵,該聲音調(diào)節(jié)鍵是設(shè)在操作單元17中的并且在調(diào)節(jié)TV的聲音輸出時被操作。
[0081]當在步驟S14中判定聲音調(diào)節(jié)鍵未被操作時,處理跳過步驟S15并且返回到步驟Sll以重復(fù)相同的處理。
[0082]當在步驟S14中判定聲音調(diào)節(jié)鍵被操作時,也就是說,當用戶操作了聲音調(diào)節(jié)鍵并且從而與對聲音調(diào)節(jié)鍵的操作相對應(yīng)的音量操作信號被從控制器16 (圖1)提供給音量/增益控制器35時,處理轉(zhuǎn)到步驟S15,音量/增益控制器35執(zhí)行聲音調(diào)節(jié)鍵操作反映/登記處理,通過該處理對聲音調(diào)節(jié)鍵的操作被反映到TV的聲音輸出,并且關(guān)于該操作的操作信息被登記(存儲)到存儲單元24中,并且處理返回到步驟S11。
[0083]這里,“音量/增益控制器35在步驟S15中將對聲音調(diào)節(jié)鍵的操作反映到TV的聲音輸出”指的是音量/增益控制器35通過根據(jù)對聲音調(diào)節(jié)鍵的操作(音量操作信號)控制揚聲器控制器36來控制TV的聲音輸出。
[0084]圖4是說明音量/增益控制器35執(zhí)行的根據(jù)周邊狀況的聲音輸出控制處理的流程圖。
[0085]在步驟S21中,音量/增益控制器35基于周邊狀況判定TV周圍的環(huán)境聲音的水平是否小于預(yù)定的閾值。
[0086]當在步驟S21中判定環(huán)境聲音的水平小于閾值時,也就是說,當在TV周圍沒有發(fā)生干擾對節(jié)目的觀看的環(huán)境聲音時,處理被返回。
[0087]當步驟S21中判定環(huán)境聲音的水平不小于閾值時,也就是說,當有可能在TV周圍發(fā)生干擾對節(jié)目的觀看的環(huán)境聲音時,處理轉(zhuǎn)到步驟S22,并且音量/增益控制器35基于周邊狀況判定其水平不小于閾值的環(huán)境聲音是否是人類語音。
[0088]當在步驟S22中判定其水平不小于閾值的環(huán)境聲音(以下稱為“大水平環(huán)境聲音”)是人類的語音時,處理轉(zhuǎn)到S23,并且音量/增益控制器35基于周邊狀況判定是否從拍攝圖像中檢測到臉部。
[0089]當在步驟S23中判定從拍攝圖像中沒有檢測到臉部時,也就是說,在在TV周圍聽到人類的說話語音、但在TV周圍沒有人在觀看節(jié)目的狀況的情況下,處理轉(zhuǎn)到步驟S24,并且音量/增益控制器35執(zhí)行用于減小揚聲器15L和15R的音量的聲音輸出控制,并且處理返回。
[0090]例如,觀看節(jié)目的用戶接收到電話呼叫并且在略微遠離TV的地方進行電話交談的狀況或者用戶將他/她的臉部轉(zhuǎn)到位于與TV (照相機21)的方向完全不同的方向的房間并且與該房間中的他/她的家庭成員講話的狀況被認為是在TV周圍聽到人類的語音、但TV周圍沒有人存在的狀況。
[0091 ] 在此情況下,用戶沒有在觀看節(jié)目,并且從TV輸出的節(jié)目的語音(聲音)可干擾用戶進行的電話呼叫或者交談。因此,音量/增益控制器35執(zhí)行用于減小揚聲器15L和15R的音量的聲音輸出控制。從而,可以防止TV的聲音輸出干擾用戶進行的電話呼叫或交談。
[0092]當在執(zhí)行步驟S24的處理期間揚聲器15L和15R的音量原本較小時,在步驟S24中可不執(zhí)行用于調(diào)節(jié)音量的聲音輸出控制。
[0093]另一方面,當在步驟S23中判定從拍攝圖像中檢測到臉部時,也就是說當在由照相機21拍攝的拍攝圖像上顯示了一個或多個人的一個或多個臉部時,處理轉(zhuǎn)到步驟S25,并且音量/增益控制器35基于周邊狀況判定相對于TV,產(chǎn)生作為語音的環(huán)境聲音的聲音源的方向和檢測到臉部的位置的方向是否(被認為)相互一致。
[0094]當在步驟S25中判定產(chǎn)生作為語音的環(huán)境聲音的聲音源的方向與檢測到(一個或多個臉部中的)任何臉部的位置的方向一致時,也就是說,在用戶正觀看節(jié)目并且觀看節(jié)目的用戶自己在進行交談的狀況的情況下,處理被返回。
[0095]這里,觀看節(jié)目的用戶在(與另一用戶)進行關(guān)于節(jié)目的交談的狀況被認為是用戶在觀看節(jié)目并且用戶在進行交談的狀況。
[0096]在此情況下,揚聲器15L和15R的音量不被調(diào)節(jié)(保持不變)。
[0097]另外,當在步驟S25中判定產(chǎn)生作為語音的環(huán)境聲音的聲音源的方向與檢測到臉部的位置的方向不一致時,也就是說,在用戶在觀看節(jié)目、但在TV周圍聽到除了用戶以外的人的說話語音的狀況的情況下,處理轉(zhuǎn)到步驟S26,音量/增益控制器35執(zhí)行用于增大揚聲器15L和15R的音量的聲音輸出控制,并且處理返回。
[0098]也就是說,雖然有用戶在觀看節(jié)目、但沒有在觀看節(jié)目的用戶在略微遠離TV的地方(該用戶未被顯示在拍攝圖像上的地方)發(fā)出一些噪音的狀況被認為是用戶在觀看節(jié)目、但在TV周圍聽到除了用戶以外的人的說話語音的狀況。
[0099]在此情況下,發(fā)出一些噪音、而沒有觀看節(jié)目的用戶的語音可干擾觀看節(jié)目的用戶的節(jié)目觀看,從而音量/增益控制器35執(zhí)行用于增大揚聲器15L和15R的音量的聲音輸出控制。因此,觀看節(jié)目的用戶可觀看節(jié)目,而不受在發(fā)出一些噪音、而沒有觀看節(jié)目的用戶的干擾。
[0100]也就是說,當沒有觀看節(jié)目的用戶產(chǎn)生干擾節(jié)目觀看的語音時,揚聲器15L和15R的音量被調(diào)節(jié)為增大。因此,在未觀看節(jié)目的用戶產(chǎn)生語音之前和之后,觀看節(jié)目的用戶能夠在以相同的容易程度聽到聲音的同時觀看節(jié)目。
[0101]另一方面,當在步驟S22中判定其水平不小于閾值的環(huán)境聲音(大水平環(huán)境聲音)不是人類的語音時,也就是說,當大水平環(huán)境聲音是諸如電話或?qū)χv機的呼叫聲音之類的非語音時,處理轉(zhuǎn)到步驟S27,并且音量/增益控制器35判定在存儲單元24中登記(存儲)的后文描述的登記聲音中是否存在(被認為)與作為非語音的環(huán)境聲音(大水平環(huán)境聲音)
一致的登記聲音。
[0102]這里,當用戶對操作單元17 (圖1)的聲音調(diào)節(jié)鍵進行操作并且音量/增益控制器35根據(jù)對聲音調(diào)節(jié)鍵的操作來執(zhí)行聲音輸出控制時,關(guān)于對聲音調(diào)節(jié)鍵的操作的操作信息和就在聲音調(diào)節(jié)鍵被操作之前的環(huán)境聲音被相互關(guān)聯(lián)地登記在存儲單元24中。
[0103]登記聲音指的是如上所述與操作信息相關(guān)聯(lián)地登記在存儲單元24中的環(huán)境聲
曰?
[0104]當在步驟S27中判定不存在與作為非語音的環(huán)境聲音一致的登記聲音時,處理轉(zhuǎn)到步驟S26,并且音量/增益控制器35執(zhí)行用于增大揚聲器15L和15R的音量的聲音輸出控制,使得用戶的節(jié)目觀看不受作為非語音的環(huán)境聲音的干擾,并且處理返回。
[0105]當在步驟S27中判定存在與作為非語音的環(huán)境聲音一致的登記聲音時,處理轉(zhuǎn)到步驟S28,并且音量/增益控制器35從存儲單元24讀出與和作為非語音的環(huán)境聲音一致的登記聲音相關(guān)聯(lián)的操作信息,并且根據(jù)操作信息(所表示的對聲音調(diào)節(jié)鍵的操作)來執(zhí)行用于調(diào)節(jié)揚聲器15L和15R的音量的聲音輸出控制,并且處理返回。
[0106]如上所述,在聲音輸出控制器14中,基于通過拍攝TV的周邊而獲得的拍攝圖像和TV周圍的環(huán)境聲音來分析TV周圍的周邊狀況,并且根據(jù)周邊狀況來控制TV的聲音輸出。因此,可以適當?shù)乜刂坡曇舻妮敵觥?br>
[0107]也就是說,例如,當在用戶用來觀看節(jié)目的TV周圍聽到說話語音并且該說話語音來自一起居住的家庭成員之類的在TV所在的房間之外的地方進行的電話交談時,在圖4的步驟S25中判定聲音源的 方向和檢測到臉部的位置的方向不相互一致,并且來自TV的音量被調(diào)節(jié)到更大。因此,可以防止一起居住的家庭成員之類的進行的電話交談干擾觀看節(jié)目的用戶的節(jié)目觀看。
[0108]另外,當在TV周圍聽到的說話語音是由在TV上觀看節(jié)目的用戶產(chǎn)生的語音時,在圖4的步驟S25中判定聲音源的方向和檢測到臉部的位置的方向相互一致,并且來自TV的音量不被調(diào)節(jié)(保持不變)。因此,可以防止在用戶沒有感到任何調(diào)節(jié)音量的需要的情況下對來自TV的音量的調(diào)節(jié)。
[0109]圖5是說明圖2的音量/增益控制器35執(zhí)行的聲音輸出控制的圖。
[0110]如參考圖3和圖4所描述的,音量/增益控制器35根據(jù)TV周圍的周邊狀況執(zhí)行用于調(diào)節(jié)來自TV的聲音的聲音輸出控制。然而,除了 TV周圍的周邊狀況以外,還可根據(jù)(從TV)到觀看節(jié)目的用戶的距離(觀看距離)、對觀看節(jié)目的用戶的個人識別的結(jié)果等等,來執(zhí)行聲音輸出控制。
[0111]也就是說,在觀看距離較長(不小于預(yù)定的閾值)的情況下,當增大音量時,例如,增大音量的調(diào)節(jié)量可被設(shè)定成大于預(yù)設(shè)的默認調(diào)節(jié)量(更大幅地增大音量)。
[0112]另外,在觀看距離較短(小于預(yù)定閾值)的情況下,當增大音量時,例如,增大音量的調(diào)節(jié)量可被設(shè)定成小于默認調(diào)節(jié)量。
[0113]此外,例如,當作為對用戶的個人識別的結(jié)果獲得的觀看節(jié)目的用戶的年齡是不小于80歲的高齡時,當增大音量時,例如,增大音量的調(diào)節(jié)量可被設(shè)定成大于默認調(diào)節(jié)量。在此情況下,代替音量的增大(或者除了音量的增大以外),可以增大高齡人難以聽到的頻率成分的增益。[0114]圖6是說明音量/增益控制器35執(zhí)行的聲音調(diào)節(jié)鍵操作反映/登記處理的流程圖,通過該處理,對聲音調(diào)節(jié)鍵的操作被反映到TV的聲音輸出并且關(guān)于該操作的操作信息被登記(存儲)到存儲單元24中。
[0115]在步驟S41中,音量/增益控制器35根據(jù)在圖3的步驟S14中判定被用戶操作的聲音調(diào)節(jié)鍵的操作來執(zhí)行用于調(diào)節(jié)音量的聲音輸出控制,并且處理轉(zhuǎn)到步驟S42。
[0116]也就是說,例如,當用戶操作聲音調(diào)節(jié)鍵以僅通過兩個階段之類的來增大音量時,音量/增益控制器35根據(jù)該操作來執(zhí)行用于僅通過兩個階段增大音量的聲音輸出控制。
[0117]在步驟S42中,音量/增益控制器35從存儲預(yù)定時間段的最新環(huán)境聲音的環(huán)境聲音存儲單元24A中讀出就在聲音調(diào)節(jié)鍵被操作之前的固定時間段中的環(huán)境聲音(以下稱為“就在操作之前的環(huán)境聲音”),并且分析就在操作之前的環(huán)境聲音,并且處理轉(zhuǎn)到步驟S43。
[0118]在步驟S43中,音量/增益控制器35把就在操作之前的環(huán)境聲音(的分析結(jié)果)作為登記聲音與關(guān)于對聲音調(diào)節(jié)鍵的操作的操作信息相關(guān)聯(lián)地登記到存儲單元24中,并且處理返回。
[0119]這里,如參考圖4的步驟S27和S28所描述的,當在存儲單元24中登記的登記聲音中存在(被認為)與作為非語音的環(huán)境聲音(大水平環(huán)境聲音)一致的登記聲音時,音量/增益控制器35根據(jù)與該登記聲音相關(guān)聯(lián)的操作信息來調(diào)節(jié)音量。
[0120]因此,在就在環(huán)境聲音發(fā)生之后用戶曾通過對聲音調(diào)節(jié)鍵的用戶操作按預(yù)定的調(diào)節(jié)量調(diào)節(jié)過音量(包括靜音)的情況下,當后來發(fā)生類似的環(huán)境聲音時,在沒有任何對聲音調(diào)節(jié)鍵的用戶操作的情況下執(zhí)行與曾執(zhí)行過的相同量的調(diào)節(jié)。
[0121]也就是說,TV可表現(xiàn)出所謂的學(xué)習(xí)功能,就好像TV記住了用戶執(zhí)行的對聲音調(diào)節(jié)鍵的操作那樣。
[0122]如參考圖4的步驟S27和S28所描述的,在根據(jù)與登記在存儲單元24中并與環(huán)境聲音一致的登記聲音相關(guān)聯(lián)的操作信息在音量/增益控制器35中執(zhí)行對音量的調(diào)節(jié)的情況下,當與登記聲音一致的環(huán)境聲音后來消失時,音量可被調(diào)節(jié)為返回到原始音量。
[0123]類似地,即使當在圖4的步驟S24、S26和S28中調(diào)節(jié)了音量或者在圖6的步驟S41中根據(jù)對聲音調(diào)節(jié)鍵的用戶操作調(diào)節(jié)了音量的情況下,當周邊狀況返回到調(diào)節(jié)音量之前的原始狀況時,音量也可以經(jīng)歷作為用于將音量返回到原始音量的調(diào)節(jié)處理的恢復(fù)處理。
[0124]圖7是說明用于將在圖4的步驟S24、S26和S28中調(diào)節(jié)的音量返回到原始音量的恢復(fù)處理的流程圖。
[0125]當在圖4的步驟S24、S26和S28中調(diào)節(jié)了音量時,圖7的恢復(fù)處理開始。
[0126]在存儲單元24 (圖2)中,存儲了由狀況分析器34獲得的固定時間段的最新周邊狀況,并且最新周邊狀況之中的就在引起圖4的步驟S24、S26和S28中的音量調(diào)節(jié)的大水平環(huán)境聲音發(fā)生之前的周邊狀況被存儲直到恢復(fù)處理完成為止。
[0127]在聲音輸出控制器14 (圖2)中,在步驟S51中,像圖3的步驟Sll中那樣,臉部信息獲取單元32收集臉部信息并且語音判定單元33收集環(huán)境聲音信息,并且處理轉(zhuǎn)到步驟S52。
[0128]在步驟S52中,狀況分析器34像圖3的步驟S12中那樣基于由臉部信息獲取單元32獲得的臉部信息和由語音判定單元33獲得的環(huán)境聲音信息來分析TV周圍的周邊狀況,并將分析出的周邊狀況提供給音量/增益控制器35,并且處理轉(zhuǎn)到步驟S53。[0129]這里,圖7的步驟S51和S52的處理可被圖3的步驟Sll和S12的處理所替代。
[0130]在步驟S53中,音量/增益控制器35基于來自狀況判定單元34的周邊狀況判定在圖4的步驟S21中判定其水平不小于閾值的環(huán)境聲音(大水平環(huán)境聲音)是否消失。
[0131]當在步驟S53中判定大水平環(huán)境聲音沒有消失時,處理返回到步驟S51。
[0132]當在步驟S53中判定大水平環(huán)境聲音消失時,處理轉(zhuǎn)到步驟S54,并且音量/增益控制器35判定來自狀況判定單元34的周邊狀況是否返回到了在水平不小于閾值的環(huán)境聲音(大水平環(huán)境聲音)發(fā)生之前存儲在存儲單元24中的狀況(原始狀況)。
[0133]當在步驟S54中判定來自狀況判定單元34的周邊狀況尚未返回到大水平環(huán)境聲音發(fā)生之前的原始狀況時,處理返回到步驟S51。
[0134]另外,當在步驟S54中判定來自狀況判定單元34的周邊狀況已返回到大水平環(huán)境聲音發(fā)生之前的原始狀況時,處理轉(zhuǎn)到步驟S55,音量/增益控制器35執(zhí)行用于使在圖4的步驟S24、S26或S28中調(diào)節(jié)的音量返回到原始音量的聲音輸出控制,并且恢復(fù)處理完成。
[0135]有這樣的情況,即,用戶因為周邊狀況的變化而操作聲音調(diào)節(jié)鍵。即使在用戶因為周邊狀況的變化而操作聲音調(diào)節(jié)鍵,從而在圖6的步驟S41中根據(jù)對聲音調(diào)節(jié)鍵的操作而調(diào)節(jié)音量的情況下,當周邊狀況后來返回到調(diào)節(jié)音量之前的原始狀況(變化前的狀況)時,音量/增益控制器35也可以像圖7的恢復(fù)處理的情況中那樣使音量返回到原始音量。
[0136]圖8是說明用于使在圖6的步驟S41中調(diào)節(jié)的音量返回到原始音量的恢復(fù)處理的流程圖。
[0137]當在圖6的步驟S41中調(diào)節(jié)了音量時,圖8的恢復(fù)處理開始。
[0138]像圖7的情況中那樣,在存儲單元24 (圖2)中,存儲了固定時間段的最新周邊狀況,并且從最新周邊狀況中選擇當用戶因為周邊狀況的變化而操作聲音調(diào)節(jié)鍵時(當就在周邊狀況改變之后聲音調(diào)節(jié)鍵被操作時)的變化前的周邊狀況,并且存儲該變化前的周邊狀況直到圖8的恢復(fù)處理完成為止。
[0139]像圖3的步驟Sll的情況中那樣,在聲音輸出控制器14 (圖2)中,在步驟S61中臉部信息獲取單元32收集臉部信息并且語音判定單元33收集環(huán)境聲音信息,并且處理轉(zhuǎn)到步驟S62。
[0140]在步驟S62中,狀況分析器34像圖3的步驟S12的情況中那樣基于由臉部信息獲取單元32獲得的臉部信息和由語音判定單元33獲得的環(huán)境聲音信息來分析TV周圍的周邊狀況,并將分析出的周邊狀況提供給音量/增益控制器35,并且處理轉(zhuǎn)到步驟S63。
[0141]這里,圖8的步驟S61和S62的處理可被圖3的步驟Sll和S12的處理所替代。
[0142]在步驟S63中,音量/增益控制器35判定來自狀況判定單元34的周邊狀況是否返回到了在變化之前存儲在存儲單元24中的狀況(原始狀況)。
[0143]當在步驟S63中判定來自狀況判定單元34的周邊狀況尚未返回到原始狀況時,處理返回到步驟S61。
[0144]當在步驟S63中判定來自狀況判定單元34的周邊狀況已返回到原始狀況時,處理轉(zhuǎn)到步驟S64,音量/增益控制器35執(zhí)行用于使在圖6的步驟S41中調(diào)節(jié)的音量返回到原始音量的聲音輸出控制,并且恢復(fù)處理完成。
[0145]圖9是說明圖2的音量/增益控制器35執(zhí)行的聲音輸出控制的另一示例的圖。
[0146]在環(huán)境聲音是例如對講機或電話的呼叫聲音并且環(huán)境聲音在語音判定單兀33中被判定為是非語音(對環(huán)境聲音的判定結(jié)果指示非語音)的情況下,當從拍攝圖像中沒有檢測到臉部(從拍攝圖像中檢測到的臉部的數(shù)目為零)時,用戶只是聽節(jié)目的聲音而沒有觀看圖像并且希望穩(wěn)定地聽到節(jié)目的聲音的狀況被認為是TV周圍的狀況(周邊狀況)。
[0147]在此情況下,音量/增益控制器35可執(zhí)行用于增大音量的聲音輸出控制。
[0148]當環(huán)境聲音如上所述是非語音并且從拍攝圖像中檢測到臉部(從拍攝圖像中檢測到的臉部的數(shù)目是一個或多個)時,用戶在觀看節(jié)目并且希望穩(wěn)定地聽到節(jié)目的聲音的狀況被認為是TV周圍的周邊狀況。
[0149]在此情況下,音量/增益控制器35也可執(zhí)行用于增大音量的聲音輸出控制。
[0150]在環(huán)境聲音是例如人類交談之類的并且語音判定單元33判定環(huán)境聲音是語音(對環(huán)境聲音的判定結(jié)果指示語音)的情況下,當從拍攝圖像中沒有檢測到臉部(從拍攝圖像中檢測到的臉部的數(shù)目為零)時,用戶沒有在觀看任何節(jié)目并且在用電話之類的進行交談的狀況被認為是TV周圍的周邊狀況。
[0151]在此情況下,音量/增益控制器35可執(zhí)行用于減小音量的聲音輸出控制以防止從TV輸出的節(jié)目的聲音干擾用戶的交談。
[0152]在環(huán)境聲音如上所述是語音的情況下,當從拍攝圖像中檢測到臉部(從拍攝圖像中檢測到的臉部的數(shù)目是一個或多個)并且產(chǎn)生作為環(huán)境聲音的語音的聲音源的方向與從拍攝圖像中檢測到的臉部(任何臉部)的位置的方向一致時,用戶在觀看節(jié)目的同時用電話之類的進行交談的狀況被認為是TV周圍的周邊狀況。
[0153]在此情況下,音量/增益控制器35可保持音量不變,而不調(diào)節(jié)音量,也就是說,可以不執(zhí)行聲音輸出控制。
[0154]在環(huán)境聲音如上所述是語音的情況下,當從拍攝圖像中檢測到臉部并且產(chǎn)生作為環(huán)境聲音的語音的聲音源的方向與從拍攝圖像中檢測到的臉部(任何臉部)的位置的方向不一致時,有一用戶在觀看節(jié)目并且有一用戶在進行交談而沒有觀看任何節(jié)目(沒有看TV一側(cè))的狀況被認為是TV周圍的周邊狀況。
[0155]在此情況下,音量/增益控制器35可執(zhí)行用于增大音量的聲音輸出控制,以便防止沒有觀看節(jié)目的用戶的交談干擾正在觀看節(jié)目的用戶的節(jié)目觀看。
[0156]另外,無論環(huán)境聲音或者從拍攝圖像中的臉部檢測如何,在夜間(被設(shè)定為夜間的時間段)期間可執(zhí)行用于減小音量的聲音輸出控制以例如防止聲音傳播過TV所在的房間的墻壁并且到達另一房間。
[0157]取代用于減小或增大音量的聲音輸出控制(或者與這種聲音輸出控制一起),音量/增益控制器35可以執(zhí)行用于減小或增大節(jié)目的聲音的預(yù)定頻帶的增益的聲音輸出控制。
[0158]例如,當環(huán)境聲音是非語音時,通過分析該非語音的頻率特性來檢測該非語音中的具有高增益的頻帶(以下稱為“高增益帶”),并且增大節(jié)目的聲音的高增益帶的增益,從而使得作為噪音的非語音可以相當于經(jīng)歷噪音消除。
[0159]另外,如上所述,當在夜間防止聲音傳播過TV所在的房間的墻壁并到達另一房間時,可以執(zhí)行用于減小(抑制)節(jié)目的聲音的低音的增益的聲音輸出控制。
[0160]用于調(diào)節(jié)節(jié)目的聲音的每個頻率成分的增益的方式可以根據(jù)例如TV的模式——例如游戲模式和劇場(影院)模式——或者在TV上顯示(輸出)的作為節(jié)目的內(nèi)容的類別(例如,體育節(jié)目之類的)而改變。[0161]<對應(yīng)用了本技術(shù)的計算機的描述>
[0162]接下來,可通過硬件或軟件執(zhí)行上述一系列處理。當通過軟件執(zhí)行該一系列處理時,構(gòu)成該軟件的程序被安裝在通用計算機等中。
[0163]圖10圖示了計算機的實施例的配置示例,在該計算機中安裝了用于執(zhí)行上述一系列處理的程序。
[0164]該程序可被預(yù)先記錄在計算機中包含的作為記錄介質(zhì)的硬盤105或R0M103中。
[0165]或者,該程序可被存儲(記錄)在可移除記錄介質(zhì)111中。可以以所謂的套裝軟件的形式提供這種可移除記錄介質(zhì)111。這里,作為可移除記錄介質(zhì)111,已知軟盤、CD-ROM(致密盤只讀存儲器)、MO (磁光)盤、DVD (數(shù)字多功能盤)、磁盤、半導(dǎo)體存儲器等等。
[0166]除了將程序從上述可移除記錄介質(zhì)111安裝到計算機中以外,也可經(jīng)由通信網(wǎng)絡(luò)或廣播網(wǎng)絡(luò)將程序下載到計算機中并安裝到計算機中包含的硬盤105中。也就是說,例如,可以將程序從下載站點經(jīng)由用于數(shù)字衛(wèi)星廣播的人造衛(wèi)星無線地發(fā)送到計算機或者通過線纜經(jīng)由諸如LAN (局域網(wǎng))或因特網(wǎng)之類的網(wǎng)絡(luò)發(fā)送到計算機。
[0167]計算機包含CPU (中央處理單元)102,并且輸入/輸出接口 110經(jīng)由總線101連接到 CPU102。
[0168]當用戶操作輸入單元107之類的以通過輸入/輸出接口 110輸入指令時,CPU102根據(jù)該指令執(zhí)行ROM (只讀存儲器)103中存儲的程序?;蛘?,CPU102將硬盤105中存儲的程序加載到RAM (隨機存取存儲器)104中并且執(zhí)行該程序。
[0169]因此,CPU102執(zhí)行根據(jù)上述流程圖的處理或者上述框圖的配置所要執(zhí)行的處理。經(jīng)由輸入/輸出接口 110,CPU102例如根據(jù)需要從輸出單元106輸出處理結(jié)果,從通信單元108發(fā)送處理結(jié)果,將處理結(jié)果記錄到硬盤105中等等。
[0170]輸入單元107由鍵盤、鼠標、麥克風(fēng)等等構(gòu)成。輸出單元106由IXD(液晶顯示器)、揚聲器等等構(gòu)成。
[0171]這里,在本說明書中,由計算機根據(jù)程序執(zhí)行的處理不一定需要根據(jù)被描述為流程圖的順序來按時序執(zhí)行。也就是說,由計算機根據(jù)程序執(zhí)行的處理包括并行或單獨執(zhí)行的處理(例如,并行處理或面向?qū)ο蟮奶幚?。
[0172]程序可由一個計算機(處理器)處理或者由多個計算機分散處理。另外,程序可被發(fā)送到遠程計算機并由該遠程計算機執(zhí)行。
[0173]本技術(shù)的實施例不限于上述實施例,并且在不脫離本技術(shù)的主題的情況下可進行各種修改。
[0174]也就是說,本技術(shù)可被應(yīng)用到除了 TV以外的用于至少輸出聲音的輸出裝置。
[0175]在此實施例中,由調(diào)諧器11接收的節(jié)目被設(shè)定為處理對象。然而,根據(jù)本技術(shù),除了由調(diào)諧器11接收的節(jié)目以外,記錄器中記錄的內(nèi)容、從諸如因特網(wǎng)之類的網(wǎng)絡(luò)上的服務(wù)器提供的內(nèi)容等等也可被設(shè)定為處理對象。
[0176]當用戶在圖4的步驟S24或S26中操作聲音調(diào)節(jié)鍵以在音量調(diào)節(jié)之后將音量調(diào)節(jié)返回到原始的時,當時的周邊狀況可被登記在存儲單元24中(學(xué)習(xí))。在以后的步驟S24或S26中,當周邊狀況與存儲單元24中存儲的狀況一致時可以不執(zhí)行(可以限制)音量調(diào)節(jié)。
[0177]在圖4的步驟S24、S26或S28中在沒有對聲音調(diào)節(jié)鍵的用戶操作時調(diào)節(jié)音量的情況下,如果在沒有告知的情況下調(diào)節(jié)音量,則可能使用戶感到不舒服。因此,指示音量調(diào)節(jié)的執(zhí)行的消息可被顯示在顯示單元13上(或者利用語音從揚聲器單元15輸出)。
[0178]這里,指示音量調(diào)節(jié)的執(zhí)行的消息的顯示(輸出)的開/關(guān)可通過用戶對操作單元17的操作來切換。
[0179]另外,在圖6的反映/登記聲音調(diào)節(jié)鍵操作的處理中,在步驟S43中關(guān)于對聲音調(diào)節(jié)鍵的操作的操作信息被與就在聲音調(diào)節(jié)鍵被操作之前的固定時間段的環(huán)境聲音(就在操作之前的環(huán)境聲音)相關(guān)聯(lián)地登記在存儲單元24中。然而,將操作信息登記到存儲單元24中不僅可以與就在操作之前的環(huán)境聲音相關(guān)聯(lián)地執(zhí)行,而且可以與個人識別的結(jié)果、時間段、TV上顯示的節(jié)目的源(輸入源)等等相關(guān)聯(lián)地執(zhí)行。
[0180]在關(guān)于對聲音調(diào)節(jié)鍵的操作的操作信息被與就在操作之前的環(huán)境聲音、個人識別的結(jié)果等等相關(guān)聯(lián)地登記在存儲單元24中的情況下,基于個人識別的結(jié)果等來識別觀看節(jié)目的用戶,并且即使當發(fā)生相同的就在操作之前的環(huán)境聲音時也可根據(jù)對每個用戶不同的對聲音調(diào)節(jié)鍵的操作來執(zhí)行音量調(diào)節(jié)。
[0181]這里,在關(guān)于對聲音調(diào)節(jié)鍵的操作的操作信息被與個人識別的結(jié)果、時間段和輸入源以及就在操作之前的環(huán)境聲音相關(guān)聯(lián)地登記在存儲單元24中的情況下,當和與操作信息相關(guān)聯(lián)的新的就在操作之前的環(huán)境聲音等等完全相同的就在操作之前的環(huán)境聲音等等已經(jīng)被登記在存儲單元24中時,操作信息和新的就在操作之前的環(huán)境聲音等等的集合被登記在存儲單元24中以覆蓋相同的就在操作之前的環(huán)境聲音等等。
[0182]本技術(shù)可被配置如下。
[0183](I) 一種信息處理裝置,包括:
[0184]處理器,該處理器:
[0185]接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù);
[0186]基于所述捕捉的圖像數(shù)據(jù)來檢測用戶;
[0187]基于所述檢測的結(jié)果和所述捕捉的聲音數(shù)據(jù)來分析所述環(huán)境的狀況;以及
[0188]基于所述分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
[0189]( 2 )如(I)所述的信息處理裝置,其中
[0190]所述處理器從位于所述再現(xiàn)內(nèi)容的環(huán)境中的照相機接收所述捕捉的圖像數(shù)據(jù)并且基于所述捕捉的圖像數(shù)據(jù)來檢測臉部。
[0191]( 3 )如(I)所述的信息處理裝置,其中
[0192]所述處理器從位于所述再現(xiàn)內(nèi)容的環(huán)境中的麥克風(fēng)接收所述聲音數(shù)據(jù)。
[0193](4)如(2)所述的信息處理裝置,其中
[0194]所述處理器基于所述捕捉的圖像數(shù)據(jù)來檢測與檢測到的臉部相對應(yīng)的位置。
[0195]( 5 )如(2 )所述的信息處理裝置,其中
[0196]所述處理器基于所述捕捉的圖像數(shù)據(jù)來檢測多個臉部。
[0197]( 6 )如(2 )所述的信息處理裝置,其中
[0198]所述處理器確定與檢測到的臉部相對應(yīng)的臉部信息,所述臉部信息包括個人、年齡和性別中的至少一者。
[0199]( 7 )如(I)所述的信息處理裝置,其中
[0200]所述處理器確定與所述捕捉的聲音數(shù)據(jù)相對應(yīng)的聲音水平。
[0201 ] ( 8 )如(I)所述的信息處理裝置,其中[0202]所述處理器確定與所述捕捉的聲音數(shù)據(jù)的源相對應(yīng)的方向。
[0203](9)如(I)所述的信息處理裝置,其中
[0204]所述處理器判定所述捕捉的聲音數(shù)據(jù)是人類的語音還是除了人類的語音以外的聲音。
[0205]( 10)如(I)所述的信息處理裝置,其中
[0206]所述分析包括判定與所述捕捉的聲音數(shù)據(jù)相對應(yīng)的聲音水平是否大于或等于預(yù)定的閾值。
[0207](11)如(10)所述的信息處理裝置,其中
[0208]當判定所述水平小于所述預(yù)定的閾值時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的所述音頻音量保持不變。
[0209]( 12)如(10)所述的信息處理裝置,其中
[0210]當判定所述水平大于所述預(yù)定的閾值時,所述處理器判定所述捕捉的聲音數(shù)據(jù)是人類的語音還是除了人類的語音以外的聲音。
[0211](13)如(12)所述的信息處理裝置,其中
[0212]當判定所述捕捉的聲音數(shù)據(jù)是人類的語音并且基于所述捕捉的圖像數(shù)據(jù)沒有檢測到臉部時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的所述音頻音量降低。
[0213]( 14)如(12)所述的信息處理裝置,其中
[0214]當判定所述捕捉的聲音數(shù)據(jù)是人類的語音并且基于所述捕捉的圖像數(shù)據(jù)檢測到臉部時,所述處理器確定與所述捕捉的聲音數(shù)據(jù)的源相對應(yīng)的方向。
[0215](15)如(14)所述的信息處理裝置,其中
[0216]當判定與所述捕捉的聲音的源相對應(yīng)的方向與基于所述捕捉的圖像數(shù)據(jù)檢測到的臉部的位置一致時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的所述音頻音量保持不變。
[0217]( 16)如(14)所述的信息處理裝置,其中
[0218]當判定與所述捕捉的聲音的源相對應(yīng)的方向與基于所述捕捉的圖像數(shù)據(jù)檢測到的臉部的位置不一致時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的所述音頻音量增大。
[0219]( 17)如(12)所述的信息處理裝置,其中
[0220]當判定所述捕捉的聲音數(shù)據(jù)被判定為是除了人類的語音以外的聲音時,所述處理器判定所述捕捉的聲音數(shù)據(jù)是否對應(yīng)于預(yù)先登記的環(huán)境聲音。
[0221](18)如(17)所述的信息處理裝置,其中
[0222]當判定所述捕捉的聲音數(shù)據(jù)對應(yīng)于預(yù)先登記的環(huán)境聲音時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的所述音頻音量增大。
[0223]( 19)如(17)所述的信息處理裝置,其中
[0224]當判定所述捕捉的聲音數(shù)據(jù)對應(yīng)于預(yù)先存儲的環(huán)境聲音時,所述處理器基于預(yù)先存儲的與所述環(huán)境聲音相對應(yīng)的設(shè)定來控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的所述音頻音量。
[0225](20) 一種由信息處理裝置執(zhí)行的方法,該方法包括:
[0226]接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù);
[0227]基于所述捕捉的圖像數(shù)據(jù)來檢測用戶;
[0228]基于所述檢測的結(jié)果和所述捕捉的聲音數(shù)據(jù)來分析所述環(huán)境的狀況;以及[0229]基于所述分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
[0230](21)—種非暫態(tài)計算機可讀介質(zhì),包括計算機程序指令,所述計算機程序指令當被信息處理裝置執(zhí)行時使得該信息處理裝置執(zhí)行一種方法,該方法包括:
[0231]接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù);
[0232]基于所述捕捉的圖像數(shù)據(jù)來檢測用戶;
[0233]基于所述檢測的結(jié)果和所述捕捉的聲音數(shù)據(jù)來分析所述環(huán)境的狀況;以及
[0234]基于所述分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
[0235]附圖標記列表
[0236]11調(diào)諧器
[0237]12信號處理器
[0238]13 顯示單元
[0239]14聲音輸出控制器
[0240]15揚聲器單兀
[0241]15LU5R 揚聲器
[0242]16控制器
[0243]17操作單元
[0244]21照相機
[0245]22麥克風(fēng)群組
[0246]23控制器
[0247]24存儲單元
[0248]24A環(huán)境聲音存儲單元
[0249]31臉部檢測器
[0250]32臉部信息獲取單元
[0251]33語音判定單元
[0252]34狀況分析器
[0253]35音量/增益控制器
[0254]36揚聲器控制器
[0255]101 總線
[0256]102 CPU
[0257]103 ROM
[0258]104 RAM
[0259]105 硬盤
[0260]106輸出單元
[0261]107輸入單元
[0262]108通信單元
[0263]109驅(qū)動器
[0264]110輸入/輸出接口
[0265]111可移除記錄介質(zhì)
【權(quán)利要求】
1.一種信息處理裝置,包括: 處理器,該處理器: 接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù); 基于所述捕捉的圖像數(shù)據(jù)來檢測用戶; 基于所述檢測的結(jié)果和所述捕捉的聲音數(shù)據(jù)來分析所述環(huán)境的狀況;以及 基于所述分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
2.如權(quán)利要求1所述的信息處理裝置,其中 所述處理器從位于再現(xiàn)內(nèi)容的所述環(huán)境中的照相機接收所述捕捉的圖像數(shù)據(jù)并且基于所述捕捉的圖像數(shù)據(jù)來檢測臉部。
3.如權(quán)利要求1所述的信息處理裝置,其中 所述處理器從位于再現(xiàn)內(nèi)容的所述環(huán)境中的麥克風(fēng)接收所述聲音數(shù)據(jù)。
4.如權(quán)利要求2所述的信息處理裝置,其中 所述處理器基于所述捕捉的圖像數(shù)據(jù)來檢測與檢測到的臉部相對應(yīng)的位置。
5.如權(quán)利 要求2所述的信息處理裝置,其中 所述處理器基于所述捕捉的圖像數(shù)據(jù)來檢測多個臉部。
6.如權(quán)利要求2所述的信息處理裝置,其中 所述處理器確定與檢測到的臉部相對應(yīng)的臉部信息,所述臉部信息包括個人、年齡和性別中的至少一個。
7.如權(quán)利要求1所述的信息處理裝置,其中 所述處理器確定與所述捕捉的聲音數(shù)據(jù)相對應(yīng)的聲音水平。
8.如權(quán)利要求1所述的信息處理裝置,其中 所述處理器確定與所述捕捉的聲音數(shù)據(jù)的源相對應(yīng)的方向。
9.如權(quán)利要求1所述的信息處理裝置,其中 所述處理器判定所述捕捉的聲音數(shù)據(jù)是人類的語音還是除了人類的語音以外的聲音。
10.如權(quán)利要求1所述的信息處理裝置,其中 所述分析包括判定與所述捕捉的聲音數(shù)據(jù)相對應(yīng)的聲音水平是否大于或等于預(yù)定的閾值。
11.如權(quán)利要求10所述的信息處理裝置,其中 當判定所述聲音水平小于所述預(yù)定的閾值時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量保持不變。
12.如權(quán)利要求10所述的信息處理裝置,其中 當判定所述聲音水平大于所述預(yù)定的閾值時,所述處理器判定所述捕捉的聲音數(shù)據(jù)是人類的語音還是除了人類的語音以外的聲音。
13.如權(quán)利要求12所述的信息處理裝置,其中 當判定所述捕捉的聲音數(shù)據(jù)是人類的語音并且基于所述捕捉的圖像數(shù)據(jù)沒有檢測到臉部時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量降低。
14.如權(quán)利要求12所述的信息處理裝置,其中 當判定所述捕捉的聲音數(shù)據(jù)是人類的語音并且基于所述捕捉的圖像數(shù)據(jù)檢測到臉部時,所述處理器確定與所述捕捉的聲音數(shù)據(jù)的源相對應(yīng)的方向。
15.如權(quán)利要求14所述的信息處理裝置,其中 當判定與所述捕捉的聲音的源相對應(yīng)的方向與基于所述捕捉的圖像數(shù)據(jù)檢測到的臉部的位置一致時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量保持不變。
16.如權(quán)利要求14所述的信息處理裝置,其中 當判定與所述捕捉的聲音的源相對應(yīng)的方向與基于所述捕捉的圖像數(shù)據(jù)檢測到的臉部的位置不一致時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量增大。
17.如權(quán)利要求12所述的信息處理裝置,其中 當判定所述捕捉的聲音數(shù)據(jù)被判定為是除了人類的語音以外的聲音時,所述處理器判定所述捕捉的聲音數(shù)據(jù)是否對應(yīng)于預(yù)先登記的環(huán)境聲音。
18.如權(quán)利要求17所述的信息處理裝置,其中 當判定所述捕捉的聲音數(shù)據(jù)對應(yīng)于預(yù)先登記的環(huán)境聲音時,所述處理器控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量增大。
19.如權(quán)利要求17所述的信息處理裝置,其中 當判定所述捕捉的聲音數(shù)據(jù)對應(yīng)于預(yù)先存儲的環(huán)境聲音時,所述處理器基于先前存儲的與所述環(huán)境聲音相對應(yīng)的設(shè)定來控制與所述再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
20.一種由信息處理裝置執(zhí)行的方法,該方法包括: 接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù); 基于所述捕捉的圖像數(shù)據(jù)來檢 測用戶; 基于所述檢測的結(jié)果和所述捕捉的聲音數(shù)據(jù)來分析所述環(huán)境的狀況;以及 基于所述分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
21.一種非暫態(tài)計算機可讀介質(zhì),包括計算機程序指令,所述計算機程序指令當被信息處理裝置執(zhí)行時使得該信息處理裝置執(zhí)行一種方法,該方法包括: 接收與再現(xiàn)內(nèi)容的環(huán)境相對應(yīng)的捕捉的圖像數(shù)據(jù)和捕捉的聲音數(shù)據(jù); 基于所述捕捉的圖像數(shù)據(jù)來檢測用戶; 基于所述檢測的結(jié)果和所述捕捉的聲音數(shù)據(jù)來分析所述環(huán)境的狀況;以及 基于所述分析的結(jié)果來控制與再現(xiàn)的內(nèi)容相對應(yīng)的音頻音量。
【文檔編號】H04N5/60GK103688531SQ201280035413
【公開日】2014年3月26日 申請日期:2012年7月19日 優(yōu)先權(quán)日:2011年7月26日
【發(fā)明者】立石和也 申請人:索尼公司