專利名稱:信息提供方法及信息提供裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種在公共及個(gè)人空間中,主要利用畫像來提供與用戶的愛好相符的信息的方法及裝置,及提供廣告等一般性信息的方法及裝置。
背景技術(shù):
在車站、機(jī)場(chǎng)、百貨公司、博物館或游樂園等公共空間中,在進(jìn)行利用圖像信息的信息提供時(shí),一般的方法是與用戶的意圖無關(guān)地單方連續(xù)地播送信息,或用戶通過按鈕操作等明示的方式選擇自己希望的信息。但是,也存在自動(dòng)地取得用戶的關(guān)心或?qū)傩缘?,并嘗試與之對(duì)應(yīng)地改變所提供的信息的方法。例如,在專利文獻(xiàn)1(特開2004-280673號(hào)公報(bào))中,示出了利用攝像機(jī)來拍攝用戶,通過檢測(cè)其視線來推斷興趣的程度。
專利文獻(xiàn)1特開2004-280673號(hào)公報(bào)非專利文獻(xiàn)1Bregman,“Auditory Scene AnalysisPerceptualOrganization of Sound”(MIT Press,1994,ISBNO-262-52195-4)非專利文獻(xiàn)2上田等,“IMPACTAn InteractiveNatural-Motion-Picture Dedicated Mutimedia AuthoringSystem”(CHI91,ACM,PP.343-350,1991)非專利文獻(xiàn)3小林等,“基于多個(gè)麥克風(fēng)自由配置的多個(gè)說話人位置推斷”(電子信息通信學(xué)會(huì)論文雜志A,Vol.J82-A,No.2,pp.193-200.1999)非專利文獻(xiàn)4Zissman,“Comparison of four approaches toautomatic language identification of telephone speech”(IEEETransactions on Speech and Audio Processing,Vol.4,No.1,pp.31-44,1996)發(fā)明內(nèi)容在利用圖像主要面向一般公眾或個(gè)人提供信息時(shí),如果能夠檢測(cè)出位于可看見該圖像的場(chǎng)所的用戶是否注視該圖像,則通過提供與此時(shí)所顯示的項(xiàng)目相關(guān)的更詳細(xì)的信息,可提高用戶的便利性。另外,通過了解用戶的愛好,也可在信息提供者的產(chǎn)品經(jīng)營過程中有所反映。現(xiàn)在使用的是通過在信息提供裝置上安裝按鈕等選擇裝置以接受用戶的主動(dòng)選擇的方法,但是,這對(duì)沒有特意去按按鈕這樣的強(qiáng)烈意向的用戶并不起作用。另外,未注意到通過按按鈕就可操作的用戶也很多。因此,如果可自動(dòng)檢測(cè)用戶是否注視圖像,并對(duì)應(yīng)于該結(jié)果來自動(dòng)改變顯示的圖像,則可應(yīng)對(duì)更廣泛的用戶愛好。
比較由聲音輸入部取得的聲音數(shù)據(jù)、和當(dāng)前提供的圖像數(shù)據(jù)及附加在圖像數(shù)據(jù)上的信息,根據(jù)其相似程度來推斷對(duì)象的注視程度。通過檢測(cè)聲音數(shù)據(jù)和圖像數(shù)據(jù)各自的情景的斷縫一致、聲音的頻率圖案相似、在聲音中檢測(cè)表示包含在圖像中的內(nèi)容的關(guān)鍵字等現(xiàn)象,可推斷注視程度。另外,通過利用語言識(shí)別裝置推斷出對(duì)象使用的語言,并使用該語言進(jìn)行信息提供等,提供與根據(jù)聲音數(shù)據(jù)得到的信息最適應(yīng)的圖像信息,來進(jìn)行易傳遞給用戶的信息提供。
根據(jù)本發(fā)明,可向更多的用戶提供他們所關(guān)心的信息。另外,由于可更詳細(xì)地了解用戶的愛好,所以可收集到銷售計(jì)劃等更接近于用戶愛好的信息。
圖1是表示用于執(zhí)行本發(fā)明的各種方法的系統(tǒng)的一實(shí)例圖。
圖2是表示聲音輸入部的實(shí)現(xiàn)方式的一實(shí)例的模式圖。
圖3是表示分析聲音與圖像的相關(guān)的方法的一實(shí)例圖。
圖4是表示基于查找關(guān)鍵字(ワ-ドスポツト)的相關(guān)分析的一實(shí)例圖。
圖5是表示基于情景分割的相關(guān)分析的一實(shí)例圖。
圖6是表示基于頻率分析的相位分析的一實(shí)例圖。
圖7是表示相關(guān)判定的方法之一實(shí)例的流程圖。
圖8是表示相關(guān)判定的方法的另一實(shí)例的流程圖。
圖9是表示分析對(duì)象的屬性的方法的一實(shí)例圖。
圖10是表示本發(fā)明的信息提供方式的一實(shí)例的模式圖。
圖11是表示聲音、圖像相關(guān)分析錯(cuò)誤時(shí)的對(duì)應(yīng)一實(shí)例的流程圖。
圖12是表示對(duì)象屬性分析錯(cuò)誤時(shí)的對(duì)應(yīng)一實(shí)例的流程圖。
具體實(shí)施例方式
實(shí)施例1下面,用附圖詳細(xì)地說明本發(fā)明實(shí)施方式的一實(shí)例。
圖1表示本發(fā)明的信息提供裝置的結(jié)構(gòu)。本裝置是為了在街頭等眾多公眾聚集的場(chǎng)所,主要利用圖像提供索引或廣告等信息而設(shè)置的。聲音輸入部102由麥克風(fēng)和附屬在其上的模數(shù)轉(zhuǎn)換器等構(gòu)成,來集在麥克風(fēng)附近的人(下面稱為用戶)的聲音,并將其變換為計(jì)算機(jī)等可處理的格式的數(shù)據(jù)。畫像輸入部104雖然在本發(fā)明的實(shí)施中不是必需的部件,但由攝像機(jī)及附屬在其上的數(shù)據(jù)處理裝置構(gòu)成,攝取用戶的樣子作為靜止圖像或動(dòng)態(tài)圖像等的畫像信息。將這樣得到的數(shù)據(jù)發(fā)送到對(duì)象屬性分析部106及聲音·圖像相關(guān)性分析部108。
在對(duì)象屬性分析部中,推斷用戶的使用語言·性別·空間位置等屬性。另一方面,在聲音·圖像相關(guān)性分析部中,將從聲音輸入部發(fā)送來的聲音數(shù)據(jù)與從后述的圖像輸出部發(fā)送來的圖像數(shù)據(jù)相比較,求出兩者間的相關(guān)性。在具有從圖像輸入部發(fā)送來的信息時(shí),按后述的方法,通過利用該信息來提高相關(guān)性推斷的精度。在聲音·圖像相關(guān)性分析部作出兩者間的相關(guān)性高的判斷時(shí),可推斷為用戶進(jìn)行與輸出圖像內(nèi)容相關(guān)聯(lián)的談話的可能性高,所以可視為用戶關(guān)心當(dāng)前的圖像。相反,在相關(guān)性低時(shí),未看見圖像、或即使看見也不關(guān)心、進(jìn)行無關(guān)談話的可能性高。
將對(duì)象屬性分析部及聲音·圖像相關(guān)性分析部中的分析結(jié)果發(fā)送到輸出圖像選擇部114中。這里,根據(jù)前段的分析結(jié)果,確定下次應(yīng)輸出的圖像。例如,在聲音·圖像相關(guān)性分析部中,在判定為圖像與聲音的相關(guān)性高時(shí),認(rèn)為用戶對(duì)當(dāng)前圖像的內(nèi)容有興趣,所以提供更詳細(xì)的關(guān)于該內(nèi)容的信息。相反,在相關(guān)性低時(shí),進(jìn)行連續(xù)播送概要信息、或改變主題等操作。另外,在從對(duì)象屬性分析部發(fā)送來的使用語言信息與在當(dāng)前圖像的字幕等中所使用的語言不同時(shí),將字幕中使用的語言改變成用戶的使用語言。根據(jù)這樣得到的選擇結(jié)果,在圖像輸出部116中生成下一圖像并將其顯示在顯示器上。另外,將與所顯示的數(shù)據(jù)相同的輸出圖像數(shù)據(jù)118發(fā)送到聲音·圖像相關(guān)性分析部中,以在下一動(dòng)作中使用。
將對(duì)象屬性分析部及聲音·圖像相關(guān)性分析部中的分析結(jié)果也同時(shí)發(fā)送到注視信息整理部110。這里,整理與看見了所放映的圖像的用戶的屬性及注視程度有關(guān)的統(tǒng)計(jì)信息。將所得到的統(tǒng)計(jì)信息通過通信部112提供給圖像的配送源,以用于將來的圖像配送計(jì)劃制定中。
通過由運(yùn)算裝置分別執(zhí)行規(guī)定程序來實(shí)現(xiàn)對(duì)象屬性分析、聲音·圖像相關(guān)性分析、注視信息整理、輸出圖像選擇等處理。
圖2是模式地描繪聲音輸入部102的實(shí)現(xiàn)方式的圖。在存在大小比人還大的顯示器的情況下,即便人站在該顯示器的前面時(shí),也要考慮各種站立位置。因此,通過在顯示器的不同位置安裝麥克風(fēng),能夠調(diào)查出哪個(gè)麥克風(fēng)的輸入聲音最強(qiáng),從而可推斷出站立位置。另外,在大顯示器的情況下,由于還有從位于某種程度的距離以外的地方進(jìn)行觀看的用戶,所以在遠(yuǎn)離的位置也設(shè)置麥克風(fēng),并將在此得到的信號(hào)發(fā)送到控制裝置。在任一情況下,都可推斷用戶位于得到最強(qiáng)信號(hào)的麥克風(fēng)附近,但在想知道更詳細(xì)的位置時(shí),使用從多個(gè)麥克風(fēng)得到的信號(hào),根據(jù)其相位差可推斷出聲源的方向,所以可使用3個(gè)或3個(gè)以上的麥克風(fēng),利用三角測(cè)量的原理來推斷聲源位置。
圖3是說明聲音·圖像相關(guān)性分析部108的動(dòng)作的原理圖。將所輸入的畫像數(shù)據(jù)302發(fā)送到視線方向推斷模塊314中,用于判定用戶是否位于面向顯示器的方向。另外,還將所輸入的畫像數(shù)據(jù)302發(fā)送到情景分割模塊318中。將所輸入的聲音數(shù)據(jù)304發(fā)送到查找關(guān)鍵字模塊316、情景分割模塊318及頻率分析模塊320中。
在查找關(guān)鍵字模塊316中,核對(duì)附帶在輸出圖像數(shù)據(jù)118中發(fā)送來的關(guān)鍵字信息308和聲音數(shù)據(jù),判定在聲音數(shù)據(jù)中是否包含關(guān)鍵字。
在情景分割模塊318中,根據(jù)振幅或波譜等信息對(duì)聲音數(shù)據(jù)進(jìn)行情景分割。作為最簡單的方法,如果振幅為規(guī)定值或規(guī)定值以下的時(shí)間至少持續(xù)了規(guī)定時(shí)間,則判定為一個(gè)情景結(jié)束。為進(jìn)行更高級(jí)的情景分割,可活用被稱為聽覺情景分析(Auditory Scene Analysis)的領(lǐng)域的研究成果。關(guān)于基于聽覺情景分析的情景分割,在Bregman“Auditory Scene AnalysisPerceptual Organization of Sound”(MITPress,1994,ISBNO-262-52195-4)(非專利文獻(xiàn)1)等中有所詳述。
另一方面,對(duì)從圖像輸出部116發(fā)送來的輸出圖像數(shù)據(jù)118同樣地進(jìn)行情景分割。通常,由于預(yù)先花費(fèi)了很大工夫來制作從圖像輸出部輸出的圖像,所以可同時(shí)附加各情景的斷縫信息。這時(shí),情景分割只要僅讀出該信息就行。另外,在因某種理由事先沒有進(jìn)行情景分割時(shí),還可自動(dòng)地進(jìn)行情景分割。作為自動(dòng)進(jìn)行情景分割視頻等圖像的方法,可使用在上田等的“IMPACTAn InteractiveNatural-Motion-Picture Dedicated Mutimedia AuthoringSystem”(CHI91,ACM,PP.343-350,1991)(非專利文獻(xiàn)2)等文獻(xiàn)中公開的方法。另外,在能夠利用畫像數(shù)據(jù)302時(shí),可通過對(duì)該數(shù)據(jù)也適用同樣的方法,來進(jìn)行情景分割。
以這樣得到的畫像數(shù)據(jù)、聲音數(shù)據(jù)、輸出圖像數(shù)據(jù)各自的情景分割結(jié)果為基礎(chǔ),由情景核對(duì)模塊322來檢查它們的核對(duì)關(guān)系。檢查核對(duì)關(guān)系的方法的細(xì)節(jié)將在后面詳細(xì)描述。將聲音數(shù)據(jù)304發(fā)送到頻率分析模塊320中,在這里抽取出作為聲音的各種參數(shù)。這里所謂的參數(shù),例如是整個(gè)聲音的功率、僅限定在特定頻率頻域的功率、基本頻率等。另一方面,在輸出圖像數(shù)據(jù)中也預(yù)先附加了與之對(duì)應(yīng)的數(shù)據(jù)時(shí),在頻率核對(duì)模塊324中比較兩者,推斷相關(guān)性。將視線方向推斷模塊314、查找關(guān)鍵字模塊316、情景核對(duì)模塊322、頻率核對(duì)模塊324得到的結(jié)果發(fā)送到相關(guān)性判定模塊326中,在這里綜合各個(gè)結(jié)果而得出最終的判斷。
圖4是說明基于查找關(guān)鍵字模塊316的相關(guān)性推斷的細(xì)節(jié)圖。為了實(shí)現(xiàn)該方法,對(duì)圖像預(yù)先附加關(guān)鍵字。如圖例中所示,在最先部分附加「冰箱」、下一部分附加「洗衣機(jī)」、最后部分附加「?jìng)€(gè)人電腦」等關(guān)鍵字。關(guān)鍵字可如這樣在每個(gè)細(xì)小的部分不同,也可對(duì)整個(gè)圖像都相同。另外,關(guān)鍵字也不一定必須是一個(gè)。在執(zhí)行時(shí),使用該關(guān)鍵字,對(duì)對(duì)應(yīng)區(qū)間的聲音查找關(guān)鍵字。在圖中用圓圈和×(バツ)標(biāo)記表示其結(jié)果。對(duì)在聲音中檢測(cè)出關(guān)鍵字的部分用圓圈表示,在未檢測(cè)出關(guān)鍵字時(shí)對(duì)整個(gè)區(qū)間用標(biāo)記“×”表示。在本實(shí)例中,由于在最后部分檢測(cè)出關(guān)鍵字「?jìng)€(gè)人電腦」,所以這里判斷為用戶邊看圖像邊說話的可能性高。
圖5示出了在情景模塊322中檢查相關(guān)性的方法。比較畫像數(shù)據(jù)和輸出圖像數(shù)據(jù)、或聲音數(shù)據(jù)和輸出圖像數(shù)據(jù)的情景分割,只要在兩者中找出對(duì)應(yīng)的情景交界,檢查在兩者的時(shí)間軸上的位置錯(cuò)位多少即可,但這時(shí),產(chǎn)生哪一方都未檢測(cè)情景交界本身的狀況。為了應(yīng)對(duì)這樣的狀況,通過動(dòng)態(tài)編程找出最適當(dāng)?shù)膶?duì)應(yīng)關(guān)系。在圖中,用雙層圓表示對(duì)應(yīng)的情景交界的位置幾乎相等的情況,用一層圓表示近的情況,用三角表示遠(yuǎn)的情況,用標(biāo)記“×”表示沒有對(duì)應(yīng)的情景交界的情況。對(duì)這些情況分別提供適當(dāng)?shù)脑u(píng)價(jià)權(quán)重,通過針對(duì)全部的情景交界來相加運(yùn)算這些值,可最終求出聲音數(shù)據(jù)和圖像數(shù)據(jù)的相關(guān)性的值。
圖6示出了在頻率核對(duì)模塊324中檢查相關(guān)性的方法。將通過頻率分析得到的全功率、特定頻域功率、基本頻率等參數(shù)與預(yù)先附加在輸出圖像數(shù)據(jù)中的全功率期望值、特定頻域功率期望值、基本頻率期望值等數(shù)據(jù)相比較,求出相似程度。預(yù)先對(duì)全頻域及各個(gè)頻域設(shè)定權(quán)重基準(zhǔn),通過使用該權(quán)重基準(zhǔn)來對(duì)各個(gè)相似程度相加運(yùn)算,可最終求得聲音數(shù)據(jù)和圖像數(shù)據(jù)的相似程度。另外,為了對(duì)輸出圖像數(shù)據(jù)附加這些數(shù)據(jù),只要通過某個(gè)部分僅收集可知邊看輸出圖像數(shù)據(jù)邊說話的聲音數(shù)據(jù),對(duì)其進(jìn)行頻率分析,平均該結(jié)果即可。另外,在本發(fā)明中實(shí)際設(shè)置顯示器系統(tǒng)來收集聲音數(shù)據(jù),其中,通過僅收集判定為注視輸出圖像數(shù)據(jù)的可能性極高的數(shù)據(jù)進(jìn)行同樣的分析,就可得到期望值。
圖7是表示相關(guān)性判定模塊326的動(dòng)作的一實(shí)例的流程圖。首先,進(jìn)行視線方向推斷,在判定為用戶面向畫面的方向時(shí),輸出「有相關(guān)性」后結(jié)束。否則,接著查找關(guān)鍵字,在檢測(cè)出關(guān)鍵字時(shí),輸出「有相關(guān)性」后結(jié)束。這里,即使在未判定為有相關(guān)性時(shí),也接著進(jìn)行情景核對(duì),在其中的相關(guān)性值比預(yù)先設(shè)定的閾值高時(shí),輸出「有相關(guān)性」后結(jié)束。這里,即使在成為無相關(guān)性時(shí),也進(jìn)行頻率核對(duì),這里在得到的相關(guān)性值比閾值高時(shí),輸出「有相關(guān)性」后結(jié)束。在這些判定全部為「NO」時(shí),輸出「無相關(guān)性」后結(jié)束。
圖8是表示相關(guān)性判定模塊的另一實(shí)例的流程圖。在本實(shí)施中,與圖7的實(shí)例不同,分別與彼此的結(jié)果無關(guān)地執(zhí)行視線方向推斷、查找關(guān)鍵字、情景核對(duì)、頻率核對(duì)這4種處理。由于這4種處理獨(dú)立地進(jìn)行,所以也可以不按圖的順序,也可以并列執(zhí)行這4種處理。在各自的功能中,替代用二進(jìn)制來判定相關(guān)性的有無,也可以例如以從0到100的得分來表示。接著,對(duì)這4個(gè)得分附加預(yù)先設(shè)定的權(quán)重,求取其和,為整體的1個(gè)得分。如果這個(gè)得分比事先設(shè)定的閾值大,則判定為有相關(guān)性,如果比事先設(shè)定的閾值小,則判定為無相關(guān)性后結(jié)束。
圖9是用于說明對(duì)象屬性分析部106的細(xì)節(jié)的圖。以輸入的聲音數(shù)據(jù)904(304)為基礎(chǔ),沿空間的屬性分析906和屬人的屬性分析908兩個(gè)流程來進(jìn)行分析。
在空間的屬性分析中,對(duì)來自多個(gè)麥克風(fēng)的輸入,通過振幅檢測(cè)910和相位差檢測(cè)912等2個(gè)模塊來進(jìn)行處理,以兩者的結(jié)果為基礎(chǔ),位置判定914的模塊推斷用戶的位置。這時(shí),參照設(shè)備配置信息DB916,所述設(shè)備配置信息表示麥克風(fēng)等設(shè)備實(shí)際上以哪種位置關(guān)系被配置。作為位置判定的最簡單的動(dòng)作方法,包括如下方法,即忽視相位差檢測(cè)的結(jié)果,根據(jù)振幅檢測(cè)的結(jié)果,選擇表示最大振幅的麥克風(fēng),按設(shè)備配置信息DB來確認(rèn)該麥克風(fēng)的位置。作為更精密的方法,也可以利用聲音的能量與和聲源的距離的平方成反比的性質(zhì),根據(jù)振幅檢測(cè)的結(jié)果來推斷各麥克風(fēng)與聲源的距離。另外,由于可用平面波來近似聲音的傳達(dá),所以也可以通過相位差檢測(cè)檢測(cè)出到達(dá)2個(gè)麥克風(fēng)之間的聲音的相位差,通過與該聲音的波長相比較,推斷出聲源的方向。利用這些方法得到的值雖然因噪聲的影響等不是一定正確的值,但通過組合多個(gè)推斷結(jié)果,可增加可信度。此外,就使用多個(gè)麥克風(fēng)的聲源位置推斷算法而言,例如在小林等著,“基于多個(gè)麥克風(fēng)自由配置的多個(gè)說話人位置推斷”(電子信息通信學(xué)會(huì)論文雜志A,Vol.J82-A,No.2,pp.193-200.1999)(非專利文獻(xiàn)3)等文獻(xiàn)中詳述。另外,在可使用畫像數(shù)據(jù)302時(shí),也可以并用直接使用該數(shù)據(jù)的用戶位置判斷。
另一方面,在所屬人的屬性分析中,通過分析聲音的性質(zhì),取得屬于用戶個(gè)人的信息。作為屬于用戶個(gè)人的信息的實(shí)例,舉出使用語言、性別、年齡等??赏ㄟ^如下方法來實(shí)現(xiàn),即在語言識(shí)別918、性別識(shí)別920、年齡識(shí)別922的各個(gè)模塊中,將預(yù)先形成的語言類別模塊924、性別模塊926、年代類別模塊928等與輸入聲音相比較,并在計(jì)算了相對(duì)于各模塊的相似程度的基礎(chǔ)上,選擇相似程度最高的類別。在比較時(shí),通過同時(shí)推斷包含在聲音中的音韻圖案,可提高精度。即是如下方法在利用通常常用的隱蔽馬爾科夫模塊進(jìn)行聲音辨別時(shí),在日語音響模塊和英語音響模塊、男性音響模塊和女性音響模塊、十多歲音響模塊和二十多歲音響模塊、三十多歲音響模塊等情況下平行使用多個(gè)音響模塊,針對(duì)辨別結(jié)果選擇與提供了更高可信度得分的模塊相當(dāng)?shù)恼Z言、性別和年代的類別。其中,要在語言辨別中得到高精度,必需方法精密,但關(guān)于語言辨別的詳細(xì)算法,在Zissman,”Comparison of four approaches to automatic languageidentification of telephone speech”(IEEE Transactions on Speech andAudio Processing,Vol.4,No.1,pp.31-44,1996)(非專利文獻(xiàn)4)等文獻(xiàn)中詳述。
下面,詳細(xì)說明輸出圖像選擇部116的動(dòng)作。這里,根據(jù)由對(duì)象屬性分析部及聲音·圖像相關(guān)性分析部得到的結(jié)果,選擇最有效地向用戶提供信息的圖像提示方法。首先,作為第一實(shí)例,在知道用戶的使用語言的情況下,將圖像中包含的語言信息改變成該語言。另外,在將聲音附加于圖像中輸出時(shí),在輸出聲音的語言與用戶的使用語言不同的情況下,也可追加用用戶使用語言的字幕。接著,在判斷為用戶的聲音與圖像的相關(guān)性高時(shí),認(rèn)為用戶對(duì)當(dāng)前的圖像有興趣,因此根據(jù)顯示的情況,提供更詳細(xì)的信息。相反,在用戶對(duì)當(dāng)前圖像不關(guān)心時(shí),或只連續(xù)提供概要的信息,或提供與任何其它項(xiàng)目有關(guān)的圖像。這里,在選擇其它項(xiàng)目時(shí),在能夠在某種程度上推斷用戶的性別、年齡等的情況下,還可以向由此表示的特定用戶層提供感興趣的可能性高的信息。
這樣,不僅選擇利用整個(gè)畫面顯示的單一圖像,還可將大顯示器進(jìn)行分割后有效地使用。圖10示出了這樣的信息提供方式的實(shí)例。在本實(shí)例中,在比人明顯大的顯示器中,放映個(gè)人計(jì)算機(jī)的圖像廣告。與之相反,左側(cè)及中央附近的用戶未表現(xiàn)出關(guān)心,但右側(cè)附近的用戶有興趣,在判斷為這種情況時(shí),在其每個(gè)畫面上生成小的子窗口,在那里顯示商品的詳細(xì)情況。由此,可對(duì)有興趣的用戶提供詳細(xì)信息,對(duì)除此之外的用戶提供全部的圖像信息。
由于根據(jù)用戶的注視程度來控制顯示圖像,所以作為追加顯示(或變成默認(rèn)圖像顯示)的信息·圖像數(shù)據(jù),只要利用與默認(rèn)的輸出圖像預(yù)先對(duì)應(yīng)地存儲(chǔ)到可從輸出圖像選擇部114訪問的存儲(chǔ)裝置中的圖像即可。另外,由于對(duì)應(yīng)用戶的屬性來控制顯示裝置,所以只要將追加顯示(或變成默認(rèn)圖像顯示)的信息·圖像數(shù)據(jù)對(duì)應(yīng)于各屬性存儲(chǔ)在存儲(chǔ)裝置中就行。
在聲音·圖像相關(guān)性分析部或?qū)ο髮傩苑治霾恐?,由于常常預(yù)想在一定比例下得到錯(cuò)誤的結(jié)果,所以這種情況下也希望具有不對(duì)用戶提供壞印象的功能。圖11是示出用于實(shí)現(xiàn)這種功能的一實(shí)例的流程圖。在判斷為用戶未注視輸出圖像的情況下,如果在此之前判斷為注視,則輸出與此前不同的圖像。然而,在該判定是錯(cuò)誤的情況下,突然切斷用戶注視的信息,會(huì)令用戶產(chǎn)生不愉快。因此,在這種情況下,在具備基于觸摸面板的輸入功能的顯示器畫面中顯示「返回」按鈕,在用戶觸摸該按鈕時(shí),通過觸摸面板檢測(cè)到該情況,將該情況通知到輸出圖像選擇部114,在輸出圖像選擇部中進(jìn)行還原輸出圖像的處理。由此,可減少用戶的不快感。另外,在經(jīng)一定時(shí)間未觸摸該按鈕時(shí),由于認(rèn)為沒有產(chǎn)生如上述那樣的誤判定,所以取消該按鈕。另外,用戶輸入裝置除顯示畫面上的觸摸面板之外,還可為顯示畫面之外的輸入裝置。
圖12是作為相似的實(shí)例,表示在對(duì)象屬性分析部中誤識(shí)別語言時(shí)采取的對(duì)策方法的流程圖。通常,在對(duì)應(yīng)于多種語言的信息提供系統(tǒng)中,如「日語」、「英語」、「漢語」等,多準(zhǔn)備用各個(gè)語言示出的語言選擇按鈕。另外,也將這樣的按鈕作為具有觸摸面板功能的畫面上的按鈕來實(shí)現(xiàn)。因此,這種情況下,如果通過語言識(shí)別檢測(cè)出與當(dāng)前的設(shè)定語言不同的語言,則在改變顯示語言的同時(shí),放大顯示語言選擇按鈕。由此,一旦自動(dòng)地改變語言,如果該改變沒有按照用戶意圖,則用戶就可容易地知道通過按鈕可再次改變,如果對(duì)自動(dòng)改變的語言不滿意,則可迅速再改變成期望的語言。另外,與圖11的實(shí)例的情況相同,在經(jīng)一定時(shí)間未觸摸該按鈕時(shí),認(rèn)為未產(chǎn)生誤判定而還原。
下面,詳細(xì)說明注視信息整理部110及通信部112的作用。通過實(shí)施本發(fā)明,可得到哪種用戶對(duì)顯示的圖像的哪個(gè)部分關(guān)心的信息。這些信息通過核對(duì)對(duì)象屬性分析部和聲音·圖像相關(guān)性分析部兩者的輸出來得到。這樣的信息對(duì)提供圖像的人非常有益。例如,在以商品銷售為目的播送廣告圖像時(shí),了解用戶是否關(guān)心,可反映在今后的商品開發(fā)上。另外,由于可詳細(xì)地?cái)?shù)值化作為廣告媒體的顯示器的價(jià)值,所以也可反映在廣告使用的費(fèi)用上。為了用于這樣的目的,通過注視信息整理部,取得多少用戶對(duì)圖像的哪個(gè)部分表示關(guān)心的信息,在除掉沒用的信息、進(jìn)行整理后,將這樣得到的信息通過通信部發(fā)送到管理部中。
產(chǎn)業(yè)上的可利用性本發(fā)明可用于在公共空間等中更有效地提供通知信息的裝置。另外,也可用于基于圖像的廣告信息的提供效率化。
權(quán)利要求
1.一種利用顯示在圖像顯示裝置上的圖像來提供信息的信息提供方法,包括第1步驟,輸入位于圖像顯示裝置周圍的人的聲音;和第2步驟,通過檢查所提供的圖像與所輸入的聲音在時(shí)間上變化的相關(guān)性來判斷位于所述周圍的人的注視程度。
2.根據(jù)權(quán)利要求1所述的信息提供方法,其特征在于,還包括第3步驟,根據(jù)所述注視程度來控制下次輸出的圖像。
3.根據(jù)權(quán)利要求2所述的信息提供方法,其特征在于在所述第1步驟中,通過設(shè)置在不同位置上的多個(gè)聲音輸入裝置來輸入聲音,還包括第4步驟,根據(jù)來自該多個(gè)聲音輸入裝置的輸入來推斷位于所述周圍的人的位置;在所述第3步驟中,在所述圖像顯示裝置的顯示畫面上的、對(duì)應(yīng)于所述推斷出的位置的位置上,將作為所述控制結(jié)果的圖像與所述控制結(jié)果以外的圖像重疊起來進(jìn)行顯示。
4.根據(jù)權(quán)利要求2所述的信息提供方法,其特征在于,還包括第5步驟,根據(jù)所述注視程度,從輸入裝置接受針對(duì)已輸出的圖像的操作輸入;和第6步驟,根據(jù)該操作輸入來控制所述下次輸出的圖像。
5.一種信息提供裝置,包括圖像顯示部,利用圖像來提供信息;聲音輸入部,輸入位于該圖像顯示部周圍的人的聲音;和運(yùn)算部,通過檢查所提供的圖像與所輸入的聲音在時(shí)間上變化的相關(guān)性來判斷位于所述周圍的人的注視程度。
6.根據(jù)權(quán)利要求5所述的信息提供裝置,其特征在于所述運(yùn)算部根據(jù)所述注視程度來控制下次輸出的圖像。
7.根據(jù)權(quán)利要求6所述的信息提供裝置,其特征在于所述聲音輸入部包含設(shè)置在不同位置的多個(gè)麥克風(fēng);以及所述運(yùn)算部根據(jù)來自所述設(shè)置在不同位置上的多個(gè)聲音輸入裝置的輸入來推斷位于所述周圍的人的位置,并在所述圖像顯示部的顯示畫面上的、對(duì)應(yīng)于所述推斷出的位置的位置上,將作為所述控制結(jié)果的圖像與所述控制結(jié)果以外的圖像重疊起來進(jìn)行顯示。
8.根據(jù)權(quán)利要求6所述的信息提供裝置,其特征在于還包括用戶輸入部,根據(jù)所述注視程度來接受對(duì)所輸出的圖像的操作輸入;所述運(yùn)算部根據(jù)該操作輸入,控制所述下次輸出的圖像。
9.一種信息提供裝置,包括圖像顯示部,利用圖像來提供信息;聲音輸入部,輸入位于該圖像顯示部周圍的人的聲音;和運(yùn)算部,根據(jù)該輸入的聲音來推斷該聲音的發(fā)話者的屬性,并根據(jù)該推斷出的屬性信息來控制下次輸出的圖像。
10.根據(jù)權(quán)利要求11所述的信息提供裝置,其特征在于還包括用于取出語言名稱、性別、年齡中的一個(gè)或多個(gè)作為從所輸入的聲音中提取出的發(fā)話者的屬性的部件。
全文摘要
本發(fā)明提供一種信息提供裝置和信息提供方法。在主要面向一般公眾或個(gè)人、利用圖像提供信息時(shí),希望檢測(cè)位于可看見該圖像的場(chǎng)所的用戶是否注視該圖像。另外,通過了解用戶的興趣或?qū)傩?,希望進(jìn)行高效率的信息提供。比較由聲音輸入部取得的聲音數(shù)據(jù)、當(dāng)前提供的圖像數(shù)據(jù)以及附加在圖像數(shù)據(jù)上的信息,根據(jù)其相似程度來推斷對(duì)象的注視程度。另外,通過語言識(shí)別裝置來推斷對(duì)象所使用的語言,并使用該語言來進(jìn)行信息提供。
文檔編號(hào)G06F3/16GK1848106SQ20061000242
公開日2006年10月18日 申請(qǐng)日期2006年1月27日 優(yōu)先權(quán)日2005年4月5日
發(fā)明者大淵康成, 佐藤信夫, 伊達(dá)哲 申請(qǐng)人:株式會(huì)社日立制作所