本公開內容涉及信息處理設備、信息處理方法及程序。
背景技術:
近來,已經(jīng)存在用于對通過麥克風采集的聲音信息執(zhí)行語音識別處理以從聲音信息獲得語音識別處理結果的技術(例如,參見專利文獻1)。在一個示例中,根據(jù)預定的顯示模式將通過語音識別處理獲得的語音識別處理結果顯示在顯示設備上。
引用列表
專利文獻
專利文獻1:jp2013-025605a
技術實現(xiàn)要素:
技術問題
然而,僅通過視覺地識別語音識別處理結果,用戶難以直觀地了解語音識別處理執(zhí)行的情況。因此,需要提供一種能夠使用戶直觀地了解執(zhí)行語音識別處理的情況的技術。
問題的解決方案
根據(jù)本公開內容,提供了一種信息處理設備,包括:信息獲取單元,該信息獲取單元被配置成獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及輸出單元,該輸出單元被配置成基于根據(jù)所述參數(shù)而指定的顯示模式來輸出顯示信息,該顯示信息用于顯示該聲音信息的語音識別處理結果。
根據(jù)本公開內容,提供了一種信息處理方法,該方法包括:獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及由處理器基于根據(jù)參數(shù)而指定的顯示模式來輸出顯示信息,該顯示信息用于顯示該聲音信息的語音識別處理結果。
根據(jù)本公開內容,提供了一種用于使計算機用作信息處理設備的程序,該信息處理設備包括:信息獲取單元,該信息獲取單元被配置成獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及輸出單元,該輸出單元被配置成基于根據(jù)參數(shù)而指定的顯示模式來輸出顯示信息,該顯示信息用于顯示聲音信息的語音識別處理結果。
本發(fā)明的有益效果
如上所述,根據(jù)本公開內容提供了一種能夠使用戶直觀地了解執(zhí)行語音識別處理的情況的技術。注意,上述效果不一定是限制性的。與上述效果一起或取代上述效果,還可以實現(xiàn)在本說明書中描述的任一效果或者通過本說明書能夠領會的其他效果。
附圖說明
[圖1]是示出了根據(jù)本公開內容的實施方式的通信系統(tǒng)的配置示例的圖。
[圖2]是示出了根據(jù)本實施方式的信息處理系統(tǒng)的功能配置示例的框圖。[圖3]是被示出以描述信息處理系統(tǒng)的概況的圖。
[圖4]是被示出以描述將包括在聲音信息中的用戶的發(fā)聲音量用作為與語音識別處理有關的參數(shù)的情況以及將文本的大小用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖5]是被示出以描述將包括在聲音信息中的噪聲量用作為參數(shù)的情況以及將文本的破裂度用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖6]是被示出以描述將包括在聲音信息中的噪聲量用作為參數(shù)的情況以及將文本的模糊度用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖7]是被示出以描述將包括在聲音信息中的噪聲量用作為參數(shù)的情況以及將添加至文本的對象的類型用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖8a]是被示出以描述將噪聲方向用作為參數(shù)的情況以及將文本的模糊度用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖8b]是被示出以描述將噪聲方向用作為參數(shù)的情況以及將文本的模糊度用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖9a]是被示出以描述將包括在聲音信息中的噪聲的類型用作為參數(shù)的情況以及將添加到文本的對象的類型用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖9b]是被示出以描述將包括在聲音信息中的噪聲的類型用作為參數(shù)的情況以及將添加到文本的對象的類型用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖9c]是被示出以描述將包括在聲音信息中的噪聲的類型用作為參數(shù)的情況以及將添加到文本的對象的類型用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
[圖10]是示出了在將聲音采集單元所采集的基于聲音信息的預定數(shù)據(jù)用作為參數(shù)的情況下所指定的文本的顯示模式的示例的圖。
[圖11]是示出了在將通過對圖像輸入單元所輸入的輸入圖像進行分析而獲得的結果用作為參數(shù)的情況下所指定的文本的顯示模式的示例的圖。
[圖12]是示出了在將通過對生物信息輸入單元所輸入的生物信息進行分析而獲得的結果用作為參數(shù)的情況下所指定的文本的顯示模式的示例的圖。
[圖13]是示出了顯示模式基于用戶的改變操作而改變的示例的圖。
[圖14]是示出了信息處理系統(tǒng)的操作示例的流程圖。
[圖15]是被示出以描述信息處理系統(tǒng)的發(fā)送顯示信息的功能的圖。
[圖16]是被示出以描述信息處理系統(tǒng)的接收顯示信息的功能的圖。
[圖17]是示出了在用戶的專注水平超過閾值的情況下所發(fā)送的顯示信息的示例的圖。
[圖18]是示出了在用戶沒有視覺地識別聊天畫面的情況下所發(fā)送的顯示信息的示例的圖。
[圖19]是示出了在用戶使用信息處理系統(tǒng)的情況下所發(fā)送的顯示信息的示例的圖。
[圖20a]是示出了在用戶的行為信息指示用戶正在跑步的情況下被添加至文本的對象的示例的圖。
[圖20b]是示出了在用戶的環(huán)境信息指示周圍有人的情況下被添加至文本的對象的示例的圖。
[圖20c]是示出了在用戶的行為信息指示用戶正在開車的情況下被添加至文本的對象的示例的圖。
[圖21]是示出了根據(jù)本實施方式的信息處理系統(tǒng)的硬件配置示例的框圖。
具體實施方式
在下文中,將參照附圖詳細地描述本公開內容的一種或多種優(yōu)選實施方式。在本說明書和附圖中,使用相同的附圖標記來表示具有基本上相同功能和結構的結構元件,并且省略對這些結構元件的重復說明。
注意,在本說明書和附圖中,有時使用相同附圖標記之后的不同數(shù)字來區(qū)分具有基本相同功能和結構的結構元件。然而,當不需要特別區(qū)分具有基本相同功能和結構的結構元件時,只附上相同的附圖標記。
此外,將按以下順序給出描述。
1.本公開內容的實施方式
1.1.系統(tǒng)配置示例
1.2.功能配置示例
1.3.信息處理系統(tǒng)的功能的詳情
1.4.修改
1.5.硬件配置示例
2.結論
<1.本公開內容的實施方式>
[1.1.系統(tǒng)配置示例]
將參照附圖來描述根據(jù)本公開內容的實施方式的通信系統(tǒng)的配置示例。圖1是示出了根據(jù)本公開內容的實施方式的通信系統(tǒng)的配置示例的圖。如圖1所示,根據(jù)本實施方式的通信系統(tǒng)被配置成包括信息處理系統(tǒng)10-1和信息處理系統(tǒng)10-2。信息處理系統(tǒng)10-1和信息處理系統(tǒng)10-2中的每一個被配置成包括圖像輸入單元110、操作輸入單元115、生物信息輸入單元118、聲音采集單元120、顯示單元130、聲音輸出單元135以及信息處理設備(以下還稱為“控制單元”)140。
信息處理系統(tǒng)10-1中的信息處理設備140可以經(jīng)由網(wǎng)絡931與信息處理系統(tǒng)10-2中的信息處理設備140通信。此外,在信息處理系統(tǒng)10中,圖像輸入單元110、聲音采集單元120以及聲音輸出單元135被設置在顯示單元130的框架上。然而,圖像輸入單元110、聲音采集單元120以及聲音輸出單元135被設置的位置并不受限制??梢詫D像輸入單元110、聲音采集單元120以及聲音輸出單元135設置在不同于顯示單元130的框架的位置處,或者可以設置在不同于顯示單元130的位置處(例如,操作輸入單元115處),并且可以將聲音采集單元120所采集的聲音信息發(fā)送至信息處理設備140。
此外,在圖1所示的示例中,信息處理設備140是游戲控制臺,但是信息處理設備140的形式不限于游戲控制臺。在一個示例中,信息處理設備140可以是智能電話、移動電話、平板電腦終端或個人電腦(pc)。在下面的描述中,在本文中彼此區(qū)分地使用術語語音(或話音)和聲音。
以上描述了根據(jù)本實施方式的通信系統(tǒng)的配置示例。
[1.2.功能配置示例]
接下來,描述根據(jù)本實施方式的信息處理系統(tǒng)10的功能配置示例。圖2是示出了根據(jù)本實施方式的信息處理系統(tǒng)10的功能配置示例的框圖。如圖2所示,信息處理系統(tǒng)10被配置成包括圖像輸入單元110、操作輸入單元115、生物信息輸入單元118、聲音采集單元120、通信單元125、顯示單元130、聲音輸出單元135以及控制單元140。
圖像輸入單元110具有輸入圖像的功能。在一個示例中,圖像輸入單元110包括相機,并且接收由相機拍攝的圖像作為輸入。圖像輸入單元110中包括的相機的數(shù)量不限于特定數(shù)量,只要該數(shù)量為一個或多個即可。圖像輸入單元110中包括的一個或多個相機中的每一個被設置的位置也不限于特定位置。此外,一個或多個相機的示例可以包括單目相機或立體相機。
操作輸入單元115具有輸入用戶操作的功能。在一個示例中,操作輸入單元115可以包括游戲控制臺的控制器。此外,操作輸入單元115可以具有輸入用戶操作的功能,因此可以包括觸摸板。觸摸板所采用的類型的示例可以包括但不限于靜電電容型、電阻膜型、紅外型或超聲型。此外,操作輸入單元115可以被配置成包括相機。
生物信息輸入單元118具有輸入用戶的生物信息的功能。在一個示例中,在生物信息輸入單元118設置有壓力傳感器的情況下,能夠使用壓力傳感器來輸入由用戶持握的控制器的持握壓力作為生物信息。此外,在生物信息輸入單元118設置有心跳傳感器的情況下,能夠使用該心跳傳感器來輸入用戶的心跳作為生物信息。此外,在生物信息輸入單元118設置有汗液傳感器的情況下,能夠使用該汗液傳感器來輸入用戶的排汗率作為生物信息。此外,在本實施方式中,主要描述了將生物信息輸入單元118設置在游戲控制臺的控制器中的情況,但是可以將生物信息輸入單元118設置在可穿戴設備中。
聲音采集單元120具有通過聲音采集來獲得聲音信息的功能。正如參考圖1所描述的,可以將聲音采集單元120設置在顯示單元130的框架上,但是也可以設置在不同于顯示單元130的框架的位置處,或者可以設置在不同于顯示單元130的位置處(例如,操作輸入單元115處)。聲音采集單元120中包括的麥克風的數(shù)量不限于特定數(shù)量,只要該數(shù)量為一個或多個即可。此外,聲音采集單元120中包括的一個或多個麥克風中的每一個被設置的位置也不限于特定位置。
然而,在聲音采集單元120設置有多個麥克風的情況下,可以基于多個麥克風中的每一個進行的聲音采集所獲得的聲音信息來估計聲音的到達方向。替選地,在聲音采集單元120設置有定向麥克風的情況下,可以基于定向麥克風進行的聲音采集所獲得的聲音信息來估計聲音的到達方向。
控制單元140對信息處理系統(tǒng)10的每個部件執(zhí)行控制。如圖2所示,控制單元140被配置成包括信息獲取單元141、語音識別單元142、顯示模式指定單元143以及輸出單元144。后面將描述這些功能塊中的每一個的詳情。此外,控制單元140可以由例如中央處理單元(cpu)構成。在信息處理設備140由諸如cpu的處理設備構成的情況下,該處理設備可以由電子電路構成。
通信單元125具有與另一信息處理系統(tǒng)10通信的功能。在一個示例中,通信單元125由通信接口構成。在一個示例中,通信單元125可以經(jīng)由網(wǎng)絡931與該另一信息處理系統(tǒng)10通信。
顯示單元130具有顯示畫面的功能。在一個示例中,顯示單元180可以是液晶顯示器、有機電致發(fā)光(el)顯示器或頭戴式顯示器(hmd)。然而,顯示單元180可以是其他形式的顯示器,只要其具有顯示畫面的功能即可。
聲音輸出單元135具有輸出聲音信息的功能。在一個示例中,聲音輸出單元135可以是揚聲器、頭戴式耳機或耳機。然而,聲音輸出單元135可以是其他形式的聲音輸出設備,只要其具有輸出聲音信息的功能即可。
以上描述了根據(jù)本實施方式的信息處理系統(tǒng)10的功能配置示例。
[1.3.信息處理系統(tǒng)的功能的詳情]
接下來,將詳細描述信息處理系統(tǒng)10的功能。圖3是被示出以描述信息處理系統(tǒng)10的概況的圖。參照圖3,視頻圖像顯示畫面131位于顯示單元130中,在視頻圖像顯示畫面131上顯示有通過控制單元140再現(xiàn)的視頻圖像。這里,控制單元140被設想為游戲控制臺,因此顯示在視頻圖像顯示畫面131上的視頻圖像可以是游戲應用中包括的視頻圖像。
此外,參照圖3,由控制單元140來執(zhí)行用于使信息處理系統(tǒng)10-1的用戶u1能夠與信息處理系統(tǒng)10-2的用戶聊天的聊天應用,并且由顯示單元130來顯示該聊天應用的執(zhí)行畫面作為聊天畫面134。參照圖3,將通過對以下聲音信息執(zhí)行語音識別處理而獲得的語音識別處理結果“hello”顯示在信息處理系統(tǒng)10-1的聊天畫面134上:該聲音信息包括信息處理系統(tǒng)10-2的用戶“約翰”的發(fā)聲。語音識別處理結果可以是通過對聲音信息進行語音識別處理而獲得的單字符數(shù)據(jù),或者是其中排列了多個字符的字符串數(shù)據(jù)。本文使用術語“文本”作為語音識別處理結果的示例。
另一方面,作為信息處理系統(tǒng)10-1的聲音采集單元120所采集的聲音信息的語音識別處理結果的示例,顯示有文本的發(fā)聲畫面133也位于顯示單元130中。發(fā)聲畫面133顯示用于開始語音識別處理的語音識別處理開始按鈕132。此外,發(fā)聲畫面133顯示文本tx-10“hello”作為信息處理系統(tǒng)10-1的聲音采集單元120所采集的聲音信息的語音識別處理結果的示例。
在一個示例中,可以將文本tx-10添加至聊天畫面134。此外,可以將文本tx-10發(fā)送至信息處理系統(tǒng)10-2的控制單元140,并且可以在信息處理系統(tǒng)10-2的聊天畫面上顯示。在這里,僅通過視覺地識別文本tx-10,用戶u1難以直觀地了解語音識別處理執(zhí)行的情況。因此,需要提供一種能夠使用戶u1直觀地了解語音識別處理執(zhí)行的情況的技術。
更具體地,在本公開內容的實施方式中,當用戶u1執(zhí)行用于選擇語音識別處理開始按鈕132的操作(以下還稱為“識別開始操作”)時,操作輸入單元115輸入該識別開始操作,并且用戶u1開始發(fā)聲。當聲音采集單元120采集到聲音信息時,信息獲取單元141獲取由聲音采集單元120采集的聲音信息。此外,在本實施方式中,由聲音采集單元120采集的信號指的是聲音信息,但是聲音信息可以是通過對聲音采集單元120所采集的信號執(zhí)行任意種類的信號處理而獲得的信號。
然后,當通過語音識別單元142執(zhí)行語音識別處理而獲得文本tx-10時,顯示模式指定單元143根據(jù)與對聲音信息的語音識別處理有關的參數(shù)來指定文本tx-10的顯示模式。后面將對這種參數(shù)的詳情進行描述。輸出單元144根據(jù)指定的顯示模式來輸出用于顯示文本tx-10的顯示信息。顯示信息可以包括文本和指示顯示模式的顯示模式信息。此外,盡管顯示信息的輸出目的地不受限制,但是當顯示信息被輸出至顯示單元130時,顯示單元130可以基于該顯示信息在發(fā)聲畫面133上顯示取決于這樣的顯示模式的文本tx-10。
以這種方式,在本公開內容的實施方式中,根據(jù)與語音識別處理有關的參數(shù)來指定文本tx-10的顯示模式,并且根據(jù)這種顯示模式來輸出用于顯示文本tx-10的顯示信息。該配置使得用戶u1能夠根據(jù)文本tx-10的顯示模式來直觀地了解語音識別處理執(zhí)行的情況。在下文中,作為示例,將描述針對每個詞來指定顯示模式的情況,但是指定顯示模式的單位不限于特定單位。在一個示例中,可以針對每個短語或每個句子來指定顯示模式。
此外,與語音識別處理有關的參數(shù)不限于特定參數(shù),而是可以包括例如在聲音采集單元120所采集的聲音信息中包括的用戶u1的發(fā)聲信息。此外,根據(jù)參數(shù)而指定的顯示模式不限于特定模式,并且可以包括以下中的至少一個:文本tx-10的大小、形狀、飽和度、字體、模糊度、以及破裂度、被添加至文本tx-10的動畫圖像的類型、以及被添加至文本tx-10的對象的類型。
下面將描述這種參數(shù)以及根據(jù)該參數(shù)而指定的顯示模式的示例。圖4是被示出以描述將包括在聲音信息中的用戶(圖3所示的用戶u1)的發(fā)聲音量用作為與語音識別處理有關的參數(shù)的情況以及將文本(圖3所示的文本tx-10)的大小用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。參照圖4,沿水平軸示出了用戶的發(fā)聲音量以及根據(jù)該發(fā)聲音量而指定的文本“hello”的大小。
如圖4所示,顯示模式指定單元143可以隨著發(fā)聲音量在從預定下限音量到預定上限音量的范圍內增大而增大文本“hello”的大小。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的發(fā)聲音量。另一方面,在發(fā)聲音量下降至預定下限音量之下的情況下,顯示模式指定單元143可以將文本“hello”的大小設置成固定值。此外,在發(fā)聲音量超過預定上限音量的情況下,顯示模式指定單元143可以將文本“hello”的大小設置成固定值。
此外,參數(shù)可以包括與用戶的發(fā)聲相對應的噪聲有關的信息,與噪聲有關的信息包括在由聲音采集單元120所采集的聲音信息中。與噪聲有關的信息不限于特定類型,并且與噪聲有關的信息的示例可以包括噪聲的類型、噪聲的音量(以下還稱為“噪聲量”)、以及從噪聲源到聲音采集單元120的方向(以下還稱為“噪聲方向”)。圖5是被示出以描述將包括在聲音信息中的噪聲量用作為參數(shù)的情況以及將文本(圖3所示的文本tx-10)的破裂度用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。
參照圖5,沿水平軸示出了噪聲量以及根據(jù)該噪聲量而指定的文本“hello”的破裂度。如圖5所示,顯示模式指定單元143可以隨著噪聲量的增大而增大文本“hello”的破裂度。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的噪聲量。
圖6是被示出以描述將包括在聲音信息中的噪聲量用作為圖7的參數(shù)的情況以及將文本(圖3所示的文本tx-10)的模糊度指定為取決于該參數(shù)的顯示模式的情況的圖。參照圖6,沿水平軸示出了噪聲量以及根據(jù)該噪聲量而指定的文本“hello”的模糊度。如圖6所示,顯示模式指定單元143可以隨著噪聲量的增大而增大文本“hello”的模糊度。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的噪聲量。
圖7是被示出以描述將包括在聲音信息中的噪聲量用作為參數(shù)的情況以及將添加至文本(圖3所示的文本tx-10)的對象的類型用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。參照圖7,沿水平軸示出了噪聲量以及根據(jù)該噪聲量而指定的對象bj的類型。
如圖7所示,在噪聲量處于從預定上限噪聲量到預定下限噪聲量的范圍內的情況下,顯示模式指定單元143可以指定對象bj-22作為要添加至文本“hello”的對象。此外,在噪聲量超過預定上限噪聲量的情況下,顯示模式指定單元143可以指定對象bj-21作為要添加至文本“hello”的對象。此外,在噪聲量下降到預定下限噪聲量之下的情況下,顯示模式指定單元143可以指定對象bj-23作為要添加至文本“hello”的對象。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的噪聲量。
此外,盡管圖7示出了將對象bj-21至對象bj-23添加至文本“hello”的末尾的示例,但是對象bj-21至對象bj-23被添加的位置不限于文本“hello”的末尾。在一個示例中,可以將對象bj-21至對象bj-23添加至文本“hello”的開頭。此外,在這里,設想對象bj-21至對象bj-23是靜態(tài)圖像,但是對象bj-21至bj-23可以是任何數(shù)據(jù)。在一個示例中,對象bj-21至對象bj-23可以是運動圖像或者可以是文本數(shù)據(jù)。
圖8a和圖8b是被示出以描述將噪聲方向用作為參數(shù)的情況以及將文本(圖3所示的文本tx-10)的模糊度用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。參照圖8a和圖8b,示出了噪聲方向以及根據(jù)噪聲方向而指定的文本“hello”的模糊度。
如圖8a所示,在噪聲方向是從屏幕的左側至右側的情況下,顯示模式指定單元143可以使文本“hello”左側的模糊度大于右側的模糊度。替選地,如圖8b所示,在噪聲方向是從屏幕的上側至下側的情況下,顯示模式指定單元143可以使文本“hello”上側的模糊度大于下側的模糊度。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的噪聲方向。
圖9a、圖9b和圖9c是被示出以描述將包括在聲音信息中的噪聲的類型用作為參數(shù)的情況以及將被添加到文本(圖3所示的文本tx-10)的對象的類型用作為根據(jù)該參數(shù)而指定的顯示模式的情況的圖。參照圖9a至圖9c,盡管根據(jù)噪聲量而指定的對象bj-21被添加至文本“hello”,然而不一定要將根據(jù)噪聲量而指定的對象bj-21添加至文本“hello”。
如圖9a所示,在噪聲的類型是來自火車的噪聲的情況下,顯示模式指定單元143可以指定對象bj-31作為要添加至文本“hello”的對象。此外,在噪聲的類型是來自電視設備的噪聲的情況下,顯示模式指定單元143可以指定對象bj-32作為要添加至文本“hello”的對象。此外,在噪聲的類型是人類聲音的情況下,顯示模式指定單元143可以指定對象bj-33作為要添加至文本“hello”的對象。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的噪聲類型。
此外,盡管圖9a、圖9b和圖9c示出了將對象bj-31至對象bj-33添加至文本“hello”的末尾的示例,但是對象bj-31至bj-33被添加的位置不限于文本“hello”的末尾。在一個示例中,可以將對象bj-31至對象bj-33添加至文本“hello”的開頭。此外,在這里,設想對象bj-31至對象bj-33是靜態(tài)圖像,但是對象bj-31至bj-33可以是任何數(shù)據(jù)。在一個示例中,對象bj-31至對象bj-33可以是運動圖像或者可以是文本數(shù)據(jù)。
盡管以上詳細描述了參數(shù)以及根據(jù)參數(shù)而指定的顯示模式的一些示例,但是參數(shù)以及根據(jù)參數(shù)而指定的顯示模式不限于以上描述的示例。參數(shù)(用戶u1的發(fā)聲信息)的示例可以包括以下中的至少一個:包括在聲音信息中的用戶u1的發(fā)聲音量、聲音信息的語音相似度、聲音信息的頻率、包括在聲音信息中的語音的發(fā)聲速度、包括在聲音信息中的與語音的詞尾有關的信息、以及文本的置信度水平。
此外,所述顯示模式是進一步基于與用戶u1有關的信息來指定的。在這里,與用戶u1有關的信息不限于特定信息,并且與用戶u1有關的信息可以包括用戶u1的生物信息和情感信息中的至少一個??梢杂缮镄畔⑤斎雴卧?18來輸入生物信息。用戶u1的生物信息不限于特定信息,并且用戶u1的生物信息可以包括由用戶u1持握的控制器的持握壓力、用戶u1的排汗、以及用戶u1的心跳中的至少一個。
可以以任何方式獲得用戶u1的情感信息。在一個示例中,可以通過顯示模式指定單元143對聲音信息或輸入圖像進行分析來獲得用戶u1的情感信息。此外,用戶u1的情感信息不限于特定信息,并且用戶u1的情感信息可以包括用戶u1的喜悅、驚奇、以及憤怒中的至少一個。替選地,用戶u1的情感信息可以包括其他情感。
此外,與用戶u1有關的信息可以包括用戶u1的性別和年齡中的至少一個??梢砸匀魏畏绞将@得用戶u1的性別和年齡。在一個示例中,可以通過顯示模式指定單元143對輸入圖像進行分析來獲得用戶u1的性別和年齡。年齡可以是以預定單位來指示年齡的數(shù)據(jù),例如,以十年為單位來指示年齡的數(shù)據(jù)。
圖10是示出了在將基于聲音采集單元120所采集的聲音信息的預定數(shù)據(jù)用作參數(shù)的情況下所指定的文本(圖3所示的文本tx-10)的顯示模式的示例的圖。在一個示例中,如圖10所示,顯示模式指定單元143可以基于包括在聲音采集單元120所采集的聲音信息中的用戶u1的發(fā)聲音量來控制文本的大小。
此外,顯示模式指定單元143可以基于聲音采集單元120所采集的聲音信息的語音相似度(語音音量或噪聲音量)來控制文本的模糊度、文本的破裂度、或要添加至文本的對象的類型。此外,顯示模式指定單元143可以基于包括在聲音采集單元120所采集的聲音信息中的噪聲量來控制文本的模糊度、文本的破裂度、或要添加至文本的對象的類型。
此外,顯示模式指定單元143可以基于聲音采集單元120所采集的聲音信息中包括的噪聲方向來控制文本的模糊部分。此外,顯示模式指定單元143可以基于聲音采集單元120所采集的聲音信息的頻率分布(聲音的音調)來控制文本的飽和度。
此外,顯示模式指定單元143可以基于聲音采集單元120所采集的聲音信息中包括的語音的發(fā)聲速度來指定要添加至文本的動畫圖像。在一個示例中,在語音采集單元120所采集的聲音信息中包括的語音的發(fā)聲速度超過預定上限速度的情況下,顯示模式指定單元143可以指定閃爍動畫圖像作為要添加至文本的動畫圖像。此外,在一個示例中,在語音采集單元120所采集的聲音信息中包括的語音的發(fā)聲速度降低到預定下限速度之下的情況下,顯示模式指定單元143可以指定3d動畫圖像作為要添加至文本的動畫圖像。
此外,顯示模式指定單元143可以基于聲音采集單元120所采集的聲音信息中包括的對語音的語音識別處理的置信度水平(文本的置信度水平)來控制文本的透明度。在一個示例中,顯示模式指定單元143可以隨著置信度水平的降低而增大文本“hello”的透明度。這使得用戶可以直觀地了解作為語音識別處理執(zhí)行的情況的示例的、語音識別處理的置信度水平。
此外,顯示模式指定單元143可以基于聲音采集單元120所采集的聲音信息中包括的與語音的詞尾有關的信息來指定要添加至文本的動畫圖像。在一個示例中,在語音采集單元120所采集的聲音信息中包括的語音的詞尾的延伸時間超過預定時間的情況下,顯示模式指定單元143可以指定在左右方向上移動的動畫圖像作為要添加至文本的動畫圖像。
此外,在通過對聲音信息進行分析而獲得的情感信息指示喜悅的情況下,顯示模式指定單元143可以控制顯示模式,使得將預定對象添加至文本的末尾。此外,在通過對聲音信息進行分析而獲得的情感信息指示驚奇的情況下,顯示模式指定單元143可以控制顯示模式,使得將預定符號(例如“!”)和預定對象添加至文本的末尾。此外,在通過對聲音信息進行分析而獲得的情感信息指示憤怒的情況下,顯示模式指定單元143可以控制顯示模式,使得文本的顏色變成預定顏色(例如紅色)并且將預定對象添加至文本的末尾。
圖11是示出了在以下情況下所指定的文本(圖3所示的文本tx-10)的顯示模式的示例的圖:將通過對圖像輸入單元所輸入的輸入圖像進行分析而獲得的結果用作為參數(shù)的情況。如圖11所示,在通過對輸入圖像進行分析而獲得的情感信息指示喜悅的情況下,顯示模式指定單元143可以控制顯示模式,使得將預定對象添加至文本的末尾。
此外,在通過對輸入圖像進行分析而獲得的情感信息指示驚奇的情況下,顯示模式指定單元143可以控制顯示模式,使得將預定符號(例如“!”)和預定對象添加至文本的末尾。此外,在通過對輸入圖像進行分析而獲得的情感信息指示憤怒的情況下,顯示模式指定單元143可以控制顯示模式,使得文本的顏色變成預定顏色(例如紅色)并且將預定對象添加至文本的末尾。
此外,顯示模式指定單元143可以根據(jù)通過對輸入圖像進行分析而獲得的性別來控制文本的字體(例如字符風格)。此外,顯示模式指定單元143可以根據(jù)通過對輸入圖像進行分析而獲得的年齡來控制文本的顏色。此外,顯示模式指定單元143可以根據(jù)通過對輸入圖像進行分析而獲得的用戶u1的專注水平(或興奮水平)來控制文本的顏色、文本的大小或要添加至文本末尾的對象。
圖12是示出了在以下情況下所指定的文本(圖3所示的文本tx-10)的顯示模式的示例的圖:將通過對生物信息輸入單元118所輸入的生物信息進行分析而獲得的結果用作為參數(shù)的情況。如圖12所示,顯示模式指定單元143可以根據(jù)通過對生物信息進行分析而獲得的用戶u1的專注水平(或興奮水平)來控制文本的顏色、文本的大小或要添加至文本末尾的對象。
設想的是專注水平可以根據(jù)各種類型的生物信息而不同。因此,用于計算專注水平的生物信息可以包括以下中的至少一個:用戶u1的體溫、排汗量、脈搏率、呼吸率、眨眼率、眼睛運動、注視持續(xù)時間、瞳孔直徑的大小、血壓、腦波、身體運動、身體姿勢、皮膚溫度、皮膚電阻(galvanicskinresistance)、微振動(mv)、肌電位(myoelectricpotential)和spo2(血液氧飽和度水平)。
此外,顯示模式指定單元143可以基于控制器的持握壓力來控制文本的大小。在一個示例中,與持握壓力小于預定壓力的情況相比,在控制器的持握壓力大于預定壓力的情況下,顯示模式指定單元143可以增大文本的大小。此外,在用戶u1的排汗量超過預定上限排汗量的情況下,顯示模式指定單元143可以控制顯示模式,使得將預定對象添加至文本的末尾。
此外,顯示模式指定單元143可以控制顯示模式,使得根據(jù)用戶u1的心率將運動動畫圖像添加至文本。在一個示例中,顯示模式指定單元143可以控制顯示模式,使得將以下動畫圖像添加至文本:該動畫圖像的運動隨著用戶u1的心率的增大而增大。
以上描述了參數(shù)以及根據(jù)參數(shù)而指定的顯示模式的示例。以這種方式指定的顯示模式可以是用戶u1不可改變的,但是考慮到用戶u1的方便性,可以優(yōu)選地基于用戶u1的預定改變操作來改變。改變操作不限于特定一種操作,并且改變操作可以是按壓或輕敲與顯示模式對應的按鈕的操作。
圖13是示出了基于用戶u1的改變操作來改變顯示模式的示例的圖。參照圖13,作為對用戶u1的發(fā)聲的語音識別處理結果的示例,在發(fā)聲畫面133-1上顯示有大尺寸的文本tx-21“我正在打游戲”。此外,作為根據(jù)參數(shù)而指定的顯示模式,在發(fā)聲畫面133-1上還顯示有“紅色”、“大尺寸”、“滑入”以及“3d”。
這里,設想用戶u1想要減小文本tx-21“我正在打游戲”的大小。在這種情況下,用戶u1可以按壓或輕敲作為顯示模式的示例的“大尺寸”。然后,按壓或輕敲“大尺寸”的操作由操作輸入單元115輸入,并且顯示模式指定單元143取消作為文本tx-21“我正在打游戲”的顯示模式的“大尺寸”。作為結果,在發(fā)聲畫面133-2上顯示小尺寸文本tx-22“我正在打游戲”。
現(xiàn)在將描述信息處理系統(tǒng)10-1的操作示例。圖14是示出了信息處理系統(tǒng)10-1的操作示例的流程圖。圖14所示的流程圖示出了信息處理系統(tǒng)10-1的示例性操作。因此,信息處理系統(tǒng)10-1的操作不限于該示例。當用戶u1執(zhí)行識別開始操作時,通過操作輸入單元115來輸入該識別開始操作,并且用戶u1開始發(fā)聲。當聲音采集單元120采集聲音信息時,信息獲取單元141獲取由聲音采集單元120所采集的聲音信息。
然后,如果通過使語音識別單元142對聲音信息執(zhí)行語音識別處理而獲得文本(步驟s11),則操作進行至步驟s19。另一方面,顯示模式指定單元143通過對圖像輸入單元110所輸入的輸入圖像進行圖像分析來獲取圖像分析結果(步驟s12),并且獲取與該圖像分析結果對應的顯示模式信息(步驟s13)。如果獲取到與圖像分析結果對應的顯示模式信息,則操作進行至步驟s19。
此外,顯示模式指定單元143通過對聲音采集單元120所采集的聲音信息進行聲音分析來獲取聲音分析結果(步驟s14),并且獲取與該聲音分析結果對應的顯示模式信息(步驟s15)。如果獲取到與聲音分析結果對應的顯示模式信息,則操作進行至步驟s19。此外,顯示模式指定單元143通過分析生物信息輸入單元118所輸入的生物信息來估計用戶的狀態(tài)(步驟s17),并且獲取與用戶的狀態(tài)對應的顯示模式信息(步驟s18)。如果獲取到與用戶的狀態(tài)對應的顯示模式信息,則操作進行至步驟s19。
接下來,顯示模式指定單元143基于獲取的顯示模式信息來控制通過語音識別處理而獲得的文本(步驟s19)。由顯示模式指定單元143控制的文本被通知給應用(例如聊天應用)(步驟s20)并且在該應用中使用。在將文本用于聊天應用中的情況下,可以將顯示模式指定單元143以這種方式控制的文本(即,包括文本和顯示模式信息的顯示信息)發(fā)送至用戶u2的信息處理系統(tǒng)10-2。
以上主要描述了用戶u1的信息處理系統(tǒng)10-1中的操作。然而,如上所述,當聊天應用被啟動時,可以將信息處理系統(tǒng)10-1中的顯示模式指定單元143所控制的文本(即,包括文本和顯示模式信息的顯示信息)發(fā)送至用戶u2的信息處理系統(tǒng)10-2。因此,在下面的描述中,將主要描述信息處理系統(tǒng)10-1和信息處理系統(tǒng)10-2之間的合作。
圖15是被示出以描述信息處理系統(tǒng)10-1的發(fā)送顯示信息的功能的圖。參照圖15,與圖3所示的示例相似,顯示單元130具有視頻圖像顯示畫面131,但是不同的是,用戶u1正在玩游戲,因此在視頻圖像顯示畫面131上顯示有游戲應用中包括的視頻圖像。
此外,作為信息處理系統(tǒng)10-1的聲音采集單元120所采集的聲音信息的語音識別處理結果的示例,在發(fā)聲畫面133上顯示有具有與聲音信息的音量對應的大小的文本tx-21“我正在打游戲”,并且與用戶u1的專注水平對應的對象bj-10被添加至文本tx-21。以這種方式顯示的文本tx-21以及顯示模式信息(例如大小以及對象bj-10)被作為顯示信息發(fā)送至信息處理系統(tǒng)10-2。
圖16是被示出以描述信息處理系統(tǒng)10-2的接收顯示信息的功能的圖。參照圖16,用戶u2對操作輸入單元115進行操作。如圖16所示,當信息處理系統(tǒng)10-2從信息處理系統(tǒng)10-1接收到作為顯示信息的文本tx-21和顯示模式信息(例如大小和對象bj-10)時,在聊天畫面134上顯示添加有對象bj-10的文本tx-21。以這種方式,信息處理系統(tǒng)10-1中的輸出單元144能夠輸出顯示信息,使得用戶u2能夠根據(jù)顯示模式指定單元143所指定的顯示模式來視覺地識別文本。
以上描述了信息處理系統(tǒng)10-1中的輸出單元144輸出顯示信息使得用戶u2能夠根據(jù)顯示模式指定單元143所指定的顯示模式來視覺地識別文本tx-21的示例。然而,信息處理系統(tǒng)10-1中的輸出單元144可以切換是否輸出顯示信息以使得用戶u2能夠根據(jù)顯示模式指定單元143所指定的顯示模式來視覺地識別文本。在一個示例中,信息處理系統(tǒng)10-1中的輸出單元144可以基于用戶u2的狀態(tài)來切換是否輸出顯示信息以使得用戶u2能夠根據(jù)顯示模式指定單元143所指定的顯示模式來視覺地識別文本。
在一個示例中,在用戶u2的狀態(tài)處于預定狀態(tài)的情況下,信息處理系統(tǒng)10-1的輸出單元144可以輸出顯示信息以使得用戶u2能夠根據(jù)與顯示模式指定單元143所指定的顯示模式不同的另一顯示模式來視覺地識別文本。圖17是示出了在用戶u2的專注水平超過閾值的情況下發(fā)送的顯示信息的示例的圖。在如圖17所示的示例中,用戶u2專注于顯示在視頻圖像顯示畫面131上的視頻圖像,因此設想用戶u2的專注水平超過閾值。
在這種情況下,信息處理系統(tǒng)10-1中的輸出單元144除了顯示模式指定單元143所指定的顯示模式之外還添加預定動畫圖像,然后輸出文本tx-21以及顯示模式信息(例如預定動畫圖像、大小和對象bj-10)。然后,如圖17所示,將添加有預定動畫圖像(圖17所示示例中的閃爍動畫圖像)的文本tx-21顯示在信息處理系統(tǒng)10-2中,從而用戶u2可以容易地注意到文本tx-21。
圖18是示出了在用戶u2未視覺地識別到聊天畫面134的情況下發(fā)送的顯示信息的示例的圖。在如圖18所示的示例中,設想用戶u2沒有視覺地識別聊天畫面134。在這種情況下,信息處理系統(tǒng)10-1中的輸出單元144可以除了發(fā)送顯示模式指定單元所指定的顯示模式之外還發(fā)送預定聲音。然后,如圖18所示,在信息處理系統(tǒng)10-2中,聲音輸出單元135輸出所接收到的聲音(在圖18所示的示例中,通過讀取文本tx-21“我正在打游戲”而獲得的語音),從而用戶u2可以容易地注意到文本tx-21。
此外,可以通過對信息處理系統(tǒng)10-2中的圖像輸入單元110所輸入的輸入圖像進行分析來確定用戶u2是否視覺地識別到聊天畫面134??梢栽谛畔⑻幚硐到y(tǒng)10-1或信息處理系統(tǒng)10-2中執(zhí)行對輸入圖像的分析。
此外,信息處理系統(tǒng)10-1中的輸出單元144可以基于用戶u1與信息處理系統(tǒng)10-2的用戶u2之間的關系來切換是否輸出顯示信息以使得信息處理系統(tǒng)10-2的用戶u2能夠根據(jù)顯示模式指定單元143所指定的顯示模式來視覺地識別文本。圖19示出了在用戶u3使用信息處理系統(tǒng)10-2的情況下所發(fā)送的顯示信息的示例的圖。在圖19所示的示例中,設想用戶u3正在使用信息處理系統(tǒng)10-2。在一個示例中,設想與用戶u1具有家庭關系的用戶u3在使用信息處理系統(tǒng)10-2。
在這種情況下,信息處理系統(tǒng)10-1中的輸出單元144可以將預定顯示模式(例如大小)排除在由顯示模式指定單元143指定的顯示模式之外,然后可以發(fā)送文本tx-21以及顯示模式信息(例如對象bj-10)。通過這么做,如圖19所示,將文本tx-21中不由預定顯示模式(圖19所示的示例中的大小)控制的文本(添加有正常大小的對象bj-10的文本)顯示在信息處理系統(tǒng)10-2中。另一方面,如圖16所示,在與用戶u1具有好朋友關系的用戶u2使用信息處理系統(tǒng)10-2的情況下,信息處理系統(tǒng)10-1中的輸出單元144可以發(fā)送所有文本tx-21和顯示模式信息(例如大小和對象bj-10)。通過這么做,如圖16所示,將文本tx-21中由顯示模式(圖16所示示例中的大小和對象bj-10)所控制的文本(添加有大于正常大小的對象bj-10的文本)顯示在信息處理系統(tǒng)10-2中。這可以使在用戶u2和用戶u3之間視覺地識別的文本的顯示模式不同。
此外,可以預先針對每個用戶或針對該用戶所屬的每個組(例如朋友、領導、好朋友、及家庭成員)來登記要發(fā)送的顯示模式信息,并且可以基于以該方式預先登記的顯示模式信息來確定要發(fā)送的顯示模式信息。替選地,可以由用戶u1來指定要發(fā)送的顯示模式信息,并且可以基于用戶u1所指定的顯示模式信息來確定要發(fā)送的顯示模式信息??梢杂尚畔⑻幚硐到y(tǒng)10-1中的顯示模式指定單元143來確定要發(fā)送的顯示模式信息。
以上描述了信息處理系統(tǒng)10-1與信息處理系統(tǒng)10-2之間的合作。
[1.4.修改]
如上所述,可以基于與用戶u1有關的信息來進一步指定顯示模式。在這里,如上所述,與用戶u1有關的信息不限于特定信息。在一個示例中,與用戶u1有關的信息包括以下中的至少一個:用戶u1的行為信息、用戶u1所操作的設備的類型、以及用戶u1周圍的環(huán)境信息??梢砸匀魏畏绞絹慝@得行為信息,比如可以通過對用戶u1所持有的設備的位置信息進行分析來獲得行為信息。此外,可以以任何方式來獲得環(huán)境信息,比如可以通過對在用戶u1附近采集的聲音信息進行分析來獲得環(huán)境信息。
圖20a是示出了在用戶u1的行為信息指示用戶正在跑步的情況下被添加至文本的對象的示例的圖。如圖20a所示,在獲得指示用戶u1正在跑步的行為信息的情況下,可以添加與文本tx-31對應的對象bj-41。
圖20b是示出了在用戶u1的環(huán)境信息指示周圍有人的情況下被添加至文本的對象的示例的圖。如圖20b所示,在獲得指示用戶u1周圍有人的環(huán)境信息的情況下,可以添加與文本tx-32對應的對象bj-42。
圖20c是示出了在用戶u1的行為信息指示用戶正在開車的情況下被添加至文本的對象的示例的圖。如圖20c所示,在獲得指示用戶u1正在開車的行為信息的情況下,可以添加與文本tx-33對應的對象bj-43。
[1.5.硬件配置示例]
下面將參照圖21來描述根據(jù)本公開內容的實施方式的信息處理系統(tǒng)10的硬件配置。圖21是示出了根據(jù)本公開內容的實施方式的信息處理系統(tǒng)10的硬件配置示例的框圖。
如圖21所示,信息處理系統(tǒng)10包括中央處理單元(cpu)901、只讀存儲器(rom)903以及隨機存取存儲器(ram)905。此外,信息處理系統(tǒng)10可以包括主機總線907、橋909、外部總線911、接口913、輸入設備915、輸出設備917、存儲設備919、驅動921、連接端口923和通信設備925。根據(jù)需要,信息處理系統(tǒng)10還可以包括圖像捕獲設備933和傳感器935。連同cpu901一起或取代cpu901,信息處理系統(tǒng)10可以具有被稱為數(shù)字信號處理器(dsp)或專用集成電路(asic)的處理電路。
cpu901用作算術處理單元和控制設備,并且根據(jù)存儲在rom903、ram905、存儲設備919或可移動存儲介質927中的各種程序來控制信息處理系統(tǒng)10的總體操作或部分操作。rom903存儲例如由cpu901使用的程序和操作參數(shù)。ram905臨時存儲例如在cpu901的運行中使用的程序和在執(zhí)行該程序中適當改變的參數(shù)。cpu901、rom903和ram905經(jīng)由主機總線907彼此連接,主機總線907由諸如cpu總線的內部總線構成。此外,主機總線907經(jīng)由橋909連接至諸如外圍設備互連(pci)/接口總線的外部總線911。
輸入設備915例如是由用戶操作的設備,如鼠標、鍵盤、觸摸板、按鈕、開關和操作桿。輸入設備915可以包括用于檢測用戶聲音的麥克風。輸入設備915可以是例如使用紅外線或其他無線電波的遠程控制設備,或者可以是符合信息處理系統(tǒng)10的操作的外部連接設備929,如蜂窩電話。輸入設備915包括基于用戶輸入的信息來生成輸入信號并將該輸入信號輸出至cpu901的輸入控制電路。用戶將各種數(shù)據(jù)輸入至信息處理系統(tǒng)10,并且通過操作輸入設備915來指示信息處理系統(tǒng)10進行處理操作。此外,后面將描述的圖像捕獲設備933通過捕獲用戶的手或手指等的移動也可以充當輸入設備。在這種情況下,可以根據(jù)手的移動或手指的取向來確定指向位置。
輸出設備917由能夠視覺地或聽覺地將所獲取的信息通知給用戶的設備構成。輸出設備917可以是諸如液晶顯示器(lcd)、等離子顯示面板(pdp)、有機電致發(fā)光(el)顯示器和投影儀的顯示設備,全息顯示設備,諸如揚聲器、頭戴式耳機的音頻輸出設備,以及打印機設備等。輸出設備917將通過信息處理系統(tǒng)10的處理而獲得的結果輸出為諸如文本或圖像的視頻,或者輸出為諸如語音或聲音的音頻。此外,輸出設備917可以包括例如用于照亮周圍的燈。
存儲設備919是被配置為信息處理系統(tǒng)10的存儲部的示例的數(shù)據(jù)存儲設備。存儲設備919例如由諸如硬盤驅動(hdd)的磁存儲設備、半導體存儲設備、光存儲設備、和磁光存儲設備構成。存儲設備919存儲由cpu901執(zhí)行的程序、各種數(shù)據(jù)、從外部獲得的各種類型的數(shù)據(jù)等。
驅動921是用于諸如磁盤、光盤、磁光盤和半導體存儲器的可移除存儲介質927的讀寫器,并且可以合并在信息處理系統(tǒng)10中,或者在外部附接到信息處理系統(tǒng)10。驅動921讀取存儲在所附接的可移除存儲介質927中的信息,并將該信息輸出至ram905。此外,驅動921還在所附接的可移除存儲介質927中進行寫入。
連接端口923是用于直接將設備連接至信息處理系統(tǒng)10的端口。連接端口923可以是例如通用串行總線(usb)端口、ieee1394端口、或小型計算機系統(tǒng)接口(scsi)端口。此外,連接端口923可以是例如rs-232c端口、光學音頻端子或高清晰度多媒體接口(hdmi,注冊商標)端口。外部連接設備929被連接至連接端口923,從而可以在信息處理系統(tǒng)10與外部連接設備929之間進行各種類型的數(shù)據(jù)的交換。
通信設備925是例如由通信設備等構成的通信接口,通信設備925用于連接至通信網(wǎng)絡931。通信設備925可以是例如用于有線或無線局域網(wǎng)(lan)、藍牙(注冊商標)或無線usb(wusb)的通信卡。此外,通信設備925可以是例如用于光通信的路由器、用于非對稱數(shù)字用戶線(adsl)的路由器或用于各種通信的調制解調器。通信設備925使用諸如tcp/ip的預定協(xié)議與因特網(wǎng)或其他通信裝置發(fā)送和接收信號等。此外,連接至通信設備925的通信網(wǎng)絡931是通過有線或無線連接的網(wǎng)絡,例如因特網(wǎng)、家庭lan、紅外通信、無線電波通信、衛(wèi)星通信等。
圖像捕獲設備933通過使用諸如電荷耦合器件(ccd)或互補金屬氧化物半導體(cmos)的圖像傳感器以及各種部件(諸如用于控制圖像傳感器上的對象圖像的成像的透鏡)來捕獲真實空間并生成捕獲的圖像。圖像捕獲設備933可以捕獲靜態(tài)圖像或運動圖像。
傳感器935是例如各種傳感器,如加速度計、陀螺儀傳感器、地磁傳感器、光電傳感器和聲音傳感器。傳感器935獲取有關信息處理系統(tǒng)10本身的狀態(tài)的信息(如信息處理系統(tǒng)10的殼體的姿態(tài)),以及關于信息處理系統(tǒng)10的周圍環(huán)境的信息(如信息處理系統(tǒng)10周圍的亮度或噪聲)。傳感器935還可以包括gps傳感器,gps傳感器接收全球定位系統(tǒng)(gps)信號,并且測量緯度、經(jīng)度和海拔高度。
以上描述給出了信息處理系統(tǒng)10的硬件配置的示例。上述部件中的每一個可以使用通用部件來配置,或者可以使用專用于每個部件的功能的硬件來配置??梢愿鶕?jù)在實施時的技術水平來適當?shù)母淖冞@樣的配置。
<2.結論>
如上所述,根據(jù)本公開內容的實施方式,提供了包括信息獲取單元141和輸出單元144的信息處理設備140。信息獲取單元141被配置成獲取與對聲音采集單元120所采集的聲音信息進行的語音識別處理有關的參數(shù)。輸出單元144被配置成輸出顯示信息,該顯示信息用于基于根據(jù)參數(shù)而指定的顯示模式來顯示聲音信息的語音識別處理結果。該配置使得用戶能夠基于語音識別處理結果的顯示模式來直觀地了解語音識別處理執(zhí)行的情況。
特別地,根據(jù)本公開內容的實施方式,在未獲得期望的語音識別處理結果的情況下,可以通過視覺地識別根據(jù)與語音識別處理有關的參數(shù)而指定的語音識別結果,來直觀地了解為什么沒有獲得期望的語音識別處理。在下一次發(fā)聲中結合所理解的原因使得可以增大在下一次獲得期望的語音識別處理結果的可能性。
此外,根據(jù)本公開內容的實施方式,可以在發(fā)聲的同時地改變語音識別處理結果的顯示模式。因此,根據(jù)本公開內容的實施方式,與以下情況相比,可以通過簡單的方法來改變語音識別處理結果的顯示模式:與發(fā)聲分離地通過手動來進行改變顯示模式的情況。
以上參照附圖描述了本公開內容的優(yōu)選實施方式,但是本公開內容不限于上述示例。本領域技術人員可以在所附權利要求的范圍內找到各種變型和修改,并且應當理解,它們將自然地落入本公開的技術范圍內。
此外,可以產(chǎn)生程序,該程序用于使結合在計算機中的硬件(諸如cpu、rom和ram)執(zhí)行與上述控制單元140的功能等同的功能。此外,還可以提供存儲有該程序的計算機可讀記錄介質。
此外,在實現(xiàn)上述信息處理系統(tǒng)10的操作時,每個部件的位置不限于特定位置。作為特定示例,可以將控制單元140設置在與以下設備不同的設備中:所述設備設置有圖像輸入單元110、操作輸入單元115、聲音采集單元120、通信單元125、顯示單元130和聲音輸出單元135。這些設備可以經(jīng)由網(wǎng)絡連接。在這種情況下,控制單元140可以對應于例如服務器(如網(wǎng)絡服務器或云服務器)。圖像輸入單元110、操作輸入單元115、生物信息輸入單元118、聲音采集單元120、通信單元125、顯示單元130和聲音輸出單元135可以對應于經(jīng)由網(wǎng)絡連接至服務器的客戶端。
此外,控制單元140中包括的所有部件不一定被設置在同一設備中。在一個示例中,可以將信息獲取單元141、語音識別單元142、顯示模式指定單元143、以及輸出單元144中的一些包括在與設置有控制單元140的設備不同的設備中。在一個示例中,可以將語音識別單元142和顯示模式指定單元143包括在與設置有控制單元140的服務器不同的服務器中,其中該控制單元140包括信息獲取單元141和輸出單元144。
此外,在本說明書中描述的效果僅是說明性和示例性的效果,不是限制性的。換言之,與上述效果一起或取代上述效果,根據(jù)本公開內容的技術可以實現(xiàn)根據(jù)本說明書的描述對本領域技術人員而言清楚明顯的其他效果。
此外,本技術也可配置如下。
(1)
一種信息處理設備,包括:
信息獲取單元,所述信息獲取單元被配置成獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及
輸出單元,所述輸出單元被配置成輸出顯示信息,所述顯示信息用于基于根據(jù)所述參數(shù)而指定的顯示模式來顯示所述聲音信息的語音識別處理結果。
(2)
根據(jù)(1)所述的信息處理設備,
其中,所述參數(shù)包括用戶的發(fā)聲信息,所述發(fā)聲信息被包括在所述聲音信息中。
(3)
根據(jù)(1)所述的信息處理設備,
其中,所述參數(shù)包括與對應于用戶的發(fā)聲的噪聲有關的信息,與所述噪聲有關的信息被包括在所述聲音信息中。
(4)
根據(jù)(3)所述的信息處理設備,
其中,與所述噪聲有關的信息包括以下中的至少一個:噪聲的類型、噪聲的音量、以及從噪聲源到聲音采集單元的方向。
(5)
根據(jù)(2)所述的信息處理設備,
其中,所述用戶的發(fā)聲信息包括以下中的至少一個:所述聲音信息中包括的用戶的發(fā)聲音量、聲音信息的語音相似度、聲音信息的頻率、所述聲音信息中包括的語音的發(fā)聲速度、與所述聲音信息中包括的語音的詞尾有關的信息、以及語音識別處理結果的置信度水平。
(6)
根據(jù)(1)至(5)中任一項所述的信息處理設備,還包括:
其中,所述顯示模式包括以下中的至少一個:語音識別處理結果的尺寸、形狀、飽和度、字體、模糊度、及破裂度、被添加至語音識別處理結果的動畫圖像的類型、以及被添加至語音識別處理結果的對象的類型。
(7)
根據(jù)(1)至(6)中任一項所述的信息處理設備,
其中,所述顯示模式被進一步基于與第一用戶有關的信息來指定。
(8)
根據(jù)(7)所述的信息處理設備,
其中,與第一用戶有關的信息包括所述第一用戶的生物信息和情感信息中的至少一個。
(9)
根據(jù)(7)所述的信息處理設備,
其中,與第一用戶有關的信息包括所述第一用戶的性別和年齡中的至少一個。
(10)
根據(jù)(7)所述的信息處理設備,
其中,與第一用戶有關的信息包括以下中的至少一個:所述第一用戶的行為信息、所述第一用戶所操作的設備的類型、以及所述第一用戶周圍的環(huán)境信息。
(11)
根據(jù)(7)至(10)中任一項所述的信息處理設備,
其中,所述輸出單元能夠輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被不同于所述第一用戶的第二用戶視覺地識別。
(12)
根據(jù)(11)所述的信息處理設備,
其中,所述輸出單元能夠切換是否輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被所述第二用戶視覺地識別。
(13)
根據(jù)(12)所述的信息處理設備,
其中,所述輸出單元基于所述第二用戶的狀態(tài)來切換是否輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被所述第二用戶視覺地識別。
(14)
根據(jù)(13)所述的信息處理設備,
其中,所述輸出單元在所述第二用戶處于預定狀態(tài)的情況下輸出所述顯示信息,使得基于不同于所述顯示模式的另一顯示模式,所述語音識別處理結果被所述第二用戶視覺地識別。
(15)
根據(jù)(12)至(14)中任一項所述的信息處理設備,
其中,所述輸出單元基于所述第一用戶與所述第二用戶之間的關系來切換是否輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被所述第二用戶視覺地識別。
(16)
根據(jù)(15)所述的信息處理設備,
其中,所述輸出單元在所述第一用戶與所述第二用戶之間的關系指示預定關系的情況下輸出所述顯示信息,使得基于不同于所述顯示模式的另一顯示模式,所述語音識別處理結果被所述第二用戶視覺地識別。
(17)
根據(jù)(7)至(16)中任一項所述的信息處理設備,
其中,能夠基于所述第一用戶的預定改變操作來改變所述顯示模式。(18)
根據(jù)(1)至(17)中任一項所述的信息處理設備,還包括:
顯示模式指定單元,該顯示模式指定單元被配置成根據(jù)所述參數(shù)來指定所述顯示模式。
(19)
一種信息處理的方法,所述方法包括:
獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及
由處理器輸出顯示信息,所述顯示信息用于基于根據(jù)所述參數(shù)而指定的顯示模式來顯示所述聲音信息的語音識別處理結果。
(20)
一種用于使計算機用作信息處理設備的程序,所述信息處理設備包括:
信息獲取單元,所述信息獲取單元被配置成獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及
輸出單元,所述輸出單元被配置成輸出顯示信息,所述顯示信息用于基于根據(jù)所述參數(shù)而指定的顯示模式來顯示所述聲音信息的語音識別處理結果。
附圖標記列表
10信息處理系統(tǒng)
110圖像輸入單元
115操作輸入單元
118生物信息輸入單元
120聲音采集單元
125通信單元
130顯示單元
135聲音輸出單元
140控制單元(信息處理設備)
141信息獲取單元
142語音識別單元
143顯示模式指定單元
144輸出單元
180顯示單元
權利要求書(按照條約第19條的修改)
1.一種信息處理設備,包括:
信息獲取單元,所述信息獲取單元被配置成獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及
輸出單元,所述輸出單元被配置成輸出顯示信息,所述顯示信息用于基于根據(jù)所述參數(shù)而指定的顯示模式來顯示所述聲音信息的語音識別處理結果,
其中,所述顯示模式包括以下中的至少一個:被添加至所述語音識別處理結果的動畫圖像的類型以及被添加至所述語音識別處理結果的對象的尺寸。
2.根據(jù)權利要求1所述的信息處理設備,
其中,所述參數(shù)包括用戶的發(fā)聲信息,所述發(fā)聲信息被包括在所述聲音信息中。
3.根據(jù)權利要求1所述的信息處理設備,
其中,所述參數(shù)包括與對應于用戶的發(fā)聲的噪聲有關的信息,與所述噪聲有關的信息被包括在所述聲音信息中。
4.根據(jù)權利要求3所述的信息處理設備,
其中,所述與噪聲有關的信息包括以下中的至少一個:噪聲的類型、噪聲的音量、以及從噪聲源到聲音采集單元的方向。
5.根據(jù)權利要求2所述的信息處理設備,
其中,所述用戶的發(fā)聲信息包括以下中的至少一個:所述聲音信息中包括的用戶的發(fā)聲音量、所述聲音信息的語音相似度、所述聲音信息的頻率、所述聲音信息中包括的語音的發(fā)聲速度、與所述聲音信息中包括的語音的詞尾有關的信息、以及語音識別處理結果的置信度水平。
6.根據(jù)權利要求1所述的信息處理設備,
其中,所述顯示模式包括以下中的至少一個:語音識別處理結果的尺寸、形狀、飽和度、字體、模糊度、及破裂度,以及被添加至語音識別處理結果的對象的類型。
7.根據(jù)權利要求1所述的信息處理設備,
其中,所述顯示模式被進一步基于與第一用戶有關的信息來指定。
8.根據(jù)權利要求7所述的信息處理設備,
其中,與第一用戶有關的信息包括所述第一用戶的生物信息和情感信息中的至少一個。
9.根據(jù)權利要求7所述的信息處理設備,
其中,與第一用戶有關的信息包括所述第一用戶的性別和年齡中的至少一個。
10.根據(jù)權利要求7所述的信息處理設備,
其中,與第一用戶有關的信息包括以下中的至少一個:所述第一用戶的行為信息、所述第一用戶所操作的設備的類型、以及所述第一用戶周圍的環(huán)境信息。
11.根據(jù)權利要求7所述的信息處理設備,
其中,所述輸出單元能夠輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被不同于所述第一用戶的第二用戶視覺地識別。
12.根據(jù)權利要求11所述的信息處理設備,
其中,所述輸出單元能夠切換是否輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被所述第二用戶視覺地識別。
13.根據(jù)權利要求12所述的信息處理設備,
其中,所述輸出單元基于所述第二用戶的狀態(tài)來切換是否輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被所述第二用戶視覺地識別。
14.根據(jù)權利要求13所述的信息處理設備,
其中,所述輸出單元在所述第二用戶的狀態(tài)為處于預定狀態(tài)的情況下輸出所述顯示信息,使得基于不同于所述顯示模式的另一顯示模式,所述語音識別處理結果被所述第二用戶視覺地識別。
15.根據(jù)權利要求12所述的信息處理設備,
其中,所述輸出單元基于所述第一用戶與所述第二用戶之間的關系來切換是否輸出所述顯示信息,使得基于所述顯示模式的語音識別處理結果被所述第二用戶視覺地識別。
16.根據(jù)權利要求15所述的信息處理設備,
其中,所述輸出單元在所述第一用戶與所述第二用戶之間的關系指示預定關系的情況下輸出所述顯示信息,使得基于不同于所述顯示模式的另一顯示模式,所述語音識別處理結果被所述第二用戶視覺地識別。
17.根據(jù)權利要求7所述的信息處理設備,
其中,能夠基于所述第一用戶的預定改變操作來改變所述顯示模式。
18.根據(jù)權利要求1所述的信息處理設備,還包括:
顯示模式指定單元,所述顯示模式指定單元被配置成根據(jù)所述參數(shù)來指定所述顯示模式。
19.一種信息處理方法,所述方法包括:
獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及
由處理器輸出顯示信息,所述顯示信息用于基于根據(jù)所述參數(shù)而指定的顯示模式來顯示所述聲音信息的語音識別處理結果,
其中,所述顯示模式包括以下中的至少一個:被添加至所述語音識別處理結果的動畫圖像的類型以及被添加至所述語音識別處理結果的對象的尺寸。
20.一種用于使計算機用作信息處理設備的程序,所述信息處理設備包括:
信息獲取單元,所述信息獲取單元被配置成獲取與對基于聲音采集的聲音信息進行的語音識別處理有關的參數(shù);以及
輸出單元,所述輸出單元被配置成輸出顯示信息,所述顯示信息用于基于根據(jù)所述參數(shù)而指定的顯示模式來顯示所述聲音信息的語音識別處理結果,
其中,所述顯示模式包括以下中的至少一個:被添加至所述語音識別處理結果的動畫圖像的類型以及被添加至所述語音識別處理結果的對象的尺寸。