專利名稱:語音識別方法和語音識別設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種使用語音識別語法識別輸入語音的語音識別設(shè)備。
背景技術(shù):
語音是人類的自然界面,特別地,對于不熟悉操作設(shè)備的兒童或老人等用戶或視力殘障者來說,語音是有效的用戶界面(UI)。最近,組合這種語音UI和GUI(Graphical User Interface,圖形用戶界面)的數(shù)據(jù)輸入方法正受到重視,并且已經(jīng)在W3C多通道交互活動(Multimodal Interaction Activity)(http//www.w3.org/2002/mmi)或SALT論壇(http//www.saltforum.org/)中展開了討論。
通常,由語音輸入的數(shù)據(jù)使用傳統(tǒng)的語音識別技術(shù)。該語音識別為如下處理將輸入語音與在語音識別語法內(nèi)描述的識別目標(biāo)詞匯進行比較,把最適合的詞匯作為識別結(jié)果輸出。然而,通過該方法,如果語音識別語法的規(guī)模或詞匯數(shù)量增大,則識別性能下降。為了防止出現(xiàn)這個問題,WO 02/031643論述了一種通過檢測當(dāng)前為用戶顯示在GUI上的輸入項并使用與該項相對應(yīng)的語音識別語法進行語音識別的技術(shù)。結(jié)果,可以限制在語音識別中使用的識別目標(biāo)詞匯的數(shù)量,并且可以防止語音識別性能的下降。
在包括語音UI的系統(tǒng)中,常常要求用戶在按下特定鍵(稱為即按即說(Push To Talk)鍵)后開始發(fā)聲。這種方法的優(yōu)點在于可以容易地檢測到語音片斷,并且即使在嘈雜的環(huán)境下也可以減少語音識別性能的下降。存在設(shè)有多個即按即說鍵且每個鍵均具有特定意義的現(xiàn)有技術(shù)。例如,日本特開2003-202890號公報論述了一種根據(jù)操作的即按即說鍵來切換將要使用的語音識別語法集的技術(shù)。結(jié)果,用戶既能夠通過按下該鍵給出語音開始的信息,又能夠選擇將要使用的語音識別語法集。
如上所述,根據(jù)現(xiàn)有技術(shù)WO 02/031643,可以減少在語音識別中使用的識別詞匯。然而,當(dāng)根據(jù)WO 02/031643可以將語音輸入到GUI的顯示區(qū)域內(nèi)的輸入目標(biāo)上時,不考慮輸入到未顯示的輸入目標(biāo)上的語音。例如,習(xí)慣于操作系統(tǒng)的用戶可能想將項輸入到未顯示的輸入目標(biāo)上。然而,在WO 02/031643中很難響應(yīng)這樣的要求。
如上所述,日本特開2003-202890號公報是使用多個即按即說鍵的現(xiàn)有技術(shù)。然而,這些鍵不會根據(jù)顯示的改變而切換語音識別語法。
發(fā)明內(nèi)容
為了克服上述問題,根據(jù)本發(fā)明對多項中的每一項設(shè)置數(shù)據(jù)的信息處理方法包括檢測步驟,用于檢測未顯示在顯示屏幕上的項;選擇步驟,用于選擇與在該檢測步驟中檢測到的該項相對應(yīng)的語音識別語法;識別步驟,用于使用在該選擇步驟中選擇的該語音識別語法來識別接收到的語音信息;以及設(shè)置步驟,用于使用該識別步驟的識別結(jié)果對該項設(shè)置數(shù)據(jù)。
另外,為了克服上述問題,根據(jù)本發(fā)明對多項中的每一項設(shè)置數(shù)據(jù)的信息處理方法包括識別步驟,用于在來自指示開始語音識別的指示單元的指示是使未顯示在顯示屏幕上的項有效的指示的情況下,使用與未顯示的項相對應(yīng)的語音識別語法,來識別接收到的語音信息;以及設(shè)置步驟,用于使用該識別步驟的識別結(jié)果,對該項設(shè)置數(shù)據(jù)。
而且,為了克服上述問題,根據(jù)本發(fā)明的信息處理方法包括檢測步驟,用于檢測未顯示在顯示屏幕上的項;識別步驟,用于在將與由該檢測步驟檢測到的該項的數(shù)據(jù)相對應(yīng)的識別詞匯作為非識別目標(biāo)從語音識別語法中排除之后,識別接收到的語音信息,該語音識別語法與各項一一對應(yīng)并且包括與該項相對應(yīng)的識別詞匯和與將被設(shè)置給該項的數(shù)據(jù)相對應(yīng)的識別詞匯;以及顯示控制步驟,用于進行控制,以在該識別步驟的識別結(jié)果是與未顯示的項相對應(yīng)的識別詞匯的情況下,顯示該項。
另外,為了克服上述問題,根據(jù)本發(fā)明對多項中的每一項設(shè)置數(shù)據(jù)的信息處理設(shè)備包括檢測單元,用于檢測未顯示在顯示屏幕上的項;選擇單元,用于選擇與在該檢測單元中檢測到的該項相對應(yīng)的語音識別語法;識別單元,用于使用由該選擇單元選擇的該語音識別語法,來識別接收到的語音信息;以及設(shè)置單元;用于使用該識別單元的識別結(jié)果,對該項設(shè)置數(shù)據(jù)。
而且,為了克服上述問題,根據(jù)本發(fā)明對多項中的每一項設(shè)置數(shù)據(jù)的信息處理設(shè)備包括檢測單元,用于檢測未顯示在顯示屏幕上的項;識別單元,用于在來自指示開始語音識別的指示單元的指示是使未顯示在顯示屏幕上的項有效的指示的情況下,使用與未顯示的項相對應(yīng)的語音識別語法,來識別接收到的語音信息;以及設(shè)置單元,用于使用該識別單元的識別結(jié)果,對該項設(shè)置數(shù)據(jù)。
另外,為了克服上述問題,根據(jù)本發(fā)明的信息處理設(shè)備包括檢測單元,用于檢測未顯示在顯示屏幕上的項;識別單元,用于在將與由該檢測單元檢測到的該項的數(shù)據(jù)相對應(yīng)的識別詞匯作為非識別目標(biāo)從語音識別語法中排除之后,識別接收到的語音信息,該語音識別語法與各項一一對應(yīng)并且包括與該項和將被設(shè)置給該項的數(shù)據(jù)相對應(yīng)的識別詞匯;以及顯示控制單元,用于進行控制,以在由該識別單元獲得的識別結(jié)果是與未顯示的項相對應(yīng)的識別詞匯的情況下,顯示該項。
通過以下結(jié)合附圖對典型實施例的詳細說明,本發(fā)明的更多特征將是顯而易見的。
包含在說明書中并構(gòu)成說明書的一部分的附圖,示出了本發(fā)明的典型實施例,并與說明書一起用來解釋本發(fā)明的原理。
圖1是示出根據(jù)本發(fā)明第一典型實施例的信息處理設(shè)備的例子功能結(jié)構(gòu)的圖;圖2是根據(jù)第一典型實施例的信息處理設(shè)備的例子處理流程;圖3是示出根據(jù)本發(fā)明第二典型實施例的信息處理設(shè)備的例子功能結(jié)構(gòu)的圖;圖4是根據(jù)第二典型實施例的例子信息處理設(shè)備的處理流程;圖5是根據(jù)本發(fā)明的典型實施例的信息處理設(shè)備的GUI屏幕的例子;圖6是在典型實施例中使用的語音識別語法的例子;圖7是示出典型實施例中的信息處理設(shè)備的GUI組件名稱與語音識別語法名稱之間的關(guān)系的表的例子;圖8是示出GUI屏幕與GUI顯示區(qū)域之間的關(guān)系的圖;以及圖9是根據(jù)第二典型實施例的信息處理設(shè)備的GUI屏幕的例子。
具體實施例方式
下面參考附圖詳細說明本發(fā)明的典型實施例。
第一典型實施例圖1示出了根據(jù)本發(fā)明第一典型實施例的信息處理設(shè)備的功能結(jié)構(gòu)。圖2是該信息處理設(shè)備的處理流程。圖5示出了該設(shè)備的GUI部分的例子。參考這些附圖來說明第一典型實施例。在該典型實施例中,將以其中使用語音UI和GUI進行設(shè)置的復(fù)印機為例。
現(xiàn)在參考圖1,根據(jù)本發(fā)明第一典型實施例的信息處理設(shè)備包括GUI顯示單元101、GUI檢測單元102、未顯示區(qū)域語法選擇單元103、語音識別語法存儲單元104、顯示區(qū)域語法選擇單元105、限制后的未顯示區(qū)域語法生成單元106和語音識別單元107。
本設(shè)備包括顯示器或觸摸板等GUI顯示單元101,通過該GUI顯示單元101將GUI呈現(xiàn)給用戶。圖5中示出了GUI屏幕的例子,其包括語音對話GUI1 501和另一語音對話GUI2 502。各GUI包括繪制區(qū)域503、滾動條504和文本區(qū)域505。由于GUI顯示裝置大小的限制,不能將所有的信息一次顯示在設(shè)備中。在這種情況下,用戶可以通過向上和向下滑動如圖5的附圖標(biāo)記501和502中所示的滾動條504來改變顯示區(qū)域。
當(dāng)發(fā)生如開始語音輸入模式的特定事件時,開始本典型實施例的處理,并且處理進入圖2中的流程。假定此時GUI屏幕處于附圖標(biāo)記501的狀態(tài)來說明該流程。
首先,GUI檢測單元102獲得當(dāng)前繪制(render)的GUI組件(S201)。之后,將分開使用詞“繪制”和“顯示”?!袄L制”意味著在輸出裝置的存儲器(如VRAM)上布置GUI組件的視圖數(shù)據(jù)。“顯示”意味著以用戶視覺上可見的形式輸出到顯示器上。
由GUI檢測單元102獲得的GUI組件被稱為GUI組件A。GUI組件是按鈕、文本框、列表框等構(gòu)成GUI的要素,并且它表示將被設(shè)置的項。接著,判斷所獲得的GUI組件當(dāng)前是否被顯示,并且檢測顯示的GUI組件和未顯示的GUI組件(S202)。通過參考GUI組件的位置、GUI屏幕的大小或滾動條的狀態(tài),可以判斷組件是否被顯示。例如,圖8示出了當(dāng)GUI屏幕處于附圖標(biāo)記501的狀態(tài)時GUI屏幕與實際顯示區(qū)域之間的關(guān)系,其示出了GUI屏幕801、GUI組件802和顯示區(qū)域803。當(dāng)“顯示”的GUI組件被定義為完全可見的GUI組件時,此時所顯示的GUI組件僅是與“紙張大小(Paper Size)”相對應(yīng)的文本區(qū)域2和與“復(fù)印比例(CopyRatio)”相對應(yīng)的文本區(qū)域3。
在判斷出GUI組件A被顯示之后,顯示區(qū)域語法選擇單元105訪問語音識別語法存儲單元104,且選擇并獲得與GUI組件A相對應(yīng)的語音識別語法。然后將獲得的語法稱為語法A(步驟S203)。可以使用示出GUI組件名稱與語音識別語法名稱之間關(guān)系的表來選擇與GUI組件相對應(yīng)的語音識別語法。圖7是該表的例子。例如,在GUI組件A是文本區(qū)域2的情況下,語音識別語法名稱是PaperSize.xml。
另一方面,在判斷出GUI組件A沒有被顯示的情況下,未顯示區(qū)域語法選擇單元103訪問語音識別語法存儲單元104,且選擇并獲得與GUI組件A相對應(yīng)的語音識別語法。然后將獲得的語法稱為語法A’(S204)。在這種情況下也可以使用如圖7中所示的示出GUI組件名稱與語音識別語法名稱之間關(guān)系的表。將所選擇的語音識別語法A’發(fā)送到限制后的未顯示區(qū)域語法生成單元106。分析語音識別語法A’的內(nèi)容,并通過限制語音識別語法A’中的詞匯,生成語音識別語法A(S205)。換句話說,語法A的詞匯比語法A’的詞匯要少。可以預(yù)先生成詞匯被限制的該語音識別語法。
使用圖6中所示的語法來解釋語法中的詞匯的限制。該語音識別語法接受“A4”和“A3”等復(fù)印紙張的大小,并利用語音識別語法規(guī)范版本1.0(http//www.w3.org/TR/speech-grammar/)的語言規(guī)范對其進行描述。該語音識別語法601的根規(guī)則名稱為“main”規(guī)則(602)。因此,當(dāng)通過一般方法分析語音識別語法時,首先展開(deploy)具有名稱“main”的規(guī)則(603)。在該主規(guī)則中,參考兩個規(guī)則“slot_name”和“slot_value”(604)?!皊lot_name”是與將被設(shè)置的項的名稱(設(shè)置類型)相對應(yīng)的詞匯集,“slot_value”是與項的值(將被輸入到將被設(shè)置的項中的實際數(shù)據(jù))相對應(yīng)的詞匯集。在605中描述了這兩個規(guī)則的實體。
即,通過利用語音識別語法原樣進行分析,展開“slot_name”和“slot_value”規(guī)則,并且可以識別“Paper Size”等項的名稱以及“A4”和“A3”等項的值。然而,通過將待展開的規(guī)則限制為“slot_name”,僅接受“Paper Size”和“Size”等項的名稱。因此,當(dāng)實際顯示可設(shè)置的GUI組件時,詞匯被限制在可用詞匯的子集內(nèi)。
在附圖標(biāo)記501的例子中,由于考慮到GUI組件的文本區(qū)域1和文本區(qū)域4沒有被顯示,因此從圖7中選擇“PaperNumber.xml”和“Density.xml”作為未顯示區(qū)域語法(或語音識別語法A’)。另外,將對這兩個語法集展開的規(guī)則限制為“slot_name”,使得僅可以接受項的名稱。限制后的語法被稱為語音識別語法A。
將與GUI組件A相對應(yīng)的語音識別語法A發(fā)送到語音識別單元107,并將其登記在語音識別引擎上(S206)。確認是否已經(jīng)處理了所有的GUI組件(S207),如果是,則使用所登記的語法進行語音識別(S208)。否則,如果非所有的GUI組件都被處理,則處理返回到步驟S201(S208的“否”)。之后,使用識別結(jié)果對GUI組件設(shè)置數(shù)據(jù)(S209)。然后處理結(jié)束。
在附圖標(biāo)記501的例子中,將“PaperSize.xml”和“CopyRatio.xml”照原樣登記到語音識別引擎上,而限制“PaperNumber.xml”和“Density.xml”使得僅可以對項的名稱發(fā)聲,并對其進行登記。因此,用戶可以通過語音輸入“紙張大小”和“復(fù)印比例”的項的值(如“A4”和“400%”)、項的名稱(如“紙張大小”和“復(fù)印比例”)、以及“紙張數(shù)量(Paper number)”和“濃度(Density)”的項的名稱(如“紙張數(shù)量”和“濃度”)。即使說出“紙張數(shù)量”和“濃度”的項的值也不會識別它。
以上說明了根據(jù)第一典型實施例的設(shè)備的操作。通過使用該設(shè)備,可以實現(xiàn)下面的應(yīng)用。在作為語音識別的結(jié)果輸出項的值的情況下,該結(jié)果被輸入到相對應(yīng)的文本區(qū)域。因此,這提供了用于設(shè)置數(shù)據(jù)的設(shè)置單元。例如,在附圖標(biāo)記501的狀態(tài)下輸出識別結(jié)果“A4”的情況下,字符串“A4”被輸入到紙張大小的文本區(qū)域。在作為識別結(jié)果輸出“濃度”等項的名稱的情況下,進行控制以顯示與項的名稱相對應(yīng)的區(qū)域。確切地說,屏幕被滾動到對應(yīng)于項的名稱的區(qū)域。例如,如附圖標(biāo)記502所示滾動屏幕。通常,用戶不說出未顯示在GUI上的項的值。由于這個原因,假定即使從識別詞匯中除去未顯示項的項的值,可用性也不會下降。相反,由于識別詞匯的減少可以提高識別性能。
第二典型實施例可以進一步將多個語音識別觸發(fā)器與第一典型實施例進行組合。利用語音輸入的交互式設(shè)備常常要求用戶在開始發(fā)聲時按下特定鍵。這樣就提高了作為語音識別預(yù)處理部分的語音片斷檢測處理的精度。以下該鍵被稱為即按即說鍵。通過提供多個這種即按即說鍵并使用戶相應(yīng)地按下它們,可以提高設(shè)備的可用性。將參考圖3和圖4說明本實施例。用相同的附圖標(biāo)記表示圖3中與圖1中相同的部分。
現(xiàn)在參考圖3,根據(jù)本發(fā)明第二典型實施例的信息處理設(shè)備包括GUI顯示單元101、GUI檢測單元102、未顯示區(qū)域語法選擇單元103、語音識別語法存儲單元104、顯示區(qū)域語法選擇單元105、語音識別單元107和語音識別觸發(fā)器加載單元。
當(dāng)發(fā)生如開始語音輸入模式的特定事件時,開始本發(fā)明的處理,并且處理進入圖4中的流程。假定此時GUI屏幕處于附圖標(biāo)記501的狀態(tài)來說明該流程。由于步驟S401至S403中的處理與步驟S201至S203中的處理相同,因此省略其說明。
在未顯示區(qū)域語法選擇單元選擇了未顯示區(qū)域語法之后(S404),語法變?yōu)榕cGUI組件A相對應(yīng)的語法A。通過語音識別單元107將語法A登記到語音識別引擎上(S405)。接著判斷是否處理了所有的GUI組件(S406)。如果確認已經(jīng)處理了所有的GUI組件(S406的“是”),則加載語音識別觸發(fā)器(S407)。否則,如果非所有的GUI組件都被處理(S406的“否”),則處理返回到步驟S401。接著,使用與每一類型的觸發(fā)器相對應(yīng)的語法進行語音識別(S408),并使用識別結(jié)果對GUI組件設(shè)置數(shù)據(jù)(S409)。然后處理結(jié)束。
從語音識別觸發(fā)器加載單元301加載語音識別觸發(fā)器(S407)。語音識別觸發(fā)器是用于給出開始語音識別指示的指示單元,之前將其說明為即按即說鍵。假設(shè)提供兩個表示為“顯示”和“未顯示”的即按即說鍵作為啟動語音識別觸發(fā)器的裝置。圖9示出了顯示GUI 902的顯示器901。圖9還示出了這些鍵的例子,附圖標(biāo)記903和904分別表示“顯示”鍵和“未顯示”鍵。在用戶按下“顯示”鍵之后發(fā)聲的情況下,僅使用登記在語音識別引擎中的語音識別語法中的顯示區(qū)域語法進行語音識別(S408)。在用戶按下“未顯示”鍵之后發(fā)聲的情況下,僅使用未顯示區(qū)域語法進行語音識別。
如上所述,用戶可以通過按鍵輸入指定語音涉及顯示區(qū)域還是未顯示區(qū)域。分開按鍵有助于減少語音識別處理中的識別詞匯,并提高識別率。另外,通過將按鍵分為“顯示”和“未顯示”,用戶可以直觀地做出判斷。
第三典型實施例在第二典型實施例中,使用兩個表示為“顯示”和“未顯示”的即按即說鍵。這僅僅是一個例子,可以使用其它鍵或事件作為用于開始語音識別的觸發(fā)器。例如,可以不用按下任何鍵而把語音的檢測作為開始語音識別的觸發(fā)器。通過這樣做,在按下按鍵的情況下,使用未顯示區(qū)域語法進行語音識別,在不按下按鍵而檢測到語音的情況下,使用顯示區(qū)域語法進行語音識別。
如上所述,對當(dāng)前顯示的區(qū)域用戶能夠發(fā)聲而不用按下即按即說鍵。相反,也可以在按下按鍵的情況下使用顯示區(qū)域語法進行語音識別,在沒有按下按鍵而檢測到語音的情況下使用未顯示區(qū)域語法進行語音識別。
第四典型實施例在第一典型實施例中,在語音識別中使用與顯示的GUI組件相對應(yīng)的語音識別語法(顯示區(qū)域語法)和與未顯示的GUI組件相對應(yīng)的且被施加限制的語音識別語法(限制后的未顯示區(qū)域語法)??蓪⑵渑c第二典型實施例中使用的用于開始語音識別的多個觸發(fā)器進行組合。
例如,在使用兩個表示為“顯示”和“未顯示”的即按即說鍵,且用戶在按下“顯示”鍵之后發(fā)聲的情況下,僅使用登記在語音識別引擎中的語音識別語法中的顯示區(qū)域語法進行語音識別。在用戶按下“未顯示”鍵之后發(fā)聲的情況下,僅使用限制后的未顯示區(qū)域語法進行語音識別。
如上所述,由于可以限制與未顯示在屏幕上的GUI組件相對應(yīng)的語音識別詞匯,因此預(yù)期能夠提高語音識別性能。另外,由于也可以通過選擇即按即說鍵限制語音識別語法,因此預(yù)期能夠進一步減少語音識別詞匯。
第五典型實施例也可以通過向系統(tǒng)或設(shè)備提供存儲有實現(xiàn)上述典型實施例的功能的軟件程序代碼的存儲介質(zhì),使得該系統(tǒng)或設(shè)備的計算機(或CPU或MPU)可以讀取并執(zhí)行存儲在該存儲介質(zhì)中的程序代碼,從而實現(xiàn)本發(fā)明的目的。
在這種情況下,從存儲介質(zhì)中讀出的程序代碼本身實現(xiàn)上述典型實施例的功能,存儲程序代碼的存儲介質(zhì)可以構(gòu)成本發(fā)明。
用于提供程序代碼的存儲介質(zhì)的例子是軟盤、硬盤、光盤、磁-光盤、CD-ROM、CD-R、磁帶、非易失性存儲卡和ROM。
而且,除了通過執(zhí)行由計算機讀出的程序代碼實現(xiàn)上述典型實施例的功能以外,本發(fā)明還包括如下情況運行在計算機上的操作系統(tǒng)(OS)根據(jù)該程序代碼的指示執(zhí)行部分或全部的實際處理的,且該處理實現(xiàn)上述典型實施例的功能。
而且,本發(fā)明還包括如下情況在從存儲介質(zhì)中讀出程序代碼并將其加載到插入計算機的功能擴展單元板或連接到計算機的功能擴展單元中的存儲器之后,該功能擴展板或功能擴展單元中的CPU根據(jù)該程序代碼的指示,執(zhí)行部分或全部的處理,且該處理實現(xiàn)上述典型實施例的功能。
盡管參考典型實施例說明了本發(fā)明,但可以理解本發(fā)明不局限于所公開的典型實施例。以下權(quán)利要求的范圍符合最廣義的解釋,以包含所有這些修改、等同結(jié)構(gòu)和功能。
本申請要求在2005年6月30日申請的日本專利申請2005-191538號的優(yōu)先權(quán),這里通過引用將其全部包括在此。
權(quán)利要求
1.一種信息處理方法,其對多個可設(shè)置的圖形用戶界面項中的每一個設(shè)置數(shù)據(jù),該信息處理方法包括檢測步驟,用于檢測未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項;選擇步驟,用于選擇與在該檢測步驟中檢測到的該項相對應(yīng)的語音識別語法;識別步驟,用于使用在該選擇步驟中選擇的該語音識別語法,來識別接收到的語音信息;以及設(shè)置步驟,用于使用該識別步驟的識別結(jié)果,對該檢測到的項設(shè)置數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的信息處理方法,其特征在于,在該選擇步驟中選擇的該語音識別語法是限于在顯示該項的情況下使用的語音識別語法的子集的語音識別語法。
3.根據(jù)權(quán)利要求1所述的信息處理方法,其特征在于,該設(shè)置步驟通過將該識別步驟的識別結(jié)果輸入到與該檢測到的項相對應(yīng)的輸入字段,對該檢測到的項設(shè)置數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的信息處理方法,其特征在于,該設(shè)置步驟使用該識別步驟的識別結(jié)果,通過從與該檢測到的項相對應(yīng)的待選擇的對象中進行選擇,對該檢測到的項設(shè)置數(shù)據(jù)。
5.根據(jù)權(quán)利要求2所述的信息處理方法,其特征在于,該選擇步驟選擇與顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項相對應(yīng)的語音識別語法,并且該識別步驟使用與未顯示的可設(shè)置的圖形用戶界面項相對應(yīng)的限制后的語音識別語法和與顯示的可設(shè)置的圖形用戶界面項相對應(yīng)的語音識別語法,來識別接收到的語音信息。
6.根據(jù)權(quán)利要求2所述的信息處理方法,其特征在于,該語音識別語法包括與該檢測到的可設(shè)置的圖形用戶界面項相對應(yīng)的識別詞匯和與將被設(shè)置給該檢測到的項的數(shù)據(jù)相對應(yīng)的識別詞匯,該限制后的語音識別語法是已經(jīng)從識別目標(biāo)中排除了與將被設(shè)置給該可設(shè)置的圖形用戶界面項的數(shù)據(jù)相對應(yīng)的識別語法的語音識別語法。
7.根據(jù)權(quán)利要求2所述的信息處理方法,其特征在于,該限制后的語音識別語法是已經(jīng)刪除了特定詞匯集的語音識別語法。
8.一種信息處理方法,其對多個可設(shè)置的圖形用戶界面項中的每一個設(shè)置數(shù)據(jù),該信息處理方法包括識別步驟,用于在來自指示開始語音識別的指示單元的指示使得未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項有效的情況下,使用與未顯示的可設(shè)置的圖形用戶界面項相對應(yīng)的語音識別語法,來識別接收到的語音信息;以及設(shè)置步驟,用于使用該識別步驟的識別結(jié)果,設(shè)置該可設(shè)置的圖形用戶界面項。
9.根據(jù)權(quán)利要求8所述的信息處理方法,其特征在于,與未顯示的該可設(shè)置的圖形用戶界面項相對應(yīng)的該語音識別語法是限于在顯示該可設(shè)置的圖形用戶界面項的情況下使用的語音識別語法的子集的語音識別語法。
10.根據(jù)權(quán)利要求9所述的信息處理方法,其特征在于,在來自指示開始語音識別的該指示單元的指示使顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項有效的情況下,該識別步驟使用與顯示的可設(shè)置的圖形用戶界面項相對應(yīng)的語音識別語法,來識別接收到的語音信息。
11.根據(jù)權(quán)利要求10所述的信息處理方法,其特征在于,指示開始語音識別的該指示單元是按鈕,并且至少有兩個按鈕,其中一個按鈕使顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項有效,另一個按鈕使未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項有效。
12.根據(jù)權(quán)利要求10所述的信息處理方法,其特征在于,指示開始語音識別的該指示單元是在檢測到語音時指示開始語音識別的指示單元和在檢測到按鍵的按下時指示開始語音識別的指示單元中的至少一個。
13.一種信息處理方法,其包括;檢測步驟,用于檢測未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項;識別步驟,用于在將與由該檢測步驟檢測到的該可設(shè)置的圖形用戶界面項的數(shù)據(jù)相對應(yīng)的識別詞匯作為非識別目標(biāo)從語音識別語法中排除之后,識別接收到的語音信息,該語音識別語法與各可設(shè)置的圖形用戶界面項一一對應(yīng)并且包括與該項和將被設(shè)置給該項的數(shù)據(jù)相對應(yīng)的識別詞匯;以及顯示控制步驟,用于進行控制,以在該識別步驟的識別結(jié)果是與未顯示的項相對應(yīng)的識別詞匯的情況下,顯示該項。
14.一種信息處理設(shè)備,其對多個可設(shè)置的圖形用戶界面項中的每一個設(shè)置數(shù)據(jù),該信息處理設(shè)備包括檢測單元,用于檢測未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項;選擇單元,用于選擇與由該檢測單元檢測到的該項相對應(yīng)的語音識別語法;識別單元,用于使用由該選擇單元選擇的該語音識別語法,來識別接收到的語音信息;以及設(shè)置單元,用于使用該識別單元的識別結(jié)果,對該檢測到的項設(shè)置數(shù)據(jù)。
15.一種信息處理設(shè)備,其對多個可設(shè)置的圖形用戶界面項中的每一個設(shè)置數(shù)據(jù),該信息處理設(shè)備包括檢測單元,用于檢測未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項;識別單元,用于在來自指示開始語音識別的指示單元的指示使未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項有效的情況下,使用與未顯示的可設(shè)置的圖形用戶界面項相對應(yīng)的語音識別語法,來識別接收到的語音信息;以及設(shè)置單元,用于使用由該識別單元獲得的識別結(jié)果,來設(shè)置該檢測到的項。
16.一種信息處理設(shè)備,其包括;檢測單元,用于檢測未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項;識別單元,用于在將與由該檢測單元檢測到的該項的數(shù)據(jù)相對應(yīng)的該識別詞匯作為非識別目標(biāo)從語音識別語法中排除之后,識別接收到的語音信息,該語音識別語法與各可設(shè)置的圖形用戶界面項一一對應(yīng)并且包括與該可設(shè)置的圖形用戶界面項和將被設(shè)置給該項的數(shù)據(jù)相對應(yīng)的識別詞匯;以及顯示控制單元,用于進行控制,以在由該識別單元獲得的識別結(jié)果是與未顯示的可設(shè)置的圖形用戶界面項相對應(yīng)的識別詞匯的情況下,顯示未顯示的該可設(shè)置的圖形用戶界面項。
全文摘要
一種語音識別方法和語音識別設(shè)備。在與包括多個可設(shè)置的圖形用戶界面項的圖形用戶界面一起使用語音識別的交互式處理中,通過減少識別目標(biāo)詞匯來提高識別率。檢測未顯示在顯示屏幕上的可設(shè)置的圖形用戶界面項,使用與該檢測到的項相對應(yīng)的語音識別語法來識別接收到的語音信息,并且使用該識別結(jié)果對該項設(shè)置數(shù)據(jù)。
文檔編號G10L15/00GK1892819SQ200610090778
公開日2007年1月10日 申請日期2006年6月30日 優(yōu)先權(quán)日2005年6月30日
發(fā)明者中川賢一郎, 廣田誠 申請人:佳能株式會社