語音信息處理設備和語音信息處理方法

文檔序號：2829759閱讀：218來源：國知局

專利名稱：語音信息處理設備和語音信息處理方法
技術領域：
本發(fā)明涉及一種用于指出可以通過語音識別來識別出的詞語的信息處理設備和信息處理方法。
背景技術：
在實現(xiàn)語音識別功能的已知設備和應用中，經(jīng)常發(fā)生使用語音識別功能時用戶不確定說什么的情況。這對用戶操作這種語音識別功能帶來了困難。為了解決這個問題，在日本特公平04-075540號公報、日本特開2004-295578號公報以及日本特開2005-242183號公報中說明了用于向用戶指出可識別詞語的技術。
在日本特公平04-075540號公報中說明的語音識別設備中，在每個GUI窗口的底部顯示獨立的可識別詞語列表，從而將每個窗口的可識別詞語通知用戶。在日本特開2004-295578號公報中說明的翻譯裝置中，使用下劃線等突出在屏幕上顯示的可識別詞語。在日本特開2005-242183號公報中說明的語音識別裝置中，當在屏幕上顯示的詞語中存在可識別詞語時，控制屏幕顯示使得以與其它詞語不同的樣式顯示可識別詞語。
然而，在上述文獻中，沒有說明對顯示/不顯示可識別詞語執(zhí)行切換的定時以及顯示可識別詞語的定時。存在實現(xiàn)了語音識別技術、但是能夠通過語音識別技術之外的手段執(zhí)行所希望的處理的多種設備和應用。當在這種設備或者應用中使用上述文獻中說明的技術時，在語音識別功能有效期間，一直顯示可識別詞語。這種顯示樣式可能是多余的，因此是使用語音識別技術之外的手段操作設備或者應用的用戶所不希望的。

發(fā)明內容
考慮到以上情況提出了本發(fā)明。因此，需要響應于用戶進行的話音輸入操作來顯示語音識別詞語的信息處理方法。因此，根據(jù)該方法，即使使用語音識別功能的操作有效時，當沒有進行話音輸入時，不對用戶指出語音識別詞語。
根據(jù)本發(fā)明的第一方面，提供一種語音信息處理設備，包括第一檢測部，用于檢測語音處理開始指示部的第一操作；顯示控制部，用于響應于語音處理開始指示部的第一操作，控制語音識別信息的顯示；第二檢測部，用于檢測語音處理開始指示部的第二操作；獲取部，用于響應于語音處理開始指示部的第二操作，獲取語音信息；以及語音識別部，用于對由獲取部獲得的語音信息執(zhí)行語音識別處理。
根據(jù)本發(fā)明的第二方面，提供一種語音信息處理方法，包括如下步驟檢測語音處理開始指示部的第一操作；控制顯示使得響應于檢測到第一操作，顯示語音識別信息；檢測語音處理開始指示部的第二操作；獲取步驟，響應于第二操作，獲取語音信息；以及對在獲取步驟中獲得的語音信息執(zhí)行語音識別處理。
從以下參考附圖對典型實施例的說明，本發(fā)明的其它特征將變得明顯。

圖1是示出根據(jù)本發(fā)明典型實施例的信息處理設備的框圖。
圖2示出根據(jù)本發(fā)明實施例的識別詞典的例子。
圖3示出根據(jù)本發(fā)明典型實施例的信息處理設備的顯示。
圖4是示出由根據(jù)本發(fā)明典型實施例的信息處理設備所執(zhí)行的處理過程的流程圖。
圖5示出在典型實施例中指出語音識別詞語的情況。
圖6示出根據(jù)典型實施例識別出詞語“音量(Volume)”時所進行的處理。
圖7示出根據(jù)典型實施例記錄有識別結果和相應處理的表。
圖8示出在典型實施例中控制顯示以辨別識別對象的情況。
圖9示出在典型實施例中顯示用于識別由圖標或者符號表示的識別對象的詞語的情況。
圖10示出在典型實施例中顯示用于識別由圖標或者符號表示的識別對象的詞語的情況。
圖11示出在典型實施例中指出識別對象的發(fā)音說明的情況。
圖12示出在典型實施例中指出在窗口中沒有顯示的識別詞語的情況。
圖13是示出由根據(jù)本發(fā)明典型實施例的信息處理設備執(zhí)行的處理過程的流程圖。
圖14是示出由根據(jù)本發(fā)明典型實施例的信息處理設備執(zhí)行的處理過程的流程圖。
圖15是示出根據(jù)本發(fā)明典型實施例的信息處理設備的結構的框圖。
圖16示出在根據(jù)本發(fā)明典型實施例的信息處理設備中使用的節(jié)目信息數(shù)據(jù)的例子。
圖17示出在根據(jù)本發(fā)明典型實施例的信息處理設備中使用的相關項數(shù)據(jù)的例子。
圖18示出在根據(jù)本發(fā)明典型實施例的信息處理設備中使用的識別詞典的例子。
圖19示出在根據(jù)本發(fā)明典型實施例的信息處理設備中使用的識別詞典的例子。
圖20示出在典型實施例中控制顯示以辨別識別對象的情況。
圖21示出在典型實施例中控制顯示以辨別示出識別對象的區(qū)域的情況。
圖22示出在典型實施例中指出在窗口中沒有顯示的識別對象的情況。
圖23示出在典型實施例中改變識別對象的顯示內容的各種情況。
具體實施例方式
下面，參考

本發(fā)明的優(yōu)選典型實施例。
第一實施例使用回放用戶選擇的音樂數(shù)據(jù)的應用的例子說明本典型實施例。圖1是示意性地示出根據(jù)本發(fā)明典型實施例的信息處理設備的結構的框圖，在該信息處理設備中設置有這種回放音樂數(shù)據(jù)的應用。該信息處理設備包括操作單元101、音樂數(shù)據(jù)存儲單元102、話音輸出單元103、識別詞典存儲單元104、語音識別單元105、話音輸入單元106、顯示控制單元107、顯示單元108和控制器109。
操作單元101包括允許用戶操作信息處理設備的輸入裝置，例如按鈕和鼠標?？刂破?09檢測用戶使用操作單元101執(zhí)行的操作的內容。然后，控制器109根據(jù)檢測到的操作執(zhí)行預定處理。在本典型實施例中，當用戶說話以使用語音識別功能時，用戶使用包含在操作單元101中的輸入裝置執(zhí)行預定操作。該操作用于指示開始話音處理。用于該操作的輸入裝置可以是專用輸入裝置或者例如鍵盤和鼠標的通用輸入裝置，其中，將指示開始話音處理的功能給予特定按鈕等。下面，說明將按鈕用作指示開始話音處理的輸入裝置的情況，這里，將該按鈕稱為語音處理開始指示按鈕。
音樂數(shù)據(jù)存儲單元102存儲音樂數(shù)據(jù)。話音輸出單元103設置有例如揚聲器的音頻輸出裝置，當用戶執(zhí)行回放音樂的操作時，話音輸出單元103輸出音樂數(shù)據(jù)。
識別詞典存儲單元104存儲識別詞典。在該識別詞典中記錄有可通過語音識別單元105識別出的詞語和相應的發(fā)音說明。在本文中，發(fā)音說明通過例如由IPA(國際音標，International PhoneticAlphabet)所定義的音標的預定義音標來指出詞語的發(fā)音。下文中，將可以由語音識別單元105識別的這種詞語稱為語音識別詞語。在圖2中示出這種識別詞典的例子。設置有麥克風的話音輸入單元106拾取用戶的語音。將拾取的語音轉換為數(shù)字數(shù)據(jù)以由語音識別單元105進行處理。語音識別單元105對與由話音輸入單元106所拾取的用戶語音相對應的數(shù)據(jù)執(zhí)行語音識別處理，從識別詞典中記錄的詞語中選擇與拾取的用戶語音最接近的詞語。然后，語音識別單元105將所選擇的詞語作為識別結果輸出。
顯示單元108具有例如液晶顯示器的顯示裝置，用于向用戶顯示例如來自信息處理設備的信息的數(shù)據(jù)；以及GUI(圖像用戶界面，graphical user interface)。顯示控制單元107控制要在顯示單元108上顯示的顯示內容。顯示控制單元107的一個特征在于，當控制器109檢測到對語音處理開始指示按鈕執(zhí)行的預定操作時，顯示控制單元107控制顯示內容使得顯示語音識別詞語。具體地，當用戶說話時，顯示控制單元107使得顯示語音識別詞語以指出用戶可以說的詞語。
控制器109檢測通過操作單元101執(zhí)行的操作，根據(jù)操作的內容執(zhí)行處理。另外，控制器109與信息處理設備中的其它模塊合作以控制與音樂數(shù)據(jù)再現(xiàn)有關的處理，例如音樂數(shù)據(jù)的選擇、讀取以及回放。
下面，說明由具有上述結構的信息處理設備執(zhí)行的操作。
當起動根據(jù)本典型實施例的回放音樂數(shù)據(jù)的應用時，顯示控制單元107產(chǎn)生顯示內容，在顯示單元108上顯示該顯示內容。在圖3中示出這種顯示內容的例子。如圖所示，主窗口301中顯示文件(file)菜單302、音量菜單303、用于開始回放音樂數(shù)據(jù)的按鈕304以及用于停止回放音樂數(shù)據(jù)的按鈕305。
菜單302和303是在典型GUI中使用的分層式菜單。菜單中的每一個具有選擇該菜單時所顯示的相關聯(lián)的子菜單。在本典型實施例中，文件菜單302的子菜單包含“打開(Open)”和“關閉(Close)”，音量菜單303的子菜單包含“增大音量(Volume up)”和“減小音量(Volume down)”，圖中沒有示出該子菜單。
用戶使用鼠標等操作這些GUI。省略該用戶操作的說明。下面，使用用戶在按下語音處理開始指示按鈕后說話的情況說明用戶使用語音識別對該應用執(zhí)行的操作。
參考圖4，該流程圖示出當使用語音識別功能操作根據(jù)本典型實施例的信息處理設備時執(zhí)行的處理過程。將用于實現(xiàn)該處理過程的程序存儲在存儲裝置(未示出)中，根據(jù)控制器109進行的控制執(zhí)行該程序。
當用戶希望使用語音識別功能時，用戶首先按下語音處理開始指示按鈕。當控制器109檢測到按下語音處理開始指示按鈕時(步驟S101中的“是”)，在步驟S102中，顯示控制單元107查閱存儲在識別詞典存儲單元104中的識別詞典，控制顯示內容以顯示可以說出的命令(即語音識別詞語)。在圖5中示出要在顯示單元108上顯示的顯示內容的例子。如圖所示，通過顯示控制單元107的控制向主窗口301增加區(qū)域306，例如顯示語音識別詞語307。在該例子中，在主窗口301中顯示語音識別詞語。然而，還可以產(chǎn)生子窗口用于顯示這些語音識別詞語。
返回參考圖4中的流程圖，在步驟S102的處理之后，在步驟S103中在話音輸入單元106中開始話音輸入。應當指出，可以同時開始步驟S102和S103的兩個處理。
語音識別單元105處理由話音輸入單元106拾取的語音數(shù)據(jù)(步驟S104和步驟S105中的“否”)，直到檢測到用戶語音結束。
當語音識別單元105檢測到語音結束時(步驟S105中的“是”)，停止話音輸入和語音識別處理。然后，在步驟S106中，顯示控制單元107控制顯示內容使得停止顯示語音識別詞語。具體地，這時，如圖3所示，在顯示單元108上顯示的顯示內容與在步驟S102中顯示語音識別詞語之前所顯示的顯示內容相同。
隨后，在步驟S107中，如果由于例如在按下語音處理開始指示按鈕之后語音中斷或者沒有要拾取的話音而在語音識別單元105中沒有獲得語音識別處理的結果(步驟S107中的“否”)，則停止該處理過程。
如果獲得了語音識別處理的結果(步驟S107中的“是”)，則將識別結果輸出到控制器109。然后，在步驟S108中，控制器109根據(jù)識別結果執(zhí)行處理。例如，識別結果是“音量”，控制器109執(zhí)行與當用鼠標等選擇音量菜單303時所執(zhí)行的處理相同的處理。圖6示出該處理的結果。該圖示出選擇“音量”(308)因此顯示“音量”的子菜單309的狀況?？梢栽诳刂菩畔⑻幚碓O備的程序中預先說明識別結果和相應處理之間的關系。還可以在控制器109中設置記錄該關系的對應表。圖7中示出這種對應表的例子。在識別出“音量”的上述例子中，控制器109執(zhí)行由對應于“音量”的“VolumeMenuOpen”(702)所指出的處理。
在以上說明中，語音識別單元105檢測到語音結束。然而，也可以配置為用戶明確地指出語音結束。例如，用戶可以在按下語音處理開始指示按鈕的同時說話。在這種情況下，當控制器109檢測到語音處理開始指示按鈕從按下狀態(tài)回到未按下狀態(tài)(釋放按鈕)時，控制器109判斷為語音結束(步驟S105中的“是”)。使用該配置，只要用戶將語音處理開始指示按鈕保持在按下狀態(tài)，即可保持顯示通過用戶按下該按鈕而顯示的語音識別詞語。當用戶釋放語音處理開始指示按鈕時，停止顯示語音識別詞語。
在步驟S102的處理中可以使用顯示識別詞語的各種方案。在圖8～12中示出這些顯示方案的例子。
圖8示出指出用戶可以說的信息使得用戶可以在屏幕上顯示的信息中區(qū)別出可以說的詞語的情況。如圖所示，用粗線圍繞文件菜單310、音量菜單311和回放按鈕312，這表明這些菜單和按鈕是可以通過語音識別處理來識別的對象(識別對象)。另一方面，表明不能通過語音識別處理來識別停止(stop)按鈕305，即識別不出對應于按鈕305的語音。因此，控制顯示使得可以在顯示的信息中區(qū)別出用作語音識別對象的信息。使用該配置，可以有效地通知用戶要說的詞語。
圖9和圖10中的每一個示出用于識別以如圖8所示的符號或者圖標的形式顯示的相應識別對象的詞語的情況的例子。圖9示出將語音識別詞語“回放(Play)”(如區(qū)域313所示)增加到回放按鈕312的情況。圖10示出用語音識別詞語“回放”(如按鈕314所示)代替回放按鈕312的情況。因為可以與符號或者圖標相關聯(lián)的詞語取決于用戶，并且符號可以有多個名稱，所以用戶不確定說什么使得符號或者圖標被識別。例如，用戶可以將回放按鈕312與詞語“回放”或者詞語“開始”相關聯(lián)。因此，使用在圖9和圖10中示出的顯示方案，可以消除詞語的不確定性，這使得用戶在使用語音識別功能時可以確定地說出。
圖11示出對相應的語音識別對象設置發(fā)音說明的情況的例子。如圖所示，對區(qū)域315中示出的相應的語音識別詞語設置發(fā)音說明。另外，對如按鈕316所示的相應的符號或者圖標設置發(fā)音說明。該配置可以防止用戶在讀取顯示的詞語或者符號時出錯。
圖12示出向用戶指出沒有在窗口中顯示的語音識別詞語的情況的例子。在該例子中，將用于識別文件菜單和音量菜單的子菜單的詞語列表增加到主窗口301。使用該顯示方案，可以通知用戶存在在主窗口中顯示的語音識別詞語之外的語音識別詞語。
根據(jù)上述根據(jù)本典型實施例的配置，響應于用戶執(zhí)行的開始語音的操作指出語音識別詞語。因此，當用戶使用語音識別功能時，可以通知他或者她語音識別詞語，而不用他或者她特別注意語音識別詞語。另外，因為不需要語音識別功能時用戶不執(zhí)行開始語音的操作，所以在屏幕上不顯示或者指出語音識別詞語。即，可以方便地避免不必要信息的多余顯示。因此，對于使用語音識別功能或者不使用語音識別功能的用戶，具有上述特征的信息處理設備可以實現(xiàn)具有高可操作性的音頻接口。
第二實施例在上述第一實施例中，與檢測到按下語音處理開始指示按鈕同時地開始顯示語音識別詞語和話音輸入。然而，這可能導致在用戶正在看顯示的語音識別詞語以確定說什么的同時將環(huán)境噪聲誤識別為他或者她的語音的情況。因此，在本典型實施例中，可以通過操作用于開始語音的按鈕來在不同的時間執(zhí)行顯示語音識別詞語的處理和開始話音輸入的處理。這可以通過使用具有與第一實施例中所說明的信息處理設備相同的配置的信息處理設備來實現(xiàn)。具體地，在本典型實施例中，檢測語音處理開始指示按鈕的按下和釋放。響應于檢測到按下語音處理開始指示按鈕，顯示語音識別詞語。然后，響應于語音處理開始指示按鈕的釋放，開始話音輸入。
下面，參考圖13所示的流程圖說明根據(jù)本典型實施例的處理過程。該流程圖與使用圖4所說明的根據(jù)第一實施例的處理過程的不同之處在于在步驟S102和步驟S103的處理之間增加了步驟S109的處理。在允許的情況下省略關于步驟S109之外的處理的說明。
當控制器109檢測到按下語音處理開始指示按鈕(步驟S101中的“是”)時，在步驟S102中，顯示控制單元107控制顯示內容以顯示語音識別詞語。該過程與在第一實施例中執(zhí)行的過程相同。
然后，在步驟S109中，處理不繼續(xù)進行(步驟S109中的“否”)，直到控制器109檢測到釋放了語音處理開始指示按鈕。在這期間不進行話音輸入。當控制器109檢測到釋放了語音處理開始指示按鈕時，在步驟S103中，在話音輸入單元106中開始話音輸入。之后執(zhí)行的處理過程與第一實施例的處理過程相同，省略其說明。
根據(jù)上述配置，可以在不同的時間執(zhí)行顯示語音識別詞語的處理和開始語音輸入的處理。因此，根據(jù)本典型實施例，在用戶開始說話以進行話音輸入之前，他或者她有充足的時間看語音識別詞語，這增加了用戶的可操作性。
第三實施例在本典型實施例中，可區(qū)別地檢測語音處理開始指示按鈕的半按下和完全按下，從而可以在不同的時間執(zhí)行顯示語音識別詞語的處理和開始話音輸入的處理。應當指出，半按下是指與在使典型的自動調焦照相機進行調焦的情況中相同的輕輕按下按鈕的狀態(tài)。在本典型實施例中，當用戶半按下語音處理開始指示按鈕時，指出語音識別詞語。然后，當用戶進一步按下語音處理開始指示按鈕(完全按下)時，開始話音輸入。當從半按下狀態(tài)釋放語音處理開始指示按鈕時，停止指出語音識別詞語。
下面，參考圖14所示的流程圖說明根據(jù)本典型實施例的處理過程。
該流程圖與根據(jù)第一實施例的圖4所示的流程圖的不同之處在于，執(zhí)行步驟S110的處理代替步驟S101的處理，并且在步驟S102和步驟S103的處理之間執(zhí)行步驟S111～步驟S113的處理。與第一實施例類似地執(zhí)行這些處理之外的處理，在允許的情況下省略其說明。
當控制器109檢測到半按下了語音處理開始指示按鈕(步驟S110中的“是”)時，在步驟S102中，顯示控制單元107控制顯示內容以指出語音識別詞語。
隨后，在步驟S111中，該處理不繼續(xù)進行(步驟S111中的“否”，步驟S113中“否”)，直到控制器109檢測到釋放或者完全按下語音處理開始指示按鈕。在這期間，不開始話音輸入。當檢測到釋放了語音處理開始指示按鈕(步驟S111中的“是”)時，在步驟S112中，顯示控制單元107控制顯示內容使得停止指出語音識別詞語。
當用戶從半按下狀態(tài)進一步按下語音處理開始指示按鈕，并且控制器109檢測到完全按下按鈕(步驟S113中的“是”)時，在步驟S103中，在話音輸入單元106中開始話音輸入。接下來執(zhí)行的處理過程與第一實施例的處理過程相同，省略其說明。
根據(jù)上述配置，可以在不同的時間執(zhí)行顯示語音識別詞語的處理和開始話音輸入的處理。因此，根據(jù)本典型實施例，在用戶開始說話以進行話音輸入之前，他或者她有充足的時間來看語音識別詞語，這增加了用戶的可操作性。
第四實施例在本典型實施例中，說明在節(jié)目搜索設備中實現(xiàn)本發(fā)明的情況。
圖15是示意性地示出根據(jù)本發(fā)明典型實施例的用于搜索節(jié)目的信息處理設備的結構的框圖。該信息處理設備包括操作單元401、節(jié)目信息存儲單元402、識別詞典生成單元403、識別詞典存儲單元404、語音識別單元405、話音輸入單元406、顯示控制單元407、顯示單元408和控制器409。
與在第一實施例中說明的操作單元101類似，操作單元401具有例如按鈕和鼠標的允許用戶操作設備的輸入裝置?？刂破?09檢測用戶通過操作單元401執(zhí)行的操作的內容。然后，控制器409根據(jù)檢測到的操作執(zhí)行預定處理。同樣，在本典型實施例中，與第一實施例的情況相同，將用戶使用的用于開始語音的按鈕稱為語音處理開始指示按鈕。
節(jié)目信息存儲單元402存儲由控制器409接收到的例如EPG(電子節(jié)目向導，electronic program guide)的節(jié)目信息數(shù)據(jù)。如圖1 6示出的節(jié)目信息數(shù)據(jù)501中所示，該節(jié)目信息存儲單元402存儲每個節(jié)目的“標題”(節(jié)目名)、“臺”(臺名)、“日期和時間”(播放的日期和時間)以及“信息”(節(jié)目信息)。另外，如圖17示出的相關項數(shù)據(jù)601所示，在節(jié)目信息存儲單元402中還存儲有與臺名或者節(jié)目名有關的項的數(shù)據(jù)。該相關項數(shù)據(jù)可以包含在EPG數(shù)據(jù)中，或者可以作為獨立于EPG數(shù)據(jù)的數(shù)據(jù)從外部網(wǎng)絡獲得。
識別詞典存儲單元404存儲識別詞典。在識別詞典中，記錄有可以通過語音識別單元405識別出的詞語(語音識別詞語)和相應的發(fā)音說明。另外，還可以記錄與每個識別詞語相關聯(lián)的輔助信息。在本典型實施例中，將用于操作信息處理設備的命令和用于搜索節(jié)目的關鍵詞用作語音識別詞語。圖18和圖19中的每一個示出識別詞典的例子。圖18所示的識別詞典701包含用作操作根據(jù)本典型實施例的信息處理設備的命令的詞語。在識別詞典701中，除了發(fā)音說明之外，還記錄有相應的處理作為每個識別詞語的輔助信息。當識別出相應的語音識別詞語時，執(zhí)行相應的處理。圖19所示的識別詞典801包含用作搜索節(jié)目的關鍵詞的詞語。作為輔助信息記錄關鍵詞的種類。
識別詞典生成單元403從節(jié)目信息數(shù)據(jù)501中提取搜索標題、臺等所需的關鍵詞，并記錄相應的發(fā)音說明和種類，以生成用于搜索節(jié)目的識別詞典。另外，還可以從相關項數(shù)據(jù)601中提取與每個關鍵詞有關的項增加到識別詞典中。例如，當從節(jié)目信息數(shù)據(jù)501中提取標題“Adventure TV”作為關鍵詞時，從相關項數(shù)據(jù)601中提取“Adventure”作為相關項增加到識別詞典中。
話音輸入單元406設置有麥克風，拾取用戶的語音，將拾取的語音轉換為數(shù)字數(shù)據(jù)以由語音識別單元405進行處理。語音識別單元405對由話音輸入單元406拾取的語音數(shù)據(jù)執(zhí)行語音識別處理，從在識別詞典中記錄的詞語中選擇與用戶的語音最接近的詞語，輸出所選擇的詞語作為語音識別結果。
顯示單元408具有例如液晶顯示器的顯示裝置，用作向用戶顯示GUI和例如從信息處理設備提供的節(jié)目信息的信息。顯示控制單元407控制要在顯示單元408上顯示的內容。在該典型實施例中，當控制器409檢測到由用戶執(zhí)行的開始話音輸入的操作時，顯示控制單元407控制顯示內容使得用戶可以辨別語音識別詞語。例如，如果開始話音輸入操作時所顯示的顯示內容中包含語音識別詞語或者GUI組件(語音識別對象)，則控制顯示內容以改變識別對象的例如字體、顏色以及裝飾的顯示樣式，從而識別對象可以與其它詞語或者GUI組件相區(qū)別。例如，對于沒有包含在顯示內容中的其它語音識別詞語，控制顯示內容使得產(chǎn)生獨立的窗口以顯示這些語音識別詞語。當獲得語音識別結果時，控制顯示內容使得顯示由控制器409提供的節(jié)目信息。如果由于超時或者用戶操作而在話音輸入操作期間中斷了話音輸入，則控制顯示內容使得再次顯示語音輸入操作前所顯示的內容。
控制器409與包含在根據(jù)本典型實施例的信息處理設備中的每個模塊合作來控制節(jié)目搜索的全部處理。另外，控制器409接收通過外部網(wǎng)絡發(fā)送的節(jié)目信息數(shù)據(jù)，將該節(jié)目信息數(shù)據(jù)存儲在節(jié)目信息存儲單元402中?？刂破?09還監(jiān)視例如鼠標和鍵盤的輸入裝置的操作事件，根據(jù)操作事件來執(zhí)行處理。此外，控制器409根據(jù)由語音識別單元405識別出的詞語搜索存儲在節(jié)目信息存儲單元402中的節(jié)目信息數(shù)據(jù)，然后輸出對應于搜索到的節(jié)目信息數(shù)據(jù)的節(jié)目的信息。在外部單元提供相關項詞典的情況下，控制器409用于接收詞典。
下面，說明具有上述配置的信息處理設備的操作。
在根據(jù)本典型實施例的信息處理設備中執(zhí)行的處理過程與在第一實施例中說明的信息處理設備中執(zhí)行的處理過程相同。因此，根據(jù)圖4所示的流程圖說明該處理過程。
當開始節(jié)目搜索操作時，顯示控制單元407執(zhí)行控制使得根據(jù)存儲在節(jié)目信息存儲單元402中的節(jié)目信息數(shù)據(jù)來產(chǎn)生用于節(jié)目搜索的顯示數(shù)據(jù)。然后，在顯示單元408上顯示產(chǎn)生的顯示數(shù)據(jù)。圖20示出該顯示的數(shù)據(jù)的例子。該圖示出包含在顯示單元408中的顯示裝置的屏幕截圖901。屏幕顯示902是開始節(jié)目搜索操作時所顯示的顯示內容的例子。在屏幕顯示902中，按播放時間順序顯示“Japan TV”臺的節(jié)目。用戶從所顯示的節(jié)目中選擇希望的節(jié)目。如果在顯示的節(jié)目中不包含希望的節(jié)目，則用戶可以使該顯示滾動以顯示不同的時間段，或者可以改變要顯示的臺以尋找所希望的節(jié)目。用戶使用語音識別功能或者操作單元401的輸入裝置執(zhí)行這些操作。
當用戶使用語音識別功能時，他或者她說出命令當選擇節(jié)目時是所希望的節(jié)目的名稱；當切換臺時是所希望的臺的名稱；當使顯示向下滾動時是“向下滾動(Scroll Down)”。在用戶說話之前，他或者她執(zhí)行開始話音輸入的預定操作。在本典型實施例中，將設置在操作單元的輸入裝置上的特定按鈕分配為用于開始話音輸入的按鈕(語音處理開始指示按鈕)。如下所述，當用戶按下語音處理開始指示按鈕時，開始話音輸入。當用戶按下語音處理開始指示按鈕時，控制器409檢測到按下了按鈕。然后，在話音輸入單元406中開始話音拾取(步驟S101中的“是”)。
在步驟S102中，顯示控制單元407改變顯示內容使得可以從在顯示單元408上顯示的其它對象中區(qū)別出語音識別對象。這時，顯示控制單元407查閱存儲在識別詞典存儲單元404中的識別詞典。如果在屏幕顯示中包含記錄在識別詞典中的詞語，則改變所記錄的詞語的例如字體、顏色以及裝飾的顯示樣式。類似地，如果在屏幕顯示中包含對應于在識別詞典中記錄的命令的GUI組件，則改變GUI組件的顯示樣式。作為例子，在圖20所示的屏幕顯示912中對此進行了說明。在屏幕顯示912中，由粗線圍繞標題、臺以及用于滾動的GUI組件，從而將這些被圍繞的對象指出為語音識別對象。
將在步驟S103中由話音輸入單元406拾取的語音依次轉換為數(shù)字數(shù)據(jù)以由語音識別單元405進行處理。在語音識別單元405檢測到用戶的語音結束的時刻，停止語音識別處理和話音輸入單元406中的話音輸入。當停止話音輸入(步驟S105中的“是”)時，顯示控制單元407停止指出語音識別詞語。具體地，在步驟S106中，將在步驟S102的處理中改變的顯示內容變回，如圖20中的屏幕顯示902所示。
如果在按下語音處理開始指示按鈕之后，由于例如語音中斷以及沒有要拾取的話音等原因在語音識別單元405中沒有獲得語音識別處理的結果(步驟S107中的“否”)，則停止節(jié)目搜索操作。
如果在語音識別單元405中獲得了語音識別處理的結果(步驟S107中的“是”)，則在步驟S108中，控制器409根據(jù)語音識別結果執(zhí)行處理，然后，停止節(jié)目搜索操作。例如，當標題被識別為語音識別結果時，控制器409搜索存儲在節(jié)目信息存儲單元402中的節(jié)目信息數(shù)據(jù)。如果在節(jié)目信息數(shù)據(jù)中存儲有對應于該標題的節(jié)目，則顯示控制單元407使顯示單元408顯示該節(jié)目信息。另一方面，如果在節(jié)目信息數(shù)據(jù)中沒有存儲該相應的標題，則在步驟S108中，顯示控制單元407使顯示單元408顯示結果的通知。然后，停止節(jié)目搜索操作。
使用根據(jù)本典型實施例的上述配置，響應于用戶為開始話音輸入而執(zhí)行的操作，指出包含在屏幕顯示中的語音識別對象。因此，當用戶使用語音識別功能時，可以通知他或者她該識別對象，而不用特別注意識別對象。另外，當用戶不使用語音識別功能時，不顯示不必要的信息以避免冗余是有利的。根據(jù)根據(jù)本典型實施例的信息處理設備，不管用戶是否使用語音識別功能，可以實現(xiàn)具有高可操作性的音頻接口。
其它實施例在上述第四實施例中，說明了在步驟S102的處理中改變在屏幕上顯示的語音識別對象的顯示樣式的情況。然而，與此形成對比，可以控制顯示內容使得改變語音識別對象之外的顯示對象的顯示樣式，這也使得可以區(qū)別出語音識別對象。在圖21中示出這種配置。如圖所示，使示出語音識別對象之外的對象的屏幕顯示922中的區(qū)域變暗，從而可以區(qū)別出示出語音識別對象的其它區(qū)域。
另外，當在步驟S102的處理中指出語音識別對象時，可以顯示在屏幕中沒有顯示的語音識別詞語。在這種情況下，顯示控制單元407控制顯示內容，使得在存儲在識別詞典存儲單元404的識別詞典中所記錄的詞語中，顯示當前在屏幕中沒有顯示的詞語。圖22示出了這種配置。如圖所示，在另一個窗口932中顯示在GUI屏幕上沒有顯示的全部語音識別詞語。
此外，當在步驟S102的處理中顯示語音識別對象時，可以將要顯示的詞語縮寫，或者可以將要顯示的縮寫名稱還原為原始名稱。這時，查閱相關項數(shù)據(jù)601及識別詞典701和801。另外，通過查閱識別詞典701和801還可以顯示要說出的對象的內容和相應的發(fā)音說明。在圖23中示出了這種配置。在該圖中，區(qū)域942示出使用識別詞典801提供“VOWVOW”臺的名稱的發(fā)音說明的情況。區(qū)域944示出將使用相關項數(shù)據(jù)601縮寫后的標題“Hey！Poffy”用其原始名稱“Hey！Hey！Poffy AKIYUKI”代替的情況。區(qū)域945示出使用相關項數(shù)據(jù)601和識別詞典801，用縮寫標題“NEWS7”代替標題的原始名稱“Ichiro’s NEWS7”并且進一步提供相應的發(fā)音說明的情況。另外，區(qū)域946示出使用詞語浮動框指出對應于GUI組件的語音識別詞語“向下滾動”的情況。這種配置可以使用戶知道用于識別GUI組件的詞語。
如上所述，當顯示語音識別對象時，可以增加發(fā)音說明，可以代替難以發(fā)音的名稱。與上述僅顯示語音識別對象以與其它對象相區(qū)別的情況相比較，這種配置實現(xiàn)了具有更高可操作性的用戶界面。
本發(fā)明還包含如下配置將用于實現(xiàn)上述實施例的功能的程序直接或者從遠程站點提供給具有能夠讀取并執(zhí)行所提供的程序代碼的計算機的系統(tǒng)或者設備。
因此，對計算機提供并安裝用于實現(xiàn)上述實施例的功能的程序代碼也是實現(xiàn)本發(fā)明的一個特征。即，用于實現(xiàn)上述實施例的功能的計算機程序可以包含在本發(fā)明中。
在這種情況下，程序不限于任何形式，例如目標代碼、由譯碼器執(zhí)行的程序、向操作系統(tǒng)提供的腳本數(shù)據(jù)等。
用于提供程序的記錄介質的例子包括磁性記錄介質，例如軟盤、硬盤、光盤、磁光盤(MO)、光盤只讀存儲器(CD-ROM)、可記錄CD(CD-R)、可重寫CD(CD-RW)。磁帶、非易失性存儲卡、只讀存儲器(ROM)、數(shù)字通用ROM盤(DVD-ROM)、DVD-R等可用作記錄介質。
作為另一個程序提供方法，可以使用瀏覽器將客戶計算機連接到因特網(wǎng)的主頁，可以將本發(fā)明的計算機程序本身或者包含自動安裝功能的壓縮文件從主頁下載到例如硬盤的記錄介質?？梢詫嫵筛鶕?jù)本發(fā)明典型實施例的程序的程序代碼分割為多個文件，可以從不同的主頁下載這些文件。即，使多個用戶下載使計算機實現(xiàn)本發(fā)明的功能處理的程序文件的WWW服務器也可以包含在本發(fā)明中。
另外，可以做出如下配置將根據(jù)本發(fā)明典型實施例的程序加密并存儲在例如CD-ROM的記錄介質中，在這種狀態(tài)下與用于解密從因特網(wǎng)主頁下載的加密內容的密鑰信息一起分發(fā)給用戶，例如，分發(fā)給滿足一定條件的用戶，從而可以使用密鑰信息來執(zhí)行被加密的程序，將其安裝到計算機。
除了通過在計算機上執(zhí)行讀出的程序來實現(xiàn)上述實施例的功能之外，還可以由計算機上運行的操作系統(tǒng)基于程序的指令執(zhí)行部分或者全部實際處理來實現(xiàn)上述實施例的功能。
此外，可以通過將從記錄介質中讀出的程序寫入設置到插入計算機中的功能擴展板或者連接到計算機的功能擴展單元的存儲器中、功能擴展板或者功能擴展單元的CPU根據(jù)程序的指令執(zhí)行部分或者全部實際處理來實現(xiàn)上述功能。
雖然參考典型實施例對本發(fā)明進行了說明，但是應當理解，本發(fā)明不限于所公開的典型實施例。所附權利要求的范圍符合最寬的解釋以覆蓋全部變形、等同結構和功能。
權利要求
1.一種語音信息處理設備，包括第一檢測部，用于檢測語音處理開始指示部的第一操作；顯示控制部，用于響應于所述語音處理開始指示部的所述第一操作，控制語音識別信息的顯示；第二檢測部，用于檢測所述語音處理開始指示部的第二操作；獲取部，用于響應于所述語音處理開始指示部的所述第二操作，獲取語音信息；以及語音識別部，用于對由所述獲取部獲得的語音信息執(zhí)行語音識別處理。
2.根據(jù)權利要求1所述的語音信息處理設備，其特征在于，所述顯示控制部控制所述顯示，使得所述語音識別信息可以在視覺上與其它顯示的信息相區(qū)別。
3.根據(jù)權利要求1或者2所述的語音信息處理設備，其特征在于，所述語音處理開始指示部是按鈕；所述第一操作是按下所述按鈕；以及所述第二操作是釋放所述按鈕。
4.根據(jù)權利要求1或者2所述的語音信息處理設備，其特征在于，所述語音處理開始指示部是按鈕；所述第一操作是部分按下所述語音處理開始指示按鈕；以及所述第二操作是完全按下所述按鈕。
5.根據(jù)權利要求1或者2所述的語音信息處理設備，其特征在于，如果存在顯示的語音識別信息之外的語音識別詞語，則所述顯示控制部執(zhí)行控制使得除了所述顯示的語音識別信息之外還顯示所述語音識別詞語。
6.根據(jù)權利要求1或者2所述的語音信息處理設備，其特征在于，如果包含在顯示的語音識別信息中的對象是圖形用戶界面組件，則所述顯示控制部執(zhí)行控制使得顯示用于識別所述圖形用戶界面組件的名稱以與所述圖形用戶界面組件相關聯(lián)。
7.根據(jù)權利要求1或者2所述的語音信息處理設備，其特征在于，還包括相關項存儲部，用于存儲與顯示的語音識別信息有關的詞語，其中，如果記錄有對應于所述顯示的語音識別信息的相關項，則所述顯示控制部執(zhí)行控制，使得用所述相關項代替所述語音識別信息，或者使得除了所述語音識別信息之外還顯示所述相關項。
8.根據(jù)權利要求1或者2所述的語音信息處理設備，其特征在于，所述顯示控制部除了所述語音識別信息之外還顯示語音識別信息的發(fā)音說明，所述發(fā)音說明用于使得所述語音識別信息被識別。
9.一種語音信息處理方法，包括如下步驟檢測語音處理開始指示部的第一操作；控制顯示使得響應于檢測到所述第一操作，顯示語音識別信息；檢測所述語音處理開始指示部的第二操作；獲取步驟，響應于所述第二操作，獲取語音信息；以及對在所述獲取步驟中獲得的語音信息執(zhí)行語音識別處理。
10.根據(jù)權利要求9所述的語音信息處理方法，其特征在于，控制所述顯示使得所述語音識別信息可以在視覺上與其它顯示的信息相區(qū)別。
全文摘要
本發(fā)明涉及一種語音信息處理設備和語音信息處理方法。所述語音信息處理方法包括檢測語音處理開始指示單元的第一操作的步驟；響應于在語音處理開始指示單元的第一操作的檢測步驟中所執(zhí)行的檢測，控制顯示使得顯示語音識別詞語；響應于檢測到語音處理開始指示單元的第二操作獲取語音信息；以及對在獲取步驟中獲得的語音信息執(zhí)行語音識別處理。
文檔編號G10L15/02GK1991975SQ20061017055
公開日2007年7月4日申請日期2006年12月26日優(yōu)先權日2005年12月26日
發(fā)明者山本寬樹, 八木澤津義申請人:佳能株式會社

完整全部詳細技術資料下載