專利名稱:改善語音識別準確性的方法和裝置的制作方法
技術領域:
本發(fā)明的領域是連續(xù)語音識別的方法和裝置。更具體地說,本發(fā)明涉及向使用者提供語音識別準確性控制的方法。
當前存在的語音識別系統(tǒng)使一使用者能連續(xù)地將語音口授給送話器,然后由計算機將語音變換成文本,并把文本顯示在計算機的監(jiān)視器上。在一個設計成對詞間無間歇語音進行解碼的連續(xù)語音識別系統(tǒng)中,有理由預期將會發(fā)生解碼錯誤并將由使用者去改正。往往是在一個特定的口授時段里連續(xù)地重復發(fā)生某一特定類型的錯誤。例如,系統(tǒng)可能重復地錯認一個特定詞,例如“and(和)”。
先有技術的語音識別系統(tǒng)接收并基于各種系統(tǒng)參數(shù)和數(shù)據(jù)庫來轉換所收到的語音,例如音頻電平、主題庫、以及依賴于說話者的訓練數(shù)據(jù)庫等。在某些系統(tǒng)中,在系統(tǒng)上受過訓練的使用者可能能確定正在發(fā)生哪一類識別準確性問題,并調節(jié)或改變各種參數(shù)或數(shù)據(jù)庫以改善該使用者語音的識別準確性。然而許多使用者可能沒有這種愛好或耐心去學習如何辨識識別準確性問題或在遇到這些問題時如何調節(jié)系統(tǒng)參數(shù)以便改進。此外,一些使用者寧愿不去監(jiān)視語音識別期間產(chǎn)生的文本,固而可能不知道識別中正在發(fā)生問題。這兩類使用者可能會變得受到了挫折因而決定不使用該系統(tǒng)。
所需要的是這樣一種轉換口授的語音的方法和裝置,它使使用者能容易地改變系統(tǒng)參數(shù)或使用者行為以改善系統(tǒng)的識別準確性。還需要一種轉換口授的語音的方法和裝置,它能識別何時在發(fā)生語音識別問題,并能協(xié)助使用者識別問題的具體類型。
本發(fā)明包括一種轉換語音的裝置和方法,它接收輸入語音,并把輸入語音轉換成轉換后的語音,它包括文本格式的詞的順序列表。在轉換過程中,該方法和裝置監(jiān)視轉換后語音的準確性并確定轉換后語音的準確性是否足夠。如果準確性不夠,則本方法和裝置自動啟動一個語音識別改善工具。使用這一語音識別改善工具,該方法和裝置改善轉換過程的準確性。
本方法由一轉換裝置實現(xiàn),該裝置包括至少一個計算機、一個監(jiān)視器和一個送話器。本方法能由一個機器執(zhí)行,它執(zhí)行機器可讀存儲器上存儲的多個計算機程序代碼段。
本發(fā)明的一般目的是向轉換系統(tǒng)使用者提供容易地改變系統(tǒng)參數(shù)和/或使用者行為的能力和信息,以改善該系統(tǒng)的識別能力。本發(fā)明的另一目的是自動地向使用者提供這種能力。
圖1顯示根據(jù)本發(fā)明最佳實施例的語音識別系統(tǒng)的簡化框圖;圖2顯示根據(jù)本發(fā)明最佳實施例允許使用者能改善語音識別系統(tǒng)語音識別準確性的方法流程圖;圖3顯示用于提供使用者和語音識別改善工具之間初始交互作用的顯示屏示例;圖4顯示一個表的示例,它對多個可能的問題類型列出為緩解或消除那個問題所采取的一些可能的解決步驟;圖5是協(xié)助使用者執(zhí)行“記錄詞(Record Word)”解決步驟的顯示屏示例;圖6是協(xié)助使用者執(zhí)行“問題詞(Problem Word)”解決步驟的顯示屏示例;圖7是協(xié)助使用者執(zhí)行“造成另一發(fā)音(Creating an AlternatePronunciation)”解決步驟的顯示屏示例;圖8是協(xié)助使用者執(zhí)行“檢驗你的個人語音文件(Checking YourPersonal Speech File)”解決步驟的顯示屏示例;圖9是協(xié)助使用者執(zhí)行“加到詞匯表中(Add to Vocabulary)”解決步驟的顯示屏示例;圖10是協(xié)助使用者執(zhí)行”啟動主題(Activate Topic)”解決步驟的顯示屏示例;圖11是教育使用者適當調節(jié)系統(tǒng)參數(shù)和適當進行口授的小教程的顯示屏示例;以及圖12是協(xié)助使用者測試系統(tǒng)的識別能力的顯示屏示例。
圖1顯示根據(jù)本發(fā)明最佳實施例的語音識別系統(tǒng)的簡化框圖。語音識別系統(tǒng)100包括計算機102,如個人計算機或工作站,它有顯示監(jiān)視器104、鼠標106或其他指向裝置,以及鍵盤108。系統(tǒng)100還包括用于向計算機102口授的送話器110以及用于向使用者提供聲音反饋的揚聲器112。計算機102特別裝備了從送話器110獲取聲音信息所需要的接口。這種裝備可存在于計算機母板上或子卡上,例如SOUNDBLASTER(TMCreative Labs),或通過其他手段。
監(jiān)視器104、鼠標106、鍵盤108和揚聲器112構成用戶接口,語音識別系統(tǒng)100的使用者能借助它啟動、控制和監(jiān)視轉換過程。根據(jù)一個實施例,計算機102經(jīng)由監(jiān)視器104提供各種屏幕顯示,以幫助使用者在一特定語音識別期間調節(jié)影響識別準確性的各種參數(shù)。
將結合圖2至圖12詳細描述轉換系統(tǒng)100的操作。在操作過程中,由使用者經(jīng)由送話器110提供語音輸入,而由計算機102實現(xiàn)的解碼器引擎(未畫出)連續(xù)接收輸入語音和建立文本輸出,這文本輸出顯示在監(jiān)視器104上。為了轉換語音,解碼器引擎從存儲在計算機存儲器(未畫出)內的信息中調出數(shù)據(jù),例如系統(tǒng)詞匯、聲音模型、以及基于語言的模型等。然后解碼器引警完成各種操作,例如使聲音輸入與聲音模型擬合,以建立輸入語音的文本翻譯。
基于語言的模型提供關于一般詞序的數(shù)據(jù),從而引擎可以確定可能是哪些候選短語。這對于在包含語音上相似的詞(例如“to”、“two”和“too”,或“there”、“their”和“they′re”)的詞和短語之間進行選擇是重要的。一旦由解碼器引擎考慮了各種因素,則可由該引擎得到作為文本數(shù)據(jù)的文體。在解碼了一些使用者語音輸入后,或者由解碼器引警,或者由某一應用,可通過用戶接口(例如監(jiān)視器104或揚聲器112)把那個文本顯示給使用者。
在這一點,使用者可以檢測語音識別過程中出現(xiàn)的問題,或者,如在一個最佳實施例中那樣,系統(tǒng)可以檢測該問題并通知使用者。使用圖形用戶界面(GUI),使用者能被引導完成調節(jié)各種系統(tǒng)參數(shù)或修改使用者行為,以改善語音識別準確性。
圖2是根據(jù)本發(fā)明最佳實施例允許使用者改善語音識別系統(tǒng)語音識別準確性的方法流程圖。希望該方法由語音識別系統(tǒng),如系統(tǒng)100(圖1)來實現(xiàn)。
當使用者啟動語音識別程序時,該方法在步驟202開始。當使用者促使計算機下載(如果必要的話)、初始化和啟動一個應用軟件時,通常會由此發(fā)生該語音識別程序的初始化。于是該程序便自動地,或者作為使用者各種輸入的結果,開始在步驟204接收和轉換輸入的語音,并把轉換后的語音顯示在使用者的計算機監(jiān)視器上。該轉換過程產(chǎn)生文本格式的順序詞列表。
在一個最佳實施例中,該程序在步驟205監(jiān)視語音識別的準確性。可以這樣來完成對轉換后語音準確性的監(jiān)視,例如,通過保持跟蹤落在一識別閾值之下的轉換后詞的個數(shù)或百分比,或者由使用者改正的那些詞的個數(shù)或百分比。在一個最佳實施例中,其準確性被連續(xù)地監(jiān)視(例如在逐個詞的基礎上進行)。在其他一些實施例中可通過周期性或非周期性地檢驗轉換后語音的準確性來監(jiān)視其準確性。
當轉換后語音的準確性變?yōu)椴豢山邮軙r,系統(tǒng)自動啟動一識別改善工具,它允許使用者容易地調節(jié)系統(tǒng)參數(shù)以改善識別準確性,如下文中所述。因為自動啟動識別準確性改善工具可能會變得令人煩惱,所以在一個最佳實施例中可由使用者取消有連續(xù)監(jiān)視或自動啟動特性。也是在一個優(yōu)選實施例中,使用者能在任何時候人工啟動該識別改善工具。
步驟206-210顯示啟動識別改善工具之前的一些決策步驟。這些步驟可作為程序流的組成部分來實現(xiàn),或者例如可由中斷驅動。在任何情況下,計算機繼續(xù)接收和轉換語音(步驟204),直至決策步驟206-210之一使程序進入步驟212或214為止。
在步驟206,確定是否使用者已請求啟動識別改善工具。在一個最佳實施例中,使用者能在語音識別期間的任何時候作此請求。通常當使用者根據(jù)所顯示的文本注意到該系統(tǒng)不能準確地轉換使用者的語音時,該使用者便會作此請求。如果使用者已經(jīng)請求啟動識別改善工具,則程序進入步驟214,這將在下文中描述。如果使用者尚未請求啟動該工具,則程序進入步驟208。
在步驟208,確定自動工具啟動特性是否被取消。在一個最佳實施例中,在初始時這一特性是被允許的,在其后能由使用者手動地取消或允許。使用者可以能訪問一系列菜單選項,其中之一是允許或取消這一特性。另一種情況是,每次該工具被啟動時(步驟214,見下述),使用者便被提示去指出是否他或她想要在語音識別過程的其后階段取消自動啟動特性,或直至使用者重新允許該啟動特性為止。如果該特性被取消,則程序如圖2中所示那樣迭代,而系統(tǒng)繼續(xù)接收和轉換語音。
如果該特性未被取消,則在步驟210中確定該語音識別的準確性是否足夠。這一決定通常受到該語音識別系統(tǒng)是一個口授系統(tǒng)還是一個命令和控制系統(tǒng)的影響。在一個命令和控制系統(tǒng)中,輸入語音與一個相對較小的詞匯庫中的條目進行比較。除非系統(tǒng)有高置信度確信所說的詞與詞匯庫內的命令詞之一匹配,否則系統(tǒng)不會采取行動。如果識別水平低于例如一個特定閾值,則系統(tǒng)會確定該詞是認不出的。如果有預定義百分比的詞落在閾值之下或者如果預定義個數(shù)的連續(xù)出現(xiàn)的詞是認不出的,則系統(tǒng)將確定識別準確性不夠。
另一方面,在一個口授系統(tǒng)中,每個所說的詞與一個大得多的庫進行比較,系統(tǒng)輸出與所說的詞相關性最近的庫中詞。雖然識別閾值方法也能用于口授系統(tǒng),但其他一些方法可能更適于確定識別準確性。例如,如果使用者能編輯由系統(tǒng)產(chǎn)生的文本,則系統(tǒng)能確定由使用者改正的詞所占百分比。如果被改正詞的個數(shù)或百分比高于預先定義的個數(shù)或預先定義的百分比,則系統(tǒng)將確定其識另別準確性不夠。
不管哪種語音識別系統(tǒng),都可使用其他方式確定識別準確性是否足夠,例如信號-噪聲測量以及其他方法,基于這里的描述,其他方法對于本領域技術人員而言也是顯然的。
中果語音識別的準確性足夠高,則程序如圖2所示那樣迭代,系統(tǒng)繼續(xù)接收和轉換語音。如果語音識別系統(tǒng)的準確性不夠,則在步驟212向使用者發(fā)出告警,說明該系統(tǒng)將要啟動識別改善工具。這一告警可由例如可聽或可視報警給出。
與用戶告警連在一起的自動工具啟動特性提供的好處在于沒有密切監(jiān)視所顯示文本的使用者將會知道停止口授以與識別改善工具進行交互作用。這一特性給使用者以更大的自由,使在語音識別期間專注于其他業(yè)務。
根據(jù)步驟206和210中做出的決定,在步驟214啟動語音識別改善工具。該工具的啟動涉及下載(如果必要的話)、初始化和啟動構成該工具的軟件模塊。在一個最佳實施例中,在監(jiān)視器屏幕上顯示一個窗口,指出程序已啟動一個語音識別改善工具。由這一點開始,使用者與該工具交互作用,以圖改善轉換后語音的準確性。
圖3顯示用于提供使用者和語音識別改善工具之間初始交互作用的顯示屏示例。在一個最佳實施例中,在圖3和圖5-15中例舉的每個顯示屏示例都顯示在計算機監(jiān)視器上,例如監(jiān)視器104(圖1)。顯示屏300希望包括一個“歡迎”消息之類,以告知使用者該工具已被啟動。在一個最佳實施例中,屏300還包括其他元素,例如由元素302-310例舉的那些,下文中將對每一個都更詳細地描述。在另一些實施例中,可以在屏300上包括附加的或不同的元素,或者元素302-310中的任何元素或全部元素可包括在其他屏幕顯示中。
元素302-306允許使用者能前進通過該工具提供的各種屏面或取消或退出該工具。例“回退(back)”鍵302使該工具顯示剛在當前顯示屏之前顯示的那個屏面。而另一方面“下一個(Next)”鍵304則使該工具顯示將由該工具下一次顯示的屏面。如果下一個要顯示的屏面依賴于使用者必須在當前屏面中提供的輸入,而使用者尚未提供那個輸入(例如得尚未在元素310中識別出一個問題類型),則該工具會向使用者顯示一個錯誤消息,指出在該工具能進入下一屏面之前必須由使用者提供輸入。此外,使用者能借助點擊“取消(Cancel)”鍵306或使用其他退出過程(例如按鍵盤上的“Escape”鍵,或從下拉菜單中選擇“Exit”)在任何時候退出該工具。
如前面提到的,屏面300能提供一個可選擇的元素,例如元素308,它允許使用者能取消該工具的自動啟動特性。初始時,元素308被設置成一旦系統(tǒng)識別出問題便自動啟動該工具。通過消去選擇(de-selecting)元素308,使用者將取消這一特性。結果,對于這語音識別過程的其余部分,將需要使用者手工啟動該工具,除非使用者重新啟動自動啟動特性。
再回來參考圖2,在步驟216中,辨識識別問題類型。問題類型可由使用者指出,或如下述,由該工具自動識別為最可能的問題類型。如果使用者手工啟動該工具(例如在步驟206),則在一個最佳實施例中該工具會向使用者顯示若干個可能的識別問題類型。這示于圖3,其中該工具在文本元素310中顯示若干個可能的識別問題類型。通過使用鼠標或其他選擇選項的通用方式(例如向上/向下箭頭),使用者提供輸入,指明在可能的識別問題類型中使用者認為哪個是所遇到的問題類型。通常,使用者會選擇與使用者在觀察轉換后文本時注意到的識別問題類型相對應的問題類型。
在一個最佳實施例中,如果該工具是被自動啟動的(例如在步驟210中),則如果可能的話,該工具自動識別出最可能的識別問題類型作為系統(tǒng)遇到的問題(即,使系統(tǒng)確定其識別準確性不夠的問題)。在這種情況中,該工具不是顯示元素310,而是會顯示一個消息,指出該工具已識別出一個問題,而且該工具將協(xié)助使用者調節(jié)系統(tǒng)參數(shù)以緩解或消除該問題。另一種情況是,元素310可被顯示,其中已識別出的問題被點亮顯示。如果系統(tǒng)不可能識別出最可能的問題類型,或者在另一實施例中那樣,該工具會提供若干個可能的識別問題類型,如元素310所示。
再回來參考圖2,一旦由系統(tǒng)或由使用者識別出了問題類型,則工具在步驟218向使用者提供可能的解決步驟。在一個最佳實施例中,使用者能通過點擊“下一個(Next)”鍵使該工具提供可能的解決步驟。通過點擊“下一個”,該工具顯示一個新的屏面,它指出所選定問題的可能解決步驟。
圖4顯示一個表的示例,它對多個可能問題類型列出為緩解或消除那個問題所能采取的一些可能的解決步驟。圖4中的表將不顯示給使用者,而是用來說明該工具如何識別出下一個要顯示的屏面。
在列402,列舉出若干可能的識別問題類型。這些問題類型對應于圖3的元素310中列出的問題類型。在列404中,列出了為緩解或消除相應的問題類型所能采取的若干可能的解決步驟。在其他各種實施例中,可由該工具處置更多些、或少些、或不同的問題類型和/或解決步驟。列402和404中列出的問題類型和解決步驟只是作為示例,而不是要限制本發(fā)明的范圍。
除了如列404所示向使用者提供各種解決步驟外,還如下文所述,該工具還能向使用者提供各種“小教程”,它們教育使用者例如如何設置系統(tǒng)參數(shù)或如何正確地口授。若干這些小教程也列于列404供舉例說明之用。
為說明該工具的操作,參考圖3和圖4兩圖。假定使用者已從圖3的元素310中選擇了這樣的識別問題,即系統(tǒng)“不能識別一單個詞”。這一問題類型對應于圖4的問題406。一旦點擊“下一個”鍵304,該工具便向使用者提供一個新的屏面,它指出圖4的步驟列表408中所列的可能解決步驟之一。例如,該工具會提供一個屏面,它對應于解決步驟“核實是否是正確的使用者”。在使用者通過與那個屏面的交互作用從而執(zhí)行了那個解決步驟之后,該工具會顯示下一個屏面,它對應于解決步驟“打入問題詞”。這一序列將繼續(xù)到所有解決步驟(以及小教程,如果有的話)都已呈現(xiàn)給使用者為止,或者直到使用者分別使用“Back(回退)”或“Cancel(取消)”鍵302、306指出他或她想要返回到一先前步驟或退出該工具為止。在另一實施例中,能以列表形式向使用者提供關于那個具體問題的所有解決步驟(和小教程,如果有的話),而使用者可以選擇用戶想讓該工具執(zhí)行哪個步驟。
圖5-11顯示的顯示屏面示例用于向使用者提供對各種識別問題的可能解決方案,還用于向使用者提供小教程。圖5-11所示一組解決方案不包括對所有可能問題所能提供的所有可能的屏面,而是用于以例說明通常遇到的問題的某些解決方案。
圖5是協(xié)助使用者執(zhí)行”記錄詞(Record Word)”解決步驟的顯示屏示例。例如,如果該使用者或系統(tǒng)識別出(在圖2的步驟216)該識別問題是系統(tǒng)不認識一個單個詞,則該工具便會顯示屏面500。在這種場合,使用者被提示在元素502中打入這個誤認詞的拼寫。然后,使用者將按下“Record(記錄)”鍵504,然后向送話器說出這個詞。于是該工具把該詞及發(fā)音送入與那個使用者相關聯(lián)的適當?shù)脑~匯或主題中,并把其發(fā)音添加到先前存儲的那個詞的發(fā)音上。
該工具還會完成附加的功能。例如,該工具會完成音頻質量測量,以確認它收到的是清晰的無噪聲信號。如果必要的話,該工具會提示使用者重新記錄該詞或采取其他行動。
根據(jù)該工具對所記錄詞的分析,該工具會建議使用者去實現(xiàn)一個或多個其他解決步驟。例如,該工具會確定音頻記錄電平未適地調節(jié)(例如它們太低或太高),而且該工具會指導使用者調節(jié)音頻電平。
另一種情況是如果該使用者尚未這樣做的話,該工具會建議使用者應完全登錄該系統(tǒng)。一個登錄的說話者是先前已經(jīng)訓練過該語音識別引擎的說話者。在訓練過程中,該系統(tǒng)建立一個依賴于說話者的模型,它對此特定說話者是唯一的。然后,在語音識別期間,這個依賴于說話者的模型能用于更好地認識登錄的說話者的語音。未登錄的說話者是先前未訓練過該語音識別引擎的說話者。結果,對于未登錄的說話者便不存在依賴于說話者的模型。作為替代以使用一個不依賴于說話者的模型去轉換一個未登錄的說話者的語音。與使用依賴于說話者的模型相比,使用不依賴于說話者的模型會使系統(tǒng)有更多的誤識別問題。
圖6是協(xié)助使用者執(zhí)行“問題詞(Problem Word)”解決步驟的顯示屏示例。例如,如果該使用者或系統(tǒng)識別出(在圖2的步驟216)該識別問題是系統(tǒng)從來不認識一個特定詞,則該工具便會顯示屏面600。與“記錄詞”屏面500(圖5)類似,除非先前已在另一屏面上打入了這個詞,使用者被提示在元素602中打入這個誤認詞的拼寫。然后使用者可以通過點擊“播放發(fā)音(Play Pronunciation)”鍵604讓該工具播放系統(tǒng)認出的該詞的發(fā)音,然后該工具將確認該詞在系統(tǒng)詞匯表中或任何工作的主題庫中。如果該詞在系統(tǒng)中,則該工具從適當?shù)脑~匯表或主題庫中提取該詞,完成文本到語音轉換,并通過揚聲器向使用者播放該詞。如果對該詞存在不只一個發(fā)音,該工具能播放所有可得到的發(fā)音。如果該詞不在系統(tǒng)中,則使用者將被提示記錄該詞。
如果使用者不滿意這些發(fā)音,使用者可通過點擊“改變發(fā)音(ChangePronunciation)”鍵606來改變發(fā)音。然后使用者將向送話器說該詞。然后該工具將把此發(fā)音存入與那個使用者關聯(lián)的適當詞匯表或主題中,把此發(fā)音加到任何先前存儲的該詞發(fā)音上。與“記錄詞”過程一樣,該工具也能完成附加的功能。
圖7是協(xié)助使用者執(zhí)行“造成另一發(fā)音(Creating an AlternatePronunciation)”解決步驟的顯示屏示例。例如,如果使用者不能用“問題詞”解決步驟來改善對一特定詞的辯認時,該工具便會顯示屏面700?!霸斐闪硪话l(fā)音”步驟允許使用者能對當前存在于一詞匯表或主題中的一個詞指定一個新的發(fā)音。例如,如果使用者有困難發(fā)音一個特定詞,或如果使用者寧愿使用一個詞的縮寫形式,則這一特性是有用的。例如一使用者可能每次說“fridge”時想讓系統(tǒng)輸出“refrigerator(冰箱)”。該用戶會把“refrigerator”打入“舊發(fā)音(Old Pronunciation)”元素702中,并把“fridge”打入“新發(fā)音(New Pronunciation)”元素704中。然后每次使用者說“fridge”時該系統(tǒng)將輸出“refrigerator(冰箱)”。
圖8是協(xié)助使用者執(zhí)行“檢驗你的個人語音文件(Checking YourPersonal Speech File)”解決步驟的顯示屏示例。例如,如果使用者或系統(tǒng)識別出(在圖2的步驟216)該識別問題是系統(tǒng)普遍識別能力差,則該工具顯示屏面800。在這種情況中,有可能是系統(tǒng)在使用錯誤的依賴說話者的模型。于是,屏面800將在元素802中顯示該系統(tǒng)當前使用的語音文件。在元素804中,如果對于元素802中識別出的使用者,基于不同的環(huán)境(例如辦公室和汽車),系統(tǒng)有多個依賴于使用者的模型,則該工具能在元素804中顯示該系統(tǒng)認為該使用者處在哪種環(huán)境中。此外,如果對于元素802中識別出的使用者,基于不同的語音(例如英語和法語),系統(tǒng)有多個依賴于說話者的模型,該工具能在元素806中顯示系統(tǒng)認為使用者正在說哪種語言。然后使用者能通過選擇不同的使用者、環(huán)境和/或語言來修改元素802-806中任何一個。在一個最佳實施例中,使用者能點擊與元素802-806中任何一個關聯(lián)的下拉元素808,于是能顯示出可以得到的不同迭代方案的清單。
圖9是協(xié)助使用者執(zhí)行“加到詞匯表中(Add to Vocabulary)”解決步驟的顯示屏示例。例如,在使用者已經(jīng)用“問題詞”解決步驟打入一個新詞之后,該工具將顯示屏面900。如前所述,該工具能確認所打入的詞是在與“問題詞”解決步驟相關聯(lián)的系統(tǒng)詞匯表或任何工作主題庫中。當該工具認識到一個所記錄的詞不在系統(tǒng)詞匯表(或一些系統(tǒng)詞匯表)中時,屏面900將顯示該詞902(例如,“F00”)并提示使用者指出是否想要把該詞加到詞匯表中。如果使用者點擊“加詞(Add Word)”鍵904,則該詞被加到詞匯表中。如果使用者在系統(tǒng)上存有多個詞匯表,該工具將給使用者一個選擇以把該詞加到其他詞匯表中,而且如果使用者希望的話,可以啟動那些詞匯表中的任何一個或全部,以平衡當前的語音識別過程(session),除非其后由系統(tǒng)或使用者再使其不處于工作狀態(tài)。
圖10是協(xié)助使用者執(zhí)行“啟動主題(Activate Topic)”解決步驟的顯示屏示例。與屏面900(圖9)類似,例如,在使用者已利用“問題詞”解決步驟打入一個新詞之后,該工具將顯示屏面1000。當該工具認識到一個所記錄的詞不在系統(tǒng)詞匯表(或一些系統(tǒng)詞匯表)或任何工作的主題庫中,但欲在使用者的未工作主題庫之一當中,于是屏面1000顯示該詞1002(例如“F00”,并提示使用者指出想要把該詞加到詞匯表中還是啟動在其中發(fā)現(xiàn)該詞的那個主題。如果使用者點擊“加詞(Add Word)”鍵1004,則該詞被加到詞匯表中。如果該使用者在系統(tǒng)上存有多個詞匯表,該工具將給使用者一個選擇以把該詞加到其他詞匯表中,而且如果使用者希望的話,可以啟動那些詞匯表中的任何一個或全部,以平衡當前的語音識別過程。如果使用者點擊“啟動主題(Activate Topic)”鍵1006,則在其中發(fā)現(xiàn)該詞的那個未工作主題被啟動,以平衡當前語音識別過程,除非其后由系統(tǒng)或使用者再使處于不工作狀態(tài)。
圖11是教育使用者適當調節(jié)系統(tǒng)參數(shù)和適當進行口授的小教程的顯示屏示例。例如,如果能得到一個或多個小教程,它們能幫助使用者解決在圖2的步驟216中辨識出的一個特定問題的話,該工具將顯示屏面1100。每個小教程能指導使用者設置系統(tǒng)參數(shù)和/或調節(jié)使用者行為以緩解該識別問題。例如,如果該識別問題是當使用者說話時什么事也沒發(fā)生,則該工具會給使用者一個選擇去播放關于如何使用送話器的一個小教程。在一個最佳實施例中,在元素1102中為使用者播放一段視頻教程,而使用者能根據(jù)他或她的選擇來暫?;蛑胤旁摻坛?。在另一實施例中,該教程可以是寫成的一組指令,設計成教育使用者或引導使用者通過一個特定的程序(例如如何調節(jié)系統(tǒng)參數(shù))。若干可能的小教程列于圖4中的列404作為示例。在其他實施例中可由該工具提供更多些、或少些、或不同的教程。此外,使用者可以通過下拉菜單、幫助過程或其他方式訪問任何可得到的教程。
圖5-11中顯示的屏面沒有指出能用于協(xié)助使用者解決識別問題的所有可能的屏面。能提供更多些、少些或不同的屏面。
再回來參考圖2,在步驟218中已向使用者提供了可能的解決步驟,而且該工具已收到使用者的輸入,當輸入適當時,該工具已調整了系統(tǒng)參數(shù),此后,如果在步驟219中必要的話,則在步驟220中確定該使用者是否想測試該系統(tǒng)。例如,使用者可能想測試系統(tǒng),以確定新的使用者行為、使用者對系統(tǒng)參數(shù)(例如音頻設置)的改變或者使用者加到系統(tǒng)中的詞是否已解決了系統(tǒng)遇到的識別問題。如果使用者指出他或她想測試系統(tǒng),則該工具在步驟222中實現(xiàn)測試。在一個最佳實施例中,這種測試的實現(xiàn)是通過該工具提供一個顯示屏面,使用者能與其交互作用。
圖12是協(xié)助使用者測試系統(tǒng)的識別能力的顯示屏示例。當使用者在步驟220(圖2)中指出他或她想要該工具實現(xiàn)識別測試時,將顯示屏面1200。屏面1200提示使用者口授一詞或句子。如果使用者點擊“測試(Test)”鍵1202,并開始說話,則系統(tǒng)接收該測試輸入語音,轉換該語音,并把文本顯示在元素1204中。如果使用者對轉換結果不滿意,則使用者可以繼續(xù)與工具進行交互作用以解決任何留下的問題。例如,使用者可以返回到屏面300(圖3),并再次開始識別改善過程。另一種情況是能把使用者引向解決該識別問題的另一個可能來源(例如,一個萬維網(wǎng)頁面或免費電話號碼)。如果使用者滿足該轉換結果,則使用者可點擊“取消(Cancel)”鍵306以退出該工具。
圖3和圖5-12顯示的屏面布局和內容只是為了作為示例,這些布局和內容不想限制本發(fā)明的范圍。在各種不同的實施例中,可以提供額外的或不同的屏面或元素,或者任何一個或全部元素可以包括在其他屏面中。此外,還可提供屏面以協(xié)助使用者緩解或消除其他識別問題。
再回來參考圖2,如果使用者未要求測試,或在測試已完成之后,可在步驟224中確定是否使用者已指出他或她想要退出該工具。這一確定可基于一個使用者提示,詢問使用者是否他或她想要退出。例如,可在該工具已經(jīng)為一特定問題提供了全部可能的解決步驟之后提供這一提示?;蛘咴谑褂谜咭言谌魏我粋€工具屏面上點擊了“取消(Cancel)”鍵306的任何時候作出該決定。如果使用者尚未指出他或她想退出該工具,則該方法返回到該工具內的先前步驟,例如步驟216。如果使用者已指出他或她確實想要退出該工具,則該工具被關閉,該方法返回到接收和轉換使用者語音的步驟204。使用者能在任何時候指出該使用者想要退出當前的語音識別過程(session),盡管在圖2中沒有顯示出這一可選項。
這樣,已描述了一種轉換語音的方法和裝置,它克服了特定問題,并與先有技術的方法和機制相比實現(xiàn)了某些優(yōu)點。提供了轉換口授語音的方法和裝置,它使使用者能容易地改變系統(tǒng)參數(shù)和使用者行為,以改善系統(tǒng)的識別準確性。還提供了一種轉換口授語音的方法和裝置,它能辨識何時發(fā)生語音識別問題并協(xié)助使用者辨識問題的具體類型。在一個最佳實施例中該方法能被自動啟動并能通知使用者這一啟動。這使使用者不必在轉換過程中密切監(jiān)視轉換后的文本。該方法還通過小教程提供對使用者的教育,從而使用者能修改他或她的行為或調節(jié)系統(tǒng)參數(shù)以實現(xiàn)更準確地轉換語音。
前文中對具體實施例的描述將如此充分地揭示本發(fā)明的一般性質,以致其他人能在不背離一般概念的情況下利用當前的知識容易地修改和/或使實施例適應于各種應用。所以,這些適應和修改應該和想要被包括在所說明的實施例的等價物的意義和范圍內。具體地說,盡管已利用各種識別問題、解決步驟和屏面描述了一個最佳實施例,但本領域技術人員將會理解,基于這里的描述,使用或多、或少、或不同的問題、步驟和屏面也能實現(xiàn)本發(fā)明的方法。再有,本領域技術人員將會理解,這里呈現(xiàn)的流程圖是想用于解釋本發(fā)明,而且可以設計出不同的技術來實現(xiàn)程序流而不一定使其屈從于流程。例如,這里所討論的每個任務可以被中斷,以允許程序流去完成后臺任務或其他任務。此外,各任務的具體順序可以被改變,用于實現(xiàn)這些任務的具體技術可以因系統(tǒng)而異。應該理解,語音識別系統(tǒng)的具體實現(xiàn)可以包括各種處理成分、數(shù)據(jù)集和數(shù)據(jù)路徑,這些沒有在這里顯示或描述。
應該理解,這里所用的措辭和術語是為了描述而不是為了限制。因此,本發(fā)明擬包含落入所附權利要求的實質和廣闊范圍內的所有這些替代物、修改、等效物和變體。
權利要求
1.由轉換系統(tǒng)實現(xiàn)的轉換語音方法,該方法包含以下步驟a)接收輸入語音;b)把輸入語音轉換成轉換后的語音,它包括文本格式的詞的順序列表;c)監(jiān)視轉換后語音的準確性;d)確定轉換后語音的準確性是否足夠;e)一旦確定轉換后語音的準確性不夠,便自動啟動一個語音識別改善工具;以及f)使用語音識別改善工具改善轉換步驟的準確性。
2.如權利要求1中申明的方法,這里的監(jiān)視步驟包含跟蹤落在一識別閾值以下的若干詞的步驟。
3.如權利要求2中申明的方法,這里的確定步驟包含這樣的步驟,即如果落在識別閾值以下的詞個數(shù)高于一預先定義數(shù),則確定其準確性不夠。
4.如權利要求2中申明的方法,這里的確定步驟包含這樣的步驟,即如果落在識別閾值以下的詞個數(shù)高于一預先定義的百分比,則確定其準確性不夠。
5.如權利要求1中申明的方法,這里的監(jiān)視步驟包含跟蹤多個由轉換系統(tǒng)的使用者改正的詞。
6.如權利要求5中申明的方法,這里的確定步驟包含這樣的步驟,即如果由使用者改正的詞數(shù)高于一預先定義數(shù),則確定其準確性不夠。
7.如權利要求5中申明的方法,這里的確定步驟包含這樣的步驟,即如果由使用者改正的詞數(shù)高于一預先定義的百分比,則確定其準確性不夠。
8.如權利要求1中申明的方法,這理改善轉換準確性的步驟包含以下步驟f1)辨識識別問題類型以及f2)向語音識別改善工具的使用者提供可能的解決步驟以解決該識別問題類型。
9.如權利要求8中申明的方法,這里辨識識別問題類型的步驟包含以下步驟,f1a)向使用者顯示若干可能的識別問題類型;以及f1b)從使用者接收輸入,該輸入指出使用者把哪種可能的識別問題類型辨識為識別問題類型。
10.如權利要求8中申明的方法,這里辨識識別問題類型的步驟包含由語音識別改善工具自動地把最可能的識別問題類型辨識為識別問題類型的步驟。
11.如權利要求8中申明的方法,進一步包含以下步驟f3)從使用者接收輸入,該輸入使語音識別改善工具能調節(jié)參數(shù)以改善轉換步驟的準確性。
12.如權利要求8中申明的方法,進一步包含以下步驟f3)向使用者提供小教程以幫助使用者解決識別問題類型。
13.如權利要求1中申明的方法,進一步包含以下步驟g)當語音識別改善工具被自動啟動時,向語音識別改善工具的使用者發(fā)出告警。
14.如權利要求1中申明的方法,進一步包含以下步驟g)確定使用者是否想要轉換系統(tǒng)測試轉換步驟的準確性;以及h)如果使用者想要轉換系統(tǒng)測試準確性,則從使用者接收和轉換測試輸入語音。
15.如權利要求1中申明的方法,進一步包含以下步驟g)確定自動啟動語音識別改善工具的步驟是否被取消;以及h)如果自動啟動語音識別改善工具的步驟被取消,則不進行自動啟動步驟。
16.把輸入語音轉換成文本格式的轉換裝置,該裝置包含一個計算機,它接收輸入語音,把輸入語音轉換成轉換后的語音,監(jiān)視轉換后語音的準確性,確定轉換后語音的準確性是否足夠,當準確性不夠時自動啟動一語音識別改善工具,以及使用語音識別改善工具改善轉換步驟的準確性;一個顯示監(jiān)視器,它與計算機相連,顯示轉換后的語音;以及一個送話器,它與計算機相連,接收輸入的語音。
17.一種機器可讀存儲器,在其上已存儲了一個計算機程序,該計算機程序有多個代碼段,可由計算機執(zhí)行以使機器完成以下步驟a)把輸入語音轉換成轉換后的語音,它包括文本格式的詞的順序列表;b)監(jiān)視轉換后語音的準確性;c)確定轉換后語音的準確性是否足夠;d)一旦確定轉換后語音的準確性不夠,便自動啟動一個語音識別改善工具;以及e)使用語音識別改善工具改善轉換步驟的準確性。
全文摘要
一個轉換系統(tǒng)包括計算機、監(jiān)視器和一個送話器。通過送話器,該系統(tǒng)的使用者提供輸入語音,由該系統(tǒng)接收和轉換。系統(tǒng)監(jiān)視轉換過程中轉換后語音的準確性。該系統(tǒng)還確定轉換后語音的準確性是否足夠,如果不夠則自動啟動一語音識別改善工具和提醒使用者已啟動了該工具。這一工具還可由使用者人工啟動。識別問題類型由使用者或由系統(tǒng)自動辨識,而系統(tǒng)提供可能的解決步驟以使使用者能調節(jié)系統(tǒng)參數(shù)和修改使用者行為以緩解該識別問題。
文檔編號G06F3/16GK1279461SQ0011838
公開日2001年1月10日 申請日期2000年6月14日 優(yōu)先權日1999年6月30日
發(fā)明者克里·A·奧特格, 漢斯·阿格, 阿瑟·凱勒, 羅納德·E·萬布思科克, 王·惠芳(音譯), 詹姆斯·R·劉易斯 申請人:國際商業(yè)機器公司