專利名稱:采用用戶接口的智能語音識別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音至文本的自動變換領(lǐng)域,尤其涉及對已經(jīng)從語音自動轉(zhuǎn)換成為文本進行的自動文本修改。自動文本修改按照修改規(guī)則檢測文本部分、生成智能修改建議,并與具有最終文本修改決定權(quán)的用戶進行交互。
將語音轉(zhuǎn)換成書寫文本的語音識別系統(tǒng)在本領(lǐng)域中是眾所周知的。商用語音識別系統(tǒng)目前已被醫(yī)學界(例如用在醫(yī)院中)和法律界廣泛采用。將口授語言轉(zhuǎn)換成書寫文本的語音識別由于不再需要由打字員進行口授的轉(zhuǎn)錄而節(jié)省了時間、降低了成本。
通常情況下,口授不僅含有待轉(zhuǎn)換的文本,而且還包含要由語音識別系統(tǒng)解譯的命令。標點符號命令不應當按照字面轉(zhuǎn)換,例如“冒號”、“句號”。標點符號命令或格式化的、加亮命令也應當由智能轉(zhuǎn)換系統(tǒng)進行識別和解譯。所識別的文本與所解譯的命令最終產(chǎn)生必須由人類校對者或編輯人員進行校對的文件。
商用語音識別系統(tǒng)如Philips Electronics N.V公司的SpeechMagicTM和IBM公司的ViaVoiceTM的特點就是文本識別和命令解譯。這兩種商用語音識別系統(tǒng)可以組裝在文本處理軟件產(chǎn)品內(nèi),用來轉(zhuǎn)換、編輯、校正和格式化文本。另外,這些商用系統(tǒng)還提供用戶和個人電腦之間的話音受控交互。對語音指令的解釋啟動菜單選項和其它定制的軟件功能,例如瀏覽互聯(lián)網(wǎng)。
盡管如此口授固有的特點是模糊不清的文本部分,比如一些數(shù)必須根據(jù)口授的語境解釋為數(shù)字或按字面解釋為書寫文本。這些模糊不清的文本部分很容易被自動語音識別系統(tǒng)錯誤解釋。此外,基于系統(tǒng)對文本格式或文本的加亮命令的解釋可能出錯。這種無法避免發(fā)生的系統(tǒng)解釋錯誤必須由校對者進行人工校正,從而降低了整個語音識別系統(tǒng)的效率。因此,人們非常希望能夠有一種支持對潛在的模糊不清或解釋錯誤的文本部分進行修改或校正的系統(tǒng),以便于進行校對。
用于文本處理系統(tǒng)的特定文本校正、文本修改系統(tǒng)在本領(lǐng)域中是眾所周知的。WO 97/49043中描述了一種檢驗文件的拼寫、語法結(jié)構(gòu)準確性的方法和系統(tǒng)。在一種電子文件中,取出某一句子,并檢查所取出的句子中的單詞是否有拼寫錯誤。當系統(tǒng)檢測到有拼寫錯誤的單詞時,在拼寫和語法組合對話框中顯示一條指示。顯示出現(xiàn)拼寫錯誤的單詞和整個句子。另外,拼寫檢驗程序模塊接收拼寫和語法組合對話框中的建議列表框中顯示的建議。隨后,用戶通過選擇拼寫和語法組合對話框中的一個命令按鈕,來輸入一條命令。響應于用戶選擇這些命令按鈕之一,該方法執(zhí)行相應的步驟。采用類似的方法,本方法可以應用于對句子進行語法檢查。
美國專利6047300中描述了一種對拼寫錯誤的單詞進行自動校正的系統(tǒng)和方法。在該系統(tǒng)中,如果檢測到某一單詞的拼寫有錯誤,那么就產(chǎn)生一個拼寫正確的替換詞。按照一組不同的標準,將該拼寫錯誤的單詞與拼寫正確的替換詞進行比較。如果各種不同的標準比較的結(jié)果滿足選擇標準,那么就用拼寫正確的替換單詞來替換拼寫錯誤的單詞。既使檢測到某一單詞拼寫有錯,該用戶也可能希望使輸入的單詞保留原樣。為了保持輸入的單詞,必須克服對拼寫錯誤的單詞所進行的自動替換。為了克服替換,該專利申請文件公開了一種拼寫實施例,它包括一個例外單詞表。例外單詞必須由用戶定義,并且將不被替換。用戶可以對例外單詞表進行編輯,以增加、去除例外單詞。
美國專利6047300還公開了一種拼寫實施例,按照該實施例,在某一拼寫錯誤的單詞被正確拼寫的單詞所替換時,用戶會或者不會接收一則通知。如果該用戶接收到一則替換通知,則用戶就了解了要進行的替換,并且可以確認或拒絕進行該替換。
上述引用的文件僅僅涉及列出電子文本文件中的錯誤拼寫或不恰當?shù)恼Z法結(jié)構(gòu)。但是由于模糊文本部分是拼寫正確的,因此采用上述方法并不能識別語音至文本轉(zhuǎn)換時所產(chǎn)生的模糊不清的文本部分。同樣,通常并不能采用上述校正、驗證系統(tǒng)來檢測到口授中所包括的并且從自動語音識別系統(tǒng)按字面轉(zhuǎn)換而來的文本格式化命令或文本加亮的命令。通常,這些系統(tǒng)不適于對電子文本執(zhí)行基于語境的修改。
本發(fā)明旨在提供一種利用用戶交互對由語音至文本的識別系統(tǒng)所產(chǎn)生的電子文本進行自動文本修改的方法、系統(tǒng)、圖形用戶接口和計算機程序產(chǎn)品。
本發(fā)明提供了一種利用用戶交互進行的自動文本修改。優(yōu)選地,直接執(zhí)行可靠的修改動作,如直接解譯非模糊命令或非模糊文本部分。相反,當檢測到不可靠的動作如模糊文本部分或無法解析的命令時,本方法在執(zhí)行修改動作之前請求人類專業(yè)人員。向用戶指示執(zhí)行的修改動作以及對人類專業(yè)人員的請求。利用這一途徑,用戶得到了對經(jīng)修改的文本部分和/或潛在解譯錯誤的口授命令和/或模糊文本部分以及涉及語音至文本識別的其它潛在問題的簡便、有效的訪問途徑。
例如,任何類型的數(shù)都與模糊文本部分相關(guān)。由于一個數(shù)可以被解譯成是用阿拉伯數(shù)字書寫的數(shù),或者是一個順序號(enumeration),或者按字面解釋為一個詞,因此語音至文本識別系統(tǒng)需要人類專業(yè)人員的幫助。一個數(shù)是要寫成數(shù)字、順序號還是一個詞,需要根據(jù)語境來作出判斷。這些模糊文本部分是由系統(tǒng)自動識別的,并且在所生成的文本中加亮。利用這樣的方法,系統(tǒng)向校對者給出有關(guān)在語音至文本轉(zhuǎn)換步驟中可能已經(jīng)出現(xiàn)的潛在錯誤解譯的智能指示。
發(fā)生錯誤解譯的不僅是數(shù)字,也可以是某些短語或單詞。取決于語境,單詞“冒號”可以寫成“冒號”(例如在醫(yī)學報告中),也可以作為印刷符號寫成“”。
按照本發(fā)明的一種優(yōu)選實施例,系統(tǒng)的特征在于可以采用幾種規(guī)則來識別在被識別的文本中可能需要進行修改的文本部分。所產(chǎn)生的文本顯示在用戶接口上用于校對。為了便于進行校對,在文本中加亮潛在的文本修改部分。可以借助任何一種強調(diào)方式來執(zhí)行加亮,例如要修改的文本的不同的顏色、不同的大小、不同的字體或不同的字樣。
按照本發(fā)明的另一個優(yōu)選實施例,與至少一種所述規(guī)則匹配的文本部分是由系統(tǒng)來自動修改的,并且在文本中被加亮。以這種方式,校對者可以立即識別已經(jīng)由系統(tǒng)修改的那些文本部分。另外,系統(tǒng)提供了一種撤銷功能,使得校對者可以對經(jīng)修改的文本部分進行自動更正。
按照本發(fā)明的另一優(yōu)選實施例,規(guī)則給出了一種置信值,它表示某一被匹配文本部分是否需要進行修改的幾率。當置信值高于第一預定閾值時,自動執(zhí)行文本修改。這時,進行修改時無需給出任何注解或任何進一步的建議。當置信值低于該第一置信值但高于第二閾值時,執(zhí)行自動修改,該自動修改與用戶的一個指示相關(guān)聯(lián)以及與使用戶能夠撤銷所執(zhí)行的修改的撤銷信息相關(guān)聯(lián)。當置信值低于該第二閾值時,不自動執(zhí)行修改,但向用戶指示一條建議,并且系統(tǒng)請求由用戶對該匹配的文本部分是否需要進行修改作出判斷。通常,可以調(diào)節(jié)用于該置信值的閾值,使之適合于校對者或用戶的喜好。
按照本發(fā)明的另一優(yōu)選實施例,規(guī)則所匹配的文本部分不是由系統(tǒng)自動修改的。相反,這需要校對者或用戶的專業(yè)技能,以便判斷是否應當進行修改。因此,在文本中加亮規(guī)則所匹配的文本部分。因此,校對者可以方便地找到被加亮的文本部分。加亮的文本部分通常與一個或幾個文本修改的建議相關(guān)。通常,用戶有可能接受或拒絕系統(tǒng)所產(chǎn)生的建議。文本修改最終是根據(jù)用戶的決定來執(zhí)行的。
根據(jù)文本文件的類型,可以應用基于不同語境的規(guī)則模塊,以便檢測模糊不清或有問題的文本部分?;谡Z境的規(guī)則模塊例如是專用于某一法律實務或某一種醫(yī)學報告的。根據(jù)該語境,這些規(guī)則不僅檢測模糊不清的文本部分,而且還涉及口授中所包含的某些不清楚的命令。
另外,命令如“引文開始引文結(jié)束”可以解譯為僅引用下一個單詞,或解譯成未知長度的引文段的開始。在這些情況下,產(chǎn)生建議或提示并在文本中加亮。單個的規(guī)則還可以指定用來檢測含有順序號符號如“1、2、3_...”或“a)、b)、c)”的文件中的不一致處。由于說話者通常在口授所有順序符號時是不一致的,因此,設(shè)計了一些規(guī)則來檢測一系列順序號中的丟失項。這時,為校對者產(chǎn)生提示或建議。此外,對其它文本段落的引用,例如“相同于”或“如上所述”可以按字面來轉(zhuǎn)換,也可以共同解析這些引用段落并且插入相應的文本。由于任何種類的裝置通常是沒有機會來解析這些引用段落的,因此,如果檢測到某些引用術(shù)語或短語,系統(tǒng)會向人類校對者提供一些指示。
按照本發(fā)明的另一優(yōu)選實施例,當為關(guān)于某一特定的文本部分的文本修改所提供的兩條或多條建議是互相沖突的時候,總是產(chǎn)生建議并且將所涉及的文本部分加亮。在至少兩個不同的規(guī)則為某一特定文本部分提供了的不同建議的情況下,無疑需要求助于人類專業(yè)人員了。按照每一沖突建議的置信值,本方法提供了建議的排序或列表,用戶或校對者能夠根據(jù)其作出選擇。
按照本發(fā)明的另一優(yōu)選實施例,僅在自動文本修改中包含次數(shù)低于某一預定閾值的編輯操作時執(zhí)行自動文本修改。當按照某一特定規(guī)則的文本編輯操作的次數(shù)超過了某一特定的閾值時,只要該校對者還沒有作出決定,就不執(zhí)行適當?shù)奈谋拘薷?。這樣,本方法在進行大量自動編輯操作之前,求助于人類專業(yè)人員。因此,就將可能使由校對者所執(zhí)行的撤銷操作的次數(shù)減少到了最小。與用戶的這種交互節(jié)省了時間、降低了成本。
按照本發(fā)明的另一優(yōu)選實施例,將被識別的文本和按照不同校正規(guī)則產(chǎn)生的建議輸出到一個圖形用戶接口。設(shè)計的圖形用戶接口用來顯示所識別的文本以及顯示潛在文本修改操作的建議??梢砸远喾N不同的方式來顯示某一建議。例如,建議可以以直接位于加亮的與該建議相關(guān)的文本部分旁邊的建議菜單的形式出現(xiàn)。按照本發(fā)明的另一實施例,不同的建議可以出現(xiàn)在圖形用戶接口內(nèi)的單獨的窗口中。
按照本發(fā)明的另一優(yōu)選實施例,只響應于用戶的請求來顯示不同文本部分的多條建議。否則,圖形用戶接口會由于多條建議或多個建議列表而過于擁擠不堪??梢砸远喾N不同的方式來適應用戶的請求,如,通過點擊鼠標按鈕、將鼠標指針移動到加亮的文本部分上、手指觸摸圖形用戶接口上適當?shù)奈恢没蛘吆唵蔚赝ㄟ^在與系統(tǒng)相連的鍵盤上輸入通用的快捷鍵。
還可以采用多種不同的途徑來修改用于單個加亮的文本部分的各條建議的外觀。單個的建議可以按照指定的順序(例如以置信值分類)作為菜單的選項或列表選項來給出,也可以以完全無序方式給出。建議外觀方式可以進一步由用戶來指定。
按照本發(fā)明的另一優(yōu)選實施例,可以以不同的方式執(zhí)行所請求的用戶判定。用戶或者可以選擇必須由系統(tǒng)執(zhí)行的建議之一,也可以人工輸入要由系統(tǒng)執(zhí)行的替代建議。特定建議的選擇可以借助于鼠標指針和鼠標點擊或利用通用快捷鍵來實現(xiàn)。這里,可以在用戶和圖形用戶接口之間采用任何一種其它形式的交互。
按照本發(fā)明的另一優(yōu)選實施例,對特定建議的選擇會引發(fā)相關(guān)的副作用。例如,當系統(tǒng)檢測到某一丟失的順序號時,它會建議實現(xiàn)該順序號。當用戶接著決定插入該丟失的順序號時,系統(tǒng)會自動給出一條提示,其提示緊接著的字母需要大寫。這樣,按照第一條規(guī)則的某一自動修改的執(zhí)行會啟用按照另一規(guī)則的第二種潛在修改。該用戶還可以進一步判斷是否在文件的局部處或全部中引發(fā)這些副作用。
通過將前文中描述的置信值與閾值相關(guān)聯(lián),可以進一步控制由于所執(zhí)行的修改而引發(fā)的副作用。這樣,可以進行區(qū)分,是否在向用戶作出提示或沒有作出提示的情況下自動執(zhí)行某一副作用,或者在沒有與該用戶作出進一步交互的情況下,自動執(zhí)行某一副作用。
下文中將參照附圖,詳細描述本發(fā)明的優(yōu)選實施例。
圖1是執(zhí)行本發(fā)明的方法的流程圖,圖2是執(zhí)行本發(fā)明的第二種方法的流程圖,圖3示出本發(fā)明一種優(yōu)選實施例的方框圖,圖4示出圖形用戶接口的方框圖,圖5是啟用修改規(guī)則的流程圖。
圖1是執(zhí)行按照本發(fā)明的方法的流程圖。在第一個步驟100中,將語音轉(zhuǎn)換成文本。在步驟102中,檢查哪些文本區(qū)域與一項或幾項修改或不一致規(guī)則相匹配。在步驟104中,借助沖突的適用修改規(guī)則或借助某一不一致規(guī)則的匹配,來檢測有問題的文本區(qū)域。在步驟106中,在文本中加亮所識別和檢測到的文本部分。在步驟108中,本方法對于每一加亮的文本部分產(chǎn)生幾條建議,并提供一個建議列表。在步驟110中,如果受用戶請求,則將產(chǎn)生的建議列表顯示在圖形用戶接口上。在步驟112中,用戶選擇一條建議,用戶也可以人工插入某一隨后要插入到文本中的文本修改項。
圖2中示出執(zhí)行自動文本修改的本發(fā)明方法的流程圖。與圖1所描述的類似,在步驟200中,將語音變換成文本。在下一個步驟202中,檢查被識別文本的哪些區(qū)域與一項或幾項修改或不一致規(guī)則匹配。按照不同的規(guī)則,在步驟204中該方法檢測潛在需要受到修改的文本部分。在步驟206中,本方法按照這些規(guī)則自動進行文本修改。由于這些自動文本修改可能會有錯誤,因此在接下來的步驟208中見它們加亮,并且為用戶配備所述修改的一些撤銷信息。這樣,本方法執(zhí)行了自動文本修改,并且還通知用戶在該文本中已經(jīng)執(zhí)行了自動的并且因而是潛在錯誤的修改。
在理想情況下,本方法還提供了一種特定的撤銷功能,使得用戶可以方便地撤銷由自動文本修改系統(tǒng)所執(zhí)行的文本修改。
圖3示出了基于語音至文本轉(zhuǎn)換系統(tǒng)302的本發(fā)明優(yōu)選實施例的方框圖。將自然語音300輸入到語音至文本轉(zhuǎn)換系統(tǒng)302中。語音至文本轉(zhuǎn)換系統(tǒng)302與用戶304進行交互,并產(chǎn)生修改的文本316。語音至文本轉(zhuǎn)換系統(tǒng)302包含語音至文本轉(zhuǎn)換模塊306、規(guī)則匹配檢測器模塊308、規(guī)則執(zhí)行模塊309、以及圖形用戶接口310。語音至文本轉(zhuǎn)換系統(tǒng)302還包含基于語境的規(guī)則模塊312、314。每一基于語境的規(guī)則模塊312、314包含數(shù)據(jù)庫318、324、第一規(guī)則320、326、第二規(guī)則322、328以及本文中沒有進一步指明的其它規(guī)則。
在提供一個經(jīng)識別的文本的語音至文本轉(zhuǎn)換模塊306中,對輸入的語音300進行處理。規(guī)則匹配檢測器模塊308接著將一個或幾個基于語境的規(guī)則模塊312、314應用于經(jīng)識別的文本。為特定的文本范圍指定數(shù)據(jù)庫318、324以及單個的規(guī)則320、322、326、328。例如,數(shù)據(jù)庫318、324指定用于法律實務或醫(yī)學報告。以類似的方法,指定規(guī)則320、322、326、328用于不同的應用領(lǐng)域。根據(jù)所選擇的基于語境的規(guī)則模塊312、314,規(guī)則匹配檢測器模塊308檢測經(jīng)識別的文本內(nèi)可能要進行修改的的文本部分。
對檢測到的文本部分的修改是由規(guī)則執(zhí)行模塊309來執(zhí)行的。按照用戶的喜好,自動修改可以直接由規(guī)則執(zhí)行模塊309來執(zhí)行,也可以按照用戶的決定來執(zhí)行。取決于預定的閾值和置信值,可以向用戶指示與撤銷信息關(guān)聯(lián)或不關(guān)聯(lián)的優(yōu)選修改。通過圖形用戶接口310,向用戶指示需要用戶的決定。通過圖形用戶接口310來處理語音至文本轉(zhuǎn)換系統(tǒng)302與用戶304之間的交互。當系統(tǒng)執(zhí)行了自動文本修改時,將合適的文本部分在圖形用戶接口310上加亮。其修改需要用戶決定的文本部分也在圖形用戶接口310上被加亮。當系統(tǒng)按照規(guī)則320、322、326、328產(chǎn)生了某一自動修改的建議時,這些建議也通過圖形用戶接口310被顯示出來。用戶的決定以及對所識別文本的自動文本修改的執(zhí)行最終給出經(jīng)修改的文本316,并將其從語音至文本轉(zhuǎn)換系統(tǒng)302中輸出。另外,當某一文本部分與某一不一致規(guī)則(其被應用于例如缺失順序號、無法解析的索引或其它的不一致)相匹配時,在圖形用戶接口310上產(chǎn)生表示文本不一致的警告圖標。
圖4示出本發(fā)明的圖形用戶接口400的方框圖。圖形用戶接口400包含文本窗口402和建議窗口404。文本窗口402通常含有幾個加亮的文本部分406,其表示潛在修改或文本不一致的警告圖標??梢杂貌煌姆绞?例如不同的顏色、不同字體或其它優(yōu)選的視覺指示符)將文本加亮??梢越柚谋敬翱?02中或建議窗口404中的建議列表410來顯示某一被加亮的文本部分的各項修改建議。建議窗口404以及任一建議列表410、412可以總是出現(xiàn)在圖形用戶接口400內(nèi),但也可以只應用戶的要求來顯示。
借助于鼠標指針408,用戶可以選擇特定加亮的文本部分406,為該部分顯示合適的建議列表410、412或建議窗口404。選擇加亮的文本部分406(為其顯示建議列表410、412)還可以借助任何一種其它類型的輸入裝置,如鍵盤快捷鍵、觸摸屏、甚至是用戶的語音命令來執(zhí)行。借助于同樣的裝置,用戶最終可以選擇建議列表410、412中所提供的一項建議,用戶也可以人工輸入替代文本部分。
圖5示出了針對作為文本修改的副作用而觸發(fā)規(guī)則的文本修改執(zhí)行過程的流程圖。在第一個步驟500中,檢查所識別的文本的哪一個部分是符合一項或幾項修改或不一致規(guī)則的。在步驟502中,檢測到N個潛在需要受到自動文本修改的文本部分,并且開始啟用索引j(j=1)。步驟504將索引j與潛在需要受到修改的文本部分的個數(shù)N相比較。如果j大于N,則該方法進入步驟518,并且結(jié)束修改。如果在步驟504中,j小于或等于N,則在步驟506中在識別的文本中將第一個文本部分(j=1)加亮。在步驟508中,該方法提供了一種將顯示在圖形用戶接口上的文本修改的建議列表。在步驟510中,進行與用戶的交互。接著,在步驟512中,依照與用戶的交互來修改文本部分j。
接下來的步驟514檢查所執(zhí)行的文本修改是否觸發(fā)其它的文本修改規(guī)則。例如,當?shù)谝豁椥薷妮斎雭G失的標點如“.”時,下一個句子中開頭的單詞按照另一個規(guī)則必須大寫。當在步驟514中,所執(zhí)行的修改觸發(fā)了這樣的另一規(guī)則時,在步驟516中將該規(guī)則應用于文本部分。在已經(jīng)將該另一規(guī)則應用于指定的文本部分以后,該方法回到步驟506,并對所選擇的規(guī)則執(zhí)行相同的建議和交互過程。相反,當在步驟514中所執(zhí)行的修改沒有觸發(fā)其它規(guī)則時,索引j遞增1,并且該方法回到步驟504。
參考符號表300 語音302 語音至文本轉(zhuǎn)換系統(tǒng)304 用戶306 語音至文本變換模塊308 規(guī)則匹配檢測器模塊309 規(guī)則執(zhí)行模塊310 圖形用戶接口312 基于語境的規(guī)則模塊314 基于語境的規(guī)則模塊316 修改的文本318 數(shù)據(jù)庫320 規(guī)則322 規(guī)則324 數(shù)據(jù)庫326 規(guī)則328 規(guī)則400 圖形用戶接口402 文本窗口404 建議窗口406 加亮的文本408 鼠標指針410 建議列表412 建議列表
權(quán)利要求
1.一種將語音轉(zhuǎn)換成文本的方法,包含下述步驟-執(zhí)行語音識別步驟,以提供一文本,-對所述文本應用至少一項規(guī)則,以執(zhí)行至少一項自動文本修改,-在用戶接口上輸出所述文本,-在所述用戶接口上輸出至少一項建議,用于自動文本修改。
2.如權(quán)利要求1所述的方法,其中所述至少一項文本修改是自動執(zhí)行的,并且在所述文本中被加亮,以供用戶審核。
3.如權(quán)利要求1所述的方法,其中與所述至少一項建議相關(guān)的文本部分在所述文本中被加亮,并且響應于用戶接受所述建議來執(zhí)行至少一項文本修改。
4.如權(quán)利要求1至3中任一權(quán)利要求所述的方法,所述至少一項規(guī)則提供所述至少一項修改的置信值,其中,所述建議僅在所述置信值低于一個閾值時輸出,以供用戶審核。
5.如權(quán)利要求1至4中任一權(quán)利要求所述的方法,其中,當提供了至少第一和第二用于所述文本修改的沖突建議時,輸出這些建議以供用戶選擇。
6.如權(quán)利要求1至5中任一權(quán)利要求所述的方法,其中,所述文本修改包含多項編輯操作,當所述編輯操作的數(shù)量超過預定閾值時,輸出用于所述文本修改的建議。
7.如權(quán)利要求1至6中任一權(quán)利要求所述的方法,其中,所述文本和所述建議被輸出至圖形用戶接口。
8.如權(quán)利要求1至7中任一權(quán)利要求所述的方法,其中,當所述用戶輸入一項建議命令時,顯示至少一項建議。
9.如權(quán)利要求2至8中任一權(quán)利要求所述的方法,其中,所述用戶審核包含通過輸入選擇命令來選擇一項建議或人工輸入文本修改。
10.如權(quán)利要求1至9中任一權(quán)利要求所述的方法,其中,按照由第一規(guī)則提供的至少一項建議,來執(zhí)行第一自動文本修改,并且還包含對所述第一文本修改應用至少第二規(guī)則,并輸出至少第二建議,用于第二自動文本修改。
11.一種語音至文本的轉(zhuǎn)換系統(tǒng)(302),其包括-執(zhí)行語音識別步驟以提供文本的裝置,-對所述文本應用至少一項規(guī)則(320,322,326,328)用以執(zhí)行至少一項自動修改的裝置,-在用戶接口上輸出所述文本并輸出所述自動文本修改的至少一項建議的裝置。
12.如權(quán)利要求11所述的系統(tǒng),包含加亮文本修改或與至少一項建議相關(guān)的文本部分以供用戶審核的裝置。
13.如權(quán)利要求11或12所述的系統(tǒng),其包含在提供用于文本修改的至少第一和第二建議沖突時或在文本修改包括多項編輯操作而其數(shù)目超過一個預定閾值時,產(chǎn)生至少一項建議輸出的裝置。
14.如權(quán)利要求11至13中任一權(quán)利要求所述的系統(tǒng),包含當所述用戶(304)輸入一項建議指令時,在圖形用戶接口(310;400)上顯示所述至少一項建議的裝置。
15.如權(quán)利要求11至14中任何一條權(quán)利要求所述的系統(tǒng),包含按照由第一規(guī)則(320,…;326,…)所提供的第一建議進行第一自動文本修改的裝置,并且還包含對所述第一次文本修改應用至少第二規(guī)則(322,…;328,…)并且輸出至少第二條建議以供第二次自動文本修改的裝置。
16.一種用于語音至文本轉(zhuǎn)換系統(tǒng)(302)的圖形用戶接口(310;400),所述系統(tǒng)(302)具有用于執(zhí)行至少一項自動文本修改的至少一項規(guī)則(320,322,326,328),并且具有用于自動文本修改的至少一項建議,所述圖形用戶接口(310;400)包含-產(chǎn)生所述文本的顯示的裝置,-加亮文本并加亮與所述至少一項建議相關(guān)的文本部分的裝置,-顯示所述至少一項建議以供所述自動文本修改的裝置。
17.如權(quán)利要求16所述的圖形用戶接口,還包含由所述用戶輸入一項建議指令以便啟動所述至少一項建議的顯示的裝置。
18.一種用于語音至文本轉(zhuǎn)換系統(tǒng)的計算機程序產(chǎn)品,所包含的程序裝置用于-執(zhí)行語音識別步驟,以提供一文本,-對所述文本應用至少一項規(guī)則,以便執(zhí)行至少一項自動文本修改,-在用戶接口上輸出所述文本,-輸出用于自動文本修改的至少一項建議,以供用戶審核。
19.如權(quán)利要求18所述的計算機程序產(chǎn)品,所述程序裝置用來執(zhí)行下述步驟-當為文本修改提供至少第一和第二沖突建議時,輸出建議以供用戶選擇,-當所述文本修改包含的編輯操作數(shù)目超過預定的閾值數(shù)目時,輸出一項建議以供用戶選擇。
20.如權(quán)利要求18或19所述的計算機程序產(chǎn)品,所述程序裝置使用于按照第一規(guī)則所提供的第一建議執(zhí)行第一自動文本修改,并且還包含對所述第一項文本修改應用至少第二規(guī)則,并輸出至少第二建議以供第二自動文本修改。
全文摘要
本發(fā)明涉及一種將語音轉(zhuǎn)換成文本的方法、裝置、圖形用戶接口和計算機程序產(chǎn)品。在語音識別步驟(100)中,提供一種文本,對其實施基于文本修改規(guī)則的自動文本修改(102)。加亮文本中對其進行修改的文本部分(106),并向用戶顯示至少一條用于修改的建議(110),使得用戶能夠選擇一條建議,并且因此對自動文本修改過程進行控制(112)。例如,這些規(guī)則識別語音識別步驟中可能已經(jīng)被錯誤解譯的有關(guān)模糊語音或丟失的文本格式字符的文本部分。
文檔編號G10L15/22GK1871638SQ200480030892
公開日2006年11月29日 申請日期2004年10月13日 優(yōu)先權(quán)日2003年10月21日
發(fā)明者J·彼得斯 申請人:皇家飛利浦電子股份有限公司