專(zhuān)利名稱(chēng):使用轉(zhuǎn)錄門(mén)戶(hù)組件隨需轉(zhuǎn)錄語(yǔ)音的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自動(dòng)語(yǔ)音識(shí)別領(lǐng)域,更具體地涉及用于隨需轉(zhuǎn)錄的方法和系統(tǒng)。
背景技術(shù):
基于計(jì)算機(jī)的語(yǔ)音轉(zhuǎn)錄傳統(tǒng)上是一種客戶(hù)-服務(wù)器模型應(yīng)用,其中由客戶(hù)捕獲轉(zhuǎn)錄作業(yè),并提交到服務(wù)器以便處理。在服務(wù)器上裝載并運(yùn)行語(yǔ)音識(shí)別軟件。為使用轉(zhuǎn)錄服務(wù),該軟件的用戶(hù)必須首先典型地通過(guò)讀標(biāo)準(zhǔn)化的原稿來(lái)注冊(cè)并建立用戶(hù)簡(jiǎn)檔,以便軟件能夠識(shí)別用戶(hù)獨(dú)特的語(yǔ)音模式。典型地在與語(yǔ)音識(shí)別軟件所在的同一服務(wù)器上存儲(chǔ)用戶(hù)簡(jiǎn)檔?;蛘?,轉(zhuǎn)錄本身可由打字員手動(dòng)完成,并反饋回系統(tǒng)中。一旦轉(zhuǎn)錄完成,就在單獨(dú)的數(shù)據(jù)庫(kù)中使結(jié)果對(duì)客戶(hù)可用,以便其查詢(xún)結(jié)果。這類(lèi)系統(tǒng)在維護(hù)數(shù)百個(gè)用戶(hù)并管理他們的注冊(cè)數(shù)據(jù)以及數(shù)千個(gè)作業(yè)時(shí)具有很大的開(kāi)銷(xiāo),并且無(wú)法隨需利用。
已知的轉(zhuǎn)錄系統(tǒng)很難伸縮以便大量用戶(hù)可同時(shí)輸入不同的音頻數(shù)據(jù)來(lái)進(jìn)行檢索。當(dāng)處理用戶(hù)的轉(zhuǎn)錄(這可能涉及使用手動(dòng)打字和校正)時(shí),用戶(hù)典型地必須等待。這對(duì)于用戶(hù)產(chǎn)生了不希望的延遲。
例如,授予Kahn等人(Kahn)的美國(guó)專(zhuān)利No.6,122,614公開(kāi)了這樣一種已知的轉(zhuǎn)錄系統(tǒng)。Kahn公開(kāi)了通過(guò)在目錄系統(tǒng)中創(chuàng)建用戶(hù)簡(jiǎn)檔來(lái)處理多個(gè)用戶(hù)的轉(zhuǎn)錄服務(wù)器,其中為每一用戶(hù)使用一子目錄。在訓(xùn)練期間,人類(lèi)轉(zhuǎn)錄員為每一接收的聲音口授文件創(chuàng)建轉(zhuǎn)錄文件。一旦用戶(hù)已通過(guò)了訓(xùn)練時(shí)期,則將口授文件路由到語(yǔ)音識(shí)別程序。運(yùn)行一轉(zhuǎn)錄會(huì)話(huà),并且通過(guò)手動(dòng)校正文本并發(fā)送文本以便校正來(lái)完成任何語(yǔ)音調(diào)整。使用特定用戶(hù)的語(yǔ)音簡(jiǎn)檔的這種語(yǔ)音識(shí)別系統(tǒng)必須運(yùn)行于存在該特定用戶(hù)的目錄存在的系統(tǒng)上。此外,在本參考中描述的系統(tǒng)是批方式系統(tǒng),其中數(shù)據(jù)被提交、排隊(duì)并然后在對(duì)于服務(wù)器方便的時(shí)間運(yùn)行。
發(fā)明內(nèi)容
本發(fā)明提供一種用于隨需的自動(dòng)語(yǔ)音識(shí)別(ASR)文本轉(zhuǎn)錄的計(jì)算機(jī)實(shí)現(xiàn)的方法和系統(tǒng)。
本發(fā)明的一個(gè)方面涉及一種方法,該方法包括提供包括具有用于各個(gè)用戶(hù)的個(gè)人化語(yǔ)音簡(jiǎn)檔的用戶(hù)數(shù)據(jù)的轉(zhuǎn)錄門(mén)戶(hù)組件(portlet)。該轉(zhuǎn)錄門(mén)戶(hù)組件可接收音頻數(shù)據(jù)??勺R(shí)別與該音頻數(shù)據(jù)相關(guān)聯(lián)的用戶(hù)??纱_定與所識(shí)別用戶(hù)對(duì)應(yīng)的個(gè)人化語(yǔ)音簡(jiǎn)檔??墒褂盟_定的個(gè)人化語(yǔ)音簡(jiǎn)檔轉(zhuǎn)錄該音頻數(shù)據(jù),以生成轉(zhuǎn)錄文本。轉(zhuǎn)錄門(mén)戶(hù)組件可呈現(xiàn)該轉(zhuǎn)錄文本。
本發(fā)明的另一個(gè)方面涉及包括Web門(mén)戶(hù)和至少一個(gè)轉(zhuǎn)錄服務(wù)器的轉(zhuǎn)錄系統(tǒng)。該Web門(mén)戶(hù)可包括轉(zhuǎn)錄門(mén)戶(hù)組件,該轉(zhuǎn)錄門(mén)戶(hù)組件被配置用于接收用戶(hù)提供的音頻數(shù)據(jù),使用至少一個(gè)轉(zhuǎn)錄服務(wù)器來(lái)將音頻數(shù)據(jù)轉(zhuǎn)錄為轉(zhuǎn)錄文本,并將轉(zhuǎn)錄文本呈現(xiàn)給提供了該音頻數(shù)據(jù)的用戶(hù)。
應(yīng)該注意,本發(fā)明可被實(shí)現(xiàn)為一種用于控制計(jì)算機(jī)來(lái)實(shí)現(xiàn)此處所述功能的程序,或一種用于使計(jì)算機(jī)能執(zhí)行對(duì)應(yīng)于此處所公開(kāi)的步驟的過(guò)程的程序??赏ㄟ^(guò)將程序存儲(chǔ)在磁盤(pán)、光盤(pán)、半導(dǎo)體存儲(chǔ)器、任何其他記錄媒體之中來(lái)提供此程序,或通過(guò)網(wǎng)絡(luò)分發(fā)此程序。
在附圖中示出了當(dāng)前優(yōu)選的實(shí)施例;不過(guò)應(yīng)當(dāng)理解,本發(fā)明并不局限于所示出的確切裝置和工具。
圖1是說(shuō)明了可在其中使用根據(jù)本發(fā)明一個(gè)實(shí)施例的系統(tǒng)的多模態(tài)(multimodal)通信環(huán)境的示意圖。
圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的系統(tǒng)的示意圖。
圖3是說(shuō)明了根據(jù)本發(fā)明另一個(gè)實(shí)施例的方法的流程圖。
圖4是適合于查看轉(zhuǎn)錄結(jié)果的Web界面的說(shuō)明性圖像。
具體實(shí)施例方式
圖1是說(shuō)明了可在其中根據(jù)本發(fā)明使用用于隨需轉(zhuǎn)錄語(yǔ)音的系統(tǒng)200的多模態(tài)通信環(huán)境100的示意圖。如所說(shuō)明的,通信環(huán)境100可以包括通信網(wǎng)絡(luò)110。通信網(wǎng)絡(luò)110可以包括但不限于局域網(wǎng)、廣域網(wǎng)、公共交換電話(huà)網(wǎng)、無(wú)線(xiàn)或移動(dòng)通信網(wǎng)、或因特網(wǎng)。說(shuō)明性地,系統(tǒng)200也能夠通過(guò)另一個(gè)或同一個(gè)通信網(wǎng)絡(luò)110與計(jì)算機(jī)系統(tǒng)120和電話(huà)130進(jìn)行電子通信,以便進(jìn)行轉(zhuǎn)錄輸入和輸出。系統(tǒng)200也能夠與由校正員操作的計(jì)算機(jī)系統(tǒng)140進(jìn)行電子通信,以便校正所轉(zhuǎn)錄的語(yǔ)音。
從隨后的描述中,將很容易地看到,所說(shuō)明的多模態(tài)通信環(huán)境100僅僅是可在其中方便地使用系統(tǒng)200的多模態(tài)通信環(huán)境的一種類(lèi)型。其他多模態(tài)通信環(huán)境例如可以包括說(shuō)明性示出的不同部件的各種子集。
另外參考圖2,系統(tǒng)200說(shuō)明性地包括一個(gè)或多個(gè)轉(zhuǎn)錄服務(wù)器210和Web/門(mén)戶(hù)服務(wù)器220。轉(zhuǎn)錄服務(wù)器210具有在其上裝載的自動(dòng)語(yǔ)音識(shí)別(ASR)引擎??墒褂萌魏芜m當(dāng)?shù)腁SR,例如IBM的Recognition Engine軟件。Web/門(mén)戶(hù)服務(wù)器220具有在其上裝載的門(mén)戶(hù)服務(wù)器應(yīng)用,例如IBM的WebSphere Portal Server軟件。此外,在Web/門(mén)戶(hù)服務(wù)器上裝載了控制在系統(tǒng)200的部件之間的數(shù)據(jù)流的轉(zhuǎn)錄門(mén)戶(hù)組件。也可包括了一個(gè)或多個(gè)通信設(shè)備和通過(guò)其連接該應(yīng)用程序的應(yīng)用程序接口(API)。
應(yīng)該理解,圖2中示出的裝置僅用于說(shuō)明性的目的,并且本發(fā)明在這方面是不受限制的??捎貌煌诖颂幩f(shuō)明的方式組合或分離可歸于各部件的功能。例如,在本發(fā)明的另一安排中,可將門(mén)戶(hù)服務(wù)器和轉(zhuǎn)錄門(mén)戶(hù)組件實(shí)現(xiàn)為單個(gè)軟件部件。所說(shuō)明的通信部件僅是代表性的,并且應(yīng)該理解,在本發(fā)明的裝置中可利用能夠發(fā)送和/或接收音頻文件和/或轉(zhuǎn)錄文本的任何通信部件。
圖3是說(shuō)明了根據(jù)本發(fā)明的方面的語(yǔ)音轉(zhuǎn)錄的方法300的流程圖。如果用戶(hù)希望將音頻數(shù)據(jù)轉(zhuǎn)錄為文本,該用戶(hù)可請(qǐng)求訪(fǎng)問(wèn)系統(tǒng)200。方法300可開(kāi)始于步驟310。在步驟310中,管理員將一轉(zhuǎn)錄門(mén)戶(hù)組件添加到該用戶(hù)的簡(jiǎn)檔。也可通過(guò)例如用戶(hù)登錄到基于因特網(wǎng)的應(yīng)用并隨著提示設(shè)置他們自己的簡(jiǎn)檔而加入系統(tǒng)200來(lái)完成此步驟。在步驟320中,一旦已將轉(zhuǎn)錄門(mén)戶(hù)組件添加到用戶(hù)簡(jiǎn)檔,則用戶(hù)登錄到該門(mén)戶(hù)。用戶(hù)可使用任何適當(dāng)?shù)耐ㄐ旁O(shè)備登錄到門(mén)戶(hù),包括但并不限于電話(huà)、帶有Web瀏覽器的移動(dòng)電話(huà)、連接有麥克風(fēng)的計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)等。
在步驟330中,門(mén)戶(hù)服務(wù)器程序(未示出)查詢(xún)用于該用戶(hù)的注冊(cè)數(shù)據(jù)。如果用戶(hù)是該系統(tǒng)的新用戶(hù),則提示其進(jìn)行注冊(cè)。注冊(cè)過(guò)程可包括捕獲用于創(chuàng)建用戶(hù)的個(gè)人化簡(jiǎn)檔的帶原稿的音頻文件。可在用戶(hù)的Web瀏覽器中對(duì)用戶(hù)顯示該原稿,或者通過(guò)例如電子郵件的任何適當(dāng)?shù)姆椒▽⒃撛灏l(fā)送給用戶(hù)。用戶(hù)讀出該原稿并將捕獲的音頻文件發(fā)送到系統(tǒng)200。在語(yǔ)音識(shí)別引擎上收集音頻文件并為用戶(hù)運(yùn)行注冊(cè),以便為用戶(hù)在其注冊(cè)數(shù)據(jù)中創(chuàng)建語(yǔ)音簡(jiǎn)檔。注冊(cè)數(shù)據(jù)被保存在門(mén)戶(hù)人個(gè)化數(shù)據(jù)庫(kù)中。
一旦用戶(hù)已注冊(cè),則該用戶(hù)可以開(kāi)始上載要被轉(zhuǎn)錄的音頻數(shù)據(jù)。在步驟340中,從電話(huà)或與瀏覽器連接的麥克風(fēng)或者從API捕獲音頻數(shù)據(jù)。可通過(guò)任何適當(dāng)?shù)姆椒ú东@音頻,并且系統(tǒng)優(yōu)選地是多模態(tài)的,以便用戶(hù)可選擇用戶(hù)希望使用的任何適當(dāng)?shù)囊纛l捕獲方法,而且有利的是,本發(fā)明在這方面不受限制??衫斫?,具有音頻能力的任何應(yīng)用可使用在門(mén)戶(hù)服務(wù)器上裝載的轉(zhuǎn)錄門(mén)戶(hù)組件,以將音頻文件轉(zhuǎn)發(fā)到轉(zhuǎn)錄服務(wù)器??捎砷T(mén)戶(hù)組件使用例如IBM的WebSphere語(yǔ)音服務(wù)器的任何適當(dāng)?shù)恼Z(yǔ)音捕獲程序來(lái)捕獲音頻。
例如,語(yǔ)音服務(wù)器可以運(yùn)行一程序,例如通過(guò)電話(huà)的VoiceXML,或者系統(tǒng)可以使用捕獲音頻的小應(yīng)用程序。在另一示例中,可將音頻附加在電子郵件上,并發(fā)送到語(yǔ)音服務(wù)器或其他適當(dāng)?shù)姆?wù)器或應(yīng)用。例如,在一個(gè)安排中,郵件應(yīng)用可從音頻源捕獲音頻,可將所捕獲的音頻轉(zhuǎn)錄為文本,以及可通過(guò)電子郵件將所捕獲的音頻和/或所轉(zhuǎn)錄的文本作為附件傳送。應(yīng)該注意,所述系統(tǒng)可有利地使用VoiceXML,而無(wú)需任何擴(kuò)展。
在步驟350中,轉(zhuǎn)錄門(mén)戶(hù)組件從門(mén)戶(hù)人個(gè)化數(shù)據(jù)庫(kù)中裝載用戶(hù)語(yǔ)音簡(jiǎn)檔,并通過(guò)將音頻文件和用戶(hù)語(yǔ)音簡(jiǎn)檔發(fā)送到轉(zhuǎn)錄服務(wù)器210來(lái)開(kāi)始轉(zhuǎn)錄會(huì)話(huà)。用戶(hù)數(shù)據(jù)存儲(chǔ)于門(mén)戶(hù)服務(wù)器220上,并僅當(dāng)即將在轉(zhuǎn)錄服務(wù)器上運(yùn)行作業(yè)時(shí)才被饋給轉(zhuǎn)錄服務(wù)器210。因此,可將任何數(shù)量的轉(zhuǎn)錄服務(wù)器210連接到系統(tǒng)200,并且門(mén)戶(hù)服務(wù)器220可將轉(zhuǎn)錄作業(yè)路由給任一適當(dāng)?shù)霓D(zhuǎn)錄服務(wù)器210,以便在可能的最快時(shí)間內(nèi)接收到轉(zhuǎn)錄結(jié)果。這使系統(tǒng)可被容易地伸縮,從而大量用戶(hù)可同時(shí)請(qǐng)求轉(zhuǎn)錄,因?yàn)楫?dāng)需求上升時(shí)可將更多轉(zhuǎn)錄服務(wù)器210添加到系統(tǒng)200,而無(wú)需將包含了用戶(hù)簡(jiǎn)檔的門(mén)戶(hù)人個(gè)化數(shù)據(jù)庫(kù)復(fù)制或更新到每一服務(wù)器。
門(mén)戶(hù)服務(wù)器220也處理用于校正/更新用戶(hù)簡(jiǎn)檔的GUI門(mén)戶(hù)組件。將結(jié)果作為表單結(jié)果通過(guò)電子郵件、Web瀏覽器、文本到語(yǔ)音轉(zhuǎn)換返回用戶(hù),或者將結(jié)果通過(guò)API回調(diào)或作為到數(shù)據(jù)庫(kù)的記錄返回用戶(hù)??梢杂美鏷tml的任何希望的格式將所轉(zhuǎn)換的文本傳送給用戶(hù)。例如使用計(jì)算機(jī)120的用戶(hù)可接著查看轉(zhuǎn)錄結(jié)果。可使用例如圖4中說(shuō)明性示出的Web界面400顯示結(jié)果。Web界面400可包括用戶(hù)ID數(shù)據(jù)410、用于操作連接于運(yùn)行該Web界面的計(jì)算機(jī)的麥克風(fēng)的音頻輸入按鈕420、轉(zhuǎn)錄作業(yè)列表430和其他數(shù)據(jù)。作為另一種選擇,可將結(jié)果反饋回用戶(hù)用來(lái)上載音頻數(shù)據(jù)的同一接口。在許多例子中,這可以是有用的,例如,醫(yī)生可使用圖像查看門(mén)戶(hù)來(lái)查看例如病人掃描檢查的圖像。圖像查看門(mén)戶(hù)可包括音頻門(mén)戶(hù),當(dāng)醫(yī)生查看圖像時(shí)可使用該音頻門(mén)戶(hù)來(lái)口授意見(jiàn)??勺銐蚩焖俚夭⒔鯇?shí)時(shí)地將轉(zhuǎn)錄文本從Web/門(mén)戶(hù)服務(wù)器返回到音頻門(mén)戶(hù),以便當(dāng)圖像還在屏幕上時(shí)醫(yī)生可檢查轉(zhuǎn)錄的文本。接著醫(yī)生可檢查文本并將結(jié)果保存在病人的文件中,或可委托校正員對(duì)任何錯(cuò)誤進(jìn)行校正。在另一示例中,當(dāng)用戶(hù)想使用聲音回復(fù)電子郵件時(shí),系統(tǒng)200可被用于降低帶寬。如果記錄了音頻文件并將其連同電子郵件發(fā)送,那么這需要很大的帶寬以便在用戶(hù)之間傳輸音頻文件。通過(guò)使用轉(zhuǎn)錄門(mén)戶(hù)組件,電子郵件門(mén)戶(hù)組件可捕獲音頻并將其發(fā)送到轉(zhuǎn)錄系統(tǒng)200,以轉(zhuǎn)錄音頻并以電子郵件僅發(fā)送文本。
系統(tǒng)200通過(guò)適應(yīng)性調(diào)整隨時(shí)間提高了它的準(zhǔn)確度。校正員260可登錄到系統(tǒng)200中,并可校正轉(zhuǎn)錄的文本。校正員的檢查可隨機(jī)地進(jìn)行,或者可對(duì)于由系統(tǒng)轉(zhuǎn)錄的一特定用戶(hù)的最初幾個(gè)文檔進(jìn)行校正員的檢查。當(dāng)對(duì)文檔做出了校正時(shí),將這些校正用于適應(yīng)性調(diào)整和更新用戶(hù)的語(yǔ)音簡(jiǎn)檔以便提高準(zhǔn)確度。作為另一種選擇,或附加地,用戶(hù)可在接收時(shí)校正文檔,并上載這些校正,以便由系統(tǒng)或校正員檢查。更進(jìn)一步地,用戶(hù)可錄制帶有這些校正的第二音頻文件,將所述第二音頻文件連同該轉(zhuǎn)錄文本上載到系統(tǒng),以便校正錯(cuò)誤。將這些校正發(fā)送回所述識(shí)別引擎,該識(shí)別引擎針對(duì)數(shù)據(jù)運(yùn)行一校正會(huì)話(huà),并且得到的用戶(hù)數(shù)據(jù)被保存到門(mén)戶(hù)人個(gè)化數(shù)據(jù)庫(kù),從而更新用戶(hù)的個(gè)人化語(yǔ)音簡(jiǎn)檔以用于該用戶(hù)的下一轉(zhuǎn)錄作業(yè)。
可在硬件、軟件或硬件和軟件的組合中實(shí)現(xiàn)本發(fā)明??稍谝粋€(gè)計(jì)算機(jī)系統(tǒng)中以集中方式或者以其中不同元件分布于若干互連的計(jì)算機(jī)系統(tǒng)中的分布方式實(shí)現(xiàn)本發(fā)明。適合于執(zhí)行此處所述方法的任何類(lèi)型的計(jì)算機(jī)系統(tǒng)或其他裝置都是適合的。硬件和軟件的典型組合可以是帶有計(jì)算機(jī)程序的通用計(jì)算機(jī)系統(tǒng),當(dāng)所述的計(jì)算機(jī)程序被裝載并執(zhí)行時(shí)控制該計(jì)算機(jī)系統(tǒng)以使其執(zhí)行此處所述的方法。
本發(fā)明也可被嵌入到計(jì)算機(jī)程序產(chǎn)品中,該計(jì)算機(jī)程序產(chǎn)品包括使能實(shí)現(xiàn)此處所述方法的所有特征,并當(dāng)其被裝載到計(jì)算機(jī)系統(tǒng)中時(shí)可執(zhí)行這些方法。本上下文中的計(jì)算機(jī)程序意味著用任何語(yǔ)言、代碼或符號(hào)表示的一組指令的任何表達(dá),所述的一組指令旨在使具有信息處理能力的系統(tǒng)執(zhí)行特定功能,這種執(zhí)行或者是直接地或者是在經(jīng)過(guò)以下任一操作或兩個(gè)操作之后a)轉(zhuǎn)換到另一種語(yǔ)言、代碼或符號(hào);b)以不同材料的形式再現(xiàn)。
可以其他形式實(shí)現(xiàn)本發(fā)明,而不背離本發(fā)明的精神或基本特性。因此,應(yīng)該參考以下的權(quán)利要求而非前述的說(shuō)明來(lái)指明本發(fā)明的范圍。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的轉(zhuǎn)錄方法,包括以下步驟提供包括了具有用于各個(gè)用戶(hù)的個(gè)人化語(yǔ)音簡(jiǎn)檔的用戶(hù)數(shù)據(jù)的轉(zhuǎn)錄門(mén)戶(hù)組件;該轉(zhuǎn)錄門(mén)戶(hù)組件接收音頻數(shù)據(jù);識(shí)別與該音頻數(shù)據(jù)相關(guān)聯(lián)的用戶(hù);確定與所識(shí)別用戶(hù)對(duì)應(yīng)的個(gè)人化語(yǔ)音簡(jiǎn)檔;使用所確定的個(gè)人化語(yǔ)音簡(jiǎn)檔轉(zhuǎn)錄該音頻數(shù)據(jù),以生成轉(zhuǎn)錄文本;以及該轉(zhuǎn)錄門(mén)戶(hù)組件呈現(xiàn)該轉(zhuǎn)錄文本。
2.權(quán)利要求1的方法,其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件提供多模態(tài)接口。
3.權(quán)利要求2的方法,還包括以下步驟當(dāng)在所述轉(zhuǎn)錄門(mén)戶(hù)組件和用戶(hù)之間建立通信時(shí),確定用于該通信的通信類(lèi)型;以及根據(jù)所確定的通信類(lèi)型自動(dòng)調(diào)整所述轉(zhuǎn)錄門(mén)戶(hù)組件的模態(tài)。
4.權(quán)利要求2的方法,其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件通過(guò)聲音連接與電話(huà)設(shè)備接口連接,其中,通過(guò)該聲音連接接收所述音頻數(shù)據(jù)。
5.權(quán)利要求2的方法,其中,在Web瀏覽器中將所述轉(zhuǎn)錄門(mén)戶(hù)組件呈現(xiàn)為多模態(tài)Web瀏覽器界面。
6.權(quán)利要求2的方法,其中,所述多模態(tài)接口中的一個(gè)是應(yīng)用程序接口。
7.權(quán)利要求1的方法,還包括以下步驟識(shí)別用戶(hù)選擇的文本輸出格式;以及轉(zhuǎn)錄門(mén)戶(hù)根據(jù)所述用戶(hù)選擇的文本輸出格式呈現(xiàn)所述轉(zhuǎn)錄文本。
8.權(quán)利要求1的方法,其中,在用戶(hù)于其中訪(fǎng)問(wèn)所述轉(zhuǎn)錄門(mén)戶(hù)的單個(gè)通信會(huì)話(huà)期間執(zhí)行所述接收、識(shí)別、確定、轉(zhuǎn)錄和呈現(xiàn)步驟。
9.權(quán)利要求1的方法,其中,所述至少一個(gè)轉(zhuǎn)錄服務(wù)器包括多個(gè)轉(zhuǎn)錄服務(wù)器,所述方法還包括以下步驟所述轉(zhuǎn)錄門(mén)戶(hù)組件基于可用性從所述多個(gè)轉(zhuǎn)錄服務(wù)器中選擇一個(gè),其中,由所述轉(zhuǎn)錄門(mén)戶(hù)組件執(zhí)行所述識(shí)別和確定步驟。
10.一種具有存儲(chǔ)于其上的具有多個(gè)代碼段的計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)器,所述代碼段可由機(jī)器執(zhí)行,以便使該機(jī)器執(zhí)行以下步驟提供包括了具有用于各個(gè)用戶(hù)的個(gè)人化語(yǔ)音簡(jiǎn)檔的用戶(hù)數(shù)據(jù)的轉(zhuǎn)錄門(mén)戶(hù)組件;該轉(zhuǎn)錄門(mén)戶(hù)組件接收音頻數(shù)據(jù);識(shí)別與該音頻數(shù)據(jù)相關(guān)聯(lián)的用戶(hù);確定與所識(shí)別用戶(hù)對(duì)應(yīng)的個(gè)人化語(yǔ)音簡(jiǎn)檔;使用所確定的個(gè)人化語(yǔ)音簡(jiǎn)檔轉(zhuǎn)錄該音頻數(shù)據(jù),以生成轉(zhuǎn)錄文本;以及該轉(zhuǎn)錄門(mén)戶(hù)組件呈現(xiàn)該轉(zhuǎn)錄文本。
11.一種轉(zhuǎn)錄系統(tǒng),包括包括轉(zhuǎn)錄門(mén)戶(hù)組件的一個(gè)Web門(mén)戶(hù);以及至少一個(gè)轉(zhuǎn)錄服務(wù)器,所述轉(zhuǎn)錄門(mén)戶(hù)組件被配置用于接收用戶(hù)提供的音頻數(shù)據(jù),使用所述至少一個(gè)轉(zhuǎn)錄服務(wù)器將該音頻數(shù)據(jù)轉(zhuǎn)錄為轉(zhuǎn)錄文本,并將該轉(zhuǎn)錄文本呈現(xiàn)給提供了該音頻數(shù)據(jù)的用戶(hù)。
12.權(quán)利要求11的系統(tǒng),其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件是被配置用于選擇性地通過(guò)聲音界面和通過(guò)圖形用戶(hù)界面與用戶(hù)接口連接的多模態(tài)門(mén)戶(hù)組件。
13.權(quán)利要求12的系統(tǒng),其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件可通過(guò)電話(huà)設(shè)備訪(fǎng)問(wèn),其中所述轉(zhuǎn)錄門(mén)戶(hù)組件與使用聲音界面的電話(huà)設(shè)備的用戶(hù)接口連接。
14.權(quán)利要求12的系統(tǒng),其中,圖形用戶(hù)界面包括Web瀏覽器。
15.權(quán)利要求14的系統(tǒng),其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件向Web瀏覽器用戶(hù)提供多模態(tài)接口。
16.權(quán)利要求11的系統(tǒng),其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件以實(shí)時(shí)方式和近乎實(shí)時(shí)方式中的至少一種方式呈現(xiàn)所述轉(zhuǎn)錄文本。
17.權(quán)利要求11的系統(tǒng),其中,所述轉(zhuǎn)錄服務(wù)器利用與提供了所述音頻數(shù)據(jù)的用戶(hù)相關(guān)聯(lián)的個(gè)人化的語(yǔ)音簡(jiǎn)檔,來(lái)將該音頻數(shù)據(jù)轉(zhuǎn)錄為轉(zhuǎn)錄文本,以便使所呈現(xiàn)的轉(zhuǎn)錄文本是為該用戶(hù)個(gè)人化的。
18.權(quán)利要求17的系統(tǒng),其中,所述轉(zhuǎn)錄門(mén)戶(hù)組件識(shí)別與所述用戶(hù)提供的音頻數(shù)據(jù)相關(guān)聯(lián)的用戶(hù),其中,所述至少一個(gè)轉(zhuǎn)錄服務(wù)器基于由所述轉(zhuǎn)錄門(mén)戶(hù)組件提供的用戶(hù)身份確定所述個(gè)人化語(yǔ)音簡(jiǎn)檔。
19.權(quán)利要求17的系統(tǒng),包括用于接收用戶(hù)提供的與所述轉(zhuǎn)錄文本有關(guān)的反饋的裝置,以便所述反饋引起對(duì)用于生成所述轉(zhuǎn)錄文本的個(gè)人化語(yǔ)音簡(jiǎn)檔的更新。
20.權(quán)利要求11的系統(tǒng),其中,所述至少一個(gè)轉(zhuǎn)錄服務(wù)器包括多個(gè)轉(zhuǎn)錄服務(wù)器,其中所述Web門(mén)戶(hù)包括基于轉(zhuǎn)錄服務(wù)器的可用性選擇哪個(gè)轉(zhuǎn)錄服務(wù)器將生成所述轉(zhuǎn)錄文本的程序。
全文摘要
用于使用轉(zhuǎn)錄門(mén)戶(hù)組件隨需轉(zhuǎn)錄語(yǔ)音的方法和系統(tǒng)。所述方法可包括提供包括了具有用于各個(gè)用戶(hù)的個(gè)人化語(yǔ)音簡(jiǎn)檔的用戶(hù)數(shù)據(jù)的轉(zhuǎn)錄門(mén)戶(hù)組件的步驟。該轉(zhuǎn)錄門(mén)戶(hù)組件可接收音頻數(shù)據(jù)??勺R(shí)別與該音頻數(shù)據(jù)相關(guān)聯(lián)的用戶(hù)。可確定與所識(shí)別用戶(hù)對(duì)應(yīng)的個(gè)人化語(yǔ)音簡(jiǎn)檔??墒褂盟_定的個(gè)人化語(yǔ)音簡(jiǎn)檔轉(zhuǎn)錄音頻數(shù)據(jù),以生成轉(zhuǎn)錄文本。所述轉(zhuǎn)錄門(mén)戶(hù)組件可呈現(xiàn)轉(zhuǎn)錄文本。
文檔編號(hào)G10L15/26GK1801322SQ20051012350
公開(kāi)日2006年7月12日 申請(qǐng)日期2005年11月17日 優(yōu)先權(quán)日2004年11月19日
發(fā)明者G·達(dá)納克施魯爾 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司