專利名稱:分布式聽寫/轉(zhuǎn)錄系統(tǒng)的制作方法
技術(shù)領域:
本申請的技術(shù)領域一般涉及聽寫系統(tǒng),尤其涉及用于實時或接近實時返回聽寫錄 音的分布式聽寫系統(tǒng)。
背景技術(shù):
最初的聽寫是一種當一個人說話的同時由另一個人抄錄所說內(nèi)容的練習。隨著現(xiàn) 代技術(shù)的發(fā)展,聽寫技術(shù)已經(jīng)發(fā)展到基于話音識別技術(shù)和語音與文本轉(zhuǎn)換技術(shù)允許計算機 和處理器來充當轉(zhuǎn)錄機的階段。當前技術(shù)本質(zhì)上歸于基于計算機的聽寫和轉(zhuǎn)錄的兩種方式。一種方式包括在機器 上加載軟件來接收和轉(zhuǎn)錄聽寫,這作為客戶端聽寫而一般被熟知。機器實時或接近實時轉(zhuǎn) 錄聽寫。另一種方式包括保存聽寫音頻文件并將該聽寫音頻文件發(fā)送到集中的服務器上, 這作為服務器端分批處理聽寫而一般被熟知。集中服務器轉(zhuǎn)錄音頻文件并返回錄音。在服 務器具有較少處理任務時,轉(zhuǎn)錄通常在大概幾小時后完成??梢泽w會到的是,目前基于計算機的聽寫和轉(zhuǎn)錄系統(tǒng)具有缺點,客戶端聽寫的一 個缺點在于聽寫和轉(zhuǎn)錄受限于單一的或特定的機器,由于大多數(shù)處理在本地用戶機器上完 成,有時需要厚或重的客戶機,因此除非用戶具備特定的機器可使用,否則用戶將不能完成 聽寫處理。服務器端分批處理聽寫的一個缺點是不能實時或接近實時地提供轉(zhuǎn)錄。因此, 當服務器端分批處理聽寫系統(tǒng)采用了瘦客戶機,則不能提供實時或接近實時的轉(zhuǎn)錄。此外,錄音的返回時間與完成錄音的機器的處理能力相關。因此厚或重的客戶機 器在語音和返回的錄音之間可能有長時間的延遲。由于缺乏足夠的處理能力,通常厚或重 的客戶機器最后應答服務器端分批處理聽寫。以上的兩種情況下,返回的延遲有時非常嚴 重。由Bahl等人(下文中稱Bahl)提交的已公開的第2006/005259號美國專利申請, 提供了一種輕薄的分布式客戶聽寫/轉(zhuǎn)錄系統(tǒng)。Bahl所揭示的內(nèi)容全部結(jié)合在本文中作 為參考。尤其是,Bahl揭示了使用無線設備(比如移動電話、個人數(shù)字助理,或其他電子設 備)將音頻發(fā)送給網(wǎng)絡服務管理器。服務管理器包括資源管理組件和特征管理組件。資源 管理器件接收音頻,選擇多個轉(zhuǎn)錄服務器中的一個并通過網(wǎng)絡傳給服務管理器。一旦轉(zhuǎn)錄 服務器被選中并且轉(zhuǎn)錄服務器接受了任務,服務管理器就識別用戶或通過網(wǎng)絡上載到轉(zhuǎn)錄 服務器的默認話音特征。通過服務管理器的資源管理組件使用例如可利用的處理器、網(wǎng)絡 帶寬、鄰近因素,以及其他類似的因素來選擇轉(zhuǎn)錄服務器,這樣的因素相當于典型的負載平 衡設備。一旦作出選擇,音頻就被發(fā)送到轉(zhuǎn)錄服務器并將音頻轉(zhuǎn)換為文本。Bahl沒有將錄音返回給客戶,并且對文本或錄音文件的任何處理均未作出說明。因此,依據(jù)這樣的背景,值得開發(fā)一種改進的分布式實時或接近實時的聽寫和轉(zhuǎn) 錄系統(tǒng)。
發(fā)明內(nèi)容
本申請為取得技術(shù)上的優(yōu)勢并與本申請所包含的技術(shù)目的一致,提供了一種分布 式實時聽寫系統(tǒng)。該分布式實時聽寫系統(tǒng)包括通過網(wǎng)絡連接被連接到聽寫管理器的客戶 站。該聽寫管理器識別聽寫服務器包括語音轉(zhuǎn)錄機來將語音從音頻流或文件轉(zhuǎn)換為轉(zhuǎn)錄結(jié) 果,比如轉(zhuǎn)換成文本文件或元數(shù)據(jù),并將轉(zhuǎn)錄結(jié)果實時,或接近實時地返回給客戶站。聽寫 管理器在選擇轉(zhuǎn)錄機時識別是否可利用的轉(zhuǎn)錄機中的某一臺在以前已經(jīng)被同樣的客戶使 用過,并選擇那臺用戶特征已經(jīng)被上載到該轉(zhuǎn)錄機上的轉(zhuǎn)錄機。本發(fā)明技術(shù)的一方面提供了一種遠程客戶站,簡單地要求具有通過流式傳輸連接 將音頻文件發(fā)送到聽寫管理器或聽寫服務器上的能力。聽寫服務器可以根據(jù)系統(tǒng)的配置, 通過聽寫管理器或通過直接連接返回轉(zhuǎn)錄結(jié)果。
圖1是與本申請技術(shù)一致的示范性系統(tǒng)的功能框圖;圖2是與本申請技術(shù)一致的示范性系統(tǒng)的功能框圖;圖3是圖2中的聽寫管理器和聽寫服務器的功能框圖;圖4是與本申請技術(shù)一致的方法的示例性功能框圖;圖5是包含在本申請某些示例性實施方案中使用的信息和數(shù)據(jù)的示例數(shù)據(jù)庫;圖6是與本申請技術(shù)一致的方法的示例性功能框圖;圖7是與本申請技術(shù)一致的方法的示例性功能框圖。
具體實施例方式本申請的技術(shù)現(xiàn)將參考圖1-7來解釋。同時本申請的技術(shù)以與因特網(wǎng)連接相關和 在因特網(wǎng)連接上使用常規(guī)流式傳輸協(xié)議的流式音頻來描述,普通的本領域技術(shù)人員通過閱 讀本文揭示的內(nèi)容將可認識到其他可能的配置。例如,本申請的技術(shù)描述的關于薄的客戶 站,但更多處理器的潛在選擇也可展開。此外本申請的技術(shù)描述關于某些示范性實施方案。 在這里使用的“示范性”旨在表達“作為一個范例、實例或圖解”。任何在這里描述為“示范 性”的實施方案不必直接詮釋為比其他實施方案更優(yōu)選或更有利。除非另外聲明,所有在這 里描述的實施方案都應被認為是示范性的。首先參照圖1,提供了一種分布式聽寫系統(tǒng)100。分布式聽寫系統(tǒng)100可提供實時 的或允許傳輸時間、處理及類似過程相關延遲的接近實時的聽寫轉(zhuǎn)錄。當然在系統(tǒng)內(nèi)可設 定延遲以例如允許用戶可以選擇實時的還是分批處理的轉(zhuǎn)錄服務。例如,為了允許分批處 理轉(zhuǎn)錄服務,系統(tǒng)100可將音頻文件緩存在客戶設備、服務器、轉(zhuǎn)錄機或類似設備中以允許 將音頻文件稍后轉(zhuǎn)錄成文本并在以后的時間返回給客戶站或由客戶重新取回。如在分布式聽寫系統(tǒng)100中示出的,一個或多個客戶站(client station) 102通 過第一網(wǎng)絡連接106被連接到聽寫管理器104上。第一網(wǎng)絡連接106可以是任意數(shù)目的協(xié)議以允許音頻信息使用標準的因特網(wǎng)協(xié)議傳輸。客戶站102通過麥克風108或類似器件從 用戶接收音頻(即聽寫)。當作為單獨的部分示出時,麥克風108也可被集成在客戶站102 中,例如移動電話。同時當作為監(jiān)視器或計算站(computer station)示出時,客戶站102可 以是無線設備,比如支持wifi的計算機、移動電話、PDA、智能電話或類似設備。客戶站102 也可以是使用常規(guī)因特網(wǎng)協(xié)議來發(fā)送音頻的有線設備,比如筆記本電腦或臺式電腦。聽寫管理器104可通過第二網(wǎng)絡連接112被連接到一個或多個聽寫服務器110 上。第二網(wǎng)絡連接112可以與第一網(wǎng)絡連接相同或者不相同。第二網(wǎng)絡連接也可以是任意 數(shù)目的常規(guī)的無線或有線連接協(xié)議。聽寫管理器104和聽寫服務器110可以是單獨的集成 單元,其通過PCI總線或其他常規(guī)總線被連接。各聽寫服務器110并入或接入語音轉(zhuǎn)錄機 是為本領域一般熟知的。因為語音識別和語音轉(zhuǎn)錄機被看作在本領域是廣泛熟知的,除非 結(jié)合本申請的技術(shù)需要,否則語音轉(zhuǎn)錄機的操作在這里不作深入解釋。對于任意給出的聽 寫,聽寫管理器104將該音頻文件從客戶站102指引給適當?shù)穆爩懛掌?10轉(zhuǎn)錄該音頻 并返回轉(zhuǎn)錄結(jié)果,即音頻的文本??蛻粽?02和聽寫服務器110之間的連接可以通過聽寫 管理器104被保持?;蛘撸苯釉诳蛻粽?02和聽寫服務器110之間建立連接。另外,聽寫 管理器104可管理許多同時發(fā)生的連接使得多個客戶站102和聽寫服務器110可由聽寫管 理器104管理。聽寫管理器104也提供了例如在難于實行客戶交換的管理和操作的地方采 用常規(guī)的呼叫中心從而易于接入多個客戶站與多個聽寫服務器之間的額外優(yōu)點。網(wǎng)絡連接106和112可以是任意的常規(guī)網(wǎng)絡連接,從而使得流式傳輸音頻可從客 戶站102提供給聽寫管理器104、并從聽寫管理器104提供給聽寫服務器110。此外,聽寫管 理器104可在這兩個方向上管理數(shù)據(jù)的傳輸。聽寫管理器104從客戶站102接收音頻流, 并將音頻流傳送給聽寫服務器110。聽寫服務器110將音頻轉(zhuǎn)錄成文本并將文本發(fā)送給聽 寫管理器104,且由聽寫管理器104將文本傳送回客戶站102并在監(jiān)視器或與客戶站102關 聯(lián)的其它的輸出設備上顯示。當然類似于緩存音頻用于稍后轉(zhuǎn)錄,文本可先被存儲以便以 后被客戶站102的用戶取回。存儲文本以在以后取回對于在受到條件限制文本不能被取回 的情況下是有利的,比如正在開車或客戶站不足以顯示,除了上述兩種情況還有很多情況 不一一例舉了。網(wǎng)絡連接106和112允許從聽寫服務器110經(jīng)過聽寫管理器104將數(shù)據(jù)流 式傳輸給客戶站102。聽寫管理器104也可管理數(shù)據(jù)??蛻粽?02將使用來自聽寫服務器 110的數(shù)據(jù)在客戶站102構(gòu)成顯示,比如文本文件可以顯示為word文檔。現(xiàn)在參照圖2,提供了分布式聽寫系統(tǒng)200。分布式聽寫系統(tǒng)200與分布式聽寫系 統(tǒng)100類似,但其包括許多個聽寫管理器202。同樣客戶站102通過第一網(wǎng)絡連接204被 連接到聽寫管理202其中的一個,這里第一網(wǎng)絡連接204是因特網(wǎng)連接或者萬維網(wǎng)(World Wide Web)連接。此外,聽寫管理器202通過第二網(wǎng)絡連接206被連接到聽寫服務器110, 此處第二網(wǎng)絡連接206也可以是因特網(wǎng)連接或者萬維網(wǎng)連接??审w會的是,本申請的技術(shù) 是用于遠程聽寫的強有力的解決方案。參照圖3,示出了更多聽寫管理器104的細節(jié)。各個聽寫管理器202都基本相似, 聽寫管理器104/202包括處理器302,比如微處理器、芯片組、現(xiàn)場可編程邏輯門陣列或類 似器件,來控制管理器的主要功能,比如獲取關于客戶站102的用戶的用戶特征、聽寫服務 器110的選擇,等等。處理器302還處理用于操作聽寫管理器104/202所需的各種輸入和/ 或數(shù)據(jù)。聽寫管理器104/202還包括與處理器302相互連接的存儲器304。存儲器304將被遠程定位或與處理器302 —起定位。存儲器304存儲由處理器302執(zhí)行的處理命令。存 儲器304還可存儲對于聽寫系統(tǒng)的操作所需要的或方便的數(shù)據(jù)。例如,存儲器304可為客 戶存儲轉(zhuǎn)錄以便該轉(zhuǎn)錄可在以后由客戶處理。至少存儲器304的一部分包括與分布式聽寫 系統(tǒng)100或分布式聽寫系統(tǒng)200的用戶相關聯(lián)的用戶特征305。通過密碼(pass code)、用 戶識別號、生物信息等將用戶特征305與單獨用戶相關聯(lián),并且對于聽寫服務器110用戶特 征305是可用的,使得語音轉(zhuǎn)錄機易于將音頻轉(zhuǎn)換為文本。使用數(shù)據(jù)庫或相關存儲器關聯(lián) 用戶和用戶特征不在本發(fā)明內(nèi)容中深入解釋。存儲器304可以是任意的常規(guī)媒體,并可包 括易失性或非易失性存儲器其中的一種或兩者都包括。聽寫管理器104/202可選擇性地被 預編程,因此不要求配備用戶接口 306,但典型的聽寫管理器104/202包括與處理器302互 連的用戶接口 306。這樣的用戶接口 306可能包括揚聲器、麥克風、視頻顯示屏幕、物理輸入 設備(比如鍵盤、鼠標或觸摸屏、磁帶盤(track wheel)、攝像頭(cam)或特殊輸入按鈕), 以允許用戶與聽寫管理器104/202之間的交互。聽寫管理器具有網(wǎng)絡接口 308(如客戶站 和聽寫服務器)以允許在網(wǎng)絡設備之間傳輸和接收數(shù)據(jù)(文本、音頻等)??蛻粽?02和聽 寫服務器110具有與聽寫管理器相似的結(jié)構(gòu)。聽寫管理器104/202可以多種常規(guī)方式接受來自客戶站102的請求并將流式傳輸 視頻傳送到聽寫服務器110。一種示范性的方法在第7,185,094號美國專利中提供,該專利 在 2007 年 2 月 27 日被授權(quán)給了 Marquette 等人,標題為"Media session framework using a control module to direct and manageapplication and service servers
揭示的內(nèi)容全部結(jié)合在本文中作為參考。使用該方法,例如聽寫管理器104將接收來自客 戶站102的聽寫服務請求。聽寫管理器104將發(fā)送服務請求給各個聽寫服務器110直到某 個聽寫服務器110發(fā)回服務請求的接受指示。于是音頻被從客戶站102流式傳輸?shù)铰爩懝?理器104,聽寫管理器104再依次將音頻流式傳輸?shù)铰爩懛掌?10。聽寫服務器110將使 用與聽寫服務器110相關聯(lián)的語音轉(zhuǎn)錄機來轉(zhuǎn)錄聽寫,轉(zhuǎn)錄結(jié)果將以文本數(shù)據(jù)的形式經(jīng)過 聽寫管理器104被發(fā)送回客戶站102?;蛘呓Y(jié)合以上所述,處理器302可以包括類似于Baul 中所討論過的資源管理服務的負載平衡設備?,F(xiàn)在參照圖4,提供了使用本申請技術(shù)的方法的示例性流程圖400。在描述這一系 列的不連續(xù)步驟的同時,本領域的普通技術(shù)人員在閱讀本公開后將可以認識到所提供的步 驟可以按所描述順序以不連續(xù)的步驟、一系列連續(xù)的步驟、基本上同時地、同時地、或以不 同的順序以及類似方式被執(zhí)行。此外,其他的、更多的、更少的或不同的步驟也可使用本申 請的技術(shù)來執(zhí)行。但是在示范性方法中,在步驟402,客戶機102上的用戶將首先從客戶站 102上的顯示器116選擇聽寫申請,該申請的選擇過程已經(jīng)被激活以用于基于客戶機或者 基于網(wǎng)頁(web)申請的聽寫??墒褂贸R?guī)方法來選擇該申請,比如雙擊圖標、從菜單上選擇 申請、使用話音命令或類似方法?;蛘邚娘@示器菜單選擇申請,客戶站102可通過輸入因特 網(wǎng)地址(比如URL)或者使用常規(guī)呼叫技術(shù)(比如PSTN、VoIP、蜂窩連接等)呼叫某號碼, 來連接到服務器運行該申請。上面所解釋的申請可是網(wǎng)頁激活、在客戶站加載,或?qū)⒍?結(jié)合。在步驟404,客戶站102將使用第一網(wǎng)絡連接106/204建立與聽寫管理器104的連 接。作為可選設計方案,聽寫管理器104可被集成在一個客戶站102中,或者也可以如所示 出那樣作為獨立單元。第一網(wǎng)絡連接可以是經(jīng)由LAN、WAN、WLAN、WiFi、以太網(wǎng)、WiMax、藍 牙、因特網(wǎng)或類似網(wǎng)絡的網(wǎng)絡連接。或者第一網(wǎng)絡連接也可以是總線或金屬線(ribbon),比如PCI總線。在步驟406/408,聽寫管理器接下來識別聽寫服務器110并通過第二網(wǎng)絡 連接聽寫服務器110中的一個。第二網(wǎng)絡連接可以是任意的LAN、WAN、WLAN、WiFi、以太網(wǎng)、 WiMax、藍牙、因特網(wǎng)或類似網(wǎng)絡。第二網(wǎng)絡連接也可以是總線、金屬線或類似連接線。聽寫 服務器110的選擇過程作為示范性實施方案將在后續(xù)深入描述。典型地,第一和第二網(wǎng)絡 連接是相同的,但它們不是必須相同。一旦步驟404的通信鏈接被建立,客戶站102的用戶 將開始聽寫要被轉(zhuǎn)錄的音頻。音頻信號將被存儲在與存儲器304相關聯(lián)的緩沖器內(nèi)直到步 驟408的通信鏈接建立。那時聽寫管理器104/202可如同后續(xù)解釋那樣發(fā)送音頻信號給聽 寫服務器。使用當前眾多常規(guī)自由形式的聽寫處理,聽寫服務器110和相關的語音轉(zhuǎn)錄機 將使用用戶特征來使得聽寫的轉(zhuǎn)錄易于進行。因此,在步驟410,客戶站102的用戶選擇性 地將用戶標識發(fā)送給聽寫管理器。在步驟412,聽寫管理器將基于用戶標識檢索用戶特征。 用戶標識可以是任意的常規(guī)標識,比如用戶密碼、用戶標識符、設備標識符、生物標識符、或 任意本領域一般熟知的相關標識。在步驟414,用戶特征被發(fā)送給聽寫服務器110使轉(zhuǎn)錄易 于進行。在步驟416,一旦通過聽寫管理器104建立了客戶站102和聽寫服務器110之間 的連接,并且用戶特征(如果可利用或需要)被上載到聽寫服務器110,則客戶站102通過 聽寫管理器104將音頻(即聽寫)以流式傳送給聽寫服務器110。音頻信號可被存儲在與 聽寫管理器104/202的存儲器304相關聯(lián)的緩沖器內(nèi),或者從客戶站102通過聽寫管理器 104/202流式傳送給聽寫服務器110,或者從客戶站102直接流式傳送給聽寫服務器110。 客戶站102可選擇性地提供對聽寫管理器104的比如啟動、終止、暫停、倒退等的控制,或提 供對聽寫管理器104的類似于傳統(tǒng)錄音的啟動、終止、暫停等控制。顯示器116上的通話圖 標可簡單地是一種控制,用戶可以點擊該通話圖標來開始聽寫或點擊來終止聽寫。在步驟 418,聽寫管理器104從客戶站102接收流式音頻并將音頻傳送給語音識別機。任選地,音 頻信號可如上面提到的那樣被地從緩沖器流式傳輸,從客戶站流式傳輸?shù)铰爩懝芾砥髟俚?聽寫服務器,或直接地從客戶站到聽寫服務器。在步驟420,語音轉(zhuǎn)錄機將音頻轉(zhuǎn)換成文本 (換句話說,執(zhí)行了轉(zhuǎn)錄),并且在步驟422,將轉(zhuǎn)錄結(jié)果發(fā)送給聽寫管理器104,聽寫管理器 104又通過例如流式傳輸或下載文本到客戶站102的方式將轉(zhuǎn)錄結(jié)果發(fā)送給客戶站102。轉(zhuǎn) 錄文件可以一般被認為是文本數(shù)據(jù)?;蛘呓Y(jié)合直接將文本數(shù)據(jù)發(fā)送給客戶站,文本數(shù)據(jù)可 被存儲在存儲器304中。在步驟424,客戶站102顯示轉(zhuǎn)錄結(jié)果,比如在客戶站102的顯示 器116上提供word文檔形式的文本。在步驟426,用戶可使用客戶站102糾正來自轉(zhuǎn)錄文 件的文本數(shù)據(jù)并生成校正的文本數(shù)據(jù)。在步驟428,校正的文本數(shù)據(jù)可被發(fā)送回聽寫管理器 104/202,以用與訓練用戶特征相關聯(lián)的領域內(nèi)一般熟知的方式來更新校正的用戶特征。為避免非故意的滯留資源,客戶站102與聽寫管理器104之間的連接或聽寫管理 器104和聽寫服務器110之間的連接可選擇性地具有超時特性,這里預設置的靜默時間將 導致連接中斷,因此對于其他應用,客戶站102或聽寫服務器110是空閑的。注意,如果聽寫服務器110不可用,聽寫管理器可選擇性地分批處理(batch)音頻 文件或?qū)⒁纛l文件緩存在例如存儲器304內(nèi)直到聽寫服務器變?yōu)榭捎玫?。因此聽寫可能?延遲,但是一旦在聽寫服務器再次開始可用后便立即提供聽寫。分批處理或緩存音頻也可 允許用戶在聽寫服務器上載用戶特征的同時開始聽寫。在這種情況下,例如存儲器304的 緩沖器可儲存音頻文件直到聽寫服務器變?yōu)榭捎谩R坏┛捎?,聽寫管理?04便可以將音 頻從緩沖器中流式傳輸?shù)铰爩懛掌鳌?br>
在客戶端102的用戶可選擇性地選擇分批處理式聽寫來保存處理資源。在這種情 況下,客戶站102,聽寫管理器104/202,聽寫服務器110,或一些其他可訪問的存儲器可儲 存音頻文件以便稍后處理。使用本申請的技術(shù)提供了分布式實時或接近實時的基于服務器的聽寫。這樣的技 術(shù)允許遠程用戶從世界上任意地方連接到聽寫服務器來執(zhí)行實時或接近實時的轉(zhuǎn)錄。本申 請的技術(shù)允許了許多優(yōu)點,包括例如 動態(tài)用戶特征加載; 聽寫親和性(Dictation affinity); 聽寫負載平衡; 校正的實時訓練(training);眷分布式音頻與用戶特征數(shù)據(jù) 聽寫服務器的高有效性;以及 自適應性訓練動杰用戶特征加載當前聽寫系統(tǒng)強制用戶特征在轉(zhuǎn)錄前被設定。換句話說,用戶特征必須在執(zhí)行轉(zhuǎn) 錄的機器上預先加載,執(zhí)行轉(zhuǎn)錄的機器對應于本申請中的聽寫服務器。例如Bahl在聽寫服 務器上先加載了用戶特征或使用了預先儲存的默認特征。只有在加載用戶特征之后,確認 才被發(fā)送給客戶設備以開始轉(zhuǎn)錄。本申請的技術(shù)允許實時用戶特征加載使得用戶可以優(yōu)先 于上載用戶特征而先開始聽寫,實際上甚至優(yōu)先于識別轉(zhuǎn)錄機而先開始聽寫。該構(gòu)架允許 任意應用開發(fā)者決定加載哪個用戶特征以及什么時候加載。用戶仍在講話的同時用戶特征 就可被加載并因此導致了更快的轉(zhuǎn)錄時間,除去了分批處理本身和引入基于服務器的實時 轉(zhuǎn)錄的時間。此外,如同將在后續(xù)深入描述的,本技術(shù)將記住哪個聽寫服務器仍具有已上載 的有效的用戶特征。聽寫管理器將在某些實施方案中優(yōu)先地選擇那些聽寫服務器來減少需 要上載用戶特征的次數(shù)。聽寫親和性本申請的技術(shù)提供了聽寫的構(gòu)架來支持用于用戶執(zhí)行轉(zhuǎn)錄的新的相似性。已開發(fā) 的技術(shù)可追溯哪種服務器被最新用于當前的用戶轉(zhuǎn)錄并將請求發(fā)送給該服務器。這避免了 服務器重復加載用戶特征的問題并增加了音頻轉(zhuǎn)錄的發(fā)生速度。除了這種優(yōu)化的特征管理 以外,本申請的技術(shù)提供的聽寫構(gòu)架提供了基于優(yōu)先權(quán)的聽寫,這允許了在其他轉(zhuǎn)錄請求 被處理之前優(yōu)先處理來自用戶的高優(yōu)先權(quán)的轉(zhuǎn)錄。聽寫服務器負載平衡本申請的技術(shù)提供了一種考慮聽寫服務器負載平衡的聽寫構(gòu)架。本技術(shù)允許將用 戶的請求分散到多個服務器去,從而改進用戶轉(zhuǎn)錄時間。通過聽寫管理器維護可用聽寫服 務器的列表以及這些服務器的狀況使得負載平衡容易進行。將基于服務器狀態(tài)作出負載平 衡決策。負載平衡可以通過但不限于隊列的長度、處理請求的平均時間、CPU利用率、存儲 器利用率、用戶級別,或可利用磁盤空間觸發(fā)。校IH的且實時的訓練本申請的技術(shù)提供的聽寫構(gòu)架考慮了聽寫用戶特征的實時校正訓練,以達到用戶 特征對于促進聽寫和轉(zhuǎn)錄是必要的這樣的程度。這是通過允許用戶具有修改轉(zhuǎn)錄結(jié)果并將
10其實時反饋給服務器的能力來執(zhí)行的。聽寫服務器對修改的文本和保存的音頻文件運行訓 練算法。然后將修改后的用戶特征重新公布給所有聽寫服務器。本申請的技術(shù)可實施通過JAVA API來提供實時訓練。這要求訓練API被插入任 意應用并允許訪問基于服務器的訓練。這樣做使得本申請的技術(shù)消除用戶必須訪問服務器 來提供訓練數(shù)據(jù)并執(zhí)行分批處理訓練應用的依賴性-即訓練可來自任意時間和任意地點。分布式咅頻和用戶特征數(shù)據(jù)使用本申請的技術(shù)提供的聽寫構(gòu)架,用戶被允許通過分布式網(wǎng)絡儲存和取回用戶 特征和聽寫音頻。常規(guī)的聽寫處理要求用戶特征數(shù)據(jù)和用戶音頻被保存在本地。而該聽寫 構(gòu)架可以在任意網(wǎng)絡存儲設備中儲存并取回聽寫用戶特征和音頻,這解決了必須由本地提 供音頻經(jīng)由系統(tǒng)運行聽寫處理的限制。該聽寫構(gòu)架不在意音頻輸入從何處而來,它可以來 自但不限于例如音頻、電話、媒體通路、RTP、RMI、或Critrix。聽寫服各器的高有效件本申請的技術(shù)提供的聽寫構(gòu)架實現(xiàn)了聽寫服務器的高有效性。該聽寫構(gòu)架具有從 聽寫服務器死機和過載聽寫服務器中恢復的能力。當聽寫管理器已過載或已達到預定數(shù)量 的聽寫服務器注冊時,服務器和用戶請求將被指向其他為聽寫請求配置的聽寫管理器。聽 寫管理器也可以管理聽寫服務器的動態(tài)設置。當前如果用戶在他們的電腦上運行聽寫處 理,他們必須一直在該電腦上操作,或者必須確保他們可以將他們的特征拷貝到新的電腦 上才能操作。用戶還可以選擇是提交分批處理請求給服務器并在某個未知時間接收結(jié)果。 用本申請的技術(shù),聽寫構(gòu)架給用戶提供了能夠獲得n+k冗余水平(level ofredundancy)的 能力。如上述提及的,聽寫管理器可追蹤用戶的哪些特性被發(fā)送到了哪些特定的聽寫服 務器上。例如如圖5所示出的,聽寫管理器104可包括數(shù)據(jù)庫,例如在存儲器304中保存 的數(shù)據(jù)庫500。數(shù)據(jù)庫500可提供用戶特征字段502,例如用戶特征的XYZ代表了 Charlie Brown的用戶特征。數(shù)據(jù)庫500可進一步提供一系列聽寫服務器字段504^來識別字段501 中的聽寫服務器IlO4,指示Charlie Brown的用戶特征被最新上載到了聽寫服務器IlO4上。 字段5042可標識聽寫服務器IlO7就是優(yōu)先于聽寫服務器IlO4被上載了 Charlie Brown用 戶特征的聽寫服務器。字段5043可標識聽寫服務器IlO3就是優(yōu)先于聽寫服務器IlO7被上 載了 Charlie Brown的用戶特征的聽寫服務器。根據(jù)需要該歷史記錄可以一直保持。現(xiàn)在參照圖6,提供了關于識別并選擇聽寫服務器110的示范性方法。首先在步 驟602,客戶站102的用戶發(fā)起了聽寫申請,并在步驟604建立了到聽寫管理器104/202的 通信鏈接。在步驟606,用戶或客戶站102將標識符或者將用戶標識符發(fā)送給聽寫管理器 104/202,例如識別用戶為CharlieBrown的密碼和登錄。在步驟607,聽寫管理器104/202 使用用戶標識符并將用戶標識符與相應的用戶特征相匹配。接下來在步驟608聽寫管理器 將復檢數(shù)據(jù)庫500來決定是否Charlie Brown的用戶特征已經(jīng)被預先上載到至少一個聽寫 服務器上。如果Charlie Brown的用戶特征已經(jīng)被預先上載,比如已經(jīng)上載到了聽寫服務 器1104,聽寫管理器104/202將接著使用常規(guī)方法來決定是否聽寫服務器1IO4可使用,比如 使用如先前在Marquette和Balh的識別中描述的方法。如果聽寫服務器IlO4是可用的,聽 寫管理器將如上面提到的那樣把音頻傳送給聽寫服務器IlO4而無需預先獲取或上載特征。步驟614中,如果沒有用戶特征被識別出(或者如果用戶未被識別),用戶標識符和用戶特征可被建立或用戶可選擇使用默認特征。呼叫可被選擇性地終止。如果用戶特征 沒有預先被上載、或者用戶未被識別出、沒有用戶特征、或者使用了默認特征,那么在步驟 616中使用例如Marquette或Bahl所描述的常規(guī)負載平衡或資源選擇方法來選出適合的聽 寫服務器?,F(xiàn)在參照圖7,提供了關于識別用戶特征的示范性方法。首先在步驟702,聽寫管 理器接收了用戶標識。如上所述,用戶標識可以是一個登錄標識和密碼、生物學的、或者類 似的標識,用戶標識按照慣例在本領域是熟知的且除非理解本發(fā)明所需,否則在此不作深 入解釋。接下來在步驟704,聽寫管理器104/202重審所存儲的用戶特征來決定是否用戶標 識與存儲的用戶特征匹配。如果是匹配的,聽寫管理器選擇所匹配的用戶特征作為該用戶 的特征。存儲器304可在例如文件系統(tǒng)中或在與上面描述的數(shù)據(jù)庫500類似的相關數(shù)據(jù)庫 中保存用戶特征和用戶標識。那些本領域的技術(shù)人員可理解信息和信號可用任意的、各種不同的技術(shù)和方法代 表,例如貫穿上文描述引用的數(shù)據(jù)、說明、命令、信息、信號、比特、符號和碼片可被電壓、電 流、電磁波、電磁場或粒子、光場或粒子,或它們?nèi)我饨M合所代表。那些技術(shù)人員將進一步體會到聯(lián)系在此揭示的本實施方案描述的各種的示例性 邏輯塊、模塊、電路,和算法步驟可被作為電子硬件、計算機軟件或兩者結(jié)合來實施。為清楚 地說明硬件和軟件、各種示例性器件、塊、模塊、電路、以及步驟的這種可互換性,對它們的 功能性方面在上面已經(jīng)做了一般描述。該功能作為硬件還是軟件實施,取決于特定應用和 利用整個系統(tǒng)的設計限制。對于各個特定應用,技術(shù)人員可在各種途徑實施所述功能性,但 這樣的實施決策不應被認為是偏離了本發(fā)明的范圍。聯(lián)系在此揭示的實施例描述的各種示例性邏輯塊、模塊、和電路可通過一般目的 的處理器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他 可編程邏輯器件、離散門或晶體管邏輯、非連續(xù)硬件器件,或被設計來執(zhí)行此處所描述的功 能的它們的任意組合來實施或執(zhí)行。一般目的的處理器可以是微處理器、但該處理器還可 能是任意常規(guī)處理器、控制器、微控制器,或狀態(tài)機。處理器也可被作為計算器件的組合來 實施,比如DSP和微處理器的組合、多個微處理器、一個或多個微處理器與DSP內(nèi)核連接,或 任意其他配置。本文在前面的描述中揭示的實施方案使得本技術(shù)領域的任何技術(shù)人員都能夠?qū)?施或使用本發(fā)明。這些實施方案的各種變型對于那些本領域的技術(shù)人員將是顯而易見的, 而且在本文定義的普通原理可適用于其他實施方案但并未偏離本發(fā)明的精神或范圍。因 此,本發(fā)明并非旨在受限于這里示出的實施方案而意在依據(jù)與本原理、以及在此揭示的新 穎特性一致的最寬范圍。
權(quán)利要求
一種聽寫管理器,具有到至少一個客戶站以及至少一個聽寫服務器的網(wǎng)絡連接,其包括至少一個網(wǎng)絡數(shù)據(jù)端口,用來從客戶站接收音頻信號、將所接收的音頻信號發(fā)送到聽寫服務器、并從聽寫服務器接收文本數(shù)據(jù),其中所述文本數(shù)據(jù)包括由聽寫服務器將音頻信號轉(zhuǎn)換成文本數(shù)據(jù)的數(shù)據(jù);聽寫服務器選擇器,用來選擇至少一個聽寫服務器中的一個聽寫服務器,聽寫管理器向所述聽寫服務器發(fā)送所接收到的音頻信號并從所述聽寫服務器接收文本數(shù)據(jù);至少一個存儲器,其包括用戶特征、用戶特征是否已經(jīng)被上載到至少一個聽寫服務器中的任意一個聽寫服務器中的指示、以及用于緩存所接收的音頻信號的緩沖器;其中,如果聽寫服務器選擇器確定用戶特征已經(jīng)被上載,聽寫服務器選擇器選擇已經(jīng)被上載了用戶特征的聽寫服務器作為所述至少一個聽寫服務器中的所述一個聽寫服務器;其中,如果聽寫服務器選擇器確定用戶特征未被上載,聽寫服務器選擇器選擇所述至少一個聽寫服務器中的任意一個聽寫服務器并上載用戶特征;并且其中聽寫管理器將所接收的音頻信號存儲在緩沖器中,并且一旦由聽寫服務器選擇器選出聽寫服務器,則從緩沖器發(fā)送出所述音頻信號。
2.如權(quán)利要求1所述的聽寫管理器,其中所述至少一個網(wǎng)絡數(shù)據(jù)端口包括多個數(shù)據(jù)端 口,其被配置成接收和發(fā)送音頻信號和數(shù)據(jù)信號。
3.如權(quán)利要求2所述的聽寫管理器,其中所述音頻信號被存儲在緩沖器中,同時由聽 寫服務器選擇器選擇至少一個聽寫服務器中的一個聽寫服務器。
4.如權(quán)利要求1所述的聽寫管理器,其中所述聽寫服務器選擇器還包括負載平衡器。
5.如權(quán)利要求4所述的聽寫管理器,其中,所述聽寫服務器選擇器基于負載平衡器的 決策來選擇聽寫服務器。
6.如權(quán)利要求5所述的聽寫管理器,其中所述決策是基于隊列長度、平均處理時間、處 理負載以及內(nèi)存中的至少一項做出的。
7.如權(quán)利要求1所述的聽寫管理器,還包括用戶特征校正器,其中聽寫管理器進一步 用于從客戶站接收校正的文本數(shù)據(jù),并且用戶特征校正器基于校正的文本數(shù)據(jù)更新用戶特 征。
8.一種使用與聽寫管理器相關聯(lián)的至少一個處理器執(zhí)行的分布式聽寫和轉(zhuǎn)錄方法,該 方法包括以下步驟接收來自操作客戶站的用戶的音頻信號;識別存儲在聽寫管理器的存儲器中的與接收的音頻信號的用戶相關聯(lián)的用戶特征; 確定是否用戶的被識別的用戶特征已經(jīng)被預先提供給連接到聽寫管理器的多個服務 器中的任意一個服務器;如果已確定被識別的用戶特征已經(jīng)被預先提供給多個服務器中的任意一個服務器,則 選擇該聽寫服務器來作為任意聽寫服務器中的一個;通過將所接收的音頻信號發(fā)送到所選的聽寫服務器并接收來自所選的聽寫服務器的 轉(zhuǎn)錄文本數(shù)據(jù),使得音頻信號被轉(zhuǎn)換成文本數(shù)據(jù)信號;以及 將轉(zhuǎn)錄文本數(shù)據(jù)發(fā)送到客戶站。
9.如權(quán)利要求8所述的方法,其中選擇聽寫服務器的步驟還包括在聽寫服務器之間平 衡負載。
10.如權(quán)利要求8所述的方法,其中確定是否被識別的用戶特征已被預先提供的步驟 包括確定多個聽寫服務器中的至少兩個聽寫服務器已經(jīng)被預先提供了被識別的用戶特征, 且選擇聽寫服務器的步驟進一步包括選擇至少兩個聽寫服務器中的一個來平衡所述至少 兩個聽寫服務器之間的負載。
11.如權(quán)利要求8所述的方法,其中確定是否被識別的用戶特征已經(jīng)被預先提供給多 個聽寫服務器中的任意一個聽寫服務器的步驟確定了被識別的用戶特征尚未被預先提供, 則從多個聽寫服務器中選擇一個聽寫服務器的步驟包括在多個聽寫服務器之間平衡負載, 并進一步包括將被識別的用戶特征發(fā)送到多個聽寫服務器中的所選的一個聽寫服務器上 的步驟。
12.如權(quán)利要求8所述的方法,還包括在使音頻被轉(zhuǎn)換為文本數(shù)據(jù)的步驟之前的緩沖 音頻信號的步驟。
13.如權(quán)利要求11所述的方法,還包括緩沖音頻信號直到被識別的用戶特征被發(fā)送到 多個聽寫服務器中的所選出的一個聽寫服務器的步驟。
14.如權(quán)利要求8所述的方法,還包括以下步驟從客戶站接收修訂后的文本數(shù)據(jù),其中修訂后的文本數(shù)據(jù)信號包括至少一次轉(zhuǎn)錄校正;使用修訂后的文本數(shù)據(jù)信號來修改被識別的用戶特征;并且存儲已被修改的被識別的用戶特征。
15.一種向客戶站提供分布式聽寫和轉(zhuǎn)錄服務的系統(tǒng),包括至少一個聽寫管理器,具有到至少一個客戶站的網(wǎng)絡連接,所述網(wǎng)絡連接包括至少一 個數(shù)據(jù)端口用于從至少一個客戶站接收音頻信號、向至少一個客戶站發(fā)送文本數(shù)據(jù),并從 至少一個客戶站接收文本數(shù)據(jù);至少一個聽寫服務器,包括至少一個轉(zhuǎn)錄機用于將聽寫語句的音頻信號變換為文本數(shù) 據(jù)信號;至少一個聽寫管理器和至少一個聽寫服務器之間的至少一個網(wǎng)絡連接,用于在至少一 個聽寫管理器和至少一個聽寫服務器之間發(fā)送音頻信號和文本數(shù)據(jù)信號;所述至少一個聽寫管理器包括處理器,所述處理器具有用于選擇至少一個聽寫服務器 中的一個聽寫服務器來將聽寫語句的音頻信號變換為文本數(shù)據(jù)信號的裝置;以及存儲器,包括至少一個用戶特征和信息,所述信息指示至少一個聽寫服務器中的哪個 已經(jīng)被提供了至少一個用戶特征,并且所述信息被用于選擇的裝置使用來輔助選擇至少一 個聽寫服務器中的一個。
16.如權(quán)利要求15所述的系統(tǒng),其中用于選擇至少一個聽寫服務器中的一個聽寫服務 器的裝置包括負載平衡器。
17.如權(quán)利要求15所述的系統(tǒng),其中用于選擇至少一個聽寫服務器中的一個聽寫服務 器的裝置包括決策器,該決策器使用存儲器中的信息來確定已經(jīng)被提供了至少一個用戶特 征的至少一個聽寫服務器中的一個聽寫服務器。
18.如權(quán)利要求15所述的系統(tǒng),其中所述聽寫管理器將用戶特征發(fā)送給至少一個聽寫服務器中的所選的一個聽寫服務器。
19.如權(quán)利要求18所述的系統(tǒng),其中所述聽寫管理器發(fā)送用戶特征的同時,由聽寫管 理器從客戶站接收的音頻信號被存儲在緩沖器中。
20.如權(quán)利要求15所述的系統(tǒng),其中所述聽寫管理器包括用戶特征校正器,其基于從 客戶站接收的校正的文本數(shù)據(jù)更新用戶特征。
全文摘要
本發(fā)明提供了一種分布式聽寫/轉(zhuǎn)錄系統(tǒng)。該系統(tǒng)包括網(wǎng)絡連接的客戶站、聽寫管理器和聽寫服務器,使得聽寫管理器能夠選擇聽寫服務器來轉(zhuǎn)錄來自客戶站的音頻。聽寫管理器基于常規(guī)的負載平衡以及對哪個聽寫服務器已經(jīng)被上載了用戶特征的確定來選擇多個聽寫服務器中的一個。此外,在選擇聽寫服務器和/或上載特征的同時,客戶站的用戶或客戶機便可以開始聽寫,其音頻將被存儲在聽寫管理器的緩沖器中直到聽寫服務器被選出和/或可利用。用戶將實時或接近實時地接收可被用戶校正的文本數(shù)據(jù)的顯示,校正的文本數(shù)據(jù)可被發(fā)送回聽寫管理器來更新用戶特征。
文檔編號G10L21/00GK101903946SQ200880122219
公開日2010年12月1日 申請日期2008年12月19日 優(yōu)先權(quán)日2007年12月21日
發(fā)明者喬恩·福德, 克里斯托弗·奧姆蘭德, 克里斯托弗·巴特勒, 布萊恩·馬奎特, 理查德·比奇 申請人:Nvoq股份有限公司