專利名稱:用于個人通信設備的語音到文本轉錄的制作方法
技術領域:
本技術領域一般涉及個人通信設備并具體地涉及由服務器資源代表個人通信設備進行的語音到文本轉錄。背景諸如蜂窩電話或個人數(shù)字助理(PDA)等個人通信設備的用戶受限于使用在尺寸 以及功能上受限的鍵區(qū)和其它文本輸入機制來輸入文本,進而導致很大程度上的不便以及 低效率。例如,蜂窩電話的鍵區(qū)通常包含作為多功能鍵的若干鍵。具體而言,使用單個鍵來 輸入諸如A、B、或C等三個字母之一。個人數(shù)字助理(PDA)的鍵區(qū)通過結合其中單獨鍵用 于單獨字母的QWERYT鍵盤來提供一些改善。然而,鍵的微型尺寸被證明為對某些用戶是不 便的且對其它人是嚴重的阻礙。作為這些阻礙的結果,介紹了用于將信息輸入到個人通信設備中的各種替換解決 方案。例如,將語音識別系統(tǒng)嵌入到蜂窩電話以啟用經(jīng)由語音的輸入。此方法提供了某些 好處,如使用口頭命令來撥打電話號碼。然而,由于涉及成本和移動設備中的硬件/軟件限 制的各種因素,其不能滿足諸如電子郵件文本輸入等更復雜的任務的需要。概述提供本概述以便以簡化的形式介紹將在以下說明性實施例的詳細描述中進一步 描述的一些概念。本發(fā)明內容并不旨在標識出所要求保護的主題的關鍵特征或必要特征, 也不旨在用于限定所要求保護的主題的范圍。在一個用于生成文本的示例性方法中,通過將電子郵件的一部分讀到例如個人通 信設備(PCD)中來創(chuàng)建語音信號。將所生成的語音信號傳送到服務器。該服務器容納語音 到文本轉錄系統(tǒng),該系統(tǒng)將語音信號轉錄成被返回給PCD的文本消息。在PCD上編輯該文 本消息以糾正任何轉錄錯誤并隨后將其用于各種應用。在一個示例性應用中,以電子郵件 格式將所編輯的文本傳送給電子郵件接收者。在用于生成文本的另一示例性方法中,在服務器中接收由P⑶生成的語音信號。 通過使用位于該服務器中的語音到文本轉錄系統(tǒng)將語音信號轉錄成文本消息。隨后將該文 本消息傳送到PCD。此外,在一個其它示例中,轉錄過程包括生成用于說出的詞的語音識別 的備擇候選的列表。此備擇候選的列表與被轉錄的詞一起由服務器傳送到PCD。附圖簡述以上概述以及以下詳細描述在結合附圖閱讀時可被更好地理解。出于說明用于個 人通信設備的語音到文本轉錄的目的,在附圖中示出了其示例性構造;然而,用于個人通信 設備的語音到文本轉錄不限于所公開的具體方法和手段。
圖1示出結合用于個人通信設備的語音到文本轉錄系統(tǒng)的示例性通信系統(tǒng)100。圖2示出用于使用語音到文本轉錄來生成文本的步驟的示例性序列,該方法在圖 1的通信系統(tǒng)上實現(xiàn)。圖3是用于實現(xiàn)用于個人通信設備的語音到文本轉錄的示例性處理器的圖示。圖4是其中可實現(xiàn)用于個人通信設備的語音到文本轉錄的合適計算環(huán)境的描繪。
說明性實施例的詳細描述 在下文所述的各示例性實施例中,用于個人通信設備的語音到文本轉錄系統(tǒng)被容 納在通信耦合到一個或多個移動設備的通信服務器中。不同于被容納在移動設備中的語音 識別系統(tǒng),由于服務器中廣泛的可用性、成本有效的存儲容量和計算能力,位于服務器中的 語音到文本轉錄系統(tǒng)是具有豐富特征且高效的。在此處被稱為個人通信設備(PCD)的移動 設備的用戶將例如電子郵件的音頻口述到PCD中。PCD將用戶的語音轉換成被傳送到位于 服務器中的語音到文本轉錄系統(tǒng)的語音信號。語音到文本轉錄系統(tǒng)通過使用語音識別技術 將語音信號轉錄成文本消息。該文本消息隨后由服務器傳送到PCD。在接收到該文本消息 后,用戶在利用文本的各應用中使用該文本消息之前對被錯誤轉錄的詞進行糾正。在一示例性應用中,所編輯的文本消息用于形成例如隨后被發(fā)送給電子郵件接收 者的電子郵件的正文部分。在一替換應用中,在諸如Microsoft WORD 等實用程序中使用 所編輯的文本消息。在又一應用中,將所編輯的文本插入到備忘錄中。其中使用文本的這 些和其它此類示例將被本領域的普通技術人員理解,因此,本發(fā)明的范圍旨在涵蓋所有此 類區(qū)域。上文所述的安排提供若干優(yōu)點。例如,位于服務器中的語音到文本轉錄系統(tǒng)結合 成本有效語音識別系統(tǒng),該系統(tǒng)與被容納在PCD內的更受限的語音識別系統(tǒng)相比提供較高 的詞識別準確性(通常在中到高90%范圍中)。此外,使用PCD的鍵區(qū)以編輯由語音到文本轉錄生成的文本消息中的幾個不正確 的詞與通過手動按下PCD的鍵區(qū)上的鍵對輸入電子郵件消息的整個文本相比是更高效且 更優(yōu)選的。使用良好的語音到文本轉錄系統(tǒng)的情況下,不正確的詞通常將少于所轉錄的文 本消息中的詞總數(shù)的10%。圖1示出結合容納在位于蜂窩基站120中的服務器125中的語音到文本轉錄系統(tǒng) 130的示例性通信系統(tǒng)100。如在本領域中公知的,蜂窩基站120向各PCD提供蜂窩通信服 務。出于訪問語音到文本轉錄系統(tǒng)130的目的,這些PCD中的每一個在按需基礎上或在連 續(xù)基礎上通信耦合到服務器125。P⑶的幾個非窮盡性示例包括作為智能電話的P⑶105、作為個人數(shù)字助理(PDA) 的PCD 110、以及作為具有文本輸入工具的蜂窩電話的PCD 115。PCD 105(智能電話)結合 蜂窩電話與計算機,進而提供語音以及包括電子郵件的數(shù)據(jù)通信特征。PCD IlO(PDA)結合 用于數(shù)據(jù)通信的計算機、用于語音通信的蜂窩電話、以及用于存儲諸如地址、約會、日歷、以 及備忘錄等個人信息的數(shù)據(jù)庫。PCD 115(蜂窩電話)提供語音通信以及諸如短消息服務 (SMS)等特定文本輸入工具。 在一個具體示例性實施例中,除容納語音到文本轉錄系統(tǒng)130之外,蜂窩基站120 還包括向各P⑶提供電子郵件服務的電子郵件服務器145。蜂窩基站120還通信耦合到諸 如公共交換電話網(wǎng)中心局(PSTN CO) 140等其它網(wǎng)絡元素,且可任選地通信耦合到因特網(wǎng)服 務供應商(ISP) 150。蜂窩基站120、電子郵件服務器145、ISP 150、以及PSTN CO 140的操 作的細節(jié)將不在此處提供以將焦點保持在用于PCD的語音到文本轉錄系統(tǒng)的相關方面上, 而避免由對本領域的普通技術人員公知的主題引起的任何注意力轉移。在一示例配置中, ISP 150耦合到包括用于處理電子郵件和轉錄功能的電子郵件服務器162和語音到文本轉 錄系統(tǒng)130的企業(yè)152。
可將語音到文本轉錄系統(tǒng)130容納在通信網(wǎng)絡100中的若干替換位置。例如,在 第一示例性實施例中,將語音到文本轉錄系統(tǒng)130容納在位于蜂窩基站120中的輔助服務 器135中。輔助服務器135通信耦合到服務器125,該服務器125在此配置中作為主要服務 器操作。在第二示例性實施例中,將語音到文本轉錄系統(tǒng)130容納在位于PSTN CO 140中 的服務器155中。在第三示例性實施例中,將語音到文本轉錄系統(tǒng)130容納在位于ISP 150 的工具中的服務器160中。通常,如上所述,語音到文本轉錄系統(tǒng)130包括語音識別系統(tǒng)。語音識別系統(tǒng)可 以是獨立于說話者的系統(tǒng)或依賴于說話者的系統(tǒng)。在依賴于說話者時,語音到文本轉錄系 統(tǒng)130包括其中提示PCD用戶以個別詞的形式或以指定段落的形式來說出若干詞的訓練特 征。將這些詞作為詞的定制模板存儲以供由此P⑶用戶使用。此外,語音到文本轉錄系統(tǒng) 130還可按與每一各個PCD用戶相關聯(lián)的一個或多個數(shù)據(jù)庫的形式包括以下各項中的一個 或多個用戶偏好并常說的詞匯表詞的定制列表、由用戶使用的電子郵件地址的列表、以及 具有用戶的一個或多個聯(lián)系人的個人信息的聯(lián)系人列表。圖2示出用于使用語音到文本轉錄來生成文本的步驟的示例性序列,該方法在通 信系統(tǒng)100上實現(xiàn)。在此具體示例中,語音到文本轉錄用于經(jīng)由電子郵件服務器145傳送 電子郵件。位于蜂窩基站120中的服務器125包含語音到文本轉錄系統(tǒng)130。代替使用兩 個單獨的服務器,可任選地使用單個集成服務器210以結合服務器125以及電子郵件服務 器145的功能。結果,在此類配置中,集成服務器210通過使用共享資源來執(zhí)行與語音到文 本轉錄以及電子郵件服務相關聯(lián)的操作??扇芜x步驟的序列開始于步驟1,其中P⑶用戶向P⑶105 口述電子郵件。該口述 音頻可以是關于電子郵件的若干替換材料之一。此類材料的幾個非窮盡性示例包括電子 郵件的正文的一部分、電子郵件的正文全體、主題行文本、以及一個或多個電子郵件地址。 該口述音頻在P⑶105中被轉換成電子語音信號、被合適地編碼以供無線傳送、并隨后被 傳送到蜂窩基站120,在那里將該電子語音信號路由到語音到文本轉錄系統(tǒng)130。通??砂ㄕZ音識別系統(tǒng)(未示出)和文本生成器(未示出)的語音到文本轉錄 系統(tǒng)130將語音信號轉錄成文本數(shù)據(jù)。合適地編碼該文本數(shù)據(jù)以供無線傳送并在步驟2將 其傳送回到P⑶105。步驟2可按自動過程來實現(xiàn),其中在沒有由P⑶105的用戶執(zhí)行的 任何動作的情況下文本消息被自動發(fā)送到PCD105。在替換過程中,PCD用戶必須通過激活 特定鍵來手動操作PCD 105以例如將文本消息從語音到文本轉錄系統(tǒng)130下載到PCD 105 中。不向P⑶105傳送該文本消息,直到此下載請求由P⑶用戶作出。在步驟3,PCD用戶編輯文本消息并適當?shù)貙⑵涓袷交呻娮余]件消息。一旦電子 郵件被適當?shù)馗袷交诓襟E4,P⑶用戶即激活電子郵件“發(fā)送”按鈕且該電子郵件被無線 地傳送到電子郵件服務器145,從電子郵件服務器145電子郵件耦合到因特網(wǎng)(未示出)以 供轉發(fā)到合適的電子郵件接收者。使用作為示例的若干替換操作模式,上述四個步驟現(xiàn)在將以更一般的方式(不限 于電子郵件)更詳細地描述。延遲傳送模式在此操作模式中,PCD用戶闡述需要從語音轉錄成文本的材料。將所闡述的文本 存儲在PCD中的合適存儲緩沖區(qū)中。這可例如通過使用用于數(shù)字化說話者的語音的模擬到數(shù)字編碼器,之后將數(shù)字化數(shù)據(jù)存儲在數(shù)字存儲器芯片中來執(zhí)行。執(zhí)行數(shù)字化和存儲過程 直到PCD用戶完成闡述整個材料。在此任務完成后,PCD用戶激活PCD上的“轉錄”鍵以在 用于無線傳送的合適格式化之后將數(shù)字化數(shù)據(jù)按數(shù)據(jù)信號的形式傳送到蜂窩基站120。可 將轉錄鍵實現(xiàn)為硬鍵或軟鍵,軟鍵例如以圖標的形式在PCD的顯示器上顯示。零碎傳送樽式在此操作模式中,P⑶用戶闡述以數(shù)據(jù)形式從P⑶105頻繁并周期性地傳送到蜂窩基站120的材料。例如,只要PCD用戶在其對PCD說話期間暫停,就可將所闡述的材料作 為語音信號的一部分來傳送。此類暫??砂l(fā)生在例如句子的結尾處。甚至在P⑶用戶正在 說下一句子時,語音到文本轉錄系統(tǒng)130也可轉錄此語音信號的特定部分并返回對應文本 消息。因此,轉錄過程在此零碎傳送模式中可執(zhí)行得比在其中用戶必須完全完成說出整個 材料的延遲傳送模式中快。在一個替換實現(xiàn)中,可選擇性地將零碎傳送模式與延遲傳送模式結合。在此類組 合模式中,在PCD 105中的間斷傳送之前,使用臨時緩沖存儲來存儲所闡述的材料的特定 部分(例如大于一句子)。此類實現(xiàn)所需的緩沖存儲與用于其中必須在傳送之前存儲整個 材料的延遲傳送模式相比更節(jié)制。實況傳送樽式在此操作模式中,PCD用戶激活PCD上的“轉錄請求”鍵??蓪⑥D錄請求鍵實現(xiàn)為 硬鍵或軟鍵,軟鍵例如以圖標的形式在PCD的顯示器上顯示。在激活此鍵后,使用例如以傳 輸控制格式(TCP/IP)嵌入的網(wǎng)際協(xié)議(IP)數(shù)據(jù)在PCD 105與服務器125 (其容納語音到 文本轉錄系統(tǒng)130)之間設置通信鏈接。被稱為分組傳送鏈接的此類通信鏈接在本領域中 公知且通常用于傳輸因特網(wǎng)相關的數(shù)據(jù)分組。在示例實施例中,在激活轉錄請求鍵后,代替 IP呼叫,經(jīng)由蜂窩基站120向服務器125提供諸如電路交換呼叫(例如,標準電話呼叫)等 電話呼叫。分組傳送鏈接由服務器105使用以向P⑶105確認服務器125準備好從P⑶105 接收IP數(shù)據(jù)分組。攜帶根據(jù)由用戶闡述的材料數(shù)字化的數(shù)字數(shù)據(jù)的IP數(shù)據(jù)分組在服務器 125被接收并在耦合到語音到文本轉錄系統(tǒng)130以轉錄之前被合適地解碼??砂囱舆t傳送 模式或零碎傳送模式向PCD傳播被轉錄的文本消息(同樣以IP數(shù)據(jù)分組的形式)。語音到文本轉錄如上所述,通常通過使用語音識別系統(tǒng)在語音到文本轉錄系統(tǒng)130中執(zhí)行語音 到文本轉錄。在用于語音識別的備擇候選存在時,語音識別系統(tǒng)通過委托若干備擇候選 中的每一個的置信度因素來識別各個詞。例如,說出的詞“taut (拉緊)”可具有諸如 “taught (教)”、“thought (想)”、“tote (拉)”、以及“taut”等用于語音識別的若干備擇 候選。語音識別系統(tǒng)將這些備擇候選中的每一個與識別準確性的置信度因素相關聯(lián)。在此 具體示例中,taught、thought、tote、以及taut的置信度因素分別可以是75%、50%、25%、 以及10%。語音識別系統(tǒng)選擇具有最高置信度因素的候選并將此候選用于將說出的詞轉 錄成文本。因此,在此示例中,語音到文本轉錄系統(tǒng)130將說出的詞“taut”轉錄成文本詞 "taught,,。在圖2的步驟2作為被轉錄的文本的一部分從蜂窩基站105被傳送到P⑶105的該 被轉錄的詞顯然是不正確的。在一個示例性應用中,PCD用戶在其PCD105上觀察到該出錯的詞并通過刪除“taught”并以“taut”替換它來手動地編輯該詞,這在此實例中通過在P⑶105的鍵盤上鍵入詞“taut”來執(zhí)行。在另一示例性應用中,備擇候選詞(thought、tote、以 及taut)中的一個或多個由語音到文本轉錄系統(tǒng)130鏈接到被轉錄的詞“taught”。在此第 二種情況下,PCD用戶觀察到出錯的詞并從菜單中選擇備擇候選詞而不是手動地鍵入替換 詞??衫缤ㄟ^將光標放置在被不正確地轉錄的詞“taught”上來將菜單作為下拉菜單顯 示。在將光標放置在被轉錄的詞上時可自動地顯示備擇詞,或其可通過在將光標放置在被 不正確轉錄的詞上之后激活PCD 105的合適硬鍵或軟鍵來顯示。在一示例實施例中,可自 動顯示詞(短語)的備擇序列,且用戶可選擇合適的短語。例如,在選擇詞“taught”后,可 顯示短語“Rob taught”、“rope (繩子)taught”、“Rob taut”、以及 “rope taut”,且用戶可 選擇合適的短語。在又一示例實施例中,合適的短語可根據(jù)置信度水平自動顯示或從顯示 中消去。例如,基于英語使用的一般模式,系統(tǒng)可能對短語“Rob taut”和“rope taught”是 正確的具有低置信度,并可避免顯示這些短語。在其它示例實施例中,系統(tǒng)可從之前的選擇 學習。例如,系統(tǒng)可學習字典詞、字典短語、聯(lián)系人名稱、電話號碼等。此外,可基于之前的 行為來預測文本。例如,系統(tǒng)可“聽到”之后是混淆語音的以“42”開始的電話號碼?;?系統(tǒng)中的之前信息(例如,所學習的信息或種子信息),該系統(tǒng)可推斷該區(qū)域碼是425。因 此,可顯示具有425的號碼的各種組合。例如,可顯示“425-XXX-XXXX”??娠@示該區(qū)域和前 綴的各種組合。例如,如果存儲在系統(tǒng)中具有425區(qū)域碼的僅有的號碼具有707或606前 綴,則可顯示“425-707-XXXX”和“425-606-XXXX”。隨著用戶選擇所顯示的號碼之一,可顯 示額外號碼。例如,如果選擇了 “425-606-XXXX”,則可顯示以425-606開始的所有號碼。作為對上文所述的菜單驅動糾正特征的補充和替換,語音到文本轉錄系統(tǒng)130可 通過以特定方式(例如,通過以紅線對有疑問的詞加下劃線、或通過以紅色對有疑問的詞 的文本著色)突出顯示有疑問地轉錄的的詞來提供詞糾正工具。在替換示例實施例中,PCD 可通過以特定方式(例如,通過以紅線對有有疑問的詞加下劃線、或通過以紅色對有疑問 的詞的文本著色)突出顯示有疑問地轉錄的詞來提供詞糾正工具。上文所述的糾正過程還可用于生成詞匯詞的定制列表或用于創(chuàng)建定制詞的字典。 可將定制列表和字典中的任一或兩者存儲在語音到文本轉錄系統(tǒng)130和PCD 105中的任一 或兩者中。詞匯表詞的定制列表可用于存儲對具體用戶唯一的某些詞。例如,此類詞可包 括個人的名字或外語詞??稍诶鏟CD用戶指示某一被轉錄的詞必須在未來被由該PCD用 戶提供的替換詞自動糾正時創(chuàng)建定制字典。圖3是用于實現(xiàn)語音到文本轉錄130的示例性處理器300的圖示。處理器300包 括處理部分305、存儲器部分350和輸入/輸出部分360。處理部分305、存儲器部分350和 輸入/輸出部分360被耦合在一起(耦合未在圖3中示出)以允許它們之間的通信。輸入 /輸出部分360能夠提供和/或接收用于執(zhí)行如上所述的語音到文本轉錄的組件。例如,輸 入/輸出部分360能夠提供蜂窩基站與語音到文本轉錄130之間的通信耦合和/或服務器 與語音到文本轉錄130之間的通信耦合。處理器300可被實現(xiàn)為客戶機處理器、服務器處理器、和/或分布式處理器。在一 基本配置中,處理器300可包括至少一個處理部分305和存儲器部分350。存儲器部分350 可存儲結合語音到文本轉錄使用的任何信息。取決于處理器的精確配置和類型,存儲器部 分350可以是易失性的(如RAM) 325、非易失性的(如ROM、閃存等)330、或其組合。處理器300可以具有附加特征/功能。例如,處理器300可以包括附加存儲(可移動存儲310和/或不可移動存儲320),包括但不限于,磁盤或光盤、磁帶、閃存、智能卡或其組合。諸如存儲 器部分310、320、325、以及330等計算機存儲介質包括以用于存儲諸如計算機可讀指令、數(shù) 據(jù)結構、程序模塊或其它數(shù)據(jù)等信息的任意方法或技術來實現(xiàn)的易失性和非易失性、可移 動和不可移動介質。計算機存儲介質包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器 技術、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲 設備、兼容通用串行總線(USB)的存儲器、智能卡、或能用于存儲所需信息且可以由處理器 300訪問的任何其它介質。任何這樣的計算機存儲介質都可以是處理器300的一部分。處理器300還可包含允許處理器300與諸如例如其它調制解調器等其它設備進行 通信的通信連接345。通信連接345是通信介質的一個示例。通信介質通常以諸如載波或 其它傳輸機制等已調制數(shù)據(jù)信號來體現(xiàn)計算機可讀指令、數(shù)據(jù)結構、程序模塊或其它數(shù)據(jù), 且包含任何信息傳遞介質。術語“已調制數(shù)據(jù)信號”指的是其一個或多個特征以在信號中 編碼信息的方式被設定或更改的信號。作為示例而非限制,通信介質包括有線介質,諸如有 線網(wǎng)絡或直接線連接,以及無線介質,諸如聲學、RF、紅外線和其它無線介質。如此處所使用 的術語計算機可讀介質包括存儲介質和通信介質兩者。處理器300也可具有輸入設備340, 諸如鍵盤、鼠標、筆、語音輸入設備、觸摸輸入設備等。還可包括輸出設備335,如顯示器、揚 聲器、打印機等。雖然在圖3中被示為一個集成框,應該理解,處理器300可被實現(xiàn)為具有例如被作 為多中央處理單元(CPU)實現(xiàn)的處理部分305的分布式單元。在一個此類實現(xiàn)中,處理器 300的第一部分可位于P⑶105中,第二部分可位于語音到文本轉錄系統(tǒng)130中,而第三部 分可位于服務器125中。各部分被配置成實現(xiàn)與用于PCD的語音到文本轉錄相關聯(lián)的各種 功能。第一部分可用于例如在P⑶105上提供下拉菜單顯示并在P⑶105的顯示上提供諸 如“轉錄”鍵和“轉錄請求”鍵等特定軟鍵。第二部分可用于例如執(zhí)行語音識別并用于將替 換候選附連到被轉錄的詞。第三部分可用于例如將位于服務器125中的調制解調器耦合到 語音到文本轉錄系統(tǒng)130。圖4和以下討論提供其中可實現(xiàn)用于個人通信設備的語音到文本轉錄的合適計 算環(huán)境的簡要概括描述。雖然不是必需,但語音到文本轉錄的各方面能在諸如由客戶機工 作站或服務器等計算機上執(zhí)行的諸如程序模塊等計算機可執(zhí)行指令的一般上下文中描述。 一般而言,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、 數(shù)據(jù)結構等。此外,用于個人通信設備的語音到文本轉錄的實現(xiàn)可用其它計算機系統(tǒng)配置 來實施,包括手持設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)或可編程消費電子設備、網(wǎng)絡 PC、小型機、大型計算機等。此外,用于個人通信設備的語音到文本轉錄也可以在其中任務 由通過通信網(wǎng)絡鏈接的遠程處理設備執(zhí)行的分布式計算環(huán)境中實現(xiàn)。在分布式計算環(huán)境 中,程序模塊可以位于本地和遠程存儲器存儲設備中。計算機系統(tǒng)可被大致分為三個組件組硬件組件、硬件/軟件接口系統(tǒng)組件、以及 應用程序組件(也被稱為“用戶組件”或“軟件組件”)。在計算機系統(tǒng)的各實施例中,硬件 組件可包括中央處理單元(CPU) 421 ;存儲器(R0M464和RAM 425兩者);基本輸入/輸出系 統(tǒng)(BIOS) 466 ;以及諸如鍵盤440、鼠標442、監(jiān)視器447和/或打印機(未示出)等各種輸 入/輸出(I/O)設備。硬件組件包括計算機系統(tǒng)的基本物理基礎結構。
應用程序組件包括各種軟件程序,包括但不限于編譯器、數(shù)據(jù)庫系統(tǒng)、文字處理程 序、業(yè)務程序、視頻游戲等。應用程序提供用于利用計算機資源來解決問題、提供解決方案、 及處理各種用戶(機器、其它計算機系統(tǒng)和/或最終用戶)的數(shù)據(jù)的手段。在一示例實施 例中,如上所述,應用程序執(zhí)行與用于個人通信設備的語音到文本轉錄相關聯(lián)的功能。硬件/軟件接口系統(tǒng)組件包括(并且在某些實施例中只包括)操作系統(tǒng),其本身 在大多數(shù)情況下包括外殼和內核?!安僮飨到y(tǒng)”(OS)是擔當應用程序和計算機硬件之間的 中介的特殊程序。硬件/軟件接口系統(tǒng)組件還可以包括虛擬機管理器(VMM)、公共語言運行 庫(CLR)或其功能等效物、Java虛擬機(JVM)或其功能等效物、或者作為對計算機系統(tǒng)中 的操作系統(tǒng)的替換或補充的其它這樣的軟件組件。硬件/軟件接口系統(tǒng)的目的在于提供用 戶可在其中執(zhí)行應用程序的環(huán)境。硬件/軟件接口系統(tǒng)通常在啟動時被加載到計算機系統(tǒng)中,并且之后管理計算機 系統(tǒng)中的所有應用程序。應用程序通過經(jīng)由應用程序接口(API)請求服務來與硬件/軟件 接口系統(tǒng)交互。某些應用程序使得最終用戶能夠經(jīng)由諸如命令語言或圖形用戶界面(GUI) 等用戶界面來與硬件/軟件接口系統(tǒng)交互。硬件/軟件接口系統(tǒng)傳統(tǒng)上執(zhí)行用于應用程序的各種服務。在其中多個程序可 同時運行的多任務硬件/軟件接口系統(tǒng)中,硬件/軟件接口系統(tǒng)確定各應用程序應該以何 種次序運行以及在為輪換而切換至另一應用程序之前應該允許每一個應用程序多長時間。 硬件/軟件接口系統(tǒng)還管理多個應用程序之間的內部存儲器的共享,并且處理來自諸如硬 盤、打印機和撥號端口等附連硬件設備的輸入以及對其的輸出。硬件/軟件接口系統(tǒng)還將 關于操作的狀態(tài)和可能已發(fā)生的任何錯誤的消息發(fā)送給每一個應用程序(并且在某些情 況下發(fā)送給最終用戶)。硬件/軟件接口系統(tǒng)還可卸載批作業(yè)(例如,打印)的管理以使得 啟動應用程序免除該工作并能夠繼續(xù)執(zhí)行其它處理和/或操作。在能提供并行處理的計算 機上,硬件/軟件接口系統(tǒng)還管理劃分程序以使其同時在多于一個的處理器上運行。硬件/軟件接口系統(tǒng)外殼(被稱為“外殼”)是對硬件/軟件接口系統(tǒng)的交互式最 終用戶接口。(外殼也稱為“命令解釋程序”,或在操作系統(tǒng)中被稱為“操作系統(tǒng)外殼”)。夕卜 殼是可直接由應用程序和/或最終用戶訪問的硬件/軟件接口系統(tǒng)的外層。與外殼相反, 內核是直接與硬件組件交互的硬件/軟件接口系統(tǒng)的最內層。如圖4所示,示例性通用計算系統(tǒng)包括常規(guī)計算設備460等,其包括中央處理單 元421、系統(tǒng)存儲器462和將包括系統(tǒng)存儲器的各種系統(tǒng)組件耦合到處理單元421的系統(tǒng) 總線423。系統(tǒng)總線423可以是幾種類型的總線結構中的任何一種,包括存儲器總線或存 儲控制器、外圍總線、以及使用各種總線體系結構中的任一種的局部總線。系統(tǒng)存儲器包括 只讀存儲器(ROM) 464和隨機存取存儲器(RAM) 425?;据斎?輸出系統(tǒng)(BIOS) 466被存 儲在ROM 464中,它包含幫助在諸如啟動期間在計算設備460內的元件之間傳遞信息的基 本例程。計算設備460還可包括對硬盤(硬盤未示出)讀寫的硬盤驅動器427、對可移動 磁盤429 (例如,軟盤、移動存儲)讀寫的磁盤驅動器428 (例如,軟盤驅動器)、以及對諸如 ⑶-ROM或其它光學介質等可移動光盤431讀寫的光盤驅動器430。硬盤驅動器427、磁盤驅 動器428和光盤驅動器430分別通過硬盤驅動器接口 432、磁盤驅動器接口 433和光盤驅動 器接口 434來連接到系統(tǒng)總線423。驅動器及其相關聯(lián)的計算機可讀介質為計算設備460 提供了對計算機可讀指令、數(shù)據(jù)結構、程序模塊和其它數(shù)據(jù)的非易失性存儲。雖然此處所描述的示例性環(huán)境采用了硬盤、可移動磁盤429和可移動光盤431,但本領域的技術人員可以 理解,在示例性操作環(huán)境中也可以使用可儲存可由計算機訪問的數(shù)據(jù)的其它類型的計算機 可讀介質,如磁帶盒、閃存卡、數(shù)字視頻盤、貝努利盒式磁帶、隨機存取存儲器(RAM)、只讀存 儲器(ROM)等等。同樣,示例性環(huán)境還可包括諸如熱傳感器和安全或火警系統(tǒng)等許多類型 的監(jiān)控設備,以及其它信息源。 多個程序模塊可被儲存在硬盤427、磁盤429、光盤431、ROM 464、或RAM 425上, 包括操作系統(tǒng)435、一個或多個應用程序436、其它程序模塊437、以及程序數(shù)據(jù)438。用戶 可通過諸如鍵盤440和定點設備442 (例如,鼠標)等輸入設備將命令和信息輸入到計算設 備460中。其它輸入設備(未示出)可以包括話筒、操縱桿、游戲鍵盤、圓盤式衛(wèi)星天線、掃 描儀等。這些和其它輸入設備通常由耦合至系統(tǒng)總線的串行端口接口 446連接至處理單元 421,但也可以由其它接口,諸如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器 447或其它類型的顯示設備也經(jīng)由接口,諸如視頻適配器448連接至系統(tǒng)總線423。除監(jiān)視 器447之外,計算機通常包括其它外圍輸出設備(未示出),諸如揚聲器或打印機等。圖4 的示例性環(huán)境還包括主機適配器455、小型計算機系統(tǒng)接口(SCSI)總線456和連接到SCSI 總線456的外部存儲設備462。計算設備460可使用至諸如遠程計算機449等一個或多個遠程計算機的邏輯連接 在網(wǎng)絡化環(huán)境中操作。遠程計算機449可以是另一計算設備(例如,個人計算機)、服務器、 路由器、網(wǎng)絡PC、對等設備或其它常見的網(wǎng)絡節(jié)點,且通常包括上文相對于計算設備460描 述的許多或所有元件,盡管在圖4中只示出了存儲器存儲設備450 (軟盤驅動器)。圖4所 描繪的邏輯連接包括局域網(wǎng)(LAN)451和廣域網(wǎng)(WAN)452。這樣的網(wǎng)絡環(huán)境常見于辦公室、 企業(yè)范圍計算機網(wǎng)絡、內聯(lián)網(wǎng)和因特網(wǎng)。當在LAN聯(lián)網(wǎng)環(huán)境中使用時,計算設備460通過網(wǎng)絡接口或適配器453連接至LAN 451。當在WAN聯(lián)網(wǎng)環(huán)境中使用時,計算設備460可包括調制解調器454或用于通過諸如因 特網(wǎng)等廣域網(wǎng)452來建立通信的其它裝置?;驗閮戎没驗橥庵玫恼{制解調器454經(jīng)由串行 端口接口 446連接到系統(tǒng)總線423。在網(wǎng)絡化環(huán)境中,相對于計算設備460描繪的程序模塊 或其部分可被儲存在遠程存儲器存儲設備中??梢岳斫?,所示的網(wǎng)絡連接是示例性的,且可 以使用在計算機之間建立通信鏈路的其它手段。雖然可以想像用于個人通信設備的語音到文本轉錄的多個實施例尤其適用于計 算機化系統(tǒng),然而在本說明中不旨在將用于個人通信設備的語音到文本轉錄限于此類實施 例。相反,此處所使用的術語“計算機系統(tǒng)”旨在包括能夠存儲和處理信息和/或能夠使用 所存儲的信息來控制設備本身的行為或執(zhí)行的任何及所有設備,而不管那些設備本質上是 否為電子的、機械的、邏輯的、或虛擬的。此處所述的各種技術可結合硬件或軟件,或在適當時以其組合來實現(xiàn)。因此,用于 實現(xiàn)用于個人通信設備的語音到文本轉錄的方法和裝置或其某些方面或部分,可以采取包 含在諸如軟盤、CD-ROM、硬盤驅動器或任何其它機器可讀存儲介質等有形介質中的程序代 碼(即,指令)的形式,其中,當程序代碼被加載至諸如計算機等機器并由其運行時,該機器 成為用于實現(xiàn)用于個人通信設備的語音到文本轉錄的裝置。如果需要,程序可以用匯編語言或機器語言來實現(xiàn)。在任何情況下,語言可以是編 譯的或解釋的語言,且與硬件實現(xiàn)相結合。用于實現(xiàn)用于個人通信設備的語音到文本轉錄的方法和裝置也可以經(jīng)由以通過某種傳輸介質傳輸?shù)某绦虼a的形式體現(xiàn)的通信來實現(xiàn), 傳輸介質比如通過電線或電纜、通過光纖或經(jīng)由任何其它傳輸形式,其中,當程序代碼由諸 如EPROM、門陣列、可編程邏輯器件(PLD)、客戶計算機等機器接收、加載并執(zhí)行時。當在通 用處理器上實現(xiàn)時,程序代碼與處理器相結合來提供一種用于調用用于個人通信設備的語 音到文本轉錄的功能的獨特裝置。另外,結合用于個人通信設備的語音到文本轉錄所使用 的任何存儲技術總是可以是硬件和軟件的組合。 盡管結合各附圖的示例實施例描述了用于個人通信設備的語音到文本轉錄,但是可以理解,可以使用其它類似的實施例,或可以對所述實施例進行修改或添加來執(zhí)行用于 個人通信設備的語音到文本轉錄的相同功能而不背離用于個人通信設備的語音到文本轉 錄。因此,此處所述的用于個人通信設備的語音到文本轉錄不應限于任何單個實施例,而是 應該根據(jù)所附權利要求書的廣度和范圍來解釋。
權利要求
一種用于生成文本的方法,包括通過對個人通信設備(105)說話生成語音信號;傳送所生成的語音信號;以及在所述個人通信設備(105)中響應于所述傳送接收文本消息,所述文本消息是通過使用位于所述個人通信設備(105)外部的語音到文本轉錄系統(tǒng)(130)轉錄所述語音信號來生成的。
2.如權利要求1所述的方法,其特征在于,所述語音信號是作為說出電子郵件、主題行 文本、或電子郵件消息的正文的至少一部分中的至少一個的結果而生成的。
3.如權利要求1所述的方法,其特征在于生成所述語音信號包括將所述語音信號的至少一部分存儲在所述個人通信設備中;以及傳送所生成的語音信號包括在所述個人通信設備上按下按鈕以按延遲傳送模式來傳 送所存儲的語音信號。
4.如權利要求1所述的方法,其特征在于生成所述語音信號包括在所述個人通信設備上按下按鈕以請求轉錄;以及 傳送所生成的語音信號包括 在所述個人通信設備處接收確認;以及 按實況傳送模式來傳送所述語音信號。
5.如權利要求1所述的方法,其特征在于,傳送所生成的語音信號包括按零碎傳送模 式來傳送所述語音信號。
6.如權利要求1所述的方法,其特征在于,傳送所生成的語音信號包括以下至少其中 之一按數(shù)字格式傳送所述語音信號;或 將所述語音信號作為電話呼叫傳送。
7.如權利要求6所述的方法,其特征在于,所述數(shù)字格式包括網(wǎng)際協(xié)議(IP)數(shù)字格式。
8.如權利要求1所述的方法,其特征在于,還包括 編輯所述文本消息;以及按電子郵件格式傳送所述文本消息。
9.如權利要求8所述的方法,其特征在于,編輯所述文本消息包括使用備擇詞替換所述文本消息中的至少一個詞,所述替換通過手動鍵入所述備擇詞或 從由所述語音到文本轉錄系統(tǒng)提供的備擇詞的菜單中選擇所述備擇詞中來執(zhí)行。
10.一種用于生成文本的方法,包括在第一服務器(210)中接收由個人通信設備(105)生成的語音信號; 通過使用位于第二服務器(125)的語音到文本轉錄系統(tǒng)(130)將所接收的語音信號轉 錄成文本消息;以及將所生成的文本消息傳送到所述個人通信設備(105)。
11.如權利要求10所述的方法,其特征在于,所述第一服務器與所述第二服務器相同。
12.如權利要求10所述的方法,其特征在于,還包括在所述第一服務器中接收來自所述個人通信設備的轉錄請求;以及響應于所述轉錄請求設置所述第一服務器與所述個人通信設備之間的數(shù)據(jù)分組通信 鏈接以用于按數(shù)字數(shù)據(jù)分組的形式將所述語音信號從所述個人通信設備傳輸?shù)剿龅谝?服務器。
13.如權利要求10所述的方法,其特征在于,使用語音到文本轉錄系統(tǒng)包括生成用于說出的詞的語音識別的備擇候選的列表,其中每一備擇候選具有識別準確性 的關聯(lián)置信度因素。
14.如權利要求13所述的方法,其特征在于,還包括從所述第一服務器向所述個人通信設備以鏈接到被轉錄的詞的下拉菜單格式傳送所 述備擇候選的列表。
15.一種具有存儲在其上的計算機可讀指令的計算機可讀存儲介質,所述計算機可讀 指令用于執(zhí)行以下步驟將服務器(210、215)通信耦合到個人通信設備(105)在所述服務器(210、215)中接收在所述個人通信設備(105)中生成的語音信號;通過使用位于所述服務器(210、125)中的語音到文本轉錄系統(tǒng)(130)將所接收的語音 信號轉錄成文本消息;以及將所生成的文本消息傳送到所述個人通信設備(105)。
16.如權利要求15所述的計算機可讀介質,其特征在于,使用所述語音到文本轉錄系 統(tǒng)包括生成用于說出的詞的語音識別的備擇候選的列表,其中每一備擇候選具有識別準確性的關聯(lián)置信度因素;通過使用具有最高置信度因素的所述備擇候選之一來從所述說出的詞創(chuàng)建被轉錄的 詞;以及將所述備擇候選的列表追加到所轉錄的詞。
17.如權利要求16所述的計算機可讀介質,其特征在于,將所生成的文本消息傳送到 所述個人通信設備包括將所轉錄的詞與所追加的備擇候選的列表一起傳送到所述個人通信設備。
18.如權利要求17所述的計算機可讀介質,其特征在于,將所述備擇候選的列表按下 拉菜單格式追加到所轉錄的詞。
19.如權利要求15所述的計算機可讀介質,其特征在于,還包括生成包含偏好詞匯表 或一組語音識別訓練詞中的至少一個的數(shù)據(jù)庫。
20.如權利要求19所述的計算機可讀介質,其特征在于,還包括用于執(zhí)行以下步驟的 計算機可讀指令在所述個人通信設備中編輯所生成的文本消息;以及按電子郵件格式從所述個人通信設備傳送所述文本消息。
全文摘要
將用于個人通信設備(PCD)的語音到文本轉錄系統(tǒng)容納在通信耦合到一個或多個PCD的通信服務器中。PCD的用戶將例如向PCD口述電子郵件。PCD將用戶的語音轉換成被傳送到位于服務器中的語音到文本轉錄系統(tǒng)的語音信號。語音到文本轉錄系統(tǒng)將語音信號轉錄成文本消息。該文本消息隨后由服務器傳送到PCD。在接收到該文本消息后,用戶在各應用中使用該文本消息之前在被錯誤轉錄的詞上進行糾正。
文檔編號H04B1/40GK101803214SQ200880107047
公開日2010年8月11日 申請日期2008年8月25日 優(yōu)先權日2007年9月12日
發(fā)明者C·N·迪德庫克, T·W·米利特 申請人:微軟公司