專利名稱:個人化用戶專用文法的制作方法
個人化用戶專用文法 背景
統(tǒng)一消息傳送系統(tǒng)通常包括諸如電子郵件、語音信箱、傳真等各種通 信技術(shù)到單個服務的整合。語音郵件通常作為電子郵件的音頻文件附件被 接收到接收方的郵箱中。然而,音頻文件附件的特性是接收語音郵件的接 收方不能簡單地通過査閱音頻文件來確定語音郵件的內(nèi)容。并且接收方也 無法識別哪個語音郵件附件比其它更重要。
語音到文本(Speech-to-text)軟件可用來將語音郵件的音頻文件轉(zhuǎn)換 成可被接收方在視覺上可閱讀的文本文件。通過由語音到文本模塊處理文 本文件,可創(chuàng)建接收方能在計算機屏幕上、個人數(shù)字助理(PDA)屏幕上 等查閱的諸如電子郵件正文的文本表示或文件。然而,出于效率目的,語 音到文本軟件必須處理音頻文件中非常復雜的變化,以便確定與語音發(fā)聲 相匹配的正確文字。由于發(fā)送方的嗓音的諸變化,語音到文本轉(zhuǎn)寫不總是 能帶來準確結(jié)果。此外,在一群人或?qū)I(yè)人事中常說的詞語或簡稱可能不 能被語音到文本模塊識別。因此,語音郵件的音頻文件的文本文件可能包 含不可識別的句子或字符,這些句子或字符使文本文件閱讀困難并且妨礙 了統(tǒng)一消息傳送系統(tǒng)帶來的好處。
概述
通過使用專用于接收方、發(fā)送方、組織內(nèi)的一群人、組織內(nèi)的人事階層的 各個層次等的定制文法并通過標識和提取語音郵件消息內(nèi)的關鍵短語來將語 音郵件消息轉(zhuǎn)寫成文本文件的經(jīng)改進方法克服了公知技術(shù)領域中的一個或多 個缺陷。
在一個方面,提供一種計算機實現(xiàn)的方法和系統(tǒng),該方法和系統(tǒng)使用從統(tǒng) 一消息傳達系統(tǒng)內(nèi)的個人或多群人中提取的常用詞語、名稱、簡稱以及短語的 定制文法。然后,當將語音郵件的音頻文件轉(zhuǎn)寫成文本文件時,可參考該定制
文法,以提高該文本文件的準確率。
在另一個方面,從文本文件中提取包含在音頻文件中的關鍵元素并且將其
作為發(fā)送到接收方的郵件的一部分包括在內(nèi)。然后,關鍵元素被用來突出顯示
語音郵件中的重要信息并且使得接收方能確定其相對于接收方的收件箱中的
其它電子郵件和語音郵件的重要性。
或者,本發(fā)明可包括各種其它方法和裝置。 其它特征在下文中將有部分變得明顯并且被部分地指出。
附圖簡述
圖1是示出本發(fā)明的示例性系統(tǒng)的框圖。
圖2是示出示例性定制文法和文法之間的相互關系的框圖。 圖3是示出本發(fā)明的一個實施例的示例性方法的流程圖。 圖4是包含關鍵元素、文本轉(zhuǎn)寫以及音頻文件的消息的一個實施例的示例 性屏幕截圖。
圖5是示出在其中處理傳入電子郵件的本發(fā)明的示例性系統(tǒng)的框圖。 圖6是示出本發(fā)明的示例性系統(tǒng)的框圖,其中接收方正在請求回放語音郵 件的音頻文件。
圖7是示出在其中實現(xiàn)本發(fā)明的合適的計算系統(tǒng)環(huán)境的一個示例的框圖。 對應的附圖標記指示所有附圖中的對應部分。
詳細描述
首先參考圖1,框圖示出在其中實現(xiàn)本發(fā)明的一個實施例的系統(tǒng)的示例性 實施例的框圖。系統(tǒng)100具有統(tǒng)一消息傳達服務器102、組織文法104、語音 到文本模塊106、計算機108、郵箱IIO、個人文法112、電話114、媒體播放 器116、外部電話118、遠程計算設備120、網(wǎng)絡122、第二計算機124、第二 郵箱126、第二個人文法128、第二電話130、第二媒體播放器132、關鍵元素 列表134以及通用字典136。
在一個實施例中,呼叫方(例如,語音郵件的發(fā)送方)從第二電話130、 外部計算設備120或者外部電話118向具有作為統(tǒng)一消息傳達系統(tǒng)的一部分的
郵箱110的接收方(例如,被呼叫方)致電。語音郵件消息作為音頻文件被錄
音和保存。服務器102執(zhí)行語音到文件模塊106,該模塊106使用通用詞典136 來分辨音頻文件中發(fā)聲的詞語、名稱、簡稱和短語以便創(chuàng)建語音郵件的文本轉(zhuǎn) 寫本。存在于關鍵元素列表134中的關鍵元素在文本轉(zhuǎn)寫本中被標識。包含經(jīng) 標識的關鍵元素、語音郵件的文本轉(zhuǎn)寫本以及語音郵件的音頻文件的消息(例 如,電子郵件)被發(fā)送到接收方的郵箱110。接收方可在計算機108的屏幕上 或者從遠程計算設備120的屏幕上査閱包含在電子郵件中的關鍵元素或者文本 轉(zhuǎn)寫本。接收方還可通過執(zhí)行計算機108中的媒體播放器116來聽取語音郵件 的音頻文件。
在一個實施例中,除了使用通用字典136之外,還通過使用專用于語音郵 件接收方的個人文法來提高所轉(zhuǎn)寫的語音郵件的準確率。從由服務器所執(zhí)行的 軟件處獲得包含在個人文法112中的數(shù)據(jù),該服務器訪問統(tǒng)一消息傳達系統(tǒng)的 用戶郵箱并從接收方的電子郵件收件箱、語音郵件收件箱、來電記錄、電子郵 件通信錄、電話通信錄、聯(lián)系人列表、約會日歷、組織圖表等(以下統(tǒng)稱為"郵 箱"、"郵箱110"、"郵箱126"、"接收方的郵箱"以及"語音郵件發(fā)送 方的郵箱")中包含的信息中挖掘數(shù)據(jù)。因此,個人文法包含接收方常用或接 收方接收的文檔中經(jīng)常包含的詞語、名稱、簡稱以及短語。由于個人文法112 包含接收方常用的數(shù)據(jù),所以當語音到文本模塊106正在分辨一個發(fā)聲時,個 人文法數(shù)據(jù)比通用字典136更受重視。因此,使用個人文法112可產(chǎn)生比單獨 使用通用字典136來轉(zhuǎn)寫語音郵件時更準確的語音郵件的轉(zhuǎn)寫。
被挖掘用來創(chuàng)建諸如個人文法112等定制文法的信息可被結(jié)構(gòu)化,以便用 于其它應用。例如,擊中頻率以及數(shù)據(jù)的源被用來開發(fā)在統(tǒng)一消息傳達系統(tǒng)中 發(fā)送和接收電子郵件的人之間的自組(ad-hoc)關系映射。特定用戶的單個關 系映射可聚集到組關系映射中。這些關系映射可用于諸如那些社會網(wǎng)絡相關的 其它應用程序中。
在創(chuàng)建一個定制文法時,從郵箱中挖掘數(shù)據(jù)的軟件應該從文字上區(qū)分名 稱;將全名存儲在定制文法中;確定名稱發(fā)生的頻率;確定數(shù)據(jù)是否位于消息 的標題行中并確定數(shù)據(jù)位于哪個標題行;針對該數(shù)據(jù)是最近的還是舊的,標識 每個數(shù)據(jù)的年齡索引;確定各項之間的潛在關系鏈接(例如,哪些名稱一起出
現(xiàn)?頻率如何?可在名稱之間建立網(wǎng)絡?)。盡管沒有特地要求創(chuàng)建一個起作 用的定制文法,但是以上幾點可提高定制文法的有用性和多功能性。
在一個示例中,服務器102執(zhí)行創(chuàng)建語音郵件的文本轉(zhuǎn)寫本的語音到文本 模塊106。服務器102訪問通用字典136和個人文法112來分辨音頻文件中的 發(fā)聲。關鍵元素列表134中所包含的關鍵元素還在文本轉(zhuǎn)寫本中被標識。包含 語音郵件的關鍵元素和文本轉(zhuǎn)寫本以及語音郵件的音頻文件附件的電子郵件 被發(fā)送到接收方的郵箱110中。接收方可在計算機108的屏幕上或者遠程計算 設備120的屏幕上査閱電子郵件中包含的關鍵元素或文本轉(zhuǎn)寫本。接收方還可 通過執(zhí)行計算機108的媒體播放器116或通過在系統(tǒng)中播放來聽取語音郵件的 音頻文件附件。
關鍵元素可包含被確定為重要的詞語或短語,諸如名稱、電話號碼、數(shù)據(jù)、 時間,"您能……","請致電……"、"在……會面"等。關鍵元素列表134 包含被用來標識出現(xiàn)在語音郵件中的匹配關鍵元素的詞語、短語和數(shù)字格式 (例如,可能是電話號碼的一系列數(shù)字)等。當諸如詞語或短語的重要性被組 織確定后,將在語音郵件的文本轉(zhuǎn)寫本中被標識的詞語和短語可被添加到關鍵 元素列表134。
文本中的關鍵元素可在郵件中被突出顯示以允許接收方預覽語音郵件的 主題以便確定其相對的重要性。在一個示例中,關鍵元素可作為郵件的主題行 或標題行來提供。在另一示例中,可在諸如郵件正文頂部等郵件中的突出位置 提供關鍵元素以便使接收方能快速標識語音郵件的主題。
在一個實施例中,關鍵元素可被鏈接到語音郵件的音頻文件的位置以允許 接收方快速回放包含該關鍵元素的那部分語音郵件。
未被語音到文本模塊106識別出的字可被轉(zhuǎn)寫為符號或字符串,該符號或 字符串被用作占位符以指示字還未被轉(zhuǎn)寫或被正確轉(zhuǎn)寫的可能性低。這樣的符
號或字符串的示例可包括省略號(例如,"……")、空白線(例如,"_")
等。在一個實施例中,可設置與有很高的轉(zhuǎn)寫正確率有關的閾值,其中如果轉(zhuǎn) 寫正確率在該閾值以下,則省略號或空白線可以被插入到轉(zhuǎn)寫本中。例如,如 果所轉(zhuǎn)寫的詞是正確匹配的概率為80%或以下,則在該文本轉(zhuǎn)寫中插入省略號 或空白線。因此,取代用會使閱讀整體消息變得困難的斷章取義或無意義的文
本填充經(jīng)轉(zhuǎn)寫的文本的做法,語音郵件的文本轉(zhuǎn)寫本可包括具有高準確率的詞 和用于未識別的詞的占位符。然后,閱讀該轉(zhuǎn)寫的文本的接收方能夠根據(jù)總體 語音郵件消息的上下文將正確的詞語、名稱、簡稱或短語快速填入到占位符中。 可在語音郵件的音頻文件的轉(zhuǎn)寫本中建立兩個或更多文法之間的關系。例
如,除了使用個人文法112或128 (例如,分別是個人文法(接收方)206和 個人文法(呼叫方)208)來準確地轉(zhuǎn)寫音頻文件之外,諸如包含組織內(nèi)常用 的詞語、簡稱和短語的組織文法104等其它文法可結(jié)合個人文法112來分辨語 音郵件的音頻文件。還可創(chuàng)建包含組織內(nèi)的各子群或各團隊中的人所使用的詞 語、簡稱和短語的文法(例如,子群文法204),并在語音到文本轉(zhuǎn)寫過程中 結(jié)合其它文法或字典來使用。
圖2是示出示例性定制文法200和文法間的相互關系的框圖。組織文法104
(例如,組織文法202)可通過挖掘組織中的收件箱和文檔被自動創(chuàng)建。替換 地或附加地,軟件公司可創(chuàng)建或修改組織文法的詞語、簡稱和短語,其中這些 詞語、簡稱和短語從整個組織內(nèi)的所有個人的統(tǒng)一消息傳達系統(tǒng)郵箱中存在的 數(shù)據(jù)中標識。類似地,從事組織內(nèi)的特別項目的子群(例如統(tǒng)一消息傳達系統(tǒng) 團隊)可具有專用于其子群的詞語、名稱、簡稱和短語。因此,可創(chuàng)建并使用 子群文法204以便將子群成員接收到的語音郵件的音頻文件轉(zhuǎn)寫成文字。類似 于個人文法,由服務器102執(zhí)行的軟件可訪問被標識為特定子群的成員的個人 的統(tǒng)一消息傳達系統(tǒng)郵箱,并從子群成員的郵箱中所包含的信息里挖掘詞語以 便創(chuàng)建子群文法。如圖2所示,組織文法202和子群文法204在接收方和呼叫 方之間是常用的,它們表示這兩方都為同一個公司工作并在同一個子群內(nèi)。個 人文法(接收方)206和個人文法(呼叫方)208專屬于個人,它們根據(jù)每個 個人的郵箱中所挖掘出的數(shù)據(jù)創(chuàng)建。因此,多個相關文法的組合通過改進對語 音郵件的呼叫方和接收方之間常見的詞語、名稱、簡稱或短語的識別能力可改 進語音郵件的轉(zhuǎn)寫。
除了個人文法112之外,可被創(chuàng)建的其它文法的示例包括在郵箱110所在 的常見統(tǒng)一消息傳達系統(tǒng)上創(chuàng)建的包含在其它郵箱內(nèi)經(jīng)常找到的數(shù)據(jù)的文法。 文法的其它示例包括經(jīng)常位于統(tǒng)一消息傳達系統(tǒng)內(nèi)具有安全檢査的郵箱內(nèi)的 詞語。通過使用與郵件的接收方有些關系的兩個或更多文法,可提高轉(zhuǎn)寫的語 音郵件的音頻文件的準確率。還可有條理地建立用于管理層的各階層的文法。
例如,除了個人文法112之外,可為與個人文法112的擁有者相關聯(lián)的同一管 理層的一些個人(例如,經(jīng)理、高級經(jīng)理、總監(jiān)等)所使用的共同術(shù)語創(chuàng)建文 法?;蛘撸蔀閭€人文法112的擁有者的管理層之上或之下的兩個或更多層建 立文法。因此,通過組合個人文法112和為個人文法112的擁有者的管理層之 上或之下的兩個層所建立的文法,被個人文法112的擁有者主管或者主管該擁 有者的人經(jīng)常使用的詞語可用來將語音郵件接收方接收的語音郵件轉(zhuǎn)寫成文 字。替換地或另外,可從收件箱外部的部分或全部文檔中創(chuàng)建文法。例如,可 挖掘來自sharepoint站點的項目文件以創(chuàng)建工作組文法。
除了組織、子群、階層、常見的統(tǒng)一消息傳達系統(tǒng)、常見的安全檢査和個 人文法之外,職業(yè)專用文法(例如,醫(yī)學、法律、施工、制造等)可用來提高 音頻文件的文本轉(zhuǎn)寫的準確率。
在另一個實施例中,通過使用與語音郵件的發(fā)送方和接收方有關的兩個或 更多個人文法來準確分辨語音郵件以便提高將語音郵件的音頻文件轉(zhuǎn)寫為文 字的準確率。在本實施例的一個示例中,從與發(fā)送方的郵箱126相關聯(lián)的電話 130處呼叫的語音郵件發(fā)送方為與郵箱110相關聯(lián)的接收方錄制語音郵件。服 務器102執(zhí)行創(chuàng)建語音郵件的文本轉(zhuǎn)寫本的語音到文本模塊106。服務器102 訪問個人文法112和個人文法128來分辨音頻文件中語音郵箱的接收方或發(fā)送 方常用的發(fā)音。個人文法112和個人文法128包含語音郵件發(fā)送方和語音郵件 接收方經(jīng)常使用的或經(jīng)常包含在位于他們各自的郵箱內(nèi)的文檔中的詞語、名 稱、簡稱和短語(例如,電子郵件收件箱、語音郵件收件箱、來電記錄、電子 郵件通信錄、電話通信錄、聯(lián)系人列表、約定日歷、組織圖表等)中。如上所 述,包含在關鍵元素列表134中關鍵元素也在文本轉(zhuǎn)寫本中被標識。包含語音 郵件的關鍵元素和文本轉(zhuǎn)寫本,以及語音郵件的音頻文件附件的電子郵件被發(fā) 送到接收方的郵箱110中。
圖3是示出本發(fā)明的一個實施例的示例性方法的流程圖。當呼叫方為在統(tǒng) 一消息傳達系統(tǒng)100上擁有郵箱110的接收方錄制語音郵件時,該方法在302 開始。在304,創(chuàng)建語音郵件的音頻文件。在306,語音到文本模塊106通過 將音頻文件中出現(xiàn)的發(fā)聲與接收方的個人文法112作比較并為口語發(fā)聲確定正
確的文本轉(zhuǎn)寫來創(chuàng)建語音郵件的音頻文件的文本轉(zhuǎn)寫本。在308,包含在關鍵 元素列表134中關鍵元素在文本轉(zhuǎn)寫本中被標識。在310,包含在語音郵件的 音頻文件的文本轉(zhuǎn)寫本、以及語音郵件的音頻文件中出現(xiàn)的經(jīng)標識的關鍵元素 的消息被創(chuàng)建并發(fā)送至接收方。
在另一個實施例中,將經(jīng)標識的關鍵元素超鏈接到它們在語音郵箱的音頻 文件中的位置。然后,接收方可激活超鏈接來回放包含該關鍵元素的那部分語 音郵件。這在以下事件中很重要,即鄰近關鍵元素的轉(zhuǎn)寫文本或者不能被轉(zhuǎn)寫 成文字(例如,包含省略號或空白線占位符),或者轉(zhuǎn)寫詞語是準確匹配的概 率小于準確閾值(例如,在數(shù)字中,由于數(shù)字五十(50)和十五(15)的語音 相似,它們可能會被轉(zhuǎn)寫錯),或者所發(fā)生的轉(zhuǎn)寫中的錯誤導致該關鍵元素之 前或之后的無意義陳述。因此,接收方可快速轉(zhuǎn)到語音郵件的最重要部分并聽 取發(fā)送方錄制的消息,而不需要聽取整個語音郵件。
關鍵元素或者可在文本轉(zhuǎn)寫本中被突出顯示、或者可在消息中的不同位置 被復制(例如,在消息的正文的頂部或電子郵件消息的主題行里,或兩個位置 都可)。關鍵元素的文本還可被彩色編碼或者該突出顯示可以是彩色編碼(R, G, B, Y)的以便進一步幫助接收方快速標識語音郵件的關鍵元素并為其歸類。 例如,詞語"關于"(ABOUT)附近的文本可被標識為主題(SUBJECT)類 別。短語"你能給我……"或"如果你能……"附近的文字可能被標識接收方 所請求的動作事項(ACTION ITEM)的文本所圍繞。具有特定格式的數(shù)值可 被歸類為電話號碼(PHONE NUMBER)。諸如"今天"(TODAY)、"今 天早些時候"(EARL正R TODAY)、"今天晚些時候"、"明天" (TOMORROW)、"星期五"(FRIDAY)、"四月"等詞語和短語可標識 正被請求或建立的計劃好的時間。關鍵短語可按類別分組在一起以允許接收方 按一個快速的、安排好的格式確定語音郵件的主題和所標識出的任何動作事項 或計劃好的事項。圖4是包含關鍵元素、文本轉(zhuǎn)寫本和音頻文件的消息的一個 實施例的示例性屏幕截圖,其中關鍵元素在文本轉(zhuǎn)寫本中被突出顯示,被歸類, 并超鏈接到語音郵件的音頻文件。還可以構(gòu)想,用戶可標記和/或校正轉(zhuǎn)寫本并 使文本到語音引擎從用戶的修正中學習。在一個實施例中,提供在其上存儲數(shù) 據(jù)結(jié)構(gòu)的計算機可讀介質(zhì)。數(shù)據(jù)結(jié)構(gòu)包括表示語音郵件的經(jīng)轉(zhuǎn)寫音頻文件的文
本文件的第一字段、以及表示從文本文件中標識出的關鍵元素的第二字段,其
中該關鍵元素包含在關鍵元素列表136中。
圖5是示出本發(fā)明的在其中處理傳入電子郵件的示例性系統(tǒng)的框圖。 圖6是示出本發(fā)明的示例性系統(tǒng)的框圖,其中接收方請求回放語音郵件的 音頻文件。接收方或者激活來自與統(tǒng)一消息傳達系統(tǒng)郵件客戶端用戶接口 602 聯(lián)網(wǎng)的計算設備中的音頻文件或者激活來自通過諸如Outlook Web Access (華 盛頓州雷德蒙市的微軟公司)等可選的后端web訪問電子郵件程序訪問統(tǒng)一消 息傳達系統(tǒng)的遠程計算設備中的音頻文件。操作與統(tǒng)一消息傳達系統(tǒng)郵件客戶 端用戶接口 602聯(lián)網(wǎng)的計算機的接收方打開被發(fā)送至接收方的包含關鍵元素、 文本轉(zhuǎn)寫本以及語音郵件的音頻文件的電子郵件。接收方可激活包含在電子郵 件中的音頻文件,這使得媒體播放器116在接收方的計算機上被啟動。媒體播 放器116回放發(fā)送至接收方的語音郵件的音頻文件(媒體回放604)。或者, 接收方可激活在音頻文件的文本轉(zhuǎn)寫本中被標識的關鍵元素的超鏈接。媒體播 放器116被啟動并且包含關鍵元素的那部分音頻文件在媒體播放器上被回放 (媒體回放604)。
或者,接收方從諸如Outlook Web Access等后端電子郵件客戶端遠程訪問 包含關鍵元素、文本轉(zhuǎn)寫本和語音郵件的音頻文件的電子郵件。接收方可激活 包含在電子郵件中的音頻文件,這使得媒體播放器116在接收方的遠程計算機 上被啟動。媒體播放器116回放發(fā)送至接收方的語音郵件的流音頻文件(媒體 回放604)?;蛘?,接收方可激活在音頻文件的文本轉(zhuǎn)寫本中被標識的關鍵元 素的超鏈接。媒體播放器116被啟動并且包含關鍵元素的那部分音頻文件通過 流音頻在媒體播放器上被回放(媒體回放604)。
如圖7所示,本發(fā)明的實施例的操作環(huán)境的一個實施例包括在其間發(fā)送諸 如郵件等消息的各種機群和組織。附圖標記702示出示例性機群的一個實施例。 機群702包括具有用于發(fā)送和接收來自其它機群和組織的可執(zhí)行的郵件傳輸 706的服務器704。此外,郵件傳輸代理706將郵件發(fā)送和接收至各種消息存 儲708中。在機群中創(chuàng)建的或傳遞到機群的消息被存儲于消息存儲708中。
服務器704通常具有至少某些形式的計算機可讀介質(zhì)。包括易失性和非易 失性介質(zhì)兩者、可移動和不可移動介質(zhì)兩者的計算機可讀介質(zhì)可以是能被服務
器704訪問的任何可用介質(zhì)。作為示例,而非限制,計算機可讀介質(zhì)包括計算 機存儲介質(zhì)和通信介質(zhì)。計算機儲存介質(zhì)包括以用來存儲諸如計算機可讀指 令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的任何方法或技術(shù)實現(xiàn)的易失性和 非易失性的、可移動的和不可移動的介質(zhì)。例如,計算機存儲介質(zhì)包括RAM、 ROM、 EEPROM、閃存或其它存儲器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD) 或其它光盤存儲、磁帶盒、磁帶、磁盤存儲或其它磁存儲設備、或可用來儲存 所期望的信息并能被服務器704訪問的任何其它介質(zhì)。通信介質(zhì)通常以諸如載 波或其它傳輸機制等已調(diào)制數(shù)據(jù)信號來體現(xiàn)計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序 模塊或其它數(shù)據(jù),并包括任何信息傳遞介質(zhì)。本領域的技術(shù)人員熟悉已調(diào)制數(shù) 據(jù)信號,它是將其一個或多個特性以在該信號中編碼信息的方式來設置或改變 的信號。諸如有線網(wǎng)絡或直接線連接等有線介質(zhì),以及諸如聲學、RF、紅外線 和其它無線介質(zhì)等無線介質(zhì)是通信介質(zhì)的示例。上述的任何一種的組合也被包 括在計算機可讀介質(zhì)的范圍之內(nèi)。
服務器704通常采用系統(tǒng)存儲器的某些形式,包括以可移動和/或不可移 動,易失性和/或非易失性存儲器為形式的計算機存儲介質(zhì)。在所示出的實施例 中,系統(tǒng)存儲器包括只讀存儲器(ROM)和隨機存取存儲器(RAM)。
服務器704可采用與諸如遠程計算機等一個或多個遠程計算機的邏輯連接 在聯(lián)網(wǎng)環(huán)境中操作。遠程計算機可以是個人計算機、服務器、路由器、網(wǎng)絡 PC、對等設備、或其它常見的網(wǎng)絡節(jié)點,并且通常包括許多或全部以上關于服 務器704所描述的元件。圖7所示的邏輯連接包括局域網(wǎng)(LAN)和廣域網(wǎng) (WAN),但還可包括其它網(wǎng)絡。LAN和/或WAN可以是有線網(wǎng)絡,無線網(wǎng) 絡、有線和無線網(wǎng)絡的組合等。這種網(wǎng)絡連接環(huán)境在辦公室、企業(yè)范圍計算機 網(wǎng)絡、內(nèi)聯(lián)網(wǎng)和全球計算機網(wǎng)絡(例如,因特網(wǎng))中是常見的。此外,服務器 704可連接到允許組織內(nèi)外的用戶互相呼叫并為連接到統(tǒng)一消息傳達系統(tǒng)的接 收方錄制語音消息的公共或電話交換系統(tǒng)(未示出)。
當在LAN網(wǎng)絡連接環(huán)境中使用時,服務器704通過網(wǎng)絡接口或適配器連 接至LAN。當在WAN網(wǎng)絡連接環(huán)境中使用時,服務器704通常包括通過諸如 因特網(wǎng)等WAN建立通信的調(diào)制解調(diào)器或其它裝置??蓛?nèi)置或外置的調(diào)制解調(diào) 器可通過用戶輸入接口或其它合適的機制連接至系統(tǒng)總線。在聯(lián)網(wǎng)環(huán)境中,關
于服務器704所描繪的程序模塊或其部分可以存儲在遠程存儲器存儲設備(未 示出)中。作為示例,而非限制,圖7將遠程應用程序示為駐留在存儲器設備 中。所示出的網(wǎng)絡連接是示例性的,并且可以采用在計算機之間建立通信鏈路 的其它手段。
在由一個或多個計算機或其它設備執(zhí)行的諸如程序模塊等計算機可執(zhí)行 指令的一般上下文中描述本發(fā)明的實施例。 一般而言,程序模塊包括,但不限 于,執(zhí)行特定任務或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件和數(shù)據(jù) 結(jié)構(gòu)等。本發(fā)明的各方面還可在分布式計算環(huán)境中來實現(xiàn),在該環(huán)境中,任務
可由通過通信網(wǎng)絡鏈接的遠程處理設備來執(zhí)行。在分布式計算環(huán)境中,程序模 塊可位于包括存儲器存儲設備的本地和遠程計算機存儲介質(zhì)兩者上。
在軟件體系結(jié)構(gòu)的上下文中的接口包括軟件模塊、組件、代碼部分或計算 機可執(zhí)行指令的其它序列。該接口包括,例如,訪問第二模塊以代表第一模塊 執(zhí)行計算任務的第一模塊。該第一和第二模塊(在一個示例中)包括諸如由操 作系統(tǒng)提供的應用程序編程接口 (API)、組件對象模型(COM)接口 (例如, 用于對等應用程序通信)以及可擴展標記語言元數(shù)據(jù)交換格式(XMI)接口 (例 如,用于web服務間的通信)等。
接口可以是例如在Java2平臺企業(yè)版(J2EE) 、 COM或分布式COM (DCOM)示例中緊耦合的、同步實現(xiàn)。替換地或此外,該接口可以是在諸如 web服務等松耦合的、異步實現(xiàn)(例如,使用簡單對象訪問協(xié)議)。 一般而言, 接口包括以下特性的任何組合緊耦合、松耦合、同步和異步。此外,該接口 可遵循標準協(xié)議、專用協(xié)議或標準和專用協(xié)議的任何組合。
此處描述的接口可以是單個接口的部分或可以實現(xiàn)為各獨立接口或其任 何組合。接口可通過邏輯或遠程地執(zhí)行來提供功能。此外,接口可包括比此處 說明或描述的功能多或少的功能。
在操作中,服務器704執(zhí)行諸如附圖中所示出的計算機可執(zhí)行指令來實現(xiàn) 本發(fā)明的各方面。
以下示例進一步說明本發(fā)明。
示例1
當語音郵件消息被提交給統(tǒng)一消息傳達系統(tǒng)后,它們作為音頻附件到達。
音頻文件的特點是相對不透明的;人們不能查看計算機屏幕并看到音頻的內(nèi)容 或預覽音頻中的最重要的元素。本發(fā)明提供對統(tǒng)一消息傳達語音郵件中的音頻 進行文本預覽并從音頻中提取和突出顯示關鍵元素,例如名稱、電話號碼等。 一旦被提取,消息的文本具有以下好處
它允許語音郵件的接收方對語音郵件中的音頻進行文本預覽。在公 共設置中,接收方不需要在計算設備的揚聲器上回放該消息或者調(diào)取語音郵件 來聽取該消息。因此,私密性被大大提升。
預覽可允許快速篩選語音郵件以確定哪些語音消息是緊急和重要的。
文本可以被索引并搜索,以便允許更好地在收件箱的更大上下文中 管理語音消息。
諸如名稱和電話號碼等音頻的重要元素可被調(diào)出并在消息中突出顯 示,以及存儲在特定消息屬性中。
語音到文本翻譯是非常復雜的技術(shù)過程,它不能提供100%的正確結(jié)果。
本發(fā)明提供一些方法,采用這些方法,不那么完美的技術(shù)狀況可以成為對語音 郵件的可接受的用戶體驗。本發(fā)明的過程和系統(tǒng)通過使用用戶的郵箱中的信息 以及其它郵箱中潛在的信息來創(chuàng)建專用于統(tǒng)一消息傳達系統(tǒng)用戶的以及專用 于用戶可能獲得的那類語音郵件的定制文法以便將語音郵件的音頻文件轉(zhuǎn)寫 成文字,從而改善語音到文本轉(zhuǎn)換的準確率。
當呼叫方使用諸如Exchange (華盛頓州雷德蒙市的微軟公司)等統(tǒng)一消息 傳達系統(tǒng)來對語音消息錄音后,音頻附件被創(chuàng)建并附加于通過Exchange傳輸 以便傳遞到Exchange收件箱而提交的電子郵件消息。本發(fā)明通過語音到文本 的翻譯模塊傳送該音頻,該語音到文本的翻譯模塊創(chuàng)建語音消息的正文的文本
預覽,而且還嘗試從語音消息中提取關鍵的文本元素(名稱,電話號碼等)。 一旦提取了文本的正文預覽以及關鍵的文本元素,它們作為消息的一部分被存 儲。正文預覽可置于語音郵件消息的正文中,而關鍵的文本元素可包括在正文 或定制電子郵件屬性中。
由于語音識別技術(shù)的狀況和識別引擎所必須支持的文法的廣度,音頻的語 音到文本的翻譯在目前是一種非常不準確的處理。代替提供對充滿不正確結(jié)果
的消息的正文預覽,對用戶體驗的一個改進是,當置信度低時,對文字使用占
位符(例如,省略號"……"、文本標記"(未轉(zhuǎn)寫的文本)"、空白行"_"
等)。這個想法的前提是對于人腦來說"填充空白處"比用正確文字糾正混雜 在一起的錯誤文字更簡單。這是一個必要的方法,因為語音到文本的翻譯的不 到60%的準確率會使得很難理解翻譯結(jié)果并且會導致產(chǎn)生該軟件出錯的想法。 使得語音到文本的翻譯變得困難的部分原因是有大量的各種文字能夠匹 配口語發(fā)聲。大多數(shù)語音到文本的轉(zhuǎn)寫試圖使用通用字典來解決這個問題?;?于用戶收件箱中的內(nèi)容(例如,在電子郵件對話中,等)而使用更專用于用戶 的文字可改進通用字典。除此之外,可通過從收件箱的集合中挖掘文字來構(gòu)建
工作組或公司文法。由于Exchange是服務器,因此它能夠在需要時訪問用戶 收件箱并創(chuàng)建這些類型的跨人文法。
個人文法(例如,郵箱數(shù)據(jù))以及組織文法通過提供對翻譯更有針對性的 字典被用來改進語音到文本的翻譯。采用個人文法,在與一特定用戶的通信中 經(jīng)常使用的詞語和名稱將更容易被翻譯。個人文法從包含在個人的統(tǒng)一消息傳 達系統(tǒng)郵箱中的信息中被創(chuàng)建。個人文法被創(chuàng)建并存儲在系統(tǒng)的郵箱中。對于 特定的語音消息,針對該消息的文法可從呼叫方和接收方兩者的個人文法的聯(lián) 合中來創(chuàng)建(假定該呼叫方也在該系統(tǒng)中)。
使用組織文法,在該組織中最常使用的詞語將更容易被翻譯。容易看到在 例如醫(yī)療行業(yè)中運作的公司中這會是如何重要的改進。個人和組織文法一旦被 創(chuàng)建,它們與更通用的字典一起使用來幫助語音到文本的翻譯。 一旦構(gòu)建了該 文法,它就可存儲在郵箱中,以便用戶可獲得它并使其與用戶相關聯(lián)。
除非以其它方式指定,執(zhí)行此處所示出和描述的方法的順序不是必要的。 即,除非以其它方式指定,方法中的元素可按任何順序來執(zhí)行,并且該方法可 包括多于或少于此處所公開的那些元素的元素。例如,可以預見,在另一個元 素之前、同時或之后執(zhí)行特定元素落入本發(fā)明的范圍中。
當介紹本發(fā)明的元素或其(諸)實施例時,冠詞"一"、"一個"、"該" 以及"所述"意在表示存在一個或多個元素。術(shù)語"包含"、"包括"、以及 "具有"意在表示包括在內(nèi)并且表示存在除了所列元素之外的其它元素。
鑒于上文,將看到,實現(xiàn)了本發(fā)明的若干對象并且獲得其它有利的結(jié)果。
由于可以在不脫離本發(fā)明的范圍的情況下,對以上的架構(gòu)和方法做出各種 改變,所以,希望的是,以上描述所中包含的以及附圖中所示出的一切應該被 解釋為說明性而不是限制性的。
權(quán)利要求
1.一種改進在統(tǒng)一消息傳達系統(tǒng)中對發(fā)送給接收方的語音郵件的音頻文件的轉(zhuǎn)寫的計算機實現(xiàn)的方法,其中所述統(tǒng)一消息傳達系統(tǒng)包括文法和關鍵元素列表(134),所述方法包括通過將所述音頻文件的發(fā)聲與所述文法作比較來將所述音頻文件轉(zhuǎn)寫成文本文件;以及將關鍵元素的標識與所述文本文件一起包括在所述文本文件中,所述關鍵元素包含在所述關鍵元素列表中。
2. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,其特征在于,所述文法是個 人文法(112) (206)并且其中基于所述接收方的電子郵件收件箱、語音郵件 收件箱、來電記錄、電子郵件通信錄、電話通信錄、聯(lián)系人列表、約會日歷、 組織圖表以及專用于個人的文檔中的至少一個,所述個人文法(112) (206) 專用于所述接收方。
3. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,其特征在于,所述文法是個 人文法(112)并且所述統(tǒng)一消息傳達系統(tǒng)還包括第二文法,其中所述個人文 法(112) (206)和所述第二文法的組合被用來將所述音頻文件轉(zhuǎn)寫成文本文 件。
4. 如權(quán)利要求3所述的計算機實現(xiàn)的方法,其特征在于,所述第二文法 從語音郵件發(fā)送方個人文法(128) (208)、子群文法(204)、階層文法、 常見的統(tǒng)一消息傳達系統(tǒng)文法、常見的安全檢査文法、組織文法(104) (202) 以及職業(yè)文法組成的組中選出。
5. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,其特征在于,包含所述經(jīng)標 識的關鍵元素、所述經(jīng)轉(zhuǎn)寫的文本以及所述語音郵件的音頻文件的消息被發(fā)送 至所述接收方。
6. 如權(quán)利要求5所述的計算機實現(xiàn)的方法,其特征在于,在所述消息的 主題行或標題行中提供經(jīng)標識的關鍵元素。
7. 如權(quán)利要求5所述的計算機實現(xiàn)的方法,其特征在于,所述標識的關 鍵元素被歸類。
8. 如權(quán)利要求7所述的計算機實現(xiàn)的方法,其特征在于,所述類別從由 主題、動作事項、電話號碼以及計劃好的時間組成的組中選出。
9. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,其特征在于, 一個或多個關 鍵元素被超鏈接到所述關鍵元素被發(fā)聲的音頻文件位置。
10. 如權(quán)利要求9所述的計算機實現(xiàn)的方法,其特征在于,還包括 激活所述關鍵元素超鏈接以便在所述語音郵件的音頻文件中回放所述關鍵元素的發(fā)聲。
11. 如權(quán)利要求1所述的計算機實現(xiàn)的方法,其特征在于,所述音頻文件 中出現(xiàn)的未識別的語音郵件發(fā)聲用所述文本中指示所述發(fā)聲沒有被轉(zhuǎn)寫成文 字的占位符轉(zhuǎn)寫。
12. 如權(quán)利要求1所述的方法,其特征在于, 一個或多個計算機可讀介質(zhì) 具有執(zhí)行權(quán)利要求1所述的計算機可執(zhí)行方法的計算機可執(zhí)行指令。
13. —種用于轉(zhuǎn)寫發(fā)送至與統(tǒng)一消息傳達系統(tǒng)相連接的接收方的音頻文 件語音郵件的系統(tǒng),包括包含來自所述接收方的所述統(tǒng)一消息傳達系統(tǒng)郵箱(110)的數(shù)據(jù)的文法; 包含位于所述語音郵件中的數(shù)據(jù)的關鍵元素列表(134); 被配置成執(zhí)行計算機可執(zhí)行指令的服務器(102),所述指令用來執(zhí)行語音到文本模塊(106),所述模塊基于所述文法轉(zhuǎn)寫所述音頻文件;標識所述文本轉(zhuǎn)寫中所包含的關鍵元素,所述關鍵元素包含在所述關 鍵元素列表(134)中;以及向所述接收方發(fā)送包含所述經(jīng)標識的關鍵元素、所述文本轉(zhuǎn)寫以及所 述音頻文件的電子郵件。
14. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述文法是個人文法(112) 并且其中所述語音到文本模塊(106)基于所述個人文法(112) (206)以及 至少一個另外的文法轉(zhuǎn)寫所述音頻文件。
15. 如權(quán)利要求14所述的系統(tǒng),其特征在于,所述另外的文法從由語音 郵件發(fā)送方個人文法(128) (208)、子群文法(204)、階層文法、常見的 統(tǒng)一消息傳達系統(tǒng)文法、常見的安全檢查文法、組織文法(104) (202)以及職業(yè)文法組成的組中選出。
16. 如權(quán)利要求13所述的系統(tǒng),其特征在于,在所述電子郵件中被標識 的所述關鍵元素被超鏈接到所述關鍵元素的音頻文件位置。
17. 如權(quán)利要求16所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括 連接到統(tǒng)一消息傳達系統(tǒng)并能訪問所述接收方的郵箱(110)的計算設備,所述計算設備被配置成響應于關鍵元素超鏈接的激活而執(zhí)行媒體播放器 (116)。
18. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述經(jīng)標識的關鍵元素在 所述電子郵件中被整理歸類。
19. 如權(quán)利要求18所述的系統(tǒng),其特征在于,所述類別從由主題、動作 事項、電話號碼以及計劃好的時間組成的組中選出,并且其中包含在所述電子 郵件中的關鍵元素根據(jù)所述關鍵元素的類別被彩色編碼。
20. —種具有在其上存儲數(shù)據(jù)結(jié)構(gòu)的計算機可讀介質(zhì),所述數(shù)據(jù)結(jié)構(gòu)包括經(jīng)轉(zhuǎn)寫音頻的文本文件的第一字段;以及 所述文本文件的關鍵元素的第二字段。
全文摘要
提供用于轉(zhuǎn)寫通過統(tǒng)一消息傳達系統(tǒng)發(fā)送的語音郵件的音頻文件的經(jīng)改進的系統(tǒng)和方法。創(chuàng)建并使用專用于語音郵件接收方的定制文法以便通過將該音頻文件與接收方常用的詞語、名稱、簡稱以及短語作比較來轉(zhuǎn)寫所接收的語音郵件。從最終的文本轉(zhuǎn)寫中標識出關鍵元素以幫助接收方基于語音郵件中所包含的重要內(nèi)容來處理所接收的語音郵件。
文檔編號G06F17/00GK101351818SQ200680049850
公開日2009年1月21日 申請日期2006年12月29日 優(yōu)先權(quán)日2005年12月30日
發(fā)明者D·A·豪威爾, D·T·方, F·塞德, S·桑德拉拉曼 申請人:微軟公司