專利名稱:提供基于語言的交互式多媒體系統(tǒng)的方法、裝置和計算機程序產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的實施例總體上涉及語音處理技術(shù),并且更特別地,涉及一種 用于為基于語言的交互式多媒體系統(tǒng)提供體系結(jié)構(gòu)的方法、裝置和計算機 程序產(chǎn)品。
背景技術(shù):
現(xiàn)代通信紀元已經(jīng)帶來了有線和無線網(wǎng)絡(luò)的極大擴展。計算機網(wǎng)絡(luò)、 電視網(wǎng)絡(luò)和電話網(wǎng)絡(luò)正在經(jīng)歷由于用戶需求而推動的前所未有的技術(shù)擴 展。無線和移動組網(wǎng)技術(shù)已經(jīng)解決了相關(guān)的消費者需求,同時提供了更為 靈活和直接的信息傳送。
當(dāng)前和未來的組網(wǎng)技術(shù)繼續(xù)促進信息傳送的容易度和對用戶的便利 性。其中存在對增加信息傳送的容易度的需求的一個方面涉及向移動終端 的用戶傳遞服務(wù)。服務(wù)可以按照用戶所期望的特定媒體或通信應(yīng)用的形式, 諸如音樂播放器、游戲機、電子書籍、短消息、電子郵件等。服務(wù)也可以 按照交互式應(yīng)用的形式,其中用戶可以響應(yīng)于網(wǎng)絡(luò)設(shè)備,以便實現(xiàn)任務(wù)、 玩游戲或達到目標。服務(wù)可以從網(wǎng)絡(luò)服務(wù)器或其它網(wǎng)絡(luò)設(shè)備或者甚至從移 動終端(例如像移動電話、移動電視、移動游戲系統(tǒng)等)來提供。
在很多應(yīng)用中,用戶必須從網(wǎng)絡(luò)或移動終端接收諸如口頭反饋或指令 這樣的音頻信息,或者用戶必須向網(wǎng)絡(luò)或移動終端提供口頭指令或反饋。 這樣的應(yīng)用可以提供給并不依賴于實質(zhì)手動用戶活動的用戶接口。換句話 說,用戶可以在不需要手或部分需要手的環(huán)境中與應(yīng)用進行交互。這樣的 應(yīng)用的例子可以是支付賬單、定制節(jié)目、請求和接收駕駛指令等。其它應(yīng) 用可以將口頭語音轉(zhuǎn)換成文本或者基于所識別的語音來實現(xiàn)某種其它的功
能,諸如口述SMS或電子郵件等。為了支持這些和其它應(yīng)用,語音識別應(yīng)用、從文本產(chǎn)生語音的應(yīng)用以及其它語音處理設(shè)備正在變得越來越常見。
可以被稱為自動語音識別(ASR)的語音識別可以通過許多不同類型 的應(yīng)用來進行。當(dāng)前ASR系統(tǒng)在其設(shè)計中高度偏向于改進英語語音的識 別。這些系統(tǒng)在解碼階段整合關(guān)于語言的高級信息,諸如發(fā)音和詞素 (lexicon),以1更限制搜索空間。然而,大多數(shù)歐洲和亞洲語言在其形態(tài) 學(xué)類型方面不同于英語。因此,如果需要將結(jié)果通用于其它更多的混合和/ 或高度屈折變化(inflected)的語言,那么英語可能不是用以研究的理想 語言。例如,在歐盟中的20種官方語言彼此都比英語展現(xiàn)了更大程度的混 合/屈折變化。現(xiàn)有的整體式ASR體系結(jié)構(gòu)并不適于將該技術(shù)擴展到其它 語言。即使已經(jīng)開發(fā)了一些多語言ASR系統(tǒng),每種語言也通常需要其自己 的發(fā)音建模。因此,由于可用存儲器大小和處理功率的限制,常常造成限 制在便攜式終端中多語言ASR系統(tǒng)的實現(xiàn)。
同時,從文本產(chǎn)生語音的設(shè)備(例如,文本到語音(TTS)設(shè)備)通 常分析文本,并且進行語聲(phonetic)和韻律(prosodic)分析,以便生 成音素(phonemes)用于輸出作為與原始文本的內(nèi)M關(guān)的合成語音。其 它設(shè)備可以采用輸入語音并且將該輸入轉(zhuǎn)換成不同的話音,這被稱為話音 轉(zhuǎn)換。概括地,類似上述設(shè)備的設(shè)備可以被描述為口頭語言接口。
盡管諸如上述的口頭語言接口正在使用中,然而,當(dāng)前并不存在用于 在單個體系結(jié)構(gòu)中提供這樣的設(shè)備的整合的令人滿意的機制。就此而言,
用于組合ASR和TTS的建議已經(jīng)被限制于僅向ASR系統(tǒng)所識別的字詞提 供TTS服務(wù)。因此,這樣的建議限制了其廣泛用途。此外,語言特殊性是 很多這樣的設(shè)備的共同缺點。
因此,可能需要開發(fā)克服上述問題的穩(wěn)健的口頭語言接口。
發(fā)明內(nèi)容
因此,為基于口頭語言的交互式媒體系統(tǒng)的體系結(jié)構(gòu)提供了一種方 法、裝置和計算枳4呈序產(chǎn)品。根據(jù)本發(fā)明的示例性實施例,可以根據(jù)輸入 的類型來檢查和處理來自語音處理設(shè)備的輸入音素的序列,以便使用與輸入語音的類型相關(guān)聯(lián)的穩(wěn)健音素圖或點陣(lattice)來進一步處理所述輸 入音素。因而,舉例來說,ASR和TTS輸入都可以使用所選擇的對應(yīng)的音 素圖或點陣來進行處理,以《更提供改進的輸出用于在產(chǎn)生合成語音、低比 特率編碼語音、話音轉(zhuǎn)換、話音到文本轉(zhuǎn)換、基于口頭輸入的信息檢索等 中使用。另外,本發(fā)明的實施例普遍可應(yīng)用于所有的口頭語言。因此,由 于更高質(zhì)量、更逼真或更準確的輸入,可以改進上述任何使用。另外,不 一定必須具有語言專用模塊,從而改進語音處理設(shè)備的能力和效率。
在一個示例性實施例中,提供了一種方法,其提供基于語言的多媒體
系統(tǒng)。所述方法包括基于與音素的輸入序列相關(guān)聯(lián)的語音處理的類型來 選擇音素圖,將所述音素的輸入序列與所選擇的音素圖相比較,以及基于 該比較來處理所述音素的輸入序列。
在另一示例性實施例中,提供了一種計算機程序產(chǎn)品,用于提供基于 語言的多媒體系統(tǒng)。所述計算機程序產(chǎn)品包括使計算機可讀程序代碼部分 存儲在其中的至少一個計算機可讀存儲介質(zhì)。所述計算機可讀程序代碼部 分包括第一、第二和第三可執(zhí)行部分。第一可執(zhí)行部分用于基于與音素的 輸入序列相關(guān)聯(lián)的語音處理的類型來選擇音素圖。第二可執(zhí)行部分用于將 所述音素的輸入序列與所選擇的音素圖相比較。第三可執(zhí)行部分用于基于 該比較來處理所述音素的輸入序列。
在另一示例性實施例中,提供了一種裝置,用于提供基于語言的多媒 體系統(tǒng)。所述裝置包括選擇元件、比較元件和處理元件。所述選擇元件可 以被配置以便基于與音素的輸入序列相關(guān)聯(lián)的語音處理的類型來選擇音 素圖。所述比較元件可以被配置以便將所述音素的輸入序列與所選擇的音 素圖相比較。所述處理元件可以與所述比較元件進行通信,并且可以,皮配 置以使i于該比較來處理所述音素的輸入序列。
在另一示例性實施例中,提供了一種設(shè)備,用于提供基于語言的多媒 體系統(tǒng)。所述設(shè)備包括用于基于與音素的輸入序列相關(guān)聯(lián)的語音處理的 類型來選擇音素圖的裝置;用于將所述音素的輸入序列與所選擇的音素圖 相比較的裝置;以及用于基于該比較來處理所述音素的輸入序列的裝置。本發(fā)明的實施例可以提供一種方法、裝置和計算機程序產(chǎn)品,用于在 期望多種類型的語音處理的系統(tǒng)中采用。因此,舉例來說,移動終端和其
它電子設(shè)備可以從以下能力中受益在不使用單獨的模塊的情況下,經(jīng)由 可以穩(wěn)健得足以提供對多種語言的語音處理的單個體系結(jié)構(gòu)來實現(xiàn)各種 類型的語音處理。
因而已經(jīng)概括地描述了本發(fā)明的實施例,現(xiàn)在將參照附圖,附圖并不
一定按比例繪制,并且在附圖中
圖l是根據(jù)本發(fā)明的示例性實施例的移動終端的示意框圖2是才艮據(jù)本發(fā)明的示例性實施例的無線通信系統(tǒng)的示意框圖3圖示了根據(jù)本發(fā)明的示例性實施例用于提供基于語言的交互式多
媒體系統(tǒng)的系統(tǒng)的框圖4A和4B圖示了才艮據(jù)本發(fā)明的示例性實施例處理音素序列的例子的
示意框圖;以及
圖5是根據(jù)本發(fā)明的示例性實施例依照用于提供基于語言的交互式多 媒體系統(tǒng)的示例性方法的框圖。
具體實施例方式
在下文中將參照附圖更充分地描述本發(fā)明的實施例,在附圖中,示出 了一些而不是所有的本發(fā)明的實施例。實際上,本發(fā)明可以以很多不同的 形式來體現(xiàn),并且不應(yīng)當(dāng)被解釋為限制于在此所闡述的實施例;相反,提 供這些實施例以{更本/>開將滿足可應(yīng)用的合法需要。貫穿全文相同的附圖 標記指的;l相同的元件。
圖1圖示了將從本發(fā)明的實施例受益的移動終端10的框圖。然而,應(yīng) 當(dāng)理解,如圖所示以及在下文中描述的移動終端僅是將從本發(fā)明的實施例 受益的一種類型的移動終端的說明,并且因此,不應(yīng)當(dāng)被視為限制本發(fā)明 的實施例的范圍。雖然出于示例的目的圖示并且將在下文中描述了移動終端10的若干實施例,但是其它類型的移動終端也可以很容易采用本發(fā)明的 實施例,例如便攜式數(shù)字助理(PDA)、尋呼機、移動電視、游戲設(shè)備、膝 上型計算機、照相機、視頻記錄儀、GPS設(shè)備和其它類型的話音和文本通 信系統(tǒng)。此外,并不移動的設(shè)備也可以很容易采用本發(fā)明的實施例。
下面將主要結(jié)合移動通信應(yīng)用來描述本發(fā)明的實施例的系統(tǒng)和方法。 然而,應(yīng)當(dāng)理解,在移動通信行業(yè)中和移動通信行業(yè)外都可以結(jié)合各種其 它應(yīng)用來利用本發(fā)明的實施例的系統(tǒng)和方法。
移動終端10包括與發(fā)射機14和接收機16可操作地通信的天線12(或 多個天線)。移動終端10進一步包括控制器20或分別向發(fā)射機14提Wt 號和從接收機16接收信號的其它處理元件。信號包括依照可應(yīng)用蜂窩系統(tǒng) 的空中接口標準的信令信息,并且還包括用戶語音和/或用戶生成的數(shù)據(jù)。 就此而言,移動終端10能夠利用一個或多個空中接口標準、通信協(xié)議、調(diào) 制類型和接入類型來操作。通過說明,移動終端IO能夠依照任何的多個第 一、第二和/或第三代通信協(xié)議等來操作。例如,移動終端10能夠依照第 二代(2G)無線通信協(xié)議IS-136 (TDMA)、 GSM和IS-95 (CDMA)來 操作,或者依照諸如UMTS、 CDMA2000和TD-SCDMA的第三代(3G) 無線通信協(xié)議來操作。
應(yīng)當(dāng)理解,控制器20包括實現(xiàn)移動終端10的音頻和邏輯功能所需要 的電路。例如,控制器20可以由數(shù)字信號處理器設(shè)備、微處理器設(shè)備和各 種模數(shù)轉(zhuǎn)換器、數(shù)模轉(zhuǎn)換器以及其它支持電路來構(gòu)成。移動終端10的控制 和信號處理功能根據(jù)這些設(shè)備相應(yīng)的能力而被分配在這些設(shè)備之間。因而, 控制器20還可以包括用于在調(diào)制和傳輸之前進行巻積編碼以及交織消息 和數(shù)據(jù)的功能性。控制器20可以另外包括內(nèi)部語音編碼器,并且可以包括 內(nèi)部數(shù)據(jù)調(diào)制解調(diào)器。此外,控制器20可以包括用于操作可存儲在存儲器 中的一個或多個軟件程序的功能性。例如,控制器20能夠操作連通性程序, 例如常規(guī)Web瀏覽器。然后,連通性程序可以根據(jù)例如無線應(yīng)用協(xié)議 (WAP)允許移動終端lO傳送和接收Web內(nèi)容,例如基于位置的內(nèi)容。
移動終端IO還包括用戶接口,該用戶接口包括輸出設(shè)備,諸如常規(guī)耳機或揚聲器24、振鈴器22、擴音器26、顯示器28,以及用戶輸入接口, 它們都耦合到控制器20。允許移動終端10接收數(shù)據(jù)的用戶輸入接口可以 包括允許移動終端10接收數(shù)據(jù)的任何的多個設(shè)備,例如鍵板30、觸敏顯 示器(未示出)或其它輸入設(shè)備。在包括鍵板30的實施例中,鍵板30可 以包括常規(guī)的數(shù)字鍵(0-9)和相關(guān)鍵(#、 *),以及用于操作移動終端IO 的其它鍵??蛇x地,鍵板30可以包括常規(guī)QWERTY鍵板布置。鍵板30 還可以包括具有關(guān)聯(lián)功能的各種軟鍵。另外,或者可選地,移動終端10 可以包括諸如操縱桿或其它用戶輸入接口的接口設(shè)備。移動終端10進一步 包括諸如振動電池組的電池34,用于向操作移動終端10所需要的各種電 M電,以及視情況提供機械振動作為可檢測的輸出。
移動終端IO可以進一步包括用戶識別模塊(UIM) 38。 UIM38通常 是具有內(nèi)置處理器的存儲設(shè)備。UIM 38可以包括例如用戶身份模塊 (SIM )、通用集成電路卡(UICC )、通用用戶身份模塊(USIM )、可裝卸 用戶識別模塊(R-UIM)等。UIM 38通常存儲與移動用戶有關(guān)的信息元 素。除了UIM38之外,移動終端IO還可以配備有存儲器。例如,移動終 端10可以包括易失性存儲器40,例如易失性隨機訪問存儲器(RAM), 其包括用于臨時存儲數(shù)據(jù)的高速緩存區(qū)域。移動終端10還可以包括其它非 易失性存儲器42,其可以是嵌入式的和/或可裝卸的。非易失性存儲器42 可以另外或可選地包括諸如從Sunnyvale, California的SanDisk/^司或者 Fremont, California的Lexar Media公司可獲得的EEPROM、閃存等。 存儲器可以存儲由移動終端10使用的任何的多個信息段和數(shù)據(jù),以便實現(xiàn) 移動終端10的功能。例如,存儲器可以包括能夠唯一地標識移動終端10 的標識符,諸如國際移動設(shè)備標識(IMEI)代碼。
現(xiàn)在參照圖2,其提供了對于從本發(fā)明的實施例受益的一種類型的系 統(tǒng)的說明。該系統(tǒng)包括多個網(wǎng)絡(luò)設(shè)備。如圖所示, 一個或多個移動終端10 可以各自包括天線12,用于向基地或基站(BS) 44發(fā)射信號和從其接收 信號?;?4可以是一個或多個蜂窩或移動網(wǎng)絡(luò)的一部分,所述一個或多 個蜂窩或移動網(wǎng)絡(luò)各自包括操作網(wǎng)絡(luò)所需要的元件,例如移動交換中心(MSC )46。本領(lǐng)域的技術(shù)人員眾所周知,移動網(wǎng)絡(luò)還可以指代基站/MSC/ 互通功能(BMI)。在操作中,當(dāng)移動終端IO進行呼叫和接收呼叫時,MSC 46能夠路由去往和來自移動終端10的呼叫。當(dāng)移動終端IO參與呼叫時, MSC46還可以提供到陸線干線的連接。另夕卜,MSC 46能夠控制對于去往 和來自移動終端10的消息的轉(zhuǎn)發(fā),并且還可以控制去往和來自消息傳遞中 心的對于移動終端IO的消息的轉(zhuǎn)發(fā)。應(yīng)當(dāng)注意,盡管圖2的系統(tǒng)中示出了 MSC46,然而MSC46僅是示例性的網(wǎng)絡(luò)設(shè)備,并且本發(fā)明的實施例并不 限于在采用MSC的網(wǎng)絡(luò)中使用。
MSC46可以耦合到數(shù)據(jù)網(wǎng)絡(luò),諸如局域網(wǎng)(LAN)、城域網(wǎng)(MAN) 和/或廣域網(wǎng)(WAN)。 MSC 46可以直接耦合到數(shù)據(jù)網(wǎng)絡(luò)。然而,在一個 典型實施例中,MSC 46耦合到GTW 48,并且GTW 48耦合到諸如因特 網(wǎng)50的WAN。轉(zhuǎn)而,諸如處理元件的設(shè)備(例如,個人計算機、服務(wù)器 計算機等)可以經(jīng)由因特網(wǎng)50耦合到移動終端10。例如,如下所解釋的, 處理元件可以包括與計算系統(tǒng)52 (圖2中示出了兩個)、源服務(wù)器54 (圖 2中示出了一個)等相關(guān)聯(lián)的一個或多個處理元件,如下所述。
BS 44還可以耦合到信令GPRS (通用分組無線電服務(wù))支持節(jié)點 (SGSN)56。如本領(lǐng)域4支術(shù)人員所知的,SGSN 56通常能夠?qū)崿F(xiàn)類似于 用于分組交換服務(wù)的MSC 46的功能。類似于MSC46, SGSN56可以耦 合到諸如因特網(wǎng)50的數(shù)據(jù)網(wǎng)絡(luò)。SGSN 56可以直接耦合到數(shù)據(jù)網(wǎng)絡(luò)。然 而,在更典型的實施例中,SGSN 56耦合到分組交換核心網(wǎng)絡(luò),諸如GPRS 核心網(wǎng)絡(luò)58 。然后,分組交換核心網(wǎng)絡(luò)耦合到另一 GTW 48 ,諸如GTW GPRS支持節(jié)點(GGSN )60,并且GGSN 60耦合到因特網(wǎng)50。除了 GGSN 60之外,分組交換核心網(wǎng)絡(luò)也可以耦合到GTW48。此外,GGSN 60可以 耦合到消息傳遞中心。就此而言,類似于MSC46, GGSN 60和SGSN 56 能夠控制諸如MMS消息這樣的消息的轉(zhuǎn)發(fā)。GGSN 60和SGSN 56還能 夠控制去往和來自消息傳遞中心的對于移動終端10的消息的轉(zhuǎn)發(fā)。
另外,通過將SGSN 56耦合到GPRS核心網(wǎng)絡(luò)58和GGSN 60 ,諸如 計算系統(tǒng)52和/或源服務(wù)器54的設(shè)備可以經(jīng)由因特網(wǎng)50、 SGSN 56和GGSN60耦合到移動終端10。就此而言,諸如計算系統(tǒng)52和/或源服務(wù)器 54的i殳備可以跨SGSN 56、 GPRS核心網(wǎng)絡(luò)58和GGSN 60而與移動終端 10進行通信。通過直接或間接地將移動終端10和其它設(shè)備(例如,計算 系統(tǒng)52、源服務(wù)器54等)連接到因特網(wǎng)50,移動終端10可以諸如根據(jù)超 文本傳送協(xié)議(HTTP)來與其它設(shè)備通信并且相互通信,從而執(zhí)行移動 終端IO的各種功能。
盡管在此并沒有示出并且描述每種可能的移動網(wǎng)絡(luò)的每個元件,然而 應(yīng)當(dāng)理解,移動終端10可以通過BS 44耦合到一個或多個任何數(shù)目的不同 網(wǎng)絡(luò)。就此而言,這些網(wǎng)絡(luò)能夠依照任何的一個或多個數(shù)目的第一代(1G )、 第二代(2G)、 2.5G和/或第三代(3G)移動通信協(xié)議等來支持通信。例 如, 一個或多個網(wǎng)絡(luò)能夠依照2G無線通信協(xié)議IS-136 (TDMA)、 GSM 和IS-95 (CDMA)來支持通信。此外,舉例來說, 一個或多個網(wǎng)絡(luò)能夠 依照2.5G無線通信協(xié)議GPRS、增強的數(shù)據(jù)GSM環(huán)境(EDGE )等來支 持通信。進一步地,舉例來說, 一個或多個網(wǎng)絡(luò)能夠依照3G無線通信協(xié) 議來支持通信,諸如采用寬帶碼分多址(WCDMA)無線電接入^t支術(shù)的通 用移動電話系統(tǒng)(UMTS)網(wǎng)絡(luò)。 一些窄帶AMPS (NAMPS)以及TACS 網(wǎng)絡(luò)也可以從本發(fā)明的實施例受益,就像雙重或更高模式的移動臺(例如, 數(shù)字/才莫擬或TDMA/CDMA/模擬電話)。
移動終端IO可以進一步耦合到一個或多個無線接入點(AP) 62。 AP 62可以包括這樣的接入點,即,所述接入點被配置以便依照例如像射頻 (RF)、藍牙(BT)、紅外(IrDA)或任何的多個不同無線組網(wǎng)技術(shù)的技 術(shù)來與移動終端io進行通信,包括諸如IEEE 802.11 (例如,802.11a、 802.11b、802.11g、802.11n等)的無線LAN( WLAN M支術(shù)、諸如IEEE 802.16 的WiMAX技術(shù)和/或諸如IEEE 802.15的超寬帶(UWB)技術(shù)等。AP 62 可以耦合到因特網(wǎng)50。類似于MSC46, AP62可以直接耦合到因特網(wǎng)50。 在一個實施例中,AP62可以經(jīng)由GTW48間接耦合到因特網(wǎng)50。此外, 在一個實施例中,BS44可以被認為是另一 AP62。如應(yīng)當(dāng)理解的,通過將 移動終端10和計算系統(tǒng)52、源服務(wù)器54和/或任何數(shù)目的其它設(shè)備直接或間接地連接到因特網(wǎng)50,移動終端10可以相互通信、與計算系統(tǒng)等通信, 從而執(zhí)行移動終端10的各種功能,諸如向計算系統(tǒng)52傳送數(shù)據(jù)、內(nèi)容等, 和/或從計算系統(tǒng)52接收內(nèi)容、數(shù)據(jù)等。如在此所使用的,術(shù)語"數(shù)據(jù)"、 "內(nèi)容"、"信息"以及類似術(shù)語可以互換地使用,以便指代能夠根據(jù)本發(fā) 明的實施例來傳送、接收和/或存儲的數(shù)據(jù)。因而,對任何這樣的術(shù)語的使 用都不應(yīng)當(dāng)初L視為限制本發(fā)明的實施例的精神和范圍。
盡管圖2中未示出,然而除了或代替通過因特網(wǎng)50將移動終端10耦 合到計算系統(tǒng)52,移動終端10和計算系統(tǒng)52可以相互耦合并且根據(jù)例如 RF、 BT、 IrDA或任何數(shù)目的不同有線或無線通信技術(shù)來進行通信,包括 LAN、 WLAN、 WiMAX和/或UWB技術(shù)。 一個或多個計算系統(tǒng)52可以 另外或可選地包括能夠存儲內(nèi)容的可裝卸存儲器,其后所述內(nèi)容可以被傳 送到移動終端10。此外,移動終端10可以耦合到一個或多個電子設(shè)備, 諸如打印機、數(shù)字投影儀和/或其它多媒體捕獲、產(chǎn)生和/或存儲設(shè)備(例如, 其它終端)。類似于計算系統(tǒng)52,移動終端10可以被配置以便根據(jù)例如像 RF、 BT、 IrDA或任何數(shù)目的不同有線或無線通信技術(shù)(包括USB、 LAN、 WLAN、 WiMAX和/或UWB技術(shù))這樣的技術(shù)來與便攜式電子設(shè)備進行 通信。
在示例性實施例中,與口頭語言接口相關(guān)聯(lián)的數(shù)據(jù)可以通過圖2的系 統(tǒng),在移動終端(其可以類似于圖I的移動終端IO)與圖2的系統(tǒng)的網(wǎng)絡(luò) 設(shè)備之間或者在移動終端之間進行通信。同樣,應(yīng)當(dāng)理解,不必采用圖2 的系統(tǒng)來用于在服務(wù)器與移動終端之間的通信,而僅僅是出于示例的目的 提供了圖2。此外,應(yīng)當(dāng)理解,本發(fā)明的實施例可以駐留在諸如移動終端 10的通信設(shè)備上,或者可以駐留在網(wǎng)絡(luò)設(shè)備或者在通信設(shè)備可訪問的其它 設(shè)備上。
現(xiàn)在將參照圖3來描述本發(fā)明的示例性實施例,其中顯示了用于提供 基于語言的交互式多媒體系統(tǒng)的體系結(jié)構(gòu)的系統(tǒng)的特定元件。出于示例的 目的,將結(jié)合圖1的移動終端10來描述圖3的系統(tǒng)。然而,應(yīng)當(dāng)注意,還 可以結(jié)合各種其它設(shè)備(移動的和固定的這二者)來釆用圖3的系統(tǒng),并且因此,本發(fā)明的實施例不應(yīng)當(dāng)限于在諸如圖1的移動終端10這樣的i殳備 上的應(yīng)用。還應(yīng)當(dāng)注意,雖然圖3圖示了用于提供智能同步的系統(tǒng)的配置 的一個例子,但是還可以使用多種其它配置來實現(xiàn)本發(fā)明的實施例。
現(xiàn)在參照圖3,提供了系統(tǒng)68,其用于提供基于語言的交互式多媒體 系統(tǒng)的體系結(jié)構(gòu)。系統(tǒng)68包括與音素處理器74進行通信的第一類型的語 音處理元件(諸如ASR元件70 )和第二類型的語音處理元件(諸如TTS 元件72)。如圖3所示,在一個實施例中,音素處理器74可以經(jīng)由語言標 識LID元件76來與ASR元件70和TTS元件72通信。
ASR元件70可以是以能夠基于輸入語音信號78產(chǎn)生音素序列的硬 件、軟件或者硬件和軟件的組合來體現(xiàn)的任何設(shè)備或裝置。圖3圖示了 ASR 元件70的一個示例性結(jié)構(gòu),但是其它結(jié)構(gòu)也是可能的。就此而言,ASR 元件70可以包括兩個源單元,這兩個源單元包括聯(lián)機的音素配列
(phonotactic ) /發(fā)音建模元件80 (例如,文本到音素(TTP )映射元件)、 聲學(xué)模型(AM)元件82,以及音素識別元件84。音素配列/發(fā)音建模元件 80可以包括用于存儲在發(fā)音辭典中的至少 一種語言的音素定義和發(fā)音才莫 型。同樣,可以按照字符單元的序列(文本序列)的形式以及按照音素單 元的序列(音素序列)的形式來存儲字詞。音素單元的序列表示字符單元 的序列的發(fā)音。當(dāng)字母映射到不止一個音素時,還可以使用所謂的假音素
(pseudophoneme )單元。AM元件82可以包括用于每個音素或音素單元 的聲學(xué)發(fā)音模型。音素識別元件84可以被配置以便基于由AM元件82和 音素配列/發(fā)音建才莫元件80所提供的數(shù)據(jù),將輸入語音信號分解成音素的 輸入序列86。
音素單元的表示可以取決于所使用的音素標注系統(tǒng)??梢允褂萌舾刹?同的音素標注系統(tǒng),例如,SAMPA和IPA。 SAMPA (語音評估方法語聲 字母表)是機器可讀的語聲字母表。國際語聲協(xié)會為許多語言的語聲表示 提供了標注標準一國際音標(IPA)。
ASR元件70可以包括單語言ASR能力或多語言ASR能力。如果ASR 元件70包括多語言能力,則ASR元件70可以包括用于每種語言的單獨的TTP才莫型。此外,作為對所說明的圖3的實施例的備選方案,多語言ASR 元件可以包括自動語言標識(LID)元件,其基于語言標識模型找到口頭 字詞的語言身份。因此,當(dāng)語音信號被輸入到多語言ASR元件中時,可以 首先進^f亍對所使用的語言的估計。在知道了語言身份之后,可以應(yīng)用適當(dāng) 的聯(lián)機TTP建模方案,以便為詞匯項找到匹配的音素記錄(transcription )。 最后,可以將用于每個詞匯項的識別模型構(gòu)造為由音素記錄所指定的多語 言聲學(xué)才莫型的級聯(lián)。使用這些基本模型,ASR元件70原則上可以在沒有 用戶任何幫助的情況下自動處理多語言詞匯項。
然而,如圖3所示,LID元件76可以體現(xiàn)為置于ASR元件70與音素 處理器74之間的單獨的元件。另外,TTS元件72的輸出也可以被輸入到 LID元件76中。還應(yīng)當(dāng)理解,LID元件76可以是音素處理器74的一部分, 或者LID元件76可以被布置成接收音素處理器的輸出。在任何情況下, LID元件76都可以是按照能夠進行以下操作的硬件、軟件或者硬件和軟件 的組合來體現(xiàn)的任何設(shè)備或裝置接收音素的輸入序列86并且確定與音素 的輸入序列86相關(guān)聯(lián)的語言。在示例性實施例中,當(dāng)從TTS元件72接收 到音素的輸入序列86時,LID元件84可以被配置以便自動確定與音素的 輸入序列86相關(guān)聯(lián)的語言。然而,當(dāng)從ASR元件70接收到音素的輸入序 列86時,LID元件84可以合并關(guān)于以下區(qū)域的區(qū)域信息,即,在該區(qū)域 中,系統(tǒng)68被出售或以其它方式被期望操作。同樣,LID元件84可以合 并與以下語言有關(guān)的信息,即,基于該區(qū)域信息很可能遇到該語言。 一旦 LID元件76已經(jīng)確定與音素的輸入序列86相關(guān)聯(lián)的語言,便可以將對于 所確定的語言的指示傳送到音素處理器74。
TTS元件72可以與ASR元件70基于類似的元件,盡管這樣的元件 和相關(guān)的算法已經(jīng)從不同的角度進行開發(fā)。就此而言,ASR元件70基于 輸入語音信號78來輸出音素的輸入序列86,而TTS元件72基于輸入文 本88來輸出音素的輸入序列86。 TTS元件72可以是按照能夠進行以下操 作的硬件、軟件或者硬件和軟件的組合來體現(xiàn)的任何設(shè)備或裝置接收輸 入文本88并基于輸入文本88來產(chǎn)生音素的輸入序列86,例如經(jīng)由諸如文本分析、語聲分析以及韻律分析這樣的過程。同樣,TTS元件72可以包 括文本分析元件90、語聲分析元件92以及韻律分析元件94,用于實現(xiàn)如 上所述的相應(yīng)分才斤。
就此而言,TTS元件72可以首先接收輸入文本88,并且文本分析元 件卯可以例如將非寫出表達(諸如數(shù)字和縮寫)轉(zhuǎn)換成對應(yīng)的寫出詞的等 效。隨后,在文本預(yù)處理階段,每個詞都可以被饋送到語聲分析元件92, 在其中,語聲記錄被分配到每個詞。語聲分析元件92可以采用與以上關(guān)于 ASR元件70所描述的類似的文本到音素(TTP)轉(zhuǎn)換。最后,韻律分析 元件92可以將文本和文本的標記段分成各種韻律單元,像短語、從句和句 子。語聲記錄和韻律信息的組合構(gòu)成了 TTS元件72的符號語言表示輸出, 其可以被輸出為音素的輸入序列86。音素的輸入序列86可以直接或間接 地經(jīng)由LID元件76被傳送到音素處理器74。如果希望重放文本,則可以 將符號語言表示輸入到合成器,其輸出合成的語音波形,即,在音素處理 器74處的處理之后實際的聲音輸出。
音素處理器74可以是按照能夠進行以下操作的硬件、軟件或者硬件和 軟件的組合來體現(xiàn)的任何設(shè)備或裝置接收音素的輸入序列86、檢查音素 的輸入序列86,以及將音素的輸入序列86與所選擇的音素圖進行比較, 其中基于是從第 一還是第二類型的語音處理元件接收到音素的輸入序列來 選棒音素圖。相應(yīng)地,音素處理器74可以被配置以便處理音素的輸入序列 86,從而改進與音素的輸入序列86相關(guān)聯(lián)的質(zhì)量測量,以便音素處理器 74的輸出可以用于驅(qū)動可用于與系統(tǒng)68連接的許多輸出設(shè)備中的任何輸 出設(shè)備。在示例性實施例中,質(zhì)量測量可以是概率測量、失真測量,或者 是在評估所處理的語音的精確度和/或逼真度中可以與所處理的語音相關(guān) 聯(lián)的任何其它質(zhì)量度量。在各種示例性實施例中,如果從ASR元件接收到 音素的輸入序列86,則可以通過優(yōu)化、最大化或以其它方式增加由系統(tǒng)68 所構(gòu)造的給定輸入音素序列是正確的概率來改進質(zhì)量測量,或者如果從 TTS元件接收到音素的輸入序列86,則可以通過優(yōu)化、最小化或以其它方 式降低與音素的輸入序列86相關(guān)聯(lián)的失真測量來改進質(zhì)量測量??梢韵鄬τ谀繕苏Z音或其它訓(xùn)練數(shù)據(jù)來進行失真測量。
可以利用音素處理器74的輸出來驅(qū)動的輸出設(shè)備可以取決于所提供 的輸入的類型。例如,如果ASR元件70提供了音素的輸入序列86,則輸 出設(shè)備可以包括信息檢索元件120、語音到文本解碼器元件122、低比特率 編碼元件124、話音轉(zhuǎn)換元件126等。同時,如果TTS元件72提供了音 素的輸入序列86,則輸出設(shè)備可以包括低比特率編碼元件124、語音合成 元件128、信息檢索元件120等。
語音到文本編碼器元件122可以是被配置成將輸入語音轉(zhuǎn)換成與輸入 語音相對應(yīng)的文本的輸出的任何設(shè)備或裝置。通it^解碼階段分離在ASR 元件70中的高級信息(諸如發(fā)音和詞素),系統(tǒng)68提供了一種方式來處理 并不一定在與系統(tǒng)68相關(guān)聯(lián)的詞匯列表中出現(xiàn)的字詞。音素處理器74的 音素圖/點陣體系結(jié)構(gòu)可以包括對后續(xù)的音素字詞轉(zhuǎn)換有用的信息。語音合 成元件128可以包括這樣的信息,即該信息用于通過利用來自音素處理器 74的音素圖/點陣體系結(jié)構(gòu)的語言和韻律信息來生成增強的語音質(zhì)量。低比 特率編碼元件124可以用于在低至500bps或者甚至低于500bps的比特率 的情況下進行語音編碼,并且可以包括充當(dāng)語音識別系統(tǒng)的編碼器以及用 作語音合成器的解碼器。編碼器可以實現(xiàn)分析階段中對聲學(xué)分段的識別以 及在解碼器中根據(jù)分段索引集合的語音合成。編碼器可以生成通常來自語 言單元(例如,音素、子詞單元(subwordunit))的辭典的語音信號的符 號記錄。相應(yīng)地,所呈現(xiàn)的數(shù)據(jù)結(jié)構(gòu)可以提供將要在生成輸入語音信號80 的符號記錄中使用的語音單元的大量來源。 一旦音素被解碼,就可以按照 非常低的比特率來傳輸它們的身份連同在解碼器中進行合成所需要的韻律 信息。話音轉(zhuǎn)換元件126可以啟用從源講話者的話音向目標講話者的話音 的轉(zhuǎn)換。所呈現(xiàn)的數(shù)據(jù)結(jié)構(gòu)還可以用于話音轉(zhuǎn)換,從而使得基于存儲在數(shù) 據(jù)結(jié)構(gòu)中的各種韻律信息以及目標話音特征,首先為源講話者創(chuàng)建統(tǒng)計才莫 型。然后,統(tǒng)計模型的參數(shù)可以經(jīng)歷參數(shù)調(diào)適過程,這可以轉(zhuǎn)換^以便 將源講話者的話音轉(zhuǎn)換成目標講話者的話音。信息檢索元件120可以包括 口頭文檔的數(shù)據(jù)庫,其中,根據(jù)所呈現(xiàn)的數(shù)據(jù)結(jié)構(gòu)來構(gòu)造每個口頭文檔(例如,詞被分成子詞單元,諸如音素)。當(dāng)用戶想要從口頭文檔的數(shù)據(jù)庫搜索 特定數(shù)據(jù)時,將子詞單元的序列而不是整個詞被用作搜索模式會是有利的。
因而,音素處理器74的詞匯可以是無限制的,并且預(yù)先計算音素圖/點陣 可以是高效的。
音素處理器74可以包括處理元件100或者以其它方式4皮處理元件100 控制。音素處理器74還可以包括存儲元件102或者以其它方式與存儲元件 102通信,存儲元件102存儲了第一類型的音素圖/點陣104和第二類型的 音素圖/點陣106。音素處理器74還可以包括選擇元件108以及比較元件 110。選擇元件108和比較元件110可以各自是按照能夠分別執(zhí)行選擇元件 108和比較元件110的相應(yīng)功能(如下面較為詳細描述的)的硬件、軟件 或者硬件和軟件的組合來體現(xiàn)的任何設(shè)備或裝置。就此而言,選擇元件108 可以被配置以便檢查音素的輸入序列86,從而確定音素的輸入序列86是 對應(yīng)于第一類型的語音處理元件(例如,ASR元件70)還是第二類型的語 音處理元件(例如,TTS元件72 )。選擇元件108還可以被配置以便基于 音素的輸入序列86的起源(即,音素的輸入序列86的源是ASR元件70 還是TTS元件72 )來選擇第一類型的音素圖/點陣104或第二類型的音素 圖/點陣106中的一個。同時,比較元件110可以被配置以便將音素的輸入 序列86與所選擇的音素圖進行比較。換句話說,比較元件110可以被配置 以使羞于與音素的輸入序列86相關(guān)聯(lián)的確定類型的語音處理元件,將音素 的輸入序列86與第一類型的音素圖/點陣104 (例如,ASR音素圖)或第 二類型的音素圖/點陣106 (例如,TTS音素圖)中對應(yīng)的一個進行比較。
在示例性實施例中,音素處理器74可以在可執(zhí)行應(yīng)用形式的軟件中體 現(xiàn),其可以在處理元件IOO (例如,圖1的控制器20)的控制下操作,處 理元件100可以執(zhí)行與可執(zhí)行應(yīng)用相關(guān)聯(lián)的指令,這些指令存儲在存儲器 102處或者以其它方式對于處理元件100來說是可訪問的。如在此所述的 處理元件可以以4艮多方式來體現(xiàn)。例如,處理元件100可以體現(xiàn)為處理器、 協(xié)處理器、控制器或者各種其它的處理裝置或設(shè)備,包括例如像ASIC(專 用集成電路)的集成電路。存儲元件102可以是例如移動終端10的易失性存儲器40或非易失性存儲器42,或者可以是由音素處理器74的處理元件 100可訪問的另外的存儲設(shè)備。
第一類型的音素圖/點陣104可以是,例如,與基于統(tǒng)計概率的最可能 的音素序列有關(guān)的信息的圖或點P車。就此而言,第一類型的音素圖/點陣104 可以被配置以便提供在輸入音素序列與結(jié)M個當(dāng)前音素而追隨的最可能 的音素之間的基于概率的比較。通過比較音素的輸入序列86與第一類型的 音素圖/點陣104,語言處理器74可以優(yōu)化或以其它方式增加以下概率,即 語言處理器的輸出產(chǎn)生了被處理的語音,其具有與輸入語音信號78的逼真 和精確的相關(guān)性。
圖4A和圖4B圖示了處理用于話語"please be quite (請安靜)"(其 可以是句子或更大短語中的一部分)的音素序列的示例性實施例。就此而 言,應(yīng)當(dāng)理解,圖4A和圖4B的每個圓圏代表可能的音素,并且在不同圓 圏之間的每個箭頭具有相關(guān)聯(lián)的權(quán)重,該權(quán)重是基于后續(xù)音素可能追隨當(dāng) 前音素的概率來確定的。同樣,通過基于在每個中間音素之間的權(quán)重來確 定經(jīng)過該圖產(chǎn)生最高概率結(jié)果的路徑,音素處理器74可以處理音素的輸入 序列86。因而,音素處理器74的輸出可以是經(jīng)修改的音素的輸入序列, 其被修改以便最大化或以其它方式增加與修改的音素的輸入序列相關(guān)聯(lián)的 概率測量。圖4A示出了其中將音素點陣用作語音識別系統(tǒng)的輸出的實施 例。如可從圖4A看出的,根據(jù)每個對應(yīng)音素序列的似然性,該話語可以 卑皮轉(zhuǎn)換成文本,例如"Please pick white" 、 "Please be quite"或"Plea beak white"。圖4B示出了其中將音素點陣用作語音合成系統(tǒng)的輸入的實施例。 在語音合成的情況下,可以在韻律分析之后,在文本處理模塊的輸出處形 成音素點陣。在點陣中的鏈接包括與語音輸出的逼真度有關(guān)的權(quán)重??梢?根據(jù)最小失真(即,最大逼真度)的路徑來選擇用于合成的音素。應(yīng)當(dāng)注 意,圖4A和圖4B僅是示例性的,并且因而,除了圖4A和圖4B所示的 之外的很多其它音素選項也是可能的。圖4A和圖4B僅示出了幾個這樣的 選項,以便提供在描述示例性實施例中使用的簡單例子。
第二類型的音素圖/點陣106可以是,例如,與諸如訓(xùn)練數(shù)據(jù)這樣的脫機收集的數(shù)據(jù)有關(guān)的信息的圖或點陣,其中,訓(xùn)練數(shù)據(jù)可以用于與音素的
輸入序列86相比較,以便提供來自音素處理器74的改進的質(zhì)量(例如, 更逼真或更精確的)輸出。就此而言,第二類型的音素圖/點陣106可以被 配置以〗更提供在輸入音素序列與和例如韻律、持續(xù)時間(例如,開始和結(jié) 束時間)、講話者特征等有關(guān)的信息之間的基于失真測量的比較。因而,舉 例來說,目標話音特征(例如,與合成語音目標講話者相關(guān)聯(lián)的數(shù)據(jù))、子 詞單元,以及各種韻律信息(諸如語音的時序和腔調(diào))可以用作元數(shù)據(jù), 用于通過降低失真測量或某些其它質(zhì)量標記來處理音素的輸入序列86。通 過將音素的輸入序列86與第二類型的音素圖/點陣106相比較,語言處理 器74可以優(yōu)化或以其它方式降低在產(chǎn)生被處理的語音(其具有與輸入文本 88的逼真和精確的相關(guān)性)中,通過語音處理器74的輸出所展現(xiàn)的失真 測量。
在示例性實施例中,處理元件100可以接收對于與音素的輸入序列86 相關(guān)聯(lián)的語言的指示。響應(yīng)于該指示,處理元件100可以被配置以便在語 言特定的第一或第二類型的音素圖/點陣中選擇相應(yīng)的一個。然而,在示例 性實施例中,與音素的輸入序列86相關(guān)聯(lián)的語言可以簡單地被用作結(jié)合第 一類型的音素圖/點陣104或第二類型的音素圖/點陣106來使用的元數(shù)據(jù)。 換句話說,在一個示例性實施例中,第一類型的音素圖/點陣104和/或第二 類型的音素圖/點陣106可以體現(xiàn)為具有與多種語言相關(guān)聯(lián)的信息的單個 圖,在這多種語言中,標識語言的元數(shù)據(jù)可以被用作在處理音素的輸入序 列86時的因素。因而,第一類型的音素圖/點陣104和/或第二類型的音素 圖/點陣106可以是多語言音素圖,從而將本發(fā)明的實施例的可應(yīng)用性擴展 超出多個語言模塊而到單個綜合體系結(jié)構(gòu)的利用。
本發(fā)明的實施例可以對便攜式多媒體設(shè)備有用,因為系統(tǒng)68的元件可 以以存儲高效的方式被i殳計。就此而言,由于可以將不同類型的語音處理 或口頭語言接口集成到被配置成基于提供輸入的口頭語言接口或語音處理 的類型來處理音素的序列的單個體系結(jié)構(gòu)中,因此可以最小化存儲空間。 另外,將諸如ASR和TTS這樣的主要的口頭語言接口技術(shù)集成到單個框架中可以促進高效的設(shè)計以及將設(shè)計擴展到不同的語言。另外,可以增強 諸如交互式移動游戲和口頭對話系統(tǒng)這樣的交互式多媒體應(yīng)用。例如,可
以使得播放器能夠使用他/她的話音,通過利用用于解譯命令的ASR元件 70來控制游戲。還可以使得播放器能夠?qū)τ螒蛑械娜宋镞M行編程,以便通 過利用例如語音合成來按照播放器所選擇的話音說話。另外或可選地,系 統(tǒng)68可以以低比特率將播放器的話音傳輸?shù)搅硪唤K端,其中另一播放器可 以使用語音編碼和/或話音轉(zhuǎn)換,通過將播放器的話音轉(zhuǎn)換成目標話音來操 縱播放器的話音。
圖5是根據(jù)本發(fā)明的示例性實施例的系統(tǒng)、方法和程序產(chǎn)品的流程圖。 應(yīng)當(dāng)理解,流程圖的每個塊或步驟以及流程圖中的塊的組合可以通過諸如 硬件、固件和/或軟件(包括一個或多個計算機程序指令)的各種裝置來實 現(xiàn)。例如,上述一個或多個過程可以通過計算機程序指令來體現(xiàn)。就此而 言,體現(xiàn)上述過程的計算機程序指令可以通過移動終端的存儲設(shè)備來存儲, 并且通過移動終端中的內(nèi)置處理器來執(zhí)行。如將理解的,任何這樣的計算 機程序指令都可以被加載到計算機或其它可編程裝置(即,硬件)上以便 產(chǎn)生機器,從而使得在計算機或其它可編程裝置上執(zhí)行的指令創(chuàng)建用于實 現(xiàn)流程圖塊或步驟中所指定的功能的裝置。這些計算機程序指令還可以存 儲在計算機可讀存儲器中,計算機可讀存儲器可以指導(dǎo)計算機或其它可編 程裝置以特定方式起作用,從而使得存儲在計算機可讀存儲器中的指令產(chǎn)
生包括實現(xiàn)在流程圖塊或步驟中所指定的功能的指令裝置的制品。計算機 程序指令還可以被加載到計算機或其它可編程裝置上,以便使得一系列操
作步驟在計算機或其它可編程裝置上執(zhí)行,從而產(chǎn)生計算機實現(xiàn)的過程,
以便在計算機或其它可編程裝置上執(zhí)行的指令提供用于實現(xiàn)在流程圖塊或
步驟中所指定的功能的步驟。
相應(yīng)地,流程圖的塊或步驟支持用于實現(xiàn)指定功能的裝置的組合、用 于實現(xiàn)指定功能的步驟的組合,以及用于實現(xiàn)指定功能的程序指令裝置。 還應(yīng)當(dāng)理解,可以通過基于專用硬件的計算機系統(tǒng)(其執(zhí)行指定功能或步 驟)或者專用硬件和計算機指令的組合來實現(xiàn)流程圖中的一個或多個塊或步驟以及流程圖中的塊或步驟的組合。
就此而言,提供基于語言的交互式多媒體系統(tǒng)的方法的一個實施例可
以包括檢查音素的輸入序列,以便在操作210處,基于與音素的輸入序列 相關(guān)聯(lián)的語音處理的類型來選擇音素圖。在示例性實施例中,操作210可 以包括選擇與從自動語音識別元件所接收到的音素的輸入序列相對應(yīng)的 第 一音素圖或者與從文本到語音元件所接收到的音素的輸入序列相對應(yīng)的 第二音素圖中的一個。在操作220,可以將音素的輸入序列與所選擇的音 素圖相比較。在操作230,可以基于該比較來處理音素的輸入序列。在示 例性實施例中,操作230可以包括基于所選擇的音素圖來修改音素的輸 入序列,以便改進所修改的音素的輸入序列的質(zhì)量測量。舉例來說,質(zhì)量 測量可以通過增加概率測量或降低與所修改的音素的輸入序列相關(guān)聯(lián)的失 真測量來進行改進。在示例性實施例中,該方法可以包括確定與音素的輸 入序列相關(guān)聯(lián)的語言的任選初始操作200。所確定的語言可以用于選擇對 應(yīng)的音素圖,然而可選地,該音素圖可以應(yīng)用于多個不同的語言。
可以以很多方式來實現(xiàn)上述功能。例如,用于實現(xiàn)上述每個功能的任 何適當(dāng)?shù)难b置都可以用于實現(xiàn)本發(fā)明的實施例。在一個實施例中,所有或 部分本發(fā)明的元件通常在計算機程序產(chǎn)品的控制下操作。用于執(zhí)行本發(fā)明 的實施例的方法的計算機程序產(chǎn)品包括在計算機可讀存儲介質(zhì)中體現(xiàn)的諸 如非易失性存儲介質(zhì)的計算機可讀存儲介質(zhì)以及諸如一 系列計算機指令的 計算機可讀程序代碼部分。
從前述描述和關(guān)聯(lián)附圖中所呈現(xiàn)的教導(dǎo)中受益的本發(fā)明所屬領(lǐng)域的技 術(shù)人員將會想到在此闡述的本發(fā)明的很多修改和其它實施例。因此,應(yīng)當(dāng) 理解,本發(fā)明的實施例并不限于所公開的具體實施例,并且旨在將修改和 其它實施例包括在所附權(quán)利要求的范圍之內(nèi)。盡管在此采用了特定的術(shù)語, 然而它們僅在一般性和描述性的意義上來^f吏用,而并不用于限制的目的。
權(quán)利要求
1.一種方法,其包括基于與音素的輸入序列相關(guān)聯(lián)的語音處理的類型來選擇音素圖;將所述音素的輸入序列與所選擇的音素圖相比較;以及基于所述比較來處理所述音素的輸入序列。
2. 根據(jù)權(quán)利要求1所述的方法,其中選擇音素圖包括選擇第一音素 圖或第二音素圖中的 一個,所述第 一音素圖與從自動語音識別元件所接收 到的音素的輸入序列相對應(yīng),所述第二音素圖與從文本到語音元件所接收 到的音素的輸入序列相對應(yīng)。
3. 根據(jù)權(quán)利要求2所述的方法,其中選擇音素圖進一步包括選擇包 括與韻律信息、持續(xù)時間和講話者特征有關(guān)的元數(shù)據(jù)的第二音素圖。
4. 根據(jù)權(quán)利要求3所述的方法,其進一步包括確定與所述音素的輸 入序列相關(guān)聯(lián)的語言。
5. 根據(jù)權(quán)利要求4所述的方法,其中選擇音素圖進一步包括選擇與 所確定的語言相對應(yīng)的音素圖。
6. 根據(jù)權(quán)利要求l所述的方法,其中選擇音素圖進一步包括選擇與 多個語言相對應(yīng)的單個音素圖。
7. 根據(jù)權(quán)利要求1所述的方法,其中處理所述音素的輸入序列包括 基于所選擇的音素圖來修改所述音素的輸入序列,以便改進所修改的音素 的輸入序列的質(zhì)量測量。
8. 根據(jù)權(quán)利要求7所述的方法,其中處理所述音素的輸入序列進一步 包括基于所選擇的音素圖來修改所述音素的輸入序列,以便增加所修改 的音素的輸入序列的概率測量。
9. 根據(jù)權(quán)利要求7所述的方法,其中處理所述音素的輸入序列進一步 包括基于所選擇的音素圖來修改所述音素的輸入序列,以便降低所修改 的音素的輸入序列的失真測量。
10. —種計算機程序產(chǎn)品,其包括使計算機可讀程序代碼部分存儲在其中的至少一個計算機可讀存儲介質(zhì),所述計算機可讀程序代碼部分包括 第一可執(zhí)行部分,用于基于與音素的輸入序列相關(guān)聯(lián)的語音處理的類 型來選擇音素圖;第二可執(zhí)行部分,用于將所述音素的輸入序列與所選擇的音素圖相比 較;以及第三可執(zhí)行部分,用于基于所述比較來處理所述音素的輸入序列。
11. 根據(jù)權(quán)利要求10所述的計算4幾程序產(chǎn)品,其中所述第一可執(zhí)行 部分包括用于選擇第一音素圖或第二音素圖中的一個的指令,所述第一 音素圖與從自動語音識別元件所接收到的音素的輸入序列相對應(yīng),所述第 二音素圖與從文本到語音元件所接收到的音素的輸入序列相對應(yīng)。
12. 根據(jù)權(quán)利要求11所述的計算機程序產(chǎn)品,其中所述第一可執(zhí)行 部分包括用于選擇包括與韻律信息、持續(xù)時間和講話者特征有關(guān)的元數(shù) 據(jù)的第二音素圖的指令。
13. 根據(jù)權(quán)利要求12所述的計算機程序產(chǎn)品,其進一步包括第四可 執(zhí)行部分,用于確定與所述音素的輸入序列相關(guān)聯(lián)的語言。
14. 根據(jù)權(quán)利要求13所述的計算機程序產(chǎn)品,其中所述第一可執(zhí)行 部分包括用于選擇與所確定的語言相對應(yīng)的音素圖的指令。
15. 根據(jù)權(quán)利要求10所述的計算機程序產(chǎn)品,其中所述第一可執(zhí)行 部分包括用于選擇與多個語言相對應(yīng)的單個音素圖的指令。
16. 根據(jù)權(quán)利要求10所述的計算積一呈序產(chǎn)品,其中所述第三可執(zhí)行 部分包括用于基于所選擇的音素圖來修改所述音素的輸入序列,以便改 進所修改的音素的輸入序列的質(zhì)量測量的指令。
17. 根據(jù)權(quán)利要求16所述的計算機程序產(chǎn)品,其中所述第三可執(zhí)行 部分包括用于基于所選擇的音素圖來修改所述音素的輸入序列,以便增 加所修改的音素的輸入序列的概率測量的指令。
18. 根據(jù)權(quán)利要求16所述的計算機程序產(chǎn)品,其中所述第三可執(zhí)行 部分包括用于基于所選擇的音素圖來修改所述音素的輸入序列,以便降 低所修改的音素的輸入序列的失真測量的指令。
19. 一種裝置,其包括選擇元件,所述選擇元件被配置以便基于與音素的輸入序列相關(guān)聯(lián)的 語音處理的類型來選擇音素圖;比較元件,所述比較元件被配置以便將所述音素的輸入序列與所選擇 的音素圖相比較;以及處理元件,所述處理元件與所述比較元件進行通信,并且被配置以使, 基于所述比較來處理所述音素的輸入序列。
20. 根據(jù)權(quán)利要求19所述的裝置,其中所述選擇元件被進一步配置 以便選擇第一音素圖或第二音素圖中的一個,所述第一音素圖與從自動 語音識別元件所接收到的音素的輸入序列相對應(yīng),所述第二音素圖與從文 本到語音元件所接收到的音素的輸入序列相對應(yīng)。
21. 根據(jù)權(quán)利要求20所述的裝置,其中所i^擇元件被進一步配置 以便選擇包括與韻律信息、持續(xù)時間和講話者特征有關(guān)的元數(shù)據(jù)的第二 音素圖。
22. 根據(jù)權(quán)利要求21所述的裝置,其進一步包括語言標識元件,用 于確定與所述音素的輸入序列相關(guān)聯(lián)的語言。
23. 根據(jù)權(quán)利要求22所述的裝置,其中所述選擇元件被進一步配置 以便選擇與所確定的語言相對應(yīng)的音素圖。
24. 根據(jù)權(quán)利要求19所述的裝置,其中所述選擇元件被進一步配置 以便選擇與多個語言相對應(yīng)的單個音素圖。
25. 根據(jù)權(quán)利要求19所述的裝置,其中所述處理元件被進一步配置 以便基于所選擇的音素圖來修改所述音素的輸入序列,從而改進所修改 的音素的輸入序列的質(zhì)量測量。
26. 根據(jù)權(quán)利要求25所述的裝置,其中所述處理元件被進一步配置 以便基于所選擇的音素圖來修改所述音素的輸入序列,從而增加所修改 的音素的輸入序列的概率測量。
27. 根據(jù)權(quán)利要求25所述的裝置,其中所述處理元件被進一步配置 以便基于所選擇的音素圖來修改所述音素的輸入序列,從而降低所修改的音素的輸入序列的失真測量。
28. 根據(jù)權(quán)利要求19所述的裝置,其中所述裝置被體現(xiàn)為移動終端。
29. —種設(shè)備,其包括用于基于與音素的輸入序列相關(guān)聯(lián)的語音處理的類型來選擇音素圖的 裝置;用于將所述音素的輸入序列與所選擇的音素圖相比較的裝置;以及用于基于所述比較來處理所述音素的輸入序列的裝置。
30. 根據(jù)權(quán)利要求29所述的設(shè)備,其中用于選擇音素圖的裝置進一 步包括用于選擇第一音素圖或第二音素圖中的一個的裝置,所述第一音 素圖與從自動語音識別元件所接收到的音素的輸入序列相對應(yīng),所述第二 音素圖與從文本到語音元件所接收到的音素的輸入序列相對應(yīng)。
全文摘要
一種用于提供基于語言的交互式多媒體系統(tǒng)的裝置,其包括選擇元件、比較元件和處理元件。所述選擇元件可以被配置以便基于與音素的輸入序列相關(guān)聯(lián)的語音處理的類型來選擇音素圖。所述比較元件可以被配置以便將所述音素的輸入序列與所選擇的音素圖相比較。所述處理元件可以與所述比較元件進行通信,并且可以被配置以便基于該比較來處理所述音素的輸入序列。
文檔編號G10L13/04GK101542590SQ200780042946
公開日2009年9月23日 申請日期2007年11月9日 優(yōu)先權(quán)日2006年11月28日
發(fā)明者S·西瓦達斯 申請人:諾基亞公司