專(zhuān)利名稱(chēng):基于短消息的話音服務(wù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總地涉及在移動(dòng)通信設(shè)備例如蜂窩電話上可用的信道上輸送話音消息。
背景技術(shù):
為了最小化在無(wú)線通信網(wǎng)絡(luò)上傳送的話音信息量,因而最大化在任意時(shí)刻可以在網(wǎng)絡(luò)上承受的電話呼叫數(shù)量,蜂窩電話采用話音編碼器/解碼器或編解碼器。編解碼器從語(yǔ)音信號(hào)中去除許多冗余或不必要的信息。然后,將該語(yǔ)音信號(hào)的基本元素在網(wǎng)絡(luò)上傳送給正在接收的蜂窩電話,在那里這些元素被解碼或者與類(lèi)似前面已去除信息的數(shù)據(jù)重新組合。這導(dǎo)致能夠由終端用戶識(shí)別的重構(gòu)語(yǔ)音。編解碼器必須在最小數(shù)據(jù)傳輸?shù)男枨笈c在接收端上解碼時(shí)為保持足夠的原始語(yǔ)音信息以聽(tīng)起來(lái)自然的需求之間尋求平衡。在通常的話音編解碼器中,目前能夠?qū)⒄Z(yǔ)音信號(hào)壓縮至每秒4.5k-8k字節(jié)之間,并且每秒2.4k字節(jié)大致為保持自然發(fā)聲語(yǔ)音所需的最小速率。盡管能夠?qū)⒄Z(yǔ)音壓縮至這些低比特率,但是用于處理大量話音呼叫的網(wǎng)絡(luò)基礎(chǔ)設(shè)施在許多市場(chǎng)中,尤其在發(fā)展中國(guó)家的新興市場(chǎng)中是有限的。這使得無(wú)線電話的費(fèi)用很高。
借助蜂窩電話的一種可替代的并且日益流行的通信方法是發(fā)送文本消息。由于話音呼叫的高費(fèi)用,基于文本的所謂SMS(短消息服務(wù))的移動(dòng)到移動(dòng)消息發(fā)送已經(jīng)在一些市場(chǎng)中廣泛應(yīng)用,尤其在年輕人群中。SMS使得用戶能夠在任意時(shí)刻發(fā)送和接收短文本消息,而與話音呼叫是否正在進(jìn)行無(wú)關(guān)。用戶通常通過(guò)設(shè)在設(shè)備上的小鍵盤(pán)輸入消息文本。這些消息在硬件方面限制在160個(gè)字符,并且通過(guò)低帶寬的帶外消息傳送信道以數(shù)據(jù)包的形式發(fā)送。這允許在無(wú)線網(wǎng)絡(luò)負(fù)擔(dān)最小的情況下進(jìn)行便捷通信。
大部分傳統(tǒng)的無(wú)線網(wǎng)絡(luò)系統(tǒng)例如GSM、TDMA和CDMA具有能夠發(fā)送和接收SMS的文本/數(shù)據(jù)信道,因此針對(duì)這項(xiàng)服務(wù)的基礎(chǔ)設(shè)施即使在發(fā)展中國(guó)家的新興市場(chǎng)中也已經(jīng)存在。一些評(píng)估表明目前發(fā)出的全球SMS消息數(shù)量為大約每月400億條消息。人們認(rèn)為SMS是目前全球無(wú)線網(wǎng)絡(luò)運(yùn)營(yíng)商的基于非話音收入的最主要來(lái)源。因此,通信公司對(duì)促進(jìn)SMS的使用非常感興趣。實(shí)際上,在發(fā)展中市場(chǎng)中的網(wǎng)絡(luò)運(yùn)營(yíng)商由于與發(fā)送文本消息相關(guān)的巨大收入而可能限制采用更先進(jìn)的話音網(wǎng)絡(luò)基礎(chǔ)設(shè)施。
發(fā)明內(nèi)容
在一些市場(chǎng)中,蜂窩電話呼叫的費(fèi)用相對(duì)昂貴,從而使得發(fā)送文本消息(例如,借助SMS)成為理想的通信替代方案。但是,在這些市場(chǎng)的一部分中,使用文本可能存在其它障礙。發(fā)送者和接收者必須都能夠閱讀和/或書(shū)寫(xiě)。但是在新興市場(chǎng)例如具有非常多人口的印度中,成年人識(shí)字率大約為60%,因此許多人沒(méi)有足夠的文化將文本消息輸入進(jìn)蜂窩電話中。因此,對(duì)于在這些市場(chǎng)中不能寫(xiě)作和閱讀的許多消費(fèi)者而言,作為一種通信模式的SMS文本消息發(fā)送不是一種有效的替代方案。在這里所述的至少一些實(shí)施方案提供了一種代替文本消息發(fā)送的機(jī)制,利用這種機(jī)制,這些消費(fèi)者能夠使用費(fèi)用更低的非話音無(wú)線通信信道來(lái)進(jìn)行口頭通信。
一般來(lái)說(shuō),在一個(gè)方面,本發(fā)明提出了一種借助移動(dòng)通信設(shè)備發(fā)送話音消息的方法。該方法涉及接收來(lái)自移動(dòng)通信設(shè)備用戶的講話;生成所接收的講話的非文本表示;將非文本表示插入到文本消息主體中;并且通過(guò)無(wú)線消息發(fā)送信道將文本消息從移動(dòng)通信設(shè)備發(fā)送到接收者的設(shè)備。
實(shí)施方案包括以下特征中的一個(gè)或多個(gè)。移動(dòng)通信設(shè)備為蜂窩電話。生成所接收講話的非文本表示涉及對(duì)從所接收的講話中獲得的信號(hào)進(jìn)行識(shí)別以生成符號(hào)串,其中符號(hào)串為非文本表示。符號(hào)串中的符號(hào)選自音素(phoneme)、雙音素和三音素(更具體地說(shuō),這些符號(hào)為音素)構(gòu)成的組。無(wú)線消息發(fā)送信道為SMS信道,并且文本消息為SMS消息。該方法還涉及包括文本消息所帶的指示符,用來(lái)標(biāo)識(shí)該文本消息包含講話的非文本表示。非文本表示為所接收的講話的壓縮形式。
一般來(lái)說(shuō),在另一個(gè)方面中,本發(fā)明提供了一種在移動(dòng)通信設(shè)備上接收代表講話的消息的方法。該方法涉及在無(wú)線消息發(fā)送信道上接收文本消息,其中文本消息包含講話的非文本表示;從文本消息中提取非文本表示;并且由非文本表示合成口頭講話的音頻表示;并且通過(guò)在移動(dòng)通信設(shè)備上的音頻輸出裝置播放合成的音頻表示。
實(shí)施方案包括以下特征中的一個(gè)或多個(gè)。移動(dòng)通信設(shè)備為蜂窩電話。生成所接收講話的非文本表示涉及對(duì)從所接收的講話中獲得的信號(hào)進(jìn)行識(shí)別以生成符號(hào)串,其中符號(hào)串為非文本表示。在符號(hào)串中的符號(hào)選自音素、雙音素和三音素(更具體地說(shuō),這些符號(hào)為音素)構(gòu)成的組。無(wú)線消息發(fā)送信道為SMS信道,并且文本消息為SMS消息。該方法還涉及包括文本消息所帶的指示符,用來(lái)標(biāo)識(shí)該文本消息包含有講話的非文本表示。非文本表示為所接收到的講話的壓縮形式。
一般來(lái)說(shuō),在另一個(gè)方面中,本發(fā)明提供了一種用于發(fā)送話音消息的移動(dòng)通信設(shè)備。該移動(dòng)通信設(shè)備包括處理器系統(tǒng);麥克風(fēng),用于接收來(lái)自移動(dòng)通信設(shè)備用戶的講話;收發(fā)器;以及存儲(chǔ)有代碼的存儲(chǔ)器,該代碼當(dāng)在處理器系統(tǒng)上執(zhí)行時(shí)使得移動(dòng)通信設(shè)備生成所接收講話的非文本表示;將非文本表示插入到文本消息的主體中;并且經(jīng)由收發(fā)器,通過(guò)無(wú)線消息發(fā)送信道將文本消息從移動(dòng)通信設(shè)備發(fā)送到接收者的設(shè)備。
一般來(lái)說(shuō),在另一個(gè)方面中,本發(fā)明提供了一種用于接收話音消息的移動(dòng)通信設(shè)備。該移動(dòng)通信設(shè)備包括處理器系統(tǒng);收發(fā)器,用于接收包含有講話的非文本表示的文本消息;音頻輸出裝置;以及存儲(chǔ)有代碼的存儲(chǔ)器,該代碼當(dāng)在處理器系統(tǒng)上執(zhí)行時(shí)使得移動(dòng)通信設(shè)備從接收到的文本消息中提取非文本表示;由非文本表示合成口頭講話的音頻表示;并且通過(guò)音頻輸出裝置播放合成的音頻表示。
在下面的附圖和說(shuō)明中闡述了本發(fā)明的一個(gè)或多個(gè)實(shí)施方案的細(xì)節(jié)。從該說(shuō)明書(shū)和附圖中以及權(quán)利要求書(shū)中將了解本發(fā)明的其它特征、目的和優(yōu)點(diǎn)。
附圖簡(jiǎn)要說(shuō)明
圖1示出音素識(shí)別系統(tǒng)的方框圖。
圖2示出音素合成系統(tǒng)的方框圖。
圖3示出包含音素識(shí)別和合成系統(tǒng)的智能話機(jī)的高級(jí)方框圖。
具體實(shí)施例方式
上述實(shí)施方案為一種通過(guò)在蜂窩電話中可用的SMS網(wǎng)絡(luò)發(fā)送和接收口頭或音頻信息的方法。用戶向蜂窩電話說(shuō)出所期望的消息或講話。在電話中的音素識(shí)別算法生成講話的非文本表示。電話中的SMS應(yīng)用程序通過(guò)SMS網(wǎng)絡(luò)將在SMS消息主體中的該非文本表示發(fā)送給接收者的電話。在接收者的電話處,另一個(gè)SMS應(yīng)用程序從SMS消息主體中提取非文本表示。然后,合成器從非文本表示中合成出音頻消息,并且向接收者播放該合成消息。
圖1顯示出高級(jí)方框圖,更詳細(xì)地顯示出所實(shí)施的功能性。用戶向蜂窩電話100講話110,并且在電話內(nèi)的識(shí)別引擎120的前端中的特征提取器130處理該講話以提取其聲學(xué)特征。典型地,特征提取器130包括數(shù)字轉(zhuǎn)換器102,用來(lái)將接收到的模擬信號(hào)轉(zhuǎn)換成數(shù)字表示。數(shù)字轉(zhuǎn)換器102將輸入的信號(hào)分成一系列重疊幀,然后在每個(gè)幀內(nèi)輸出信號(hào)的數(shù)字表示。濾波器104對(duì)該信號(hào)的頻譜進(jìn)行過(guò)濾,從而尤其降低非語(yǔ)音噪聲對(duì)語(yǔ)音信號(hào)的影響,并且對(duì)由用來(lái)接收該講話的信道的頻譜特征引起的各種損害進(jìn)行校正。濾波過(guò)程保留了講話的主要語(yǔ)言內(nèi)容,同時(shí)消除了可能沒(méi)有攜帶明顯有用信息的各種頻率,例如非常高和非常低的頻率。分析器106分析經(jīng)過(guò)濾的數(shù)字信號(hào)以提取這些幀的相關(guān)聲學(xué)特征即特征矢量。特征提取器130的輸出為所接收的講話的聲學(xué)表示140。在所述的實(shí)施方案中,特征提取器130采用MEL對(duì)數(shù)逆譜(cepstrum)編碼技術(shù)來(lái)提取相關(guān)特征。
在存儲(chǔ)器中的數(shù)據(jù)庫(kù)160中,電話存儲(chǔ)有一組音素,它們是構(gòu)建口頭語(yǔ)言的聲音的基本音素單位。它還存儲(chǔ)有每個(gè)音素的聲學(xué)模型和識(shí)別該音素的索引或指針。聲學(xué)模型實(shí)際上為統(tǒng)計(jì)模型,表示在出現(xiàn)一組特定聲學(xué)特征的情況下說(shuō)出特定音素的可能性。
在所述實(shí)施方案中,識(shí)別引擎120采用無(wú)約束的音素識(shí)別器150來(lái)確定在給出表征用戶講話的特征矢量順序的情況下最可能的音素順序(即,音素串)。識(shí)別器150是無(wú)約束的,因?yàn)樗J(rèn)為每個(gè)候選音素具有相同的權(quán)重,而沒(méi)有針對(duì)用戶所說(shuō)的順序或語(yǔ)言作出假設(shè)。換句話說(shuō),音素識(shí)別器150是相對(duì)粗的識(shí)別器,它沒(méi)有采用允許識(shí)別說(shuō)話的語(yǔ)言模型。
識(shí)別器150以統(tǒng)計(jì)的方式將講話的聲學(xué)表示與存儲(chǔ)在音素?cái)?shù)據(jù)庫(kù)160中的音素的聲學(xué)表示進(jìn)行比較。音素?cái)?shù)據(jù)庫(kù)160包含足夠大的一組音素及其聲學(xué)表示,以便有效描繪出在用戶語(yǔ)言中找到的聲音。音素識(shí)別器150將所接收講話的聲學(xué)表示與音素的聲學(xué)表示進(jìn)行統(tǒng)計(jì)比較以識(shí)別最佳匹配。它是采用被稱(chēng)為隱藏馬爾可夫模型(HMM)的公知技術(shù)來(lái)實(shí)現(xiàn)的,也可以采用其它將語(yǔ)音特征與所存儲(chǔ)的音素單位進(jìn)行比較的統(tǒng)計(jì)或非統(tǒng)計(jì)技術(shù)或模型。
音素識(shí)別器150將識(shí)別出的音素序列以索引或指針序列的形式輸出到其音素?cái)?shù)據(jù)庫(kù)中。也就是說(shuō),對(duì)于在識(shí)別出的音素串中的每個(gè)音素,音素識(shí)別器150在其音素?cái)?shù)據(jù)庫(kù)中找出表示該音素的特定索引或指針,并且它輸出該索引或指針。該輸出信號(hào)為口頭講話的非文本表示,在該情況中為音素串。該音素串的作用在于,在通信鏈路的接收端上的合成器能夠再現(xiàn)出構(gòu)成該講話的聲音序列,即它能夠如此再現(xiàn)該講話,從而它通常對(duì)于在另一端上的用戶是可識(shí)別的。但是,典型地,由于沒(méi)有進(jìn)行單詞識(shí)別,所以音素串不如文本那么易讀。
音素識(shí)別器150將該音素串存儲(chǔ)在用于也在蜂窩電話上運(yùn)行的SMS應(yīng)用程序180的緩沖器175中。SMS應(yīng)用程序180生成用于接收非文本表示的文本消息包,并且在其地址域寄存接收者電話的地址。在緩沖器175滿了或者講話完成時(shí),SMS應(yīng)用程序180將所存儲(chǔ)的音素串域表示該消息包含有打算用于在接收端上的合成器的非文本音素串的標(biāo)識(shí)符一起插入到SMS消息的主體中。實(shí)際上,該標(biāo)識(shí)符警告了在另一端上的SMS應(yīng)用程序不要如通常顯示給用戶的文本消息一樣除了該SMS的內(nèi)容。SMS應(yīng)用程序180然后通過(guò)SMS信道將SMS消息無(wú)線傳送給接收者的蜂窩電話。
音素識(shí)別器150在SMS緩沖器175中還存儲(chǔ)有其它信息,這些信息用來(lái)改善由接收者的蜂窩電話合成的聲音的質(zhì)量和/或可理解性。例如,它還規(guī)定了每個(gè)音素的時(shí)間長(zhǎng)度、其容量以及其它可以用來(lái)控制由在接收電話中的合成器所生成的聲音質(zhì)量。在所述的實(shí)施方案中,由于音素識(shí)別器150還識(shí)別出停頓,所以它截去那些識(shí)別出的停頓以節(jié)省表示該講話所需的空間。
采用音素識(shí)別算法,講話110通常能夠以大約每秒200-700比特或更小的速率壓縮成非文本表示170。在通過(guò)SMS網(wǎng)絡(luò)發(fā)送時(shí),該網(wǎng)絡(luò)在許多區(qū)域中其單個(gè)消息信息量限制為1200比特,這對(duì)應(yīng)于當(dāng)在接收蜂窩電話上播放時(shí)的大約10秒長(zhǎng)度的講話。
要指出的是,上述方案的可選方案可以是在講話上進(jìn)行完全語(yǔ)音識(shí)別并且在SMS消息主體中發(fā)送經(jīng)識(shí)別的文本消息。但是,這需要在電話上具有全容量識(shí)別器,并且具有包含有由這種電話所銷(xiāo)售的消費(fèi)者所說(shuō)的那種文字的字典的詞典。這是不切實(shí)際的,尤其在該電話打算在例如存在超過(guò)350種不同語(yǔ)言的印度這種市場(chǎng)種銷(xiāo)售的情況下是不切實(shí)際的。在這種環(huán)境種進(jìn)行語(yǔ)音識(shí)別的算法將完善和復(fù)雜;而且,進(jìn)行該語(yǔ)音識(shí)別所需的資源通常會(huì)超過(guò)在打算銷(xiāo)售給普通人群的廉價(jià)蜂窩電話上可用的資源。另一方面,與經(jīng)識(shí)別文本相反,只需要生成所說(shuō)的話的音素串表示的識(shí)別器構(gòu)造簡(jiǎn)單的多,并且所需的機(jī)上計(jì)算和存儲(chǔ)資源明顯更少。另外,尤其與進(jìn)行全語(yǔ)音識(shí)別所需的文字詞匯相比,支持音素識(shí)別所需的音素組較少。實(shí)際上,使用通用音素組將使得識(shí)別器能夠針對(duì)在這里所述的目的處理大多數(shù)語(yǔ)言。
還應(yīng)該指出的是,在音素識(shí)別器150以統(tǒng)計(jì)的方式將講話170的聲學(xué)表示的若干片段與音素的聲學(xué)表示匹配時(shí),最佳匹配音素偶爾會(huì)與講話不正確匹配。例如,識(shí)別器可能將“d”聲音解譯為“t”,因?yàn)樘卣魈崛∑?30針對(duì)這兩個(gè)聲音所獲得的特征是類(lèi)似的,使得兩個(gè)聲音中沒(méi)有一個(gè)在音素識(shí)別器150中比另一個(gè)聲音明顯更匹配。這些錯(cuò)誤在語(yǔ)音-文本識(shí)別上具有更大的不利影響,但是在這里所述的應(yīng)用中通常具有很小的不利影響。對(duì)于收聽(tīng)該合成音頻消息的人而言,在正在合成的音素串中存在這些錯(cuò)誤不會(huì)使播放內(nèi)容難以理解。實(shí)際上,它們甚至不會(huì)被注意到。
圖2顯示出高級(jí)方框圖,顯示出在SMS信道的接收者側(cè)上實(shí)現(xiàn)的功能。由接收者操作的蜂窩電話200接收包含有講話的非文本表示的SMS消息,并且SMS應(yīng)用程序280處理該消息以便呈現(xiàn)給用戶。在所接收到的SMS消息內(nèi)的標(biāo)識(shí)符將該SMS消息的內(nèi)容識(shí)別為必須由合成器處理以生成音頻信號(hào)的音素串。換句話說(shuō),該標(biāo)識(shí)符使得SMS應(yīng)用程序與僅僅將消息內(nèi)容顯示給用戶的正常文本消息不同的方式處理該消息。SMS應(yīng)用程序280將該音素串與任意所存儲(chǔ)的提供用來(lái)控制合成器220以及它產(chǎn)生聲音的方式的參數(shù)一起傳送給在蜂窩電話內(nèi)的合成器220。與發(fā)送者的蜂窩電話一樣,接收者的蜂窩電話也包含音素及其聲學(xué)表示的數(shù)據(jù)庫(kù)。構(gòu)成所接收的音素串的索引或指針識(shí)別出數(shù)據(jù)庫(kù)中的哪些音素將要被合成,以將音素串組成到音頻消息中。合成器通過(guò)蜂窩電話揚(yáng)聲器播放代表音素串的聲音序列。這樣,口頭講話通過(guò)SMS消息設(shè)施非實(shí)時(shí)地傳送給接收者。
在適當(dāng)?shù)那闆r下,可以將SMS應(yīng)用程序編程以生成多個(gè)SMS消息序列以處理更長(zhǎng)的講話,對(duì)于該講話而言非文本表示將不能配合到單個(gè)消息主體中。其實(shí),SMS應(yīng)用程序?qū)⒁羲卮按虬辈⑶覍⒍鄠€(gè)SMS消息(或數(shù)據(jù)包)發(fā)送給接受者的蜂窩電話,每個(gè)消息包含有整個(gè)講話的一部分。給每個(gè)消息加上索引或標(biāo)簽,從而在接收者上的SMS可以精確重構(gòu)講話的完整表示。在該連接的接收者上的SMS應(yīng)用程序也需要編程以識(shí)別出所接收到的非文本表示將要通過(guò)將一個(gè)以上SMS消息的內(nèi)容串起來(lái)而構(gòu)成。
在上述實(shí)施方案中,用來(lái)表示講話的語(yǔ)音單元為音素。但是,可以采用音素以外的多種其它符號(hào)組的任一種。例如,這些符號(hào)可以為雙音素、三音素、音節(jié)、半音節(jié)(demisyllable),或者任意其它用來(lái)有效表示包含在所期望用戶的口頭講話內(nèi)的聲音的字符集。
對(duì)于目標(biāo)定位于特定市場(chǎng)的應(yīng)用而言,可以將選擇用來(lái)最優(yōu)表示在那個(gè)市場(chǎng)中所使用的語(yǔ)言的定制的音素單元詞匯??蛇x的是,可以使用通用音素集,這將使得電話能夠識(shí)別并且表示大部分語(yǔ)言。
如上所述,音素識(shí)別器沒(méi)有包括全部語(yǔ)言模型,實(shí)際上也許根本沒(méi)有包括任何語(yǔ)言模型。其功能在于簡(jiǎn)單地識(shí)別出在講話內(nèi)的聲音。為此,不必識(shí)別出其含義。因此由識(shí)別器生成的所得到的表示是用戶很可能無(wú)法閱讀的非文本表示。但是,這并不意味所選擇的符號(hào)集可能不包括該符號(hào)集當(dāng)中的詞語(yǔ)。例如短的單音節(jié)詞可能是所選符號(hào)集當(dāng)中的符號(hào)或單元。
結(jié)果,音素識(shí)別算法生成口頭講話的壓縮形式。在所述實(shí)施方案中,該壓縮形式為非文本表示(即,音素串)。實(shí)際上,也可以采用其它算法,這些算法僅僅進(jìn)行壓縮而沒(méi)有進(jìn)行任何識(shí)別。例如,不使用音素識(shí)別器,可以使用聲音合成機(jī)(vocoder)來(lái)生成壓縮表示,然后將該壓縮表示插入到SMS消息的主體中。換句話說(shuō),可以采用用來(lái)生成適于通過(guò)SMS或另一條非話音信道發(fā)送的非文本表示的任意算法。理想的是,所選的算法能夠充分壓縮語(yǔ)音,從而可以發(fā)送足夠長(zhǎng)以輸送有意義的信息的講話。在接收端上,需要應(yīng)用適當(dāng)?shù)慕鈮嚎s算法來(lái)重建口頭講話的音頻形式。
可以將各種特征加入到該系統(tǒng)中以提高可用性。如上所述,一個(gè)這種特征在于給予發(fā)送用戶選擇“話音”的選項(xiàng),在該話音中接收電話給接收用戶播放音頻消息。通過(guò)將表示“話音”參數(shù)的附加字符串加入到講話的非文本表示中來(lái)實(shí)現(xiàn)該特征,該字符串向合成算法給出指令。用戶能夠通過(guò)在電話上的菜單驅(qū)動(dòng)界面來(lái)選擇和/或調(diào)節(jié)這些參數(shù)。這些參數(shù)可以用來(lái)將合成算法定制為產(chǎn)生所期望的效果。同樣,可以包括針對(duì)播放速度或?qū)κ怪ζ饋?lái)更自然的音頻消息的其它改變或者發(fā)送用戶的更多表示的參數(shù)??梢詰?yīng)用在該系統(tǒng)中的另一個(gè)特征是針對(duì)發(fā)送和接收用戶的音頻提示向?qū)В@能夠更好地使得沒(méi)有文化用戶操作該系統(tǒng)。在該情況中,兩個(gè)電話存儲(chǔ)有許多預(yù)記錄消息例如“請(qǐng)?jiān)趩魡袈曋笥涗洝?,“輸入你想要發(fā)送的人的電話號(hào)碼”等。電話響應(yīng)于用戶輸入以音頻的方式播放適當(dāng)?shù)南ⅰ?br>
能夠應(yīng)用在該系統(tǒng)中的另一個(gè)特征是允許用戶在講話長(zhǎng)度和再現(xiàn)質(zhì)量之間區(qū)分優(yōu)先次序。在該情況中,電話可以存儲(chǔ)多個(gè)算法,這些算法允許改變講話的非文本表示的長(zhǎng)度和質(zhì)量。在用戶記錄講話之前,電話給用戶提供長(zhǎng)度/質(zhì)量選擇。用戶口頭地或者通過(guò)電話鍵盤(pán)輸入其應(yīng)答;然后電話采用與用戶指令對(duì)應(yīng)的算法來(lái)處理該講話。電話然后加入一系列字符,從而針對(duì)如何從講話的非文本表示合成消息向接收電話給出指令。
在所述實(shí)施方案中,蜂窩電話為智能電話300,例如由圖3的高級(jí)功能框圖所示的那種。智能電話300為Microsoft PocketPC支持的電話,其核心包括用于處理蜂窩通信功能的基帶DSP302(例如包括話音頻帶和信道編碼功能)以及PocketPC操作系統(tǒng)在其上運(yùn)行的應(yīng)用處理器304(例如,Intel StrongArm SA-1110)。該電話支持GSM話音呼叫,SMS(短消息服務(wù))發(fā)送文本消息、無(wú)線電子郵件和桌面式網(wǎng)頁(yè)瀏覽以及更多的傳統(tǒng)PDA特征。
通過(guò)RF合成器306和RF無(wú)線電收發(fā)器308以及后面的用來(lái)通過(guò)天線312處理最終階段RF發(fā)射負(fù)載的功率放大器模塊310來(lái)實(shí)現(xiàn)發(fā)送和接收功能。接口ASIC(專(zhuān)用集成電路)314和音頻編解碼器316給揚(yáng)聲器、麥克風(fēng)和其它設(shè)在電話中的輸入/輸出裝置例如用于輸入指令和信息的數(shù)字或字母鍵盤(pán)(未示出)提供接口。DSP302使用閃存318來(lái)進(jìn)行代碼存儲(chǔ)。Li離子(鋰離子)電池320給電話供電,并且與DS P302連接的電源管理模塊322管理了在電話內(nèi)的電源消耗。用于應(yīng)用程序處理器114的易失性和非易失性存儲(chǔ)器分別以SDRAM324和閃存326形式提供。存儲(chǔ)器的這種布置用來(lái)保持用于操作系統(tǒng)的代碼、用于可定制特征例如電話號(hào)碼簿的代碼以及用于可以包括在該智能電話中的任意應(yīng)用程序軟件的代碼,例如上述音素識(shí)別、合成器和SMS應(yīng)用程序代碼。它還存儲(chǔ)有音素?cái)?shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包括音素、音素的聲學(xué)表示和代表音素的符號(hào)。
用于該智能電話的視覺(jué)顯示裝置包括用來(lái)驅(qū)動(dòng)LCD顯示器330的LCD驅(qū)動(dòng)器芯片328。還有時(shí)間模塊332,用來(lái)為在電話內(nèi)的其它器件提供時(shí)鐘信號(hào)并且提供實(shí)時(shí)指示符。
所有上述部件包裝在適當(dāng)設(shè)計(jì)的外殼334內(nèi)。由于上述智能收集代表許多不同市售電話的總體內(nèi)部結(jié)構(gòu)并且由于那些電話的內(nèi)部電路設(shè)計(jì)通常對(duì)于本領(lǐng)域普通技術(shù)人員是已知的,所以有關(guān)在圖3中所示的那些部件及其操作的其它細(xì)節(jié)并沒(méi)有提供,并且對(duì)于理解本發(fā)明而言不是必須的。
一般來(lái)說(shuō),該設(shè)備根本不必是蜂窩電話,而是具有接收講話、將它轉(zhuǎn)換成講話的非文本表示并且通過(guò)SMS或另一條非話音信道發(fā)送它的功能。例如,也可以應(yīng)用具有麥克風(fēng)的膝上型計(jì)算機(jī)、用于生成講話的非文本表示的適當(dāng)軟件以及利用SMS協(xié)議和頻率的無(wú)線發(fā)射器或任意其它具有類(lèi)似功能的設(shè)備。
雖然在上面實(shí)施例中給出了SMS網(wǎng)絡(luò),但是也可以采用人們通過(guò)它可以發(fā)送除了話音之外的文本、數(shù)據(jù)和/或媒體的任意網(wǎng)絡(luò)。例如,人們也可以采用MMS(多媒體服務(wù))消息發(fā)送信道。
還有,上述MEL對(duì)數(shù)逆譜編碼技術(shù)僅僅是許多已知用于提取并且表示所接收到的講話的特征的可選方案的一個(gè)例子。代替MEL對(duì)數(shù)逆譜編碼技術(shù),可以采用其它已知技術(shù)中的任一種例如LPC對(duì)數(shù)逆譜系數(shù)??梢杂脕?lái)產(chǎn)生非文本表示的兩種編碼技術(shù)的例子為(1)TakashiMasuko,Keiichi Tokuda,Takao Kobayashi,在1998 ICASSP處發(fā)表的論文“A Very Low Bit Rate Speech Coder Using HMM with SpeakerAdaptation”以及在2001年12月出版的Systems and Co mputers inJapan,卷32中出現(xiàn)的版本;以及(2)在下面URLhttp://www.geocities.com/virag81/docs.html處的網(wǎng)頁(yè)上找到的M.Habibullah Pagarkar,Lakshmi Gopalakrishnan,Nimish Sheth,Rizwana Shaikh,Virag Shah,“Language Independent SpeechCompression Using Devanagari Phonetics”,這兩篇文獻(xiàn)在這里被引用作為參考。
其它方面、變體和實(shí)施方案都在所附權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種經(jīng)由移動(dòng)通信設(shè)備發(fā)送話音消息的方法,所述方法包括接收來(lái)自移動(dòng)通信設(shè)備的用戶的講話;生成所接收的講話的非文本表示;將該非文本表示的至少一部分插入到文本消息的主體中;以及通過(guò)無(wú)線消息發(fā)送信道,將所述文本消息從所述移動(dòng)通信設(shè)備發(fā)送到接收者的設(shè)備。
2.如權(quán)利要求1所述的方法,其中所述移動(dòng)通信設(shè)備是蜂窩電話。
3.如權(quán)利要求1所述的方法,其中,插入所述非文本表示的至少一部分的步驟涉及將所有非文本表示插入到文本消息的主體中。
4.如權(quán)利要求1所述的方法,其中,生成所接收講話的非文本表示的步驟涉及對(duì)從所接收的講話中獲得的信號(hào)進(jìn)行識(shí)別以生成符號(hào)串,其中符號(hào)串為所述非文本表示。
5.如權(quán)利要求4所述的方法,其中,所述符號(hào)串中的符號(hào)選自音素、雙音素、三音素、音節(jié)和半音節(jié)構(gòu)成的組。
6.如權(quán)利要求4所述的方法,其中,所述識(shí)別為音素識(shí)別,并且在所生成的符號(hào)串中的符號(hào)為音素。
7.如權(quán)利要求1所述的方法,其中,生成所接收講話的非文本表示的步驟涉及對(duì)從所接收的講話中獲得的信號(hào)進(jìn)行音素識(shí)別,以生成音素串,其中音素串為所述非文本表示。
8.如權(quán)利要求1所述的方法,其中,所述無(wú)線消息發(fā)送信道為SMS信道,并且所述文本消息為SMS消息。
9.如權(quán)利要求1所述的方法,還包括包括文本消息所帶的指示符,用于標(biāo)識(shí)別該文本消息包含講話的非文本表示。
10.如權(quán)利要求1所述的方法,其中,所述非文本表示是所接收的講話的壓縮形式。
11.如權(quán)利要求1所述的方法,還包括將非文本表示分成多個(gè)部分,并且將每個(gè)部分插入到多個(gè)文本消息的不同相應(yīng)文本消息的主體中,其中首先提到的文本消息為所述多個(gè)文本消息中的一個(gè),并且還包括通過(guò)無(wú)線消息發(fā)送信道將多個(gè)文本消息從移動(dòng)通信設(shè)備發(fā)送到接收者的設(shè)備。
12.一種操作移動(dòng)通信設(shè)備的方法,所述方法包括在無(wú)線消息發(fā)送信道上接收文本消息,其中該文本消息包含講話的非文本表示;從所述文本消息中提取所述非文本表示;由所述非文本表示合成口頭講話的音頻表示;以及通過(guò)所述移動(dòng)通信設(shè)備上的音頻輸出裝置播放合成的音頻表示。
13.如權(quán)利要求12所述的方法,其中所述移動(dòng)通信設(shè)備為蜂窩電話。
14.如權(quán)利要求12所述的方法,其中,所述講話的非文本表示是代表該講話的聲音的符號(hào)串。
15.如權(quán)利要求14所述的方法,其中,符號(hào)串中的符號(hào)選自音素、雙音素、三音素、音節(jié)和半音節(jié)構(gòu)成的組。
16.如權(quán)利要求14所述的方法,其中,符號(hào)串中的符號(hào)為音素。
17.如權(quán)利要求12所述的方法,其中,所述無(wú)線消息發(fā)送信道為SMS信道,所述文本消息為SMS消息。
18.如權(quán)利要求12所述的方法,其中,所接收的文本消息包括指示符,用于標(biāo)識(shí)該文本消息包含講話的非文本表示。
19.如權(quán)利要求12所述的方法,其中,所述非文本表示為講話的壓縮形式。
20.如權(quán)利要求12所述的方法,還包括通過(guò)無(wú)線消息發(fā)送信道接收除了首先提到的文本消息之外的多個(gè)文本消息,所述首先提到的文本消息和所述多個(gè)文本消息形成一組文本消息,其中該組文本消息中的每個(gè)文本消息都包含講話的不同部分的非文本表示;從多個(gè)文本消息中提取非文本表示;以及由提取自該組文本消息的非文本表示合成口頭講話的音頻表示。
21.一種用于發(fā)送話音消息的移動(dòng)通信設(shè)備,所述移動(dòng)通信設(shè)備包括處理器系統(tǒng);用于接收來(lái)自移動(dòng)通信設(shè)備用戶的講話的麥克風(fēng);收發(fā)器;以及存儲(chǔ)有代碼的存儲(chǔ)器,該代碼當(dāng)在處理器系統(tǒng)上執(zhí)行時(shí)使得該移動(dòng)通信設(shè)備生成所接收講話的非文本表示;將該非文本表示插入到文本消息的主體中;以及經(jīng)由所述收發(fā)器,通過(guò)無(wú)線消息發(fā)送信道將所述文本消息從該移動(dòng)通信設(shè)備發(fā)送到接收者的設(shè)備。
22.一種用于接收話音消息的移動(dòng)通信設(shè)備,所述移動(dòng)通信設(shè)備包括處理器系統(tǒng);收發(fā)器,用于接收包含講話的非文本表示的文本消息;音頻輸出裝置;和存儲(chǔ)有代碼的存儲(chǔ)器,該代碼當(dāng)在處理器系統(tǒng)上執(zhí)行時(shí)使得該移動(dòng)通信設(shè)備從接收到的文本消息中提取非文本表示;由該非文本表示合成口頭講話的音頻表示;以及通過(guò)音頻輸出裝置播放合成的音頻表示。
全文摘要
一種通過(guò)移動(dòng)通信設(shè)備發(fā)送話音消息的方法,該方法包括接收來(lái)自移動(dòng)通信設(shè)備用戶的講話;生成所接收講話的非文本表示;將非文本表示插入到文本消息的主體中;并且在無(wú)線消息發(fā)送信道上將文本消息從移動(dòng)通信設(shè)備發(fā)送到接收者的設(shè)備。
文檔編號(hào)G10L15/02GK101095287SQ200580016369
公開(kāi)日2007年12月26日 申請(qǐng)日期2005年4月20日 優(yōu)先權(quán)日2004年4月20日
發(fā)明者丹尼爾·L.·羅森 申請(qǐng)人:語(yǔ)音信號(hào)科技公司