專(zhuān)利名稱(chēng):應(yīng)用標(biāo)記語(yǔ)言的自然語(yǔ)言表達(dá)方法
技術(shù)領(lǐng)域:
本發(fā)明的技術(shù)領(lǐng)域涉及人的語(yǔ)音,特別是涉及人的語(yǔ)音的編碼方法。
人的語(yǔ)音的編碼方法是公知的。一種方法是使用字母表中的字母,以文本信息的形式對(duì)人的語(yǔ)音進(jìn)行編碼。這類(lèi)文本信息被編碼并可使用反差墨載于紙上或其他各種介質(zhì)上。例如,人的語(yǔ)音可首先以文本格式編碼,然后轉(zhuǎn)換成ASCII格式后作為二進(jìn)制信息存儲(chǔ)在計(jì)算機(jī)中。
文本信息的編碼一般是較有效的處理。但是文本信息往往無(wú)法反映出語(yǔ)音的全部?jī)?nèi)容或意義。例如,句子“Get out of my way”可以解釋為一種請(qǐng)求(請(qǐng)讓一下路)或是一種威脅(滾開(kāi)!)。當(dāng)把該句子記錄成文本信息時(shí),閱讀者在大多數(shù)情況下沒(méi)有足夠信息識(shí)別所傳遞的意義。
但是,如句子“Get out of my way”是直接聽(tīng)講話人說(shuō)出,聽(tīng)者或許能確定該句子所要表達(dá)的意義。例如,如該句子大聲說(shuō)出,其音量或許使該句子透露出威脅。相反,如該句子小聲說(shuō)出,其音量透露出對(duì)聽(tīng)者的請(qǐng)求。
遺憾的是,只有記錄語(yǔ)音的頻譜才能抓住詞句的含義。但是,由于所需的帶寬,對(duì)頻譜的記錄是難以實(shí)現(xiàn)的。由于語(yǔ)音的重要性,因此需要有一種方法來(lái)記錄實(shí)質(zhì)上是文本的語(yǔ)音,但又能抓住詞句的含義。
本發(fā)明的目的是提供一種用于對(duì)口頭語(yǔ)言編碼的方法和設(shè)備。
本發(fā)明之方法包括下列步驟識(shí)別口頭語(yǔ)言的詞句內(nèi)容,測(cè)量所識(shí)別之詞句內(nèi)容的屬性,對(duì)所識(shí)別和測(cè)量的詞句內(nèi)容編碼。
以下結(jié)合附圖和優(yōu)選實(shí)施例說(shuō)明本發(fā)明。
圖1為本發(fā)明一實(shí)施例的語(yǔ)言編碼系統(tǒng)的方框圖;圖2為圖1之系統(tǒng)的一處理器的方框圖;以及圖3為圖1之系統(tǒng)可使用的處理步驟的流程圖。
圖1為用于口頭(即自然)語(yǔ)言編碼之系統(tǒng)10的概括的方框圖。圖3描述了圖1之系統(tǒng)10可使用的處理步驟的流程圖。在所示實(shí)施例中,語(yǔ)音由一麥克風(fēng)12檢測(cè)后,在一模擬/數(shù)字(A/D)轉(zhuǎn)換器14中轉(zhuǎn)換成數(shù)字采樣100及在一中央處理器(CPU)18中處理。
在CPU18中進(jìn)行的處理可以包括詞句內(nèi)容的識(shí)別104,或者更準(zhǔn)確地說(shuō)是語(yǔ)音元素(例如音素、語(yǔ)素、單詞、句子、語(yǔ)法上的詞尾變化等)的識(shí)別,以及與所識(shí)別單詞或語(yǔ)音元素的使用有關(guān)的詞句屬性的測(cè)量102。在本文中,識(shí)別詞句內(nèi)容(即語(yǔ)音元素)是指識(shí)別可被理解的、以表示該語(yǔ)音元素的字符或字符序列(例如,包括字母及數(shù)字混編的文本序列)。此外,口頭語(yǔ)言的屬性指口頭語(yǔ)言的可測(cè)量附帶內(nèi)容(例如音色、幅度等)。屬性的測(cè)量還可包括測(cè)量與一語(yǔ)音元素的使用有關(guān)的任何特性,通過(guò)該語(yǔ)音元素可進(jìn)一步確定該語(yǔ)音的意義(例如主頻率、單詞或音節(jié)速率、詞尾變化、停頓、音量、功率、音調(diào)、背景噪聲等)。
一旦完成識(shí)別,語(yǔ)音連同語(yǔ)音屬性可被編碼并存儲(chǔ)在一存儲(chǔ)器16中,也可把原始口頭語(yǔ)言?xún)?nèi)容還原后傳給當(dāng)?shù)鼗蜻h(yuǎn)處的聽(tīng)者。所識(shí)別的語(yǔ)音和語(yǔ)音屬性可用任何格式編碼以存儲(chǔ)和/或傳輸,但在優(yōu)選實(shí)施例中,用ASCII格式編碼的所識(shí)別語(yǔ)音元素與用標(biāo)記語(yǔ)言(mark-up language)格式編碼的屬性交織在一起。
另一方法是,所識(shí)別的語(yǔ)音和屬性也可作為一復(fù)合文件的獨(dú)立子文件存儲(chǔ)或傳輸。以獨(dú)立子文件存儲(chǔ)時(shí),可把一共同時(shí)基編碼入該整個(gè)復(fù)合文件結(jié)構(gòu)中,使得屬性與所識(shí)別語(yǔ)音的對(duì)應(yīng)元素匹配。
在所示實(shí)施例中,以后可從存儲(chǔ)器16中檢索出語(yǔ)音,并在當(dāng)?shù)鼗蜻h(yuǎn)處還原,采用所識(shí)別的語(yǔ)音元素和屬性以真實(shí)地還原原始口頭語(yǔ)言?xún)?nèi)容。此外,在還原過(guò)程中可改變語(yǔ)音的屬性和詞尾變化,以與表現(xiàn)要求匹配。
在所示實(shí)施例中,由一運(yùn)行在CPU18中的語(yǔ)音識(shí)別(SR)應(yīng)用程序24可以實(shí)現(xiàn)語(yǔ)音元素的識(shí)別。該SR應(yīng)用程序可用來(lái)確定各單詞,該應(yīng)用程序24還可提供識(shí)別語(yǔ)音元素(即音素)的系統(tǒng)設(shè)定選項(xiàng)。
在識(shí)別單詞時(shí),CPU18可用來(lái)存儲(chǔ)作為文本信息的各字詞。當(dāng)對(duì)特殊單詞或句子無(wú)法進(jìn)行單詞識(shí)別時(shí),使用國(guó)際語(yǔ)音字符表下的合適符號(hào),其聲音可作為語(yǔ)音表達(dá)式存儲(chǔ)。無(wú)論何種情況,可在存儲(chǔ)器16中存儲(chǔ)所識(shí)別的詞句內(nèi)容的聲音的一連續(xù)表達(dá)式。
在單詞識(shí)別的同時(shí)還可采集語(yǔ)音屬性。例如,一時(shí)鐘30可被用于提供標(biāo)記,該標(biāo)記可被插入在所識(shí)別單詞之間或插入停頓之中(例如,用于時(shí)間同步信息的SMPTE標(biāo)識(shí)符)??捎靡环扔?jì)26測(cè)量語(yǔ)音元素的音量。
作為本發(fā)明另一個(gè)特征,采用提供一個(gè)或多個(gè)快速傅立葉變換(FFT)值的一FFT應(yīng)用程序28可處理語(yǔ)音元素。由FFT應(yīng)用程序28,可獲得每一單詞的頻譜分布圖。從該頻譜分布圖可獲得每一單詞或語(yǔ)音元素的主頻率或頻譜內(nèi)容的分布圖,作為語(yǔ)音屬性。該主頻率和各副諧波提供一可識(shí)別的諧波特征,該特征在任何還原語(yǔ)音段中可用來(lái)確定講話者。
在所示實(shí)施例中,所識(shí)別的語(yǔ)音元素可編碼成ASCII字符。語(yǔ)音屬性可在一編碼應(yīng)用程序36中使用標(biāo)準(zhǔn)標(biāo)記語(yǔ)言(例如,可擴(kuò)充標(biāo)記語(yǔ)言XML、標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言SGML等)和標(biāo)記插入指示符(例如括號(hào))編碼。
此外,可根據(jù)所涉及的屬性進(jìn)行標(biāo)記插入。例如,僅當(dāng)幅度從原先測(cè)量值有所改變時(shí)可以插入幅度。僅當(dāng)發(fā)生某些改變或檢測(cè)到音調(diào)的某種頻譜組合或改變時(shí)才插入主頻率。可定期插入時(shí)間,也可每當(dāng)檢測(cè)到停頓時(shí)插入時(shí)間。在檢測(cè)到一停頓時(shí),時(shí)間可被插入在該停頓開(kāi)始或結(jié)束處。
作為一具體例子,一使用者可對(duì)著麥克風(fēng)12說(shuō)“Hello,this isJohn”。該句子的聲音在A/D轉(zhuǎn)換器14中被轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù)流并在CPU18中編碼。該句子的所識(shí)別單詞和所測(cè)量屬性可被編碼,成為在該復(fù)合數(shù)據(jù)流中文本與屬性的復(fù)合體,如下<T:0.0><幅度A1><主頻率127Hz>Hello<T0.25><T:0.5>thisis John<幅度A2>John。
該句子的第一標(biāo)記元素“<T:0.0>”可用作一初始時(shí)標(biāo)。第二標(biāo)記元素“<幅度A1>”提供第一個(gè)言詞“Hello”的音量大小。第三標(biāo)記元素“<主頻率127Hz>”指示第一個(gè)言詞“Hello”的音調(diào)。
第四和第五標(biāo)記元素“<T:0.25>”和“<T:0.5>”指示詞之間的停頓長(zhǎng)度。第六標(biāo)記元素“<幅度A2>”指示語(yǔ)音幅度的變化和對(duì)“this is”與“John”之間音量變化的測(cè)量。
在對(duì)文本和屬性編碼后,該復(fù)合數(shù)據(jù)流可作為一復(fù)合數(shù)據(jù)文件24存儲(chǔ)在存儲(chǔ)器16中。在合適條件下,該復(fù)合文件24可被檢索出來(lái)并經(jīng)一揚(yáng)聲器22還原。
在檢索后,該復(fù)合文件24可傳給一語(yǔ)音合成器34。在該語(yǔ)音合成器中,文本中的單詞可用作進(jìn)入一查找表的一搜索項(xiàng),以生成該文本單詞的發(fā)聲。這些標(biāo)記元素可用來(lái)控制這些單詞經(jīng)揚(yáng)聲器的還原。
例如,可用與幅度有關(guān)的標(biāo)記元素控制音量。根據(jù)所發(fā)聲音的主頻率,可用主頻率把所發(fā)聲音控制成男聲或女聲的聽(tīng)覺(jué)??捎门c時(shí)間有關(guān)的標(biāo)記元素控制發(fā)聲的時(shí)間。
在所示實(shí)施例中,由復(fù)合文件復(fù)制語(yǔ)音,允許所編碼聲音的復(fù)制的形態(tài)被改變。例如,可通過(guò)改變主頻率來(lái)改變發(fā)聲的性別。提高主頻率可使男聲變?yōu)榕?。降低主頻率可使女聲變?yōu)槟新暋?br>
以上為了說(shuō)明本發(fā)明的實(shí)施及其使用方式,描述了口頭語(yǔ)言編碼方法和設(shè)備的一具體實(shí)施例。可以理解的是,本領(lǐng)域普通技術(shù)人員顯然可對(duì)本發(fā)明及其各方面實(shí)現(xiàn)其它的變化和修改,本發(fā)明不限于所述實(shí)施例。因此,本發(fā)明包括落在所公開(kāi)和要求權(quán)利要求的基本原理的精神和范圍內(nèi)的任何和所有修改、變化或等同物。
權(quán)利要求
1.一種應(yīng)用的口頭語(yǔ)言的表達(dá)(communicating)方法,包括下列步驟識(shí)別該口頭語(yǔ)言的詞句內(nèi)容;測(cè)量所識(shí)別之詞句內(nèi)容的屬性;以及對(duì)所識(shí)別和測(cè)量的詞句內(nèi)容編碼。
2.按權(quán)利要求1所述的表達(dá)方法,其中的編碼步驟進(jìn)一步包括交織所識(shí)別的詞句內(nèi)容與所測(cè)量的屬性。
3.按權(quán)利要求2所述的表達(dá)方法,其中,該交織所識(shí)別的詞句內(nèi)容與所測(cè)量的屬性的步驟進(jìn)一步包括使用標(biāo)記語(yǔ)言把所識(shí)別詞句內(nèi)容和已編碼的所測(cè)量屬性區(qū)別開(kāi)。
4.按權(quán)利要求1所述的表達(dá)方法,其中,該識(shí)別該口頭語(yǔ)言的詞句內(nèi)容的步驟進(jìn)一步包括識(shí)別該口頭語(yǔ)言的單詞。
5.按權(quán)利要求4所述的表達(dá)方法,其中,該識(shí)別該口頭語(yǔ)言的單詞的步驟進(jìn)一步包括把具體的字母及數(shù)字混編序列與所識(shí)別單詞相關(guān)聯(lián)。
6.按權(quán)利要求1所述的表達(dá)方法,其中,該識(shí)別口頭語(yǔ)言之詞句內(nèi)容的步驟進(jìn)一步包括識(shí)別該口頭語(yǔ)言的語(yǔ)音。
7.按權(quán)利要求6所述的表達(dá)方法,其中,該識(shí)別口頭語(yǔ)言的語(yǔ)音的步驟進(jìn)一步包括把具體的字母及數(shù)字混編序列與所識(shí)別的語(yǔ)音相關(guān)聯(lián)。
8.按權(quán)利要求1所述的表達(dá)方法,其中,該測(cè)量屬性的步驟進(jìn)一步包括測(cè)量該口頭語(yǔ)言中的音色、幅度、FFT值、功率、頻率、音調(diào)、停頓、背景噪聲和音節(jié)速度中的至少一個(gè)元素。
9.按權(quán)利要求8所述的表達(dá)方法,其中,該測(cè)量口頭語(yǔ)言中的音色、幅度、FFT值、功率、頻率、音調(diào)、停頓、背景噪聲和音節(jié)速度的至少一個(gè)元素的步驟進(jìn)一步包括用標(biāo)記語(yǔ)言格式對(duì)所測(cè)量的至少一個(gè)屬性進(jìn)行編碼。
10.按權(quán)利要求9所述的表達(dá)方法,其中,所測(cè)量元素進(jìn)一步包括該口頭語(yǔ)言的單詞。
11.按權(quán)利要求9所述的表達(dá)方法,其中,所測(cè)量元素進(jìn)一步包括該口頭語(yǔ)言的語(yǔ)音。
12.按權(quán)利要求1所述的表達(dá)方法,進(jìn)一步包括由該口頭語(yǔ)言已編碼之所識(shí)別和測(cè)量的屬性中真實(shí)地還原該口頭語(yǔ)言?xún)?nèi)容。
13.按權(quán)利要求12所述的表達(dá)方法,進(jìn)一步包括改變所還原之口頭語(yǔ)言聽(tīng)覺(jué)上的發(fā)聲性別。
14.按權(quán)利要求1所述的表達(dá)方法,進(jìn)一步包括存儲(chǔ)所編碼的詞句內(nèi)容。
15.按權(quán)利要求1所述的表達(dá)方法,進(jìn)一步包括以音頻形式還原所編碼的詞句內(nèi)容。
16.一種用于表達(dá)應(yīng)用的口頭語(yǔ)言的設(shè)備,該設(shè)備包括識(shí)別該口頭語(yǔ)言的詞句內(nèi)容的裝置;測(cè)量所識(shí)別之詞句內(nèi)容的屬性的裝置;以及對(duì)所識(shí)別和測(cè)量的詞句內(nèi)容編碼的裝置。
17.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,其中,該編碼裝置進(jìn)一步包括交織所識(shí)別之詞句內(nèi)容與所測(cè)量屬性的裝置。
18.按權(quán)利要求17所述的用于表達(dá)的設(shè)備,其中,用于交織所識(shí)別詞句內(nèi)容與所測(cè)量屬性的裝置進(jìn)一步包括使用標(biāo)記語(yǔ)言把所識(shí)別之詞句內(nèi)容與已編碼的所測(cè)量屬性區(qū)別開(kāi)的裝置。
19.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,其中,用于識(shí)別該口頭語(yǔ)言之詞句內(nèi)容的裝置進(jìn)一步包括用于識(shí)別該口頭語(yǔ)言的單詞的裝置。
20.按權(quán)利要求19所述的用于表達(dá)的設(shè)備,其中,用于識(shí)別該口頭語(yǔ)言的單詞的裝置進(jìn)一步包括把具體的字母序列和所識(shí)別單詞相關(guān)聯(lián)的裝置。
21.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,其中,用于識(shí)別該口頭語(yǔ)言的詞句內(nèi)容的裝置進(jìn)一步包括識(shí)別該口頭語(yǔ)言的語(yǔ)音的裝置。
22.按權(quán)利要求21所述的用于表達(dá)的設(shè)備,其中,用于識(shí)別該口頭語(yǔ)言的語(yǔ)音的裝置進(jìn)一步包括把具體的字母序列與所識(shí)別的語(yǔ)音相關(guān)聯(lián)的裝置。
23.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,其中,該測(cè)量屬性的裝置進(jìn)一步包括測(cè)量該口頭語(yǔ)言中的音色、幅度、FFT值、功率、頻率、音調(diào)、停頓、背景噪聲和音節(jié)速度中至少一個(gè)元素的裝置。
24.按權(quán)利要求23所述的用于表達(dá)的設(shè)備,其中,用于測(cè)量該口頭語(yǔ)言中的音色、幅度、FFT值、功率、頻率、音調(diào)、停頓、背景噪聲和音節(jié)速度中的至少一個(gè)元素的裝置進(jìn)一步包括用標(biāo)記語(yǔ)言格式對(duì)所測(cè)量的至少一個(gè)屬性進(jìn)行編碼的裝置。
25.按權(quán)利要求24所述的用于表達(dá)的設(shè)備,其中,所測(cè)量元素進(jìn)一步包括該口頭語(yǔ)言的單詞。
26.按權(quán)利要求24所述的用于表達(dá)的設(shè)備,其中,所測(cè)量元素進(jìn)一步包括該口頭語(yǔ)言的語(yǔ)音。
27.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,進(jìn)一步包括用于由該口頭語(yǔ)言已編碼之所識(shí)別和測(cè)量的屬性中真實(shí)地還原該口頭語(yǔ)言?xún)?nèi)容的裝置。
28.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,進(jìn)一步包括用于改變所還原之口頭語(yǔ)言聽(tīng)覺(jué)上的發(fā)聲性別的裝置。
29.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,進(jìn)一步包括存儲(chǔ)所編碼詞句內(nèi)容的裝置。
30.按權(quán)利要求16所述的用于表達(dá)的設(shè)備,進(jìn)一步包括以音頻形式還原所編碼的詞句內(nèi)容的裝置。
31.一種用于表達(dá)應(yīng)用的口頭語(yǔ)言的設(shè)備,該設(shè)備包括一語(yǔ)音識(shí)別模塊,適用于識(shí)別該口頭語(yǔ)言的詞句內(nèi)容;一屬性測(cè)量應(yīng)用程序,適用于測(cè)量所識(shí)別之詞句內(nèi)容的屬性;以及一編碼器,適用于對(duì)所識(shí)別和測(cè)量的詞句內(nèi)容編碼。
32.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,其中,該編碼器進(jìn)一步包括適用于交織所識(shí)別的詞句內(nèi)容與所測(cè)量屬性的交織處理器。
33.按權(quán)利要求32所述的用于表達(dá)的設(shè)備,其中,該交織處理器進(jìn)一步包括一標(biāo)記處理器,該處理器適用于使用標(biāo)記語(yǔ)言把所識(shí)別詞句內(nèi)容和已編碼的所測(cè)量屬性區(qū)別開(kāi)。
34.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,其中,該語(yǔ)音識(shí)別模塊進(jìn)一步包括適于識(shí)別該口頭語(yǔ)言的語(yǔ)音的語(yǔ)音翻譯器。
35.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,其中,該屬性測(cè)量應(yīng)用程序進(jìn)一步包括一計(jì)時(shí)程序。
36.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,其中,該屬性測(cè)量應(yīng)用程序進(jìn)一步包括一快速傅立葉變換應(yīng)用程序。
37.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,其中,該屬性測(cè)量應(yīng)用程序進(jìn)一步包括一幅度測(cè)量應(yīng)用程序。
38.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,其中,進(jìn)一步包括適于存儲(chǔ)所編碼的詞句內(nèi)容的存儲(chǔ)器。
39.按權(quán)利要求31所述的用于表達(dá)的設(shè)備,進(jìn)一步包括用于以詞句形式還原所編碼詞句內(nèi)容的揚(yáng)聲器。
全文摘要
一種對(duì)口頭語(yǔ)言進(jìn)行編碼的方法和設(shè)備,該方法包括下列步驟:識(shí)別該口頭語(yǔ)言的詞句內(nèi)容,測(cè)量所識(shí)別之詞句內(nèi)容的屬性,及對(duì)所識(shí)別和測(cè)量的詞句內(nèi)容編碼。
文檔編號(hào)G10L15/10GK1320903SQ01116829
公開(kāi)日2001年11月7日 申請(qǐng)日期2001年4月13日 優(yōu)先權(quán)日2000年4月13日
發(fā)明者萊爾德·C·威廉斯, 安東尼·德宗諾, 馬克·J·鮑爾, 肯尼思·韋爾, 賈里德·布盧斯泰因, 吉姆·F·馬丁, 達(dá)里爾·海麥爾, 克雷格·R·香博 申請(qǐng)人:羅克韋爾電子商業(yè)公司