專利名稱:一種文字讀音數(shù)字編碼方法
技術(shù)領(lǐng)域:
本發(fā)明屬于聲音信息的數(shù)字處理技術(shù),特別涉及文字讀音的數(shù)字編碼方法。
人們大都還會記得七十年代末到八十年代初的那一時期,聽評書達到了如癡如迷的程度,甚至出現(xiàn)了評書時間萬人空巷的奇觀。這說明了人們對于“聽”書是非常喜愛的。也即人們往往并不滿足于自己看書,能夠聽到一部作品的繪聲繪色、抑揚頓挫的朗讀,也是一種享受。
在旅途、上下班途中,因光線不足、車身搖動或被周圍人擁擠包圍,不能正常地閱讀報紙、小說,人們希望能充分利用這段時間去聽報紙、聽教材進行學習或者聽小說消閑。
現(xiàn)在的盲人書籍由盲文出版社出版,需要用專門的制作設(shè)備和很厚的卡紙來做。既制作困難,又非常笨重,還不能及時地、全部地把各種作品出版。而且,盲文需要通過學習才能認識,當前的狀況是只有一部分盲人能閱讀盲文,廣大盲人不能與正常人同樣地接受到最新的信息,對于他們的教育與文化娛樂是個極大的障礙。
幼兒在還未識字前是不能看書的,而且家長和老師的教育時間有限,需要一種可以長時間地以準確的發(fā)音講故事、介紹知識的輔助性教育工具。
還有,在普通話教育、古文講解、政治教育等教育工作中,在旅游景點、商品介紹時也需要發(fā)音準確、講解清楚明了的有聲讀物。
以上事實說明人們需要有聲讀物。
可是,雖然人類發(fā)明了磁帶、光盤等存儲介質(zhì)和ADPCM、LPC、MELP、CELP等語音壓縮方法,可以較好地記錄下帶有個人感情和特色的語音信息,但為了保證一定的音質(zhì),這些方法對語音的壓縮比例都比較有限,因此都需要使用大容量的存儲介質(zhì)(如磁帶、光盤以及半導(dǎo)體的存儲器),由于介質(zhì)存儲容量有限(或由于價格所限只能使用有限的容量),一般只能記錄幾個小時以內(nèi)的語音信息,不能實現(xiàn)長時間播放的有聲讀物。
對于語言這樣的表達人們感情的聲音信息,人們現(xiàn)在可以用拼音方法記錄它,并且也有一些專利提出了對拼音的數(shù)字編碼方案,如公開號CN 1087439A的發(fā)明專利提出了對漢語拼音的聲母、韻母和由它們構(gòu)成的音節(jié);英語的音標和由它們構(gòu)成的音節(jié);日語假名和它們構(gòu)成的音節(jié)(以下把它們統(tǒng)稱為語音)的數(shù)字編碼方案??墒?,拼音僅僅記錄了語音的發(fā)音音節(jié)和聲調(diào),不能記錄下發(fā)音時的表達感情的聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等語言要素,僅根據(jù)拼音只能合成出機械、呆板沒有任何感情色彩的語音。
我們注意到音樂是一種飽含人類感情的聲音信息,美妙的、千差萬別的音樂僅用簡單的樂譜就可以記錄、傳播;不管在什么地方,人們根據(jù)樂譜就可以忠實地演奏出一樣優(yōu)美、富有感情的樂曲。
為此,人們迫切需要一種類似于樂譜的可實現(xiàn)語音最短編碼存儲的語音編碼方法,使得編碼之后的語音文本短小,只用極其輕小的介質(zhì)就可以存儲長達幾十上百小時的語音。
本發(fā)明的目的就是提供一種符合人們上述要求的文字讀音編碼方法。利用該文字讀音編碼方法構(gòu)成的讀音文本就象音樂的樂譜一樣,可以通過輕便的電子有聲讀物裝置在任何時間、地點合成出具有感情色彩的語音。
為了達到上述目的,本發(fā)明的技術(shù)方案是通過對文字的發(fā)音音節(jié)、聲調(diào)等基本發(fā)音要素和朗讀文字應(yīng)當具有的聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等表達感情的讀音要素以及使朗讀更加生動的大自然聲音進行數(shù)字編碼,構(gòu)成電子有聲讀物的讀音文本;以標準字長和格式的數(shù)字記錄下文章中文字的基本發(fā)音要素和表達感情的讀音要素就構(gòu)成了原來文字的讀音編碼字,所述的讀音編碼字包含原來文字的發(fā)音音節(jié)、聲調(diào)、聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等讀音要素的數(shù)字編碼;為使朗讀生動的大自然聲音的數(shù)字編碼構(gòu)成大自然聲音編碼字,所述的大自然聲音編碼字包含代表大自然聲音的數(shù)字編碼和此聲音在朗讀時的發(fā)聲強弱、發(fā)聲長短、聲調(diào)高低等發(fā)聲要素的數(shù)字編碼;文字對應(yīng)的讀音編碼字以及大自然聲音編碼字共同構(gòu)成讀音文本。
這種編碼方法可以合成出帶有感情色彩的讀音,滿足正常人聽小說、聽報紙新聞、聽文章、聽教材、盲人學習和中小學、幼兒教育等用途。
下面結(jié)合實施例對本發(fā)明進行詳細的說明。
本編碼方法的核心是對文字讀音的各個要素分別進行數(shù)字編碼的規(guī)則,下面分別說明以漢語為例,雖然漢字總數(shù)有幾萬個,但漢字的發(fā)音即帶四聲調(diào)和輕聲的音節(jié)總數(shù)只有1334個,大大少于漢字數(shù)量。而且,人們在聽朗讀時,只要聽出讀音,不需要看到漢字,就可以理解朗讀的內(nèi)容。因此,我們對1334個音節(jié)進行數(shù)字編碼,作為文字讀音數(shù)字編碼方法的基礎(chǔ)。要制作某篇文章的讀音文本時,只要把文章中每個漢字以它所對應(yīng)的發(fā)音音節(jié)編碼來代換,就可以把文字文本轉(zhuǎn)換為以其文字發(fā)音音節(jié)為基礎(chǔ)的讀音文本。但是,用這種讀音文本合成出的讀音雖然能夠滿足人們理解內(nèi)容的需要,卻因為是平淡、無感情的聲音,人們會很快就聽厭煩了。為滿足電子有聲讀物的需要,我們還要為每個文字發(fā)音編碼加上它在文章中應(yīng)當具有的表達感情色彩的聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等讀音要素的數(shù)字編碼,從而構(gòu)成每個文字的讀音編碼字,用這樣的讀音編碼字,我們才能合成出具有感情色彩的朗讀。
1334個音節(jié)加上表示章、節(jié)、段等的分割標志、標點符號和全文結(jié)束標志、區(qū)分朗讀者性別、年齡分段等等文本記錄標志,再加上表示發(fā)音停頓的無音音節(jié)以及輔助音節(jié)(如數(shù)字讀音音節(jié)和必要的外語等輔助音節(jié)等)約在2048個之內(nèi)。
在此基礎(chǔ)上,為了增加電子有聲讀物的表現(xiàn)能力,使之更加生動傳神,再增加表現(xiàn)大自然聲音的編碼,采用12比特(共4096個)二進制數(shù)字對文字讀音和大自然聲音進行編碼編碼。所謂大自然聲音應(yīng)當包括1.環(huán)境聲音如風、雨、雷鳴電閃、門聲、窗戶聲、各種車輛聲、爆炸聲、子彈聲、機器聲等。
2.動物聲音如牛、豬、馬、羊、驢、狗、雞、鴨、鵝以及其它各種動物、各種鳥的動作和鳴叫聲音等。
3.其它需要在電子有聲讀物中需要表現(xiàn)的聲音。
讀音編碼字的長度可以取4-5個字節(jié)(每個字節(jié)為8個比特)長,例如在我們選擇4個字節(jié)為讀音編碼字長時,每個讀音編碼字總共32個比特。
前述的表示音節(jié)、標記和大自然聲音編碼共需要12比特,剩余的20比特用來編碼表示感情色彩的其它讀音要素。
具體的比特分配方法可以有多種,下面是一種可以實際使用的編碼方法1.聲音強弱用4-6個比特編碼;2.發(fā)音長短用4-6個比特編碼;3.語調(diào)高低用4-6個比特編碼;4.是否兒化用1個比特編碼;5.剩余的1-7個比特作為備用。
國標漢字的數(shù)字編碼標準字長為兩個字節(jié)16比特,而讀音編碼字的字長為4個字節(jié)32比特,也即文章的讀音文本的比特數(shù)僅為其文字數(shù)字編碼文本的兩倍左右,實現(xiàn)了語音的高效率編碼,很容易用半導(dǎo)體存儲器存儲長篇著作。利用指甲蓋大小的16兆比特的半導(dǎo)體存儲器可以存儲一部約50萬字的小說的讀音文本,按平均每秒朗讀4個字計算,可以朗讀約36個小時,為實現(xiàn)語音的高容量存儲和實用的電子有聲讀物創(chuàng)造了條件。
權(quán)利要求
1.一種文字讀音數(shù)字編碼方法,其特征在于通過對文字的發(fā)音音節(jié)、聲調(diào)等基本發(fā)音要素和朗讀文字應(yīng)當具有的聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等表達感情的讀音要素以及使朗讀更加生動的大自然聲音進行數(shù)字編碼,構(gòu)成電子有聲讀物的讀音文本;以標準字長和格式的數(shù)字記錄下文章中文字的基本發(fā)音要素和表達感情的讀音要素就構(gòu)成了原來文字的讀音編碼字,所述的讀音編碼字包含原來文字的發(fā)音音節(jié)、聲調(diào)、聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等讀音要素的數(shù)字編碼;為使朗讀生動的大自然聲音的數(shù)字編碼構(gòu)成大自然聲音編碼字,所述的大自然聲音編碼字包含代表大自然聲音的數(shù)字編碼和該聲音在朗讀時的發(fā)聲強弱、發(fā)聲長短、聲調(diào)高低等發(fā)聲要素的數(shù)字編碼;文字對應(yīng)的讀音編碼字以及大自然聲音編碼字共同構(gòu)成讀音文本。
2.根據(jù)權(quán)利要求1所述的一種文字讀音數(shù)字編碼方法,其特征在于所述的基本發(fā)音要素的編碼是對于漢字發(fā)音的一千三百三十四個音節(jié)、輔助發(fā)音音節(jié)和文本記錄標志以及大自然聲音采用12比特二進制數(shù)字編碼,每個編碼對應(yīng)一個發(fā)音音節(jié)、文本記錄標記或大自然聲音。
3.根據(jù)權(quán)利要求1所述的一種文字讀音數(shù)字編碼方法,其特征在于所述的聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等表達感情的讀音要素的數(shù)字編碼方法是對每種讀音要素進行二進制編碼,使它們能夠記錄下發(fā)音音節(jié)的讀音特征和感情色彩,并分別與所述基本發(fā)音要素的編碼組合,構(gòu)成文字的讀音編碼字,文字對應(yīng)的讀音編碼字和文本記錄標志以及大自然聲音編碼字構(gòu)成讀音文本。
全文摘要
本發(fā)明公開了一種文字讀音的數(shù)字編碼方法。本發(fā)明不但對文章中每個文字的發(fā)音音節(jié)、聲調(diào)等基本發(fā)音要素進行數(shù)字編碼,同時還對朗讀文章時每個文字應(yīng)當具有的聲音強弱、發(fā)音長短、語調(diào)高低、是否兒化等表達感情的讀音要素以及使朗讀更加生動的大自然聲音進行數(shù)字編碼,所有文字對應(yīng)的讀音編碼字以及大自然聲音編碼字共同構(gòu)成了文章的讀音文本,從而為實現(xiàn)電子有聲讀物提供了一種有效、實用的編碼方法。
文檔編號G06F3/023GK1384421SQ0111581
公開日2002年12月11日 申請日期2001年4月30日 優(yōu)先權(quán)日2001年4月30日
發(fā)明者劉東華 申請人:劉東華