亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、接收方法及系統(tǒng)的制作方法

文檔序號(hào):2826154閱讀:283來(lái)源:國(guó)知局
語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、接收方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng),該發(fā)送方法包括:確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型;拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列;確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串;將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。本發(fā)明還公開(kāi)了一種語(yǔ)音信號(hào)接收方法及系統(tǒng)。利用本發(fā)明,可以在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下實(shí)現(xiàn)極低碼流率的信號(hào)傳輸。
【專利說(shuō)明】語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、接收方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信號(hào)傳輸【技術(shù)領(lǐng)域】,具體涉及一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、以及一種語(yǔ)音信號(hào)接收方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及和便攜式設(shè)備的推廣,各種基于手持設(shè)備的聊天軟件應(yīng)運(yùn)而生。語(yǔ)音交互的自然人性化是其他交互手段無(wú)法超越的,特別是在不利于手寫按鍵輸入的手持小屏設(shè)備應(yīng)用上。對(duì)此很多產(chǎn)品都支持語(yǔ)音交互功能,將某終端接收到的語(yǔ)音信號(hào)傳輸至目的端,如騰訊推出的微訊產(chǎn)品即支持Voice Message的語(yǔ)音消息傳輸功能。然而直接傳輸?shù)恼Z(yǔ)音信號(hào)數(shù)據(jù)量往往極大,在互聯(lián)網(wǎng)或通訊網(wǎng)等按流量收費(fèi)的信道中給用戶帶來(lái)了較大的經(jīng)濟(jì)負(fù)擔(dān)。顯然如何在不影響語(yǔ)音質(zhì)量的前提下盡可能壓縮傳送的數(shù)據(jù)量是提高語(yǔ)音信號(hào)傳輸應(yīng)用價(jià)值的前提條件。
[0003]針對(duì)語(yǔ)音信號(hào)傳輸?shù)膯?wèn)題,研究人員嘗試了多種語(yǔ)音編碼方法,對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字量化和壓縮傳輸,在提高語(yǔ)音信號(hào)的恢復(fù)話質(zhì)條件下降低編碼碼率并提升傳輸效率。目前常用的語(yǔ)音信號(hào)壓縮方法有波形編碼和參數(shù)編碼等。其中:
[0004]波形編碼是將時(shí)域的模擬信號(hào)波形經(jīng)過(guò)取樣、量化、編碼,形成數(shù)字信號(hào),這種編碼方式具有適應(yīng)能力強(qiáng)、話音質(zhì)量高的優(yōu)點(diǎn)。但由于需要保持恢復(fù)原有語(yǔ)音信號(hào)的波形形狀,這種方案碼流率要求較高,在高于16kb/s才能取得較好的音質(zhì)。
[0005]參數(shù)編碼即從原始語(yǔ)音信號(hào)中提取表征語(yǔ)音發(fā)音特征的參量,并對(duì)該特征參量進(jìn)行編碼。這種方案的目標(biāo)在于保持原始語(yǔ)音的語(yǔ)意,保證可懂度。其優(yōu)點(diǎn)在于碼流率較低,但恢復(fù)音質(zhì)受損較多。
[0006]在傳統(tǒng)的語(yǔ)音通信時(shí)代,往往采用時(shí)間計(jì)費(fèi)方式,編碼方法主要考量算法延時(shí)和通信質(zhì)量;而在移動(dòng)互聯(lián)時(shí)代,語(yǔ)音作為數(shù)據(jù)信號(hào)的一種,通常使用流量來(lái)收取費(fèi)用,編碼語(yǔ)音碼流率的高低將直接影響用戶使用的花費(fèi)。此外,傳統(tǒng)電話信道語(yǔ)音只使用8k采樣率,屬于窄帶語(yǔ)音,音質(zhì)受損且存在上限。顯然如果繼續(xù)使用傳統(tǒng)編碼方式處理寬帶或超寬帶語(yǔ)音,需要增加碼流率,成倍提升流量消耗。

【發(fā)明內(nèi)容】

[0007]本發(fā)明實(shí)施例一方面提供一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng),在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下實(shí)現(xiàn)極低碼流率的信號(hào)傳輸。
[0008]本發(fā)明實(shí)施例另一方面提供一種語(yǔ)音信號(hào)接收方法及系統(tǒng),以降低語(yǔ)音恢復(fù)音質(zhì)損失。
[0009]為此,本發(fā)明提供如下技術(shù)方案:
[0010]一種語(yǔ)音信號(hào)發(fā)送方法,包括:
[0011]確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;
[0012]根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型;[0013]拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列;
[0014]確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串;
[0015]將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0016]—種語(yǔ)音信號(hào)發(fā)送系統(tǒng),包括:
[0017]文本獲取模塊,用于確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;
[0018]參數(shù)模型確定模塊,用于根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型;
[0019]拼接模塊,用于拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列;
[0020]序號(hào)串確定模塊,用于確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串;
[0021]發(fā)送模塊,用于將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0022]本發(fā)明實(shí)施例提供的語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng),采用統(tǒng)計(jì)分析模型編碼,其處理方式與語(yǔ)音采樣率無(wú)關(guān),在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率,減少了流量消耗,解決了傳統(tǒng)語(yǔ)音編碼方法不能兼顧音質(zhì)和流量的問(wèn)題,改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)。
[0023]相應(yīng)地,本發(fā)明實(shí)施例提供的語(yǔ)音信號(hào)接收方法及系統(tǒng),接收方根據(jù)接收到的語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列,利用該序列通過(guò)語(yǔ)音合成方式得到語(yǔ)音信號(hào),大大降低了語(yǔ)音恢復(fù)音質(zhì)損失,實(shí)現(xiàn)了語(yǔ)音信號(hào)的極大壓縮和信號(hào)損失的最小化。
【專利附圖】

【附圖說(shuō)明】
[0024]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法的流程圖;
[0026]圖2是本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的一種流程圖;
[0027]圖3是本發(fā)明實(shí)施例中二叉決策樹的構(gòu)建流程圖;
[0028]圖4是本發(fā)明實(shí)施例中一種二叉決策樹的示意圖;
[0029]圖5是本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的另一種流程圖;
[0030]圖6是本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收方法的流程圖;
[0031]圖7是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)的結(jié)構(gòu)框圖;
[0032]圖8是本發(fā)明實(shí)施例中參數(shù)模型確定模塊的結(jié)構(gòu)框圖;
[0033]圖9是本發(fā)明實(shí)施例中二叉決策樹構(gòu)建模塊的結(jié)構(gòu)框圖;
[0034]圖10是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的一種結(jié)構(gòu)框圖;
[0035]圖11是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的一種結(jié)構(gòu)框圖;[0036]圖12是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的另一種結(jié)構(gòu)框圖;
[0037]圖13是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的另一種結(jié)構(gòu)框圖;
[0038]圖14是本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0039]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0040]針對(duì)傳統(tǒng)編碼方式處理寬帶或超寬帶語(yǔ)音,需要增加碼流率,流量消耗大的問(wèn)題,本發(fā)明實(shí)施例提供一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng),以及一種語(yǔ)音信號(hào)接收方法及系統(tǒng),適用于各類語(yǔ)音(如16KHz采樣率的超寬帶語(yǔ)音、8KHz采樣率的窄帶語(yǔ)音等)的編碼,在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下,實(shí)現(xiàn)極低碼流率的信號(hào)傳輸。
[0041]如圖1所示,是本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法的流程圖,包括以下步驟:
[0042]步驟101,確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
[0043]具體地,可以通過(guò)語(yǔ)音識(shí)別算法自動(dòng)獲取所述文本內(nèi)容,當(dāng)然也可以通過(guò)人工標(biāo)注的方式來(lái)獲取所述文本內(nèi)容。另外,為了進(jìn)一步保證語(yǔ)音識(shí)別得到的文本內(nèi)容的正確性,還可以對(duì)語(yǔ)音識(shí)別得到的文本內(nèi)容進(jìn)行人工編輯修正。
[0044]步驟102,根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型。
[0045]所述合成單元是預(yù)先設(shè)定的最小合成對(duì)象,如音節(jié)單元、音素單元,甚至是音素HMM模型中的狀態(tài)單元等。
[0046]為了盡量減少接收端恢復(fù)音質(zhì)的損失,使接收端能夠通過(guò)語(yǔ)音合成方式恢復(fù)連續(xù)語(yǔ)音信號(hào),發(fā)送端從原始語(yǔ)音信號(hào)中獲取的語(yǔ)音合成參數(shù)模型應(yīng)盡可能符合原語(yǔ)音信號(hào)特點(diǎn),以減少信號(hào)壓縮和恢復(fù)的損失。
[0047]具體地,可以根據(jù)所述文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷,進(jìn)而得到各合成單元對(duì)應(yīng)的時(shí)長(zhǎng)、基頻模型和頻譜模型,具體過(guò)程將在后面詳細(xì)描述。
[0048]步驟103,拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列。
[0049]步驟104,確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串。
[0050]步驟105,將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0051]本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法,采用統(tǒng)計(jì)分析模型編碼,其處理方式與語(yǔ)音采樣率無(wú)關(guān),對(duì)16kHz超寬帶語(yǔ)音編碼無(wú)需付出額外碼流率代價(jià),其音質(zhì)效果好,編碼流量低。以一段典型的中文語(yǔ)音片段為例,其有效語(yǔ)音段持續(xù)10s,擁有80個(gè)聲韻母(音素),以每個(gè)音素?fù)碛?個(gè)基頻狀態(tài)、5個(gè)頻譜狀態(tài)、I個(gè)時(shí)長(zhǎng)狀態(tài)計(jì),每狀態(tài)采用I個(gè)字節(jié)編碼(8bit),其碼流率為 m:m=[80* (5+5+1) ] *8bit/10s=704b/s,低于 lkb/s,屬于極低碼率編碼方法,碼流率大大低于當(dāng)前主流語(yǔ)音通訊領(lǐng)域的各項(xiàng)編碼標(biāo)準(zhǔn),網(wǎng)絡(luò)通訊的流量將會(huì)大大降低。相較當(dāng)前主流的通信領(lǐng)域語(yǔ)音編碼方法,本發(fā)明方法的語(yǔ)音編碼方式可處理超寬帶語(yǔ)音(16kHz采樣率),音質(zhì)更高;且具有更低的碼流率(lkb/s以下),有效降低網(wǎng)絡(luò)通信流量。
[0052]如圖2所示,是本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的一種流程圖,包括以下步驟:
[0053]步驟201,根據(jù)文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷。
[0054]具體地,可以將所述連續(xù)語(yǔ)音信號(hào)與所述文本內(nèi)容中合成單元對(duì)應(yīng)的聲學(xué)模型序列做強(qiáng)制對(duì)齊,即計(jì)算語(yǔ)音信號(hào)相應(yīng)于所述聲學(xué)模型序列的語(yǔ)音識(shí)別解碼,從而獲取各合成單元對(duì)應(yīng)的語(yǔ)音片段。
[0055]需要說(shuō)明的是,所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來(lái)說(shuō),如果對(duì)碼流率要求較高,則選擇較大的語(yǔ)音單元,如音節(jié)單元、音素單元等;反之若對(duì)音質(zhì)要求較高,則可以選擇更小的語(yǔ)音單元,如模型的狀態(tài)單元、特征流單元等。
[0056]在采用基于HMM (Hidden Markov Model,隱馬爾可夫模型)的聲學(xué)模型設(shè)置下,還可進(jìn)一步選取HMM模型的各狀態(tài)作為合成單元,并獲取相應(yīng)的基于狀態(tài)層的語(yǔ)音片斷。隨后對(duì)每個(gè)狀態(tài)分別從其對(duì)應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個(gè)狀態(tài)對(duì)應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語(yǔ)音合成參數(shù)模型能夠更細(xì)致地描述語(yǔ)音信號(hào)的特點(diǎn)。
[0057]步驟202,獲取當(dāng)前考察的合成單元。
[0058]步驟203,統(tǒng)計(jì)當(dāng)前考察的合成單元對(duì)應(yīng)的語(yǔ)音片段時(shí)長(zhǎng)。
[0059]步驟204,確定當(dāng)前考察的合成單元的基頻模型。
[0060]具體地,首先獲取當(dāng)前考察的合成單元對(duì)應(yīng)的基頻二叉決策樹;對(duì)所述合成單元進(jìn)行文本解析,獲得所述合成單元的上下文信息,比如,音素單元、調(diào)性、詞性、韻律層次等上下文信息;然后,根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn),將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。
[0061]具體地,進(jìn)行路徑?jīng)Q策的過(guò)程如下:
[0062]根據(jù)所述合成單元的上下文信息,從所述基頻二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答;根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑;根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0063]步驟205,確定當(dāng)前考察的合成單元的頻譜模型。
[0064]具體地,首先獲取當(dāng)前考察的合成單元對(duì)應(yīng)的基頻二叉決策樹;對(duì)所述合成單元進(jìn)行文本解析,獲得所述合成單元的上下文信息,比如,音素單元、調(diào)性、詞性、韻律層次等上下文信息;然后,根據(jù)所述上下文信息,在所述頻譜二叉決策樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn),將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
[0065]具體地,進(jìn)行路徑?jīng)Q策的過(guò)程如下:
[0066]根據(jù)所述合成單元的上下文信息,從所述頻譜二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答;根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑;根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0067]步驟206,判斷當(dāng)前考察的合成單元是否為最后一個(gè)合成單元。如果是,則執(zhí)行步驟207 ;否則,執(zhí)行步驟202。
[0068]步驟207,輸出各合成單元對(duì)應(yīng)的語(yǔ)音片段時(shí)長(zhǎng)、基頻模型及頻譜模型。[0069]合成單元對(duì)應(yīng)的語(yǔ)音合成參數(shù)模型的質(zhì)量和二叉決策樹(包括基頻二叉決策樹和頻譜二叉決策樹)的構(gòu)建有著直接的關(guān)系。在本發(fā)明實(shí)施例中,采用從下而上的聚類方法構(gòu)建二叉決策樹。
[0070]如圖3所示,是本發(fā)明實(shí)施例中二叉決策樹的構(gòu)建流程圖,包括以下步驟:
[0071]步驟301,獲取訓(xùn)練數(shù)據(jù)。
[0072]具體地,可以采集大量的語(yǔ)音訓(xùn)練數(shù)據(jù)并對(duì)其進(jìn)行文本標(biāo)注,然后根據(jù)標(biāo)注的文本內(nèi)容進(jìn)行基本語(yǔ)音單元乃至合成單元(如基本語(yǔ)音單元模型的狀態(tài)單元)的語(yǔ)音片斷切分,獲取各合成單元對(duì)應(yīng)的語(yǔ)音片斷集合,并將每個(gè)合成單元對(duì)應(yīng)的語(yǔ)音片斷集合中的語(yǔ)音片斷作為該合成單元對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。
[0073]步驟302,從所述訓(xùn)練數(shù)據(jù)中提取合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù)。
[0074]所述合成參數(shù)包括:基頻特征和頻譜特征等。
[0075]步驟303,根據(jù)提取的合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化,并設(shè)置根節(jié)點(diǎn)作為當(dāng)前考察節(jié)點(diǎn)。
[0076]對(duì)所述二叉決策樹進(jìn)行初始化即構(gòu)建只有根節(jié)點(diǎn)的二叉決策樹。
[0077]步驟304,判斷當(dāng)前考察節(jié)點(diǎn)是否需要分裂。如果是,則執(zhí)行步驟305 ;否則執(zhí)行步驟 306。
[0078]挑選預(yù)設(shè)問(wèn)題集合中的剩余問(wèn)題對(duì)當(dāng)前考察節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行分裂嘗試,獲取子節(jié)點(diǎn)。所述剩余問(wèn)題是指沒(méi)有詢問(wèn)過(guò)的問(wèn)題。
[0079]具體地,可以首先計(jì)算當(dāng)前考察節(jié)點(diǎn)的樣本聚集度,即描述語(yǔ)音片斷集合內(nèi)樣本的分散程度。一般來(lái)說(shuō),分散程度越大,則說(shuō)明該節(jié)點(diǎn)分裂的可能性越大,否則分裂的可能性越小。具體可以采用樣本方差來(lái)衡量節(jié)點(diǎn)的樣本聚集度,即計(jì)算該節(jié)點(diǎn)下所有樣本距離類中心的距離(或平方)的均值。然后計(jì)算分裂后子節(jié)點(diǎn)的樣本聚集度,并選擇具有最大樣本聚集度下降幅度的問(wèn)題作為優(yōu)選問(wèn)題。
[0080]然后根據(jù)所述優(yōu)選問(wèn)題進(jìn)行分裂嘗試,得到子節(jié)點(diǎn)。如果根據(jù)所述優(yōu)選問(wèn)題分裂的聚集度下降小于設(shè)定的閾值,或者分裂后的子節(jié)點(diǎn)中訓(xùn)練數(shù)據(jù)最低于設(shè)定的門限,則確定當(dāng)前考察節(jié)點(diǎn)不再繼續(xù)分裂。
[0081 ] 步驟305,對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂,并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。然后,執(zhí)行步驟307。
[0082]具體地,可以根據(jù)所述優(yōu)選問(wèn)題對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂。
[0083]步驟306,將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。
[0084]步驟307,判斷所述二叉決策樹中是否還有未考察過(guò)的非葉節(jié)點(diǎn)。如果是,則執(zhí)行步驟308 ;否則執(zhí)行步驟309。
[0085]步驟308,獲取下一個(gè)未考察過(guò)的非葉節(jié)點(diǎn)作為當(dāng)前考察節(jié)點(diǎn)。然后,返回步驟304。
[0086]步驟309,輸出二叉決策樹。
[0087]需要說(shuō)明的是,在本發(fā)明實(shí)施例中,基頻二叉決策樹和頻譜二叉決策樹都可以按照?qǐng)D3所示流程來(lái)建立。
[0088]如圖4所示,是本發(fā)明實(shí)施例中一種二叉決策樹的示意圖。
[0089]圖4展示了音素”*_aa+”的第三個(gè)狀態(tài)的二叉決策樹的構(gòu)建圖。如圖4所示,在根節(jié)點(diǎn)分裂時(shí)根據(jù)對(duì)預(yù)設(shè)問(wèn)題“右相鄰音素是否為鼻音”的回答可以將根節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)拆分,隨后在下一層節(jié)點(diǎn)分裂時(shí),如對(duì)左節(jié)點(diǎn)分裂時(shí),根據(jù)對(duì)預(yù)設(shè)問(wèn)題“左相鄰音素是否為濁輔音”的回答可以將所述節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)進(jìn)一步拆分。最后在節(jié)點(diǎn)無(wú)法進(jìn)一步拆分時(shí)設(shè)定其為葉節(jié)點(diǎn),并利用其所對(duì)應(yīng)得訓(xùn)練數(shù)據(jù)訓(xùn)練得到數(shù)學(xué)統(tǒng)計(jì)模型,如高斯模型,將該數(shù)字統(tǒng)計(jì)模型作為當(dāng)前葉節(jié)點(diǎn)對(duì)應(yīng)的合成參數(shù)模型。
[0090]顯然,在圖2所示實(shí)施例中,語(yǔ)音合成參數(shù)模型的挑選主要依賴于基于文本分析的二叉決策樹,如通過(guò)當(dāng)前考察的合成單元上下文的音素類別、當(dāng)前音素的發(fā)音類型等。這樣挑選語(yǔ)音合成參數(shù)模型方便快捷,但對(duì)特定語(yǔ)音信號(hào)輸入,這種具有普適性的語(yǔ)音合成參數(shù)模型確定方法無(wú)法很好地體現(xiàn)發(fā)音特點(diǎn)。
[0091]為此,圖5示出了本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的另一種流程圖,包括以下步驟:
[0092]步驟501,根據(jù)文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷。
[0093]具體地,可以將所述連續(xù)語(yǔ)音信號(hào)與預(yù)設(shè)的合成單元對(duì)應(yīng)的聲學(xué)模型做強(qiáng)制對(duì)齊,即計(jì)算語(yǔ)音信號(hào)相應(yīng)于所述聲學(xué)模型序列的語(yǔ)音識(shí)別解碼,從而獲取各合成單元對(duì)應(yīng)的語(yǔ)音片段。
[0094]需要說(shuō)明的是,所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來(lái)說(shuō),如果對(duì)碼流率要求較高,則選擇較大的語(yǔ)音單元,如音節(jié)單元、音素單元等;反之若對(duì)音質(zhì)要求較高,則可以選擇更小的語(yǔ)音單元,如模型的狀態(tài)單元、特征流單元等。
[0095]在采用基于HMM (Hidden Markov Model,隱馬爾可夫模型)的聲學(xué)模型設(shè)置下,還可進(jìn)一步選取HMM模型的各狀態(tài)作為合成單元,并獲取相應(yīng)的基于狀態(tài)層的語(yǔ)音片斷。隨后對(duì)每個(gè)狀態(tài)分別從其對(duì)應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個(gè)狀態(tài)對(duì)應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語(yǔ)音合成參數(shù)模型能夠更細(xì)致地描述語(yǔ)音信號(hào)的特點(diǎn)。
[0096]步驟502,確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)、以及所述連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的基頻特征序列和頻譜特征序列。
[0097]步驟503,根據(jù)所述基頻特征序列及所述合成單元對(duì)應(yīng)的基頻模型集合確定所述合成單元的基頻模型。
[0098]具體地,確定所述合成單元對(duì)應(yīng)的基頻特征序列,并獲取所述合成單元對(duì)應(yīng)的基頻模型集合,即所述合成單元的基頻二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型。然后計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度,并選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
[0099]步驟504,根據(jù)所述頻譜特征序列及所述合成單元對(duì)應(yīng)的頻譜模型集合確定各合成單元的頻譜模型。
[0100]具體地,確定所述合成單元對(duì)應(yīng)的頻譜特征序列,并獲取所述合成單元對(duì)應(yīng)的頻譜模型集合,即所述合成單元的頻譜二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型。然后計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度,并選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
[0101]可見(jiàn),本發(fā)明實(shí)施例的語(yǔ)音信號(hào)發(fā)送方法,在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率,減少了流量消耗,解決了傳統(tǒng)語(yǔ)音編碼方法不能兼顧音質(zhì)和流量的問(wèn)題,改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)。
[0102]相應(yīng)地,本發(fā)明實(shí)施例還提供一種語(yǔ)音信號(hào)接收方法,如圖6所示,是該方法的流程圖,包括以下步驟:
[0103]步驟601,接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串。
[0104]步驟602,根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列。
[0105]由于每個(gè)語(yǔ)音合成參數(shù)模型都有一個(gè)唯一的序號(hào),而且,在發(fā)送方和接收方都保存有相同的碼本,所述碼本中包含了所有語(yǔ)音合成參數(shù)模型。因此,接收方根據(jù)收到的序號(hào)串即可從碼本中獲取對(duì)應(yīng)各序號(hào)的語(yǔ)音合成參數(shù)模型,拼接這些語(yǔ)音合成參數(shù)模型得到所述語(yǔ)音合成參數(shù)模型序列。
[0106]步驟603,根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列。
[0107]具體地,可以根據(jù)所述語(yǔ)音合成參數(shù)模型序列和合成單元對(duì)應(yīng)的時(shí)長(zhǎng)序列確定語(yǔ)音合成參數(shù),生成語(yǔ)音合成參數(shù)序列。
[0108]比如,按照以下公式來(lái)得到語(yǔ)音合成參數(shù)序列:
[0109]0max=arg max Ρ(θ|, λ,T)
[0110]其中,O為參數(shù)序列,λ為給定的語(yǔ)音合成參數(shù)模型序列,T為各合成單元對(duì)應(yīng)的時(shí)長(zhǎng)序列。
[0111]Omax即最終生成的基頻參數(shù)序列或頻譜參數(shù)序列,在單元時(shí)長(zhǎng)序列T的范圍內(nèi),求取相應(yīng)于給定的語(yǔ)音合成參數(shù)模型序列λ的具有最大似然值的參數(shù)序列Omax,從而得到用于語(yǔ)音合成的參數(shù)序列。
[0112]步驟604,根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
[0113]將上步得到的語(yǔ)音合成參數(shù)序列Omax送入語(yǔ)音合成器即可得到對(duì)應(yīng)語(yǔ)音。語(yǔ)音合成器是一種語(yǔ)音信號(hào)的分析恢復(fù)工具,可以將參數(shù)化的語(yǔ)音數(shù)據(jù)(如基頻參數(shù)、頻譜參數(shù))恢復(fù)出高質(zhì)量的語(yǔ)音波形。
[0114]可見(jiàn),本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法及接收方法,通過(guò)對(duì)連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音合成參數(shù)模型的提取和信號(hào)合成,實(shí)現(xiàn)了語(yǔ)音信號(hào)的極大壓縮和信號(hào)損失的最小化,即有效地減少信號(hào)失真。
[0115]相應(yīng)地,本發(fā)明實(shí)施例還提供一種語(yǔ)音信號(hào)發(fā)送系統(tǒng),如圖7所示,是該系統(tǒng)的結(jié)構(gòu)框圖。
[0116]在該實(shí)施例中,所述語(yǔ)音信號(hào)發(fā)送系統(tǒng)包括:
[0117]文本獲取模塊701,用于確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;
[0118]參數(shù)模型確定模塊702,用于根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型;
[0119]拼接模塊703,用于拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列;
[0120]序號(hào)串確定模塊704,用于確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串;
[0121]發(fā)送模塊705,用于將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0122]在實(shí)際應(yīng)用中,上述文本獲取模塊701可以通過(guò)語(yǔ)音識(shí)別算法自動(dòng)獲取所述文本內(nèi)容,當(dāng)然也可以通過(guò)人工標(biāo)注的方式來(lái)獲取所述文本內(nèi)容。為此,可以在文本獲取模塊701中設(shè)置語(yǔ)音識(shí)別單元和/或標(biāo)注信息獲取單元,以便可以使用戶選擇不同方式來(lái)得到待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。其中,所述語(yǔ)音識(shí)別單元,用于通過(guò)語(yǔ)音識(shí)別算法確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;所述標(biāo)注信息獲取單元用于通過(guò)人工標(biāo)注的方式獲取待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
[0123]所述合成單元是預(yù)先設(shè)定的最小合成對(duì)象,如音節(jié)單元、音素單元,甚至是音素HMM模型中的狀態(tài)單元等。
[0124]為了盡量減少接收端恢復(fù)音質(zhì)的損失,使接收端能夠通過(guò)語(yǔ)音合成方式恢復(fù)連續(xù)語(yǔ)音信號(hào),參數(shù)模型確定模塊702從原始語(yǔ)音信號(hào)中獲取的語(yǔ)音合成參數(shù)模型應(yīng)盡可能符合原語(yǔ)音信號(hào)特點(diǎn),以減少信號(hào)壓縮和恢復(fù)的損失。具體地,可以根據(jù)所述文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷,進(jìn)而得到各合成單元對(duì)應(yīng)的時(shí)長(zhǎng)、基頻模型和頻譜模型。
[0125]本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送系統(tǒng),采用統(tǒng)計(jì)分析模型編碼,其處理方式與語(yǔ)音采樣率無(wú)關(guān),對(duì)16kHz超寬帶語(yǔ)音編碼無(wú)需付出額外碼流率代價(jià),其音質(zhì)效果好,編碼流量低。相較當(dāng)前主流的通信領(lǐng)域語(yǔ)音編碼系統(tǒng),本發(fā)明系統(tǒng)的語(yǔ)音編碼方式可處理超寬帶語(yǔ)音(16kHz采樣率),音質(zhì)更高;且具有更低的碼流率(lkb/s以下),有效降低網(wǎng)絡(luò)通信流量。
[0126]如圖8所示,是本發(fā)明實(shí)施例中參數(shù)模型確定模塊的一種結(jié)構(gòu)框圖。
[0127]所述參數(shù)模型確定模塊包括:
[0128]切分單元801,用于根據(jù)所述文本內(nèi)容對(duì)所述連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷。
[0129]具體地,可以將連續(xù)語(yǔ)音信號(hào)與所述文本內(nèi)容中合成單元對(duì)應(yīng)的聲學(xué)模型序列做強(qiáng)制對(duì)齊,即計(jì)算語(yǔ)音信號(hào)相應(yīng)于所述聲學(xué)模型序列的語(yǔ)音識(shí)別解碼,從而獲取各合成單元對(duì)應(yīng)的語(yǔ)音片段。
[0130]需要說(shuō)明的是,所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來(lái)說(shuō),如果對(duì)碼流率要求較高,則選擇較大的語(yǔ)音單元,如音節(jié)單元、音素單元等;反之若對(duì)音質(zhì)要求較高,則可以選擇更小的語(yǔ)音單元,如模型的狀態(tài)單元、特征流單元等。在采用基于HMM (Hidden Markov Model,隱馬爾可夫模型)的聲學(xué)模型設(shè)置下,還可進(jìn)一步選取HMM模型的各狀態(tài)作為合成單元,并獲取相應(yīng)的基于狀態(tài)層的語(yǔ)音片斷。隨后對(duì)每個(gè)狀態(tài)分別從其對(duì)應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個(gè)狀態(tài)對(duì)應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語(yǔ)音合成參數(shù)模型能夠更細(xì)致地描述語(yǔ)音信號(hào)的特點(diǎn)。
[0131]時(shí)長(zhǎng)確定單元802,用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)。
[0132]基頻模型確定單元803,用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的基頻模型。
[0133]頻譜模型確定單元804,用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的頻譜模型。
[0134]在實(shí)際應(yīng)用中,上述基頻模型確定單元803和頻譜模型確定單元804可以有多種實(shí)現(xiàn)方式,比如,可以根據(jù)二叉決策樹來(lái)得到基頻模型和頻譜模型,為此,在本發(fā)明語(yǔ)音信號(hào)發(fā)送系統(tǒng)的另一實(shí)施例中,所述系統(tǒng)還包括二叉決策樹構(gòu)建模塊,用于構(gòu)建基頻二叉決策樹及頻譜二叉決策樹。另外,上述基頻模型確定單元803和頻譜模型確定單元804還可以基于信號(hào)特征優(yōu)化來(lái)得到基頻模型和頻譜模型,對(duì)此將在后面詳細(xì)描述。
[0135]如圖9所示,是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中二叉決策樹構(gòu)建模塊的結(jié)構(gòu)框圖。
[0136]所述二叉決策樹構(gòu)建模塊包括:
[0137]訓(xùn)練數(shù)據(jù)獲取單元901,用于獲取訓(xùn)練數(shù)據(jù);
[0138]參數(shù)提取單元902,用于從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù),所述合成參數(shù)包括:基頻特征和頻譜特征;
[0139]初始化單元903,用于根據(jù)所述合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化,即構(gòu)建只有根節(jié)點(diǎn)的二叉決策樹;
[0140]節(jié)點(diǎn)考察單元904,用于從所述二叉決策樹的根節(jié)點(diǎn)開(kāi)始,依次考察每個(gè)非葉節(jié)點(diǎn);如果當(dāng)前考察節(jié)點(diǎn)需要分裂,則對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂,并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);否則,將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn);
[0141]二叉決策樹輸出單元905,用于在所述節(jié)點(diǎn)考察單元對(duì)所有非葉節(jié)點(diǎn)考察完成后,輸出所述合成單元的二叉決策樹。
[0142]在該實(shí)施例中,訓(xùn)練數(shù)據(jù)獲取單元901具體可以采集大量的語(yǔ)音訓(xùn)練數(shù)據(jù)并對(duì)其進(jìn)行文本標(biāo)注,然后根據(jù)標(biāo)注的文本內(nèi)容進(jìn)行基本語(yǔ)音單元乃至合成單元(如基本語(yǔ)音單元模型的狀態(tài)單元)的語(yǔ)音片斷切分,獲取各合成單元對(duì)應(yīng)的語(yǔ)音片斷集合,并將每個(gè)合成單元對(duì)應(yīng)的語(yǔ)音片斷集合中的語(yǔ)音片斷作為該合成單元對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。
[0143]上述節(jié)點(diǎn)考察單元904在判斷當(dāng)前考察節(jié)點(diǎn)是否需要分裂時(shí),可以根據(jù)當(dāng)前考察節(jié)點(diǎn)的樣本聚集度,選擇具有最大樣本聚集度下降幅度的問(wèn)題作為優(yōu)選問(wèn)題進(jìn)行分裂嘗試,獲取子節(jié)點(diǎn)。如果根據(jù)所述優(yōu)選問(wèn)題分裂的聚集度下降小于設(shè)定的閾值,或者分裂后的子節(jié)點(diǎn)中訓(xùn)練數(shù)據(jù)最低于設(shè)定的門限,則確定當(dāng)前考察節(jié)點(diǎn)不再繼續(xù)分裂。
[0144]上述考察及分裂過(guò)程可參照前面本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法中的描述,在此不再贅述。
[0145]需要說(shuō)明的是,在本發(fā)明實(shí)施例中,基頻二叉決策樹和頻譜二叉決策樹都可以由該二叉決策樹構(gòu)建模塊來(lái)建立,其實(shí)現(xiàn)過(guò)程相類似,在此不再一一詳細(xì)說(shuō)明。
[0146]基于上述基頻二叉決策樹和頻譜二叉決策樹,下面進(jìn)一步詳細(xì)說(shuō)明本發(fā)明實(shí)施例中基頻模型確定單元和頻譜模型確定單元的實(shí)現(xiàn)方案。
[0147]如圖10所示,是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的一種結(jié)構(gòu)框圖。
[0148]在該實(shí)施例中,所述基頻模型確定單元包括:
[0149]第一獲取單元161,用于獲取所述合成單元對(duì)應(yīng)的基頻二叉決策樹。
[0150]第一解析單元162,用于對(duì)所述合成單元進(jìn)行文本解析,獲得所述合成單元的上下文信息,比如,音素單元、調(diào)性、詞性、韻律層次等上下文信息。
[0151]第一決策單元163,用于根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn)。
[0152]具體地,進(jìn)行路徑?jīng)Q策的過(guò)程如下:根據(jù)所述合成單元的上下文信息,從所述基頻二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答;根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑;根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0153]第一輸出單元164,用于將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。[0154]與上述基頻模型確定單元的實(shí)現(xiàn)類似,如圖11所示,是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的一種結(jié)構(gòu)框圖。
[0155]在該實(shí)施例中,所述頻譜模型確定單元包括:
[0156]第二獲取單元171,用于獲取所述合成單元對(duì)應(yīng)的頻譜二叉決策樹。
[0157]第二解析單元172,用于對(duì)所述合成單元進(jìn)行文本解析,獲得其音素單元,調(diào)性,詞性,韻律層次等上下文信息,比如,音素單元、調(diào)性、詞性、韻律層次等上下文信息。
[0158]第二決策單元173,用于根據(jù)所述合成文本的上下文信息,在所述頻譜二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn)。
[0159]具體地,進(jìn)行路徑?jīng)Q策的過(guò)程如下:根據(jù)所述合成單元的上下文信息,從所述頻譜二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答;根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑;根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0160]第二輸出單元174,將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
[0161]需要說(shuō)明的是,在實(shí)際應(yīng)用中,上述圖10所示的基頻模型確定單元和圖11所示的頻譜模型確定單元可以分別由各自獨(dú)立的物理單元來(lái)實(shí)現(xiàn),也可以統(tǒng)一由一個(gè)物理單元來(lái)實(shí)現(xiàn)。在需要生成基頻模型時(shí),獲取合成單元對(duì)應(yīng)的基頻二叉決策樹,并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策,得到對(duì)應(yīng)所述合成單元的基頻模型。在需要生成頻譜模型時(shí),獲取合成單元對(duì)應(yīng)的頻譜二叉決策樹,并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策,得到對(duì)應(yīng)所述合成單元的頻譜模型。
[0162]如圖12所示,是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的另一種結(jié)構(gòu)框圖。
[0163]在該實(shí)施例中,所述基頻模型確定單元包括:
[0164]第一確定單元181,用于確定所述合成單元對(duì)應(yīng)的基頻特征序列。
[0165]第一集合獲取單元182,用于獲取所述合成單元對(duì)應(yīng)的基頻模型集合,即所述合成單元的基頻二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型。
[0166]第一計(jì)算單元183,用于計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度。
[0167]第一選擇單元184,用于選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
[0168]與上述基頻模型確定單元的實(shí)現(xiàn)類似,圖13是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的另一種結(jié)構(gòu)框圖。
[0169]在該實(shí)施例中,所述頻譜模型確定單元包括:
[0170]第二確定單元191,用于確定所述合成單元對(duì)應(yīng)的頻譜特征序列。
[0171]第二集合獲取單元192,用于獲取所述合成單元對(duì)應(yīng)的頻譜模型集合,即所述合成單元的基頻二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型。
[0172]第二計(jì)算單元193,用于計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度。
[0173]第二選擇單元194,用于選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
[0174]需要說(shuō)明的是,在實(shí)際應(yīng)用中,上述圖12所示的基頻模型確定單元和圖13所示的頻譜模型確定單元可以分別由各自獨(dú)立的物理單元來(lái)實(shí)現(xiàn),也可以統(tǒng)一由一個(gè)物理單元來(lái)實(shí)現(xiàn)。在需要生成基頻模型時(shí),獲取合成單元對(duì)應(yīng)的基頻二叉決策樹,并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策,得到對(duì)應(yīng)所述合成單元的基頻模型。在需要生成頻譜模型時(shí),獲取合成單元對(duì)應(yīng)的頻譜二叉決策樹,并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策,得到對(duì)應(yīng)所述合成單元的頻譜模型。
[0175]可見(jiàn),本發(fā)明實(shí)施例的語(yǔ)音信號(hào)發(fā)送系統(tǒng),在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率,減少了流量消耗,解決了傳統(tǒng)語(yǔ)音編碼方法不能兼顧音質(zhì)和流量的問(wèn)題,改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)。
[0176]相應(yīng)地,本發(fā)明實(shí)施例還提供一種語(yǔ)音信號(hào)接收系統(tǒng),如圖14所示,是該系統(tǒng)的結(jié)構(gòu)框圖。
[0177]在該實(shí)施例中,所述語(yǔ)音信號(hào)接收系統(tǒng)包括:
[0178]接收模塊141,用于接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串;
[0179]提取模塊142,用于根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列;
[0180]確定模塊143,用于根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列;
[0181]信號(hào)恢復(fù)模塊144,用于根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
[0182]上述確定模塊143可以根據(jù)所述語(yǔ)音合成參數(shù)模型序列和模型序列持續(xù)時(shí)長(zhǎng)確定語(yǔ)音合成參數(shù),生成語(yǔ)音合成參序列。具體實(shí)現(xiàn)過(guò)程可參照前面本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收方法中的描述,在此不再贅述。
[0183]由于本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收系統(tǒng)中語(yǔ)音信號(hào)的恢復(fù)與語(yǔ)音采樣率無(wú)關(guān),因此,可以在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下實(shí)現(xiàn)極低碼流率的信號(hào)傳輸,較好地解決了傳統(tǒng)語(yǔ)音編碼方法的音質(zhì)和流量問(wèn)題,改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn),節(jié)約了網(wǎng)絡(luò)費(fèi)用。
[0184]本發(fā)明實(shí)施例的語(yǔ)音信號(hào)發(fā)送及接收方案可以適用于各類語(yǔ)音(如16k采樣率的超寬帶語(yǔ)音,8k采樣率的窄帶語(yǔ)音等)的編碼,并可得到較好的音質(zhì)。
[0185]本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0186]以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種語(yǔ)音信號(hào)發(fā)送方法,其特征在于,包括: 確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容; 根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型; 拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列; 確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串; 將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容包括: 通過(guò)語(yǔ)音識(shí)別算法確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;或者 通過(guò)人工標(biāo)注的方式獲取待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型包括: 根據(jù)所述文本內(nèi)容對(duì)所述連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)首片斷; 依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)、基頻模型和頻譜模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定合成單元對(duì)應(yīng)的基頻模型包括: 獲取所述合成單元對(duì)應(yīng)的基頻二叉決策樹; 對(duì)所述合成單元進(jìn)行文本解析,獲得所述合成單元的上下文信息; 根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn); 將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定合成單元對(duì)應(yīng)的頻譜模型包括: 獲取所述合成單元對(duì)應(yīng)的頻譜二叉決策樹; 對(duì)所述合成單元進(jìn)行文本解析,獲得其音素單元,調(diào)性,詞性,韻律層次等上下文信息; 根據(jù)所述合成文本的上下文信息,在所述頻譜二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn); 將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述方法還包括:按以下方式構(gòu)建所述合成單元對(duì)應(yīng)的二叉決策樹: 獲取訓(xùn)練數(shù)據(jù); 從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù),所述合成參數(shù)包括:基頻特征和頻譜特征; 根據(jù)所述合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化; 從所述二叉決策樹的根節(jié)點(diǎn)開(kāi)始,依次考察每個(gè)非葉節(jié)點(diǎn); 如果當(dāng)前考察節(jié)點(diǎn)需要分裂,則對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂,并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);否則,將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn); 當(dāng)所有非葉節(jié)點(diǎn)考察完成后,得到所述合成單元的二叉決策樹。
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定合成單元對(duì)應(yīng)的基頻模型包括:確定所述合成單元對(duì)應(yīng)的基頻特征序列; 獲取所述合成單元對(duì)應(yīng)的基頻模型集合; 計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度; 選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定合成單元對(duì)應(yīng)的頻譜模型包括: 確定所述合成單元對(duì)應(yīng)的頻譜特征序列; 獲取所述合成單元對(duì)應(yīng)的頻譜模型集合; 計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度; 選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
9.一種語(yǔ)音信號(hào)接收方法,其特征在于,包括: 接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串; 根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列; 根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列; 根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列包括: 根據(jù)所述語(yǔ)音合成參數(shù)模型序列和模型序列持續(xù)時(shí)長(zhǎng)確定語(yǔ)音合成參數(shù),生成語(yǔ)音合成參序列。
11.一種語(yǔ)音信號(hào)發(fā)送系統(tǒng),其特征在于,包括: 文本獲取模塊,用于確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容; 參數(shù)模型確定模塊,用于根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型; 拼接模塊,用于拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列; 序號(hào)串確定模塊,用于確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串; 發(fā)送模塊,用于將所述序號(hào)串發(fā)送給接收端,以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述文本獲取模塊包括: 語(yǔ)音識(shí)別單元,用于通過(guò)語(yǔ)音識(shí)別算法確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容;或者 標(biāo)注信息獲取單元,用于通過(guò)人工標(biāo)注的方式獲取待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述參數(shù)模型確定模塊包括: 切分單元,用于根據(jù)所述文本內(nèi)容對(duì)所述連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分,得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷; 時(shí)長(zhǎng)確定單元,用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng); 基頻模型確定單元,用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的基頻模型 頻譜模型確定單元,用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的頻譜模型。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述基頻模型確定單元包括: 第一獲取單元,用于獲取所述合成單元對(duì)應(yīng)的基頻二叉決策樹; 第一解析單元,用于對(duì)所述合成單元進(jìn)行文本解析,獲得所述合成單元的上下文信息; 第一決策單元,用于根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn); 第一輸出單元,用于將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述頻譜模型確定單元包括: 第二獲取單元,用于獲取所述合成單元對(duì)應(yīng)的頻譜二叉決策樹; 第二解析單元,用于對(duì)所述合成單元進(jìn)行文本解析,獲得其音素單元,調(diào)性,詞性,韻律層次等上下文信息; 第二決策單元,用于根據(jù)所述合成文本的上下文信息,在所述頻譜二叉樹中進(jìn)行路徑?jīng)Q策,得到對(duì)應(yīng)的葉子節(jié)點(diǎn); 第二輸出單元,用于將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
16.根據(jù)權(quán)利要求14或15所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括:二叉決策樹構(gòu)建模塊,所述二叉決策樹構(gòu)建模塊包括: 訓(xùn)練數(shù)據(jù)獲取單元,用于獲取訓(xùn)練數(shù)據(jù); 參數(shù)提取單元,用于從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù),所述合成參數(shù)包括:基頻特征和頻譜特征; 初始化單元,用于根據(jù)所述合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化;節(jié)點(diǎn)考察單元,用于從所述二叉決策樹的根節(jié)點(diǎn)開(kāi)始,依次考察每個(gè)非葉節(jié)點(diǎn);如果當(dāng)前考察節(jié)點(diǎn)需要分裂,則 對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂,并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù);否則,將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn); 二叉決策樹輸出單元,用于在所述節(jié)點(diǎn)考察單元對(duì)所有非葉節(jié)點(diǎn)考察完成后,輸出所述合成單元的二叉決策樹。
17.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述基頻模型確定單元包括: 第一確定單元,用于確定所述合成單元對(duì)應(yīng)的基頻特征序列; 第一集合獲取單元,用于獲取所述合成單元對(duì)應(yīng)的基頻模型集合; 第一計(jì)算單元,用于計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度; 第一選擇單元,用于選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
18.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述頻譜模型確定單元包括: 第二確定單元,用于確定所述合成單元對(duì)應(yīng)的頻譜特征序列; 第二集合獲取單元,用于獲取所述合成單元對(duì)應(yīng)的頻譜模型集合; 第二計(jì)算單元,用于計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度; 第二選擇單元,用于選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
19.一種語(yǔ)音信號(hào)接收系統(tǒng),其特征在于,包括: 接收模塊,用于接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串; 提取模塊,用于根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列; 確定模塊,用于根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列; 信號(hào)恢復(fù)模塊,用于根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
20.根據(jù)權(quán)利要求19所述的系統(tǒng),其特征在于, 所述確定模塊,具體用于根據(jù)所述語(yǔ)音合成參數(shù)模型序列和模型序列持續(xù)時(shí)長(zhǎng)確定語(yǔ)音合成參數(shù),生成語(yǔ)音 合成參序列。
【文檔編號(hào)】G10L19/005GK103474075SQ201310362024
【公開(kāi)日】2013年12月25日 申請(qǐng)日期:2013年8月19日 優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】江源, 周明, 凌震華, 何婷婷, 胡國(guó)平, 胡郁, 劉慶峰 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1