語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、接收方法及系統(tǒng)的制作方法

文檔序號(hào)：2826154閱讀：283來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、接收方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)，該發(fā)送方法包括：確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型；拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列；確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。本發(fā)明還公開(kāi)了一種語(yǔ)音信號(hào)接收方法及系統(tǒng)。利用本發(fā)明，可以在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下實(shí)現(xiàn)極低碼流率的信號(hào)傳輸。
【專利說(shuō)明】語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、接收方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信號(hào)傳輸【技術(shù)領(lǐng)域】，具體涉及一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)、以及一種語(yǔ)音信號(hào)接收方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及和便攜式設(shè)備的推廣，各種基于手持設(shè)備的聊天軟件應(yīng)運(yùn)而生。語(yǔ)音交互的自然人性化是其他交互手段無(wú)法超越的，特別是在不利于手寫按鍵輸入的手持小屏設(shè)備應(yīng)用上。對(duì)此很多產(chǎn)品都支持語(yǔ)音交互功能，將某終端接收到的語(yǔ)音信號(hào)傳輸至目的端，如騰訊推出的微訊產(chǎn)品即支持Voice Message的語(yǔ)音消息傳輸功能。然而直接傳輸?shù)恼Z(yǔ)音信號(hào)數(shù)據(jù)量往往極大，在互聯(lián)網(wǎng)或通訊網(wǎng)等按流量收費(fèi)的信道中給用戶帶來(lái)了較大的經(jīng)濟(jì)負(fù)擔(dān)。顯然如何在不影響語(yǔ)音質(zhì)量的前提下盡可能壓縮傳送的數(shù)據(jù)量是提高語(yǔ)音信號(hào)傳輸應(yīng)用價(jià)值的前提條件。
[0003]針對(duì)語(yǔ)音信號(hào)傳輸?shù)膯?wèn)題，研究人員嘗試了多種語(yǔ)音編碼方法，對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字量化和壓縮傳輸，在提高語(yǔ)音信號(hào)的恢復(fù)話質(zhì)條件下降低編碼碼率并提升傳輸效率。目前常用的語(yǔ)音信號(hào)壓縮方法有波形編碼和參數(shù)編碼等。其中:
[0004]波形編碼是將時(shí)域的模擬信號(hào)波形經(jīng)過(guò)取樣、量化、編碼，形成數(shù)字信號(hào)，這種編碼方式具有適應(yīng)能力強(qiáng)、話音質(zhì)量高的優(yōu)點(diǎn)。但由于需要保持恢復(fù)原有語(yǔ)音信號(hào)的波形形狀，這種方案碼流率要求較高，在高于16kb/s才能取得較好的音質(zhì)。
[0005]參數(shù)編碼即從原始語(yǔ)音信號(hào)中提取表征語(yǔ)音發(fā)音特征的參量，并對(duì)該特征參量進(jìn)行編碼。這種方案的目標(biāo)在于保持原始語(yǔ)音的語(yǔ)意，保證可懂度。其優(yōu)點(diǎn)在于碼流率較低，但恢復(fù)音質(zhì)受損較多。
[0006]在傳統(tǒng)的語(yǔ)音通信時(shí)代，往往采用時(shí)間計(jì)費(fèi)方式，編碼方法主要考量算法延時(shí)和通信質(zhì)量；而在移動(dòng)互聯(lián)時(shí)代，語(yǔ)音作為數(shù)據(jù)信號(hào)的一種，通常使用流量來(lái)收取費(fèi)用，編碼語(yǔ)音碼流率的高低將直接影響用戶使用的花費(fèi)。此外，傳統(tǒng)電話信道語(yǔ)音只使用8k采樣率，屬于窄帶語(yǔ)音，音質(zhì)受損且存在上限。顯然如果繼續(xù)使用傳統(tǒng)編碼方式處理寬帶或超寬帶語(yǔ)音，需要增加碼流率，成倍提升流量消耗。

【發(fā)明內(nèi)容】

[0007]本發(fā)明實(shí)施例一方面提供一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)，在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下實(shí)現(xiàn)極低碼流率的信號(hào)傳輸。
[0008]本發(fā)明實(shí)施例另一方面提供一種語(yǔ)音信號(hào)接收方法及系統(tǒng)，以降低語(yǔ)音恢復(fù)音質(zhì)損失。
[0009]為此，本發(fā)明提供如下技術(shù)方案:
[0010]一種語(yǔ)音信號(hào)發(fā)送方法，包括:
[0011]確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；
[0012]根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型；[0013]拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列；
[0014]確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；
[0015]將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0016]—種語(yǔ)音信號(hào)發(fā)送系統(tǒng)，包括:
[0017]文本獲取模塊，用于確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；
[0018]參數(shù)模型確定模塊，用于根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型；
[0019]拼接模塊，用于拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列；
[0020]序號(hào)串確定模塊，用于確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；
[0021]發(fā)送模塊，用于將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0022]本發(fā)明實(shí)施例提供的語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)，采用統(tǒng)計(jì)分析模型編碼，其處理方式與語(yǔ)音采樣率無(wú)關(guān)，在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率，減少了流量消耗，解決了傳統(tǒng)語(yǔ)音編碼方法不能兼顧音質(zhì)和流量的問(wèn)題，改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)。
[0023]相應(yīng)地，本發(fā)明實(shí)施例提供的語(yǔ)音信號(hào)接收方法及系統(tǒng)，接收方根據(jù)接收到的語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列，利用該序列通過(guò)語(yǔ)音合成方式得到語(yǔ)音信號(hào)，大大降低了語(yǔ)音恢復(fù)音質(zhì)損失，實(shí)現(xiàn)了語(yǔ)音信號(hào)的極大壓縮和信號(hào)損失的最小化。
【專利附圖】

【附圖說(shuō)明】
[0024]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，還可以根據(jù)這些附圖獲得其他的附圖。
[0025]圖1是本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法的流程圖；
[0026]圖2是本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的一種流程圖；
[0027]圖3是本發(fā)明實(shí)施例中二叉決策樹的構(gòu)建流程圖；
[0028]圖4是本發(fā)明實(shí)施例中一種二叉決策樹的示意圖；
[0029]圖5是本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的另一種流程圖；
[0030]圖6是本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收方法的流程圖；
[0031]圖7是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)的結(jié)構(gòu)框圖；
[0032]圖8是本發(fā)明實(shí)施例中參數(shù)模型確定模塊的結(jié)構(gòu)框圖；
[0033]圖9是本發(fā)明實(shí)施例中二叉決策樹構(gòu)建模塊的結(jié)構(gòu)框圖；
[0034]圖10是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的一種結(jié)構(gòu)框圖；
[0035]圖11是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的一種結(jié)構(gòu)框圖；[0036]圖12是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的另一種結(jié)構(gòu)框圖；
[0037]圖13是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的另一種結(jié)構(gòu)框圖；
[0038]圖14是本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收系統(tǒng)的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0039]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例的方案，下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0040]針對(duì)傳統(tǒng)編碼方式處理寬帶或超寬帶語(yǔ)音，需要增加碼流率，流量消耗大的問(wèn)題，本發(fā)明實(shí)施例提供一種語(yǔ)音信號(hào)發(fā)送方法及系統(tǒng)，以及一種語(yǔ)音信號(hào)接收方法及系統(tǒng)，適用于各類語(yǔ)音(如16KHz采樣率的超寬帶語(yǔ)音、8KHz采樣率的窄帶語(yǔ)音等)的編碼，在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下，實(shí)現(xiàn)極低碼流率的信號(hào)傳輸。
[0041]如圖1所示，是本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法的流程圖，包括以下步驟:
[0042]步驟101，確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
[0043]具體地，可以通過(guò)語(yǔ)音識(shí)別算法自動(dòng)獲取所述文本內(nèi)容，當(dāng)然也可以通過(guò)人工標(biāo)注的方式來(lái)獲取所述文本內(nèi)容。另外，為了進(jìn)一步保證語(yǔ)音識(shí)別得到的文本內(nèi)容的正確性，還可以對(duì)語(yǔ)音識(shí)別得到的文本內(nèi)容進(jìn)行人工編輯修正。
[0044]步驟102，根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型。
[0045]所述合成單元是預(yù)先設(shè)定的最小合成對(duì)象，如音節(jié)單元、音素單元，甚至是音素HMM模型中的狀態(tài)單元等。
[0046]為了盡量減少接收端恢復(fù)音質(zhì)的損失，使接收端能夠通過(guò)語(yǔ)音合成方式恢復(fù)連續(xù)語(yǔ)音信號(hào)，發(fā)送端從原始語(yǔ)音信號(hào)中獲取的語(yǔ)音合成參數(shù)模型應(yīng)盡可能符合原語(yǔ)音信號(hào)特點(diǎn)，以減少信號(hào)壓縮和恢復(fù)的損失。
[0047]具體地，可以根據(jù)所述文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷，進(jìn)而得到各合成單元對(duì)應(yīng)的時(shí)長(zhǎng)、基頻模型和頻譜模型，具體過(guò)程將在后面詳細(xì)描述。
[0048]步驟103，拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列。
[0049]步驟104，確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串。
[0050]步驟105，將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0051]本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法，采用統(tǒng)計(jì)分析模型編碼，其處理方式與語(yǔ)音采樣率無(wú)關(guān)，對(duì)16kHz超寬帶語(yǔ)音編碼無(wú)需付出額外碼流率代價(jià)，其音質(zhì)效果好，編碼流量低。以一段典型的中文語(yǔ)音片段為例，其有效語(yǔ)音段持續(xù)10s，擁有80個(gè)聲韻母(音素)，以每個(gè)音素?fù)碛?個(gè)基頻狀態(tài)、5個(gè)頻譜狀態(tài)、I個(gè)時(shí)長(zhǎng)狀態(tài)計(jì)，每狀態(tài)采用I個(gè)字節(jié)編碼(8bit),其碼流率為 m:m=[80* (5+5+1) ] *8bit/10s=704b/s,低于 lkb/s,屬于極低碼率編碼方法，碼流率大大低于當(dāng)前主流語(yǔ)音通訊領(lǐng)域的各項(xiàng)編碼標(biāo)準(zhǔn)，網(wǎng)絡(luò)通訊的流量將會(huì)大大降低。相較當(dāng)前主流的通信領(lǐng)域語(yǔ)音編碼方法，本發(fā)明方法的語(yǔ)音編碼方式可處理超寬帶語(yǔ)音(16kHz采樣率)，音質(zhì)更高；且具有更低的碼流率(lkb/s以下)，有效降低網(wǎng)絡(luò)通信流量。
[0052]如圖2所示，是本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的一種流程圖，包括以下步驟:
[0053]步驟201，根據(jù)文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷。
[0054]具體地，可以將所述連續(xù)語(yǔ)音信號(hào)與所述文本內(nèi)容中合成單元對(duì)應(yīng)的聲學(xué)模型序列做強(qiáng)制對(duì)齊，即計(jì)算語(yǔ)音信號(hào)相應(yīng)于所述聲學(xué)模型序列的語(yǔ)音識(shí)別解碼，從而獲取各合成單元對(duì)應(yīng)的語(yǔ)音片段。
[0055]需要說(shuō)明的是，所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來(lái)說(shuō)，如果對(duì)碼流率要求較高，則選擇較大的語(yǔ)音單元，如音節(jié)單元、音素單元等；反之若對(duì)音質(zhì)要求較高，則可以選擇更小的語(yǔ)音單元，如模型的狀態(tài)單元、特征流單元等。
[0056]在采用基于HMM (Hidden Markov Model，隱馬爾可夫模型)的聲學(xué)模型設(shè)置下，還可進(jìn)一步選取HMM模型的各狀態(tài)作為合成單元，并獲取相應(yīng)的基于狀態(tài)層的語(yǔ)音片斷。隨后對(duì)每個(gè)狀態(tài)分別從其對(duì)應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個(gè)狀態(tài)對(duì)應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語(yǔ)音合成參數(shù)模型能夠更細(xì)致地描述語(yǔ)音信號(hào)的特點(diǎn)。
[0057]步驟202，獲取當(dāng)前考察的合成單元。
[0058]步驟203，統(tǒng)計(jì)當(dāng)前考察的合成單元對(duì)應(yīng)的語(yǔ)音片段時(shí)長(zhǎng)。
[0059]步驟204，確定當(dāng)前考察的合成單元的基頻模型。
[0060]具體地,首先獲取當(dāng)前考察的合成單元對(duì)應(yīng)的基頻二叉決策樹；對(duì)所述合成單元進(jìn)行文本解析，獲得所述合成單元的上下文信息，比如，音素單元、調(diào)性、詞性、韻律層次等上下文信息；然后，根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)，將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。
[0061]具體地，進(jìn)行路徑?jīng)Q策的過(guò)程如下:
[0062]根據(jù)所述合成單元的上下文信息，從所述基頻二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答；根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑；根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0063]步驟205，確定當(dāng)前考察的合成單元的頻譜模型。
[0064]具體地,首先獲取當(dāng)前考察的合成單元對(duì)應(yīng)的基頻二叉決策樹；對(duì)所述合成單元進(jìn)行文本解析，獲得所述合成單元的上下文信息，比如，音素單元、調(diào)性、詞性、韻律層次等上下文信息；然后，根據(jù)所述上下文信息，在所述頻譜二叉決策樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)，將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
[0065]具體地，進(jìn)行路徑?jīng)Q策的過(guò)程如下:
[0066]根據(jù)所述合成單元的上下文信息，從所述頻譜二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答；根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑；根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0067]步驟206，判斷當(dāng)前考察的合成單元是否為最后一個(gè)合成單元。如果是，則執(zhí)行步驟207 ;否則，執(zhí)行步驟202。
[0068]步驟207，輸出各合成單元對(duì)應(yīng)的語(yǔ)音片段時(shí)長(zhǎng)、基頻模型及頻譜模型。[0069]合成單元對(duì)應(yīng)的語(yǔ)音合成參數(shù)模型的質(zhì)量和二叉決策樹(包括基頻二叉決策樹和頻譜二叉決策樹)的構(gòu)建有著直接的關(guān)系。在本發(fā)明實(shí)施例中，采用從下而上的聚類方法構(gòu)建二叉決策樹。
[0070]如圖3所示，是本發(fā)明實(shí)施例中二叉決策樹的構(gòu)建流程圖，包括以下步驟:
[0071]步驟301，獲取訓(xùn)練數(shù)據(jù)。
[0072]具體地，可以采集大量的語(yǔ)音訓(xùn)練數(shù)據(jù)并對(duì)其進(jìn)行文本標(biāo)注，然后根據(jù)標(biāo)注的文本內(nèi)容進(jìn)行基本語(yǔ)音單元乃至合成單元(如基本語(yǔ)音單元模型的狀態(tài)單元)的語(yǔ)音片斷切分，獲取各合成單元對(duì)應(yīng)的語(yǔ)音片斷集合，并將每個(gè)合成單元對(duì)應(yīng)的語(yǔ)音片斷集合中的語(yǔ)音片斷作為該合成單元對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。
[0073]步驟302，從所述訓(xùn)練數(shù)據(jù)中提取合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù)。
[0074]所述合成參數(shù)包括:基頻特征和頻譜特征等。
[0075]步驟303，根據(jù)提取的合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化，并設(shè)置根節(jié)點(diǎn)作為當(dāng)前考察節(jié)點(diǎn)。
[0076]對(duì)所述二叉決策樹進(jìn)行初始化即構(gòu)建只有根節(jié)點(diǎn)的二叉決策樹。
[0077]步驟304，判斷當(dāng)前考察節(jié)點(diǎn)是否需要分裂。如果是，則執(zhí)行步驟305 ;否則執(zhí)行步驟 306。
[0078]挑選預(yù)設(shè)問(wèn)題集合中的剩余問(wèn)題對(duì)當(dāng)前考察節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行分裂嘗試，獲取子節(jié)點(diǎn)。所述剩余問(wèn)題是指沒(méi)有詢問(wèn)過(guò)的問(wèn)題。
[0079]具體地，可以首先計(jì)算當(dāng)前考察節(jié)點(diǎn)的樣本聚集度，即描述語(yǔ)音片斷集合內(nèi)樣本的分散程度。一般來(lái)說(shuō)，分散程度越大，則說(shuō)明該節(jié)點(diǎn)分裂的可能性越大，否則分裂的可能性越小。具體可以采用樣本方差來(lái)衡量節(jié)點(diǎn)的樣本聚集度，即計(jì)算該節(jié)點(diǎn)下所有樣本距離類中心的距離(或平方)的均值。然后計(jì)算分裂后子節(jié)點(diǎn)的樣本聚集度，并選擇具有最大樣本聚集度下降幅度的問(wèn)題作為優(yōu)選問(wèn)題。
[0080]然后根據(jù)所述優(yōu)選問(wèn)題進(jìn)行分裂嘗試，得到子節(jié)點(diǎn)。如果根據(jù)所述優(yōu)選問(wèn)題分裂的聚集度下降小于設(shè)定的閾值，或者分裂后的子節(jié)點(diǎn)中訓(xùn)練數(shù)據(jù)最低于設(shè)定的門限，則確定當(dāng)前考察節(jié)點(diǎn)不再繼續(xù)分裂。
[0081 ] 步驟305，對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂，并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。然后，執(zhí)行步驟307。
[0082]具體地，可以根據(jù)所述優(yōu)選問(wèn)題對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂。
[0083]步驟306，將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)。
[0084]步驟307，判斷所述二叉決策樹中是否還有未考察過(guò)的非葉節(jié)點(diǎn)。如果是，則執(zhí)行步驟308 ;否則執(zhí)行步驟309。
[0085]步驟308，獲取下一個(gè)未考察過(guò)的非葉節(jié)點(diǎn)作為當(dāng)前考察節(jié)點(diǎn)。然后，返回步驟304。
[0086]步驟309，輸出二叉決策樹。
[0087]需要說(shuō)明的是，在本發(fā)明實(shí)施例中，基頻二叉決策樹和頻譜二叉決策樹都可以按照?qǐng)D3所示流程來(lái)建立。
[0088]如圖4所示，是本發(fā)明實(shí)施例中一種二叉決策樹的示意圖。
[0089]圖4展示了音素”*_aa+”的第三個(gè)狀態(tài)的二叉決策樹的構(gòu)建圖。如圖4所示，在根節(jié)點(diǎn)分裂時(shí)根據(jù)對(duì)預(yù)設(shè)問(wèn)題“右相鄰音素是否為鼻音”的回答可以將根節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)拆分，隨后在下一層節(jié)點(diǎn)分裂時(shí)，如對(duì)左節(jié)點(diǎn)分裂時(shí)，根據(jù)對(duì)預(yù)設(shè)問(wèn)題“左相鄰音素是否為濁輔音”的回答可以將所述節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)進(jìn)一步拆分。最后在節(jié)點(diǎn)無(wú)法進(jìn)一步拆分時(shí)設(shè)定其為葉節(jié)點(diǎn)，并利用其所對(duì)應(yīng)得訓(xùn)練數(shù)據(jù)訓(xùn)練得到數(shù)學(xué)統(tǒng)計(jì)模型，如高斯模型，將該數(shù)字統(tǒng)計(jì)模型作為當(dāng)前葉節(jié)點(diǎn)對(duì)應(yīng)的合成參數(shù)模型。
[0090]顯然，在圖2所示實(shí)施例中，語(yǔ)音合成參數(shù)模型的挑選主要依賴于基于文本分析的二叉決策樹，如通過(guò)當(dāng)前考察的合成單元上下文的音素類別、當(dāng)前音素的發(fā)音類型等。這樣挑選語(yǔ)音合成參數(shù)模型方便快捷，但對(duì)特定語(yǔ)音信號(hào)輸入，這種具有普適性的語(yǔ)音合成參數(shù)模型確定方法無(wú)法很好地體現(xiàn)發(fā)音特點(diǎn)。
[0091]為此，圖5示出了本發(fā)明實(shí)施例中確定各合成單元的語(yǔ)音合成參數(shù)模型的另一種流程圖，包括以下步驟:
[0092]步驟501，根據(jù)文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷。
[0093]具體地，可以將所述連續(xù)語(yǔ)音信號(hào)與預(yù)設(shè)的合成單元對(duì)應(yīng)的聲學(xué)模型做強(qiáng)制對(duì)齊，即計(jì)算語(yǔ)音信號(hào)相應(yīng)于所述聲學(xué)模型序列的語(yǔ)音識(shí)別解碼，從而獲取各合成單元對(duì)應(yīng)的語(yǔ)音片段。
[0094]需要說(shuō)明的是，所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來(lái)說(shuō)，如果對(duì)碼流率要求較高，則選擇較大的語(yǔ)音單元，如音節(jié)單元、音素單元等；反之若對(duì)音質(zhì)要求較高，則可以選擇更小的語(yǔ)音單元，如模型的狀態(tài)單元、特征流單元等。
[0095]在采用基于HMM (Hidden Markov Model，隱馬爾可夫模型)的聲學(xué)模型設(shè)置下，還可進(jìn)一步選取HMM模型的各狀態(tài)作為合成單元，并獲取相應(yīng)的基于狀態(tài)層的語(yǔ)音片斷。隨后對(duì)每個(gè)狀態(tài)分別從其對(duì)應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個(gè)狀態(tài)對(duì)應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語(yǔ)音合成參數(shù)模型能夠更細(xì)致地描述語(yǔ)音信號(hào)的特點(diǎn)。
[0096]步驟502，確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)、以及所述連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的基頻特征序列和頻譜特征序列。
[0097]步驟503，根據(jù)所述基頻特征序列及所述合成單元對(duì)應(yīng)的基頻模型集合確定所述合成單元的基頻模型。
[0098]具體地,確定所述合成單元對(duì)應(yīng)的基頻特征序列，并獲取所述合成單元對(duì)應(yīng)的基頻模型集合，即所述合成單元的基頻二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型。然后計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度，并選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
[0099]步驟504，根據(jù)所述頻譜特征序列及所述合成單元對(duì)應(yīng)的頻譜模型集合確定各合成單元的頻譜模型。
[0100]具體地,確定所述合成單元對(duì)應(yīng)的頻譜特征序列，并獲取所述合成單元對(duì)應(yīng)的頻譜模型集合，即所述合成單元的頻譜二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型。然后計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度，并選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
[0101]可見(jiàn)，本發(fā)明實(shí)施例的語(yǔ)音信號(hào)發(fā)送方法，在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率，減少了流量消耗，解決了傳統(tǒng)語(yǔ)音編碼方法不能兼顧音質(zhì)和流量的問(wèn)題，改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)。
[0102]相應(yīng)地，本發(fā)明實(shí)施例還提供一種語(yǔ)音信號(hào)接收方法，如圖6所示，是該方法的流程圖，包括以下步驟:
[0103]步驟601，接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串。
[0104]步驟602，根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列。
[0105]由于每個(gè)語(yǔ)音合成參數(shù)模型都有一個(gè)唯一的序號(hào)，而且，在發(fā)送方和接收方都保存有相同的碼本，所述碼本中包含了所有語(yǔ)音合成參數(shù)模型。因此，接收方根據(jù)收到的序號(hào)串即可從碼本中獲取對(duì)應(yīng)各序號(hào)的語(yǔ)音合成參數(shù)模型，拼接這些語(yǔ)音合成參數(shù)模型得到所述語(yǔ)音合成參數(shù)模型序列。
[0106]步驟603，根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列。
[0107]具體地，可以根據(jù)所述語(yǔ)音合成參數(shù)模型序列和合成單元對(duì)應(yīng)的時(shí)長(zhǎng)序列確定語(yǔ)音合成參數(shù)，生成語(yǔ)音合成參數(shù)序列。
[0108]比如，按照以下公式來(lái)得到語(yǔ)音合成參數(shù)序列:
[0109]0max=arg max Ρ(θ|, λ，T)
[0110]其中，O為參數(shù)序列，λ為給定的語(yǔ)音合成參數(shù)模型序列，T為各合成單元對(duì)應(yīng)的時(shí)長(zhǎng)序列。
[0111]Omax即最終生成的基頻參數(shù)序列或頻譜參數(shù)序列，在單元時(shí)長(zhǎng)序列T的范圍內(nèi)，求取相應(yīng)于給定的語(yǔ)音合成參數(shù)模型序列λ的具有最大似然值的參數(shù)序列Omax，從而得到用于語(yǔ)音合成的參數(shù)序列。
[0112]步驟604，根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
[0113]將上步得到的語(yǔ)音合成參數(shù)序列Omax送入語(yǔ)音合成器即可得到對(duì)應(yīng)語(yǔ)音。語(yǔ)音合成器是一種語(yǔ)音信號(hào)的分析恢復(fù)工具，可以將參數(shù)化的語(yǔ)音數(shù)據(jù)(如基頻參數(shù)、頻譜參數(shù))恢復(fù)出高質(zhì)量的語(yǔ)音波形。
[0114]可見(jiàn)，本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法及接收方法，通過(guò)對(duì)連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音合成參數(shù)模型的提取和信號(hào)合成，實(shí)現(xiàn)了語(yǔ)音信號(hào)的極大壓縮和信號(hào)損失的最小化，即有效地減少信號(hào)失真。
[0115]相應(yīng)地，本發(fā)明實(shí)施例還提供一種語(yǔ)音信號(hào)發(fā)送系統(tǒng)，如圖7所示，是該系統(tǒng)的結(jié)構(gòu)框圖。
[0116]在該實(shí)施例中，所述語(yǔ)音信號(hào)發(fā)送系統(tǒng)包括:
[0117]文本獲取模塊701，用于確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；
[0118]參數(shù)模型確定模塊702，用于根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型；
[0119]拼接模塊703，用于拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列；
[0120]序號(hào)串確定模塊704，用于確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；
[0121]發(fā)送模塊705，用于將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
[0122]在實(shí)際應(yīng)用中，上述文本獲取模塊701可以通過(guò)語(yǔ)音識(shí)別算法自動(dòng)獲取所述文本內(nèi)容，當(dāng)然也可以通過(guò)人工標(biāo)注的方式來(lái)獲取所述文本內(nèi)容。為此,可以在文本獲取模塊701中設(shè)置語(yǔ)音識(shí)別單元和/或標(biāo)注信息獲取單元，以便可以使用戶選擇不同方式來(lái)得到待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。其中，所述語(yǔ)音識(shí)別單元，用于通過(guò)語(yǔ)音識(shí)別算法確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；所述標(biāo)注信息獲取單元用于通過(guò)人工標(biāo)注的方式獲取待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
[0123]所述合成單元是預(yù)先設(shè)定的最小合成對(duì)象，如音節(jié)單元、音素單元，甚至是音素HMM模型中的狀態(tài)單元等。
[0124]為了盡量減少接收端恢復(fù)音質(zhì)的損失，使接收端能夠通過(guò)語(yǔ)音合成方式恢復(fù)連續(xù)語(yǔ)音信號(hào)，參數(shù)模型確定模塊702從原始語(yǔ)音信號(hào)中獲取的語(yǔ)音合成參數(shù)模型應(yīng)盡可能符合原語(yǔ)音信號(hào)特點(diǎn)，以減少信號(hào)壓縮和恢復(fù)的損失。具體地，可以根據(jù)所述文本內(nèi)容對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷，進(jìn)而得到各合成單元對(duì)應(yīng)的時(shí)長(zhǎng)、基頻模型和頻譜模型。
[0125]本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送系統(tǒng)，采用統(tǒng)計(jì)分析模型編碼，其處理方式與語(yǔ)音采樣率無(wú)關(guān)，對(duì)16kHz超寬帶語(yǔ)音編碼無(wú)需付出額外碼流率代價(jià)，其音質(zhì)效果好，編碼流量低。相較當(dāng)前主流的通信領(lǐng)域語(yǔ)音編碼系統(tǒng)，本發(fā)明系統(tǒng)的語(yǔ)音編碼方式可處理超寬帶語(yǔ)音(16kHz采樣率)，音質(zhì)更高；且具有更低的碼流率(lkb/s以下)，有效降低網(wǎng)絡(luò)通信流量。
[0126]如圖8所示，是本發(fā)明實(shí)施例中參數(shù)模型確定模塊的一種結(jié)構(gòu)框圖。
[0127]所述參數(shù)模型確定模塊包括:
[0128]切分單元801，用于根據(jù)所述文本內(nèi)容對(duì)所述連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷。
[0129]具體地，可以將連續(xù)語(yǔ)音信號(hào)與所述文本內(nèi)容中合成單元對(duì)應(yīng)的聲學(xué)模型序列做強(qiáng)制對(duì)齊，即計(jì)算語(yǔ)音信號(hào)相應(yīng)于所述聲學(xué)模型序列的語(yǔ)音識(shí)別解碼，從而獲取各合成單元對(duì)應(yīng)的語(yǔ)音片段。
[0130]需要說(shuō)明的是，所述合成單元可以根據(jù)不同的應(yīng)用需求而選擇不同規(guī)格。一般來(lái)說(shuō)，如果對(duì)碼流率要求較高，則選擇較大的語(yǔ)音單元，如音節(jié)單元、音素單元等；反之若對(duì)音質(zhì)要求較高，則可以選擇更小的語(yǔ)音單元，如模型的狀態(tài)單元、特征流單元等。在采用基于HMM (Hidden Markov Model，隱馬爾可夫模型)的聲學(xué)模型設(shè)置下，還可進(jìn)一步選取HMM模型的各狀態(tài)作為合成單元，并獲取相應(yīng)的基于狀態(tài)層的語(yǔ)音片斷。隨后對(duì)每個(gè)狀態(tài)分別從其對(duì)應(yīng)的基頻二叉決策樹及頻譜二叉決策樹中確定每個(gè)狀態(tài)對(duì)應(yīng)的基頻模型和頻譜模型。這樣可以使獲取的語(yǔ)音合成參數(shù)模型能夠更細(xì)致地描述語(yǔ)音信號(hào)的特點(diǎn)。
[0131]時(shí)長(zhǎng)確定單元802，用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)。
[0132]基頻模型確定單元803，用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的基頻模型。
[0133]頻譜模型確定單元804，用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的頻譜模型。
[0134]在實(shí)際應(yīng)用中，上述基頻模型確定單元803和頻譜模型確定單元804可以有多種實(shí)現(xiàn)方式，比如，可以根據(jù)二叉決策樹來(lái)得到基頻模型和頻譜模型，為此，在本發(fā)明語(yǔ)音信號(hào)發(fā)送系統(tǒng)的另一實(shí)施例中，所述系統(tǒng)還包括二叉決策樹構(gòu)建模塊，用于構(gòu)建基頻二叉決策樹及頻譜二叉決策樹。另外，上述基頻模型確定單元803和頻譜模型確定單元804還可以基于信號(hào)特征優(yōu)化來(lái)得到基頻模型和頻譜模型，對(duì)此將在后面詳細(xì)描述。
[0135]如圖9所示，是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中二叉決策樹構(gòu)建模塊的結(jié)構(gòu)框圖。
[0136]所述二叉決策樹構(gòu)建模塊包括:
[0137]訓(xùn)練數(shù)據(jù)獲取單元901，用于獲取訓(xùn)練數(shù)據(jù)；
[0138]參數(shù)提取單元902，用于從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù)，所述合成參數(shù)包括:基頻特征和頻譜特征；
[0139]初始化單元903，用于根據(jù)所述合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化，即構(gòu)建只有根節(jié)點(diǎn)的二叉決策樹；
[0140]節(jié)點(diǎn)考察單元904，用于從所述二叉決策樹的根節(jié)點(diǎn)開(kāi)始，依次考察每個(gè)非葉節(jié)點(diǎn)；如果當(dāng)前考察節(jié)點(diǎn)需要分裂，則對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂，并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)；否則，將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)；
[0141]二叉決策樹輸出單元905，用于在所述節(jié)點(diǎn)考察單元對(duì)所有非葉節(jié)點(diǎn)考察完成后，輸出所述合成單元的二叉決策樹。
[0142]在該實(shí)施例中，訓(xùn)練數(shù)據(jù)獲取單元901具體可以采集大量的語(yǔ)音訓(xùn)練數(shù)據(jù)并對(duì)其進(jìn)行文本標(biāo)注，然后根據(jù)標(biāo)注的文本內(nèi)容進(jìn)行基本語(yǔ)音單元乃至合成單元(如基本語(yǔ)音單元模型的狀態(tài)單元)的語(yǔ)音片斷切分，獲取各合成單元對(duì)應(yīng)的語(yǔ)音片斷集合，并將每個(gè)合成單元對(duì)應(yīng)的語(yǔ)音片斷集合中的語(yǔ)音片斷作為該合成單元對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。
[0143]上述節(jié)點(diǎn)考察單元904在判斷當(dāng)前考察節(jié)點(diǎn)是否需要分裂時(shí)，可以根據(jù)當(dāng)前考察節(jié)點(diǎn)的樣本聚集度，選擇具有最大樣本聚集度下降幅度的問(wèn)題作為優(yōu)選問(wèn)題進(jìn)行分裂嘗試，獲取子節(jié)點(diǎn)。如果根據(jù)所述優(yōu)選問(wèn)題分裂的聚集度下降小于設(shè)定的閾值，或者分裂后的子節(jié)點(diǎn)中訓(xùn)練數(shù)據(jù)最低于設(shè)定的門限，則確定當(dāng)前考察節(jié)點(diǎn)不再繼續(xù)分裂。
[0144]上述考察及分裂過(guò)程可參照前面本發(fā)明實(shí)施例語(yǔ)音信號(hào)發(fā)送方法中的描述，在此不再贅述。
[0145]需要說(shuō)明的是，在本發(fā)明實(shí)施例中，基頻二叉決策樹和頻譜二叉決策樹都可以由該二叉決策樹構(gòu)建模塊來(lái)建立，其實(shí)現(xiàn)過(guò)程相類似，在此不再一一詳細(xì)說(shuō)明。
[0146]基于上述基頻二叉決策樹和頻譜二叉決策樹，下面進(jìn)一步詳細(xì)說(shuō)明本發(fā)明實(shí)施例中基頻模型確定單元和頻譜模型確定單元的實(shí)現(xiàn)方案。
[0147]如圖10所示，是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的一種結(jié)構(gòu)框圖。
[0148]在該實(shí)施例中，所述基頻模型確定單元包括:
[0149]第一獲取單元161，用于獲取所述合成單元對(duì)應(yīng)的基頻二叉決策樹。
[0150]第一解析單元162，用于對(duì)所述合成單元進(jìn)行文本解析，獲得所述合成單元的上下文信息，比如，音素單元、調(diào)性、詞性、韻律層次等上下文信息。
[0151]第一決策單元163，用于根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)。
[0152]具體地，進(jìn)行路徑?jīng)Q策的過(guò)程如下:根據(jù)所述合成單元的上下文信息，從所述基頻二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答；根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑；根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0153]第一輸出單元164，用于將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。[0154]與上述基頻模型確定單元的實(shí)現(xiàn)類似，如圖11所示，是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的一種結(jié)構(gòu)框圖。
[0155]在該實(shí)施例中,所述頻譜模型確定單元包括:
[0156]第二獲取單元171，用于獲取所述合成單元對(duì)應(yīng)的頻譜二叉決策樹。
[0157]第二解析單元172，用于對(duì)所述合成單元進(jìn)行文本解析，獲得其音素單元，調(diào)性，詞性，韻律層次等上下文信息，比如，音素單元、調(diào)性、詞性、韻律層次等上下文信息。
[0158]第二決策單元173，用于根據(jù)所述合成文本的上下文信息，在所述頻譜二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)。
[0159]具體地，進(jìn)行路徑?jīng)Q策的過(guò)程如下:根據(jù)所述合成單元的上下文信息，從所述頻譜二叉決策樹的根節(jié)點(diǎn)開(kāi)始依次對(duì)各節(jié)點(diǎn)分裂問(wèn)題進(jìn)行回答；根據(jù)回答結(jié)果獲取一條自上而下的匹配路徑；根據(jù)所述匹配路徑獲得葉子節(jié)點(diǎn)。
[0160]第二輸出單元174，將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
[0161]需要說(shuō)明的是,在實(shí)際應(yīng)用中，上述圖10所示的基頻模型確定單元和圖11所示的頻譜模型確定單元可以分別由各自獨(dú)立的物理單元來(lái)實(shí)現(xiàn)，也可以統(tǒng)一由一個(gè)物理單元來(lái)實(shí)現(xiàn)。在需要生成基頻模型時(shí)，獲取合成單元對(duì)應(yīng)的基頻二叉決策樹，并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策，得到對(duì)應(yīng)所述合成單元的基頻模型。在需要生成頻譜模型時(shí)，獲取合成單元對(duì)應(yīng)的頻譜二叉決策樹，并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策，得到對(duì)應(yīng)所述合成單元的頻譜模型。
[0162]如圖12所示，是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中基頻模型確定單元的另一種結(jié)構(gòu)框圖。
[0163]在該實(shí)施例中，所述基頻模型確定單元包括:
[0164]第一確定單元181，用于確定所述合成單元對(duì)應(yīng)的基頻特征序列。
[0165]第一集合獲取單元182，用于獲取所述合成單元對(duì)應(yīng)的基頻模型集合，即所述合成單元的基頻二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型。
[0166]第一計(jì)算單元183，用于計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度。
[0167]第一選擇單元184，用于選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
[0168]與上述基頻模型確定單元的實(shí)現(xiàn)類似，圖13是本發(fā)明實(shí)施例中語(yǔ)音信號(hào)發(fā)送系統(tǒng)中頻譜模型確定單元的另一種結(jié)構(gòu)框圖。
[0169]在該實(shí)施例中，所述頻譜模型確定單元包括:
[0170]第二確定單元191，用于確定所述合成單元對(duì)應(yīng)的頻譜特征序列。
[0171]第二集合獲取單元192，用于獲取所述合成單元對(duì)應(yīng)的頻譜模型集合，即所述合成單元的基頻二叉決策樹的所有葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型。
[0172]第二計(jì)算單元193，用于計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度。
[0173]第二選擇單元194，用于選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
[0174]需要說(shuō)明的是，在實(shí)際應(yīng)用中，上述圖12所示的基頻模型確定單元和圖13所示的頻譜模型確定單元可以分別由各自獨(dú)立的物理單元來(lái)實(shí)現(xiàn)，也可以統(tǒng)一由一個(gè)物理單元來(lái)實(shí)現(xiàn)。在需要生成基頻模型時(shí)，獲取合成單元對(duì)應(yīng)的基頻二叉決策樹，并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策，得到對(duì)應(yīng)所述合成單元的基頻模型。在需要生成頻譜模型時(shí)，獲取合成單元對(duì)應(yīng)的頻譜二叉決策樹，并對(duì)合成單元進(jìn)行相應(yīng)的解析及決策，得到對(duì)應(yīng)所述合成單元的頻譜模型。
[0175]可見(jiàn)，本發(fā)明實(shí)施例的語(yǔ)音信號(hào)發(fā)送系統(tǒng)，在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下極大地降低了傳輸碼流率，減少了流量消耗，解決了傳統(tǒng)語(yǔ)音編碼方法不能兼顧音質(zhì)和流量的問(wèn)題，改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)。
[0176]相應(yīng)地，本發(fā)明實(shí)施例還提供一種語(yǔ)音信號(hào)接收系統(tǒng)，如圖14所示，是該系統(tǒng)的結(jié)構(gòu)框圖。
[0177]在該實(shí)施例中，所述語(yǔ)音信號(hào)接收系統(tǒng)包括:
[0178]接收模塊141，用于接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；
[0179]提取模塊142，用于根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列；
[0180]確定模塊143，用于根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列；
[0181]信號(hào)恢復(fù)模塊144，用于根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
[0182]上述確定模塊143可以根據(jù)所述語(yǔ)音合成參數(shù)模型序列和模型序列持續(xù)時(shí)長(zhǎng)確定語(yǔ)音合成參數(shù)，生成語(yǔ)音合成參序列。具體實(shí)現(xiàn)過(guò)程可參照前面本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收方法中的描述，在此不再贅述。
[0183]由于本發(fā)明實(shí)施例語(yǔ)音信號(hào)接收系統(tǒng)中語(yǔ)音信號(hào)的恢復(fù)與語(yǔ)音采樣率無(wú)關(guān)，因此，可以在保證語(yǔ)音恢復(fù)音質(zhì)損失最小化的前提下實(shí)現(xiàn)極低碼流率的信號(hào)傳輸，較好地解決了傳統(tǒng)語(yǔ)音編碼方法的音質(zhì)和流量問(wèn)題，改善了移動(dòng)網(wǎng)絡(luò)時(shí)代下用戶通信需求體驗(yàn)，節(jié)約了網(wǎng)絡(luò)費(fèi)用。
[0184]本發(fā)明實(shí)施例的語(yǔ)音信號(hào)發(fā)送及接收方案可以適用于各類語(yǔ)音(如16k采樣率的超寬帶語(yǔ)音，8k采樣率的窄帶語(yǔ)音等)的編碼，并可得到較好的音質(zhì)。
[0185]本說(shuō)明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述，各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可，每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其，對(duì)于系統(tǒng)實(shí)施例而言，由于其基本相似于方法實(shí)施例，所以描述得比較簡(jiǎn)單，相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的，其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個(gè)地方，或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上?？梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下，即可以理解并實(shí)施。
[0186]以上對(duì)本發(fā)明實(shí)施例進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及設(shè)備；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【權(quán)利要求】
1.一種語(yǔ)音信號(hào)發(fā)送方法，其特征在于，包括: 確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型；拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列；確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容包括: 通過(guò)語(yǔ)音識(shí)別算法確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；或者通過(guò)人工標(biāo)注的方式獲取待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型包括: 根據(jù)所述文本內(nèi)容對(duì)所述連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)首片斷；依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)、基頻模型和頻譜模型。
4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述確定合成單元對(duì)應(yīng)的基頻模型包括: 獲取所述合成單元對(duì)應(yīng)的基頻二叉決策樹；對(duì)所述合成單元進(jìn)行文本解析，獲得所述合成單元的上下文信息；根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)；將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。
5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述確定合成單元對(duì)應(yīng)的頻譜模型包括: 獲取所述合成單元對(duì)應(yīng)的頻譜二叉決策樹；對(duì)所述合成單元進(jìn)行文本解析，獲得其音素單元，調(diào)性，詞性，韻律層次等上下文信息；根據(jù)所述合成文本的上下文信息，在所述頻譜二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)；將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
6.根據(jù)權(quán)利要求4或5所述的方法，其特征在于，所述方法還包括:按以下方式構(gòu)建所述合成單元對(duì)應(yīng)的二叉決策樹: 獲取訓(xùn)練數(shù)據(jù)；從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù)，所述合成參數(shù)包括:基頻特征和頻譜特征；根據(jù)所述合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化；從所述二叉決策樹的根節(jié)點(diǎn)開(kāi)始，依次考察每個(gè)非葉節(jié)點(diǎn)；如果當(dāng)前考察節(jié)點(diǎn)需要分裂，則對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂，并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)；否則，將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)；當(dāng)所有非葉節(jié)點(diǎn)考察完成后，得到所述合成單元的二叉決策樹。
7.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述確定合成單元對(duì)應(yīng)的基頻模型包括:確定所述合成單元對(duì)應(yīng)的基頻特征序列；獲取所述合成單元對(duì)應(yīng)的基頻模型集合；計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度；選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
8.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述確定合成單元對(duì)應(yīng)的頻譜模型包括: 確定所述合成單元對(duì)應(yīng)的頻譜特征序列；獲取所述合成單元對(duì)應(yīng)的頻譜模型集合；計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度；選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
9.一種語(yǔ)音信號(hào)接收方法，其特征在于，包括: 接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列；根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列；根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
10.根據(jù)權(quán)利要求9所述的方法，其特征在于，所述根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列包括: 根據(jù)所述語(yǔ)音合成參數(shù)模型序列和模型序列持續(xù)時(shí)長(zhǎng)確定語(yǔ)音合成參數(shù)，生成語(yǔ)音合成參序列。
11.一種語(yǔ)音信號(hào)發(fā)送系統(tǒng)，其特征在于，包括: 文本獲取模塊，用于確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；參數(shù)模型確定模塊，用于根據(jù)所述文本內(nèi)容確定各合成單元的語(yǔ)音合成參數(shù)模型；拼接模塊，用于拼接各合成單元的語(yǔ)音合成參數(shù)模型得到語(yǔ)音合成參數(shù)模型序列；序號(hào)串確定模塊，用于確定所述語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；發(fā)送模塊，用于將所述序號(hào)串發(fā)送給接收端，以使所述接收端根據(jù)所述序號(hào)串恢復(fù)所述連續(xù)語(yǔ)音信號(hào)。
12.根據(jù)權(quán)利要求11所述的系統(tǒng)，其特征在于，所述文本獲取模塊包括: 語(yǔ)音識(shí)別單元，用于通過(guò)語(yǔ)音識(shí)別算法確定待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容；或者標(biāo)注信息獲取單元，用于通過(guò)人工標(biāo)注的方式獲取待發(fā)送的連續(xù)語(yǔ)音信號(hào)對(duì)應(yīng)的文本內(nèi)容。
13.根據(jù)權(quán)利要求11所述的系統(tǒng)，其特征在于，所述參數(shù)模型確定模塊包括: 切分單元，用于根據(jù)所述文本內(nèi)容對(duì)所述連續(xù)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音片斷切分，得到各合成單元對(duì)應(yīng)的語(yǔ)音片斷；時(shí)長(zhǎng)確定單元，用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的時(shí)長(zhǎng)；基頻模型確定單元，用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的基頻模型頻譜模型確定單元，用于依次確定各合成單元對(duì)應(yīng)的語(yǔ)音片斷的頻譜模型。
14.根據(jù)權(quán)利要求13所述的系統(tǒng)，其特征在于，所述基頻模型確定單元包括: 第一獲取單元，用于獲取所述合成單元對(duì)應(yīng)的基頻二叉決策樹；第一解析單元，用于對(duì)所述合成單元進(jìn)行文本解析，獲得所述合成單元的上下文信息；第一決策單元，用于根據(jù)所述上下文信息在所述基頻二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)；第一輸出單元，用于將所述葉節(jié)點(diǎn)對(duì)應(yīng)的基頻模型作為所述合成單元的基頻模型。
15.根據(jù)權(quán)利要求13所述的系統(tǒng)，其特征在于，所述頻譜模型確定單元包括: 第二獲取單元，用于獲取所述合成單元對(duì)應(yīng)的頻譜二叉決策樹；第二解析單元，用于對(duì)所述合成單元進(jìn)行文本解析，獲得其音素單元，調(diào)性，詞性，韻律層次等上下文信息；第二決策單元，用于根據(jù)所述合成文本的上下文信息，在所述頻譜二叉樹中進(jìn)行路徑?jīng)Q策，得到對(duì)應(yīng)的葉子節(jié)點(diǎn)；第二輸出單元，用于將所述葉節(jié)點(diǎn)對(duì)應(yīng)的頻譜模型作為所述合成單元的頻譜模型。
16.根據(jù)權(quán)利要求14或15所述的系統(tǒng)，其特征在于，所述系統(tǒng)還包括:二叉決策樹構(gòu)建模塊，所述二叉決策樹構(gòu)建模塊包括: 訓(xùn)練數(shù)據(jù)獲取單元，用于獲取訓(xùn)練數(shù)據(jù)；參數(shù)提取單元，用于從所述訓(xùn)練數(shù)據(jù)中提取所述合成單元對(duì)應(yīng)的語(yǔ)音片斷集合的合成參數(shù)，所述合成參數(shù)包括:基頻特征和頻譜特征；初始化單元，用于根據(jù)所述合成參數(shù)對(duì)所述合成單元對(duì)應(yīng)的二叉決策樹進(jìn)行初始化；節(jié)點(diǎn)考察單元，用于從所述二叉決策樹的根節(jié)點(diǎn)開(kāi)始，依次考察每個(gè)非葉節(jié)點(diǎn)；如果當(dāng)前考察節(jié)點(diǎn)需要分裂，則對(duì)當(dāng)前考察節(jié)點(diǎn)進(jìn)行分裂，并獲取分裂后的子節(jié)點(diǎn)及所述子節(jié)點(diǎn)對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)；否則，將當(dāng)前考察節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn)；二叉決策樹輸出單元，用于在所述節(jié)點(diǎn)考察單元對(duì)所有非葉節(jié)點(diǎn)考察完成后，輸出所述合成單元的二叉決策樹。
17.根據(jù)權(quán)利要求13所述的系統(tǒng)，其特征在于，所述基頻模型確定單元包括: 第一確定單元，用于確定所述合成單元對(duì)應(yīng)的基頻特征序列；第一集合獲取單元，用于獲取所述合成單元對(duì)應(yīng)的基頻模型集合；第一計(jì)算單元，用于計(jì)算所述基頻特征序列與所述基頻模型集合中各基頻模型的似然度；第一選擇單元，用于選擇具有最大似然度的基頻模型作為所述合成單元的基頻模型。
18.根據(jù)權(quán)利要求13所述的系統(tǒng)，其特征在于，所述頻譜模型確定單元包括: 第二確定單元，用于確定所述合成單元對(duì)應(yīng)的頻譜特征序列；第二集合獲取單元，用于獲取所述合成單元對(duì)應(yīng)的頻譜模型集合；第二計(jì)算單元，用于計(jì)算所述頻譜特征序列與所述頻譜模型集合中各頻譜模型的似然度；第二選擇單元，用于選擇具有最大似然度的頻譜模型作為所述合成單元的頻譜模型。
19.一種語(yǔ)音信號(hào)接收系統(tǒng)，其特征在于，包括: 接收模塊，用于接收語(yǔ)音合成參數(shù)模型序列對(duì)應(yīng)的序號(hào)串；提取模塊，用于根據(jù)所述序號(hào)串從碼本中獲取語(yǔ)音合成參數(shù)模型序列；確定模塊，用于根據(jù)所述語(yǔ)音合成參數(shù)模型序列確定語(yǔ)音合成參數(shù)序列；信號(hào)恢復(fù)模塊，用于根據(jù)所述語(yǔ)音合成參數(shù)序列恢復(fù)語(yǔ)音信號(hào)。
20.根據(jù)權(quán)利要求19所述的系統(tǒng)，其特征在于，所述確定模塊，具體用于根據(jù)所述語(yǔ)音合成參數(shù)模型序列和模型序列持續(xù)時(shí)長(zhǎng)確定語(yǔ)音合成參數(shù)，生成語(yǔ)音合成參序列。
【文檔編號(hào)】G10L19/005GK103474075SQ201310362024
【公開(kāi)日】2013年12月25日申請(qǐng)日期:2013年8月19日優(yōu)先權(quán)日:2013年8月19日
【發(fā)明者】江源, 周明, 凌震華, 何婷婷, 胡國(guó)平, 胡郁, 劉慶峰申請(qǐng)人:安徽科大訊飛信息科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載