的說明。
[0050]參閱圖1所示,本發(fā)明智能軟件的語音播報(bào)系統(tǒng)主要由文字信息采集模塊11、文本前端處理模塊12、模型存儲模塊13、語音合成模塊14及語音播放模塊15組成。
[0051]其中,文字信息采集模塊11用于采集文字信息。該文字信息采集模塊11與智能播報(bào)客戶端111通信連接,智能播報(bào)客戶端111 一般會(huì)作為插件,安插在基于安卓或1S平臺的智能軟件的,比如股票軟件(如:券商客戶端、同花順、大智慧等)之中進(jìn)行文字信息的采集,提供智能的手機(jī)端/平板端以文本播報(bào)的功能。用戶在需要進(jìn)行語音播報(bào)的時(shí)候,可啟動(dòng)智能播報(bào)客戶端111,智能播報(bào)客戶端111負(fù)責(zé)采集用戶需要播報(bào)的文字信息,比如與股票相關(guān)的文本,針對中老年人看不清楚股票數(shù)字的問題,可以為中老年人播報(bào)每一筆操作的語音提示和確認(rèn),并可以實(shí)時(shí)播報(bào)當(dāng)前股市概況。同時(shí),智能播報(bào)客戶端111作為一款插件放入股票軟件中,可通過點(diǎn)擊開關(guān)自由選擇播報(bào)與否,實(shí)用且不會(huì)造成騷擾。
[0052]文本前端處理模塊12與文字信息采集模塊11連接,用于將文字信息采集模塊11采集的文字信息轉(zhuǎn)化為具有特定讀法的文本信息。比如,針對股票領(lǐng)域的文本進(jìn)行特殊處理,我們知道,在股票領(lǐng)域,“ + ”需要被念成“漲”,需要被念成“跌”,指數(shù)“3542”需要被念成“三千五百四十二點(diǎn)”,等等,這些需要對采集的文字信息進(jìn)行特殊的處理,使其適合股票領(lǐng)域的特定讀法,即股票領(lǐng)域的語義解析。其中,文本前端處理模塊12具體包括正規(guī)規(guī)則設(shè)置單元121和文本轉(zhuǎn)化標(biāo)注單元122,正規(guī)規(guī)則設(shè)置單元121與文字信息采集模塊11連接,用于對文字信息采集模塊11采集到的文字信息進(jìn)行基于特定規(guī)則的正則化,比如基于”念成“點(diǎn)”、“ % ”念成“百分之”等特定規(guī)則,將“ 1.2%”正則化為“百分之一點(diǎn)二”,然后輸出經(jīng)正規(guī)化的文字信息,如“百分之一點(diǎn)二”。文本轉(zhuǎn)化標(biāo)注單元122與正規(guī)規(guī)則設(shè)置單元121連接,用于接收正規(guī)規(guī)則設(shè)置單元121輸出的經(jīng)正則化的文字信息,并對該經(jīng)正則化的文字信息進(jìn)行標(biāo)注,比如,將“百分之一點(diǎn)二”標(biāo)注為“baifenzhiyidianer”,及更進(jìn)一步的音素級別詞性韻律標(biāo)注,轉(zhuǎn)化為經(jīng)標(biāo)注的具有特定讀法的文本信息,并將該具有特定讀法的文本信息輸送至下一單元。
[0053]模型存儲模塊13用于建立和存儲聲音模型,是本發(fā)明至關(guān)重要的一步。通過模型存儲模塊13可以建立不同音色的播報(bào)人(可以是具有瓦力機(jī)器人音色播報(bào)人,也可以是類似蠟筆小新、櫻桃小丸子等卡通人物的音色,也可以是時(shí)下網(wǎng)絡(luò)當(dāng)紅的名人聲音)的聲音模型,并進(jìn)行存儲,為后續(xù)的語音合成提供事先訓(xùn)練好的發(fā)音人的聲音模型,以供語音合成模塊14隨時(shí)調(diào)用,實(shí)現(xiàn)特定音色的文本播報(bào)。其中,模型存儲模塊13具體包括語音標(biāo)注前端處理單元131、特征參數(shù)抽取單元132、訓(xùn)練單元133及模型存儲單元134。語音標(biāo)注前端處理單元131用于通過采集2?3個(gè)小時(shí)的某個(gè)或某些播報(bào)人的聲音作為聲音數(shù)據(jù)源,并對采集的聲音數(shù)據(jù)源進(jìn)行語音標(biāo)注前端處理,得到該聲音數(shù)據(jù)源的文本標(biāo)注信息。特征參數(shù)抽取單元132與標(biāo)注前端處理單元131連接,用于提取文本標(biāo)注信息的基頻和頻譜的聲學(xué)特征。訓(xùn)練單元133與特征參數(shù)抽取單元132連接,用于基于隱馬爾可夫模型(HiddenMarkov Model,簡稱HMM)的參數(shù)聚類和訓(xùn)練,形成提取的聲學(xué)特征的聲音模型。模型存儲單元134與訓(xùn)練單元133連接,用于離線存儲各種音色的播報(bào)人的聲音模型。完成模型存儲模塊13對各種不同音色的播報(bào)人的聲音模型的建立和存儲,在合成需求到達(dá)時(shí),可以調(diào)用相關(guān)播報(bào)人的聲音模型,進(jìn)行語音合成,從而達(dá)到語音播報(bào)的目的。
[0054]語音合成模塊14是本發(fā)明核心技術(shù),也是貫穿整個(gè)系統(tǒng)的模塊,語音合成模塊14同時(shí)與文本前端處理模塊12和模型存儲模塊13連接,用于調(diào)用模型存儲模塊13存儲的聲音模型,根據(jù)該聲音模型和決策樹預(yù)測得到文本前端處理模塊12傳送的文本信息對應(yīng)的聲學(xué)參數(shù),將該聲學(xué)參數(shù)進(jìn)行語音合成,輸出經(jīng)語音合成的語音文件。語音合成,又稱文語轉(zhuǎn)換(Text to Speech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù),解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機(jī)器像人一樣開口說話。
[0055]語音合成模塊14具體包括標(biāo)注存儲單元141、參數(shù)預(yù)測單元142及合成器合成語音單元143。標(biāo)注存儲單元141與文本前端處理模塊12的文本轉(zhuǎn)化標(biāo)注單元122連接,用于對文本轉(zhuǎn)化標(biāo)注單元122傳送到的文本信息,如“今日大盤上漲三十五點(diǎn)六點(diǎn)”,進(jìn)行詞性分析和韻律預(yù)測;參數(shù)預(yù)測單元142與標(biāo)注存儲單元141和模型存儲模塊13的模型存儲單元134連接,用于向模型存儲單元134發(fā)出合成需求,調(diào)用模型存儲單元134中存儲的事先訓(xùn)練好的某個(gè)播報(bào)人的聲音模型,可以是具有瓦力機(jī)器人音色的播報(bào)人,也可以是類似蠟筆小新、櫻桃小丸子等卡通人物的音色,也可以是時(shí)下網(wǎng)絡(luò)當(dāng)紅的名人聲音的聲音模型,再根據(jù)該聲音模型和決策樹預(yù)測得到經(jīng)詞性分析和韻律預(yù)測的文本信息對應(yīng)的聲學(xué)參數(shù)。決策樹(Decis1n Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率,評價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。合成器合成語音單元143與參數(shù)預(yù)測單元142連接,用于將參數(shù)預(yù)測單元142預(yù)測得到的聲學(xué)參數(shù)送到參數(shù)合成器中進(jìn)行語音合成,輸出經(jīng)語音合成的語音文件,如“今日大盤上漲35.6點(diǎn)”的聲音。
[0056]語音播放模塊15與語音合成模塊14的合成器合成語音單元143連接,用于播放經(jīng)語音合成的語音文件“今日大盤上漲35.6點(diǎn)”的聲音。完成整個(gè)特定音色的文本播報(bào)過程。
[0057]本發(fā)明綜合利用文本處理、參數(shù)建模、語音合成等技術(shù),為老人提供一種全方位的股票播報(bào)解決方案;利用安插在股票軟件中的智能播報(bào)客戶端采集用戶需要播報(bào)的文字信息;再利用文本前端處理模塊針對股票領(lǐng)域文本進(jìn)行特殊處理,可以得到適合股票領(lǐng)域的特定讀法的文本信息;然后,利用模型存儲模塊建立和存儲具有特定音色的聲音模型,以供語音合成模塊調(diào)用;之后,利用語音合成模塊調(diào)用特定音色的聲音模型,對文本信息進(jìn)行特定音色的語音合成,得到特定音色的文本播報(bào),方便用戶以收聽播報(bào)的方式代替單純閱覽的方式,在收聽播報(bào)信息后進(jìn)行操作,避免誤操作,做到準(zhǔn)確方便,同時(shí),模型存儲模塊中的聲音模型可以隨時(shí)更換,實(shí)現(xiàn)播報(bào)文本和發(fā)音音色隨時(shí)調(diào)整,在遇到新的報(bào)警場景需要更新播報(bào)文本時(shí)或想換最新的網(wǎng)絡(luò)紅人的發(fā)音音色時(shí),可以隨時(shí)進(jìn)行調(diào)整,十分的方便、節(jié)約成本且增添收聽樂趣。
[0058]配合圖2所示,利用本發(fā)明的語音播報(bào)系統(tǒng)進(jìn)行語音播報(bào),主要包括如下步驟:
[0059]S001:采集智能軟件中的文字信息;
[0060]S002:將采集的文字信息轉(zhuǎn)化為具有特定讀法的文本信息;
[0061]S003:建立和存儲聲音模型;
[0062]S004:調(diào)用存儲的聲音模型,根據(jù)聲音模型和決策樹預(yù)測得到文本信息對應(yīng)的聲學(xué)參數(shù),將聲學(xué)參數(shù)進(jìn)行語音合成,輸出經(jīng)語音合成的語音文件;以及
[0063]S005:播放語音文件。
[0064]其中,步驟S001:采集文字信息,包括:在智能軟件中安插用于采集文字信息的智能播報(bào)客戶端。
[0065]該智能播報(bào)客戶端一般會(huì)作為插件,安插在基于安卓或1S平臺的智能軟件,比如股票軟件(如:券商客戶端、同花順、大智慧等)之中,進(jìn)行文字信息的采集,提供智能的手機(jī)端/平板端以文本播報(bào)的功能。用戶在需要進(jìn)行語音播報(bào)的時(shí)候,可啟動(dòng)智能播報(bào)客戶端,智能播報(bào)客戶端負(fù)責(zé)采集用戶需要播報(bào)的文字信息,比如與股票相關(guān)的文本。針對中老年人看不清楚股票數(shù)字的問題,本發(fā)明可以為中老年人播報(bào)每一筆操作的語音提示和確認(rèn),并可以實(shí)時(shí)播報(bào)當(dāng)前股市概況。同時(shí),智能播報(bào)客戶端作為一款插件放入股票軟件中,可通過點(diǎn)擊開關(guān)自由選擇播報(bào)與否,實(shí)用且不會(huì)造成騷擾。
[0066]步驟S002:將采集的文字信息轉(zhuǎn)化為具有特定讀法的文本信息,比如,針對股票領(lǐng)域的文本進(jìn)行特殊處理,我們知道,在股票領(lǐng)域,“ + ”需要被念成“