語音合成的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文語轉(zhuǎn)換技術(shù)領(lǐng)域,尤其涉及一種語音合成的方法和裝置。
【背景技術(shù)】
[0002]語音合成,又稱文語轉(zhuǎn)換技術(shù),是一種能夠?qū)⑽淖中畔⑥D(zhuǎn)化為語音并進(jìn)行朗讀的技術(shù)。隨著科技的不斷進(jìn)步,語音合成的應(yīng)用越來越廣泛,如新聞與信息的播報(bào)、有聲小說等。在日常生活中,也可通過語音合成,將短信、郵件等信息合成為語音,為用戶多提供一種獲取信息的方式。
[0003]目前,語音合成主要是將人工輸入或OCR掃描獲得的文字信息轉(zhuǎn)換為語音。
[0004]但是,在獲得文字信息時,可能會出現(xiàn)文字信息輸入錯誤的情況。例如:文字錄入人員在使用拼音輸入法輸入文字信息時,可能會產(chǎn)生拼寫錯誤,也可能因?yàn)橄嗤钠匆魧?yīng)多個不同的漢字,造成文字信息選擇錯誤。再例如:通過OCR掃描獲得文字信息,由于漢字相似字過多,對文字進(jìn)行識別時具有一定的誤差,可能使獲取的文字信息錯誤。進(jìn)一步地,在語音合成時,對錯誤的文字信息直接進(jìn)行轉(zhuǎn)換,會導(dǎo)致輸出的語音信息與應(yīng)該輸入的文字信息不一致,不易于理解,從而降低了語音信息接收用戶的使用體驗(yàn)。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。為此,本發(fā)明的一個目的在于提出一種語音合成的方法,該方法能夠?qū)斎胛谋具M(jìn)行糾錯,進(jìn)而在根據(jù)輸入文本進(jìn)行語音合成時,更加準(zhǔn)確,使生成的語音信息自然流暢,易于理解。
[0006]本發(fā)明的第二個目的在于提出一種語音合成的裝置。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明第一方面實(shí)施例提出了一種語音合成的方法,包括:S1、獲取輸入文本,并獲取所述輸入文本對應(yīng)的輸入類型;S2、根據(jù)所述輸入類型確定糾錯模型,并根據(jù)所述糾錯模型對所述輸入文本進(jìn)行糾錯處理;以及S3、將糾錯后的所述輸入文本合成為語音。
[0008]本發(fā)明實(shí)施例的語音合成的方法,通過獲取輸入文本,并獲取輸入文本對應(yīng)的輸入類型,根據(jù)輸入類型確定糾錯模型,并根據(jù)糾錯模型對輸入文本進(jìn)行糾錯處理,以及將糾錯后的輸入文本合成為語音,可利用糾錯模型對輸入文本進(jìn)行糾錯,提升了文本輸入時的準(zhǔn)確性,進(jìn)而在語音合成時,生成的語音信息更加自然流暢,易于理解,符合語言習(xí)慣,最終提升用戶使用體驗(yàn)。
[0009]本發(fā)明第二方面實(shí)施例提出了一種語音合成的裝置,包括:獲取模塊,用于獲取輸入文本,并獲取所述輸入文本對應(yīng)的輸入類型;糾錯模塊,用于根據(jù)所述輸入類型確定糾錯模型,并根據(jù)所述糾錯模型對所述輸入文本進(jìn)行糾錯處理;以及合成模塊,用于將糾錯后的所述輸入文本合成為語音。
[0010]本發(fā)明實(shí)施例的語音合成的裝置,通過獲取輸入文本,并獲取輸入文本對應(yīng)的輸入類型,根據(jù)輸入類型確定糾錯模型,并根據(jù)糾錯模型對輸入文本進(jìn)行糾錯處理,以及將糾錯后的輸入文本合成為語音,可利用糾錯模型對輸入文本進(jìn)行糾錯,提升了文本輸入時的準(zhǔn)確性,進(jìn)而在語音合成時,生成的語音信息更加自然流暢,易于理解,符合語言習(xí)慣,最終提升用戶使用體驗(yàn)。
【附圖說明】
[0011]圖1是根據(jù)本發(fā)明一個實(shí)施例的語音合成的方法的流程圖。
[0012]圖2是根據(jù)本發(fā)明一個具體實(shí)施例的語音合成的方法的流程圖。
[0013]圖3是根據(jù)本發(fā)明一個實(shí)施例的語音合成的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0014]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0015]下面參考附圖描述本發(fā)明實(shí)施例的語音合成的方法和裝置。
[0016]圖1是根據(jù)本發(fā)明一個實(shí)施例的語音合成的方法的流程圖。
[0017]如圖1所示,語音合成的方法可包括:
[0018]SlOl,獲取輸入文本,并獲取輸入文本對應(yīng)的輸入類型。
[0019]其中,輸入類型可包括拼音輸入、五筆輸入、OCR輸入等。
[0020]舉例來說,輸入文本為“2015年3月全國平斤氣溫是5.8°C?!保瑢?yīng)的輸入類型為拼音輸入。
[0021]S102,根據(jù)輸入類型確定糾錯模型,并根據(jù)糾錯模型對輸入文本進(jìn)行糾錯處理。
[0022]在本發(fā)明的實(shí)施例中,可根據(jù)輸入類型確定糾錯模型。當(dāng)輸入類型為拼音輸入時,可根據(jù)第一糾錯模型對輸入文本進(jìn)行糾錯處理,第一糾錯模型是基于拼音序列數(shù)據(jù)訓(xùn)練得到的模型。當(dāng)輸入類型為五筆輸入或OCR輸入時,可根據(jù)第二糾錯模型對輸入文本進(jìn)行糾錯處理,第二糾錯模型是基于字根序列數(shù)據(jù)訓(xùn)練得到的模型。其中,以上糾錯模型可包括N-GRAM模型、HMM模型、CRF模型、深度神經(jīng)網(wǎng)絡(luò)模型中的一種。
[0023]具體地,當(dāng)輸入類型為拼音輸入時,可將輸入文本轉(zhuǎn)換為拼音序列,然后對輸入文本轉(zhuǎn)換而成的拼音序列進(jìn)行分詞,生成多個拼音詞組,再根據(jù)第一糾錯模型獲得與拼音詞組對應(yīng)的漢字詞組及漢字詞組的得分,最后對得分小于第一預(yù)設(shè)閾值的漢字詞組進(jìn)行糾錯。更具體地,可獲取得分小于第一預(yù)設(shè)閾值的漢字詞組中每個漢字對應(yīng)的聲母,然后根據(jù)聲母獲得對應(yīng)的多個待選漢字詞組,再根據(jù)第一糾錯模型獲取得分最高的待選漢字詞組,并將得分小于第一預(yù)設(shè)閾值的漢字詞組替換為得分最高的待選漢字詞組,從而完成對得分小于第一預(yù)設(shè)閾值的漢字詞組的糾錯。
[0024]舉例來說,當(dāng)輸入類型為拼音輸入時,可將輸入文本為“2015年3月全國平斤氣溫是5.8°C?!鞭D(zhuǎn)換為拼音序列“ er ling yi wu nian san yue quan guo ping jin qi wenshi wu dian ba she shi du”,然后對該拼音序列進(jìn)行分詞,生成拼音詞組“er ling yi wunian,,,san yue,,,quan guo,,,ping,,、ujin,,,qi wen,,,shi,,,wu dian ba,,,she shidu”。由于同一拼音可對應(yīng)多個漢字,同一拼音詞組可對應(yīng)多個漢字詞組,因此可獲得以上拼音詞組對應(yīng)的漢字詞組及漢字詞組的得分。其中,漢字詞組的得分可為拼音詞組轉(zhuǎn)換為漢字詞組的概率值?!癳r ling yi wu nian”對應(yīng)“二零一五年”且得分為0.95分,“sanyue”對應(yīng)“三月”且得分為0.9分,“quan guo”對應(yīng)“全國”且得分為0.99,“ping”對應(yīng)“平”且得分為0.3分,“jin”對應(yīng)“斤”且得分為0.15分,“qi wen”對應(yīng)“氣溫”且得分為0.88分,“shi”對應(yīng)“是”且得分為0.75分,“wu dian ba”對應(yīng)“五點(diǎn)八”且得分為0.67分,“she shi du”對應(yīng)“攝氏度”且得分為0.99分。其中,“平”和“斤”的得分均小于第一預(yù)設(shè)閾值0.5分,因此需要對“平”和“斤”進(jìn)行糾錯。具體地,“平”的聲母為“P”,“斤”的聲母為“ j ”,根據(jù)“P”和“ j ”這兩個聲母,可獲得多個待選漢字詞組如“平均”、“評價”、“啤酒”等,此時可獲取得分最高的“平均”這一漢字詞組,替換掉“平”和“斤”。最后,獲得糾錯后的