本發(fā)明涉及語(yǔ)音處理技術(shù)領(lǐng)域,特別是涉及一種基于語(yǔ)音合成的提示音生成方法和裝置、移動(dòng)終端。
背景技術(shù):
隨著科學(xué)技術(shù)的發(fā)展,語(yǔ)音應(yīng)用越來(lái)越廣泛,在各種各樣的用戶移動(dòng)終端中,各種各樣的應(yīng)用軟件都會(huì)使用語(yǔ)音技術(shù)向用戶播報(bào)一些信息,比如:天氣插件播放天氣預(yù)報(bào),導(dǎo)航軟件播放路況信息,一些應(yīng)用軟件播放相關(guān)的提示音等等,這些語(yǔ)音播放一般采用系統(tǒng)默認(rèn)的聲音進(jìn)行播報(bào),而不能由用戶隨意設(shè)置或選擇所采用的播報(bào)聲音。比如,用戶期待用自己熟悉的某個(gè)人的聲音進(jìn)行播報(bào),老人希望用自己兒女的聲音進(jìn)行播報(bào)等等。
目前,雖然也有一些根據(jù)已有聲音再現(xiàn)聲音的技術(shù)方案,但是其應(yīng)用場(chǎng)景很少,技術(shù)也不太成熟。以天氣語(yǔ)言播報(bào)舉例,如果想聽某種語(yǔ)言的聲音播報(bào),需要專門有人讀一遍應(yīng)用中包含的所有文字文本,應(yīng)用程序再將這些聲音根據(jù)不同場(chǎng)景判斷播報(bào)給用戶,顯得非常麻煩。
可見(jiàn),上述現(xiàn)有聲音再現(xiàn)實(shí)現(xiàn)方法,需要有人通讀所有文字文本,聲音輸入繁瑣、麻煩;需要人工設(shè)置各個(gè)應(yīng)用,逐一把默認(rèn)聲音替換,聲音再現(xiàn)的使用過(guò)程也很麻煩,效率低,必須讓需要再現(xiàn)聲音的用戶本人去誦讀,再現(xiàn)的應(yīng)用范圍受到很大的限制,不能滿足用戶隨心所欲設(shè)置自己所期望再現(xiàn)的聲音這一聲音再現(xiàn)需求。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的提示音生成方法和裝置、移動(dòng)終端。
特別地,本發(fā)明提供了一種提示音生成方法,包括:
獲取應(yīng)用程序中需要播放的原始提示信息;
提取所述原始提示信息所對(duì)應(yīng)的文字信息;
根據(jù)提取的文字信息和選定模擬用戶信息,從全局語(yǔ)音庫(kù)中獲取所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音;所述全局語(yǔ)音庫(kù)中包括每個(gè)模擬用戶對(duì)應(yīng)的各文字的發(fā)音;
將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音。
進(jìn)一步地,其中,所述原始提示信息包括文本原始提示信息和音頻原始提示信息中的至少一種。
進(jìn)一步地,其中,提取所述原始提示信息所對(duì)應(yīng)的文字信息,具體包括:
對(duì)文本原始提示信息進(jìn)行分詞,根據(jù)分詞結(jié)果提取出文本原始提示信息中所包含的文字;
對(duì)音頻原始提示信息進(jìn)行語(yǔ)音識(shí)別,識(shí)別出音頻所對(duì)應(yīng)的文字。
進(jìn)一步地,從全局語(yǔ)音庫(kù)中獲取所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音,具體包括:
逐一獲取所述文字信息中的每一個(gè)文字,針對(duì)獲取的文字:
根據(jù)選定模擬用戶的信息,查找全局語(yǔ)音庫(kù)中存儲(chǔ)的選定模擬用戶的各文字的發(fā)音,提取出獲取的文字的發(fā)音;
直到獲取完所述文字信息中的所有文字,得到所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
進(jìn)一步地,將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音,具體包括:
根據(jù)原始提示信息的文字順序,采用預(yù)設(shè)的提示音合成模板,對(duì)每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行合成,生成與所述原始提示信息的文字順序一致的模擬提示音。
進(jìn)一步地,生成全局語(yǔ)音庫(kù)的過(guò)程包括:
獲取模擬用戶的輸入聲音,提取輸入聲音的語(yǔ)音特征;
分析提取的語(yǔ)音特征,合成所述輸入聲音中不包含的文字的發(fā)音;
將所述輸入聲音中包含的文字發(fā)音和合成的文字發(fā)音,作為所述模擬用戶對(duì)應(yīng)的各文字的發(fā)音,存儲(chǔ)到全局語(yǔ)音庫(kù)。
進(jìn)一步地,輸入聲音的語(yǔ)音特征包括下列特征中的至少一種:
輸入聲音的音色、輸入聲音的音調(diào)、輸入聲音的語(yǔ)速、輸入聲音的頻率、輸入聲音的幅度、輸入聲音的平均能量。
進(jìn)一步地,獲取模擬用戶的輸入聲音,具體包括:
啟動(dòng)錄音功能,錄入模擬用戶的聲音,作為模擬用戶的輸入聲音;和/或
從其他應(yīng)用程序中獲取模擬用戶的聲音,作為模擬用戶的輸入聲音。
進(jìn)一步地,當(dāng)獲取到模擬用戶的輸入聲音有多個(gè)時(shí),對(duì)輸入聲音進(jìn)行篩選,從多個(gè)輸入聲音中篩選出音質(zhì)最好的一個(gè)或多個(gè)輸入聲音。
本發(fā)明實(shí)施例還提供一種提示音生成裝置,包括:
信息獲取模塊,用于獲取應(yīng)用程序中需要播放的原始提示信息;
文字提取模塊,用于提取所述原始提示信息所對(duì)應(yīng)的文字信息;
發(fā)音匹配模塊,用于根據(jù)提取的文字信息和選定模擬用戶信息,從全局語(yǔ)音庫(kù)中獲取所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音;所述全局語(yǔ)音庫(kù)中包括每個(gè)模擬用戶對(duì)應(yīng)的各文字的發(fā)音;
聲音合成模塊,用于將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音。
進(jìn)一步地,所述信息獲取模塊,具體用于:
獲取包括文本原始提示信息和音頻原始提示信息中的至少一種的原始提示信息。
進(jìn)一步地,所述文字提取模塊,具體用于:
對(duì)文本原始提示信息進(jìn)行分詞,根據(jù)分詞結(jié)果提取出文本原始提示信息中所包含的文字;
對(duì)音頻原始提示信息進(jìn)行語(yǔ)音識(shí)別,識(shí)別出音頻所對(duì)應(yīng)的文字。
進(jìn)一步地,所述發(fā)音匹配模塊,具體用于:
逐一獲取所述文字信息中的每一個(gè)文字,針對(duì)獲取的文字:
根據(jù)選定模擬用戶的信息,查找全局語(yǔ)音庫(kù)中存儲(chǔ)的選定模擬用戶的各文字的發(fā)音,提取出獲取的文字的發(fā)音;
直到獲取完所述文字信息中的所有文字,得到所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
進(jìn)一步地,所述聲音合成模塊,具體用于:
根據(jù)原始提示信息的文字順序,采用預(yù)設(shè)的提示音合成模板,對(duì)每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行合成,生成與所述原始提示信息的文字順序一致的模擬提示音。
進(jìn)一步地,上述裝置還包括:
語(yǔ)音庫(kù)生成模塊,用于獲取模擬用戶的輸入聲音,提取輸入聲音的語(yǔ)音特征;分析提取的語(yǔ)音特征,合成所述輸入聲音中不包含的文字的發(fā)音;將所述輸入聲音中包含的文字發(fā)音和合成的文字發(fā)音,作為所述模擬用戶對(duì)應(yīng)的各文字的發(fā)音,存儲(chǔ)到全局語(yǔ)音庫(kù)。
進(jìn)一步地,所述語(yǔ)音庫(kù)生成模塊,具體用于:提取的語(yǔ)音特征包括下列特征中的至少一種:
輸入聲音的音色、輸入聲音的音調(diào)、輸入聲音的語(yǔ)速、輸入聲音的頻率、輸入聲音的幅度、輸入聲音的平均能量。
進(jìn)一步地,所述語(yǔ)音庫(kù)生成模塊,具體用于:
啟動(dòng)錄音功能,錄入模擬用戶的聲音,作為模擬用戶的輸入聲音;和/或
從其他應(yīng)用程序中獲取模擬用戶的聲音,作為模擬用戶的輸入聲音。
進(jìn)一步地,所述語(yǔ)音庫(kù)生成模塊,還用于:
當(dāng)獲取到模擬用戶的輸入聲音有多個(gè)時(shí),對(duì)輸入聲音進(jìn)行篩選,從多個(gè)輸入聲音中篩選出音質(zhì)最好的一個(gè)或多個(gè)輸入聲音。
本發(fā)明實(shí)施例還提供一種移動(dòng)終端,包括處理器和存儲(chǔ)器:
所述存儲(chǔ)器用于存儲(chǔ)執(zhí)行上述方法的程序;
所述處理器被配置為用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的程序。
本發(fā)明的提示音生成方法和裝置、移動(dòng)終端,使用全局語(yǔ)音庫(kù)實(shí)現(xiàn)對(duì)選定模擬用戶發(fā)音的記錄存儲(chǔ),當(dāng)需要生成提示音時(shí),根據(jù)全局語(yǔ)音庫(kù)對(duì)提示信息中的文字信息進(jìn)行語(yǔ)音轉(zhuǎn)換,合成選定模擬用戶的發(fā)音,從而方便用戶進(jìn)行提示音轉(zhuǎn)換,隨心所欲的轉(zhuǎn)換成自己所希望的聲音,其實(shí)現(xiàn)簡(jiǎn)單方便,靈活性強(qiáng);不需要人工設(shè)置各個(gè)應(yīng)用,其應(yīng)用范圍廣泛,不需要繁瑣、麻煩的輸入操作,效率高。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
根據(jù)下文結(jié)合附圖對(duì)本發(fā)明具體實(shí)施例的詳細(xì)描述,本領(lǐng)域技術(shù)人員將會(huì)更加明了本發(fā)明的上述以及其他目的、優(yōu)點(diǎn)和特征。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1是本發(fā)明實(shí)施例一中提示音生成方法的流程圖;
圖2是本發(fā)明實(shí)施例二中生成全局語(yǔ)音庫(kù)的流程圖;
圖3是本發(fā)明實(shí)施例三中提示音生成方法的原理示意圖;
圖4是本發(fā)明實(shí)施例中提示音生成裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明實(shí)施例中移動(dòng)終端的結(jié)構(gòu)示例圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
為了解決現(xiàn)有技術(shù)中存在的提示音合成麻煩,需要復(fù)雜的輸入操作,且不能隨心所欲的合成期望用戶的提示音的問(wèn)題,本發(fā)明實(shí)施例提供一種提示音生成方法,能夠隨心所欲的合成自己所希望合成的用戶聲音,不需要繁瑣的語(yǔ)音輸入操作,實(shí)現(xiàn)過(guò)程簡(jiǎn)單、方便,合成效率高。
下面通過(guò)具體的實(shí)施例進(jìn)行詳細(xì)描述。
實(shí)施例一
本發(fā)明實(shí)施例一提供一種提示音生成方法,基于語(yǔ)音合成實(shí)現(xiàn)提示音的生成,其流程如圖1所示,包括如下步驟:
步驟S101:獲取應(yīng)用程序中需要播放的原始提示信息。
其中,原始提示信息包括文本原始提示信息和音頻原始提示信息中的至少一種。
針對(duì)移動(dòng)終端中的各種應(yīng)用中的聲音,除了終端自帶的應(yīng)用,還有可能有第三方的應(yīng)用,比如地圖軟件等,就有可能涉及到文本播報(bào),軟件自帶的這個(gè)文本播報(bào)可能是默認(rèn)語(yǔ)音也可能是文本信息。將這個(gè)默認(rèn)語(yǔ)音或文本信息獲取出來(lái),作為要播放的原始提示信息。
步驟S102:提取獲取的原始提示信息所對(duì)應(yīng)的文字信息。
該步驟中,對(duì)文本原始提示信息進(jìn)行分詞,根據(jù)分詞結(jié)果提取出文本原始提示信息中所包含的文字;對(duì)音頻原始提示信息進(jìn)行語(yǔ)音識(shí)別,識(shí)別出音頻所對(duì)應(yīng)的文字。
將原始提示信息中的文字信息提取出來(lái),以便針對(duì)每個(gè)文字進(jìn)行語(yǔ)音配置,以便替換成用戶想要的聲音。
步驟S103:根據(jù)提取的文字信息和選定模擬用戶信息,從全局語(yǔ)音庫(kù)中獲取文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
全局語(yǔ)音庫(kù)為預(yù)先建立的包括各文字發(fā)音的語(yǔ)音庫(kù)。針對(duì)每一個(gè)可模擬的用戶,分別存儲(chǔ)這些可模擬的用戶的文字發(fā)音。即全局語(yǔ)音庫(kù)中包括每個(gè)模擬用戶對(duì)應(yīng)的各文字的發(fā)音。
從全局語(yǔ)音庫(kù)中獲取文字信息中每個(gè)文字的選定模擬用戶的發(fā)音,具體包括:
逐一獲取文字信息中的每一個(gè)文字,針對(duì)獲取的文字:根據(jù)選定模擬用戶的信息,查找全局語(yǔ)音庫(kù)中存儲(chǔ)的選定模擬用戶的各文字的發(fā)音,提取出獲取的文字的發(fā)音;直到獲取完文字信息中的所有文字,得到文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
在獲取到文字信息后,選擇一個(gè)想要模擬的用戶,從全局語(yǔ)音庫(kù)中查找想要模擬的用戶的文字發(fā)音,將獲取的文字信息中每個(gè)文字的發(fā)音提取出來(lái)。
步驟S104:將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音。
該步驟中,根據(jù)原始提示信息的文字順序,采用預(yù)設(shè)的提示音合成模板,對(duì)每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行合成,生成與原始提示信息的文字順序一致的模擬提示音。
聲音的合成可以通過(guò)解調(diào)、再調(diào)制的方式實(shí)現(xiàn),屬于對(duì)聲音信號(hào)的處理,可選的方式很多,此處不再一一贅述。
比如,地圖軟件中的語(yǔ)音播報(bào),將其原始提示信息中每個(gè)文字對(duì)應(yīng)的發(fā)音提取出來(lái)后,進(jìn)行聲音合成,實(shí)現(xiàn)使用想要模擬的用戶聲音進(jìn)行播報(bào),并替換軟件原本默認(rèn)的聲音。
實(shí)施例二
本發(fā)明實(shí)施例二提供上述提示音生成方法中,生成全局語(yǔ)音庫(kù)的實(shí)現(xiàn)過(guò)程,其流程如圖2所示,包括如下步驟:
步驟S201:獲取模擬用戶的輸入聲音,提取輸入聲音的語(yǔ)音特征。
獲取模擬用戶的輸入聲音,具體包括:?jiǎn)?dòng)錄音功能,錄入模擬用戶的聲音,作為模擬用戶的輸入聲音;和/或從其他應(yīng)用程序中獲取模擬用戶的聲音,作為模擬用戶的輸入聲音。
用戶聲音的輸入可以有多種方式,比如直接錄音,從其他應(yīng)用程序中獲取,比如社交軟件中的聲音,通話記錄中的聲音等等,將這些聲音進(jìn)行存儲(chǔ)。采集的時(shí)候,以每個(gè)用戶為一個(gè)采集對(duì)象,將其所有相關(guān)的聲音提煉出來(lái),以便形成該用戶的語(yǔ)音庫(kù)。
當(dāng)獲取到模擬用戶的輸入聲音有多個(gè)時(shí),對(duì)輸入聲音進(jìn)行篩選,從多個(gè)輸入聲音中篩選出音質(zhì)最好的一個(gè)或多個(gè)輸入聲音。當(dāng)一個(gè)模擬用戶輸入有多個(gè)聲音時(shí),可以根據(jù)音質(zhì)進(jìn)行篩選,選取音質(zhì)較好的聲音來(lái)提取特征;也可以進(jìn)行平滑處理,實(shí)現(xiàn)篩選好的聲音來(lái)提取特征。
輸入聲音的語(yǔ)音特征包括下列特征中的至少一種:輸入聲音的音色、輸入聲音的音調(diào)、輸入聲音的語(yǔ)速、輸入聲音的頻率、輸入聲音的幅度、輸入聲音的平均能量。
步驟S202:分析提取的語(yǔ)音特征,合成提取的輸入聲音中不包含的文字的發(fā)音。
提取的用戶的聲音一般只包含一部分文字的發(fā)音,對(duì)于不包含的文字的發(fā)音,可以根據(jù)提取的語(yǔ)音特征進(jìn)行合成。
步驟S203:將提取的輸入聲音中包含的文字發(fā)音和合成的文字發(fā)音,作為模擬用戶對(duì)應(yīng)的各文字的發(fā)音,存儲(chǔ)到全局語(yǔ)音庫(kù)。
將提取的文字發(fā)音和合成的文字發(fā)音都存儲(chǔ)起來(lái),這樣針對(duì)每個(gè)可模擬的用戶,形成的全局語(yǔ)音庫(kù)中包含有這個(gè)可模擬用戶對(duì)所有文字的發(fā)音。
實(shí)施例三
本發(fā)明實(shí)施例二提供上述提示音生成方法的一種具體實(shí)現(xiàn)過(guò)程,其原理如圖3所示。
本發(fā)明中的語(yǔ)音合成方法,可以解決某些聲音使用場(chǎng)景的輸入/使用麻煩等問(wèn)題,比如:父母子女之間、情侶之間等等??梢詫?shí)現(xiàn)終端中的應(yīng)用軟件的提示音采用子女、情侶的聲音進(jìn)行播報(bào)。
如圖3所示的,采集子女、情侶等可模擬用戶的聲音,以輸入聲音為例,在輸入這些可模擬用戶的聲音之后,進(jìn)行特征提取,根據(jù)特征信息合成語(yǔ)音庫(kù),語(yǔ)音庫(kù)包含各種文字/語(yǔ)言發(fā)音,不再局限于原語(yǔ)音內(nèi)容。例如根據(jù)某個(gè)人說(shuō)的幾句話,合成漢字語(yǔ)音庫(kù),庫(kù)中包含所有漢字發(fā)音。比如
比如:用戶A對(duì)著用戶B的手機(jī)輸入聲音,軟件自動(dòng)分析并提取用戶A所輸入的聲音的特征,把聲音的音色、頻率等特征提取出來(lái),根據(jù)提取的聲音特征,合成全局語(yǔ)音庫(kù),包括A用戶的各種語(yǔ)言字庫(kù)中的所有文字發(fā)音。當(dāng)一個(gè)用戶輸入的聲音越多時(shí),其提取特征的精準(zhǔn)讀也會(huì)越高。
從聲音當(dāng)中提取特征是一個(gè)拆分的過(guò)程,而后續(xù)模擬這些可模擬用戶的聲音,則是一個(gè)反向的語(yǔ)音合成過(guò)程,相當(dāng)于是一個(gè)解調(diào)→調(diào)制的過(guò)程,這是聲音使用的過(guò)程。
可以對(duì)終端中的各種應(yīng)用,比如鬧鈴、來(lái)電提醒、天氣語(yǔ)言播報(bào)、其他聲音等進(jìn)行替換,這是聲音使用的過(guò)程,比如父母、情侶可以使用語(yǔ)音庫(kù)中子女、情侶的聲音,來(lái)替換自己移動(dòng)終端中的各種聲音,使其播報(bào)時(shí),子女、情侶的聲音。例如,用戶B要使用用戶A聲音進(jìn)行提示音播報(bào),則從語(yǔ)音庫(kù)中將存儲(chǔ)的用戶A的各文字發(fā)音提取出來(lái)進(jìn)行匹配、調(diào)制、合成。比如,父母將自己使用的移動(dòng)終端中的鬧鈴、來(lái)電提醒、天氣語(yǔ)言播報(bào)、其他聲音的聲音均替換成子女的聲音。
以來(lái)電鈴聲為例,如果是歌曲的話,歌曲里面是有文字的,涉及到文字的地方就可以從庫(kù)里獲取其發(fā)音。鬧鈴不一定含有文字,這種情況就可以從語(yǔ)音庫(kù)隨機(jī)獲取。
例如:電話錄音、微信對(duì)講、QQ電話、網(wǎng)絡(luò)電話等都可以和一個(gè)電話號(hào)碼(可以用電話號(hào)碼標(biāo)識(shí)一個(gè)用戶)進(jìn)行綁定,從這些應(yīng)用程序當(dāng)中提取用戶的語(yǔ)音。比如播報(bào)短消息,從應(yīng)用程序當(dāng)中提取了5000個(gè)字形成一個(gè)用戶的語(yǔ)音庫(kù),短消息當(dāng)中使用了20個(gè)字,播報(bào)的時(shí)候就是從5000個(gè)字當(dāng)中提取20個(gè)字,湊成一句話的形式,是片段的,是一段音頻數(shù)據(jù)。
如果應(yīng)用程序中有現(xiàn)有的語(yǔ)音包,也可以對(duì)這些語(yǔ)音包進(jìn)行替換。這種替換可以由用戶觸發(fā),也可以全局語(yǔ)音庫(kù)中樣本足夠豐富,滿足一定條件時(shí),有系統(tǒng)主動(dòng)觸發(fā)。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供一種提示音生成裝置,可以設(shè)置在移動(dòng)終端中,其結(jié)構(gòu)如圖4所示,包括:信息獲取模塊401、文字提取模塊402、發(fā)音匹配模塊403和聲音合成模塊404。
信息獲取模塊401,用于獲取應(yīng)用程序中需要播放的原始提示信息。
文字提取模塊402,用于提取原始提示信息所對(duì)應(yīng)的文字信息。
發(fā)音匹配模塊403,用于根據(jù)提取的文字信息和選定模擬用戶信息,從全局語(yǔ)音庫(kù)中獲取文字信息中每個(gè)文字的選定模擬用戶的發(fā)音;其中,全局語(yǔ)音庫(kù)中包括每個(gè)模擬用戶對(duì)應(yīng)的各文字的發(fā)音。
聲音合成模塊404,用于將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音。
優(yōu)選的,上述信息獲取模塊401,具體用于獲取包括文本原始提示信息和音頻原始提示信息中的至少一種的原始提示信息。
優(yōu)選的,上述文字提取模塊402,具體用于對(duì)文本原始提示信息進(jìn)行分詞,根據(jù)分詞結(jié)果提取出文本原始提示信息中所包含的文字;對(duì)音頻原始提示信息進(jìn)行語(yǔ)音識(shí)別,識(shí)別出音頻所對(duì)應(yīng)的文字。
優(yōu)選的,上述發(fā)音匹配模塊403,具體用于逐一獲取所述文字信息中的每一個(gè)文字,針對(duì)獲取的文字:根據(jù)選定模擬用戶的信息,查找全局語(yǔ)音庫(kù)中存儲(chǔ)的選定模擬用戶的各文字的發(fā)音,提取出獲取的文字的發(fā)音;直到獲取完文字信息中的所有文字,得到文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
優(yōu)選的,上述聲音合成模塊404,具體用于根據(jù)原始提示信息的文字順序,采用預(yù)設(shè)的提示音合成模板,對(duì)每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行合成,生成與原始提示信息的文字順序一致的模擬提示音。
優(yōu)選的,上述裝置還包括:
語(yǔ)音庫(kù)生成模塊405,用于獲取模擬用戶的輸入聲音,提取輸入聲音的語(yǔ)音特征;分析提取的語(yǔ)音特征,合成輸入聲音中不包含的文字的發(fā)音;將輸入聲音中包含的文字發(fā)音和合成的文字發(fā)音,作為模擬用戶對(duì)應(yīng)的各文字的發(fā)音,存儲(chǔ)到全局語(yǔ)音庫(kù)。
優(yōu)選的,上述語(yǔ)音庫(kù)生成模塊405,具體用于提取的語(yǔ)音特征包括下列特征中的至少一種:輸入聲音的音色、輸入聲音的音調(diào)、輸入聲音的語(yǔ)速、輸入聲音的頻率、輸入聲音的幅度、輸入聲音的平均能量。
優(yōu)選的,上述語(yǔ)音庫(kù)生成模塊405,具體用于啟動(dòng)錄音功能,錄入模擬用戶的聲音,作為模擬用戶的輸入聲音;和/或從其他應(yīng)用程序中獲取模擬用戶的聲音,作為模擬用戶的輸入聲音。
優(yōu)選的,上述語(yǔ)音庫(kù)生成模塊405,還用于當(dāng)獲取到模擬用戶的輸入聲音有多個(gè)時(shí),對(duì)輸入聲音進(jìn)行篩選,從多個(gè)輸入聲音中篩選出音質(zhì)最好的一個(gè)或多個(gè)輸入聲音。
本發(fā)明實(shí)施例提供的移動(dòng)終端的一個(gè)結(jié)構(gòu)示例如圖5所示,包括:一個(gè)或多個(gè)處理器580;
存儲(chǔ)器520;
一個(gè)或多個(gè)應(yīng)用程序,其中一個(gè)或多個(gè)應(yīng)用程序被存儲(chǔ)在存儲(chǔ)器520中并被配置為由一個(gè)或多個(gè)處理器580執(zhí)行,一個(gè)或多個(gè)程序配置用于執(zhí)行上述任意一個(gè)優(yōu)選實(shí)施例或其組合所提供的應(yīng)用屬性的自動(dòng)喚醒方法。
為了便于說(shuō)明,圖5僅示出了與本發(fā)明實(shí)施例相關(guān)的部分,具體技術(shù)細(xì)節(jié)未揭示的,請(qǐng)參照本發(fā)明實(shí)施例方法部分。該移動(dòng)終端可以包括手機(jī)、平板電腦、PDA(Personal Digital Assistant,個(gè)人數(shù)字處理)、POS(Point of Sales,銷售終端)、車載電腦等任意終端設(shè)備,以終端為手機(jī)為例:
圖5示出的是與本發(fā)明實(shí)施例提供的移動(dòng)終端相關(guān)的手機(jī)的部分結(jié)構(gòu)的框圖。參考圖5,手機(jī)包括:射頻(Radio Frequency,RF)電路510、存儲(chǔ)器520、輸入單元530、顯示單元540、傳感器550、音頻電路560、無(wú)線保真(wireless fidelity,WiFi)模塊570、處理器580、以及電源590等部件。本領(lǐng)域技術(shù)人員可以理解,圖5中示出的手機(jī)結(jié)構(gòu)并不構(gòu)成對(duì)手機(jī)的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
下面結(jié)合圖5對(duì)手機(jī)的各個(gè)構(gòu)成部件進(jìn)行具體的介紹:
RF電路510可用于收發(fā)信息或通話過(guò)程中,信號(hào)的接收和發(fā)送,特別地,將基站的下行信息接收后,給處理器580處理;另外,將設(shè)計(jì)上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路510包括但不限于天線、至少一個(gè)放大器、收發(fā)信機(jī)、耦合器、低噪聲放大器(Low Noise Amplifier,LNA)、雙工器等。此外,RF電路510還可以通過(guò)無(wú)線通信與網(wǎng)絡(luò)和其他設(shè)備通信。上述無(wú)線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動(dòng)通訊系統(tǒng)(Global System of Mobile communication,GSM)、通用分組無(wú)線服務(wù)(General Packet Radio Service,GPRS)、碼分多址(Code Division Multiple Access,CDMA)、寬帶碼分多址(Wideband Code Division Multiple Access,WCDMA)、長(zhǎng)期演進(jìn)(Long Term Evolution,LTE)、電子郵件、短消息服務(wù)(Short Messaging Service,SMS)等。
存儲(chǔ)器520可用于存儲(chǔ)軟件程序以及模塊,處理器580通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器520的軟件程序以及模塊,從而執(zhí)行手機(jī)的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器520可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)手機(jī)的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲(chǔ)器520可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。
輸入單元530可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與手機(jī)的用戶設(shè)置以及功能控制有關(guān)的鍵信號(hào)輸入。具體地,輸入單元530可包括觸控面板531以及其他輸入設(shè)備532。觸控面板531,也稱為觸摸屏,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控面板531上或在觸控面板531附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸控面板531可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測(cè)裝置檢測(cè)用戶的觸摸方位,并檢測(cè)觸摸操作帶來(lái)的信號(hào),將信號(hào)傳送給觸摸控制器;觸摸控制器從觸摸檢測(cè)裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器580,并能接收處理器580發(fā)來(lái)的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸控面板531。除了觸控面板531,輸入單元530還可以包括其他輸入設(shè)備532。具體地,其他輸入設(shè)備532可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
顯示單元540可用于顯示由用戶輸入的信息或提供給用戶的信息以及手機(jī)的各種菜單。顯示單元540可包括顯示面板541,可選的,可以采用液晶顯示器(Liquid Crystal Display,LCD)、有機(jī)發(fā)光二極管(Organic Light-Emitting Diode,OLED)等形式來(lái)配置顯示面板541。進(jìn)一步的,觸控面板531可覆蓋顯示面板541,當(dāng)觸控面板531檢測(cè)到在其上或附近的觸摸操作后,傳送給處理器580以確定觸摸事件的類型,隨后處理器580根據(jù)觸摸事件的類型在顯示面板541上提供相應(yīng)的視覺(jué)輸出。雖然在圖5中,觸控面板531與顯示面板541是作為兩個(gè)獨(dú)立的部件來(lái)實(shí)現(xiàn)手機(jī)的輸入和輸入功能,但是在某些實(shí)施例中,可以將觸控面板531與顯示面板541集成而實(shí)現(xiàn)手機(jī)的輸入和輸出功能。
手機(jī)還可包括至少一種傳感器550,比如光傳感器、運(yùn)動(dòng)傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來(lái)調(diào)節(jié)顯示面板541的亮度,接近傳感器可在手機(jī)移動(dòng)到耳邊時(shí),關(guān)閉顯示面板541和/或背光。作為運(yùn)動(dòng)傳感器的一種,加速計(jì)傳感器可檢測(cè)各個(gè)方向上(一般為三軸)加速度的大小,靜止時(shí)可檢測(cè)出重力的大小及方向,可用于識(shí)別手機(jī)姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計(jì)姿態(tài)校準(zhǔn))、振動(dòng)識(shí)別相關(guān)功能(比如計(jì)步器、敲擊)等;至于手機(jī)還可配置的陀螺儀、氣壓計(jì)、濕度計(jì)、溫度計(jì)、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路560、揚(yáng)聲器561,傳聲器562可提供用戶與手機(jī)之間的音頻接口。音頻電路560可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號(hào),傳輸?shù)綋P(yáng)聲器561,由揚(yáng)聲器561轉(zhuǎn)換為聲音信號(hào)輸出;另一方面,傳聲器562將收集的聲音信號(hào)轉(zhuǎn)換為電信號(hào),由音頻電路560接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器580處理后,經(jīng)RF電路510以發(fā)送給比如另一手機(jī),或者將音頻數(shù)據(jù)輸出至存儲(chǔ)器520以便進(jìn)一步處理。
WiFi屬于短距離無(wú)線傳輸技術(shù),手機(jī)通過(guò)WiFi模塊570可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁(yè)和訪問(wèn)流式媒體等,它為用戶提供了無(wú)線的寬帶互聯(lián)網(wǎng)訪問(wèn)。雖然圖5示出了WiFi模塊570,但是可以理解的是,其并不屬于手機(jī)的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
處理器580是手機(jī)的控制中心,利用各種接口和線路連接整個(gè)手機(jī)的各個(gè)部分,通過(guò)運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器520內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)器520內(nèi)的數(shù)據(jù),執(zhí)行手機(jī)的各種功能和處理數(shù)據(jù),從而對(duì)手機(jī)進(jìn)行整體監(jiān)控。可選的,處理器580可包括一個(gè)或多個(gè)處理單元;優(yōu)選的,處理器580可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無(wú)線通信。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器580中。
手機(jī)還包括給各個(gè)部件供電的電源590(比如電池),優(yōu)選的,電源可以通過(guò)電源管理系統(tǒng)與處理器580邏輯相連,從而通過(guò)電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。
盡管未示出,手機(jī)還可以包括攝像頭、藍(lán)牙模塊等,在此不再贅述。
在此處所提供的說(shuō)明書中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來(lái)代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來(lái)使用。
本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的提示音生成方法和移動(dòng)終端中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
至此,本領(lǐng)域技術(shù)人員應(yīng)認(rèn)識(shí)到,雖然本文已詳盡示出和描述了本發(fā)明的多個(gè)示例性實(shí)施例,但是,在不脫離本發(fā)明精神和范圍的情況下,仍可根據(jù)本發(fā)明公開的內(nèi)容直接確定或推導(dǎo)出符合本發(fā)明原理的許多其他變型或修改。因此,本發(fā)明的范圍應(yīng)被理解和認(rèn)定為覆蓋了所有這些其他變型或修改。
基于本發(fā)明的一個(gè)方面,提供了A1.一種提示音生成方法,包括:
獲取應(yīng)用程序中需要播放的原始提示信息;
提取所述原始提示信息所對(duì)應(yīng)的文字信息;
根據(jù)提取的文字信息和選定模擬用戶信息,從全局語(yǔ)音庫(kù)中獲取所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音;所述全局語(yǔ)音庫(kù)中包括每個(gè)模擬用戶對(duì)應(yīng)的各文字的發(fā)音;
將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音。
A2.根據(jù)A1所述的方法,其中,所述原始提示信息包括文本原始提示信息和音頻原始提示信息中的至少一種。
A3.根據(jù)A2所述的方法,其中,提取所述原始提示信息所對(duì)應(yīng)的文字信息,具體包括:
對(duì)文本原始提示信息進(jìn)行分詞,根據(jù)分詞結(jié)果提取出文本原始提示信息中所包含的文字;
對(duì)音頻原始提示信息進(jìn)行語(yǔ)音識(shí)別,識(shí)別出音頻所對(duì)應(yīng)的文字。
A4.根據(jù)A1所述的方法,其中,從全局語(yǔ)音庫(kù)中獲取所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音,具體包括:
逐一獲取所述文字信息中的每一個(gè)文字,針對(duì)獲取的文字:
根據(jù)選定模擬用戶的信息,查找全局語(yǔ)音庫(kù)中存儲(chǔ)的選定模擬用戶的各文字的發(fā)音,提取出獲取的文字的發(fā)音;
直到獲取完所述文字信息中的所有文字,得到所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
A5.根據(jù)A1所述的方法,其中,將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音,具體包括:
根據(jù)原始提示信息的文字順序,采用預(yù)設(shè)的提示音合成模板,對(duì)每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行合成,生成與所述原始提示信息的文字順序一致的模擬提示音。
A6.根據(jù)A1-A5任一所述的方法,其中,生成全局語(yǔ)音庫(kù)的過(guò)程包括:
獲取模擬用戶的輸入聲音,提取輸入聲音的語(yǔ)音特征;
分析提取的語(yǔ)音特征,合成所述輸入聲音中不包含的文字的發(fā)音;
將所述輸入聲音中包含的文字發(fā)音和合成的文字發(fā)音,作為所述模擬用戶對(duì)應(yīng)的各文字的發(fā)音,存儲(chǔ)到全局語(yǔ)音庫(kù)。
A7.根據(jù)A6所述的方法,其中,輸入聲音的語(yǔ)音特征包括下列特征中的至少一種:
輸入聲音的音色、輸入聲音的音調(diào)、輸入聲音的語(yǔ)速、輸入聲音的頻率、輸入聲音的幅度、輸入聲音的平均能量。
A8.根據(jù)A6所述的方法,其中,獲取模擬用戶的輸入聲音,具體包括:
啟動(dòng)錄音功能,錄入模擬用戶的聲音,作為模擬用戶的輸入聲音;和/或
從其他應(yīng)用程序中獲取模擬用戶的聲音,作為模擬用戶的輸入聲音。
A9.根據(jù)A8所述的方法,其中,當(dāng)獲取到模擬用戶的輸入聲音有多個(gè)時(shí),對(duì)輸入聲音進(jìn)行篩選,從多個(gè)輸入聲音中篩選出音質(zhì)最好的一個(gè)或多個(gè)輸入聲音。
基于本發(fā)明的另一個(gè)方面,還提供了B10.一種提示音生成裝置,包括:
信息獲取模塊,用于獲取應(yīng)用程序中需要播放的原始提示信息;
文字提取模塊,用于提取所述原始提示信息所對(duì)應(yīng)的文字信息;
發(fā)音匹配模塊,用于根據(jù)提取的文字信息和選定模擬用戶信息,從全局語(yǔ)音庫(kù)中獲取所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音;所述全局語(yǔ)音庫(kù)中包括每個(gè)模擬用戶對(duì)應(yīng)的各文字的發(fā)音;
聲音合成模塊,用于將獲取的每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行聲音合成,生成以模擬用戶聲音播放的模擬提示音。
B11.根據(jù)B10所述的裝置,其中,所述信息獲取模塊,具體用于:
獲取包括文本原始提示信息和音頻原始提示信息中的至少一種的原始提示信息。
B12.根據(jù)B11所述的裝置,其中,所述文字提取模塊,具體用于:
對(duì)文本原始提示信息進(jìn)行分詞,根據(jù)分詞結(jié)果提取出文本原始提示信息中所包含的文字;
對(duì)音頻原始提示信息進(jìn)行語(yǔ)音識(shí)別,識(shí)別出音頻所對(duì)應(yīng)的文字。
B13.根據(jù)B10所述的裝置,其中,所述發(fā)音匹配模塊,具體用于:
逐一獲取所述文字信息中的每一個(gè)文字,針對(duì)獲取的文字:
根據(jù)選定模擬用戶的信息,查找全局語(yǔ)音庫(kù)中存儲(chǔ)的選定模擬用戶的各文字的發(fā)音,提取出獲取的文字的發(fā)音;
直到獲取完所述文字信息中的所有文字,得到所述文字信息中每個(gè)文字的選定模擬用戶的發(fā)音。
B14.根據(jù)B10所述的裝置,其中,所述聲音合成模塊,具體用于:
根據(jù)原始提示信息的文字順序,采用預(yù)設(shè)的提示音合成模板,對(duì)每個(gè)文字的選定模擬用戶的發(fā)音進(jìn)行合成,生成與所述原始提示信息的文字順序一致的模擬提示音。
B15.根據(jù)B10-B14任一所述的裝置,其中,還包括:
語(yǔ)音庫(kù)生成模塊,用于獲取模擬用戶的輸入聲音,提取輸入聲音的語(yǔ)音特征;分析提取的語(yǔ)音特征,合成所述輸入聲音中不包含的文字的發(fā)音;將所述輸入聲音中包含的文字發(fā)音和合成的文字發(fā)音,作為所述模擬用戶對(duì)應(yīng)的各文字的發(fā)音,存儲(chǔ)到全局語(yǔ)音庫(kù)。
B16.根據(jù)B15所述的裝置,其中,所述語(yǔ)音庫(kù)生成模塊,具體用于:提取的語(yǔ)音特征包括下列特征中的至少一種:
輸入聲音的音色、輸入聲音的音調(diào)、輸入聲音的語(yǔ)速、輸入聲音的頻率、輸入聲音的幅度、輸入聲音的平均能量。
B17.根據(jù)B15所述的裝置,其中,所述語(yǔ)音庫(kù)生成模塊,具體用于:
啟動(dòng)錄音功能,錄入模擬用戶的聲音,作為模擬用戶的輸入聲音;和/或
從其他應(yīng)用程序中獲取模擬用戶的聲音,作為模擬用戶的輸入聲音。
B18.根據(jù)B17所述的裝置,其中,所述語(yǔ)音庫(kù)生成模塊,還用于:
當(dāng)獲取到模擬用戶的輸入聲音有多個(gè)時(shí),對(duì)輸入聲音進(jìn)行篩選,從多個(gè)輸入聲音中篩選出音質(zhì)最好的一個(gè)或多個(gè)輸入聲音。
基于本發(fā)明的又一個(gè)方面,還提供了C19.一種移動(dòng)終端,包括處理器和存儲(chǔ)器:
所述存儲(chǔ)器用于存儲(chǔ)執(zhí)行A1至A9任一項(xiàng)方法的程序;
所述處理器被配置為用于執(zhí)行所述存儲(chǔ)器中存儲(chǔ)的程序。