一種語(yǔ)音模擬方法和裝置與流程

文檔序號(hào)：11459416閱讀：280來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及聲音信號(hào)技術(shù)領(lǐng)域，尤其涉及一種語(yǔ)音模擬方法和裝置。

背景技術(shù)：

語(yǔ)音，即語(yǔ)言的物質(zhì)外殼，是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出，負(fù)載著一定的語(yǔ)言意義。語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色，這也是構(gòu)成語(yǔ)音的四要素。

語(yǔ)音即語(yǔ)言的聲音，是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出，負(fù)載著一定的語(yǔ)言意義。語(yǔ)言依靠語(yǔ)音實(shí)現(xiàn)它的社會(huì)功能。語(yǔ)言是音義結(jié)合的符號(hào)系統(tǒng)，語(yǔ)言的聲音和語(yǔ)言的意義是緊密聯(lián)系著的，因此，語(yǔ)言雖是一種聲音，但又與一般的聲音有著本質(zhì)的區(qū)別。語(yǔ)音是人類(lèi)發(fā)音器官發(fā)出的具有區(qū)別意義功能的聲音，不能把語(yǔ)音看成純粹的自然物質(zhì)；語(yǔ)音是最直接地記錄思維活動(dòng)的符號(hào)體系，是語(yǔ)言交際工具的聲音形式。

語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色，這也是構(gòu)成語(yǔ)音的四要素。音高指聲波頻率，即每秒鐘振動(dòng)次數(shù)的多少；音強(qiáng)指聲波振幅的大??；音長(zhǎng)指聲波振動(dòng)持續(xù)時(shí)間的長(zhǎng)短，也稱(chēng)為"時(shí)長(zhǎng)"；音色指聲音的特色和本質(zhì)，也稱(chēng)作"音質(zhì)"。

人的發(fā)音器官及其活動(dòng)情況是語(yǔ)音的生理基礎(chǔ)。人的發(fā)音器官分3部分：

(1)呼吸器官，包括肺、氣管和支氣管。肺是呼吸器官的中心，是產(chǎn)生語(yǔ)音動(dòng)力的基礎(chǔ)。

(2)喉頭和聲帶，它們是發(fā)音的振顫體。

(3)口腔、咽腔、鼻腔，它們都是發(fā)音的共鳴器。

語(yǔ)音和語(yǔ)義的聯(lián)系是人們?cè)陂L(zhǎng)期的語(yǔ)言實(shí)踐中約定的，這種音義的結(jié)合關(guān)系體現(xiàn)了語(yǔ)音有重要的社會(huì)屬性。

語(yǔ)音模擬在人機(jī)交互過(guò)程中，提升了一定的親切感和適應(yīng)性，但現(xiàn)有的人語(yǔ)音模擬方法，均為普通變聲裝置，只能做到根據(jù)人聲識(shí)別后進(jìn)行聲道模型進(jìn)行模擬，或只能調(diào)節(jié)語(yǔ)速和語(yǔ)調(diào)，音色無(wú)法與被模擬人的聲音相提并論。總之，現(xiàn)有的語(yǔ)音模擬方法，只能做到普通變聲，聲音無(wú)法變化，相似性低，無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感。

上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案，并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的主要目的在于提供一種語(yǔ)音模擬方法和裝置，旨在于解決現(xiàn)有的語(yǔ)音模擬方法，只能做到普通變聲，聲音無(wú)法變化，相似性低，無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。

為解決上述問(wèn)題，本發(fā)明提供一種語(yǔ)音模擬方法，包括如下步驟：

獲取用戶(hù)的音頻數(shù)據(jù)；

對(duì)所述音頻數(shù)據(jù)進(jìn)行解析，提取所述音頻數(shù)據(jù)的特征信息并保存；

根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)；

將所述模擬音頻數(shù)據(jù)進(jìn)行播放。

優(yōu)選地，所述獲取用戶(hù)的音頻數(shù)據(jù)之前，還包括：

獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息；

根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間；

提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。

優(yōu)選地，所述對(duì)所述音頻數(shù)據(jù)進(jìn)行解析，提取所述音頻數(shù)據(jù)的特征信息，包括：

在獲取所述音頻數(shù)據(jù)后，將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析；

提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。

優(yōu)選地，所述獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息之后，還包括：

判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)；

若是，調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)，并進(jìn)行播放；

若否，進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。

優(yōu)選地，所述根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)，包括：

調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù)；

根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。

此外，為解決上述問(wèn)題，本發(fā)明還提供一種語(yǔ)音模擬裝置，包括：獲取模塊、提取模塊、生成模塊和播放模塊；

所述獲取模塊，用于獲取用戶(hù)的音頻數(shù)據(jù)；

所述提取模塊，用于對(duì)所述音頻數(shù)據(jù)進(jìn)行解析，提取所述音頻數(shù)據(jù)的特征信息并保存；

所述生成模塊，用于根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)；

所述播放模塊，用于將所述模擬音頻數(shù)據(jù)進(jìn)行播放。

優(yōu)選地，還包括：設(shè)定模塊和提示模塊；

所述獲取模塊，還用于獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息；

所述設(shè)定模塊，用于根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間；

所述提示模塊，用于提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。

優(yōu)選地，還包括：解析模塊；

所述解析模塊，用于在獲取所述音頻數(shù)據(jù)后，將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析；

所述提取模塊，還用于提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。

優(yōu)選地，還包括：判斷模塊；

所述判斷模塊，用于判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)；

所述播放模塊，還用于若是，調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)，并進(jìn)行播放；

所述設(shè)定模塊，還用于若否，進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。

優(yōu)選地，包括：調(diào)取模塊和轉(zhuǎn)換模塊；

所述調(diào)取模塊，用于調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù)；

所述轉(zhuǎn)換模塊，用于根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。

本發(fā)明提供一種語(yǔ)音模擬方法和裝置，其中方法通過(guò)對(duì)獲取的用戶(hù)音頻數(shù)據(jù)進(jìn)行解析并提取特征信息，再通過(guò)特征信息生成所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)，從而對(duì)模擬音頻數(shù)據(jù)進(jìn)行播放。本發(fā)明通過(guò)算法對(duì)人聲進(jìn)行解析進(jìn)而提取出特征數(shù)據(jù)，再使用與用戶(hù)相同的音素及語(yǔ)調(diào)來(lái)和用戶(hù)進(jìn)行交互或朗讀，聲音模擬效果好，相似度高、語(yǔ)音音調(diào)相似，提高了人機(jī)互動(dòng)的親切感，避免了現(xiàn)有的語(yǔ)音模擬方法，只能做到普通變聲，聲音無(wú)法變化，相似性低，無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。

附圖說(shuō)明

圖1為本發(fā)明語(yǔ)音模擬方法的一實(shí)施例的流程示意圖；

圖2為本發(fā)明語(yǔ)音模擬方法的二實(shí)施例的流程示意圖；

圖3為本發(fā)明語(yǔ)音模擬方法的三實(shí)施例的流程示意圖；

圖4為本發(fā)明語(yǔ)音模擬方法的四實(shí)施例的流程示意圖；

圖5為本發(fā)明語(yǔ)音模擬方法的五實(shí)施例的流程示意圖；

圖6為本發(fā)明語(yǔ)音模擬裝置的實(shí)施例的功能模塊示意圖。

本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例，參照附圖做進(jìn)一步說(shuō)明。

具體實(shí)施方式

應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。

本發(fā)明提供一種語(yǔ)音模擬方法。

參照?qǐng)D1，圖1為本發(fā)明語(yǔ)音模擬方法的一實(shí)施例的流程示意圖。

在一實(shí)施例中，所述語(yǔ)音模擬方法包括：

步驟s10，獲取用戶(hù)的音頻數(shù)據(jù)；

需要理解的是，語(yǔ)音，即語(yǔ)言的物質(zhì)外殼，是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出，負(fù)載著一定的語(yǔ)言意義。語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色，這也是構(gòu)成語(yǔ)音的四要素。

語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色，這也是構(gòu)成語(yǔ)音的四要素。音高指聲波頻率，即每秒鐘振動(dòng)次數(shù)的多少；音強(qiáng)指聲波振幅的大小；音長(zhǎng)指聲波振動(dòng)持續(xù)時(shí)間的長(zhǎng)短，也稱(chēng)為"時(shí)長(zhǎng)"；音色指聲音的特色和本質(zhì)，也稱(chēng)作"音質(zhì)"。

人的發(fā)音器官及其活動(dòng)情況是語(yǔ)音的生理基礎(chǔ)。人的發(fā)音器官分3部分：

(1)呼吸器官，包括肺、氣管和支氣管。肺是呼吸器官的中心，是產(chǎn)生語(yǔ)音動(dòng)力的基礎(chǔ)。

(2)喉頭和聲帶，它們是發(fā)音的振顫體。

(3)口腔、咽腔、鼻腔，它們都是發(fā)音的共鳴器。

獲取用戶(hù)語(yǔ)音的方式可以為通過(guò)麥克風(fēng)進(jìn)行錄音，也可以為通過(guò)移動(dòng)端與終端連接，獲取發(fā)送的語(yǔ)音信息。

步驟s20，對(duì)所述音頻數(shù)據(jù)進(jìn)行解析，提取所述音頻數(shù)據(jù)的特征信息并保存；

保存的特征信息，可以以波形數(shù)據(jù)的形式進(jìn)行保存，也可以將所述音頻以幀的形式進(jìn)行間隔保存，此外，特征信息保存入數(shù)據(jù)庫(kù)中，該數(shù)據(jù)庫(kù)可以為云端數(shù)據(jù)庫(kù)，而用于獲取用戶(hù)音頻數(shù)據(jù)的裝置為終端機(jī)，當(dāng)使用時(shí)，終端機(jī)獲取用戶(hù)的音頻信息，發(fā)送至云端；云端對(duì)獲取到的用戶(hù)的音頻信息進(jìn)行分析，并提取出其特征信息，包括語(yǔ)音的語(yǔ)調(diào)、口音、語(yǔ)速、頻率等信息。

步驟s30，根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)；

云端根據(jù)特征信息，生成相應(yīng)的模擬音頻數(shù)據(jù)。該模擬音頻數(shù)據(jù)，可以為將預(yù)設(shè)的現(xiàn)有音頻文件進(jìn)行轉(zhuǎn)換，從而生成與用戶(hù)語(yǔ)音語(yǔ)調(diào)相似的模擬音頻數(shù)據(jù)；也可以為生成一種語(yǔ)音語(yǔ)調(diào)的格式，進(jìn)一步根據(jù)用戶(hù)與終端設(shè)備的交互，以上述語(yǔ)音語(yǔ)調(diào)的格式進(jìn)行反饋。例如，父母在終端進(jìn)行語(yǔ)音模擬，終端向云端進(jìn)行音頻文件的發(fā)送，云端獲取后，根據(jù)父母的音頻文件，生成與父母聲音相對(duì)應(yīng)的特征信息，再根據(jù)特征信息生成帶有語(yǔ)音語(yǔ)調(diào)格式的模擬音頻數(shù)據(jù)，進(jìn)而當(dāng)孩子與終端進(jìn)行語(yǔ)音交互時(shí)，終端可通過(guò)父母的聲音進(jìn)行交互。

步驟s40，將所述模擬音頻數(shù)據(jù)進(jìn)行播放。

本發(fā)明提供一種語(yǔ)音模擬方法，通過(guò)對(duì)獲取的用戶(hù)音頻數(shù)據(jù)進(jìn)行解析并提取特征信息，再通過(guò)特征信息生成所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)，從而對(duì)模擬音頻數(shù)據(jù)進(jìn)行播放。本發(fā)明通過(guò)算法對(duì)人聲進(jìn)行解析進(jìn)而提取出特征數(shù)據(jù)，再使用與用戶(hù)相同的音素及語(yǔ)調(diào)來(lái)和用戶(hù)進(jìn)行交互或朗讀，聲音模擬效果好，相似度高、語(yǔ)音音調(diào)相似，提高了人機(jī)互動(dòng)的親切感，避免了現(xiàn)有的語(yǔ)音模擬方法，只能做到普通變聲，聲音無(wú)法變化，相似性低，無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。

本發(fā)明可應(yīng)用于胎教、早教、幼教、兒童教育等等多種場(chǎng)合，用于通過(guò)終端對(duì)兒童熟悉的例如父母的聲音的模擬，使兒童獲取終端播放的以父母聲音播放的音頻，例如講故事、學(xué)習(xí)等，或與兒童通過(guò)兒童熟悉的人的聲音進(jìn)行交互，提高兒童人機(jī)交互的親切感。

參照?qǐng)D2，圖2為本發(fā)明語(yǔ)音模擬方法的二實(shí)施例的流程示意圖。

基于一實(shí)施例，所述步驟s10之前，還包括：

步驟s50，獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息；

通過(guò)用戶(hù)在終端進(jìn)行發(fā)送請(qǐng)求信息，對(duì)語(yǔ)音模擬進(jìn)行請(qǐng)求。例如觸發(fā)按鍵，開(kāi)啟語(yǔ)音模擬流程，或者注冊(cè)登陸唯一的賬號(hào)密碼，提出請(qǐng)求信息，從而進(jìn)行下一步操作。

步驟s60，根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間；

在獲取到用戶(hù)的請(qǐng)求信息后，終端開(kāi)始對(duì)語(yǔ)音模擬進(jìn)行準(zhǔn)備，首先為用戶(hù)的語(yǔ)音模擬請(qǐng)求信息設(shè)定用戶(hù)標(biāo)識(shí)，請(qǐng)求信息可以為注冊(cè)信息，根據(jù)注冊(cè)信息生成用戶(hù)唯一標(biāo)識(shí)，與用戶(hù)相對(duì)應(yīng)。進(jìn)而，設(shè)定與用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的存儲(chǔ)空間，用于存放用戶(hù)的語(yǔ)音文件、音頻數(shù)據(jù)等。

步驟s70，提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。

通過(guò)終端向用戶(hù)進(jìn)行提示，可以進(jìn)行音頻數(shù)據(jù)的采集。該步驟可通過(guò)語(yǔ)音、震動(dòng)進(jìn)行提示，也可通過(guò)移動(dòng)設(shè)備進(jìn)行消息提示。

參照?qǐng)D3，圖3為本發(fā)明語(yǔ)音模擬方法的三實(shí)施例的流程示意圖。

基于一實(shí)施例，在三實(shí)施例中，所述步驟s20，包括：

步驟s21，在獲取所述音頻數(shù)據(jù)后，將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析；

聲音實(shí)際上為一種波形，常見(jiàn)mp3為壓縮格式，需要轉(zhuǎn)換為未壓縮格式的文件進(jìn)行處理，比如windowspcm文件，也就是俗稱(chēng)的wav文件。將用戶(hù)的音頻數(shù)據(jù)以wav格式進(jìn)行存儲(chǔ)后，讀取該wav文件的波形，首先可對(duì)首尾端的靜音部分進(jìn)行切除，消除空白段，也稱(chēng)為vad；再進(jìn)行聲音分析，分析過(guò)程，即為把聲音切割為單獨(dú)的小段，每一小段成為一幀，使用移動(dòng)窗函數(shù)實(shí)現(xiàn)。幀與幀之間可有交疊，具體的，可設(shè)置為每幀25毫秒，每?jī)蓭g有25-10＝15秒的交疊。稱(chēng)為幀長(zhǎng)25ms，幀移10ms分幀。分幀后，語(yǔ)音就變成為若干小段。

步驟s22，提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。

上述，提取出每一幀音頻數(shù)據(jù)中相對(duì)應(yīng)的因素特征值，所述因素特征值可以包括波形特征，作為特征信息。

參照?qǐng)D4，圖4為本發(fā)明語(yǔ)音模擬方法的四實(shí)施例的流程示意圖。

基于二實(shí)施例，在四實(shí)施例中，所述步驟s50之后，還包括：

步驟s80，判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)；

上述步驟為，在獲取語(yǔ)音模擬請(qǐng)求信息之后，首先對(duì)該用戶(hù)的語(yǔ)音模擬請(qǐng)求信息進(jìn)行分析和判斷，判斷該用戶(hù)是否通過(guò)終端進(jìn)行過(guò)語(yǔ)音模擬，即為是否保存有與該請(qǐng)求信息相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)。這一判斷過(guò)程，可在終端進(jìn)行，也可將終端的請(qǐng)求信息發(fā)至云端，從云端的數(shù)據(jù)庫(kù)中進(jìn)行與該語(yǔ)音模擬請(qǐng)求信息的匹配。

步驟s90，若是，調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)，并進(jìn)行播放；

當(dāng)數(shù)據(jù)庫(kù)中包含有與該用戶(hù)的語(yǔ)音模擬請(qǐng)求信息相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，則不再進(jìn)行進(jìn)一步的語(yǔ)音數(shù)據(jù)分析，直接調(diào)用與用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)，根據(jù)模擬音頻數(shù)據(jù)進(jìn)行播放或與用戶(hù)的交互。

若云端或終端的數(shù)據(jù)庫(kù)中沒(méi)有與該用戶(hù)的語(yǔ)音模擬請(qǐng)求信息相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，則需重新建立該用戶(hù)的用戶(hù)標(biāo)識(shí)并劃分存儲(chǔ)空間，準(zhǔn)備進(jìn)一步對(duì)用戶(hù)的語(yǔ)音進(jìn)行保存。

參照?qǐng)D5，圖5為本發(fā)明語(yǔ)音模擬方法的五實(shí)施例的流程示意圖。

基于一實(shí)施例，所述步驟s30，包括：

步驟s31，調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù)；

在進(jìn)行語(yǔ)音交互時(shí)，調(diào)用用戶(hù)指定播放的預(yù)設(shè)音頻數(shù)據(jù)。該預(yù)設(shè)音頻數(shù)據(jù)，可以為設(shè)于云端的預(yù)設(shè)的音頻文件，例如已經(jīng)編排好的語(yǔ)音故事、學(xué)習(xí)內(nèi)容等；也可以為通過(guò)算法判斷用戶(hù)通過(guò)語(yǔ)音發(fā)出的指令。這一過(guò)程可以為點(diǎn)播，也可以為根據(jù)語(yǔ)音模擬數(shù)據(jù)播放相應(yīng)的預(yù)設(shè)音頻數(shù)據(jù)文件。

步驟s32，根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。

根據(jù)特征信息，將用戶(hù)點(diǎn)播的預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為模擬音頻數(shù)據(jù)，或?qū)τ脩?hù)發(fā)出的音頻指令通過(guò)算法調(diào)取相應(yīng)的以模擬音頻數(shù)據(jù)為格式的預(yù)設(shè)音頻數(shù)據(jù)進(jìn)行反饋。例如，當(dāng)父母通過(guò)終端進(jìn)行語(yǔ)音模擬，并生成模擬音頻數(shù)據(jù)后，兒童與終端進(jìn)行交互，終端模擬父母的聲音進(jìn)行回饋。

本發(fā)明還提供一種語(yǔ)音模擬裝置。

參照?qǐng)D6，圖6為本發(fā)明語(yǔ)音模擬裝置的實(shí)施例的模塊示意圖。

在實(shí)施例中，所述語(yǔ)音模擬裝置包括：

獲取模塊10、提取模塊20、生成模塊30、播放模塊40、設(shè)定模塊50、提示模塊60、判斷模塊70、解析模塊80、調(diào)取模塊90和轉(zhuǎn)換模塊100；

所述獲取模塊10，用于獲取用戶(hù)的音頻數(shù)據(jù)；

所述提取模塊20，用于對(duì)所述音頻數(shù)據(jù)進(jìn)行解析，提取所述音頻數(shù)據(jù)的特征信息并保存；

所述生成模塊30，用于根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)；

所述播放模塊40，用于將所述模擬音頻數(shù)據(jù)進(jìn)行播放。

所述獲取模塊10，還用于獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息；

所述設(shè)定模塊50，用于根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間；

所述提示模塊60，用于提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。

所述解析模塊80，用于在獲取所述音頻數(shù)據(jù)后，將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析；

所述提取模塊20，還用于提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。

所述判斷模塊70，用于判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)；

所述播放模塊40，還用于若是，調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)，并進(jìn)行播放；

所述設(shè)定模塊50，還用于若否，進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)，以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。

所述調(diào)取模塊90，用于調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù)；

所述轉(zhuǎn)換模塊100，用于根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。

本發(fā)明提供一種語(yǔ)音模擬裝置，通過(guò)獲取模塊10、提取模塊20、生成模塊30、播放模塊40、設(shè)定模塊50、提示模塊60、判斷模塊70、解析模塊80、調(diào)取模塊90和轉(zhuǎn)換模塊100的協(xié)同工作，對(duì)獲取的用戶(hù)音頻數(shù)據(jù)進(jìn)行解析并提取特征信息，再通過(guò)特征信息生成所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù)，從而對(duì)模擬音頻數(shù)據(jù)進(jìn)行播放。本發(fā)明通過(guò)算法對(duì)人聲進(jìn)行解析進(jìn)而提取出特征數(shù)據(jù)，再使用與用戶(hù)相同的音素及語(yǔ)調(diào)來(lái)和用戶(hù)進(jìn)行交互或朗讀，聲音模擬效果好，相似度高、語(yǔ)音音調(diào)相似，提高了人機(jī)互動(dòng)的親切感，避免了現(xiàn)有的語(yǔ)音模擬方法，只能做到普通變聲，聲音無(wú)法變化，相似性低，無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。

以上僅為本發(fā)明的優(yōu)選實(shí)施例，并非因此限制本發(fā)明的專(zhuān)利范圍，凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的保護(hù)范圍內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2