本發(fā)明涉及聲音信號(hào)技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)音模擬方法和裝置。
背景技術(shù):
語(yǔ)音,即語(yǔ)言的物質(zhì)外殼,是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語(yǔ)言意義。語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色,這也是構(gòu)成語(yǔ)音的四要素。
語(yǔ)音即語(yǔ)言的聲音,是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語(yǔ)言意義。語(yǔ)言依靠語(yǔ)音實(shí)現(xiàn)它的社會(huì)功能。語(yǔ)言是音義結(jié)合的符號(hào)系統(tǒng),語(yǔ)言的聲音和語(yǔ)言的意義是緊密聯(lián)系著的,因此,語(yǔ)言雖是一種聲音,但又與一般的聲音有著本質(zhì)的區(qū)別。語(yǔ)音是人類(lèi)發(fā)音器官發(fā)出的具有區(qū)別意義功能的聲音,不能把語(yǔ)音看成純粹的自然物質(zhì);語(yǔ)音是最直接地記錄思維活動(dòng)的符號(hào)體系,是語(yǔ)言交際工具的聲音形式。
語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色,這也是構(gòu)成語(yǔ)音的四要素。音高指聲波頻率,即每秒鐘振動(dòng)次數(shù)的多少;音強(qiáng)指聲波振幅的大??;音長(zhǎng)指聲波振動(dòng)持續(xù)時(shí)間的長(zhǎng)短,也稱(chēng)為"時(shí)長(zhǎng)";音色指聲音的特色和本質(zhì),也稱(chēng)作"音質(zhì)"。
人的發(fā)音器官及其活動(dòng)情況是語(yǔ)音的生理基礎(chǔ)。人的發(fā)音器官分3部分:
(1)呼吸器官,包括肺、氣管和支氣管。肺是呼吸器官的中心,是產(chǎn)生語(yǔ)音動(dòng)力的基礎(chǔ)。
(2)喉頭和聲帶,它們是發(fā)音的振顫體。
(3)口腔、咽腔、鼻腔,它們都是發(fā)音的共鳴器。
語(yǔ)音和語(yǔ)義的聯(lián)系是人們?cè)陂L(zhǎng)期的語(yǔ)言實(shí)踐中約定的,這種音義的結(jié)合關(guān)系體現(xiàn)了語(yǔ)音有重要的社會(huì)屬性。
語(yǔ)音模擬在人機(jī)交互過(guò)程中,提升了一定的親切感和適應(yīng)性,但現(xiàn)有的人語(yǔ)音模擬方法,均為普通變聲裝置,只能做到根據(jù)人聲識(shí)別后進(jìn)行聲道模型進(jìn)行模擬,或只能調(diào)節(jié)語(yǔ)速和語(yǔ)調(diào),音色無(wú)法與被模擬人的聲音相提并論。總之,現(xiàn)有的語(yǔ)音模擬方法,只能做到普通變聲,聲音無(wú)法變化,相似性低,無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種語(yǔ)音模擬方法和裝置,旨在于解決現(xiàn)有的語(yǔ)音模擬方法,只能做到普通變聲,聲音無(wú)法變化,相似性低,無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。
為解決上述問(wèn)題,本發(fā)明提供一種語(yǔ)音模擬方法,包括如下步驟:
獲取用戶(hù)的音頻數(shù)據(jù);
對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,提取所述音頻數(shù)據(jù)的特征信息并保存;
根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù);
將所述模擬音頻數(shù)據(jù)進(jìn)行播放。
優(yōu)選地,所述獲取用戶(hù)的音頻數(shù)據(jù)之前,還包括:
獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息;
根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間;
提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。
優(yōu)選地,所述對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,提取所述音頻數(shù)據(jù)的特征信息,包括:
在獲取所述音頻數(shù)據(jù)后,將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析;
提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。
優(yōu)選地,所述獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息之后,還包括:
判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí);
若是,調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù),并進(jìn)行播放;
若否,進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。
優(yōu)選地,所述根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù),包括:
調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù);
根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。
此外,為解決上述問(wèn)題,本發(fā)明還提供一種語(yǔ)音模擬裝置,包括:獲取模塊、提取模塊、生成模塊和播放模塊;
所述獲取模塊,用于獲取用戶(hù)的音頻數(shù)據(jù);
所述提取模塊,用于對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,提取所述音頻數(shù)據(jù)的特征信息并保存;
所述生成模塊,用于根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù);
所述播放模塊,用于將所述模擬音頻數(shù)據(jù)進(jìn)行播放。
優(yōu)選地,還包括:設(shè)定模塊和提示模塊;
所述獲取模塊,還用于獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息;
所述設(shè)定模塊,用于根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間;
所述提示模塊,用于提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。
優(yōu)選地,還包括:解析模塊;
所述解析模塊,用于在獲取所述音頻數(shù)據(jù)后,將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析;
所述提取模塊,還用于提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。
優(yōu)選地,還包括:判斷模塊;
所述判斷模塊,用于判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí);
所述播放模塊,還用于若是,調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù),并進(jìn)行播放;
所述設(shè)定模塊,還用于若否,進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。
優(yōu)選地,包括:調(diào)取模塊和轉(zhuǎn)換模塊;
所述調(diào)取模塊,用于調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù);
所述轉(zhuǎn)換模塊,用于根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。
本發(fā)明提供一種語(yǔ)音模擬方法和裝置,其中方法通過(guò)對(duì)獲取的用戶(hù)音頻數(shù)據(jù)進(jìn)行解析并提取特征信息,再通過(guò)特征信息生成所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù),從而對(duì)模擬音頻數(shù)據(jù)進(jìn)行播放。本發(fā)明通過(guò)算法對(duì)人聲進(jìn)行解析進(jìn)而提取出特征數(shù)據(jù),再使用與用戶(hù)相同的音素及語(yǔ)調(diào)來(lái)和用戶(hù)進(jìn)行交互或朗讀,聲音模擬效果好,相似度高、語(yǔ)音音調(diào)相似,提高了人機(jī)互動(dòng)的親切感,避免了現(xiàn)有的語(yǔ)音模擬方法,只能做到普通變聲,聲音無(wú)法變化,相似性低,無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。
附圖說(shuō)明
圖1為本發(fā)明語(yǔ)音模擬方法的一實(shí)施例的流程示意圖;
圖2為本發(fā)明語(yǔ)音模擬方法的二實(shí)施例的流程示意圖;
圖3為本發(fā)明語(yǔ)音模擬方法的三實(shí)施例的流程示意圖;
圖4為本發(fā)明語(yǔ)音模擬方法的四實(shí)施例的流程示意圖;
圖5為本發(fā)明語(yǔ)音模擬方法的五實(shí)施例的流程示意圖;
圖6為本發(fā)明語(yǔ)音模擬裝置的實(shí)施例的功能模塊示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說(shuō)明。
具體實(shí)施方式
應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種語(yǔ)音模擬方法。
參照?qǐng)D1,圖1為本發(fā)明語(yǔ)音模擬方法的一實(shí)施例的流程示意圖。
在一實(shí)施例中,所述語(yǔ)音模擬方法包括:
步驟s10,獲取用戶(hù)的音頻數(shù)據(jù);
需要理解的是,語(yǔ)音,即語(yǔ)言的物質(zhì)外殼,是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語(yǔ)言意義。語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色,這也是構(gòu)成語(yǔ)音的四要素。
語(yǔ)音即語(yǔ)言的聲音,是語(yǔ)言符號(hào)系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負(fù)載著一定的語(yǔ)言意義。語(yǔ)言依靠語(yǔ)音實(shí)現(xiàn)它的社會(huì)功能。語(yǔ)言是音義結(jié)合的符號(hào)系統(tǒng),語(yǔ)言的聲音和語(yǔ)言的意義是緊密聯(lián)系著的,因此,語(yǔ)言雖是一種聲音,但又與一般的聲音有著本質(zhì)的區(qū)別。語(yǔ)音是人類(lèi)發(fā)音器官發(fā)出的具有區(qū)別意義功能的聲音,不能把語(yǔ)音看成純粹的自然物質(zhì);語(yǔ)音是最直接地記錄思維活動(dòng)的符號(hào)體系,是語(yǔ)言交際工具的聲音形式。
語(yǔ)音的物理基礎(chǔ)主要有音高、音強(qiáng)、音長(zhǎng)、音色,這也是構(gòu)成語(yǔ)音的四要素。音高指聲波頻率,即每秒鐘振動(dòng)次數(shù)的多少;音強(qiáng)指聲波振幅的大小;音長(zhǎng)指聲波振動(dòng)持續(xù)時(shí)間的長(zhǎng)短,也稱(chēng)為"時(shí)長(zhǎng)";音色指聲音的特色和本質(zhì),也稱(chēng)作"音質(zhì)"。
人的發(fā)音器官及其活動(dòng)情況是語(yǔ)音的生理基礎(chǔ)。人的發(fā)音器官分3部分:
(1)呼吸器官,包括肺、氣管和支氣管。肺是呼吸器官的中心,是產(chǎn)生語(yǔ)音動(dòng)力的基礎(chǔ)。
(2)喉頭和聲帶,它們是發(fā)音的振顫體。
(3)口腔、咽腔、鼻腔,它們都是發(fā)音的共鳴器。
語(yǔ)音和語(yǔ)義的聯(lián)系是人們?cè)陂L(zhǎng)期的語(yǔ)言實(shí)踐中約定的,這種音義的結(jié)合關(guān)系體現(xiàn)了語(yǔ)音有重要的社會(huì)屬性。
獲取用戶(hù)語(yǔ)音的方式可以為通過(guò)麥克風(fēng)進(jìn)行錄音,也可以為通過(guò)移動(dòng)端與終端連接,獲取發(fā)送的語(yǔ)音信息。
步驟s20,對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,提取所述音頻數(shù)據(jù)的特征信息并保存;
保存的特征信息,可以以波形數(shù)據(jù)的形式進(jìn)行保存,也可以將所述音頻以幀的形式進(jìn)行間隔保存,此外,特征信息保存入數(shù)據(jù)庫(kù)中,該數(shù)據(jù)庫(kù)可以為云端數(shù)據(jù)庫(kù),而用于獲取用戶(hù)音頻數(shù)據(jù)的裝置為終端機(jī),當(dāng)使用時(shí),終端機(jī)獲取用戶(hù)的音頻信息,發(fā)送至云端;云端對(duì)獲取到的用戶(hù)的音頻信息進(jìn)行分析,并提取出其特征信息,包括語(yǔ)音的語(yǔ)調(diào)、口音、語(yǔ)速、頻率等信息。
步驟s30,根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù);
云端根據(jù)特征信息,生成相應(yīng)的模擬音頻數(shù)據(jù)。該模擬音頻數(shù)據(jù),可以為將預(yù)設(shè)的現(xiàn)有音頻文件進(jìn)行轉(zhuǎn)換,從而生成與用戶(hù)語(yǔ)音語(yǔ)調(diào)相似的模擬音頻數(shù)據(jù);也可以為生成一種語(yǔ)音語(yǔ)調(diào)的格式,進(jìn)一步根據(jù)用戶(hù)與終端設(shè)備的交互,以上述語(yǔ)音語(yǔ)調(diào)的格式進(jìn)行反饋。例如,父母在終端進(jìn)行語(yǔ)音模擬,終端向云端進(jìn)行音頻文件的發(fā)送,云端獲取后,根據(jù)父母的音頻文件,生成與父母聲音相對(duì)應(yīng)的特征信息,再根據(jù)特征信息生成帶有語(yǔ)音語(yǔ)調(diào)格式的模擬音頻數(shù)據(jù),進(jìn)而當(dāng)孩子與終端進(jìn)行語(yǔ)音交互時(shí),終端可通過(guò)父母的聲音進(jìn)行交互。
步驟s40,將所述模擬音頻數(shù)據(jù)進(jìn)行播放。
本發(fā)明提供一種語(yǔ)音模擬方法,通過(guò)對(duì)獲取的用戶(hù)音頻數(shù)據(jù)進(jìn)行解析并提取特征信息,再通過(guò)特征信息生成所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù),從而對(duì)模擬音頻數(shù)據(jù)進(jìn)行播放。本發(fā)明通過(guò)算法對(duì)人聲進(jìn)行解析進(jìn)而提取出特征數(shù)據(jù),再使用與用戶(hù)相同的音素及語(yǔ)調(diào)來(lái)和用戶(hù)進(jìn)行交互或朗讀,聲音模擬效果好,相似度高、語(yǔ)音音調(diào)相似,提高了人機(jī)互動(dòng)的親切感,避免了現(xiàn)有的語(yǔ)音模擬方法,只能做到普通變聲,聲音無(wú)法變化,相似性低,無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。
本發(fā)明可應(yīng)用于胎教、早教、幼教、兒童教育等等多種場(chǎng)合,用于通過(guò)終端對(duì)兒童熟悉的例如父母的聲音的模擬,使兒童獲取終端播放的以父母聲音播放的音頻,例如講故事、學(xué)習(xí)等,或與兒童通過(guò)兒童熟悉的人的聲音進(jìn)行交互,提高兒童人機(jī)交互的親切感。
參照?qǐng)D2,圖2為本發(fā)明語(yǔ)音模擬方法的二實(shí)施例的流程示意圖。
基于一實(shí)施例,所述步驟s10之前,還包括:
步驟s50,獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息;
通過(guò)用戶(hù)在終端進(jìn)行發(fā)送請(qǐng)求信息,對(duì)語(yǔ)音模擬進(jìn)行請(qǐng)求。例如觸發(fā)按鍵,開(kāi)啟語(yǔ)音模擬流程,或者注冊(cè)登陸唯一的賬號(hào)密碼,提出請(qǐng)求信息,從而進(jìn)行下一步操作。
步驟s60,根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間;
在獲取到用戶(hù)的請(qǐng)求信息后,終端開(kāi)始對(duì)語(yǔ)音模擬進(jìn)行準(zhǔn)備,首先為用戶(hù)的語(yǔ)音模擬請(qǐng)求信息設(shè)定用戶(hù)標(biāo)識(shí),請(qǐng)求信息可以為注冊(cè)信息,根據(jù)注冊(cè)信息生成用戶(hù)唯一標(biāo)識(shí),與用戶(hù)相對(duì)應(yīng)。進(jìn)而,設(shè)定與用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的存儲(chǔ)空間,用于存放用戶(hù)的語(yǔ)音文件、音頻數(shù)據(jù)等。
步驟s70,提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。
通過(guò)終端向用戶(hù)進(jìn)行提示,可以進(jìn)行音頻數(shù)據(jù)的采集。該步驟可通過(guò)語(yǔ)音、震動(dòng)進(jìn)行提示,也可通過(guò)移動(dòng)設(shè)備進(jìn)行消息提示。
參照?qǐng)D3,圖3為本發(fā)明語(yǔ)音模擬方法的三實(shí)施例的流程示意圖。
基于一實(shí)施例,在三實(shí)施例中,所述步驟s20,包括:
步驟s21,在獲取所述音頻數(shù)據(jù)后,將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析;
聲音實(shí)際上為一種波形,常見(jiàn)mp3為壓縮格式,需要轉(zhuǎn)換為未壓縮格式的文件進(jìn)行處理,比如windowspcm文件,也就是俗稱(chēng)的wav文件。將用戶(hù)的音頻數(shù)據(jù)以wav格式進(jìn)行存儲(chǔ)后,讀取該wav文件的波形,首先可對(duì)首尾端的靜音部分進(jìn)行切除,消除空白段,也稱(chēng)為vad;再進(jìn)行聲音分析,分析過(guò)程,即為把聲音切割為單獨(dú)的小段,每一小段成為一幀,使用移動(dòng)窗函數(shù)實(shí)現(xiàn)。幀與幀之間可有交疊,具體的,可設(shè)置為每幀25毫秒,每?jī)蓭g有25-10=15秒的交疊。稱(chēng)為幀長(zhǎng)25ms,幀移10ms分幀。分幀后,語(yǔ)音就變成為若干小段。
步驟s22,提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。
上述,提取出每一幀音頻數(shù)據(jù)中相對(duì)應(yīng)的因素特征值,所述因素特征值可以包括波形特征,作為特征信息。
參照?qǐng)D4,圖4為本發(fā)明語(yǔ)音模擬方法的四實(shí)施例的流程示意圖。
基于二實(shí)施例,在四實(shí)施例中,所述步驟s50之后,還包括:
步驟s80,判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí);
上述步驟為,在獲取語(yǔ)音模擬請(qǐng)求信息之后,首先對(duì)該用戶(hù)的語(yǔ)音模擬請(qǐng)求信息進(jìn)行分析和判斷,判斷該用戶(hù)是否通過(guò)終端進(jìn)行過(guò)語(yǔ)音模擬,即為是否保存有與該請(qǐng)求信息相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí)。這一判斷過(guò)程,可在終端進(jìn)行,也可將終端的請(qǐng)求信息發(fā)至云端,從云端的數(shù)據(jù)庫(kù)中進(jìn)行與該語(yǔ)音模擬請(qǐng)求信息的匹配。
步驟s90,若是,調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù),并進(jìn)行播放;
當(dāng)數(shù)據(jù)庫(kù)中包含有與該用戶(hù)的語(yǔ)音模擬請(qǐng)求信息相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),則不再進(jìn)行進(jìn)一步的語(yǔ)音數(shù)據(jù)分析,直接調(diào)用與用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的模擬音頻數(shù)據(jù),根據(jù)模擬音頻數(shù)據(jù)進(jìn)行播放或與用戶(hù)的交互。
若否,進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。
若云端或終端的數(shù)據(jù)庫(kù)中沒(méi)有與該用戶(hù)的語(yǔ)音模擬請(qǐng)求信息相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),則需重新建立該用戶(hù)的用戶(hù)標(biāo)識(shí)并劃分存儲(chǔ)空間,準(zhǔn)備進(jìn)一步對(duì)用戶(hù)的語(yǔ)音進(jìn)行保存。
參照?qǐng)D5,圖5為本發(fā)明語(yǔ)音模擬方法的五實(shí)施例的流程示意圖。
基于一實(shí)施例,所述步驟s30,包括:
步驟s31,調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù);
在進(jìn)行語(yǔ)音交互時(shí),調(diào)用用戶(hù)指定播放的預(yù)設(shè)音頻數(shù)據(jù)。該預(yù)設(shè)音頻數(shù)據(jù),可以為設(shè)于云端的預(yù)設(shè)的音頻文件,例如已經(jīng)編排好的語(yǔ)音故事、學(xué)習(xí)內(nèi)容等;也可以為通過(guò)算法判斷用戶(hù)通過(guò)語(yǔ)音發(fā)出的指令。這一過(guò)程可以為點(diǎn)播,也可以為根據(jù)語(yǔ)音模擬數(shù)據(jù)播放相應(yīng)的預(yù)設(shè)音頻數(shù)據(jù)文件。
步驟s32,根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。
根據(jù)特征信息,將用戶(hù)點(diǎn)播的預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為模擬音頻數(shù)據(jù),或?qū)τ脩?hù)發(fā)出的音頻指令通過(guò)算法調(diào)取相應(yīng)的以模擬音頻數(shù)據(jù)為格式的預(yù)設(shè)音頻數(shù)據(jù)進(jìn)行反饋。例如,當(dāng)父母通過(guò)終端進(jìn)行語(yǔ)音模擬,并生成模擬音頻數(shù)據(jù)后,兒童與終端進(jìn)行交互,終端模擬父母的聲音進(jìn)行回饋。
本發(fā)明還提供一種語(yǔ)音模擬裝置。
參照?qǐng)D6,圖6為本發(fā)明語(yǔ)音模擬裝置的實(shí)施例的模塊示意圖。
在實(shí)施例中,所述語(yǔ)音模擬裝置包括:
獲取模塊10、提取模塊20、生成模塊30、播放模塊40、設(shè)定模塊50、提示模塊60、判斷模塊70、解析模塊80、調(diào)取模塊90和轉(zhuǎn)換模塊100;
所述獲取模塊10,用于獲取用戶(hù)的音頻數(shù)據(jù);
所述提取模塊20,用于對(duì)所述音頻數(shù)據(jù)進(jìn)行解析,提取所述音頻數(shù)據(jù)的特征信息并保存;
所述生成模塊30,用于根據(jù)已保存的所述特征信息生成與所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù);
所述播放模塊40,用于將所述模擬音頻數(shù)據(jù)進(jìn)行播放。
所述獲取模塊10,還用于獲取所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息;
所述設(shè)定模塊50,用于根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間;
所述提示模塊60,用于提示用戶(hù)開(kāi)始采集所述音頻數(shù)據(jù)。
所述解析模塊80,用于在獲取所述音頻數(shù)據(jù)后,將所述音頻數(shù)據(jù)的每一幀進(jìn)行解析;
所述提取模塊20,還用于提取出與所述音頻數(shù)據(jù)相對(duì)應(yīng)的音素特征值作為特征信息。
所述判斷模塊70,用于判斷所述用戶(hù)的語(yǔ)音模擬請(qǐng)求信息是否具有與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí);
所述播放模塊40,還用于若是,調(diào)出與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù),并進(jìn)行播放;
所述設(shè)定模塊50,還用于若否,進(jìn)行所述根據(jù)所述語(yǔ)音模擬請(qǐng)求信息設(shè)定與所述用戶(hù)相對(duì)應(yīng)的用戶(hù)標(biāo)識(shí),以及與所述用戶(hù)標(biāo)識(shí)相對(duì)應(yīng)的用于存儲(chǔ)用戶(hù)音頻數(shù)據(jù)的存儲(chǔ)空間的步驟。
所述調(diào)取模塊90,用于調(diào)取所述用戶(hù)請(qǐng)求播放的預(yù)設(shè)音頻數(shù)據(jù);
所述轉(zhuǎn)換模塊100,用于根據(jù)已保存的所述特征信息將所述預(yù)設(shè)音頻數(shù)據(jù)轉(zhuǎn)換為與所述音頻數(shù)據(jù)相對(duì)應(yīng)的所述模擬音頻數(shù)據(jù)。
本發(fā)明提供一種語(yǔ)音模擬裝置,通過(guò)獲取模塊10、提取模塊20、生成模塊30、播放模塊40、設(shè)定模塊50、提示模塊60、判斷模塊70、解析模塊80、調(diào)取模塊90和轉(zhuǎn)換模塊100的協(xié)同工作,對(duì)獲取的用戶(hù)音頻數(shù)據(jù)進(jìn)行解析并提取特征信息,再通過(guò)特征信息生成所述音頻數(shù)據(jù)相對(duì)應(yīng)的模擬音頻數(shù)據(jù),從而對(duì)模擬音頻數(shù)據(jù)進(jìn)行播放。本發(fā)明通過(guò)算法對(duì)人聲進(jìn)行解析進(jìn)而提取出特征數(shù)據(jù),再使用與用戶(hù)相同的音素及語(yǔ)調(diào)來(lái)和用戶(hù)進(jìn)行交互或朗讀,聲音模擬效果好,相似度高、語(yǔ)音音調(diào)相似,提高了人機(jī)互動(dòng)的親切感,避免了現(xiàn)有的語(yǔ)音模擬方法,只能做到普通變聲,聲音無(wú)法變化,相似性低,無(wú)法提高人機(jī)互動(dòng)時(shí)的適應(yīng)性和親切感的問(wèn)題。
本發(fā)明可應(yīng)用于胎教、早教、幼教、兒童教育等等多種場(chǎng)合,用于通過(guò)終端對(duì)兒童熟悉的例如父母的聲音的模擬,使兒童獲取終端播放的以父母聲音播放的音頻,例如講故事、學(xué)習(xí)等,或與兒童通過(guò)兒童熟悉的人的聲音進(jìn)行交互,提高兒童人機(jī)交互的親切感。
以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專(zhuān)利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的保護(hù)范圍內(nèi)。