本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種聲音動畫的制作方法及電子設(shè)備。
背景技術(shù):
現(xiàn)有的表情動畫的制作方法通常是通過獲取面部表情的視頻信息來生成對應(yīng)的表情動畫,這種方法需要獲取大量的視頻信息,效率低下、速度慢、受到視頻采集等各方面的限制較多,資源消耗也比較大。
技術(shù)實現(xiàn)要素:
為了解決上述問題,本發(fā)明提供一種聲音動畫的制作方法及電子設(shè)備。
所述技術(shù)方案如下:
第一方面,提供了一種聲音動畫的制作方法,所述方法包括:
獲取語音信息;
將所述語音信息分割為多個語音片段;
獲取所述語音片段的特征;
根據(jù)所述特征選取對應(yīng)的嘴部表情;
根據(jù)所述嘴部表情生成對應(yīng)的表情幀;
根據(jù)所述表情幀生成動畫。
結(jié)合第一方面,在第一種可能的實現(xiàn)方式中,所述將所述語音信息分割為多個語音片段包括:
根據(jù)所述動畫的幀率對所述語音信息進行分割,得到分割后的語音片段;
其中,每個語音片段與動畫中的一幀相對應(yīng)。
結(jié)合第一方面,在第二種可能的實現(xiàn)方式中,所述根據(jù)所述特征選取對應(yīng)的嘴部表情包括:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
結(jié)合第一方面,在第三種可能的實現(xiàn)方式中,所述根據(jù)所述特征選取對應(yīng)的嘴部表情包括:
根據(jù)所述特征,預(yù)設(shè)的模型以及所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的嘴部表情,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
結(jié)合第一方面至第一方面的第三種任一項可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述嘴部表情包括嘴部的開閉狀態(tài)和/或嘴部的形狀。
結(jié)合第一方面的第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述根據(jù)所述嘴部表情生成對應(yīng)的表情幀包括:
根據(jù)嘴部的開閉狀態(tài)和/或嘴部的形狀生成面部表情;
根據(jù)所述面部表情生成對應(yīng)的表情幀。
第二方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:
語音獲取模塊,用于獲取語音信息;
分割模塊,用于將所述語音信息分割為多個語音片段;
特征提取模塊,用于獲取所述語音片段的特征;
嘴部表情選擇模塊,用于根據(jù)所述特征選取對應(yīng)的嘴部表情;
表情幀生成模塊,用于根據(jù)所述嘴部表情生成對應(yīng)的表情幀;
動畫生成模塊,用于根據(jù)所述表情幀生成動畫。
結(jié)合第二方面,在第一種可能的實現(xiàn)方式中,所述分割模塊具體用于:
根據(jù)所述動畫的幀率對所述語音信息進行分割,得到分割后的語音片段;
其中,每個語音片段與動畫中的一幀相對應(yīng)。
結(jié)合第二方面,在第二種可能的實現(xiàn)方式中,所述嘴部表情選擇模塊具體 用于:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
結(jié)合第二方面,在第三種可能的實現(xiàn)方式中,所述嘴部表情選擇模塊具體用于:
根據(jù)所述特征,預(yù)設(shè)的模型以及所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的嘴部表情,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
結(jié)合第二方面至第二方面的第三種任一項可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述嘴部表情包括嘴部的開閉狀態(tài)和/或嘴部的形狀。
結(jié)合第二方面的第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述表情幀生成模塊具體用于:
根據(jù)嘴部的開閉狀態(tài)和/或嘴部的形狀生成面部表情;
根據(jù)所述面部表情生成對應(yīng)的表情幀。
第三方面,提供了一種電子設(shè)備,所述設(shè)備包括存儲器,音頻模塊,以及與所述存儲器,所述音頻模塊連接的處理器,其中,所述存儲器用于存儲一組程序代碼,所述處理器調(diào)用所述存儲器所存儲的程序代碼用于執(zhí)行以下操作:
獲取語音信息;
將所述語音信息分割為多個語音片段;
獲取所述語音片段的特征;
根據(jù)所述特征選取對應(yīng)的嘴部表情;
根據(jù)所述嘴部表情生成對應(yīng)的表情幀;
根據(jù)所述表情幀生成動畫。
結(jié)合第三方面,在第一種可能的實現(xiàn)方式中,所述處理器調(diào)用所述存儲器所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)所述動畫的幀率對所述語音信息進行分割,得到分割后的語音片段;
其中,每個語音片段與動畫中的一幀相對應(yīng)。
結(jié)合第三方面,在第二種可能的實現(xiàn)方式中,所述處理器調(diào)用所述存儲器所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
結(jié)合第三方面,在第三種可能的實現(xiàn)方式中,所述處理器調(diào)用所述存儲器所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)所述特征,預(yù)設(shè)的模型以及所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的嘴部表情,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
結(jié)合第三方面至第三方面的第三種任一項可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述嘴部表情包括嘴部的開閉狀態(tài)和/或嘴部的形狀。
結(jié)合第三方面的第四種可能的實現(xiàn)方式,在第五種可能的實現(xiàn)方式中,所述處理器調(diào)用所述存儲器所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)嘴部的開閉狀態(tài)和/或嘴部的形狀生成面部表情;
根據(jù)所述面部表情生成對應(yīng)的表情幀。
本發(fā)明實施例提供了一種聲音動畫的制作方法及電子設(shè)備,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的一種聲音動畫的制作方法的流程圖;
圖2是本發(fā)明實施例提供的一種聲音動畫的制作方法的流程圖;
圖3是本發(fā)明實施例提供的一種聲音動畫的制作方法的流程圖;
圖4是本發(fā)明實施例提供的一種聲音動畫的制作方法的流程圖;
圖5是本發(fā)明實施例提供的一種聲音動畫的制作方法的流程圖;
圖6是本發(fā)明實施例提供的一種聲音動畫的制作方法的流程圖;
圖7是本發(fā)明實施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖;
圖8是本發(fā)明實施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述。
本發(fā)明實施例提供了一種聲音動畫的制作方法及電子設(shè)備,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點。
實施例一
本發(fā)明實施例提供了一種聲音動畫的制作方法,參照圖1所示,方法流程包括:
101、獲取語音信息。
具體的,該過程可以包括:
音頻模塊通過麥克風實時的采集音頻信息;
從所述音頻信息中分離出語音信息。
通常來說,人的語音的頻率范圍在300Hz至4000Hz之間,因此可以通過對音頻信息進行濾波,分離出頻率范圍在300Hz至4000Hz之間的信息作為人的語音信息。
可選的,所述音頻信息也可以是通過讀取以各種形式存儲的音頻數(shù)據(jù)來獲取的,本發(fā)明實施例對具體的獲取方式不加以限定。
102、將所述語音信息分割為多個語音片段。
具體的,根據(jù)需要生成的動畫的幀率來對語音片段進行分割。
示例性的,當生成的動畫為30幀/秒時,每個語音片段的長度為1/30秒;當生成的動畫為60幀/秒時,每個語音片段的長度為1/60秒。本發(fā)明實施例對具體的分割方式不加以限定。
103、獲取所述語音片段的特征。
具體的,從步驟102中獲取的每個所述語音片段中提取出該語音片段對應(yīng)的特征,示例性的,該特征可以是MFCC(Mel Frequency Cepstral Coefficents,梅爾頻率倒譜系數(shù))特征。本發(fā)明實施例對具體的特征不加以限定。
104、根據(jù)所述特征選取對應(yīng)的嘴部表情。
具體的,該過程可以包括:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
預(yù)設(shè)的模型是預(yù)先設(shè)置好的模型,該模型可以是通過有監(jiān)督學(xué)習訓(xùn)練得到的。
訓(xùn)練的具體方法包括:
a、收集訓(xùn)練數(shù)據(jù)。
收集大量的包含語音和嘴部開閉狀態(tài)對應(yīng)關(guān)系的數(shù)據(jù),例如電影、電視片段。
b、對收集到的數(shù)據(jù)進行預(yù)處理。
將收集到的數(shù)據(jù)中帶有人臉嘴部的視頻幀挑選出來。
將這些視頻幀中嘴部的開閉狀態(tài)和對應(yīng)的語音信息的MFCC特征提取出來。
c、根據(jù)這些嘴部的開閉狀態(tài)和對應(yīng)的MFCC特征對SVM(Support Vector Machine,支持向量機)進行訓(xùn)練,得到訓(xùn)練后的SVM作為預(yù)設(shè)模型。
在根據(jù)所述特征選取對應(yīng)的嘴部表情的過程中,將所述特征輸入該訓(xùn)練后的SVM,SVM將判斷該特征對應(yīng)的嘴部狀態(tài)是開還是閉,如果對應(yīng)的狀態(tài)是開,則從預(yù)設(shè)的表情庫中選取嘴部狀態(tài)為開的表情作為所述特征對應(yīng)的嘴部表情,如果對應(yīng)的狀態(tài)是閉,則從預(yù)設(shè)的表情庫中選取嘴部狀態(tài)為閉的表情作為所述 特征對應(yīng)的嘴部表情。
105、根據(jù)所述嘴部表情生成對應(yīng)的表情幀。
具體的,根據(jù)所述嘴部表情,預(yù)設(shè)的紋理以及預(yù)設(shè)的背景生成對應(yīng)的表情幀。
106、根據(jù)所述表情幀生成動畫。
具體的,按時間順序排列所述表情幀,生成對應(yīng)的動畫。
本發(fā)明實施例提供了一種聲音動畫的制作方法,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點,通過SVM能夠快速的對嘴部的開閉狀態(tài)進行判斷,從而有效地提高識別的速度。
實施例二
本發(fā)明實施例提供了一種聲音動畫的制作方法,參照圖2所示,方法流程包括:
201、獲取語音信息。
具體的,該過程可以包括:
音頻模塊通過麥克風實時的采集音頻信息;
從所述音頻信息中分離出語音信息。
通常來說,人的語音的頻率范圍在300Hz至4000Hz之間,因此可以通過對音頻信息進行濾波,分離出頻率范圍在300Hz至4000Hz之間的信息作為人的語音信息。
可選的,還可以進一步通過聲音的強度來分離語音信息,因為人的語音一般在40dB至60dB之間,因此可以根據(jù)聲音的dB來對音頻信息進行過濾,分離出強度在在40dB至60dB之間的音頻信息。
可選的還可以對分離出的語音信息進行降噪等處理,得到更加精確的語音信息。
可選的,所述音頻信息也可以是通過讀取以各種形式存儲的音頻數(shù)據(jù)來獲 取的,本發(fā)明實施例對具體的獲取方式不加以限定。
202、將所述語音信息分割為多個語音片段。
該步驟與步驟102相同,此處不再贅述。
203、獲取所述語音片段的特征。
該步驟與步驟103相同,此處不再贅述。
204、根據(jù)所述特征選取對應(yīng)的嘴部表情。
具體的,該過程可以包括:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
預(yù)設(shè)的模型是預(yù)先設(shè)置好的模型,該模型可以是通過有監(jiān)督學(xué)習訓(xùn)練得到的。
訓(xùn)練的具體方法包括:
a、收集訓(xùn)練數(shù)據(jù)。
收集大量的包含語音和嘴部的形狀對應(yīng)關(guān)系的數(shù)據(jù),例如電影、電視片段。
b、對收集到的數(shù)據(jù)進行預(yù)處理。
將收集到的數(shù)據(jù)中帶有人臉嘴部的視頻幀挑選出來。
將這些視頻幀中嘴部的形狀和對應(yīng)的語音信息的MFCC特征提取出來。
c、根據(jù)這些嘴部的形狀和對應(yīng)的MFCC特征對隨機森林(Random Forest)進行訓(xùn)練,得到訓(xùn)練后的隨機森林作為預(yù)設(shè)模型。
在根據(jù)所述特征選取對應(yīng)的嘴部表情的過程中,將所述特征輸入該訓(xùn)練后的隨機森林,隨機森林將判斷該特征對應(yīng)的嘴部的形狀,并從預(yù)設(shè)的表情庫中選取該嘴部的形狀對應(yīng)的嘴部表情作為所述特征對應(yīng)的嘴部表情。
205、根據(jù)所述嘴部表情生成對應(yīng)的表情幀。
該步驟與步驟105相同,此處不再贅述。
206、根據(jù)所述表情幀生成動畫。
該步驟與步驟106相同,此處不再贅述。
本發(fā)明實施例提供了一種聲音動畫的制作方法,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點,通過隨機森林能夠快速的識別出嘴部的形狀,從而有效地提高識別的速度。
實施例三
本發(fā)明實施例提供了一種聲音動畫的制作方法,參照圖3所示,方法流程包括:
301、獲取語音信息。
該步驟與步驟101相同,此處不再贅述。
302、將所述語音信息分割為多個語音片段。
該步驟與步驟102相同,此處不再贅述。
303、獲取所述語音片段的特征。
該步驟與步驟103相同,此處不再贅述。
304、根據(jù)所述特征選取對應(yīng)的嘴部表情。
具體的,該過程可以包括:
根據(jù)所述特征,預(yù)設(shè)的模型以及所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的嘴部表情,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
預(yù)設(shè)的模型是預(yù)先設(shè)置好的模型,該模型可以是通過有監(jiān)督學(xué)習訓(xùn)練得到的。
訓(xùn)練的具體方法包括:
a、收集訓(xùn)練數(shù)據(jù)。
收集大量的包含語音和嘴部開閉狀態(tài)對應(yīng)關(guān)系的數(shù)據(jù),例如電影、電視片段。
b、對收集到的數(shù)據(jù)進行預(yù)處理。
將收集到的數(shù)據(jù)中帶有人臉嘴部的視頻幀挑選出來。
將這些視頻幀中嘴部的開閉狀態(tài)和對應(yīng)的語音信息的MFCC特征提取出來。
c、根據(jù)這些嘴部的開閉狀態(tài)和對應(yīng)的MFCC特征對SVM(Support Vector Machine,支持向量機)進行訓(xùn)練,得到訓(xùn)練后的SVM作為預(yù)設(shè)模型。
在根據(jù)所述特征選取對應(yīng)的嘴部表情的過程中,將所述特征輸入該訓(xùn)練后的SVM,SVM將判斷該特征對應(yīng)的嘴部狀態(tài)是開的概率,記為p,則該嘴部狀態(tài)是閉的概率為1-p。
如果p超過預(yù)設(shè)的閾值,則判定對應(yīng)的嘴部狀態(tài)是開,否則判定對應(yīng)的嘴部狀態(tài)是閉。該閾值的初始值為0.5,并根據(jù)當所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的表情的嘴部狀態(tài)來對該閾值進行動態(tài)的調(diào)整。
示例性的,當所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的表情的嘴部狀態(tài)是開時,將該閾值調(diào)整為0.3,即所述特征對應(yīng)的p大于0.3即判定其對應(yīng)的嘴部狀態(tài)是開。
如果SVM判定該特征對應(yīng)的狀態(tài)是開,則從預(yù)設(shè)的表情庫中選取嘴部狀態(tài)為開的表情作為所述特征對應(yīng)的表情,如果SVM判定該特征對應(yīng)的狀態(tài)是閉,則從預(yù)設(shè)的表情庫中選取嘴部狀態(tài)為閉的表情作為所述特征對應(yīng)的表情。
305、根據(jù)所述嘴部表情生成對應(yīng)的表情幀。
該步驟與步驟105相同,此處不再贅述。
306、根據(jù)所述表情幀生成動畫。
該步驟與步驟106相同,此處不再贅述。
本發(fā)明實施例提供了一種聲音動畫的制作方法,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點,通過SVM能夠快速的識別出嘴部的形狀,從而有效地提高識別的速度,進一步地根據(jù)上一幀的嘴部狀態(tài)對當前幀的嘴部狀態(tài)進行判斷,有效地提高了識別的準確率。
實施例四
本發(fā)明實施例提供了一種聲音動畫的制作方法,參照圖4所示,方法流程包括:
401、獲取語音信息。
該步驟與步驟101相同,此處不再贅述。
402、將所述語音信息分割為多個語音片段。
該步驟與步驟102相同,此處不再贅述。
403、獲取所述語音片段的特征。
該步驟與步驟103相同,此處不再贅述。
404、根據(jù)所述特征選取對應(yīng)的嘴部表情。
具體的,該過程可以包括:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
預(yù)設(shè)的模型是預(yù)先設(shè)置好的模型,該模型可以是通過有監(jiān)督學(xué)習訓(xùn)練得到的。
訓(xùn)練的具體方法包括:
a、收集訓(xùn)練數(shù)據(jù)。
收集大量的包含語音和嘴部的形狀對應(yīng)關(guān)系的數(shù)據(jù),例如電影、電視片段。
b、對收集到的數(shù)據(jù)進行預(yù)處理。
將收集到的數(shù)據(jù)中帶有人臉嘴部的視頻幀挑選出來。
將這些視頻幀中嘴部的形狀對應(yīng)的人臉的特征點和該嘴部的形狀對應(yīng)的語音信息的MFCC特征提取出來。
c、根據(jù)這些人臉的特征點和對應(yīng)的MFCC特征對GMM(Gaussian Mixture Model)模型進行訓(xùn)練,得到訓(xùn)練后的GMM模型作為預(yù)設(shè)模型。
在根據(jù)所述特征選取對應(yīng)的嘴部表情的過程中,將所述特征輸入該訓(xùn)練后的GMM模型,GMM模型將判斷該特征對應(yīng)的人臉的特征點,并從預(yù)設(shè)的表情庫中選取該人臉的特征點對應(yīng)的嘴部表情作為所述特征對應(yīng)的嘴部表情。
405、根據(jù)所述嘴部表情生成對應(yīng)的表情幀。
該步驟與步驟105相同,此處不再贅述。
406、根據(jù)所述表情幀生成動畫。
該步驟與步驟106相同,此處不再贅述。
本發(fā)明實施例提供了一種聲音動畫的制作方法,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點,通過GMM模型能夠快速的識別出嘴部的形狀,從而有效地提高識別的速度。
實施例五
本發(fā)明實施例提供了一種聲音動畫的制作方法,參照圖5所示,方法流程包括:
501、獲取語音信息。
該步驟與步驟101相同,此處不再贅述。
502、將所述語音信息分割為多個語音片段。
該步驟與步驟102相同,此處不再贅述。
503、獲取所述語音片段的特征。
該步驟與步驟103相同,此處不再贅述。
504、根據(jù)所述特征選取對應(yīng)的嘴部表情。
具體的,該過程可以包括:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
預(yù)設(shè)的模型是預(yù)先設(shè)置好的模型,該模型可以是通過有監(jiān)督學(xué)習訓(xùn)練得到的。
訓(xùn)練的具體方法包括:
a、收集訓(xùn)練數(shù)據(jù)。
收集大量的包含語音和嘴部的形狀對應(yīng)關(guān)系的數(shù)據(jù),例如電影、電視片段。
b、對收集到的數(shù)據(jù)進行預(yù)處理。
將收集到的數(shù)據(jù)中帶有人臉嘴部的視頻幀挑選出來。
將這些視頻幀中嘴部的形狀對應(yīng)的人臉的特征點和該嘴部的形狀對應(yīng)的語音信息的MFCC特征提取出來。
c、根據(jù)這些人臉的特征點和對應(yīng)的MFCC特征對3層神經(jīng)網(wǎng)絡(luò)(Neural Networks)進行訓(xùn)練,得到訓(xùn)練后的3層神經(jīng)網(wǎng)絡(luò)作為預(yù)設(shè)模型。
在根據(jù)所述特征選取對應(yīng)的嘴部表情的過程中,將所述特征輸入該訓(xùn)練后的3層神經(jīng)網(wǎng)絡(luò),3層神經(jīng)網(wǎng)絡(luò)將判斷該特征對應(yīng)的人臉的特征點,并從預(yù)設(shè)的表情庫中選取該人臉的特征點對應(yīng)的嘴部表情作為所述特征對應(yīng)的嘴部表情。
505、根據(jù)所述嘴部表情生成對應(yīng)的表情幀。
該步驟與步驟105相同,此處不再贅述。
506、根據(jù)所述表情幀生成動畫。
該步驟與步驟106相同,此處不再贅述。
本發(fā)明實施例提供了一種聲音動畫的制作方法,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點,通過神經(jīng)網(wǎng)絡(luò)能夠快速的識別出嘴部的形狀,從而有效地提高識別的速度。
實施例六
本發(fā)明實施例提供了一種聲音動畫的制作方法,參照圖6所示,方法流程包括:
601、獲取語音信息。
該步驟與步驟101相同,此處不再贅述。
602、將所述語音信息分割為多個語音片段。
該步驟與步驟102相同,此處不再贅述。
603、獲取所述語音片段的特征。
該步驟與步驟103相同,此處不再贅述。
604、根據(jù)所述特征選取對應(yīng)的嘴部表情。
具體的,該過程可以包括:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
預(yù)設(shè)的模型是預(yù)先設(shè)置好的模型,該模型可以是通過有監(jiān)督學(xué)習訓(xùn)練得到的。
訓(xùn)練的具體方法包括:
a、收集訓(xùn)練數(shù)據(jù)。
收集大量的包含語音和嘴部的形狀對應(yīng)關(guān)系的數(shù)據(jù),例如電影、電視片段。
b、對收集到的數(shù)據(jù)進行預(yù)處理。
將收集到的數(shù)據(jù)中帶有人臉嘴部的視頻幀挑選出來。
將這些視頻幀中嘴部的形狀對應(yīng)的人臉的特征點和該嘴部的形狀對應(yīng)的語音信息的MFCC特征提取出來。
c、根據(jù)這些人臉的特征點和對應(yīng)的MFCC特征對SVR(Support Vector Regression)模型進行訓(xùn)練,得到訓(xùn)練后的SVR模型作為預(yù)設(shè)模型。
在根據(jù)所述特征選取對應(yīng)的嘴部表情的過程中,將所述特征輸入該訓(xùn)練后的SVR模型,SVR模型將判斷該特征對應(yīng)的人臉的特征點,并從預(yù)設(shè)的表情庫中選取該人臉的特征點對應(yīng)的嘴部表情作為所述特征對應(yīng)的嘴部表情。
605、根據(jù)所述嘴部表情生成對應(yīng)的表情幀。
該步驟與步驟105相同,此處不再贅述。
606、根據(jù)所述表情幀生成動畫。
該步驟與步驟106相同,此處不再贅述。
本發(fā)明實施例提供了一種聲音動畫的制作方法,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點,通過SVR模型能夠快速的識別出嘴部的形狀,從而有效地提高識別的速度。
實施例七
本發(fā)明實施例提供了一種電子設(shè)備,參照圖7所示,該電子設(shè)備包括:
語音獲取模塊701,用于獲取語音信息;
分割模塊702,用于將所述語音信息分割為多個語音片段;
特征提取模塊703,用于獲取所述語音片段的特征;
嘴部表情選擇模塊704,用于根據(jù)所述特征選取對應(yīng)的嘴部表情;
表情幀生成模塊705,用于根據(jù)所述嘴部表情生成對應(yīng)的表情幀;
動畫生成模塊706,用于根據(jù)所述表情幀生成動畫。
具體的,
分割模塊702根據(jù)所述動畫的幀率對所述語音信息進行分割,得到分割后的語音片段;
其中,每個語音片段與動畫中的一幀相對應(yīng)。
可選的,
嘴部表情選擇模塊703根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
可選的,
嘴部表情選擇模塊703根據(jù)所述特征,預(yù)設(shè)的模型以及所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的嘴部表情,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
其中,所述嘴部表情包括嘴部的開閉狀態(tài)和/或嘴部的形狀。
具體的,
表情幀生成模塊705根據(jù)所述嘴部表情,預(yù)設(shè)的紋理以及預(yù)設(shè)的背景生成對應(yīng)的表情幀。
具體的,動畫生成模塊706按時間順序排列所述表情幀,生成對應(yīng)的動畫。
本發(fā)明實施例提供了一種電子設(shè)備,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗少的優(yōu)點。
實施例八
本發(fā)明實施例提供了一種電子設(shè)備,參照圖8所示,所述設(shè)備包括存儲器801、音頻模塊802、以及與存儲器801、音頻模塊802連接的處理器803,其中,存儲器801用于存儲一組程序代碼,處理器803調(diào)用存儲器801所存儲的程序代碼用于執(zhí)行以下操作:
獲取語音信息;
將所述語音信息分割為多個語音片段;
獲取所述語音片段的特征;
根據(jù)所述特征選取對應(yīng)的嘴部表情;
根據(jù)所述嘴部表情生成對應(yīng)的表情幀;
根據(jù)所述表情幀生成動畫。
具體的,處理器803調(diào)用存儲器801所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)所述動畫的幀率對所述語音信息進行分割,得到分割后的語音片段;
其中,每個語音片段與動畫中的一幀相對應(yīng)。
具體的,處理器803調(diào)用存儲器801所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)所述特征與預(yù)設(shè)的模型,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
具體的,處理器803調(diào)用存儲器801所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)所述特征,預(yù)設(shè)的模型以及所述特征對應(yīng)的語音片段的上一語音片段對應(yīng)的嘴部表情,在預(yù)設(shè)的表情庫中選擇與所述特征對應(yīng)的嘴部表情。
可選的,所述嘴部表情包括嘴部的開閉狀態(tài)和/或嘴部的形狀。
具體的,處理器803調(diào)用存儲器801所存儲的程序代碼用于執(zhí)行以下操作:
根據(jù)嘴部的開閉狀態(tài)和/或嘴部的形狀生成面部表情;
具體的,處理器803調(diào)用存儲器801所存儲的程序代碼用于執(zhí)行以下操作:
按時間順序排列所述表情幀,生成對應(yīng)的動畫。
本發(fā)明實施例提供了一種電子設(shè)備,能夠?qū)崟r的通過語音來生成對應(yīng)的表情動畫,無需獲取面部的視頻信息,具有效率高、速度快、限制少、資源消耗 少的優(yōu)點。
以上僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實施例揭示如上,然而并非用以限定本發(fā)明,本領(lǐng)域普通技術(shù)人員在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當可利用上述揭示的技術(shù)內(nèi)容做出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。