一種演唱情感識別方法及裝置與流程

文檔序號：11867452閱讀：198來源：國知局

本申請屬于情感識別領(lǐng)域，具體地說，涉及一種演唱情感識別及裝置。

背景技術(shù)：

現(xiàn)階段音頻的情感識別主要分為語音情感識別和音樂情感識別兩方面，但是從演唱中識別情感卻無人涉及，也是音頻情感識別的一個難點。它不同于語音情感識別和音樂情感識別，因為：一、語音情感識別中依靠音調(diào)和語速就能判斷出情感，但是演唱都是按照歌曲標定的音調(diào)和語速進行，所以依據(jù)音調(diào)和語速來識別演唱中的情感的方法不可行。申請?zhí)枮?00510046169.1，申請日為2005-03-31的專利公開文獻“語音識別分析系統(tǒng)及服務方法”，則是在人與人通話過程中提取人類的聲音頻率,以聲音情感度和聲音親合度為技術(shù)依據(jù)，得出基于感性科學領(lǐng)域的語音識別與分析。聲音情感度是根據(jù)人發(fā)聲的音調(diào)和音律，了解其性格，掌握發(fā)聲人當時的心理狀態(tài)；聲音親和度是根據(jù)分析由人類肺部直接帶動的低頻率發(fā)聲,進而表露出發(fā)聲人的真實情緒。但對于演唱場景，演唱時都是按照歌曲標定的音調(diào)和語速進行，此專利公開文獻中依據(jù)音調(diào)和音律來識別演唱者的情感并不可行。二、音樂情感識別主要根據(jù)音頻特征和曲譜特征判斷情感，因此判斷出來的情感都是固定的，但是在演唱時每個演唱者都可以自行演繹，對于同樣一首歌曲，每個演唱者的演繹的情感并不相同，所以音樂情感識別不能依據(jù)演唱者的演唱情況準確識別出對應演唱的情感。

綜上，演唱情感識別是一個完全不同于語音情感識別和音樂情感識別的新領(lǐng)域，現(xiàn)有技術(shù)中沒有能夠提供一種解決方案，以實現(xiàn)從演唱中識別演唱者的情感。

技術(shù)實現(xiàn)要素：

有鑒于此，本申請所要解決的技術(shù)問題是提供了一種演唱情感識別及裝置，可以實現(xiàn)從演唱中識別演唱者的情感。

為了解決上述技術(shù)問題，本申請公開了一種演唱情感識別方法，包括：

提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征；

提取待識別演唱音頻的情感特征；

將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。

為解決上述技術(shù)問題，本申請還公開了一種演唱情感識別裝置，包括：

訓練模塊，用于提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征；

提取模塊，用于提取待識別演唱音頻的情感特征；

識別模塊，用于將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。

為解決上述技術(shù)問題，本申請還公開了一種演唱情感識別方法，包括：

獲取用戶演唱音頻；

當識別用戶演唱音頻對應的情感類型與預設音樂情感相符時，輸出對應的演唱結(jié)果控制指令。

為解決上述技術(shù)問題，本申請還公開了一種演唱情感識別裝置，包括：

獲取模塊，用于獲取用戶演唱音頻；

識別模塊，用于當識別用戶演唱音頻對應的情感類型與預設音樂情感相符時，輸出對應的演唱結(jié)果控制指令。

與現(xiàn)有技術(shù)相比，本申請可以獲得包括以下技術(shù)效果：

本申請實施例提取的情感特征與語音情感識別和音樂情感識別在特征提取方面存在差別：語音情感識別只需要提取音頻特征不涉及曲譜特征的提取，且其音頻特征也只是音調(diào)、語速等；音樂情感識別雖然也提取音頻特征和曲譜特征，但是不涉及語譜特征(包括在聲音信號特征中)等的提取。因此相較于現(xiàn)有的語音情感識別和音樂情感識別，本實施例根據(jù)包括聲音信號特征和曲譜特征的情感特征獲得的情感識別模型能夠根據(jù)曲譜特征和聲音信號特征更為準確地識別出演唱者的情感。具體的，本實施例通過提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征；提取待識別演唱音頻的情感特征；將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。本申請實施例能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

當然，實施本申請的任一產(chǎn)品并不一定需要同時達到以上所述的所有技術(shù)效果。

附圖說明

此處所說明的附圖用來提供對本申請的進一步理解，構(gòu)成本申請的一部分，本申請的示意性實施例及其說明用于解釋本申請，并不構(gòu)成對本申請的不當限定。在附圖中：

圖1A是本申請某些實施例提供的一種演唱情感識別方法的流程示意圖；

圖1B是本申請某些實施例提供的一種情感識別模型建立方法的流程示意圖；

圖2A是本申請某些實施例提供的再一種演唱情感識別方法的流程示意圖；

圖2B是基于圖2A本申請某些實施例提供的演唱情感識別方法的流程示意圖；

圖3是本申請某些實施例提供的另一種演唱情感識別方法的流程示意圖；

圖4是本申請某些實施例提供的另一種情感識別模型建立方法流程示意圖；

圖5A是本申請某些實施例提供的壓力因素和能量因素組成平面直角坐標系；

圖5B是本申請某些實施例提供的一種情感識別模型建立方法的一部分流程示意圖；

圖6A是本申請某些實施例提供的演唱情感識別方法的流程示意圖；

圖6B是本申請某些實施例提供的演唱情感識別方法的部分流程示意圖；

圖6C是本申請某些實施例提供的演唱情感識別方法的另一部分流程示意圖；

圖7是本申請某些實施例提供的一種演唱識別方法的流程示意圖；

圖8是本申請某些實施例提供的一種演唱情感識別裝置的結(jié)構(gòu)示意圖；

圖9是本申請某些實施例提供的一種演唱識別裝置的結(jié)構(gòu)示意圖；

圖10是本申請某些實施例提供的電子終端的結(jié)構(gòu)示意圖。

具體實施方式

以下將配合附圖及實施例來詳細說明本申請的實施方式，藉此對本申請如何應用技術(shù)手段來解決技術(shù)問題并達成技術(shù)功效的實現(xiàn)過程能充分理解并據(jù)以實施。

實施例一

請參閱圖1A，示出了本申請實施例提供一種演唱情感識別方法的流程示意圖，本申請可以應用于終端設備，也可以應用于情感識別模型建立裝置，該裝置可以以軟件、硬件或軟硬件結(jié)合的方式典型地設置在終端設備中。以下以執(zhí)行主體為終端設備為例進行說明，圖1A所示的方法可以如下實現(xiàn)。

步驟100、提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征。可選的，區(qū)別于語音情感識別和音樂情感識別所提取的特征，本實施例提取的聲音信號特征包括以下至少一種：平均能量、能量標準差、平均基頻、基頻標準差、超過平均基頻的頻率數(shù)目、平均矩心、矩心標準差、MFCC特征、語譜特征；所述曲譜特征包括以下至少一種：每分鐘節(jié)拍數(shù)、大調(diào)類型、調(diào)式、平均音高、音高標準差、每個音的平均時長。

可選的，如圖1B所示，本實施例情感識別模型的訓練方法如下。

步驟1011、確定所述待訓練演唱音頻的情感特征分別在第一坐標軸和第二坐標軸的訓練坐標值，得到第一訓練坐標值和第二訓練坐標值；其中，所述第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與演唱情感類型一一對應。

步驟1012、根據(jù)所述第一訓練坐標值和待訓練演唱音頻的情感特征建立第一訓練矩陣，根據(jù)所述第二訓練坐標值和待訓練演唱音頻的情感特征建立第二訓練矩陣；

步驟1013、將第一訓練矩陣歸一化成第一訓練歸一化矩陣；將第二訓練矩陣歸一化成第二訓練歸一化矩陣；

步驟1014、將所述第一訓練歸一化矩陣、第二訓練歸一化矩陣分別代入SVM算法，對應得到第一訓練超平面、第二訓練超平面；

步驟1015、將第一訓練超平面和第一訓練歸一化矩陣代入SVM算法，得到基于第一坐標軸的第一情感識別模型；將第二訓練超平面和第二訓練歸一化矩陣代入SVM算法，得到基于第二坐標軸的第二情感識別模型。所述第一情感識別模型用于確定待識別演唱音頻的情感特征在第一坐標軸方向的第一坐標值，第二情感識別模型用于確定待識別演唱音頻的情感特征在第二坐標軸方向的第二坐標值。

步驟102、提取待識別演唱音頻的情感特征。與步驟101一樣，步驟102提取的情感特征包括聲音信號特征和曲譜特征?？蛇x的，區(qū)別于語音情感識別和音樂情感識別所提取的特征，本實施例提取的聲音信號特征包括以下至少一種：平均能量、能量標準差、平均基頻、基頻標準差、超過平均基頻的頻率數(shù)目、平均矩心、矩心標準差、MFCC特征、語譜特征；所述曲譜特征包括以下至少一種：每分鐘節(jié)拍數(shù)、大調(diào)類型、調(diào)式、平均音高、音高標準差、每個音的平均時長。

步驟103、將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。具體的，步驟103包括：

將待識別演唱音頻的情感特征分別輸入第一情感識別模型和第二情感識別模型，確定所述情感特征基于第一坐標軸的第一坐標值和基于第二坐標軸的第二坐標值；

根據(jù)所述第一坐標值和第二坐標值確定所述情感特征對應的象限，以確定所述情感特征對應的演唱情感類型。

本實施例提取的情感特征與語音情感識別和音樂情感識別在特征提取方面存在差別：語音情感識別只需要提取音頻特征不涉及曲譜特征的提取，且其音頻特征也只是音調(diào)、語速等；音樂情感識別雖然也提取音頻特征和曲譜特征，但是不涉及語譜特征(包括在聲音信號特征中)等的提取。因此相較于現(xiàn)有的語音情感識別和音樂情感識別，本實施例根據(jù)包括聲音信號特征和曲譜特征的情感特征獲得的情感識別模型能夠根據(jù)曲譜特征和聲音信號特征，識別出對應演唱者的演唱情感，針對同一首歌曲，能夠依據(jù)不同演唱者識別出對應演唱的情感，更為準確地識別出演唱者的情感。具體的，本實施例通過提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征；提取待識別演唱音頻的情感特征；將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。本申請實施例能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

實施例二

結(jié)合圖1A至圖2B，本申請實施例提供一種演唱情感識別方法，為基于實施一的一種可實現(xiàn)方式，具體通過以下方式實現(xiàn)。在這里，第一坐標軸可以為X軸，第二坐標軸可以為Y軸。

可選的，如圖1B所示，本實施例情感識別模型的訓練方法如下。

可選的，所述平面直角坐標系的象限對應的演唱情感類型包括：緊張焦慮、高興歡快、悲傷沮喪、自然平靜。所述平面直角坐標系的象限與演唱情感類型的對應關(guān)系包括：第一象限對應緊張焦慮、第二象限對應高興歡快、第三象限對應悲傷沮喪、第四象限對應自然平靜。

步驟1013、將第一訓練矩陣歸一化成第一訓練歸一化矩陣；將第二訓練矩陣歸一化成第二訓練歸一化矩陣；

步驟1014、將所述第一訓練歸一化矩陣、第二訓練歸一化矩陣分別代入SVM算法，對應得到第一訓練超平面、第二訓練超平面；

步驟103、將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。具體的，步驟103包括：

根據(jù)所述第一坐標值和第二坐標值確定所述情感特征對應的象限，以確定所述情感特征對應的演唱情感類型。

如圖2A所示，在一種可行的實施方式中，步驟103通過以下方法得到第一坐標值。

在步驟1030，根據(jù)所述待識別演唱音頻的聲音信號特征、曲譜特征和基于第一坐標軸的第一訓練矩陣，得到基于第一坐標軸的第一特征矩陣。具體的，將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于第一坐標軸的第一訓練矩陣的最后一行，得到第一特征矩陣其中，所述第一訓練矩陣基于預設待訓練演唱音頻的聲音信號特征及曲譜特征和所述待訓練演唱音頻的情感特征在第一坐標軸的第一訓練坐標值確定。本發(fā)明中，所述聲音信號特征和曲譜特征中的參數(shù)g為待識別的歌曲，n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。

在步驟1032，對所述第一特征矩陣進行歸一化處理，得到第一歸一化矩陣，進而得到待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣。具體的，對所述矩陣中的數(shù)據(jù)按列進行歸一化處理，得到第一歸一化矩陣然后提取矩陣最后一行的數(shù)據(jù)，即得所述待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣(a_gx,1…a_gx,n b_gx,1…b_gx,m)。

在步驟1034，將所述待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣、第一訓練超平面和基于第一坐標軸的第一情感識別模型代入SVM算法，得到所述待識別演唱音頻的情感特征在第一坐標軸方向的第一坐標值。具體的，將所述(a_gx,1…a_gx,n b_gx,1…b_gx,m)、第一訓練超平面和X軸的第一情感識別模型T_X代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在X軸方向的第一坐標值X_g；其中，所述為訓練聲音信號特征的第p_i個特征，為訓練曲譜特征的第q_i個特征，p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。所述第一訓練超平面基于第一訓練矩陣進行歸一化處理后第一訓練歸一化矩陣確定，所述第一訓練矩陣基于所述第一訓練坐標值和待訓練演唱音頻的情感特征確定；所述基于第一坐標軸的第一情感識別模型基于所述第一訓練超平面和第一訓練歸一化矩陣確定。

如圖2B所示，在一種可行的實施方式中，步驟103通過以下方法得到第二坐標值。

在步驟1030’，根據(jù)所述待識別演唱音頻的聲音信號特征、曲譜特征和基于第二坐標軸的第二訓練矩陣，得到基于第二坐標軸的第二特征矩陣。具體的，將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于Y軸的第二訓練矩陣的最后一行，得到第二特征矩陣其中，所述第二訓練矩陣基于預設待訓練演唱音頻的聲音信號特征及曲譜特征和所述待訓練演唱音頻的情感特征在第二坐標軸的第二訓練坐標值確定。

在步驟1032’，對所述第二特征矩陣進行歸一化處理，得到第二歸一化矩陣，進而得到待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣。具體的，對所述矩陣中的數(shù)據(jù)按列進行歸一化處理，得到第二歸一化矩陣然后提取矩陣最后一行的數(shù)據(jù)，即得所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣(a_gy,1…a_gy,n b_gy,1…b_gy,m)。

在步驟1034’，將所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣、第二訓練超平面和基于第二坐標軸的第二情感識別模型代入SVM算法，得到所述待識別演唱音頻的情感特征在第二坐標軸方向的第二坐標值。具體的，將所述(a_gx，1…a_gx，n b_gx，1…b_gx，m)、第二訓練超平面和Y軸的第二情感識別模型T_Y代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y軸方向的第二坐標值Y_g，其中，所述為訓練聲音信號特征的第r_i個特，為訓練曲譜特征的第s_i個特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。所述第二訓練超平面基于第二訓練矩陣進行歸一化處理后第二訓練歸一化矩陣確定，所述第二訓練矩陣基于所述第二訓練坐標值和待訓練演唱音頻的情感特征確定；所述基于第二坐標軸的第二情感識別模型基于所述第二訓練超平面和第二訓練歸一化矩陣確定。

應當理解的是，步驟1030和步驟1030’的執(zhí)行順序無先后，可同步執(zhí)行。同理，驟1032和步驟1032’的執(zhí)行順序無先后，可同步執(zhí)行。驟1034和步驟1034’的執(zhí)行順序無先后，可同步執(zhí)行。

在本申請實施例中，第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與演唱情感類型一一對應。本申請實施例通過待識別演唱音頻的聲音信號特征及曲譜特征確定所述待識別演唱音頻的情感特征分別在第一坐標軸和第二坐標軸的坐標值，并根據(jù)第一坐標值和第二坐標值確定所述待識別演唱音頻的情感特征對應的演唱情感類型，能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

另外，本實施例提取的情感特征與語音情感識別和音樂情感識別在特征提取方面存在差別：語音情感識別只需要提取音頻特征不涉及曲譜特征的提取，且其音頻特征也只是音調(diào)、語速等；音樂情感識別雖然也提取音頻特征和曲譜特征，但是不涉及語譜特征(包括在聲音信號特征中)等的提取。因此相較于現(xiàn)有的語音情感識別和音樂情感識別，本實施例根據(jù)包括聲音信號特征和曲譜特征的情感特征獲得的情感識別模型能夠根據(jù)曲譜特征和聲音信號特征，識別出對應演唱者的演唱情感，針對同一首歌曲，能夠依據(jù)不同演唱者識別出對應演唱的情感，更為準確地識別出演唱者的情感。

實施例三

請參閱圖3，本申請實施例提供了一種演唱情感識別方法，本實施例與實施例一、二大致相同，本實施例具體講述：建立基于第一坐標軸的第一情感識別模型和基于第二坐標軸的第二情感識別模型，具體可以通過以下方式實現(xiàn)。

在步驟301，提取待訓練演唱音頻的聲音信號特征及曲譜特征。具體的，提取待訓練演唱音頻的聲音信號特征A_i,j及曲譜特征B_i,k。其中，A_i,j表示第i首待訓練演唱音頻的第j個聲音信號特征的特征值，1≤j≤n，n為聲音信號特征總數(shù)目，B_i,k表示第i首待訓練演唱音頻的第k個曲譜特征的特征值，1≤k≤m，m為曲譜特征總數(shù)目。

在步驟302，確定所述待訓練演唱音頻的聲音信號特征及曲譜特征所對應的第一訓練坐標值和第二訓練坐標值。在這里，第一坐標軸可以為X軸，第二坐標軸可以為Y軸。第一訓練坐標值X_i表示音樂方面的專業(yè)人員標注好的第i首待訓練演唱音頻在第一坐標軸的坐標值，第二訓練坐標值Y_i表示音樂方面的專業(yè)人員標注好的第i首待訓練演唱音頻在第二坐標軸的坐標值，于是第i首待訓練演唱音頻特征為(A_i,1…A_i,n B_i,1…B_i,m X_i Y_i)。X_i和Y_i可直接采用音樂方面的專業(yè)人員預先標注的坐標值。

在步驟303，根據(jù)所述第一訓練坐標值、第二訓練坐標值分別確定基于第一坐標軸的第一訓練矩陣、基于第二坐標軸的第二訓練矩陣。當所有L首歌曲的特征都提取完之后，將形成一個L*(n+m+2)的矩陣將該矩陣分成基于第一坐標軸的第一訓練矩陣和基于第二坐標軸的第二訓練矩陣

在步驟304，對所述第一訓練矩陣、第二訓練矩陣分別進行歸一化處理，得到第一訓練歸一化矩陣和第二訓練歸一化矩陣。具體的，對X軸的第一訓練矩陣中的數(shù)據(jù)按列進行歸一化處理，使取值范圍為[-1,1]，歸一化后的第一訓練歸一化矩陣為式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],x_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

同理，對Y軸的第二訓練矩陣進行同樣的歸一化處理后得到歸一化的第二訓練歸一化矩陣陣為：式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],y_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

在步驟305，將所述第一訓練歸一化矩陣、第二訓練歸一化矩陣分別代入SVM算法，得到基于第一坐標軸的第一訓練超平面、基于第二坐標軸的第二訓練超平面。X軸的第一訓練歸一化矩陣代入SVM算法，該算法將求取X軸方向的一個超平面，該超平面能將x_i中大于0和小于0的部分盡可能區(qū)分開，求得的超平面將由聲音信號特征和曲譜特征中的部分特征組成，設求得的X軸的超平面為其中為聲音信號特征的第p_i個特征、為曲譜特征的第q_i個特征、p₁…p_i∈[1,n]；q₁…q_i∈[1,m]。同理，可求得Y軸的超平面為其中為聲音信號特征的第r_i個特征、為曲譜特征的第s_i個特征、r₁…r_i∈[1,n]；s₁…s_i∈[1,m]。

在步驟306，將第一訓練超平面和第一訓練歸一化矩陣代入SVM算法，得到基于第一坐標軸的情感識別模型；將第二訓練超平面和第二訓練歸一化矩陣代入SVM算法，得到基于第二坐標軸的情感識別模型。依據(jù)求得的X軸超平面其中p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，和帶入SVM算法中，即可求得X軸的情感識別模型，設為T_X。同理可求得Y軸的情感識別模型，設為T_Y。

實施例四

結(jié)合圖1A至圖3，本申請實施例提供一種演唱情感識別方法，大致包括兩個過程：(一)演唱情感識別模型的建立；(二)演唱情感的識別。

(一)演唱情感識別模型的建立

該過程主要用于：建立基于第一坐標軸的第一情感識別模型和基于第二坐標軸的第二情感識別模型。在建立演唱情感識別模型的過程中，需要預先大量收集包含各種情感的演唱音頻數(shù)據(jù)(作為待訓練演唱音頻)，演唱音頻數(shù)據(jù)要求盡量是純?nèi)寺?，同時收集對應演唱歌曲的曲譜。

然后找些音樂方面專業(yè)的人員來對收集到的這些演唱音頻的情感進行分類：首先確定好情感分類的種類，然后每個演唱音頻都要求音樂方面的專業(yè)人員各自聽一遍，并各自做好情感標注，當大部分專業(yè)人員都認為當前這首演唱音頻屬于某一種情感時，則將當前這首音頻分到該情感的目錄底下，否則丟棄該音頻，依此將所有演唱音頻都分類好。需要說明的是：一段演唱音頻中可能存在演唱情感變化的情況——比如前奏和高潮部分的演唱情感可能不同，此時應由音樂方面的專業(yè)人員將該演唱音頻分成情感獨立的若干段音頻，使得每段內(nèi)的音頻的情感是一致的，同時對應的歌曲的曲譜也應按音頻內(nèi)容分段并做好標注使之與分段的音頻一一對應。

經(jīng)過上述過程后，能夠?qū)⒀莩纛l按情感分類，并使得每類情感的音頻數(shù)目相同；同時也要分類好歌曲的曲譜，使之與分類好的音頻一一對應。

按情感類別分析并提取各個情感類別的演唱音頻的聲音信號特征，同時提取與演唱歌曲對應的曲譜特征。需要說明的是：區(qū)別于語音情感識別和音樂情感識別所提取的特征，本文所提取的特征包含以下幾個內(nèi)容，演唱音頻的聲音信號特征提取以下幾個方面的內(nèi)容：平均能量、能量標準差、平均基頻、基頻標準差、超過平均基頻的頻率數(shù)目、平均矩心、矩心標準差、MFCC特征、語譜特征；曲譜特征提取以下幾個方面的內(nèi)容：每分鐘的節(jié)拍數(shù)、大調(diào)類型、調(diào)式、平均音高、音高標準差、每個音的平均時長。演唱音頻的聲音信號特征和曲譜特征都是針對同一首演唱歌曲的同一段進行提取的，如演唱音頻演唱了哪幾句歌曲，曲譜中也相應的提取這幾句歌譜的特征。(備注：語音情感識別只需要提取音頻特征不涉及曲譜特征的提取，且其音頻特征也只是音調(diào)、語速等；音樂情感識別雖然也提取音頻特征和曲譜特征，但是不涉及語譜特征等的提取。因此與語音情感識別和音樂情感識別在特征提取方面存在差別。)

在進行上述的預處理工作后，演唱情感識別模型的建立具體可以通過以下方式實現(xiàn)。在這里，第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與演唱情感類型一一對應。第一坐標軸可以為X軸，第二坐標軸可以為Y軸。所述平面直角坐標系的象限對應的演唱情感類型包括：緊張焦慮、高興歡快、悲傷沮喪、自然平靜。所述平面直角坐標系的象限與演唱情感類型的對應關(guān)系包括：第一象限對應緊張焦慮、第二象限對應高興歡快、第三象限對應悲傷沮喪、第四象限對應自然平靜。

具體的，本實施例將演唱情感分成4個類別，即悲傷沮喪、高興歡快、緊張焦慮和自然平靜，分別對應平面直角坐標系的四個象限，演唱歌曲的情感類型由音樂方面的專業(yè)人員確定后以坐標形式標注在所提取的情感類別特征數(shù)據(jù)中(平面直角坐標系中X和Y方向的取值范圍為[-1,1]，值越偏離X和Y坐標軸，說明其某種情感越明顯；值越靠近X、Y坐標軸，說明其某種情感特征越微弱)。本實施例的訓練和識別算法為SVM算法，由音樂方面的專業(yè)人員標注好用戶演唱情感所在的象限的坐標值，提取用戶演唱情感特征并提取其演唱情感坐標值，完成所有特征和坐標的提取后，將分X軸數(shù)據(jù)和Y軸數(shù)據(jù)分別進行歸一化處理，然后分別加入SVM進行訓練。根據(jù)這些訓練的數(shù)據(jù)，SVM會得出用戶演唱情感在X軸和Y軸的情感特征的最佳超平面取值，從而獲取基于X軸和Y軸的情感識別模型。

步驟100、提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征。結(jié)合圖1A和圖3，情感識別模型的建立程具體可參閱圖3所示的實現(xiàn)方法。

在步驟302，確定所述待訓練演唱音頻的聲音信號特征及曲譜特征所對應的第一訓練坐標值和第二訓練坐標值。第一訓練坐標值X_i表示音樂方面的專業(yè)人員標注好的第i首待訓練演唱音頻在第一坐標軸的坐標值，第二訓練坐標值Y_i表示音樂方面的專業(yè)人員標注好的第i首待訓練演唱音頻在第二坐標軸的坐標值，于是第i首待訓練演唱音頻特征為(A_i,1…A_i,n B_i,1…B_i,m X_i Y_i)。X_i和Y_i可直接采用音樂方面的專業(yè)人員預先標注的坐標值。

在步驟303，根據(jù)所述第一訓練坐標值、第二訓練坐標值分別確定基于第一坐標軸的第一訓練矩陣、基于第二坐標軸的第二訓練矩陣。當所有L首歌曲的特征都提取完之后，將形成一個L*(n+m+2)的矩陣然后將該矩陣分成基于第一坐標軸的第一訓練矩陣和基于第二坐標軸的第二訓練矩陣

a_i,j∈[-1,1],b_i,k∈[-1,1],x_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

同理，對Y軸的第一訓練矩陣進行同樣的歸一化處理后得到歸一化的第二訓練歸一化矩陣陣為：式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],y_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

在步驟306，將第一訓練超平面和第一訓練歸一化矩陣代入SVM算法，得到基于第一坐標軸的第一情感識別模型；將第二訓練超平面和第二訓練歸一化矩陣代入SVM算法，得到基于第二坐標軸的第二情感識別模型。依據(jù)求得的X軸超平面其中p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，和帶入SVM算法中，即可求得X軸的第一情感識別模型，設為T_X。同理可求得Y軸的第二情感識別模型，設為T_Y。T_X和T_Y即為建立的演唱情感識別模型。

所述第一情感識別模型用于確定待識別演唱音頻的情感特征在第一坐標軸方向的第一坐標值，第二情感識別模型用于確定待識別演唱音頻的情感特征在第二坐標軸方向的第二坐標值。

(二)演唱情感的識別

步驟102、提取待識別演唱音頻的情感特征。步驟102提取的情感特征包括聲音信號特征和曲譜特征。可選的，區(qū)別于語音情感識別和音樂情感識別所提取的特征，本實施例提取的聲音信號特征包括以下至少一種：平均能量、能量標準差、平均基頻、基頻標準差、超過平均基頻的頻率數(shù)目、平均矩心、矩心標準差、MFCC特征、語譜特征；所述曲譜特征包括以下至少一種：每分鐘節(jié)拍數(shù)、大調(diào)類型、調(diào)式、平均音高、音高標準差、每個音的平均時長。

步驟103、將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。具體的，步驟103包括：

根據(jù)所述第一坐標值和第二坐標值確定所述情感特征對應的象限，以確定所述情感特征對應的演唱情感類型。

如圖2A所示，在一種可行的實施方式中，步驟103通過以下方法得到第一坐標值。

在步驟1030，根據(jù)所述待識別演唱音頻的聲音信號特征、曲譜特征和基于第一坐標軸的第一訓練矩陣，得到基于第一坐標軸的第一特征矩陣。具體的，將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于X軸的第一訓練矩陣的最后一行，得到第一特征矩陣其中，所述第一訓練矩陣基于預設待訓練演唱音頻的聲音信號特征及曲譜特征和所述待訓練演唱音頻的情感特征在第一坐標軸的第一訓練坐標值確定

如圖2B所示，在一種可行的實施方式中，步驟103通過以下方法得到第二坐標值。

在步驟1034’，將所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣、第二訓練超平面和基于第二坐標軸的第二情感識別模型代入SVM算法，得到所述待識別演唱音頻的情感特征在第二坐標軸方向的第二坐標值。具體的，將所述(a_gy,1…a_gy,n b_gy,1…b_gy,m)、第二訓練超平面和Y軸的第二情感識別模型T_Y代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y軸方向的第二坐標值Y_g，其中，所述為訓練聲音信號特征的第r_i個特，為訓練曲譜特征的第s_i個特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。所述第二訓練超平面基于第二訓練矩陣進行歸一化處理后第二訓練歸一化矩陣確定，所述第二訓練矩陣基于所述第二訓練坐標值和待訓練演唱音頻的情感特征確定；所述基于第二坐標軸的第二情感識別模型基于所述第二訓練超平面和第二訓練歸一化矩陣確定。

實施例五

請參閱圖4至圖5B，示出了本申請實施例另外一可選的情感識別模型建立方法的流程示意圖，本申請可以應用于終端設備，也可以應用于情感識別模型建立裝置，該裝置可以以軟件、硬件或軟硬件結(jié)合的方式典型地設置在終端設備中。以下以執(zhí)行主體為終端設備為例進行說明，結(jié)合圖4至圖5B所示的方法可以如下實現(xiàn)。

在步驟400，獲取待訓練演唱音頻樣本，根據(jù)預設的情感類型對所述待訓練演唱音頻樣本進行情感分類，確定與情感類型對應的多個待訓練演唱音頻子樣本；其中，用于確定情感類型的情感因素包括壓力因素和能量因素。

本步驟大量收集包含各種情感的演唱音頻即待訓練演唱音頻，作為待訓練演唱音頻樣本。演唱音頻要求盡量是純?nèi)寺?，同時收集演唱音頻對應演唱歌曲的曲譜。本步驟可以是終端設備直接從本地或存儲設備或網(wǎng)絡獲取采集人員收集的演唱音頻。

待收集完演唱音頻后，終端設備可根據(jù)預設的情感類型對演唱音頻進行情感分類。具體的，可根據(jù)音樂方面專業(yè)的人員的分類標準對收集到的演唱音頻進行情感分類，也可直接請音樂專業(yè)的人員依據(jù)他們的分類標準進行情感分類。音樂方面專業(yè)的人員的分類標準可以如下：首先確定好情感分類的種類，然后每個演唱音頻都要求音樂方面的專業(yè)人員各自聽一遍，并各自做好情感標注，當大部分專業(yè)人員都認為當前這首演唱音頻屬于某一種情感時，則將當前這首音頻分到該情感的目錄底下，否則丟棄該音頻，依此將所有演唱音頻都分類好。應當說明的是：一段演唱音頻中可能存在演唱情感變化的情況——比如前奏和高潮部分的演唱情感可能不同，此時應由音樂方面的專業(yè)人員將該演唱音頻分成情感獨立的若干段音頻，使得每段內(nèi)的音頻的情感是一致的，同時對應的歌曲的曲譜也應按音頻內(nèi)容分段并做好標注使之與分段的音頻一一對應。

終端設備進行上述情感分類后，可確定與情感類型對應的多個待訓練演唱音頻子樣本。具體的，將演唱音頻按情感分類，并使得每類情感的音頻數(shù)目相同，同時也要分類好歌曲的曲譜，使曲譜與分類好的音頻一一對應。

步驟402、提取各待訓練演唱音頻子樣本的情感特征，對所有所述待訓練演唱音頻子樣本的情感特征分別基于壓力維度和能量維度進行歸一化處理，對應得到歸一化壓力情感特征和歸一化能量情感特征。

步驟404、對所述歸一化壓力情感特征和歸一化能量情感特征分別進行SVM算法訓練，對應得到用于確定壓力因素大小的壓力指數(shù)和用于確定能量因素高低的能量指數(shù)。

步驟406、對所述歸一化壓力情感特征和壓力指數(shù)進行SVM算法訓練，得到用于確定壓力因素的第一情感識別模型；對所述歸一化能量情感特征和能量指數(shù)進行SVM算法訓練，得到用于確定能量因素的第二情感識別模型。

本領(lǐng)域技術(shù)人員可以理解，在本申請具體實施方式的上述方法中，各步驟的序號大小并不意味著執(zhí)行順序的先后，各步驟的執(zhí)行順序、邏輯組合應以其功能和內(nèi)在邏輯確定，而不應對本申請具體實施方式的實施過程構(gòu)成任何限定。

在本申請實施例中，通過步驟400-406可以獲得能夠確定壓力因素的第一情感識別模型和確定能量因素的第二情感識別模型，以使可執(zhí)行本方法的終端設備或其他可間接調(diào)用本方法的終端設備能夠依據(jù)第一情感識別模型和第二情感識別模型，確定待識別演唱音頻的壓力因素和能量因素，進而確定待識別演唱音頻對應的演唱情感類型。通過本申請實施例，能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

在一可選的實施方式中，影響音樂情感的兩個主要因素是壓力和能量，由于壓力和能量因素能較好的與聲學特征對應，因此按照壓力因素(Valence)的強弱可以把音樂的情感特征分成從焦慮的到快樂的不等，按照能量因素(Arousal)的強弱可以把音樂的情感特征分成從活力的到平靜的不等。對應二維平面直角坐標系分割成的四個空間區(qū)域，音樂可以分成以下四大類：緊張的/恐懼的、興高采烈的、滿足的、沮喪的。如圖5A所示，壓力(Valence)維度可通過第一坐標軸表示，能量(Arousal)維度可通過第二坐標軸表示，其中，第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與演唱情感類型一一對應。第一坐標軸可以為X軸，第二坐標軸可以為Y軸。所述平面直角坐標系的象限對應的演唱情感類型包括：緊張焦慮、高興歡快、悲傷沮喪、自然平靜。所述平面直角坐標系的象限與演唱情感類型的對應關(guān)系包括：第一象限對應緊張焦慮、第二象限對應高興歡快、第三象限對應悲傷沮喪、第四象限對應自然平靜。

基于上述可選的實施方式，如圖5B所示，步驟402可通過以下方式實現(xiàn)。

步驟4021、確定所述待訓練演唱音頻的聲音信號特征及曲譜特征所對應的第一訓練坐標值和第二訓練坐標值。其中，所述情感特征可以包括聲音信號特征和曲譜特征。

具體的，提取待訓練演唱音頻的聲音信號特征A_i,j及曲譜特征B_i,k。其中，A_i,j表示第i首待訓練演唱音頻的第j個聲音信號特征的特征值，1≤j≤n，n為聲音信號特征總數(shù)目，B_i,k表示第i首待訓練演唱音頻的第k個曲譜特征的特征值，1≤k≤m，m為曲譜特征總數(shù)目。

在步驟4021，確定所述待訓練演唱音頻的聲音信號特征及曲譜特征所對應的第一訓練坐標值和第二訓練坐標值。在這里，第一訓練坐標值X_i表示音樂方面的專業(yè)人員標注好的第i首待訓練演唱音頻在第一坐標軸的坐標值，第二訓練坐標值Y_i表示音樂方面的專業(yè)人員標注好的第i首待訓練演唱音頻在第二坐標軸的坐標值，于是第i首待訓練演唱音頻特征為(A_i,1…A_i,n B_i,1…B_i,m X_i Y_i)。X_i和Y_i可直接采用音樂方面的專業(yè)人員預先標注的坐標值。當所有L首歌曲的特征都提取完之后，將形成一個L*(n+m+2)的矩陣

步驟4022、根據(jù)所有所述待訓練演唱音頻子樣本的情感特征和第一訓練坐標值，確定基于第一坐標軸的第一訓練矩陣；根據(jù)所有所述待訓練演唱音頻子樣本的情感特征和第二訓練坐標值確定基于第二坐標軸的第二訓練矩陣。

具體的，基于X軸的第一訓練矩陣為基于Y軸的第二訓練矩陣為

步驟4023、對所述第一訓練矩陣、第二訓練矩陣分別進行歸一化處理，對應得到第一訓練歸一化矩陣、第二訓練歸一化矩陣。在這里，第一訓練歸一化矩陣表示歸一化壓力情感特征，第二訓練歸一化矩陣表示歸一化能量情感特征。

具體的，對X軸的第一訓練矩陣中的數(shù)據(jù)按列進行歸一化處理，使取值范圍為[-1,1]，歸一化后的第一訓練歸一化矩陣為式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],x_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

同理，對Y軸的第一訓練矩陣進行同樣的歸一化處理后得到歸一化的第二訓練歸一化矩陣陣為：式中：

a_i,j∈[-1,1],b_i,k∈[-1,1],y_i∈[-1,1],j∈[1,n],k∈[1,m]，i∈[1,L]。

基于上述可選的實施方式，步驟404具體為：將所述第一訓練歸一化矩陣、第二訓練歸一化矩陣分別代入SVM算法，對應得到基于第一坐標軸的第一訓練超平面、基于第二坐標軸的第二訓練超平面；其中，所述第一訓練超平面用于確定壓力因素大小，所述第二訓練超平面用于確定能量因素高低。具體的，將X軸的第一訓練歸一化矩陣代入SVM算法，該算法將求取X軸方向的一個超平面，該超平面能將x_i中大于0和小于0的部分盡可能區(qū)分開，求得的超平面將由聲音信號特征和曲譜特征中的部分特征組成，設求得的X軸的超平面為其中為聲音信號特征的第p_i個特征、為曲譜特征的第q_i個特征、p₁…p_i∈[1,n]；q₁…q_i∈[1,m]。同理，可求得Y軸的超平面為其中為聲音信號特征的第r_i個特征、為曲譜特征的第s_i個特征、r₁…r_i∈[1,n]；s₁…s_i∈[1,m]。

步驟406具體為：將第一訓練超平面和第一訓練矩陣代入SVM算法，得到用于確定第一識別坐標值的第一情感識別模型；將第二訓練超平面和第二訓練矩陣代入SVM算法，得到用于確定第二識別坐標值的第二情感識別模型。在這里，第一識別坐標值表示壓力因素，第二識別坐標值表示能量因素。依據(jù)求得的X軸超平面其中p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，和帶入SVM算法中，即可求得X軸的訓練模型，設為T_X。同理可求得Y軸的訓練模型，設為T_Y。

在上述可選的實施方式中，第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與演唱情感類型一一對應，本申請實施例可以獲得能夠確定第一坐標值的第一情感識別模型和第二坐標值的第二情感識別模型，以使執(zhí)行本方法的終端設備或其他可間接調(diào)用本方法的終端設備可以根據(jù)第一坐標值和第二坐標值確定所述待識別演唱音頻對應的演唱情感類型，能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

本申請實施例可以獲得能夠確定第一坐標值的第一情感識別模型T_X和第二坐標值的第二情感識別模型T_Y，以使執(zhí)行本方法的終端設備或其他可間接調(diào)用本方法的終端設備可以根據(jù)第一坐標值和第二坐標值確定所述待識別演唱音頻對應的演唱情感類型，能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

實施例六

基于前述實施例，圖6A至圖6C示出了本申請實施例另外一可選的演唱情感識別方法的流程示意圖，本申請可以應用于終端設備，也可以應用于情感識別模型建立裝置，該裝置可以以軟件、硬件或軟硬件結(jié)合的方式典型地設置在終端設備中。以下以執(zhí)行主體為終端設備為例進行說明，結(jié)本實施例所示的方法可以如下實現(xiàn)。

在本實施例中，壓力維度通過第一坐標軸表示，能量維度通過第二坐標軸表示，第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與情感類型一一對應。具體的，第一坐標軸可以為X軸，第二坐標軸可以為Y軸。所述平面直角坐標系的象限對應的演唱情感類型包括：緊張焦慮、高興歡快、悲傷沮喪、自然平靜。所述平面直角坐標系的象限與演唱情感類型的對應關(guān)系包括：第一象限對應緊張焦慮、第二象限對應高興歡快、第三象限對應悲傷沮喪、第四象限對應自然平靜。

步驟600、提取待識別演唱音頻的情感特征，其中，情感特征可以包括聲音信號特征及曲譜特征。

步驟602、根據(jù)所述情感特征和第一情感識別模型，確定所述情感特征基于壓力維度的壓力因素；根據(jù)所述情感特征和第二情感識別模型，確定所述情感特征基于能量維度的能量因素；其中，所述壓力因素和能量因素用于確定情感類型。在本實施例中，第一情感識別模型和第二情感識別模型為基于前述實施例建立得到，具體的模型建立過程可參閱實施例五。

具體的，根據(jù)所述待識別演唱音頻的聲音信號特征及曲譜特征確定所述待識別演唱音頻的情感特征分別在第一坐標軸和第二坐標軸的坐標值，得到用于表征壓力因素的第一坐標值和用于表征能量因素的第二坐標值。

如圖6B所示，在一種可行的實施方式中，步驟602通過以下方法得到第一坐標值。

步驟6020，根據(jù)所述待識別演唱音頻的聲音信號特征、曲譜特征和基于第一坐標軸的第一訓練矩陣，得到基于第一坐標軸的第一特征矩陣。具體的，將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于X軸的第一訓練矩陣的最后一行，得到第一特征矩陣其中，所述第一訓練矩陣基于預設待訓練演唱音頻的聲音信號特征及曲譜特征和所述待訓練演唱音頻的情感特征在第一坐標軸的第一訓練坐標值確定。

在步驟6022，對所述第一特征矩陣進行歸一化處理，得到第一歸一化矩陣，進而得到待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣。具體的，對所述矩陣中的數(shù)據(jù)按列進行歸一化處理，得到第一歸一化矩陣然后提取矩陣最后一行的數(shù)據(jù)，即得所述待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣(a_gx,1…a_gx,n b_gx,1…b_gx,m)。

在步驟6024，將所述待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣、第一訓練超平面和基于第一坐標軸的第一情感識別模型代入SVM算法，得到所述待識別演唱音頻的情感特征在第一坐標軸方向的第一坐標值。具體的，將所述(a_gx,1…a_gx,n b_gx,1…b_gx,m)、第一訓練超平面和X軸的第一情感識別模型T_X代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…_Bg,m)在X軸方向的第一坐標值X_g；其中，所述為訓練聲音信號特征的第p_i個特征，為訓練曲譜特征的第q_i個特征，p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。所述第一訓練超平面基于第一訓練矩陣進行歸一化處理后第一訓練歸一化矩陣確定，所述第一訓練矩陣基于所述第一訓練坐標值和待訓練演唱音頻的情感特征確定；所述基于第一坐標軸的訓練模型基于所述第一訓練超平面和第一訓練歸一化矩陣確定。

如圖6C所示，在一種可行的實施方式中，步驟602通過以下方法得到第二坐標值。

步驟6020’，根據(jù)所述待識別演唱音頻的聲音信號特征、曲譜特征和基于第二坐標軸的第二訓練矩陣，得到基于第二坐標軸的第二特征矩陣。具體的，將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,n B_g,1…B_g,m 0)加入基于Y軸的第二訓練矩陣的最后一行，得到第二特征矩陣其中，所述第二訓練矩陣基于預設待訓練演唱音頻的聲音信號特征及曲譜特征和所述待訓練演唱音頻的情感特征在第二坐標軸的第二訓練坐標值確定。

在步驟6022’，對所述第二特征矩陣進行歸一化處理，得到第二歸一化矩陣，進而得到待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣。具體的，對所述矩陣中的數(shù)據(jù)按列進行歸一化處理，得到第二歸一化矩陣然后提取矩陣最后一行的數(shù)據(jù)，即得所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣(a_gy,1…a_gy,n b_gy,1…b_gy,m)。

在步驟6024’，將所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣、第二訓練超平面和基于第二坐標軸的第二情感識別模型代入SVM算法，得到所述待識別演唱音頻的情感特征在第二坐標軸方向的第二坐標值。具體的，將所述(a_gy,1…a_gy,n b_gy,1…b_gy,m)、第二訓練超平面和Y軸的第二情感識別模型T_Y代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y軸方向的第二坐標值Y_g，其中，所述為訓練聲音信號特征的第r_i個特，為訓練曲譜特征的第s_i個特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。所述第二訓練超平面基于第二訓練矩陣進行歸一化處理后第二訓練歸一化矩陣確定，所述第二訓練矩陣基于所述第二訓練坐標值和待訓練演唱音頻的情感特征確定；所述基于第二坐標軸的訓練模型基于所述第二訓練超平面和第二訓練歸一化矩陣確定。

應當理解的是，步驟6020和步驟6020’的執(zhí)行順序無先后，可同步執(zhí)行。同理，步驟6022和步驟6022’的執(zhí)行順序無先后，可同步執(zhí)行。步驟6024和步驟6024’的執(zhí)行順序無先后，可同步執(zhí)行。

步驟604、根據(jù)所述壓力因素和能量因素，確定所述待識別演唱音頻對應的演唱情感類型。具體的，根據(jù)所述第一坐標值和第二坐標值確定所述待識別演唱音頻的情感特征對應的演唱情感類型。

在本申請實施例中，可以使可執(zhí)行本方法的終端設備或其他可間接調(diào)用本方法的終端設備能夠依據(jù)第一情感識別模型和第二情感識別模型，確定待識別演唱音頻的壓力因素和能量因素，進而確定待識別演唱音頻對應的演唱情感類型。通過本申請實施例，能夠?qū)崿F(xiàn)根據(jù)演唱者的演唱音頻識別演唱者的演唱情感類型，可以從演唱中識別演唱者的情感。

實施例七

請參閱圖7，示出了本申請實施例提供的一種演唱情感識別方法，本申請可以應用于終端設備，也可以應用于情感識別模型建立裝置，該裝置可以以軟件、硬件或軟硬件結(jié)合的方式典型地設置在終端設備中。以下以執(zhí)行主體為終端設備為例進行說明，圖7所示方法可以通過以下方式實現(xiàn)。

在步驟700、獲取用戶演唱音頻。本步驟可以是終端設備直接從本地或存儲設備或網(wǎng)絡獲取用戶演唱的演唱音頻。

在步驟702、當識別用戶演唱音頻對應的情感類型與預設音樂情感相符時，輸出對應的演唱結(jié)果控制指令。

本步驟可以通過語音情感識別和音樂情感識別對用戶演唱音頻進行情感類型的識別，也可以通過前述實施例一至六任一所述的方法對用戶演唱音頻進行情感類型的識別。

在一可選的實施方式中，所述演唱結(jié)果控制指令包括以下至少一種：演唱加分控制指令、燈光控制指令。例如，用戶在KTV唱歌時，當KTV設備識別出用戶演唱音頻對應的情感類型與預設音樂情感(假設預設音樂情感為高興歡快)相符時，則輸出演唱加分控制指令，以對KTV設備顯示的演唱分數(shù)進行加分。再例如，用戶在KTV唱歌時，當KTV設備識別出用戶演唱音頻對應的情感類型與預設音樂情感(假設預設音樂情感為悲傷沮喪)相符時，則輸出燈光控制指令，以對與KTV設備連接的照明設備進行燈光控制，具體的，可控制與KTV設備連接的照明設備輸出藍色光線，以體現(xiàn)悲傷沮喪的場景。

實施例8

請參閱圖8，本實施例提供一種演唱情感識別裝置，包括：

訓練模塊800，用于提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征；

提取模塊801，用于提取待識別演唱音頻的情感特征；

識別模塊802，用于將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。

可選的，所述聲音信號特征包括以下至少一種：平均能量、能量標準差、平均基頻、基頻標準差、超過平均基頻的頻率數(shù)目、平均矩心、矩心標準差、MFCC特征、語譜特征；所述曲譜特征包括以下至少一種：每分鐘節(jié)拍數(shù)、大調(diào)類型、調(diào)式、平均音高、音高標準差、每個音的平均時長。

可選的，所述訓練模塊如下：

訓練坐標值確定單元，用于確定所述待訓練演唱音頻的情感特征分別在第一坐標軸和第二坐標軸的訓練坐標值，得到第一訓練坐標值和第二訓練坐標值；其中，所述第一坐標軸和第二坐標軸組成平面直角坐標系，所述平面直角坐標系的象限與演唱情感類型一一對應；

訓練矩陣確定單元，用于根據(jù)所述第一訓練坐標值和待訓練演唱音頻的情感特征建立第一訓練矩陣，根據(jù)所述第二訓練坐標值和待訓練演唱音頻的情感特征建立第二訓練矩陣；

訓練歸一化矩陣確定單元，用于將第一訓練矩陣歸一化成第一訓練歸一化矩陣；將第二訓練矩陣歸一化成第二訓練歸一化矩陣；

訓練超平面確定單元，用于將所述第一訓練歸一化矩陣、第二訓練歸一化矩陣分別代入SVM算法，對應得到第一訓練超平面、第二訓練超平面；

情感識別模型確定單元，用于將第一訓練超平面和第一訓練歸一化矩陣代入SVM算法，得到基于第一坐標軸的第一情感識別模型；將第二訓練超平面和第二訓練歸一化矩陣代入SVM算法，得到基于第二坐標軸的第二情感識別模型。

可選的，所述識別模塊包括：

輸入單元，用于將待識別演唱音頻的情感特征分別輸入第一情感識別模型和第二情感識別模型，確定所述情感特征基于第一坐標軸的第一坐標值和基于第二坐標軸的第二坐標值；

確定單元，用于根據(jù)所述第一坐標值和第二坐標值確定所述情感特征對應的象限，以確定所述情感特征對應的演唱情感類型。

可選的，所述確定單元，具體用于：

根據(jù)所述第一訓練矩陣和待識別演唱音頻的情感特征，建立第一特征矩陣；對所述第一特征矩陣進行歸一化處理，得到第一歸一化矩陣，進而得到待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣；將所述待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣、第一訓練超平面和第一情感識別模型代入SVM算法，得到情感特征在第一坐標軸方向的第一坐標值。

可選的，所述第一坐標軸為X軸，則所述確定單元，具體用于：

將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,nB_g,1…B_g,m 0)加入基于X軸的第一訓練矩陣的最后一行，得到第一特征矩陣

對所述矩陣中的數(shù)據(jù)按列進行歸一化處理，得到第一歸一化矩陣然后提取矩陣最后一行的數(shù)據(jù)，即得所述待識別演唱音頻的情感特征經(jīng)第一訓練矩陣歸一化后的矩陣(a_gx,1…a_gx,nb_gx,1…b_gx,m)；

將所述(a_gx,1…a_gx,n b_gx,1…b_gx,m)、第一訓練超平面和X軸的第一情感識別模型T_X代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在X軸方向的第一坐標值X_g；其中，所述為訓練聲音信號特征的第p_i個特征，為訓練曲譜特征的第q_i個特征，p₁…p_i∈[1,n]；q₁…q_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。

可選的，所述確定單元，具體用于：

根據(jù)所述第二訓練矩陣和待識別演唱音頻的情感特征，建立第二特征矩陣；對所述第二特征矩陣進行歸一化處理，得到第二歸一化矩陣，進而得到待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣；將所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣、第二訓練超平面和第二情感識別模型代入SVM算法，得到情感特征在第二坐標軸方向的第二坐標值。

可選的，所第二坐標軸為Y軸，則所述確定單元，具體用于：

將所述聲音信號特征(A_g,1…A_g,n)和曲譜特征(B_g,1…B_g,m)組成的矩陣(A_g,1…A_g,nB_g,1…B_g,m 0)加入基于Y軸的第二訓練矩陣的最后一行，得到第二特征矩陣

對所述矩陣中的數(shù)據(jù)按列進行歸一化處理，得到第二歸一化矩陣然后提取矩陣最后一行的數(shù)據(jù)，即得所述待識別演唱音頻的情感特征經(jīng)第二訓練矩陣歸一化后的矩陣(a_gy,1…a_gy,nb_gy,1…b_gy,m)；

將所述(a_gy,1…a_gy,n b_gy,1…b_gy,m)、第二訓練超平面和Y軸的第二情感識別模型T_Y代入到SVM算法中，得到所述待識別演唱音頻的情感特征(A_g,1…A_g,n B_g,1…B_g,m)在Y軸方向的第二坐標值Y_g，其中，所述為訓練聲音信號特征的第r_i個特，為訓練曲譜特征的第s_i個特征，r₁…r_i∈[1,n]；s₁…s_i∈[1,m]，其中n為聲音信號特征數(shù)目、m為曲譜特征數(shù)目、L為訓練歌曲的個數(shù)。

可選的，所述平面直角坐標系的象限對應的演唱情感類型包括：緊張焦慮、高興歡快、悲傷沮喪、自然平靜。

可選的，所述平面直角坐標系的象限與演唱情感類型的對應關(guān)系包括：

第一象限對應緊張焦慮、第二象限對應高興歡快、第三象限對應悲傷沮喪、第四象限對應自然平靜。

本裝置實施例與前述實施例中的方法特征相互對應，相關(guān)模塊/單元可對應執(zhí)行前述實施例中的方法流程，因此可參見前述實施例中方法流程部分的相關(guān)描述，在此不再贅述。

本申請實施例還提供一種電子終端，包括如前述實施例提供的演唱情感識別裝置。本裝置實施例與前述實施例中的方法特征相互對應，因此可參見前述實施例中方法流程部分的相關(guān)描述，在此不再贅述。

實施例九

請參閱圖9，本實施例提供一種演唱識別裝置，包括：

獲取模塊901，用于獲取用戶演唱音頻；

識別模塊902，用于當識別用戶演唱音頻對應的情感類型與預設音樂情感相符時，輸出對應的演唱結(jié)果控制指令。

可選的，所述演唱結(jié)果控制指令包括以下至少一種：演唱加分控制指令、燈光控制指令。

請參閱圖10，本申請實施例還提供一種電子終端，包括：

存儲器1000；

一個或多個處理器1003；以及

一個或多個模塊1001，所述一個或多個模塊1001被存儲在所述存儲器中并被配置成由所述一個或多個處理器控制，所述一個或多個模塊用于執(zhí)行以下步驟的指令：

提取待訓練演唱音頻的情感特征，訓練得到情感識別模型；所述情感特征包括聲音信號特征和曲譜特征；

提取待識別演唱音頻的情感特征；

將待識別演唱音頻的情感特征輸入情感識別模型，識別出待識別演唱音頻的情感。

在一個典型的配置中，計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡接口和內(nèi)存。

內(nèi)存可能包括計算機可讀介質(zhì)中的非永久性存儲器，隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式，如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機可讀介質(zhì)的示例。

計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括，但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶，磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質(zhì)，可用于存儲可以被計算設備訪問的信息。按照本文中的界定，計算機可讀介質(zhì)不包括非暫存電腦可讀媒體(transitory media)，如調(diào)制的數(shù)據(jù)信號和載波。

如在說明書及權(quán)利要求當中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應可理解，硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式，而是以組件在功能上的差異來作為區(qū)分的準則。如在通篇說明書及權(quán)利要求當中所提及的“包含”為一開放式用語，故應解釋成“包含但不限定于”?！按笾隆笔侵冈诳山邮盏恼`差范圍內(nèi)，本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題，基本達到所述技術(shù)效果。此外，“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此，若文中描述一第一裝置耦接于一第二裝置，則代表所述第一裝置可直接電性耦接于所述第二裝置，或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續(xù)描述為實施本申請的較佳實施方式，然所述描述乃以說明本申請的一般原則為目的，并非用以限定本申請的范圍。本申請的保護范圍當視所附權(quán)利要求所界定者為準。

還需要說明的是，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的商品或者系統(tǒng)不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種商品或者系統(tǒng)所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的商品或者系統(tǒng)中還存在另外的相同要素。

上述說明示出并描述了本發(fā)明的若干優(yōu)選實施例，但如前所述，應當理解本發(fā)明并非局限于本文所披露的形式，不應看作是對其他實施例的排除，而可用于各種其他組合、修改和環(huán)境，并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi)，通過上述教導或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍，則都應在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3