一種音頻文件的情緒活躍度獲取方法及分類方法、裝置制造方法
【專利摘要】本發(fā)明提供了一種音頻文件的情緒活躍度獲取方法及分類方法、裝置,該音頻文件的情緒活躍度獲取方法包括:獲取所述音頻文件的語譜圖;從所述語譜圖中獲取所述音頻文件中的語音頻率的峰點個數(shù);通過所述峰點個數(shù)與所述音頻文件的時長確定所述音頻文件的情緒活躍度。本發(fā)明實施例通過從語譜圖中獲取音頻文件中的語音頻率的峰點個數(shù),并通過峰點個數(shù)與音頻文件的時長確定音頻文件的情緒活躍度,實現(xiàn)了對音頻文件的情緒活躍度進行量化,為用戶通過情緒活躍度選歌提供依據(jù)。
【專利說明】一種音頻文件的情緒活躍度獲取方法及分類方法、裝置
【技術領域】
[0001] 本發(fā)明涉及語音處理【技術領域】,尤其涉及一種音頻文件的情緒活躍度獲取方法及 分類方法、裝置。
【背景技術】
[0002] 現(xiàn)有技術中,在對音頻文件進行情緒分析時,對音頻文件進行分析,提取出音頻文 件的音頻特征,通過采用模式識別的方式對音頻文件進行分類。
[0003] 在模式識別的方式,首先提取音頻文件的特征,例如,提取音頻文件的強度特征、 音色特征、以及頻譜相關的特征,在提取特征之后,使用分類器模型進行有監(jiān)督的學習,訓 練模型建立起來以后,從而實現(xiàn)對未知音頻文件的預測。通過模式識別的方式,雖然能夠進 行幾種情況的分類,但模式識別并不能將音頻文件所表達的情緒進行量化。
【發(fā)明內容】
[0004] 本發(fā)明實施例提供一種音頻文件的情緒活躍度獲取方法及分類方法、裝置,通過 對音頻文件的情緒活躍度進行量化,為用戶通過情緒活躍度選歌提供依據(jù)。
[0005] 為達到上述目的,本發(fā)明的實施例采用如下技術方案:
[0006] -種音頻文件的情緒活躍度獲取方法,該包括:
[0007] 獲取所述音頻文件的語譜圖;
[0008] 從所述語譜圖中獲取所述音頻文件中的語音頻率的峰點個數(shù);
[0009] 通過所述峰點個數(shù)與所述音頻文件的時長確定所述音頻文件的情緒活躍度。
[0010] 一種音頻文件的分類方法,該方法包括:
[0011] 通過上述技術方案所述的方法獲取所述音頻文件的情緒活躍度;
[0012] 根據(jù)所述情緒活躍度對歌曲庫中的音樂文件進行分類。
[0013] 一種音頻文件的情緒活躍度獲取裝置,該包括:
[0014] 語譜圖獲取模塊,用于獲取所述音頻文件的語譜圖;
[0015] 峰點個數(shù)獲取模塊,用于從所述語譜圖中獲取所述音頻文件中的語音頻率的峰點 個數(shù);
[0016] 情緒活躍度確定模塊,用于通過所述峰點個數(shù)與所述音頻文件的時長確定所述音 頻文件的情緒活躍度。
[0017] 一種音頻文件的分類裝置,該裝置包括:
[0018] 上述技術方案所述的音頻文件的情緒活躍度獲取裝置通過上述技術方案所述的 情緒活躍度獲取方法獲取所述音頻文件的情緒活躍度;
[0019] 分類模塊,用于根據(jù)所述情緒活躍度對歌曲庫中的音樂文件進行分類。
[0020] 本發(fā)明實施例提供的一種音頻文件的情緒活躍度獲取方法及分類方法、裝置,通 過從語譜圖中獲取音頻文件中的語音頻率的峰點個數(shù),并通過峰點個數(shù)與音頻文件的時長 確定音頻文件的情緒活躍度,實現(xiàn)了對音頻文件的情緒活躍度進行量化,為用戶通過情緒 活躍度選歌提供依據(jù)。
【專利附圖】
【附圖說明】
[0021] 圖1為本發(fā)明實施例提供的一個語譜圖的示意圖;
[0022] 圖2為本發(fā)明實施例一提供的音頻文件的情緒活躍度獲取方法的流程示意圖;
[0023] 圖3為本發(fā)明實施例二提供的音頻文件的情緒活躍度獲取方法的流程示意圖;
[0024] 圖4為圖3所示實施例在步驟320-330的濾波前的語譜圖在時間與頻率坐標軸中 的不意圖;
[0025] 圖5為圖3所示實施例經(jīng)過步驟320-330的濾波后的語譜圖在時間與頻率坐標軸 中的不意圖;
[0026] 圖6為本發(fā)明實施例三提供的音頻文件的情緒活躍度獲取方法的流程示意圖;
[0027] 圖7為本發(fā)明實施例四提供的音頻文件的情緒活躍度獲取裝置的結構示意圖;
[0028] 圖8為本發(fā)明實施例五提供的音頻文件的情緒活躍度獲取裝置的結構示意圖;
[0029] 圖9為本發(fā)明實施例六提供的音頻文件的情緒活躍度獲取裝置的結構示意圖。
【具體實施方式】
[0030] 下面結合附圖對本發(fā)明實施例提供的音頻文件的情緒活躍度獲取方法及分類方 法、裝置進行詳細描述。
[0031] 圖1為本發(fā)明實施例提供的一個語譜圖的示意圖,如圖1所示,語譜圖的X軸表示 時間(對應圖1中斜向下方向的軸),Y軸表示頻率(對應圖1中水平向右方向的軸),Z軸 表示語音數(shù)據(jù)能量,語音信號在時域進行變換得到頻域的頻譜圖,該頻譜圖即為語譜圖。
[0032] 在圖1中,可以看到與周圍相比顏色深的點,該顏色深的點表示語音信號中的當 前點相對于周邊的點幅度最高的點,該點可以成為本發(fā)明實施例中所述的峰點,由此可見, 本發(fā)明實施例中所述的峰點并不僅由相應的幅度值來確定,而是相對于周圍的點而言的幅 度值比較大的點。
[0033] 下面將詳細說明本發(fā)明的實施例。
[0034] 實施例一:
[0035] 圖2為本發(fā)明實施例一提供的音頻文件的情緒活躍度獲取方法的流程示意圖,如 圖2所示,本發(fā)明實施例包括以下步驟:
[0036] 步驟210,獲取音頻文件的語譜圖。
[0037] 步驟220,從語譜圖中獲取音頻文件中的語音頻率的峰點個數(shù)。
[0038] 步驟230,通過峰點個數(shù)與音頻文件的時長確定音頻文件的情緒活躍度。
[0039] 在步驟210中的處理可以具體為:對音頻文件進行解碼,并以預定的采樣頻率(例 如,44100Hz)對解碼后的信號進行重采樣,將重采樣后的音頻合并為單聲道,對合并后的音 頻進行分幀(例如,幀長為2048,幀間隔為256),并進行漢寧窗處理,對經(jīng)過上述處理后的 音頻進行傅立葉變換,得到語譜圖。
[0040]本發(fā)明實施例提供的音頻文件的情緒活躍度獲取方法,通過從語譜圖中獲取音頻 文件中的語音頻率的峰點個數(shù),并通過峰點個數(shù)與音頻文件的時長確定音頻文件的情緒活 躍度,實現(xiàn)了對音頻文件的情緒活躍度進行量化,為用戶通過情緒活躍度選歌提供依據(jù)。
[0041] 實施例二:
[0042] 圖3為本發(fā)明實施例二提供的音頻文件的情緒活躍度獲取方法的流程示意圖,如 圖3所示,本發(fā)明實施例包括以下步驟:
[0043] 步驟310,獲取音頻文件的語譜圖。
[0044] 步驟320,通過第一濾波器在頻率軸對語譜圖進行尋峰濾波處理。
[0045] 步驟330,通過第二濾波器在時間軸對語譜圖進行尋峰濾波處理。
[0046] 步驟340,從經(jīng)過濾波處理后的語譜圖中統(tǒng)計音頻文件的峰點個數(shù)。
[0047] 步驟350,將峰點個數(shù)除以音頻文件的時長,得到音頻文件的情緒活躍度。
[0048] 其中,本發(fā)明實施例中的步驟310的具體處理方式可以參考實施例一的步驟210 的描述,在此不再贅述。
[0049] 在步驟320中,第一濾波器可以通過濾波函數(shù)來設定,并通過第一濾波器在頻率 軸對語譜圖進行尋峰濾波處理。本發(fā)明實施例中所述的濾波函數(shù)可參考式(1):
[0050]
【權利要求】
1. 一種音頻文件的情緒活躍度獲取方法,其特征在于,所述方法包括: 獲取所述音頻文件的語譜圖; 從所述語譜圖中獲取所述音頻文件中的語音頻率的峰點個數(shù); 通過所述峰點個數(shù)與所述音頻文件的時長確定所述音頻文件的情緒活躍度。
2. 根據(jù)權利要求1所述的方法,其特征在于,所述從所述語譜圖中獲取所述音頻文件 中的語音頻率的峰點個數(shù)的步驟包括: 分別在頻率軸與時間軸上對所述語譜圖進行尋峰濾波處理; 從經(jīng)過濾波處理后的所述語譜圖中統(tǒng)計所述音頻文件的峰點個數(shù)。
3. 根據(jù)權利要求2所述的方法,其特征在于,所述從經(jīng)過濾波處理后的所述語譜圖中 統(tǒng)計所述音頻文件的峰點個數(shù)的步驟包括: 獲取經(jīng)過濾波處理后的所述語譜圖中的第一多個峰點; 將所述第一多個峰點分別對應的幅值與預設閾值進行比較; 將所述幅值小于所述預設閾值的峰點濾除,得到第二多個峰點; 統(tǒng)計所述第二多個峰點的個數(shù),得到所述音頻文件中的語音頻率的峰點個數(shù)。
4. 根據(jù)權利要求1-3任一所述的方法,其特征在于,所述根據(jù)所述峰點個數(shù)與所述音 頻文件的時長確定所述音頻文件的情緒活躍度的步驟包括: 將所述峰點個數(shù)除以所述音頻文件的時長,得到所述音頻文件的情緒活躍度。
5. 根據(jù)權利要求1-3任一所述的方法,其特征在于,所述根據(jù)所述峰點個數(shù)與所述音 頻文件的時長確定所述音頻文件的情緒活躍度的步驟包括: 通過所述峰點個數(shù)與所述音頻文件的時長確定所述音頻文件的旋律復雜度; 根據(jù)所述旋轉復雜度與所述音頻文件的節(jié)奏強度確定所述音頻文件的情緒活躍度。
6. -種音頻文件的分類方法,其特征在于,所述方法包括: 通過上述權利要求1-5任一所述的方法獲取所述音頻文件的情緒活躍度; 根據(jù)所述情緒活躍度對歌曲庫中的音樂文件進行分類。
7. -種音頻文件的情緒活躍度獲取裝置,其特征在于,所述裝置包括: 語譜圖獲取模塊,用于獲取所述音頻文件的語譜圖; 峰點個數(shù)獲取模塊,用于從所述語譜圖中獲取所述音頻文件中的語音頻率的峰點個 數(shù); 情緒活躍度確定模塊,用于通過所述峰點個數(shù)與所述音頻文件的時長確定所述音頻文 件的情緒活躍度。
8. 根據(jù)權利要求7所述的裝置,其特征在于,所述峰點個數(shù)獲取模塊包括: 尋峰濾波單元,用于分別在頻率軸與時間軸上對所述語譜圖進行尋峰濾波處理; 峰點個數(shù)統(tǒng)計單元,用于從經(jīng)過濾波處理后的所述語譜圖中統(tǒng)計所述音頻文件的峰點 個數(shù)。
9. 根據(jù)權利要求8所述的裝置,其特征在于,所述峰點個數(shù)統(tǒng)計單元包括: 第一獲取子單元,用于獲取經(jīng)過濾波處理后的所述語譜圖中的第一多個峰點; 閾值比較子單元,用于將所述第一多個峰點分別對應的幅值與預設閾值進行比較; 第二獲取子單元,用于將所述第一多個峰點中所述幅值小于所述預設閾值的峰點濾 除,得到第二多個峰點; 統(tǒng)計子單元,用于統(tǒng)計所述第二多個峰點的個數(shù),得到所述音頻文件中的語音頻率的 峰點個數(shù)。
10. 根據(jù)權利要求7-9任一所述的裝置,其特征在于,所述情緒活躍度確定模塊包括: 第一情緒活躍度確定單元,用于將所述峰點個數(shù)除以所述音頻文件的時長,得到所述 音頻文件的情緒活躍度。
11. 根據(jù)權利要求7-9任一所述的裝置,其特征在于,所述情緒活躍度確定模塊包括: 旋律復雜度獲取單元,用于通過所述峰點個數(shù)與所述音頻文件的時長確定所述音頻文 件的旋律復雜度; 第二情緒活躍度確定單元,用于根據(jù)所述旋律復雜度與所述音頻文件的節(jié)奏強度確定 所述音頻文件的情緒活躍度。
12. -種音頻文件的分類裝置,其特征在于,所述裝置包括: 上述權利要求7-11任一所述的音頻文件的情緒活躍度獲取裝置,用于通過上述權利 要求1-5任一所述的方法獲取所述音頻文件的情緒活躍度; 分類模塊,用于根據(jù)所述情緒活躍度對歌曲庫中的音樂文件進行分類。
【文檔編號】G10L25/63GK104318931SQ201410521416
【公開日】2015年1月28日 申請日期:2014年9月30日 優(yōu)先權日:2014年9月30日
【發(fā)明者】王徽蓉 申請人:百度在線網(wǎng)絡技術(北京)有限公司