一種音頻文件的分類方法及裝置制造方法
【專利摘要】本發(fā)明公開一種音頻文件的分類方法及裝置,其中的方法可包括:構(gòu)建待分類的音頻文件的Pitch序列;根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征向量;根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類。本發(fā)明可實現(xiàn)音頻文件的自動分類,降低分類成本,提高分類效率、分類靈活性和智能性。
【專利說明】一種音頻文件的分類方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及音頻分類【技術(shù)領(lǐng)域】,尤其涉及一種音頻文 件的分類方法及裝置。
【背景技術(shù)】
[0002] 音頻文件(如:歌曲、音樂等)根據(jù)分類需求可劃分為多種類別,例如:按語言劃 分,音頻文件可被劃分為華語類、英文類、日韓類、小語種類等各種類別;再如;按流派劃 分,音頻文件可被劃分為拉丁類、舞曲類、民謠類、流行類、鄉(xiāng)村類等各種類別。隨著互聯(lián)網(wǎng) 技術(shù)的發(fā)展,互聯(lián)網(wǎng)音頻庫中收錄了大量的音頻文件,為了實現(xiàn)對互聯(lián)網(wǎng)音頻庫的有效管 理,需要對音頻文件進行分類。傳統(tǒng)的音頻文件的分類主要為人工分類,即需要專業(yè)人員 依據(jù)分類需求對互聯(lián)網(wǎng)音頻庫中的各音頻文件進行分類,此種分類方式的人力資源成本較 高、分類效率較低、智能性較低,且無法靈活適應(yīng)互聯(lián)網(wǎng)音頻庫中音頻文件數(shù)量的增加、互 聯(lián)網(wǎng)音頻庫中音頻文件的更新變化,以及分類需求的變化,從而影響了對互聯(lián)網(wǎng)音頻庫的 管理。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明實施例提供一種音頻文件的分類方法及裝置,可實現(xiàn)音頻文件的自動分 類,降低分類成本,提高分類效率、分類靈活性和智能性。
[0004] 本發(fā)明第一方面提供一種音頻文件的分類方法,可包括:
[0005] 構(gòu)建待分類的音頻文件的Pitch (音高)序列;
[0006] 根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征向量;
[0007] 根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類。
[0008] 本發(fā)明第二方面提供一種音頻文件的分類裝置,可包括:
[0009] 構(gòu)建模塊,用于構(gòu)建待分類的音頻文件的音高Pitch序列;
[0010] 向量計算模塊,用于根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征 向量;
[0011] 分類模塊,用于根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類。
[0012] 實施本發(fā)明實施例,具有如下有益效果:
[0013] 本發(fā)明實施例通過構(gòu)建待分類的音頻文件的Pitch序列,基于該音頻文件的 Pitch序列計算特征向量,從而可采用特征向量抽象化音頻文件所包含的音頻內(nèi)容;進一 步,本發(fā)明實施例根據(jù)特征向量對該音頻文件進行分類,由于基于音頻文件所包含的音頻 內(nèi)容進行自動分類,降低了分類成本,且提升了分類效率,提高了分類靈活性和智能性。
【專利附圖】
【附圖說明】
[0014] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0015] 圖1為本發(fā)明實施例提供的一種音頻文件的分類方法的流程圖;
[0016] 圖2為本發(fā)明實施例提供的另一種音頻文件的分類方法的流程圖;
[0017] 圖3為本發(fā)明實施例提供的一種音頻文件的分類裝置的結(jié)構(gòu)示意圖:
[0018] 圖4為本發(fā)明實施例提供的構(gòu)建模塊的結(jié)構(gòu)示意圖;
[0019]圖5為本發(fā)明實施例提供的向量計算模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0021] 本發(fā)明實施例中,音頻文件可以包括但不限于:歌曲、歌曲片段、音樂、音樂片段等 文件。音頻文件可被劃分為多種類別,例如:按語言劃分,音頻文件可被劃分為華語類、英 文類、日韓類、小語種類等各種類別;再如:按流派劃分,音頻文件可被劃分為拉丁類、舞曲 類、民謠類、流行類、鄉(xiāng)村類等各種類別。本發(fā)明實施例中,對音頻文件進行分類的過程指為 音頻文件確定類別的過程。
[0022] 下面將結(jié)合附圖1-附圖2,對本發(fā)明實施例提供的音頻文件的分類方法進行詳細 介紹。
[0023] 請參見圖1,為本發(fā)明實施例提供的一種音頻文件的分類方法的流程圖;該方法 可包括以下步驟S101-步驟S103。
[0024] S101,構(gòu)建待分類的音頻文件的Pitch序列。
[0025] -個音頻文件可以表不為以時間T為巾貞長,Ts為巾貞移的多個音頻巾貞組成的一個中貞 序列;其中,幀長T和幀移Ts的取值可以根據(jù)實際需要進行確定,例如:針對一首歌曲,幀 長T可以為20ms,巾貞移Ts可以為10ms ;再如:針對一曲音樂,巾貞長T可以為10ms,巾貞移Ts 可以為5ms ;等等。不同的音頻文件,幀長T的取值可能相同,也可能不同;幀移Ts的取值 可能相同,也可能不同。音頻文件所包含的每個音頻幀均攜帶音高,各個音頻幀的音高按照 各個音頻幀的時間先后順序構(gòu)成該音頻文件的旋律信息。本步驟可根據(jù)待分類的音頻文件 所包含的每個音頻幀的音高,構(gòu)建該音頻文件的Pitch序列。其中,音頻文件的Pitch序列 包含該音頻文件的每個音頻幀的音高,音頻文件的Pitch序列中所包含的各個音高按序構(gòu) 成該音頻文件的旋律信息。
[0026] S102,根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征向量。
[0027] 其中,音頻文件的特征向量包含該音頻文件的特征參數(shù),該特征參數(shù)包括但不限 于以下參數(shù)中的至少一個:音高均值、音高標準差、音高變化寬度、音高上升比例、音高下降 比例、零音高比例、音高上升的平均速率和音高下降的平均速率。音頻文件的特征向量可用 于抽象化表征該音頻文件所包含的音頻內(nèi)容。音頻文件的特征向量可通過多個特征參數(shù), 抽象化表征音頻文件所包含的音頻內(nèi)容。
[0028] S103,根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類。
[0029] 由于音頻文件的特征向量可用于抽象化表征該音頻文件所包含的音頻內(nèi)容,本步 驟根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類;實則基于所述音頻文件所包 含的音頻內(nèi)容,對該音頻文件進行分類,從而可提升音頻文件的分類準確性。
[0030] 本發(fā)明實施例通過構(gòu)建待分類的音頻文件的Pitch序列,基于該音頻文件的 Pitch序列計算特征向量,從而可采用特征向量抽象化音頻文件所包含的音頻內(nèi)容;進一 步,本發(fā)明實施例根據(jù)特征向量對該音頻文件進行分類,由于基于音頻文件所包含的音頻 內(nèi)容進行自動分類,降低了分類成本,且提升了分類效率,提高了分類靈活性和智能性。
[0031] 請參見圖2,為本發(fā)明實施例提供的另一種音頻文件的分類方法的流程圖;該方 法可包括以下步驟S201-步驟S205。
[0032] S201,提取待分類的音頻文件所包含的每個音頻幀的音高。
[0033] -個音頻文件可以表不為以時間T為巾貞長,Ts為巾貞移的多個音頻巾貞組成的一個中貞 序列;其中,幀長T和幀移Ts的取值可以根據(jù)實際需要進行確定,例如:針對一首歌曲,幀 長T可以為20ms,巾貞移Ts可以為10ms ;再如:針對一曲音樂,巾貞長T可以為10ms,巾貞移Ts 可以為5ms ;等等。不同的音頻文件,幀長T的取值可能相同,也可能不同;幀移Ts的取值 可能相同,也可能不同。音頻文件所包含的每個音頻幀均攜帶音高,各個音頻幀的音高按照 各個音頻幀的時間先后順序構(gòu)成該音頻文件的旋律信息。若設(shè)定待分類的音頻文件共包含 η (η為正整數(shù))個音頻幀,第一個音頻幀的音高為S (1),第二個音頻幀的音高為S (2),以此 類推,第η-1個音頻幀的音高為S (η-1),第η個音頻幀的音高為S (η);本步驟則提取該待分 類的音頻文件所包含的每個音頻幀的音高,即提取S (1)至S (η)。
[0034] S202,根據(jù)所述音頻文件的每個音頻幀的音高,構(gòu)建所述音頻文件的Pitch序列。
[0035] 其中,音頻文件的Pitch序列包含該音頻文件的每個音頻幀的音高,音頻文件的 Pitch序列中所包含的各個音高按序構(gòu)成該音頻文件的旋律信息。本步驟中,所述音頻文 件的Pitch序列可表示為S序列,該S序列包含S (1)、S (2)……S (n-1)、S (η)共η個音高, 該η個音高按序構(gòu)成所述音頻文件的旋律信息。具體實現(xiàn)中,本步驟可存在以下兩種可行 的實施方式,在一種可行的實施方式中,本步驟可采用Pitch提取算法,構(gòu)建所述音頻文件 的Pitch序列;該Pitch提取算法可包括但不限于:自相關(guān)函數(shù)法、峰值提取算法、平均幅 度差函數(shù)法、倒譜法、譜圖法等等。在另一種可行的實施方式中,本步驟可采用Pitch提取 工具,構(gòu)建所述音頻文件的Pitch序列;該Pitch提取工具可包括但不限于:voicebox (- 個matlab語音處理工具箱)中的fxpefac工具或fxrapt工具,等等。
[0036] 本實施例的步驟S201-步驟S202可以為圖1所示實施例的步驟S101的具體細化 流程。
[0037] S203,根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征參數(shù)。
[0038] 其中,所述音頻文件的特征參數(shù)可包括但不限于以下參數(shù)中的至少一個:音高均 值、音高標準差、音高變化寬度、音高上升比例、音高下降比例、零音高比例、音高上升的平 均速率和音高下降的平均速率。為了能夠更準確的體現(xiàn)所述音頻文件包含的音頻內(nèi)容,本 發(fā)明實施例中,優(yōu)選地,所述音頻文件的特征參數(shù)包括音高均值、音高標準差、音高變化寬 度、音高上升比例、音高下降比例、零音高比例、音高上升的平均速率和音高下降的平均速 率;各特征參數(shù)的定義及計算過程如下:
[0039] a)音高均值,代表所述音頻文件的Pitch序列(即S序列)的平均音高,可采用E 表示。本步驟可采用以下公式(1)計算所述音頻文件的音高均值E :
[0040]
【權(quán)利要求】
1. 一種音頻文件的分類方法,其特征在于,包括: 構(gòu)建待分類的音頻文件的音高Pitch序列; 根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征向量; 根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類。
2. 如權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建待分類的音頻文件的Pitch序列, 包括: 提取待分類的音頻文件所包含的每個音頻幀的音高; 根據(jù)所述音頻文件的每個音頻幀的音高,構(gòu)建所述音頻文件的Pitch序列。
3. 如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述音頻文件的Pitch序列,計算 所述音頻文件的特征向量,包括: 根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征參數(shù); 將所述音頻文件的特征參數(shù)采用數(shù)組進行存儲,生成所述音頻文件的特征向量。
4. 如權(quán)利要求3所述的方法,其特征在于,所述音頻文件的特征參數(shù)包括以下參數(shù)中 的至少一個:音高均值、音高標準差、音高變化寬度、音高上升比例、音高下降比例、零音高 比例、音高上升的平均速率和音高下降的平均速率。
5. 如權(quán)利要求1-4任一項所述的方法,其特征在于,所述根據(jù)所述音頻文件的特征向 量,對所述音頻文件進行分類,包括: 根據(jù)所述音頻文件的特征向量,采用分類算法對所述音頻文件進行分類。
6. -種音頻文件的分類裝置,其特征在于,包括: 構(gòu)建模塊,用于構(gòu)建待分類的音頻文件的音高Pitch序列; 向量計算模塊,用于根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征向量; 分類模塊,用于根據(jù)所述音頻文件的特征向量,對所述音頻文件進行分類。
7. 如權(quán)利要求6所述的裝置,其特征在于,所述構(gòu)建模塊包括: 提取單元,用于提取待分類的音頻文件所包含的每個音頻幀的音高; 構(gòu)建單元,用于根據(jù)所述音頻文件的每個音頻幀的音高,構(gòu)建所述音頻文件的Pitch 序列。
8. 如權(quán)利要求7所述的裝置,其特征在于,所述向量計算模塊包括: 參數(shù)計算單元,用于根據(jù)所述音頻文件的Pitch序列,計算所述音頻文件的特征參數(shù); 向量生成單元,用于將所述音頻文件的特征參數(shù)采用數(shù)組進行存儲,生成所述音頻文 件的特征向量。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述音頻文件的特征參數(shù)包括以下參數(shù)中 的至少一個:音高均值、音高標準差、音高變化范圍、音高上升比例、音高下降比例、零音高 比例、音高上升的平均速率和音高下降的平均速率。
10. 如權(quán)利要求6-9任一項所述的裝置,其特征在于,所述分類模塊根據(jù)所述音頻文件 的特征向量,采用分類算法對所述音頻文件進行分類。
【文檔編號】G06F17/30GK104090876SQ201310135223
【公開日】2014年10月8日 申請日期:2013年4月18日 優(yōu)先權(quán)日:2013年4月18日
【發(fā)明者】趙偉峰, 李深遠, 張李偉, 陳劍鋒 申請人:騰訊科技(深圳)有限公司