亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種音頻文件的分類(lèi)方法及裝置的制造方法

文檔序號(hào):10536411閱讀:332來(lái)源:國(guó)知局
一種音頻文件的分類(lèi)方法及裝置的制造方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例公開(kāi)了一種音頻文件的分類(lèi)方法及裝置,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;方法包括:針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖;根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。利用本發(fā)明實(shí)施例,實(shí)現(xiàn)了通過(guò)語(yǔ)譜圖對(duì)音頻文件進(jìn)行分類(lèi)。
【專(zhuān)利說(shuō)明】
一種音頻文件的分類(lèi)方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及音頻技術(shù)領(lǐng)域,特別涉及一種音頻文件的分類(lèi)方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)多媒體時(shí)代,人們對(duì)音樂(lè)的需求變得越來(lái)越多樣化。音樂(lè)分類(lèi),有助于人們對(duì)音樂(lè)進(jìn)行標(biāo)注,例如對(duì)不同的音樂(lè)流派標(biāo)注不同的情感,也可以方便用戶(hù)更好地按照興趣獲取音樂(lè)資源。
[0003]傳統(tǒng)的音樂(lè)分類(lèi)方法,通過(guò)對(duì)音頻提取特征,然后用分類(lèi)器來(lái)進(jìn)行分類(lèi)。音頻特征包括:時(shí)域特征,包含短時(shí)平均能量、線(xiàn)性預(yù)測(cè)系數(shù)、過(guò)零率以及衍生特征;頻域特征,包含Mel系數(shù)、LPC倒頻譜系數(shù)以及熵特征;時(shí)頻特征,包含小波系數(shù)。在這個(gè)過(guò)程中,有效的音頻特征提取與選擇是一個(gè)較為復(fù)雜的過(guò)程。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實(shí)施例的目的在于提供一種音頻文件的分類(lèi)方法及裝置,以實(shí)現(xiàn)通過(guò)語(yǔ)譜圖對(duì)音頻文件進(jìn)行分類(lèi)。
[0005]為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種音頻文件的分類(lèi)方法,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;方法包括:
[0006]針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖;
[0007]根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。
[0008]較佳的,所述針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖,包括:
[0009]針對(duì)待分類(lèi)的目標(biāo)音頻文件,將所述目標(biāo)音頻文件進(jìn)行分段;
[0010]分別獲得每一段音頻文件的語(yǔ)譜圖。
[0011 ]較佳的,所述根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別,包括:
[0012]利用神經(jīng)網(wǎng)絡(luò),根據(jù)所述每一段音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定每一段音頻文件的類(lèi)別;
[0013]根據(jù)所有段音頻文件的類(lèi)別,確定所述目標(biāo)音頻文件的類(lèi)別。
[0014]較佳的,所述分別獲得每一段音頻文件的語(yǔ)譜圖,包括:
[0015]分別針對(duì)每一段音頻文件,針對(duì)所述段音頻文件的每一音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;
[0016]根據(jù)所述段音頻文件的每一音頻幀的頻譜值,生成所述段音頻文件的語(yǔ)譜圖。
[0017]較佳的,所述神經(jīng)網(wǎng)絡(luò)為:
[0018]卷積神經(jīng)網(wǎng)絡(luò)。
[0019]為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種音頻文件的分類(lèi)裝置,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;裝置包括:
[0020]獲得模塊,用于針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖;[0021 ]確定模塊,用于根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。
[0022]較佳的,所述獲得模塊,包括:
[0023]分段子模塊,用于針對(duì)待分類(lèi)的目標(biāo)音頻文件,將所述目標(biāo)音頻文件進(jìn)行分段;
[0024]獲得子模塊,用于分別獲得每一段音頻文件的語(yǔ)譜圖。
[0025]較佳的,所述確定模塊,具體用于:
[0026]利用神經(jīng)網(wǎng)絡(luò),根據(jù)所述每一段音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定每一段音頻文件的類(lèi)別;
[0027]根據(jù)所有段音頻文件的類(lèi)別,確定所述目標(biāo)音頻文件的類(lèi)別。
[0028]較佳的,所述獲得子模塊,具體用于:
[0029]分別針對(duì)每一段音頻文件,針對(duì)所述段音頻文件的每一音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;
[0030]根據(jù)所述段音頻文件的每一音頻幀的頻譜值,生成所述段音頻文件的語(yǔ)譜圖。
[0031 ]較佳的,所述神經(jīng)網(wǎng)絡(luò)為:
[0032]卷積神經(jīng)網(wǎng)絡(luò)。
[0033]由上述的技術(shù)方案可見(jiàn),本發(fā)明實(shí)施例提供的一種音頻文件的分類(lèi)方法及裝置,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖;根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。
[0034]可見(jiàn),利用目標(biāo)音頻文件的語(yǔ)譜圖和每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定目標(biāo)音頻文件的類(lèi)別,實(shí)現(xiàn)了通過(guò)語(yǔ)譜圖對(duì)音頻文件進(jìn)行分類(lèi)。
[0035]當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0036]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0037]圖1為本發(fā)明實(shí)施例提供的一種音頻文件的分類(lèi)方法的流程示意圖;
[0038]圖2為本發(fā)明實(shí)施例提供的一種音頻文件的分類(lèi)裝置的結(jié)構(gòu)示意圖;
[0039]圖3為本發(fā)明實(shí)施例提供的Jazz的語(yǔ)譜圖;
[0040]圖4為本發(fā)明實(shí)施例提供的Blue的語(yǔ)譜圖;
[0041 ]圖5為本發(fā)明實(shí)施例提供的Metal的語(yǔ)譜圖;
[0042]圖6為本發(fā)明實(shí)施例提供的Pop的語(yǔ)譜圖;
[0043]圖7為本發(fā)明實(shí)施例提供的Hip-pop的語(yǔ)譜圖。
【具體實(shí)施方式】
[0044]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0045]下面首先對(duì)本發(fā)明實(shí)施例提供的一種音頻文件的分類(lèi)方法進(jìn)行詳細(xì)說(shuō)明。
[0046]參見(jiàn)圖1,圖1為本發(fā)明實(shí)施例提供的一種音頻文件的分類(lèi)方法的流程示意圖,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;可以包括如下步驟:
[0047]SlOl,針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖;
[0048]具體的,音頻文件可以為音樂(lè)文件,預(yù)先將音樂(lè)進(jìn)行分類(lèi),例如Jazz、Blue、Metal、Pop、Hip-pop等等,同時(shí)獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖。其中,每一類(lèi)音樂(lè)的語(yǔ)譜圖分別如圖3、圖4、圖5、圖6、圖7所示。針對(duì)待分類(lèi)的目標(biāo)音頻文件,可以將目標(biāo)音頻文件進(jìn)行分段。例如,將I首60s的音樂(lè)從頭開(kāi)始,每5s分為一個(gè)片段,共分為12個(gè)音樂(lè)片段。
[0049]具體的,對(duì)于其中一段音頻文件,可以對(duì)該段音頻文件中的語(yǔ)音信號(hào)進(jìn)行加窗,按照一定的窗長(zhǎng)和窗移進(jìn)行分幀;對(duì)每幀音頻采樣通過(guò)快速傅里葉變換,得到該段音頻文件的的頻譜值;對(duì)該段音頻文件的頻譜值可以進(jìn)行歸一化處理,轉(zhuǎn)化成O至255之間的值,生成該段音頻文件的語(yǔ)譜圖。針對(duì)每一段音頻文件都按照此方法進(jìn)行處理,分別獲得每一段音頻文件的語(yǔ)譜圖,從而獲得目標(biāo)音頻文件的語(yǔ)譜圖。其中,語(yǔ)音信號(hào)的加窗、分幀以及快速傅里葉變換均屬于現(xiàn)有技術(shù),在此不再贅述。
[0050]S102,根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。
[0051]具體的,同一類(lèi)型的音樂(lè)語(yǔ)譜圖的紋理具有相似性,人眼能根據(jù)紋理在一定程度上分辨出不同的音樂(lè)類(lèi)別。在實(shí)際應(yīng)用中,可以利用神經(jīng)網(wǎng)絡(luò),根據(jù)每一段音頻文件的語(yǔ)譜圖以及每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定每一段音頻文件的類(lèi)別;根據(jù)所有段音頻文件的類(lèi)別,確定所述目標(biāo)音頻文件的類(lèi)別。在實(shí)際應(yīng)用中,該神經(jīng)網(wǎng)絡(luò)可以為卷積神經(jīng)網(wǎng)絡(luò)CNN0
[0052]示例性的,可以采用最大值投票的方法,對(duì)于I首音樂(lè)的12個(gè)音樂(lè)文件片段,利用卷積神經(jīng)網(wǎng)絡(luò),確定其中9個(gè)片段的類(lèi)別為Jazz,2個(gè)片段的類(lèi)別為Blue,l個(gè)片段的類(lèi)別為Pop,則處理后最終的分類(lèi)結(jié)果為Jazz,從而確定該音樂(lè)的類(lèi)別為爵士樂(lè)(Jazz)。其中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種基于深度學(xué)習(xí)的圖像分類(lèi)和物體檢測(cè)算法,屬于現(xiàn)有技術(shù),在此不再贅述。
[0053]可見(jiàn),利用目標(biāo)音頻文件的語(yǔ)譜圖和每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定目標(biāo)音頻文件的類(lèi)別,不涉及音頻特征提取與選擇的復(fù)雜過(guò)程,從而實(shí)現(xiàn)通過(guò)語(yǔ)譜圖對(duì)音頻文件進(jìn)行分類(lèi)。
[0054]參見(jiàn)圖2,圖2為本發(fā)明實(shí)施例提供的一種音頻文件的分類(lèi)裝置的結(jié)構(gòu)示意圖,與圖1所示的流程相對(duì)應(yīng),預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;該分類(lèi)裝置可以包括:獲得模塊201,確定模塊202。
[0055]獲得模塊201,用于針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖;
[0056]具體的,獲得模塊201,可以包括:分段子模塊和獲得子模塊(圖中未示出);
[0057]分段子模塊,用于針對(duì)待分類(lèi)的目標(biāo)音頻文件,將所述目標(biāo)音頻文件進(jìn)行分段;
[0058]獲得子模塊,用于分別獲得每一段音頻文件的語(yǔ)譜圖。
[0059 ]具體的,所述獲得子模塊,具體可以用于:
[0060]分別針對(duì)每一段音頻文件,針對(duì)所述段音頻文件的每一音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;根據(jù)所述段音頻文件的每一音頻幀的頻譜值,生成所述段音頻文件的語(yǔ)譜圖。
[0061 ]確定模塊202,用于根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。
[0062]具體的,確定模塊202,具體可以用于:
[0063]利用神經(jīng)網(wǎng)絡(luò),根據(jù)所述每一段音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定每一段音頻文件的類(lèi)別;根據(jù)所有段音頻文件的類(lèi)別,確定所述目標(biāo)音頻文件的類(lèi)別。
[0064]具體的,所述神經(jīng)網(wǎng)絡(luò)可以為:卷積神經(jīng)網(wǎng)絡(luò)。
[0065]可見(jiàn),利用目標(biāo)音頻文件的語(yǔ)譜圖和每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定目標(biāo)音頻文件的類(lèi)別,不涉及音頻特征提取與選擇的復(fù)雜過(guò)程,從而實(shí)現(xiàn)通過(guò)語(yǔ)譜圖對(duì)音頻文件進(jìn)行分類(lèi)。
[0066]需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0067]本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0068]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱(chēng)得的存儲(chǔ)介質(zhì),如:R0M/RAM、磁碟、光盤(pán)等。
[0069]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種音頻文件的分類(lèi)方法,其特征在于,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;所述方法包括: 針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖; 根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)首頻文件的類(lèi)別。2.根據(jù)權(quán)利要求1所述的方法,所述針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖,包括: 針對(duì)待分類(lèi)的目標(biāo)音頻文件,將所述目標(biāo)音頻文件進(jìn)行分段; 分別獲得每一段音頻文件的語(yǔ)譜圖。3.根據(jù)權(quán)利要求2所述的方法,所述根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別,包括: 利用神經(jīng)網(wǎng)絡(luò),根據(jù)所述每一段音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定每一段音頻文件的類(lèi)別; 根據(jù)所有段音頻文件的類(lèi)別,確定所述目標(biāo)音頻文件的類(lèi)別。4.根據(jù)權(quán)利要求2所述的方法,所述分別獲得每一段音頻文件的語(yǔ)譜圖,包括: 分別針對(duì)每一段音頻文件,針對(duì)所述段音頻文件的每一音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值; 根據(jù)所述段音頻文件的每一音頻幀的頻譜值,生成所述段音頻文件的語(yǔ)譜圖。5.根據(jù)權(quán)利要求3所述的方法,所述神經(jīng)網(wǎng)絡(luò)為: 卷積神經(jīng)網(wǎng)絡(luò)。6.一種音頻文件的分類(lèi)裝置,其特征在于,預(yù)先將音樂(lè)進(jìn)行分類(lèi),并獲得每一類(lèi)音樂(lè)的語(yǔ)譜圖;所述裝置包括: 獲得模塊,用于針對(duì)待分類(lèi)的目標(biāo)音頻文件,獲得所述目標(biāo)音頻文件的語(yǔ)譜圖; 確定模塊,用于根據(jù)所述目標(biāo)音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定所述目標(biāo)音頻文件的類(lèi)別。7.根據(jù)權(quán)利要求6所述的裝置,所述獲得模塊,包括: 分段子模塊,用于針對(duì)待分類(lèi)的目標(biāo)音頻文件,將所述目標(biāo)音頻文件進(jìn)行分段; 獲得子模塊,用于分別獲得每一段音頻文件的語(yǔ)譜圖。8.根據(jù)權(quán)利要求7所述的裝置,所述確定模塊,具體用于: 利用神經(jīng)網(wǎng)絡(luò),根據(jù)所述每一段音頻文件的語(yǔ)譜圖以及所述每一類(lèi)音樂(lè)的語(yǔ)譜圖的相似性,確定每一段音頻文件的類(lèi)別; 根據(jù)所有段音頻文件的類(lèi)別,確定所述目標(biāo)音頻文件的類(lèi)別。9.根據(jù)權(quán)利要求7所述的裝置,所述獲得子模塊,具體用于: 分別針對(duì)每一段音頻文件,針對(duì)所述段音頻文件的每一音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值; 根據(jù)所述段音頻文件的每一音頻幀的頻譜值,生成所述段音頻文件的語(yǔ)譜圖。10.根據(jù)權(quán)利要求8所述的裝置,所述神經(jīng)網(wǎng)絡(luò)為: 卷積神經(jīng)網(wǎng)絡(luò)。
【文檔編號(hào)】G06F17/30GK105895110SQ201610512234
【公開(kāi)日】2016年8月24日
【申請(qǐng)日】2016年6月30日
【發(fā)明人】黃瑛, 蘭細(xì)鵬, 胡明清, 王濤
【申請(qǐng)人】北京奇藝世紀(jì)科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1