音頻文件標(biāo)簽生成方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及應(yīng)用服務(wù)技術(shù)領(lǐng)域,特別是涉及一種音頻文件標(biāo)簽生成方法和系統(tǒng)。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展及大眾對(duì)于信息接收方式的改變,網(wǎng)絡(luò)上的音頻文件數(shù)量呈 爆炸式增長(zhǎng)。以數(shù)字音樂為例,截至2014年底,中國(guó)互聯(lián)網(wǎng)音樂用戶已達(dá)4. 78億,日均下 載超過(guò)2億次,并且預(yù)計(jì)在未來(lái)的兩到三年間,音樂網(wǎng)民用戶數(shù)將突破6億,全年下載量將 超過(guò)1000億次。同時(shí),已有的音樂數(shù)以億計(jì),而目前主流各數(shù)字音樂平臺(tái),音樂收入量都在 百萬(wàn)以上。面對(duì)如此龐大的用戶量和音頻文件量,一個(gè)亟待解決的關(guān)鍵問題就是如何更準(zhǔn) 確地將滿足用戶需要的音頻文件批量展示出來(lái),以提高用戶體驗(yàn)。一種常用的方式是為音 頻文件添加標(biāo)簽。
[0003]目前的音頻文件標(biāo)簽生成平臺(tái)一般包括三種方式:
[0004] 1、人工配置標(biāo)簽;
[0005] 2、爬取互聯(lián)網(wǎng)標(biāo)簽,即采用爬蟲程序?qū)⑵渌脚_(tái)為音頻文件配置的標(biāo)簽?zāi)脕?lái)為自 己所用。
[0006] 3、用戶參與,即用戶根據(jù)自己的判斷上傳為音頻文件配置的標(biāo)簽,程序根據(jù)標(biāo)簽 統(tǒng)計(jì)來(lái)篩選最合適的標(biāo)簽。
[0007] 然而,人工配置標(biāo)簽的方式效率低,而從互聯(lián)網(wǎng)爬取標(biāo)簽或用戶上傳標(biāo)簽的方式 準(zhǔn)確率低。
【發(fā)明內(nèi)容】
[0008] 基于此,有必要針對(duì)現(xiàn)有技術(shù)效率低、準(zhǔn)確率低的問題,提供一種音頻文件標(biāo)簽生 成方法和系統(tǒng)。
[0009] -種音頻文件標(biāo)簽生成方法,包括以下步驟:
[0010] 將需要進(jìn)行標(biāo)簽設(shè)置的音頻文件及音頻文件的內(nèi)容中包含的文字信息錄入音頻 文件庫(kù)、將常用標(biāo)簽錄入標(biāo)簽庫(kù)、將常用關(guān)鍵詞錄入關(guān)鍵詞庫(kù);
[0011] 根據(jù)常用關(guān)鍵詞與常用標(biāo)簽的關(guān)聯(lián)程度,為常用關(guān)鍵詞設(shè)置標(biāo)簽,得到常用關(guān)鍵 詞-標(biāo)簽關(guān)系;其中,所述關(guān)鍵詞-標(biāo)簽關(guān)系表示關(guān)鍵詞與對(duì)應(yīng)標(biāo)簽之間的對(duì)應(yīng)關(guān)系;
[0012] 對(duì)所述文字信息進(jìn)行分詞,得到若干個(gè)詞語(yǔ),計(jì)算各詞語(yǔ)的TF-IDF值,并根據(jù) TF-IDF值的大小獲取所述音頻文件的關(guān)鍵詞;其中,所述TF-IDF值表示詞語(yǔ)的詞頻與逆文 檔頻率的乘積;
[0013] 根據(jù)常用關(guān)鍵詞-標(biāo)簽關(guān)系查詢音頻文件的關(guān)鍵詞對(duì)應(yīng)的標(biāo)簽;若查詢到對(duì)應(yīng)標(biāo) 簽,將首頻文件與對(duì)應(yīng)標(biāo)簽進(jìn)彳T關(guān)聯(lián);
[0014] 為生詞生成新標(biāo)簽,并關(guān)聯(lián)所述生詞與所述新標(biāo)簽,將所述新標(biāo)簽設(shè)為音頻文件 的標(biāo)簽;其中,所述生詞為未查詢到對(duì)應(yīng)標(biāo)簽的音頻文件的關(guān)鍵詞。
[0015] 上述音頻文件標(biāo)簽生成方法,通過(guò)對(duì)音頻文件的內(nèi)容中包含的文字信息進(jìn)行分 詞,計(jì)算各詞語(yǔ)的TF-IDF值的大小從而獲取所述音頻文件的關(guān)鍵詞,根據(jù)常用關(guān)鍵詞-標(biāo) 簽關(guān)系查詢音頻文件的關(guān)鍵詞對(duì)應(yīng)的標(biāo)簽;若查詢到對(duì)應(yīng)標(biāo)簽,將音頻文件與對(duì)應(yīng)標(biāo)簽進(jìn) 行關(guān)聯(lián);否則,將音頻文件的關(guān)鍵詞加入生詞庫(kù),為生詞庫(kù)中的生詞生成新標(biāo)簽,并關(guān)聯(lián)所 述生詞與所述新標(biāo)簽,將所述新標(biāo)簽設(shè)為音頻文件的標(biāo)簽,執(zhí)行效率高,結(jié)果準(zhǔn)確性高。
[0016] -種音頻文件標(biāo)簽生成系統(tǒng),包括:
[0017] 標(biāo)簽生成服務(wù)器、音頻文件展示服務(wù)器、音頻文件數(shù)據(jù)庫(kù)服務(wù)器、系統(tǒng)管理服務(wù) 器;
[0018] 標(biāo)簽生成服務(wù)器根據(jù)音頻文件數(shù)據(jù)庫(kù)服務(wù)器中的音頻文件及音頻文件的內(nèi)容中 包含的文字信息為音頻文件關(guān)聯(lián)標(biāo)簽;
[0019] 音頻文件展示服務(wù)器根據(jù)用戶操作從音頻文件數(shù)據(jù)庫(kù)服務(wù)器中提取音頻文件的 數(shù)據(jù),并將所述數(shù)據(jù)展示到客戶端;
[0020] 系統(tǒng)管理服務(wù)器提供音頻文件數(shù)據(jù)管理服務(wù)。
[0021] 上述音頻文件標(biāo)簽生成系統(tǒng),通過(guò)標(biāo)簽生成服務(wù)器根據(jù)音頻文件數(shù)據(jù)庫(kù)服務(wù)器中 的音頻文件及音頻文件的內(nèi)容中包含的文字信息為音頻文件關(guān)聯(lián)標(biāo)簽;通過(guò)音頻文件展示 服務(wù)器根據(jù)用戶操作從音頻文件數(shù)據(jù)庫(kù)服務(wù)器中提取音頻文件的數(shù)據(jù),并將所述數(shù)據(jù)展示 到客戶端;并通過(guò)系統(tǒng)管理服務(wù)器提供音頻文件數(shù)據(jù)管理服務(wù),提供了一種智能化的歌曲 標(biāo)簽生成系統(tǒng),提高了標(biāo)簽生成的效率和準(zhǔn)確性。
【附圖說(shuō)明】
[0022] 圖1為一個(gè)實(shí)施例的音頻文件標(biāo)簽生成方法流程圖;
[0023] 圖2為一個(gè)實(shí)施例的TF-IDF值計(jì)算方法流程圖;
[0024] 圖3為一個(gè)實(shí)施例的音頻文件標(biāo)簽生成系統(tǒng)的結(jié)構(gòu)示意圖;
[0025] 圖4為一個(gè)實(shí)施例的音頻文件庫(kù)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0026] 下面結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步描述。
[0027] 如圖1所示,本發(fā)明的音頻文件標(biāo)簽生成方法包括以下步驟:
[0028] S1,將需要進(jìn)行標(biāo)簽設(shè)置的音頻文件及音頻文件的內(nèi)容中包含的文字信息錄入音 頻文件庫(kù)、將常用標(biāo)簽錄入標(biāo)簽庫(kù)、將常用關(guān)鍵詞錄入關(guān)鍵詞庫(kù);
[0029] S2,根據(jù)常用關(guān)鍵詞與常用標(biāo)簽的關(guān)聯(lián)程度,為常用關(guān)鍵詞設(shè)置標(biāo)簽,得到常用關(guān) 鍵詞-標(biāo)簽關(guān)系;其中,所述關(guān)鍵詞-標(biāo)簽關(guān)系表示關(guān)鍵詞與對(duì)應(yīng)標(biāo)簽之間的對(duì)應(yīng)關(guān)系;
[0030] S3,對(duì)所述文字信息進(jìn)行分詞,得到若干個(gè)詞語(yǔ),計(jì)算各詞語(yǔ)的TF-IDF值,并根據(jù) TF-IDF值的大小獲取所述音頻文件的關(guān)鍵詞;其中,所述TF-IDF值表示詞語(yǔ)的詞頻與逆文 檔頻率的乘積;
[0031] S4,根據(jù)常用關(guān)鍵詞-標(biāo)簽關(guān)系查詢音頻文件的關(guān)鍵詞對(duì)應(yīng)的標(biāo)簽;若查詢到對(duì) 應(yīng)標(biāo)簽,將首頻文件與對(duì)應(yīng)標(biāo)簽進(jìn)彳T關(guān)聯(lián);
[0032] S5,為生詞生成新標(biāo)簽,并關(guān)聯(lián)所述生詞與所述新標(biāo)簽,將所述新標(biāo)簽設(shè)為音頻文 件的標(biāo)簽;其中,所述生詞為未查詢到對(duì)應(yīng)標(biāo)簽的音頻文件的關(guān)鍵詞。
[0033] 在步驟Sl中,可將音頻文件及音頻文件的內(nèi)容中包含的文字信息錄入音頻文件 庫(kù),以錄入歌曲為例,可將歌曲的歌詞錄入音頻文件庫(kù),也可根據(jù)實(shí)際需要將歌曲名稱、發(fā) 布時(shí)間、點(diǎn)擊數(shù)、專輯名稱、收聽用戶群體等錄入音頻文件庫(kù)。另外,還可將常用標(biāo)簽錄入標(biāo) 簽庫(kù)、將常用關(guān)鍵詞錄入關(guān)鍵詞庫(kù)。
[0034] 其中,所述音頻文件庫(kù)可包括標(biāo)簽生成服務(wù)器、音頻文件展示服務(wù)器、音頻文件數(shù) 據(jù)庫(kù)服務(wù)器、系統(tǒng)管理服務(wù)器;其中,標(biāo)簽生成服務(wù)器可根據(jù)音頻文件數(shù)據(jù)庫(kù)服務(wù)器中的音 頻文件及音頻文件的內(nèi)容中包含的文字信息為音頻文件關(guān)聯(lián)標(biāo)簽;音頻文件展示服務(wù)器可 根據(jù)用戶操作從音頻文件數(shù)據(jù)庫(kù)服務(wù)器中提取音頻文件的數(shù)據(jù),并將所述數(shù)據(jù)展示到客戶 端;系統(tǒng)管理服務(wù)器可提供音頻文件數(shù)據(jù)管理服務(wù)。
[0035] 在步驟S2中,可根據(jù)常用關(guān)鍵詞與常用標(biāo)簽的關(guān)聯(lián)程度,為常用關(guān)鍵詞設(shè)置標(biāo) 簽,得到常用關(guān)鍵詞-標(biāo)簽關(guān)系;其中,所述關(guān)鍵詞-標(biāo)簽關(guān)系表示關(guān)鍵詞與對(duì)應(yīng)標(biāo)簽之間 的對(duì)應(yīng)關(guān)系。
[0036] 仍以音頻文件是歌曲為例,常用標(biāo)簽可包括演唱曲風(fēng)、語(yǔ)種等;常用關(guān)鍵詞可包 括流行歌曲、民族歌曲、日韓歌曲、歐美歌曲等。相應(yīng)地,為上述關(guān)鍵詞關(guān)聯(lián)標(biāo)簽時(shí),可將關(guān) 鍵詞流行歌曲、民族歌曲與演唱曲風(fēng)標(biāo)簽關(guān)聯(lián),將關(guān)鍵詞日韓歌曲、歐美歌曲與語(yǔ)種標(biāo)簽關(guān) 聯(lián)。
[0037] 在步驟S3中,可采用分詞器對(duì)音頻文件的的內(nèi)容中包含的文字信息進(jìn)行分詞。例 如,采用jcseg分詞器。jcseg分詞器提供如下三種切分模式:
[0038] (1)簡(jiǎn)易模式:FMM ((Forward Maximum Matching Method,正向最大匹配)算法, 適合速度要求場(chǎng)合。
[0039] (2)復(fù)雜模式:MMSEG四種過(guò)濾算法,具有較高的岐義去除,分詞準(zhǔn)確率可達(dá)到 98. 41%,同時(shí)會(huì)匹配出同義詞。
[0040] (3)檢測(cè)模式:只返回詞庫(kù)中已有的詞條,很適合某些應(yīng)用場(chǎng)合。
[0041] 可根據(jù)實(shí)際情況選擇不同的切分模式。例如,為了更準(zhǔn)確地配置標(biāo)簽,可采用復(fù)雜 模式,可以479338字/秒,1324. 4KB/秒的分詞速度進(jìn)行分詞。
[0042] 在實(shí)際