情況下,也可根據(jù)算法、復雜度、準確度等要求采用其他分詞器、以其他分 詞速度進行分詞。
[0043] 為了體現(xiàn)出不同平臺的特色或獨家版權音頻文件的打標簽需求,采用分詞器進行 分詞時,還可根據(jù)平臺特色詞語、節(jié)目名稱、網絡詞語等新詞匯,對分詞器詞庫進行擴展,再 采用擴展后的分詞器對音頻文件的內容中包含的文字信息進行分詞。
[0044] 步驟S3的具體實施流程如下:
[0045] S31,將音頻文件的內容中包含的文字信息劃分為若干個分詞;
[0046] S32,過濾分詞中的停用詞和標點符號,得到有用詞語;
[0047] S33,計算各有用詞語的詞頻和逆文檔頻率;
[0048] S34,根據(jù)所述詞頻和逆文檔頻率計算各詞語的TF-IDF值;
[0049] S35,根據(jù)所述TF-IDF值的大小獲取所述音頻文件的關鍵詞。
[0050] 其中,所述詞頻(Term Frequency,TF)表示一首歌曲中某個詞語出現(xiàn)的頻率,所述 逆文檔頻率(term frequency-inverse document frequency,IDF)表不每個詞的重要性 權重。
[0051] 各詞語的詞頻和逆文檔頻率分別根據(jù)以下公式計算:
[0052] .(. I ):
[0053] (2 )
[0054] 所述逆文檔頻率的計算方式為:
[0055] tfidfi j= tf ^jXidfi (3)
[0056] 式中,七匕^表示從第j個音頻文件中獲取的第i個不重復的有用詞語t ^勺詞頻; Iili j表示從第j個音頻文件中獲取的有用詞語t i的數(shù)量;Σ knki ^表示從第j個音頻文件中 獲取的所有有用詞語的出現(xiàn)次數(shù)之和,1(1匕表示詞語、的逆文檔頻率,|D|為音頻文件庫中 的文字信息的總數(shù),I Ult1E d,} I為音頻文件庫中包含詞語h的文字信息的數(shù)量,tfidf U 為第i個不重復的有用詞語t在第j個音頻文件中的TF-IDF值。
[0057] 舉例來說,假如一個音頻文件的總詞語數(shù)是100個,而詞語"母牛"出現(xiàn)了 3次,那 么"母牛"一詞在該音頻文件中的詞頻就是0. 03(3/100);如果"母牛"一詞在音頻文件庫的 1,000個音頻文件中出現(xiàn)過,而音頻文件庫中的音頻文件總數(shù)是10, 000, 000的話,其逆向 音頻文件頻率就是 4 (log (10, 000, 000/1,000))。最后的 TF-IDF 值為 0· 12(0. 03*4)。
[0058] 其他詞語的TF-IDF值計算方法與上述方法相同,此處不再贅述。
[0059] 可根據(jù)各詞語的TF-IDF值來選擇音頻文件的關鍵詞。例如,可抽取出TF-IDF值 排列前3的詞語作為音頻文件的關鍵詞。根據(jù)實際需要,也可選擇TF-IDF值排列前2或前 4的詞語作為音頻文件的關鍵詞。
[0060] 在一個實施例中,可根據(jù)以下方式計算I IJit1G d』I :
[0061] 從逆文檔頻率庫中查詢包含有用詞語h的文字信息;
[0062] 如果未查詢到,則將包含有用詞語^的文字信息的記錄插入到逆文檔頻率庫中, 并令 I Uzt1E d J I 為 1;否則,將 I Uzt1E d J I 加 1。
[0063] 在一個實施例中,如果根據(jù)步驟S4未查詢到音頻文件的關鍵詞對應的標簽,還可 執(zhí)行以下操作:
[0064] 查詢生詞庫中是否含有所述生詞;
[0065] 如果含有,則將生詞庫中所述生詞的數(shù)量加1 ;否則,將所述生詞插入到生詞庫 中,并將該關鍵詞的數(shù)量設為1。
[0066] 例如,音頻文件的分詞結果中包含"母牛"一詞,而在常用關鍵詞-標簽關系中未 查詢到"母牛"一詞對應的標簽,則查詢生詞庫中是否含有"母牛"一詞。如果生詞庫中含 有"母牛"一詞,且"母牛" 一詞的數(shù)量為2,則將"母牛" 一詞的數(shù)量加1,得到"母牛"一詞 的數(shù)量為3 ;如果生詞庫中不包含"母牛"一詞,則將"母牛"一詞添加到生詞庫中,并將"母 牛"一詞的數(shù)量設為1。
[0067] 在一個實施例中,還可為音頻文件關聯(lián)用戶群標簽。具體方式如下:
[0068] 根據(jù)用戶特征將音頻文件的用戶分為多個用戶群;
[0069] 為音頻文件建立并關聯(lián)用戶群標簽,所述用戶群標簽的初始值設為空;其中,所述 用戶群標簽表示音頻文件的用戶所屬的用戶群;
[0070] 根據(jù)音頻文件在不同用戶群中的播放時長和播放次數(shù),統(tǒng)計音頻文件在不同用戶 群中的關注度;
[0071] 將關注度最高的用戶群標簽設為所述音頻文件的用戶群標簽。
[0072] 所述用戶特征包括年齡、性別、職業(yè)等。例如,可根據(jù)用戶年齡將用戶群分為"80 后"、"90后";或分為"青少年"、"中老年"等類別;還可根據(jù)用戶性別將用戶群分為"男"、 "女"。
[0073] 以用戶群分為"80后"、"90后"為例,如果某音頻文件在"80后"集合中的關注度 最高,則為該音頻文件插入"80后"用戶群標簽。
[0074] 為保證上述結果的準確性,可每隔一段時間執(zhí)行一次用戶群分析任務,例如,可每 隔一周執(zhí)行一次用戶群分析任務;又例如,還可每隔一個月執(zhí)行一次用戶群分析任務。
[0075] 可根據(jù)以下方式分別統(tǒng)計所述音頻文件在不同用戶群中的關注度:
[0076] P1= T1Z(T0ilXT1),
[0077] 式中,P1表示音頻文件在第i個用戶群中的關注度,T i表示音頻文件在第i個用 戶群中的總播放時長,Iai表示音頻文件在第i個用戶群中的播放次數(shù),T 1表示音頻文件的 時長。
[0078] 當用戶播放所述音頻文件時,記錄用戶對所述音頻文件的播放時長,將所述播放 時長累計到對應用戶群中所述音頻文件的播放時長記錄中,并將對應用戶群中所述音頻文 件的播放次數(shù)加1。
[0079] 上述音頻文件標簽生成方法具有以下優(yōu)點:
[0080] 1)對首頻文件標簽進彳丁關聯(lián),節(jié)約了人力和時間,效率尚;
[0081] 2)可根據(jù)平臺特色詞語、節(jié)目名稱、網絡詞語等新詞匯,對分詞器詞庫進行擴展, 能夠體現(xiàn)出不同平臺的特色或獨家版權音頻文件的打標簽需求;
[0082] 3)米用統(tǒng)一規(guī)范進彳丁標簽關聯(lián),準確性尚。
[0083] 下面結合附圖對本發(fā)明的音頻文件標簽生成系統(tǒng)的實施例做進一步的描述。
[0084] 如圖3所示,本發(fā)明的音頻文件標簽生成系統(tǒng)包括:
[0085] 標簽生成服務器10、音頻文件展示服務器20、音頻文件數(shù)據(jù)庫服務器30、系統(tǒng)管 理服務器40 ;
[0086] 標簽生成服務器10根據(jù)音頻文件數(shù)據(jù)庫服務器30中的數(shù)據(jù)為音頻文件關聯(lián)標 簽;
[0087] 音頻文件展示服務器20根據(jù)用戶操作從音頻文件數(shù)據(jù)庫服務器30中提取數(shù)據(jù), 并將所述數(shù)據(jù)展示到客戶端;
[0088] 系統(tǒng)管理服務器40提供音頻文件數(shù)據(jù)管理服務。
[0089] 其中,所述音頻文件數(shù)據(jù)庫服務器30包括:
[0090] 音頻文件庫301、標簽庫302、生詞庫303、逆文檔頻率庫304、用戶信息庫305 ;
[0091] 音頻文件庫301保存系統(tǒng)管理服務器40錄入的音頻文件及音頻文件的內容中包 含的文字信息;標簽生成服務器10生成的音頻文件-標簽關系;用戶信息庫生成的音頻文 件被播放記錄;其中,所述音頻文件-標簽關系表示音頻文件與對應標簽的對應關系;
[0092] 標簽庫302中保存系統(tǒng)管理服務器40錄入的標簽、關鍵詞、關鍵詞-標簽關系,以 及標簽生成服務器10生成的音頻文件-標簽關系;其中,所述關鍵詞-標簽關系表示關鍵 詞與對應標簽的關聯(lián)關系;
[0093]