本公開涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種設(shè)置標(biāo)簽信息的方法及裝置。
背景技術(shù):
隨著信息時代的到來,服務(wù)器中存儲的視頻文件越來越多,用戶從服務(wù)器中獲取用戶感興趣的視頻文件的難度越來越大。為了降低難度,服務(wù)器可以為視頻文件設(shè)置標(biāo)簽信息,從而用戶可以根據(jù)視頻文件的標(biāo)簽信息從服務(wù)器中選擇用戶感興趣的視頻文件。
目前,通常由人工觀看視頻文件,定義該視頻文件的標(biāo)簽信息,從而實現(xiàn)為該視頻文件設(shè)置標(biāo)簽信息;該標(biāo)簽信息包括該視頻文件所屬的主題信息,例如,該標(biāo)簽信息可以為情感或者喜劇等。
技術(shù)實現(xiàn)要素:
為克服相關(guān)技術(shù)中存在的問題,本公開提供一種設(shè)置標(biāo)簽信息的方法及裝置,所述技術(shù)方案如下:
根據(jù)本公開實施例的第一方面,提供一種設(shè)置標(biāo)簽信息的方法,所述方法包括:
獲取目標(biāo)多媒體文件的字幕信息;
對所述字幕信息進行分詞,得到第一關(guān)鍵詞集合;
對所述第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到所述目標(biāo)多媒體文件的標(biāo)簽信息;
為所述目標(biāo)多媒體文件設(shè)置所述標(biāo)簽信息。
在本公開實施例中,通過對目標(biāo)多媒體文件的字幕信息進行語義分析,提取目標(biāo)多媒體文件的標(biāo)簽信息,為該目標(biāo)多媒體文件設(shè)置該標(biāo)簽信息。從而不僅提高了設(shè)置標(biāo)簽信息的效率,還提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
在一種可能實現(xiàn)方式中,所述對所述第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到所述目標(biāo)多媒體文件的標(biāo)簽信息,包括:
獲取所述每個關(guān)鍵詞在所述字幕信息中的概率,以及,獲取所述每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,所述主題信息庫用于存儲多個預(yù)設(shè)的主題信息;
根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率和所述每個關(guān)鍵詞屬于每個主題信息的概率,確定所述目標(biāo)多媒體文件屬于所述每個主題信息的概率;
根據(jù)所述目標(biāo)多媒體文件屬于所述每個主題信息的概率,從所述每個主題信息中選擇概率最大的預(yù)設(shè)數(shù)目個主題信息;
將選擇的預(yù)設(shè)數(shù)目個主題信息組成所述目標(biāo)多媒體文件的標(biāo)簽信息。
在本公開實施例中,根據(jù)每個關(guān)鍵詞在該字幕信息中的概率和每個關(guān)鍵詞屬于每個主題信息的概率,確定目標(biāo)多媒體文件屬于每個主題信息的概率;根據(jù)目標(biāo)多媒體文件屬于每個主題信息的概率,從每個主題信息中選擇概率最大的預(yù)設(shè)數(shù)目個主題信息,從而提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
在一種可能實現(xiàn)方式中,所述根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率和所述每個關(guān)鍵詞屬于每個主題信息的概率,確定所述目標(biāo)多媒體文件屬于所述每個主題信息的概率,包括:
將所述每個關(guān)鍵詞在所述字幕信息中的概率組成第一概率矩陣,以及,將所述每個關(guān)鍵詞屬于每個主題信息的概率組成第二概率矩陣;
將所述第二概率矩陣的逆矩陣與所述第一概率矩陣相乘,得到第三概率矩陣;
從所述第三概率矩陣中獲取所述目標(biāo)多媒體文件屬于所述每個主題信息的概率。
在本公開實施例中,將每個關(guān)鍵詞在該字幕信息中的概率組成第一概率矩陣,將每個關(guān)鍵詞屬于每個主題信息的概率組成第二概率矩陣,根據(jù)第一概率矩陣和第二概率矩陣,確定該目標(biāo)多媒體文件屬于每個主題信息的概率,提高了確定出該目標(biāo)多媒體文件屬于每個主題信息的概率的準(zhǔn)確性,進而提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
在一種可能實現(xiàn)方式中,所述獲取所述每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,包括:
對于所述每個主題信息,獲取所述主題信息對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合;
根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率、所述預(yù)設(shè)關(guān)鍵詞集合和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定所述每個關(guān)鍵詞屬于所述主題信息的概率。
在一種可能實現(xiàn)方式中,所述根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率、所述預(yù)設(shè)關(guān)鍵詞集合和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定所述每個關(guān)鍵詞屬于所述主題信息的概率,包括:
如果所述預(yù)設(shè)關(guān)鍵詞集合中包含所述每個關(guān)鍵詞,將所述每個關(guān)鍵詞在所述字幕信息中的概率和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目的比值作為所述每個關(guān)鍵詞屬于所述主題信息的概率;
如果所述預(yù)設(shè)關(guān)鍵詞集合中不包含所述每個關(guān)鍵詞,確定所述每個關(guān)鍵詞屬于所述主題信息的概率為零。
在本公開實施例中,將每個關(guān)鍵詞在該字幕信息中的概率和預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目的比值作為每個關(guān)鍵詞屬于該主題信息的概率,由于結(jié)合了每個關(guān)鍵詞在該字幕信息中的概率,確定每個關(guān)鍵字屬于該主題信息的概率,提高了確定出每個關(guān)鍵詞屬于該主題信息的概率的準(zhǔn)確性,進而提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
在一種可能實現(xiàn)方式中,所述對所述字幕信息進行分詞,得到第一關(guān)鍵詞集合,包括:
對所述字幕信息進行分詞,將所述字幕信息包括的每個分詞組成第二關(guān)鍵詞集合;
將所述第二關(guān)鍵詞集合中預(yù)設(shè)類型的關(guān)鍵詞去除,得到所述第一關(guān)鍵字集合。
在本公開實施例中,將第二關(guān)鍵詞集合中預(yù)設(shè)類型的關(guān)鍵詞去除,不僅降低了運算量,還提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
根據(jù)本公開實施例的第二方面,提供一種設(shè)置標(biāo)簽信息的裝置,所述裝置包括:
獲取模塊,用于獲取目標(biāo)多媒體文件的字幕信息;
分詞模塊,用于對所述字幕信息進行分詞,得到第一關(guān)鍵詞集合;
分析模塊,用于對所述第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到所述目標(biāo)多媒體文件的標(biāo)簽信息;
設(shè)置模塊,用于為所述目標(biāo)多媒體文件設(shè)置所述標(biāo)簽信息。
在一種可能實現(xiàn)方式中,所述分析模塊,包括:
第一獲取單元,用于獲取所述每個關(guān)鍵詞在所述字幕信息中的概率;
第二獲取單元,用于獲取所述每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,所述主題信息庫用于存儲多個預(yù)設(shè)的主題信息;
確定單元,用于根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率和所述每個關(guān)鍵詞屬于每個主題信息的概率,確定所述目標(biāo)多媒體文件屬于所述每個主題信息的概率;
選擇單元,用于根據(jù)所述目標(biāo)多媒體文件屬于所述每個主題信息的概率,從所述每個主題信息中選擇概率最大的預(yù)設(shè)數(shù)目個主題信息;
第一組成單元,用于將選擇的預(yù)設(shè)數(shù)目個主題信息組成所述目標(biāo)多媒體文件的標(biāo)簽信息。
在一種可能實現(xiàn)方式中,所述確定單元,還用于將所述每個關(guān)鍵詞在所述字幕信息中的概率組成第一概率矩陣,以及,將所述每個關(guān)鍵詞屬于每個主題信息的概率組成第二概率矩陣,將所述第二概率矩陣的逆矩陣與所述第一概率矩陣相乘,得到第三概率矩陣,從所述第三概率矩陣中獲取所述目標(biāo)多媒體文件屬于所述每個主題信息的概率。
在一種可能實現(xiàn)方式中,所述第二獲取單元,還用于對于所述每個主題信息,獲取所述主題信息對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合,根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率、所述預(yù)設(shè)關(guān)鍵詞集合和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定所述每個關(guān)鍵詞屬于所述主題信息的概率。
在一種可能實現(xiàn)方式中,所述第二獲取單元,還用于,如果所述預(yù)設(shè)關(guān)鍵詞集合中包含所述每個關(guān)鍵詞,將所述每個關(guān)鍵詞在所述字幕信息中的概率和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目的比值作為所述每個關(guān)鍵詞屬于所述主題信息的概率,如果所述預(yù)設(shè)關(guān)鍵詞集合中不包含所述每個關(guān)鍵詞,確定所述每個關(guān)鍵詞屬于所述主題信息的概率為零。
在一種可能實現(xiàn)方式中,所述分詞模塊,包括:
分詞單元,用于對所述字幕信息進行分詞;
第二組成單元,用于將所述字幕信息包括的每個分詞組成第二關(guān)鍵詞集合;
去除單元,用于將所述第二關(guān)鍵詞集合中預(yù)設(shè)類型的關(guān)鍵詞去除,得到所述第一關(guān)鍵字集合。
根據(jù)本公開實施例的第三方面,提供一種設(shè)置標(biāo)簽信息的裝置,所述裝置包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為:
獲取目標(biāo)多媒體文件的字幕信息;
對所述字幕信息進行分詞,得到第一關(guān)鍵詞集合;
對所述第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到所述目標(biāo)多媒體文件的標(biāo)簽信息;
為所述目標(biāo)多媒體文件設(shè)置所述標(biāo)簽信息。
本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
在本公開實施例中,通過對目標(biāo)多媒體文件的字幕信息進行語義分析,提取目標(biāo)多媒體文件的標(biāo)簽信息,為該目標(biāo)多媒體文件設(shè)置該標(biāo)簽信息。從而不僅提高了設(shè)置標(biāo)簽信息的效率,還提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
圖1是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的方法的流程圖;
圖2是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的方法的流程圖;
圖3是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的裝置的框圖;
圖4是根據(jù)一示例性實施例示出的一種分析模塊的框圖;
圖5是根據(jù)一示例性實施例示出的一種分詞模塊的框圖;
圖6是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的裝置的框圖。
具體實施方式
為使本公開的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本公開實施方式作進一步地詳細(xì)描述。
這里將詳細(xì)地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
為了降低用戶從服務(wù)器中獲取用戶感興趣的視頻文件的難度,服務(wù)器需要為服務(wù)器中的視頻文件設(shè)置標(biāo)簽信息,該標(biāo)簽信息可以包括視頻文件所屬的主題信息等。從而用戶可以根據(jù)視頻文件的標(biāo)簽信息從服務(wù)器中選擇用戶感興趣的視頻文件。
在相關(guān)技術(shù)中,通常由人工觀看視頻文件,定義視頻文件的標(biāo)簽信息,從而實現(xiàn)為該視頻文件設(shè)置標(biāo)簽信息;然而服務(wù)器中的視頻文件的數(shù)量非常大,并且每個視頻文件的時長比較長,通常為一百分鐘左右;因此用戶手動為視頻文件設(shè)置標(biāo)簽信息的效率低。并且,受用戶主觀因素的影響,導(dǎo)致用戶設(shè)置的標(biāo)簽信息不準(zhǔn)確。
在本公開實施例中,由服務(wù)器通過對多媒體文件的字幕信息進行語義分析,提取多媒體文件的標(biāo)簽信息,為該多媒體文件設(shè)置該標(biāo)簽信息。從而不僅提高了設(shè)置標(biāo)簽信息的效率,還提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
圖1是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的方法流程圖,該方法的執(zhí)行主體可以為服務(wù)器,如圖1所示,包括以下步驟。
在步驟S101中,獲取目標(biāo)多媒體文件的字幕信息。
在步驟S102中,對該字幕信息進行分詞,得到第一關(guān)鍵詞集合。
在步驟S103中,對第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到該目標(biāo)多媒體文件的標(biāo)簽信息。
在步驟S104中,為該目標(biāo)多媒體文件設(shè)置該標(biāo)簽信息。
在一種可能實現(xiàn)方式中,對第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到該目標(biāo)多媒體文件的標(biāo)簽信息,包括:
獲取每個關(guān)鍵詞在該字幕信息中的概率,以及,獲取每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,該主題信息庫用于存儲多個預(yù)設(shè)的主題信息;
根據(jù)每個關(guān)鍵詞在該字幕信息中的概率和每個關(guān)鍵詞屬于每個主題信息的概率,確定該目標(biāo)多媒體文件屬于每個主題信息的概率;
根據(jù)該目標(biāo)多媒體文件屬于每個主題信息的概率,從每個主題信息中選擇概率最大的預(yù)設(shè)數(shù)目個主題信息;
將選擇的預(yù)設(shè)數(shù)目個主題信息組成該目標(biāo)多媒體文件的標(biāo)簽信息。
在一種可能實現(xiàn)方式中,根據(jù)每個關(guān)鍵詞在該字幕信息中的概率和每個關(guān)鍵詞屬于每個主題信息的概率,確定該目標(biāo)多媒體文件屬于每個主題信息的概率,包括:
將每個關(guān)鍵詞在該字幕信息中的概率組成第一概率矩陣,以及,將每個關(guān)鍵詞屬于每個主題信息的概率組成第二概率矩陣;
將第二概率矩陣的逆矩陣與第一概率矩陣相乘,得到第三概率矩陣;
從第三概率矩陣中獲取該目標(biāo)多媒體文件屬于每個主題信息的概率。
在一種可能實現(xiàn)方式中,獲取每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,包括:
對于每個主題信息,獲取該主題信息對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合;
根據(jù)每個關(guān)鍵詞在該字幕信息中的概率、預(yù)設(shè)關(guān)鍵詞集合和預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定每個關(guān)鍵詞屬于該主題信息的概率。
在一種可能實現(xiàn)方式中,根據(jù)每個關(guān)鍵詞在該字幕信息中的概率、預(yù)設(shè)關(guān)鍵詞集合和預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定每個關(guān)鍵詞屬于該主題信息的概率,包括:
如果預(yù)設(shè)關(guān)鍵詞集合中包含每個關(guān)鍵詞,將每個關(guān)鍵詞在該字幕信息中的概率和預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目的比值作為每個關(guān)鍵詞屬于該主題信息的概率;
如果預(yù)設(shè)關(guān)鍵詞集合中不包含每個關(guān)鍵詞,確定每個關(guān)鍵詞屬于該主題信息的概率為零。
在一種可能實現(xiàn)方式中,對該字幕信息進行分詞,得到第一關(guān)鍵詞集合,包括:
對該字幕信息進行分詞,將該字幕信息包括的每個分詞組成第二關(guān)鍵詞集合;
將第二關(guān)鍵詞集合中預(yù)設(shè)類型的關(guān)鍵詞去除,得到第一關(guān)鍵字集合。
上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本公開的可選實施例,在此不再一一贅述。
圖2是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的方法流程圖,該方法的執(zhí)行主體可以為服務(wù)器,如圖2所示,包括以下步驟。
在步驟S201中,服務(wù)器獲取目標(biāo)多媒體文件的字幕信息。
服務(wù)器中存儲大量多媒體文件,服務(wù)器從大量多媒體文件中選擇一個未設(shè)置標(biāo)簽信息的多媒體文件作為目標(biāo)多媒體文件。并且,服務(wù)器中存儲了多媒體文件的標(biāo)識和字幕文件的對應(yīng)關(guān)系;相應(yīng)的,本步驟可以為:
服務(wù)器根據(jù)該目標(biāo)多媒體文件的標(biāo)識,從多媒體文件的標(biāo)識和字幕文件的對應(yīng)關(guān)系中獲取該目標(biāo)多媒體文件的字幕文件,從該目標(biāo)多媒體文件的字幕文件中獲取該目標(biāo)多媒體文件的字幕信息。
目標(biāo)多媒體文件可以為視頻文件或者音頻文件。該目標(biāo)多媒體文件的標(biāo)識可以為該目標(biāo)多媒體文件的名稱或者編號等。在本公開實施例中,對目標(biāo)多媒體文件的標(biāo)識不作具體限定。
在步驟S202中,服務(wù)器對該字幕信息進行分詞,得到第一關(guān)鍵詞集合。
在本步驟中,服務(wù)器可以對該字幕信息進行分詞,將該字幕信息包括的每個分詞組成第一關(guān)鍵詞集合;服務(wù)器也可以通過以下步驟(1)-(2),得到第一關(guān)鍵詞集合,包括:
(1):服務(wù)器對該字幕信息進行分詞,將該字幕信息包括的每個分詞組成第二關(guān)鍵詞集合。
服務(wù)器通過預(yù)設(shè)分詞工具,對該字幕信息進行分詞,得到該字幕信息包括的每個分詞,將該字幕信息包括的每個分詞組成第二關(guān)鍵詞集合。
例如,該字幕信息為“最了解你的人不是你的朋友,而是你的敵人?!眲t通過預(yù)設(shè)分詞工具,對該字幕信息進行分詞,得到該字幕信息包括的每個分詞為“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敵人”,則第二關(guān)鍵詞集合為{“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敵人”}。
預(yù)設(shè)分詞工具可以為StandardAnalyzer(標(biāo)準(zhǔn)化分詞工具),ChineseAnalyzer(中國分詞工具),CJKAnalyzer(CJK分詞工具)或者IKAnalyzer(IK分詞工具)。在本公開實施例中,對預(yù)設(shè)分詞工具不做具體限定。
由于“的”、“了”、“么”、“吧”、“啊”、“最”之類的關(guān)鍵詞對標(biāo)簽信息起不到關(guān)鍵作用;因此,為了減少運算量以及提高設(shè)置標(biāo)簽信息的準(zhǔn)確性,在本步驟中,服務(wù)器還可以通過以下步驟(2)將“的”、“了”、“么”、“吧”、“啊”、“最”之類的關(guān)鍵詞從第二關(guān)鍵詞集合中去除。
(2):服務(wù)器將第二關(guān)鍵詞集合中預(yù)設(shè)類型的關(guān)鍵詞去除,得到第一關(guān)鍵字集合。
預(yù)設(shè)類型的關(guān)鍵詞可以為語氣詞或者助詞等。則本步驟可以為:服務(wù)器標(biāo)注第二關(guān)鍵詞集合中的每個關(guān)鍵詞的詞性,根據(jù)第二關(guān)鍵詞集合中的每個關(guān)鍵詞,從第二關(guān)鍵詞集合中查找預(yù)設(shè)類型的關(guān)鍵詞,將預(yù)設(shè)類型的關(guān)鍵詞從第二關(guān)鍵詞集合中去除,得到第一關(guān)鍵詞集合。
例如,服務(wù)器將第二關(guān)鍵詞集合{“最”、“了解”、“你的”、“人”、“不是”、“你的”、“朋友”、“而是”、“你的”、“敵人”}中的“最”、“你的”、“人”、“不是”和“而是”去除,得到第一關(guān)鍵詞集合為{“了解”、“朋友”、“敵人”}。
在一個可能的實現(xiàn)方式中,由于第一關(guān)鍵詞集合中可能包含同義詞或者近義詞,例如,“首都”和“北京”是同義詞;因此,為了減少運算量,服務(wù)器得到第一關(guān)鍵詞集合之后,還可以將第一關(guān)鍵詞集合中的多個同義詞或者近義詞合并為一個關(guān)鍵詞。由于減少了第一關(guān)鍵詞集合中的關(guān)鍵詞的數(shù)量,因此,減少了服務(wù)器的運算量,進而提高了設(shè)置標(biāo)簽信息的效率。
在步驟S203中,服務(wù)器對第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到目標(biāo)多媒體文件的標(biāo)簽信息。
本步驟可以通過以下第一種方式或者第二種方式實現(xiàn);對于第一種實現(xiàn)方式,本步驟可以通過以下步驟(1)-(3)實現(xiàn),包括:
(1):服務(wù)器獲取每個關(guān)鍵詞在該字幕信息中的概率。
服務(wù)器獲取每個關(guān)鍵詞在該字幕信息中出現(xiàn)的出現(xiàn)次數(shù),計算每個關(guān)鍵詞的出現(xiàn)次數(shù)之和,將每個關(guān)鍵詞的出現(xiàn)次數(shù)與該出現(xiàn)次數(shù)之和的比值確定為每個關(guān)鍵詞在該字幕信息中的概率。
需要說明的是,如果服務(wù)器將第一關(guān)鍵詞集合中的多個同義詞或者近義詞合并為一個關(guān)鍵詞,則服務(wù)器獲取該關(guān)鍵詞在該字幕信息中的概率時,服務(wù)器獲取該關(guān)鍵詞的同義詞或者近義詞在該字幕信息中出現(xiàn)的出現(xiàn)次數(shù)之和,計算每個關(guān)鍵詞的出現(xiàn)次數(shù)之和,將該關(guān)鍵詞的同義詞或者近義詞在該字幕信息中出現(xiàn)的出現(xiàn)次數(shù)之和與每個關(guān)鍵詞的出現(xiàn)次數(shù)之和的比值確定為該關(guān)鍵詞在該字幕信息中的概率。
(2):服務(wù)器獲取每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,該主題信息庫用于存儲多個預(yù)設(shè)的主題信息。
預(yù)設(shè)的主題信息可以為“友誼”、“情感”和“愛情”等。本步驟可以通過以下步驟(2-1)-(2-2)實現(xiàn),包括:
(2-1):對于每個主題信息,服務(wù)器獲取該主題信息對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合。
對于主題信息庫中的每個主題信息,服務(wù)器中存儲每個主題信息和預(yù)設(shè)關(guān)鍵詞集合的對應(yīng)關(guān)系;相應(yīng)的,本步驟可以為:
服務(wù)器根據(jù)該主題信息,從主題信息和預(yù)設(shè)關(guān)鍵詞集合的對應(yīng)關(guān)系中獲取該主題信息對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合。其中,該預(yù)設(shè)關(guān)鍵詞集合中包括屬于該主題信息的多個預(yù)設(shè)的關(guān)鍵詞。
例如,服務(wù)器獲取主題信息“友誼”對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合為{朋友、友誼、義氣}。
(2-2):服務(wù)器根據(jù)每個關(guān)鍵詞在字幕信息中的概率、該預(yù)設(shè)關(guān)鍵詞集合和該預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定該每個關(guān)鍵詞屬于該主題信息的概率。
對于每個關(guān)鍵詞,服務(wù)器檢測該預(yù)設(shè)關(guān)鍵詞集合中是否包含該關(guān)鍵詞;如果該預(yù)設(shè)關(guān)鍵詞集合中包含該關(guān)鍵詞,將該關(guān)鍵詞在該字幕信息中的概率和該預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目的比值作為該關(guān)鍵詞屬于該主題的概率。
如果該預(yù)設(shè)關(guān)鍵詞集合中不包含該關(guān)鍵詞,確定該關(guān)鍵詞屬于該主題信息的概率為零。
(3):服務(wù)器根據(jù)每個關(guān)鍵詞在該字幕信息中的概率和每個關(guān)鍵詞屬于每個主題信息的概率,確定目標(biāo)多媒體文件屬于每個主題信息的概率。
本步驟可以通過以下步驟(3-1)-(3-3)實現(xiàn),包括:
(3-1):服務(wù)器將每個關(guān)鍵詞在該字幕信息中的概率組成第一概率矩陣,以及,將每個關(guān)鍵詞屬于每個主題信息的概率組成第二概率矩陣。
服務(wù)器將每個關(guān)鍵詞在該字幕信息中的概率作為一行數(shù)據(jù),組成第一概率矩陣;對于每個關(guān)鍵詞,服務(wù)器將該關(guān)鍵詞屬于每個主題信息的概率作為一行數(shù)據(jù),組成第二概率矩陣。
第一概率矩陣為n×1的矩陣,第二概率矩陣為n×m的矩陣;其中,n為第一關(guān)鍵詞集合中包括的關(guān)鍵詞的個數(shù),m為主題信息庫中包括的預(yù)設(shè)的主題信息的個數(shù)。
例如,每個關(guān)鍵詞分別為A、B和C;A、B和C在該字幕信息中的概率分別為PA、PB和PC,主題信息庫中包括的每個主題信息分別為主題1、主題2、主題3和主題4;關(guān)鍵詞A屬于每個主題信息的概率分別為A1、A2、A3和A4,關(guān)鍵詞B屬于每個主題信息的概率分別為B1、B2、B3和B4,關(guān)鍵詞C屬于每個主題信息的概率分別為C1、C2、C3和C4。
則第一概率矩陣為第二概率矩陣為
(3-2):服務(wù)器將第二概率矩陣的逆矩陣與第一概率矩陣相乘,得到第三概率矩陣。
服務(wù)器根據(jù)第二概率矩陣,確定第二概率矩陣的逆矩陣;將第二概率矩陣的逆矩陣與第一概率矩陣相乘,得到第三概率矩陣。其中,第三概率矩陣為m×1的矩陣,第三概率矩陣中的每行數(shù)據(jù)即為該目標(biāo)多媒體文件屬于每個主題信息的概率。
例如,服務(wù)器得到第三概率矩陣為
(3-3):服務(wù)器從第三概率矩陣中獲取目標(biāo)多媒體文件屬于每個主題信息的概率。
第三概率矩陣中的每行數(shù)據(jù)即為該目標(biāo)多媒體文件屬于每個主題信息的概率。服務(wù)器從第三概率矩陣中即可獲取目標(biāo)多媒體文件屬于每個主題信息的概率。
例如,第三矩陣為則P1為該目標(biāo)多媒體文件屬于主題信息1的概率,P2為該目標(biāo)多媒體文件屬于主題信息2的概率,P3為該目標(biāo)多媒體文件屬于主題信息3的概率,P4為該目標(biāo)多媒體文件屬于主題信息4的概率。
(4):服務(wù)器根據(jù)該目標(biāo)多媒體文件屬于每個主題信息的概率,從每個主題信息中選擇概率最大的預(yù)設(shè)數(shù)目個主題信息。
為了便于區(qū)分,將該處的預(yù)設(shè)數(shù)目稱為第一預(yù)設(shè)數(shù)目,第一預(yù)設(shè)數(shù)目可以根據(jù)需要進行設(shè)置并更改,在本公開實施例中,對第一預(yù)設(shè)數(shù)目不作具體限定;例如,第一預(yù)設(shè)數(shù)目可以為1或者2等。
(5):服務(wù)器將選擇的第一預(yù)設(shè)數(shù)目個主題信息組成該目標(biāo)多媒體文件的標(biāo)簽信息。
例如,選擇的主題信息為喜劇和愛情,則該多媒體文件的標(biāo)簽信息為喜劇和愛情。
對于第二種實現(xiàn)方式,本步驟可以為:
服務(wù)器獲取每個關(guān)鍵詞在該字幕信息中的概率,根據(jù)每個關(guān)鍵詞在該字幕信息中的概率,從每個關(guān)鍵詞中選擇概率最大的第二預(yù)設(shè)數(shù)目個關(guān)鍵詞,獲取選擇的關(guān)鍵詞所屬的主題信息,將選擇的關(guān)鍵字所屬的主題信息組成該目標(biāo)多媒體文件的標(biāo)簽信息。
在步驟S204中,服務(wù)器為該目標(biāo)多媒體文件設(shè)置該標(biāo)簽信息。
在本公開實施例中,由服務(wù)器通過對目標(biāo)多媒體文件的字幕信息進行語義分析,提取多媒體文件的標(biāo)簽信息,為該多媒體文件設(shè)置該標(biāo)簽信息。從而不僅提高了設(shè)置標(biāo)簽信息的效率,還提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
圖3是根據(jù)一示例性實施例示出的一種設(shè)置標(biāo)簽信息的裝置框圖。參照圖3,該裝置包括:獲取模塊301,分詞模塊302,分析模塊303和設(shè)置模塊304。
獲取模塊301,被配置為獲取目標(biāo)多媒體文件的字幕信息;
分詞模塊302,被配置為對所述字幕信息進行分詞,得到第一關(guān)鍵詞集合;
分析模塊303,被配置為對所述第一關(guān)鍵詞集合中的每個關(guān)鍵詞進行分析,得到所述目標(biāo)多媒體文件的標(biāo)簽信息;
設(shè)置模塊304,被配置為為所述目標(biāo)多媒體文件設(shè)置所述標(biāo)簽信息。
在一種可能實現(xiàn)方式中,參見圖4,所述分析模塊303,包括:
第一獲取單元3031,被配置為獲取所述每個關(guān)鍵詞在所述字幕信息中的概率;
第二獲取單元3032,被配置為獲取所述每個關(guān)鍵詞屬于主題信息庫中的每個主題信息的概率,所述主題信息庫被配置為存儲多個預(yù)設(shè)的主題信息;
確定單元3033,被配置為根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率和所述每個關(guān)鍵詞屬于每個主題信息的概率,確定所述目標(biāo)多媒體文件屬于所述每個主題信息的概率;
選擇單元3034,被配置為根據(jù)所述目標(biāo)多媒體文件屬于所述每個主題信息的概率,從所述每個主題信息中選擇概率最大的預(yù)設(shè)數(shù)目個主題信息;
第一組成單元3035,被配置為將選擇的預(yù)設(shè)數(shù)目個主題信息組成所述目標(biāo)多媒體文件的標(biāo)簽信息。
在一種可能實現(xiàn)方式中,所述確定單元3033,還被配置為將所述每個關(guān)鍵詞在所述字幕信息中的概率組成第一概率矩陣,以及,將所述每個關(guān)鍵詞屬于每個主題信息的概率組成第二概率矩陣,將所述第二概率矩陣的逆矩陣與所述第一概率矩陣相乘,得到第三概率矩陣,從所述第三概率矩陣中獲取所述目標(biāo)多媒體文件屬于所述每個主題信息的概率。
在一種可能實現(xiàn)方式中,所述第二獲取單元3032,還被配置為對于所述每個主題信息,獲取所述主題信息對應(yīng)的預(yù)設(shè)關(guān)鍵詞集合,根據(jù)所述每個關(guān)鍵詞在所述字幕信息中的概率、所述預(yù)設(shè)關(guān)鍵詞集合和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目,確定所述每個關(guān)鍵詞屬于所述主題信息的概率。
在一種可能實現(xiàn)方式中,所述第二獲取單元3032,還被配置為如果所述預(yù)設(shè)關(guān)鍵詞集合中包含所述每個關(guān)鍵詞,將所述每個關(guān)鍵詞在所述字幕信息中的概率和所述預(yù)設(shè)關(guān)鍵詞集合包含的關(guān)鍵詞的數(shù)目的比值作為所述每個關(guān)鍵詞屬于所述主題信息的概率,如果所述預(yù)設(shè)關(guān)鍵詞集合中不包含所述每個關(guān)鍵詞,確定所述每個關(guān)鍵詞屬于所述主題信息的概率為零。
在一種可能實現(xiàn)方式中,參見圖5,所述分詞模塊302,包括:
分詞單元3021,被配置為對所述字幕信息進行分詞;
第二組成單元3022,被配置為將所述字幕信息包括的每個分詞組成第二關(guān)鍵詞集合;
去除單元3023,被配置為將所述第二關(guān)鍵詞集合中預(yù)設(shè)類型的關(guān)鍵詞去除,得到所述第一關(guān)鍵字集合。
在本公開實施例中,由服務(wù)器通過對目標(biāo)多媒體文件的字幕信息進行語義分析,提取多媒體文件的標(biāo)簽信息,為該多媒體文件設(shè)置該標(biāo)簽信息。從而不僅提高了設(shè)置標(biāo)簽信息的效率,還提高了設(shè)置標(biāo)簽信息的準(zhǔn)確性。
上述所有可選技術(shù)方案,可以采用任意結(jié)合形成本公開的可選實施例,在此不再一一贅述。
需要說明的是:上述實施例提供的設(shè)置標(biāo)簽信息的裝置在設(shè)置標(biāo)簽信息時,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例提供的設(shè)置標(biāo)簽信息的裝置與設(shè)置標(biāo)簽信息是方法實施例屬于同一構(gòu)思,其具體實現(xiàn)過程詳見方法實施例,這里不再贅述。
圖6是根據(jù)一示例性實施例示出的一種用于設(shè)置標(biāo)簽信息的裝置600的框圖。例如,裝置600可以被提供為一服務(wù)器。參照圖6,裝置600包括處理組件622,其進一步包括一個或多個處理器,以及由存儲器632所代表的存儲器資源,用于存儲可由處理組件622的執(zhí)行的指令,例如應(yīng)用程序。存儲器632中存儲的應(yīng)用程序可以包括一個或一個以上的每一個對應(yīng)于一組指令的模塊。此外,處理組件622被配置為執(zhí)行指令,以執(zhí)行上述設(shè)置標(biāo)簽信息的方法。
裝置600還可以包括一個電源組件626被配置為執(zhí)行裝置600的電源管理,一個有線或無線網(wǎng)絡(luò)接口650被配置為將裝置600連接到網(wǎng)絡(luò),和一個輸入輸出(I/O)接口658。裝置600可以操作基于存儲在存儲器632的操作系統(tǒng),例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM或類似。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本公開并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進行各種修改和改變。本公開的范圍僅由所附的權(quán)利要求來限制。