本發(fā)明實(shí)施例涉及內(nèi)容推薦技術(shù)領(lǐng)域,特別是涉及一種視頻推薦方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)寬帶傳輸?shù)臄?shù)據(jù)的快速增長(zhǎng),壓縮存儲(chǔ)技術(shù)的不斷進(jìn)步,近年來(lái)互聯(lián)網(wǎng)視頻的數(shù)量呈現(xiàn)了爆炸性的增長(zhǎng)。為了對(duì)視頻數(shù)據(jù)進(jìn)行有效的組織和管理,方便用戶查找和觀看,向用戶進(jìn)行視頻推薦應(yīng)運(yùn)而生。
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)現(xiàn)相關(guān)技術(shù)存在以下問(wèn)題:一般的視頻推薦方法是通過(guò)分析用戶歷史觀看的視頻,獲取與用戶歷史觀看的視頻相似的視頻,從而進(jìn)行視頻推薦,該方法能夠有效的實(shí)現(xiàn)視頻推薦,但是用戶歷史觀看的視頻并不代表就是用戶喜好的視頻,所以該視頻推薦方法的推薦結(jié)果并不一定準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例主要解決的技術(shù)問(wèn)題是提供一種視頻推薦方法及裝置,解決視頻推薦結(jié)果準(zhǔn)確度不高的問(wèn)題。
第一方面,本發(fā)明實(shí)施例提供一種視頻推薦方法,包括:基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合;根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別;根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦。
在一些實(shí)施例中,所述基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合包括:
基于分詞處理技術(shù)分別對(duì)所述視頻的描述文本進(jìn)行特征提?。?/p>
針對(duì)所述特征提取的數(shù)據(jù)構(gòu)造所述視頻的特征向量;
基于所述視頻的特征向量劃分訓(xùn)練集和測(cè)試集;
利用所述訓(xùn)練集訓(xùn)練得到SVM分類(lèi)器;
根據(jù)所述SVM分類(lèi)器對(duì)所述測(cè)試集進(jìn)行分類(lèi),獲取預(yù)設(shè)類(lèi)別數(shù)目的視頻集合。
在一些實(shí)施例中,所述根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別包括:
獲取所述用戶的歷史操作信息對(duì)應(yīng)的視頻;
分別統(tǒng)計(jì)所述用戶對(duì)每個(gè)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù);
根據(jù)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù),確定目標(biāo)視頻;
將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,判斷所述目標(biāo)視頻所屬類(lèi)別;
根據(jù)所述目標(biāo)視頻所屬類(lèi)別確定所述用戶所屬類(lèi)別。
在一些實(shí)施例中,所述根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦包括:
對(duì)所述用戶所屬類(lèi)別對(duì)應(yīng)視頻的描述文本分別進(jìn)行主題抽取,得到至少一個(gè)主題;
基于所述主題進(jìn)行關(guān)鍵詞抽?。?/p>
分別計(jì)算所述關(guān)鍵詞在對(duì)應(yīng)的主題中出現(xiàn)的概率,確定所述概率大于或等于預(yù)設(shè)閾值的關(guān)鍵詞,根據(jù)所述關(guān)鍵詞進(jìn)行視頻推薦。
第二方面,本發(fā)明實(shí)施例提供一種視頻推薦裝置,包括:
視頻分類(lèi)模塊,用于基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合;
用戶類(lèi)別判斷模塊,用于根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別;
視頻推薦模塊,用于根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦。
在一些實(shí)施例中,所述視頻分類(lèi)模塊包括:
提取單元,用于基于分詞處理技術(shù)分別對(duì)所述視頻的描述文本進(jìn)行特征提??;
生成單元,用于針對(duì)所述特征提取的數(shù)據(jù)構(gòu)造所述視頻的特征向量;
劃分單元,用于基于所述視頻的特征向量劃分訓(xùn)練集和測(cè)試集;
訓(xùn)練單元,用于利用所述訓(xùn)練集訓(xùn)練得到SVM分類(lèi)器;
分類(lèi)單元,用于根據(jù)所述SVM分類(lèi)器對(duì)所述測(cè)試集進(jìn)行分類(lèi),獲取預(yù)設(shè)類(lèi)別數(shù)目的視頻集合。
在一些實(shí)施例中,所述用戶類(lèi)別判斷模塊包括:
獲取單元,用于獲取所述用戶的歷史操作信息對(duì)應(yīng)的視頻;
統(tǒng)計(jì)單元,用于分別統(tǒng)計(jì)所述用戶對(duì)每個(gè)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù);
確定單元,用于根據(jù)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù),確定目標(biāo)視頻;
第一判斷單元,用于將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,判斷所述目標(biāo)視頻所屬類(lèi)別;
第二判斷單元,用于根據(jù)所述目標(biāo)視頻所屬類(lèi)別確定所述用戶所屬類(lèi)別。
在一些實(shí)施例中,所述視頻推薦模塊包括:
第一處理單元,用于對(duì)所述用戶所屬類(lèi)別對(duì)應(yīng)視頻的描述文本分別進(jìn)行主題抽取,得到至少一個(gè)主題;
第二處理單元,用于基于所述主題進(jìn)行關(guān)鍵詞抽?。?/p>
推薦單元,用于分別計(jì)算所述關(guān)鍵詞在對(duì)應(yīng)的主題中出現(xiàn)的概率,確定所述概率大于或等于預(yù)設(shè)閾值的關(guān)鍵詞,根據(jù)所述關(guān)鍵詞進(jìn)行視頻推薦。
本發(fā)明實(shí)施例提供了一種視頻推薦方法及裝置,通過(guò)對(duì)視頻分類(lèi),根據(jù)分類(lèi)結(jié)果確定用戶所屬類(lèi)別,再根據(jù)用戶類(lèi)別向用戶進(jìn)行視頻推薦,相比較現(xiàn)有技術(shù),本發(fā)明實(shí)施例提供的視頻推薦方法及裝置,豐富了視頻推薦方法的內(nèi)容,使視頻推薦的結(jié)果更準(zhǔn)確。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例的技術(shù)方案,下面將對(duì)本申請(qǐng)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見(jiàn)地,下面所描述的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例提供的一種視頻推薦方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的一種視頻推薦方法中基于SVM對(duì)視頻數(shù)據(jù)集進(jìn)行分類(lèi)的方法的流程圖;
圖3是本發(fā)明實(shí)施例提供的一種視頻推薦方法中確定用戶所屬類(lèi)別的方法的流程圖;
圖4是本發(fā)明實(shí)施例提供的一種視頻推薦方法中使用LDA方法向用戶進(jìn)行視頻推薦的方法的流程圖;
圖5是本發(fā)明實(shí)施例提供的一種視頻推薦裝置的結(jié)構(gòu)框圖;
圖6是本發(fā)明實(shí)施例提供的另一種視頻推薦裝置的結(jié)構(gòu)框圖;
圖7是本發(fā)明實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
需要說(shuō)明的是,本發(fā)明實(shí)施例中所有使用“第一”和“第二”的表述均是為了區(qū)分兩個(gè)相同名稱(chēng)非相同的實(shí)體或者非相同的參量,可見(jiàn)“第一”“第二”僅為了表述的方便,不應(yīng)理解為對(duì)本發(fā)明實(shí)施例的限定,后續(xù)實(shí)施例對(duì)此不再一一說(shuō)明。
支持向量機(jī)(Support Vector Machine,SVM)是90年代中期發(fā)展起來(lái)的基于統(tǒng)計(jì)學(xué)習(xí)理論的一種機(jī)器學(xué)習(xí)方法,通過(guò)尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小來(lái)提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的。一般來(lái)說(shuō),SVM是一種二類(lèi)分類(lèi)模型,其基本模型定義為特征空間上的間隔最大的線性分類(lèi)器,即SVM的學(xué)習(xí)策略便是間隔最大化,最終轉(zhuǎn)化成一個(gè)凸二次規(guī)劃問(wèn)題的求解。使用SVM進(jìn)行分類(lèi)的問(wèn)題一般都是非線性的,建立非線性學(xué)習(xí)器包括兩步:首先使用一個(gè)非線性映射將數(shù)據(jù)變換到一個(gè)特征空間;然后在特征空間使用線性學(xué)習(xí)器進(jìn)行分類(lèi)。SVM處理非線性問(wèn)題的核心是核函數(shù),常用核函數(shù)包括高斯核函數(shù)、多項(xiàng)式核函數(shù)等?,F(xiàn)有技術(shù)已表明SVM在解決線性或非線性的分類(lèi)問(wèn)題上占有明顯的優(yōu)勢(shì)。
主題模型算法(Latent Dirichlet Allocation,LDA)也叫隱含狄利克雷分布,是一種非監(jiān)督機(jī)器學(xué)習(xí)方法,可用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息,該算法采用詞袋的方法,即一篇文檔是由一組詞語(yǔ)構(gòu)成,詞與詞之間沒(méi)有順序以及先后的關(guān)系,一篇文檔可以包含多個(gè)主題,文檔中每個(gè)詞都由其中的一個(gè)主題生成。LDA將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化成易于建模的數(shù)字信息。LDA生成過(guò)程中,每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞構(gòu)成的一個(gè)概率分布。
本發(fā)明實(shí)施例的第一個(gè)方面提出了一種視頻推薦方法。如圖1所示,所述視頻推薦方法,包括:
步驟101:基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合。
在本發(fā)明實(shí)施例中,所述預(yù)設(shè)的分類(lèi)模型是指通過(guò)預(yù)設(shè)的分類(lèi)算法建立的分類(lèi)模型,其中,所述預(yù)設(shè)的分類(lèi)算法包括:決策樹(shù)、貝葉斯、支持向量機(jī)以及人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法??刹捎闷渲腥我庖环N分類(lèi)算法來(lái)建立該算法的分類(lèi)模型,基于該分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果,分別將每一類(lèi)別的視頻匯聚一起建立一個(gè)視頻集合,從而得到多個(gè)類(lèi)別的視頻集合。
步驟102:根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別。
在本發(fā)明實(shí)施例中,所述歷史操作信息包括點(diǎn)擊信息、下載信息、收藏信息、評(píng)論信息、點(diǎn)贊信息、轉(zhuǎn)發(fā)信息以及購(gòu)買(mǎi)信息中的一種或幾種。所述歷史操作信息為用戶對(duì)視頻的歷史操作信息,例如用戶點(diǎn)擊視頻、用戶下載視頻、用戶收藏視頻以及用戶對(duì)視頻進(jìn)行評(píng)論等。用戶對(duì)視頻的歷史操作信息的獲取方式包括:根據(jù)用戶賬號(hào)從后臺(tái)數(shù)據(jù)庫(kù)中查找該用戶賬號(hào),該用戶賬號(hào)對(duì)應(yīng)的歷史操作信息即為該用戶對(duì)視頻的歷史操作信息,所述用戶賬號(hào)為與所述視頻預(yù)相關(guān)聯(lián)的賬號(hào),例如,用戶登錄某視頻網(wǎng)站的登錄賬號(hào)等。本實(shí)施例中用戶對(duì)視頻的歷史操作信息還可以通過(guò)其他方式來(lái)獲取。
在本發(fā)明實(shí)施例中,所述目標(biāo)視頻為通過(guò)分析用戶對(duì)視頻的歷史操作信息并結(jié)合預(yù)設(shè)規(guī)則而獲取到的視頻集合,該預(yù)設(shè)規(guī)則可以根據(jù)人的喜好預(yù)先設(shè)定,也可以通過(guò)其他方式來(lái)設(shè)定。例如,選擇所述歷史操作信息中的點(diǎn)贊信息,點(diǎn)贊信息對(duì)應(yīng)的視頻作為目標(biāo)視頻。
在本發(fā)明實(shí)施例中,可以基于視頻的內(nèi)容將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,可選地,將所述目標(biāo)視頻的內(nèi)容進(jìn)行特征提取,根據(jù)提取的特征與所述多個(gè)類(lèi)別的視頻集合中的視頻的特征分別進(jìn)行匹配,若特征匹配一致,則將所述目標(biāo)視頻歸入匹配上的視頻集合中,該視頻集合對(duì)應(yīng)的類(lèi)別即為所述用戶的所屬類(lèi)別。
步驟103:根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦。
在本發(fā)明實(shí)施例中,可以分析所述用戶所屬類(lèi)別的特征,根據(jù)該特征向所述用戶進(jìn)行視頻推薦,其中,所述特征包括:與所述用戶所屬類(lèi)別相同的用戶的特征,或者所述用戶所屬類(lèi)別對(duì)應(yīng)的視頻的特征等。
本發(fā)明實(shí)施例提供了一種視頻推薦方法,通過(guò)對(duì)視頻分類(lèi),根據(jù)分類(lèi)結(jié)果確定用戶所屬類(lèi)別,再根據(jù)用戶類(lèi)別向用戶進(jìn)行視頻推薦,相比較現(xiàn)有技術(shù),本發(fā)明實(shí)施例提供的視頻推薦方法,豐富了視頻推薦方法的內(nèi)容,使視頻推薦的結(jié)果更準(zhǔn)確。
本發(fā)明實(shí)施例的第二個(gè)方面提出了另一種視頻推薦方法,本實(shí)施例的視頻推薦方法用于對(duì)上述實(shí)施例的視頻推薦方法進(jìn)行詳細(xì)說(shuō)明。同樣請(qǐng)參閱圖1,所述方法包括:
步驟101:基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合。
在本發(fā)明實(shí)施例中,利用機(jī)器學(xué)習(xí)的SVM分類(lèi)方法對(duì)某一全部的視頻數(shù)據(jù)集進(jìn)行了分類(lèi),該分類(lèi)的過(guò)程是一個(gè)多分類(lèi)的過(guò)程,主要是根據(jù)視頻的內(nèi)容進(jìn)行類(lèi)別劃分。
可選地,如圖2所示,基于SVM對(duì)視頻數(shù)據(jù)集進(jìn)行分類(lèi)包括:
步驟1011:基于分詞處理技術(shù)分別對(duì)所述視頻的描述文本進(jìn)行特征提??;
在本發(fā)明實(shí)施例中,所述描述文本為所述視頻的文字標(biāo)簽,該文字標(biāo)簽包括所述視頻的內(nèi)容簡(jiǎn)介、視頻時(shí)長(zhǎng)、語(yǔ)言等文字介紹。每個(gè)視頻都有其對(duì)應(yīng)的文字標(biāo)簽,通過(guò)分詞處理技術(shù)分別對(duì)每一個(gè)文字標(biāo)簽進(jìn)行處理,得到一些有代表性的字、詞或詞組,所述字、詞或詞組作為所述每個(gè)視頻的描述文本的特征項(xiàng),從而完成特征提取過(guò)程。
步驟1012:針對(duì)所述特征提取的數(shù)據(jù)構(gòu)造所述視頻的特征向量;
在本發(fā)明實(shí)施例中,將上述步驟提取的特征項(xiàng)表示成向量形式從而構(gòu)造每個(gè)視頻的特征向量。所述將特征項(xiàng)表示成向量,即是將所述視頻的描述文本轉(zhuǎn)化成計(jì)算機(jī)能夠識(shí)別的格式,具體是SVM分類(lèi)器能夠識(shí)別的格式。在中文信息處理方向上,一般文本的表示主要采用向量空間模型,向量空間模型的基本思想是以向量來(lái)表示文檔,例如,Di=(W1,W2,W3,…,Wn),其中D表示文檔,Wi為第i個(gè)特征項(xiàng)的權(quán)重。
步驟1013:基于所述視頻的特征向量劃分訓(xùn)練集和測(cè)試集;
在本發(fā)明實(shí)施例中,所述訓(xùn)練集用于訓(xùn)練分類(lèi)器得到SVM分類(lèi)模型,建立所述SVM分類(lèi)模型的關(guān)鍵是求取最優(yōu)分類(lèi)函數(shù)。所述測(cè)試集用于根據(jù)所述SVM分類(lèi)模型進(jìn)行測(cè)試得到分類(lèi)結(jié)果,一般采用分類(lèi)準(zhǔn)確率對(duì)分類(lèi)模型的分類(lèi)性進(jìn)行評(píng)價(jià)。劃分所述訓(xùn)練集和所述測(cè)試集的數(shù)據(jù)量大小直接影響到分類(lèi)結(jié)果的準(zhǔn)確率,常用的劃分?jǐn)?shù)據(jù)集的方法包括:隨機(jī)劃分?jǐn)?shù)據(jù)集(一般是按照3:1的比例分配訓(xùn)練集和測(cè)試集,即3/4的數(shù)據(jù)集用于模型的建立,1/4的數(shù)據(jù)集用于測(cè)試所建立的模型的性能);交叉驗(yàn)證法(包括二折交叉、十折交叉以及留一法等)等。
步驟1014:利用所述訓(xùn)練集訓(xùn)練得到SVM分類(lèi)器;
在本發(fā)明實(shí)施例中,所述利用所述訓(xùn)練集訓(xùn)練得到SVM分類(lèi)器的一般過(guò)程是在選取核函數(shù)后,將訓(xùn)練樣本映射到高維特征空間,利用SVM在樣本特征空間中找出各類(lèi)別特征樣本與其他特征樣本的最優(yōu)分類(lèi)超平面,得到代表各樣本特征的支持向量集及其相應(yīng)的可信度,最終形成判斷各特征類(lèi)別的最優(yōu)分類(lèi)函數(shù),該最優(yōu)分類(lèi)函數(shù)即是訓(xùn)練得到的SVM分類(lèi)器。
步驟1015:根據(jù)所述SVM分類(lèi)器對(duì)所述測(cè)試集進(jìn)行分類(lèi),獲取預(yù)設(shè)類(lèi)別數(shù)目的視頻集合。
在本發(fā)明實(shí)施例中,所述測(cè)試集作為待分類(lèi)對(duì)象,通過(guò)核函數(shù)作用映射到特征空間中,作為最優(yōu)分類(lèi)函數(shù)的輸入,最終輸出二類(lèi)可分的結(jié)果,當(dāng)該二類(lèi)不滿足預(yù)設(shè)的類(lèi)別數(shù)目時(shí),可以分別基于該二類(lèi)可分結(jié)果再次進(jìn)行SVM分類(lèi),從而得到四個(gè)類(lèi)別的視頻分類(lèi)結(jié)果,可重復(fù)該二分類(lèi)的過(guò)程,直到最終的類(lèi)別數(shù)目滿足預(yù)設(shè)的類(lèi)別數(shù)目。
例如,利用二叉樹(shù)來(lái)構(gòu)造基于SVM的視頻分類(lèi),該二叉樹(shù)的頂結(jié)點(diǎn)表示所述視頻數(shù)據(jù)集,通過(guò)SVM二分類(lèi)得到所述第一視頻分類(lèi)結(jié)果和所述第二視頻分類(lèi)結(jié)果,基于所述第一視頻分類(lèi)結(jié)果再次進(jìn)行SVM二分類(lèi)得到兩個(gè)類(lèi)別的視頻分類(lèi)結(jié)果,基于所述第二視頻分類(lèi)結(jié)果再次進(jìn)行SVM二分類(lèi)也得到兩個(gè)類(lèi)別的視頻分類(lèi)結(jié)果,基于所述四個(gè)類(lèi)別的視頻分類(lèi)結(jié)果再次分別對(duì)每一個(gè)進(jìn)行SVM分類(lèi),重復(fù)該二分類(lèi)的過(guò)程,一直到分類(lèi)的結(jié)果達(dá)到預(yù)設(shè)的類(lèi)別數(shù)目(例如類(lèi)別數(shù)目是4,則從頂結(jié)點(diǎn)開(kāi)始往下到第三層即完成視頻的分類(lèi))。
所述最后一次進(jìn)行SVM分類(lèi)的結(jié)果即是對(duì)所述視頻數(shù)據(jù)集進(jìn)行分類(lèi)的最終結(jié)果,該結(jié)果包括了多個(gè)類(lèi)別,每個(gè)類(lèi)別對(duì)應(yīng)了大量的視頻,每個(gè)類(lèi)別對(duì)應(yīng)的視頻的總和分別構(gòu)成每個(gè)類(lèi)別的視頻集合。
步驟102:根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別。
基于上述步驟101的分類(lèi)結(jié)果以及用戶對(duì)視頻的歷史操作信息來(lái)進(jìn)行用戶分類(lèi)。可選地,如圖3所示,確定用戶所屬類(lèi)別包括:
步驟1021:獲取所述用戶的歷史操作信息對(duì)應(yīng)的視頻;
在本發(fā)明實(shí)施例中,所述歷史操作信息包括點(diǎn)擊信息、下載信息、收藏信息、評(píng)論信息、點(diǎn)贊信息、轉(zhuǎn)發(fā)信息以及購(gòu)買(mǎi)信息中的一種或幾種。則,所述用戶的歷史操作信息對(duì)應(yīng)的視頻包括用戶點(diǎn)擊過(guò)的視頻、用戶下載過(guò)的視頻、用戶收藏過(guò)的視頻、用戶評(píng)論過(guò)的視頻、用戶點(diǎn)贊過(guò)的視頻、用戶轉(zhuǎn)發(fā)過(guò)的視頻以及用戶購(gòu)買(mǎi)過(guò)的視頻中的一種或幾種。
步驟1022:分別統(tǒng)計(jì)所述用戶對(duì)每個(gè)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù);
可以理解的是,所述歷史操作信息為用戶對(duì)視頻進(jìn)行的行為,不同的行為產(chǎn)生不同的歷史操作信息類(lèi)別,例如播放視頻對(duì)應(yīng)的播放信息和下載視頻對(duì)應(yīng)的下載信息即為不同類(lèi)別的歷史操作信息。需要分別統(tǒng)計(jì)出每個(gè)視頻包含的歷史操作信息,并統(tǒng)計(jì)每類(lèi)歷史操作信息的操作次數(shù)。
例如,某一用戶對(duì)視頻進(jìn)行的行為包括:對(duì)視頻進(jìn)行了觀看、收藏、點(diǎn)贊等操作,統(tǒng)計(jì)該視頻的權(quán)重可以包括:首先對(duì)所述操作行為(觀看、收藏、點(diǎn)贊等)分別賦予預(yù)設(shè)的權(quán)值,每一項(xiàng)操作行為對(duì)應(yīng)的權(quán)值可以相同也可以不相同,然后分別統(tǒng)計(jì)每一操作行為的操作次數(shù),將每一項(xiàng)操作行為的操作次數(shù)和權(quán)值進(jìn)行計(jì)算獲取到每一項(xiàng)操作行為的權(quán)重,最后將所有操作行為對(duì)應(yīng)的權(quán)重進(jìn)行累加,累加值作為該視頻的權(quán)重。
步驟1023:根據(jù)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù),確定目標(biāo)視頻;
在本發(fā)明實(shí)施例中,根據(jù)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù)確定目標(biāo)視頻包括:
針對(duì)視頻的某一類(lèi)別歷史操作信息,按照操作次數(shù)的大小排序,選擇超過(guò)預(yù)設(shè)閾值的操作次數(shù)對(duì)應(yīng)的視頻作為目標(biāo)視頻,例如,針對(duì)視頻的下載信息,將每個(gè)視頻對(duì)應(yīng)的下載量按照大小排序,選取下載量超過(guò)預(yù)設(shè)閾值的視頻作為目標(biāo)視頻;或者,
將所述視頻的歷史操作信息根據(jù)其類(lèi)別分別賦予權(quán)重,該權(quán)重可以是相同的權(quán)重也可以是不同的權(quán)重,基于每類(lèi)歷史操作信息的權(quán)重及每類(lèi)歷史操作信息對(duì)應(yīng)的操作次數(shù)按照自定義的公式計(jì)算出該類(lèi)歷史操作信息對(duì)應(yīng)視頻的操作次數(shù),選取操作次數(shù)超過(guò)預(yù)設(shè)閾值的視頻作為目標(biāo)視頻。
需要說(shuō)明的是,確定目標(biāo)視頻的方法并不僅限于上述方法,還可以通過(guò)其他方法來(lái)獲取。
步驟1024:將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,判斷所述目標(biāo)視頻所屬類(lèi)別;
在本發(fā)明實(shí)施例中,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,一般是基于視頻的內(nèi)容來(lái)進(jìn)行匹配,例如,目標(biāo)視頻為一個(gè)足球比賽的視頻,可以對(duì)該足球比賽視頻的文字介紹部分進(jìn)行關(guān)鍵詞提取,比如足球、關(guān)鍵人物名字、參加比賽的隊(duì)名等,通過(guò)該關(guān)鍵詞與SVM分類(lèi)結(jié)果中的每一類(lèi)視頻的關(guān)鍵內(nèi)容分別進(jìn)行匹配,最終匹配的結(jié)果是該足球比賽視頻屬于體育類(lèi),甚至是屬于體育類(lèi)的足球類(lèi),從而確定了所述目標(biāo)視頻的類(lèi)別。
步驟1025:根據(jù)所述目標(biāo)視頻所屬類(lèi)別確定所述用戶所屬類(lèi)別。
例如,已確定所述目標(biāo)視頻屬于體育足球類(lèi)別,那么可以確定用戶為足球愛(ài)好類(lèi),因此,可向該用戶推薦與足球相關(guān)的視頻。
步驟103:根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦;
在本發(fā)明實(shí)施例中,可以選擇基于內(nèi)容推薦、協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)規(guī)則推薦等方法來(lái)進(jìn)行視頻推薦。
可選地,如圖4所示,本實(shí)施例使用LDA方法向所述用戶進(jìn)行視頻推薦,該視頻推薦方法包括:
步驟1031:對(duì)所述用戶所屬類(lèi)別對(duì)應(yīng)視頻的描述文本分別進(jìn)行主題抽取,得到至少一個(gè)主題;
所述描述文本為對(duì)所述視頻進(jìn)行介紹的文字,例如電影簡(jiǎn)介等。所述描述文本進(jìn)行主題抽取的過(guò)程是對(duì)所述描述文本的中心句進(jìn)行提取的過(guò)程,是該描述文本進(jìn)行中心思想總結(jié)的過(guò)程。
步驟1032:基于所述主題進(jìn)行關(guān)鍵詞抽?。?/p>
可以理解的是,基于所述主題進(jìn)行關(guān)鍵詞抽取即是對(duì)主題文本(句子)進(jìn)行分詞的過(guò)程,通過(guò)分詞處理技術(shù)得到該主題文本的詞語(yǔ)集合。
步驟1033:分別計(jì)算所述關(guān)鍵詞在對(duì)應(yīng)的主題中出現(xiàn)的概率,確定所述概率大于或等于預(yù)設(shè)閾值的關(guān)鍵詞,根據(jù)所述關(guān)鍵詞進(jìn)行視頻推薦。
在本發(fā)明實(shí)施例中,統(tǒng)計(jì)所述關(guān)鍵詞在對(duì)應(yīng)的主題中出現(xiàn)的概率,根據(jù)概率大小對(duì)所述關(guān)鍵詞進(jìn)行排序,選取所述關(guān)鍵詞的概率大于或等于預(yù)設(shè)閾值的關(guān)鍵詞,從而獲取所述概率大于或等于預(yù)設(shè)閾值的關(guān)鍵詞所對(duì)應(yīng)的視頻,該視頻用于向用戶進(jìn)行推薦。
本發(fā)明實(shí)施例提供了一種視頻推薦方法,該方法首先用SVM分類(lèi)器對(duì)視頻進(jìn)行分類(lèi),然后將用戶對(duì)視頻的歷史操作信息與SVM分類(lèi)的結(jié)果進(jìn)行匹配從而確定用戶類(lèi)別,最后根據(jù)用戶類(lèi)別向用戶進(jìn)行視頻推薦,本發(fā)明實(shí)施例提供的視頻推薦方法更具有針對(duì)性,不僅豐富了視頻推薦的內(nèi)容,而且推薦的結(jié)果更準(zhǔn)確,視頻推薦效率更高,推薦的內(nèi)容更合理,使用戶有較好的體驗(yàn)。
本發(fā)明實(shí)施例的第三個(gè)方面提出了一種視頻推薦裝置3,所述裝置對(duì)應(yīng)上述實(shí)施例中的視頻推薦方法,如圖5所示,所述視頻推薦裝置3,包括:視頻分類(lèi)模塊31、用戶類(lèi)別判斷模塊32以及視頻推薦模塊33。
在本發(fā)明實(shí)施例中,所述視頻分類(lèi)模塊31,用于基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合;所述用戶類(lèi)別判斷模塊32,用于根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別;所述視頻推薦模塊33,用于根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦。
在本發(fā)明實(shí)施例中,通過(guò)所述視頻分類(lèi)模塊來(lái)得到視頻數(shù)據(jù)集的分類(lèi)結(jié)果,所述用戶類(lèi)別判斷模塊基于所述分類(lèi)結(jié)果以及用戶對(duì)視頻的歷史操作信息來(lái)確定用戶的類(lèi)別,所述視頻推薦模塊根據(jù)所述用戶類(lèi)別判斷模塊產(chǎn)生的用戶類(lèi)別,從而有針對(duì)性的對(duì)分類(lèi)后的用戶進(jìn)行視頻推薦。
需要說(shuō)明的是,本發(fā)明實(shí)施例提出的視頻推薦裝置與本發(fā)明實(shí)施例的第一個(gè)方面提出的一種視頻推薦方法基于相同的發(fā)明構(gòu)思,方法實(shí)施例與裝置實(shí)施例中的相應(yīng)技術(shù)內(nèi)容可相互適用,此處不再詳述。
本發(fā)明實(shí)施例提供了一種視頻推薦裝置,通過(guò)對(duì)視頻分類(lèi),根據(jù)分類(lèi)結(jié)果確定用戶所屬類(lèi)別,再根據(jù)用戶類(lèi)別向用戶進(jìn)行視頻推薦,相比較現(xiàn)有技術(shù),本發(fā)明實(shí)施例提供的視頻推薦裝置,豐富了視頻推薦方法的內(nèi)容,使視頻推薦的結(jié)果更準(zhǔn)確。
本發(fā)明實(shí)施例的第四個(gè)方面提出了另一種視頻推薦裝置,所述裝置是對(duì)上述第三個(gè)方面提出的視頻推薦裝置的詳細(xì)說(shuō)明。如圖6所示,所述視頻推薦裝置4,包括:視頻分類(lèi)模塊41、用戶類(lèi)別判斷模塊42以及視頻推薦模塊43。
在本發(fā)明實(shí)施例中,所述視頻分類(lèi)模塊41,用于基于預(yù)設(shè)的分類(lèi)模型對(duì)視頻進(jìn)行分類(lèi),得到多個(gè)類(lèi)別的視頻集合。其中,所述視頻分類(lèi)模塊41包括:提取單元411、生成單元412、劃分單元413、訓(xùn)練單元414以及分類(lèi)單元415。
所述提取單元411用于基于分詞處理技術(shù)分別對(duì)所述視頻的描述文本進(jìn)行特征提??;所述生成單元412用于針對(duì)所述特征提取的數(shù)據(jù)構(gòu)造所述視頻的特征向量;所述劃分單元413用于基于所述視頻的特征向量劃分訓(xùn)練集和測(cè)試集;所述訓(xùn)練單元414用于利用所述訓(xùn)練集訓(xùn)練得到SVM分類(lèi)器;所述分類(lèi)單元415用于根據(jù)所述SVM分類(lèi)器對(duì)所述測(cè)試集進(jìn)行分類(lèi),獲取預(yù)設(shè)類(lèi)別數(shù)目的視頻集合。
在本發(fā)明實(shí)施例中,所述用戶類(lèi)別判斷模塊42,用于根據(jù)用戶對(duì)視頻的歷史操作信息獲取目標(biāo)視頻,將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,確定所述用戶所屬類(lèi)別。其中,所述用戶類(lèi)別判斷模塊42包括:獲取單元421、統(tǒng)計(jì)單元422、確定單元423、第一判斷單元424以及第二判斷單元425。
所述獲取單元421用于獲取所述用戶的歷史操作信息對(duì)應(yīng)的視頻;所述統(tǒng)計(jì)單元422用于分別統(tǒng)計(jì)所述用戶對(duì)每個(gè)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù);所述確定單元423用于根據(jù)所述視頻的歷史操作信息的類(lèi)別和操作次數(shù),確定目標(biāo)視頻;所述第一判斷單元424用于將所述目標(biāo)視頻與所述多個(gè)類(lèi)別的視頻集合分別進(jìn)行匹配,判斷所述目標(biāo)視頻所屬類(lèi)別;所述第二判斷單元425用于根據(jù)所述目標(biāo)視頻所屬類(lèi)別確定所述用戶所屬類(lèi)別。
在本發(fā)明實(shí)施例中,所述視頻推薦模塊43,用于根據(jù)所述用戶所屬類(lèi)別,向所述用戶進(jìn)行視頻推薦。其中,所述視頻推薦模塊43包括:第一處理單元431、第二處理單元432以及推薦單元433。
所述第一處理單元431用于對(duì)所述用戶所屬類(lèi)別對(duì)應(yīng)視頻的描述文本分別進(jìn)行主題抽取,得到至少一個(gè)主題;所述第二處理單元432用于基于所述主題進(jìn)行關(guān)鍵詞抽?。凰鐾扑]單元433用于分別計(jì)算所述關(guān)鍵詞在對(duì)應(yīng)的主題中出現(xiàn)的概率,確定所述概率大于或等于預(yù)設(shè)閾值的關(guān)鍵詞,根據(jù)所述關(guān)鍵詞進(jìn)行視頻推薦。
在本發(fā)明實(shí)施例中,通過(guò)所述視頻分類(lèi)模塊來(lái)得到視頻數(shù)據(jù)集的分類(lèi)結(jié)果,所述用戶類(lèi)別判斷模塊基于所述分類(lèi)結(jié)果以及用戶對(duì)視頻的歷史操作信息來(lái)確定用戶的類(lèi)別,所述視頻推薦模塊根據(jù)所述用戶類(lèi)別判斷模塊產(chǎn)生的用戶類(lèi)別,從而有針對(duì)性的對(duì)分類(lèi)后的用戶進(jìn)行視頻推薦。
需要說(shuō)明的是,本發(fā)明實(shí)施例提出的視頻推薦裝置與本發(fā)明實(shí)施例的第二個(gè)方面提出的一種視頻推薦方法基于相同的發(fā)明構(gòu)思,方法實(shí)施例與裝置實(shí)施例中的相應(yīng)技術(shù)內(nèi)容可相互適用,此處不再詳述。
本發(fā)明實(shí)施例提供了一種視頻推薦裝置,該裝置首先用SVM分類(lèi)器對(duì)視頻進(jìn)行分類(lèi),然后將用戶對(duì)視頻的歷史操作信息與SVM分類(lèi)的結(jié)果進(jìn)行匹配從而確定用戶類(lèi)別,最后根據(jù)用戶類(lèi)別向用戶進(jìn)行視頻推薦,本發(fā)明實(shí)施例提供的視頻推薦裝置更具有針對(duì)性,不僅豐富了視頻推薦的內(nèi)容,而且推薦的結(jié)果更準(zhǔn)確,視頻推薦效率更高,推薦的內(nèi)容更合理,使用戶有較好的體驗(yàn)。
本發(fā)明實(shí)施例的第五個(gè)方面提出了一種非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行上述任意方法實(shí)施例中的視頻推薦方法。
本發(fā)明實(shí)施例的第六個(gè)方面提出了一種電子設(shè)備5,如圖7所示,該電子設(shè)備5包括:
一個(gè)或多個(gè)處理器51以及存儲(chǔ)器52,圖7中以一個(gè)處理器51為例。
執(zhí)行視頻推薦方法的設(shè)備還可以包括:輸入裝置53和輸出裝置54。
處理器51、存儲(chǔ)器52、輸入裝置53和輸出裝置54可以通過(guò)總線或者其他方式連接,圖7中以通過(guò)總線連接為例。
存儲(chǔ)器52作為一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可用于存儲(chǔ)非易失性軟件程序、非易失性計(jì)算機(jī)可執(zhí)行程序以及模塊,如本申請(qǐng)實(shí)施例中的視頻推薦方法對(duì)應(yīng)的程序指令/模塊(例如,附圖5所示的視頻分類(lèi)模塊31、用戶類(lèi)別判斷模塊32和視頻推薦模塊33)。處理器51通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器52中的非易失性軟件程序、指令以及模塊,從而執(zhí)行服務(wù)器的各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述方法實(shí)施例視頻推薦方法。
存儲(chǔ)器52可以包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需要的應(yīng)用程序;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)視頻推薦裝置的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲(chǔ)器52可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤(pán)存儲(chǔ)器件、閃存器件、或其他非易失性固態(tài)存儲(chǔ)器件。在一些實(shí)施例中,存儲(chǔ)器52可選包括相對(duì)于處理器51遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過(guò)網(wǎng)絡(luò)連接至視頻推薦裝置。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。
輸入裝置53可接收輸入的數(shù)字或字符信息,以及產(chǎn)生與視頻推薦裝置的用戶設(shè)置以及功能控制有關(guān)的鍵信號(hào)輸入。輸出裝置54可包括顯示屏等顯示設(shè)備。
所述一個(gè)或者多個(gè)模塊存儲(chǔ)在所述存儲(chǔ)器52中,當(dāng)被所述一個(gè)或者多個(gè)處理器51執(zhí)行時(shí),執(zhí)行上述任意方法實(shí)施例中的視頻推薦方法,例如,執(zhí)行以上描述的圖1中的方法步驟101至步驟103,圖2中的方法步驟1011至步驟1015,圖3中的方法步驟1021至步驟1025,圖4中的方法步驟1031至步驟1033。
上述產(chǎn)品可執(zhí)行本申請(qǐng)實(shí)施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),可參見(jiàn)本申請(qǐng)實(shí)施例所提供的方法。
本申請(qǐng)實(shí)施例的電子設(shè)備以多種形式存在,包括但不限于:
(1)服務(wù)器:提供計(jì)算服務(wù)的設(shè)備,服務(wù)器的構(gòu)成包括處理器、硬盤(pán)、內(nèi)存、系統(tǒng)總線等,服務(wù)器和通用的計(jì)算機(jī)架構(gòu)類(lèi)似,但是由于需要提供高可靠的服務(wù),因此在處理能力、穩(wěn)定性、可靠性、安全性、可擴(kuò)展性、可管理性等方面要求較高。
(2)其他具有數(shù)據(jù)交互功能的電子裝置。
本發(fā)明實(shí)施例提供了一種電子設(shè)備,通過(guò)對(duì)視頻分類(lèi),根據(jù)分類(lèi)結(jié)果確定用戶所屬類(lèi)別,再根據(jù)用戶類(lèi)別向用戶進(jìn)行視頻推薦,本發(fā)明實(shí)施例提供的電子設(shè)備,使視頻推薦的結(jié)果更準(zhǔn)確。
以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實(shí)施方式可借助軟件加通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說(shuō)對(duì)相關(guān)技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤(pán)等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。
最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本申請(qǐng)的技術(shù)方案,而非對(duì)其限制;在本申請(qǐng)的思路下,以上實(shí)施例或者不同實(shí)施例中的技術(shù)特征之間也可以進(jìn)行組合,步驟可以以任意順序?qū)崿F(xiàn),并存在如上所述的本申請(qǐng)的不同方面的許多其它變化,為了簡(jiǎn)明,它們沒(méi)有在細(xì)節(jié)中提供;盡管參照前述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本申請(qǐng)各實(shí)施例技術(shù)方案的范圍。