本發(fā)明實(shí)施例涉及互聯(lián)網(wǎng)多媒體技術(shù)領(lǐng)域,尤其涉及一種多媒體節(jié)目的推薦方法及系統(tǒng)。
背景技術(shù):
目前,商家為了使自己設(shè)計(jì)的多媒體播放產(chǎn)品能夠受更多用戶的青睞,在為用戶提供所需多媒體節(jié)目的同時(shí),還增加了其他服務(wù)于用戶的功能,比如,向用戶推薦更多用戶喜愛的多媒體節(jié)目。
一般地,通常采用文本內(nèi)容匹配的方法來實(shí)現(xiàn)多媒體節(jié)目的推薦,具體的,獲取多媒體庫(kù)中每個(gè)多媒體節(jié)目的文本描述信息,然后基于每個(gè)多媒體節(jié)目的文本描述信息確定該多媒體節(jié)目的空間向量,同時(shí)確定用戶當(dāng)前所播放多媒體節(jié)目的空間向量,最終基于空間向量確定當(dāng)前所播放多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的相似度,然后基于相似度值確定待推薦給用戶的多媒體節(jié)目。
然而,如果對(duì)多媒體節(jié)目進(jìn)行描述的文本描述信息比較簡(jiǎn)短,則基于文本內(nèi)容匹配的方法進(jìn)行多媒體節(jié)目推薦時(shí),由于文本描述比較簡(jiǎn)短,會(huì)碰到數(shù)據(jù)稀疏問題,降低了相似度計(jì)算結(jié)果的準(zhǔn)確性,由此會(huì)對(duì)多媒體節(jié)目推薦的準(zhǔn)確性產(chǎn)生影響。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種多媒體節(jié)目的推薦方法及系統(tǒng),能夠提高多媒體節(jié)目推薦的準(zhǔn)確性。
一方面,本發(fā)明實(shí)施例提供了一種多媒體節(jié)目的推薦方法,包括:
獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息;
根據(jù)所述節(jié)目名稱及所述文本描述信息,確定所述多媒體節(jié)目的長(zhǎng)文本描述信息;
在確定用戶播放的當(dāng)前多媒體節(jié)目后,根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度;
根據(jù)所述文本相似度,確定所述多媒體庫(kù)中待推薦給用戶的多媒體節(jié)目。
另一方面,本發(fā)明實(shí)施例提供了一種多媒體節(jié)目的推薦系統(tǒng),包括:
信息獲取模塊,用于獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息;
信息確定模塊,用于根據(jù)所述節(jié)目名稱及所述文本描述信息,確定所述多媒體節(jié)目的長(zhǎng)文本描述信息;
相似度確定模塊,用于在確定用戶播放的當(dāng)前多媒體節(jié)目后,根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度;
節(jié)目推薦模塊,用于根據(jù)所述文本相似度,確定所述多媒體庫(kù)中待推薦給用戶的多媒體節(jié)目。
本發(fā)明實(shí)施例中提供了一種多媒體節(jié)目的推薦方法及系統(tǒng),該方法首先獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息;然后根據(jù)節(jié)目名稱和文本描述信息確定多媒體節(jié)目的長(zhǎng)文本描述信息;之后,根據(jù)長(zhǎng)文本描述信息獲得用戶此時(shí)欣賞的當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度;最終根據(jù)文本相似度,確定待推薦的多媒體節(jié)目并推薦給用戶。利用該方法,實(shí)現(xiàn)了多媒體節(jié)目播放時(shí)關(guān)聯(lián)多媒體節(jié)目的智能推薦,解決了多媒體節(jié)目推薦過程中簡(jiǎn)短文本描述信息對(duì)多媒體節(jié)目相似度計(jì)算的影響,從而提高了多媒體節(jié)目與相關(guān)聯(lián)節(jié)目之間匹配度,進(jìn)而提高了多媒體節(jié)目推薦的準(zhǔn)確性。
附圖說明
圖1為本發(fā)明實(shí)施例一提供的一種多媒體節(jié)目的推薦方法的流程示意圖;
圖2為本發(fā)明實(shí)施例二提供的一種多媒體節(jié)目的推薦方法的流程示意圖;
圖3為本發(fā)明實(shí)施例三提供的一種多媒體節(jié)目的推薦系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
實(shí)施例一
圖1為本發(fā)明實(shí)施例一提供的一種多媒體節(jié)目的推薦方法的流程示意圖,適用于向用戶推薦與當(dāng)前播放的多媒體節(jié)目關(guān)聯(lián)的其他多媒體節(jié)目的情況,該方法可以由多媒體節(jié)目的推薦系統(tǒng)執(zhí)行,其中該系統(tǒng)可由軟件和/或硬件實(shí)現(xiàn),并一般集成在向用戶提供多媒體播放資源的多媒體服務(wù)平臺(tái)上。
如圖1所示,本發(fā)明實(shí)施例一提供的一種多媒體節(jié)目的推薦方法,包括如下操作:
S101、獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息。
在本實(shí)施例中,多媒體庫(kù)具體可用于存放供用戶欣賞的多媒體節(jié)目,多媒體節(jié)目具體可優(yōu)選為娛樂類的或其他類(如教育類、競(jìng)技類等)的綜藝節(jié)目。一般地,在多媒體庫(kù)中除了存放多媒體節(jié)目外,還存儲(chǔ)了與每個(gè)多媒體節(jié)目對(duì)應(yīng)的文本描述信息,其中,文本描述信息具體可用于概括描述相應(yīng)多媒體節(jié)目中所包括的主要信息內(nèi)容,且文本描述信息可以由至少一條語句組成。
現(xiàn)有技術(shù)中通常直接基于文本描述信息進(jìn)行多媒體節(jié)目的推薦,然而,對(duì)于多媒體節(jié)目而言,與其他形式的多媒體文件(如電影、電視劇等)相比,多媒體節(jié)目的文本描述信息一般較為簡(jiǎn)短,如果直接基于文本描述信息進(jìn)行多媒體節(jié)目推薦,則會(huì)因?yàn)閿?shù)據(jù)的稀疏性問題影響多媒體節(jié)目推薦的準(zhǔn)確性。但多媒體節(jié)目的特點(diǎn)在于多媒體節(jié)目的節(jié)目名稱往往也包含了節(jié)目自身的信息,如《我要上春晚》這個(gè)節(jié)目名稱,就體現(xiàn)出了該節(jié)目與春晚相關(guān)。本實(shí)施例考慮采用節(jié)目名稱與文本描述信息相結(jié)合的方法來實(shí)現(xiàn)多媒體節(jié)目的推薦,以增強(qiáng)推薦結(jié)果的準(zhǔn)確性,由此首先基于步驟S101獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息。
S102、根據(jù)節(jié)目名稱及文本描述信息,確定多媒體節(jié)目的長(zhǎng)文本描述信息。
在本實(shí)施例中,可以基于設(shè)定的方式將節(jié)目名稱與文本描述信息相結(jié)合,由此形成多媒體節(jié)目的長(zhǎng)文本描述信息。具體地,長(zhǎng)文本描述信息的形成過程可表述為:首先確定節(jié)目名稱中的關(guān)鍵詞,將關(guān)鍵詞添加到文本描述信息中,如果新形成的文本描述信息沒有達(dá)到長(zhǎng)文本要求,則對(duì)新文本描述信息中的所有內(nèi)容進(jìn)行復(fù)制并重復(fù)粘貼,由此來增大文本描述信息的文本長(zhǎng)度,當(dāng)當(dāng)前文本長(zhǎng)度達(dá)到設(shè)定長(zhǎng)度時(shí),將當(dāng)前形成的文本描述信息確定為多媒體節(jié)目的長(zhǎng)文本描述信息。此外,長(zhǎng)文本描述信息的形成過程還可以表述為:將節(jié)目名稱以設(shè)定次數(shù)重復(fù)拼接到文本描述信息中,由此形成多媒體節(jié)目的長(zhǎng)文本描述信息。
示例性地,以長(zhǎng)文本描述信息的第一種形成方式舉例,假設(shè)多媒體節(jié)目的節(jié)目名稱為《愛奇藝2014跨年盛宴》,對(duì)應(yīng)的文本描述信息為“2014世界好聲音演唱會(huì)完整版”,則所確定的長(zhǎng)文本描述信息可以是:“跨年盛宴2014世界好聲音演唱會(huì)完整版跨年盛宴2014世界好聲音演唱會(huì)完整版跨年盛宴2014世界好聲音演唱會(huì)完整版”,其中,“跨年”和“盛宴”為基于節(jié)目名稱提取的關(guān)鍵詞。
S103、在確定用戶播放的當(dāng)前多媒體節(jié)目后,根據(jù)多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,確定當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
在本實(shí)施例中,對(duì)用戶進(jìn)行多媒體節(jié)目的推薦,首先需要確定用戶播放的當(dāng)前多媒體節(jié)目,然后再計(jì)算多媒體庫(kù)中其他多媒體節(jié)目與當(dāng)前多媒體節(jié)目之間的文本相似度,最終基于文本相似度的值進(jìn)行相關(guān)多媒體節(jié)目的推薦。在基于步驟S102確定多媒體節(jié)目的長(zhǎng)文本描述信息后,可以基于長(zhǎng)文本描述信息進(jìn)行文本相似度的確定。
具體地,本實(shí)施例首先可以根據(jù)多媒體庫(kù)中各多媒體節(jié)目對(duì)應(yīng)的長(zhǎng)文本描述信息來確定多媒體庫(kù)的文本向量矩陣;之后可以對(duì)文本向量矩陣進(jìn)行約減處理,以得到更易于進(jìn)行文本相似度計(jì)算的文本約減矩陣;然后可以將文本約減矩陣中的一個(gè)列向量看作多媒體庫(kù)中其中一個(gè)多媒體節(jié)目的文本特征向量;最終可基于確定的文本特征向量以及設(shè)定的相似度計(jì)算公式來確定當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
S104、根據(jù)文本相似度,確定多媒體庫(kù)中待推薦給用戶的多媒體節(jié)目。
在本實(shí)施例中,基于步驟S103可以確定當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度,由此確定了多媒體庫(kù)中多媒體節(jié)目與當(dāng)前多媒體節(jié)目存在的文本相似度值;本實(shí)施例可以對(duì)所確定的文本相似度值由大到小進(jìn)行排序,然后選取前N個(gè)文本相似度值對(duì)應(yīng)的多媒體節(jié)目作為待推薦對(duì)象,并將待推薦對(duì)象推薦給正在播放當(dāng)前多媒體節(jié)目的用戶,由此實(shí)現(xiàn)多媒體節(jié)目的智能推薦。需要說明的是,N的取值可以由系統(tǒng)默認(rèn)也可以人為設(shè)定,其中,N可以優(yōu)選地設(shè)定為10。另外,還可以為推薦的多媒體節(jié)目設(shè)定關(guān)于文本相似度值的推薦門限值,即若文本相似度值低于推薦門限值,即使多媒體節(jié)目的文本相似度值屬于前N個(gè),依然不予推薦或不予自動(dòng)推薦(由用戶選擇是否查看)。
本發(fā)明實(shí)施例一提供的一種多媒體節(jié)目的推薦方法,首先獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息;然后根據(jù)節(jié)目名稱和文本描述信息確定多媒體節(jié)目的長(zhǎng)文本描述信息;之后,根據(jù)長(zhǎng)文本描述信息獲得用戶此時(shí)欣賞的當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度;最終根據(jù)文本相似度,確定待推薦的多媒體節(jié)目并推薦給用戶。利用該方法,實(shí)現(xiàn)了多媒體節(jié)目播放時(shí)關(guān)聯(lián)多媒體節(jié)目的智能推薦,解決了多媒體節(jié)目推薦過程中簡(jiǎn)短文本描述信息對(duì)多媒體節(jié)目相似度計(jì)算的影響,從而提高了多媒體節(jié)目與相關(guān)聯(lián)節(jié)目之間匹配度,進(jìn)而提高了多媒體節(jié)目推薦的準(zhǔn)確性。
實(shí)施例二
圖2為本發(fā)明實(shí)施例二提供的一種多媒體節(jié)目的推薦方法的流程示意圖,本發(fā)明實(shí)施例以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,將根據(jù)所述節(jié)目名稱及所述文本描述信息,確定所述多媒體節(jié)目的長(zhǎng)文本描述信息,進(jìn)一步優(yōu)化為:根據(jù)設(shè)定拼接規(guī)則對(duì)所述節(jié)目名稱及所述文本描述信息進(jìn)行拼接處理,獲得所述多媒體節(jié)目的長(zhǎng)文本描述信息。
進(jìn)一步地,本發(fā)明實(shí)施例還將根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度,具體優(yōu)化為:根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,建立所述多媒體庫(kù)的文本向量矩陣;根據(jù)奇異值分解處理所述文本向量矩陣,獲得所述文本向量矩陣的文本約減矩陣;根據(jù)所述文本約減矩陣,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
如圖2所示,本發(fā)明實(shí)施例二提供的一種多媒體節(jié)目的推薦方法,具體包括如下操作:
S201、獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息。
示例性地,獲取多媒體庫(kù)中各多媒體節(jié)目對(duì)應(yīng)文本描述信息,同時(shí)確定各多媒體節(jié)目的節(jié)目名稱。
S202、根據(jù)設(shè)定拼接規(guī)則對(duì)節(jié)目名稱及文本描述信息進(jìn)行拼接處理,獲得多媒體節(jié)目的長(zhǎng)文本描述信息。
在本實(shí)施例中,長(zhǎng)文本描述信息的形成可優(yōu)選為:以設(shè)定拼接規(guī)則對(duì)節(jié)目名稱和文本描述信息進(jìn)行的拼接處理。具體地,將節(jié)目名稱進(jìn)行設(shè)定次數(shù)的復(fù)制,并將復(fù)制后的節(jié)目名稱拼接到相應(yīng)文本描述信息的原有內(nèi)容之前,將拼接后形成的文本描述信息稱為長(zhǎng)文本描述信息。在本實(shí)施例中,設(shè)定次數(shù)可以由系統(tǒng)默認(rèn)設(shè)定,也可以基于歷史經(jīng)驗(yàn)人為設(shè)定,優(yōu)選地,設(shè)定次數(shù)的取值可以是2~4次。
示例性地,接上述實(shí)施例一中步驟S102的示例,假設(shè)多媒體節(jié)目的節(jié)目名稱為《愛奇藝2014跨年盛宴》,對(duì)應(yīng)的文本描述信息為“2014世界好聲音演唱會(huì)完整版”,則基于步驟S202進(jìn)行操作后,所獲得的長(zhǎng)文本描述信息可以表示為:“愛奇藝2014跨年盛宴愛奇藝2014跨年盛宴愛奇藝2014跨年盛宴2014世界好聲音演唱會(huì)完整版”,可以看出,長(zhǎng)文本描述信息的具體內(nèi)容包括了復(fù)制3次的節(jié)目名稱以及原有的文本描述信息。
S203、根據(jù)多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,建立多媒體庫(kù)的文本向量矩陣。
在本實(shí)施例中,多媒體節(jié)目中待展示的核心內(nèi)容具體可基于長(zhǎng)文本描述信息體現(xiàn)??梢岳斫獾氖?,當(dāng)兩個(gè)多媒體節(jié)目的待展示內(nèi)容存在關(guān)聯(lián)時(shí),這兩個(gè)多媒體節(jié)目的長(zhǎng)文本描述信息中可能包含了相同的或相似的信息描述,因此,可以對(duì)多媒體庫(kù)中所有多媒體節(jié)目的長(zhǎng)文本描述信息進(jìn)行匯集,并對(duì)匯集后的長(zhǎng)文本描述信息進(jìn)行處理,得到包含各種詞語的用戶詞典;最終可以根據(jù)用戶詞典中的詞語與多媒體庫(kù)中的多媒體節(jié)目一起構(gòu)成文本向量矩陣。
在本實(shí)施例中,用戶詞典中包含的各種詞語主要來自匯集后的長(zhǎng)文本描述信息,可以是描述信息中記錄的各種名詞或者經(jīng)常出現(xiàn)的高頻詞匯。文本向量矩陣具體可以用于體現(xiàn)多媒體節(jié)目之間的關(guān)聯(lián)性,其中,文本向量矩陣中的每一行表示用戶詞典中的一個(gè)詞語,每一列表示多媒體庫(kù)中的一個(gè)多媒體節(jié)目,且行列所對(duì)應(yīng)的元素值可以是簡(jiǎn)單地用0或1表示,0表示該行對(duì)應(yīng)的詞語沒有在該列對(duì)應(yīng)的多媒體節(jié)目中沒有出現(xiàn),1表示該行對(duì)應(yīng)的詞語出現(xiàn)在了該列對(duì)應(yīng)的多媒體節(jié)目中;行列所對(duì)應(yīng)的元素值還可以用該行對(duì)應(yīng)的詞語在該列對(duì)應(yīng)的多媒體節(jié)目中出現(xiàn)的具體次數(shù)值表示;此外,行列所對(duì)應(yīng)的元素值也可以通過該行對(duì)應(yīng)的詞語在該列對(duì)應(yīng)的多媒體節(jié)目中的TF-IDF文本特征值表示。
進(jìn)一步地,根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,建立所述多媒體庫(kù)的文本向量矩陣包括:匯集所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,形成長(zhǎng)文本描述信息集合;根據(jù)所述長(zhǎng)文本描述信息集合,確定用于描述所述多媒體庫(kù)中多媒體節(jié)目的高頻詞匯;確定所述多媒體庫(kù)中每一個(gè)多媒體節(jié)目與所述高頻詞匯的TF-IDF文本特征值,并基于所述TF-IDF文本特征值建立與所述多媒體庫(kù)對(duì)應(yīng)的文本向量矩陣。
在本實(shí)施例中,可以通過匯集多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息來形成長(zhǎng)文本描述信息集合;之后可以對(duì)長(zhǎng)文本描述信息集合中包含的長(zhǎng)文本描述信息進(jìn)行分詞處理以及去停用詞處理,由此獲得文本描述時(shí)常用的高頻詞匯,形成用戶詞典,其中,可以基于現(xiàn)有的分詞方法和去停用詞方法對(duì)長(zhǎng)文本描述信息集合進(jìn)行處理。
在本實(shí)施例中,可以基于TF-IDF計(jì)算公式:TF-IDFi=TFi*IDFi來獲取詞語ti對(duì)應(yīng)的TF-IDF文體特征值。具體地,其中,分子ni表示用戶詞典中第i個(gè)詞語ti在多媒體節(jié)目R對(duì)應(yīng)的長(zhǎng)文本描述信息中出現(xiàn)的頻數(shù);分母max{nk|k=(1,2,...,T)}是所有詞語在多媒體節(jié)目R對(duì)應(yīng)的長(zhǎng)文本描述信息中出現(xiàn)的最大次數(shù),T是用戶詞典中的總詞語數(shù);其中,分子|D|是多媒體庫(kù)對(duì)應(yīng)的長(zhǎng)文件描述信息集合中包括的長(zhǎng)文件描述信息的總數(shù);|{j:ti∈R}|是包含詞語ti的長(zhǎng)文件描述信息數(shù)目,加1是為了防止該詞語ti不在長(zhǎng)文件描述信息集合中導(dǎo)致被除數(shù)為零。
S204、根據(jù)奇異值分解處理文本向量矩陣,獲得文本向量矩陣的文本約減矩陣。
一般地,奇異值分解(Singular Value Decomposition,SVD)是線性代數(shù)中一種重要的矩陣分解,可以將一個(gè)m*n階矩陣分解成一個(gè)m*m階的酉矩陣與一個(gè)半正定m*n階對(duì)角矩陣以及一個(gè)n*n階酉矩陣的共軛轉(zhuǎn)置矩陣的乘積,其中,半正定m*n階對(duì)角矩陣中對(duì)角線上由大到小排列k個(gè)的元素值就相當(dāng)于m*n階矩陣的奇異值,且k為m*n階矩陣的秩。
在本實(shí)施例中,可以將文本向量矩陣看做一個(gè)m*n階矩陣,由此可以確定與之對(duì)應(yīng)的半正定m*n階對(duì)角矩陣中對(duì)角線上的元素值,從而確定出相應(yīng)的奇異值;然后可以取半正定m*n階對(duì)角矩陣中對(duì)角線上由大到小排列k個(gè)的元素值中的前x個(gè)值,形成x*x階的對(duì)角矩陣,其中,x小于k;之后,基于所形成x*x階的對(duì)角矩陣,可以獲得將文本向量矩陣約減到x維后形成的文本約減矩陣。
進(jìn)一步地,根據(jù)奇異值分解處理所述文本向量矩陣,獲得所述文本向量矩陣的文本約減矩陣包括:根據(jù)奇異值分解公式,確定所述文本向量矩陣的奇異值集合,其中,所述奇異值集合中的奇異值由大到小排列;在所述奇異值集合中取前r個(gè)奇異值,基于所述前r個(gè)奇異值確定所述文本向量矩陣的文本約減矩陣,其中,r為設(shè)定的整數(shù)值。
在本實(shí)施例中,可確定奇異值分解公式為:Am*n=Um*mΣm*nVTn*n,其中,Am*n表示文本向量矩陣,U是m*m階酉矩陣,Σ是半正定m*n階對(duì)角矩陣;而VT,即V的共軛轉(zhuǎn)置,V是n*n階酉矩陣,Σ對(duì)角線上的元素Σi,i表示為Am*n的奇異值,且Σi,i按數(shù)值大小由大到小排列。
具體地,根據(jù)奇異值分解公式,可以將文本向量矩陣分解成酉矩陣Um*m與半正定矩陣Σm*n以及另一個(gè)酉矩陣Vn*n的共軛轉(zhuǎn)置VT的乘積,所確定的半正定矩陣Σm*n中對(duì)角線的元素值則相當(dāng)于文本向量矩陣Am*n的奇異值,其中,可以將文本向量矩陣Am*n的所有奇異值的集合稱為奇異值集合。需要說明的是,奇異值集合中的奇異值由大到小排列,在與文本向量矩陣對(duì)應(yīng)的半正定矩陣中,最大的奇異值位于半正定矩陣的左上角,且沿對(duì)角線向下排列的奇異值也逐漸減小。
在本實(shí)施例中,根據(jù)矩陣的加法公式以及矩陣所具有的分配率,可以通過刪除矩陣對(duì)應(yīng)的較小奇異值的方法對(duì)矩陣進(jìn)行約減,由此獲得更易于進(jìn)行相似度計(jì)算的文本約減矩陣。具體地,假設(shè)文本向量矩陣的奇異值集合中包括k個(gè)奇異值,則可以取前r個(gè)奇異值形成r維的半正定矩陣,之后將新確定的酉矩陣與r維半正定矩陣相乘,并將其乘積再與另一個(gè)新的酉矩陣的共軛轉(zhuǎn)置相乘,最終得到的矩陣就相當(dāng)于文本向量矩陣的文本約減矩陣,其中,所述文本約減矩陣可表示為:Bm*n=Um*rΣr*rVTr*n,且r的取值優(yōu)選地滿足r個(gè)奇異值的奇異值之和占總奇異值之和的90%,此時(shí)可認(rèn)為文本向量矩陣Am*n≈文本約減矩陣Bm*n。
S205、在確定用戶播放的當(dāng)前多媒體節(jié)目后,根據(jù)文本約減矩陣確定當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
在本實(shí)施例中,對(duì)用戶進(jìn)行多媒體節(jié)目的推薦,首先需要確定用戶播放的當(dāng)前多媒體節(jié)目,之后,可以計(jì)算多媒體庫(kù)中其他多媒體節(jié)目與當(dāng)前多媒體節(jié)目之間的文本相似度。
進(jìn)一步地,根據(jù)所述文本約減矩陣,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度包括:根據(jù)所述文本約減矩陣確定所述多媒體數(shù)據(jù)庫(kù)中多媒體節(jié)目的文本特征向量;基于所述多媒體數(shù)據(jù)庫(kù)中多媒體節(jié)目的文本特征向量,通過余弦定理分別確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
在本實(shí)施例中,文本約減矩陣的列向量可看做多媒體庫(kù)中其中一個(gè)多媒體節(jié)目相對(duì)于用戶詞典中高頻詞匯形成的文本特征向量,由此根據(jù)已確定的文本約減矩陣可以確定多媒體數(shù)據(jù)庫(kù)中各多媒體節(jié)目對(duì)應(yīng)的文本特征向量,之后,可以根據(jù)余弦定理來確定當(dāng)前多媒體節(jié)目與多媒體庫(kù)中其他多媒體節(jié)目的文本相似度,其中,D1表示當(dāng)前多媒體節(jié)目的文本特征向量,D2表示其他多媒體節(jié)目的文本特征向量,|D1|和|D2|分別表示兩個(gè)文本特征向量的模。
需要說明的是,用余弦定理來表示兩文本特征向量的相似度時(shí),所確定cosθ值越接近1,則表明兩文本特征向量的相似度越高,所確定cosθ值越接近1,則表明兩文本特征向量的相似度越低。
S206、根據(jù)文本相似度,確定多媒體庫(kù)中待推薦給用戶的多媒體節(jié)目。
示例性地,基于上述步驟,多媒體庫(kù)中多媒體文件與當(dāng)前多媒體文件均對(duì)應(yīng)存在一個(gè)多媒體相似度的值,可以基于Top N算法對(duì)多媒體相似度的值進(jìn)行降序排列,并選擇前N個(gè)多媒體相似度的值對(duì)應(yīng)的多媒體文件多為待推薦資源,之后將確定的待推薦資源推薦給用戶,其中,待推薦資源具體可理解為與當(dāng)前多媒體文件相似度較高的多媒體文件。
示例性地,對(duì)于用戶當(dāng)前觀看的節(jié)目名稱為《愛奇藝2014跨年盛宴》,文本描述信息為“2014世界好聲音演唱會(huì)完整版”的當(dāng)前多媒體節(jié)目而言,基于現(xiàn)有的多媒體節(jié)目的推薦方法進(jìn)行推薦的結(jié)果如下:《中國(guó)好聲音》、《舞動(dòng)好聲音》、《紅高粱》開機(jī)發(fā)布會(huì)、《第二季天翼飛Young校園好聲音全國(guó)總決賽》、《中國(guó)好聲音三亞音樂節(jié)》、《大學(xué)聲》、《天翼飛Young校園好聲音第一季》、《陜西衛(wèi)視2013春晚》、《陜西衛(wèi)視2013跨年晚會(huì)》以及《河南衛(wèi)視2013春晚》。而基于本發(fā)明實(shí)施例提供的推薦方法進(jìn)行多媒體節(jié)目推薦時(shí),最終確定的文本相似度值最高的前10條結(jié)果如下:《吉林衛(wèi)視2013跨年晚會(huì)》、《愛奇藝2013跨年盛宴》、《四川衛(wèi)視2016跨年演唱會(huì)》、《四川衛(wèi)視2012跨年演唱會(huì)》、《浙江衛(wèi)視2016跨年演唱會(huì)》、《2016臺(tái)北跨年演唱會(huì)》、《中視2015跨年晚會(huì)》、《歷年跨年演唱會(huì)精編特輯》、《TVBS臺(tái)北2013跨年演唱會(huì)》以及《中天2015跨年晚會(huì)》。由此可以看出,本發(fā)明實(shí)施例所提供的推薦方法,其推薦結(jié)果的準(zhǔn)確性高于現(xiàn)有推薦方法的準(zhǔn)確性。
本發(fā)明實(shí)施例二提供的一種多媒體節(jié)目的推薦方法,具體化了長(zhǎng)文本描述信息的確定過程,同時(shí)也具體化了文本相似度的獲取過程。利用該方法,實(shí)現(xiàn)了多媒體節(jié)目播放時(shí)關(guān)聯(lián)多媒體節(jié)目的智能推薦,解決了多媒體節(jié)目推薦過程中簡(jiǎn)短文本描述信息對(duì)多媒體節(jié)目相似度計(jì)算的影響,從而提高了多媒體節(jié)目與相關(guān)聯(lián)節(jié)目之間匹配度,進(jìn)而提高了多媒體節(jié)目推薦的準(zhǔn)確性。
實(shí)施例三
圖3為本發(fā)明實(shí)施例三提供的一種多媒體節(jié)目的推薦系統(tǒng)的結(jié)構(gòu)框圖,該推薦系統(tǒng)適用于向用戶推薦與當(dāng)前播放的多媒體節(jié)目關(guān)聯(lián)的其他多媒體節(jié)目的情況,可以由軟件和/或硬件實(shí)現(xiàn),并一般集成在向用戶提供多媒體播放資源的多媒體服務(wù)平臺(tái)上。如圖3所示,該推薦系統(tǒng)包括:信息獲取模塊31、信息確定模塊32、相似度確定模塊33以及節(jié)目推薦模塊34。
其中,信息獲取模塊31,用于獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息;
信息確定模塊32,用于根據(jù)所述節(jié)目名稱及所述文本描述信息,確定所述多媒體節(jié)目的長(zhǎng)文本描述信息;
相似度確定模塊33,用于在確定用戶播放的當(dāng)前多媒體節(jié)目后,根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度;
節(jié)目推薦模塊34,用于根據(jù)所述文本相似度,確定所述多媒體庫(kù)中待推薦給用戶的多媒體節(jié)目。
在本實(shí)施例中,該推薦系統(tǒng)首先通過信息獲取模塊31獲取多媒體庫(kù)中多媒體節(jié)目的節(jié)目名稱及對(duì)應(yīng)的文本描述信息;然后通過信息確定模塊32根據(jù)所述節(jié)目名稱及所述文本描述信息,確定所述多媒體節(jié)目的長(zhǎng)文本描述信息;之后通過相似度確定模塊33在確定用戶播放的當(dāng)前多媒體節(jié)目后,根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度;最終通過節(jié)目推薦模塊34根據(jù)所述文本相似度,確定所述多媒體庫(kù)中待推薦給用戶的多媒體節(jié)目。
本發(fā)明實(shí)施例三提供的一種多媒體節(jié)目的推薦系統(tǒng),實(shí)現(xiàn)了多媒體節(jié)目播放時(shí)關(guān)聯(lián)多媒體節(jié)目的智能推薦,解決了多媒體節(jié)目推薦過程中簡(jiǎn)短文本描述信息對(duì)多媒體節(jié)目相似度計(jì)算的影響,從而提高了多媒體節(jié)目與相關(guān)聯(lián)節(jié)目之間匹配度,進(jìn)而提高了多媒體節(jié)目推薦的準(zhǔn)確性。
進(jìn)一步地,信息確定模塊32具體用于:
根據(jù)設(shè)定拼接規(guī)則對(duì)所述節(jié)目名稱及所述文本描述信息進(jìn)行拼接處理,獲得所述多媒體節(jié)目的長(zhǎng)文本描述信息。
進(jìn)一步地,相似度確定模塊33具體包括:
向量矩陣構(gòu)建單元,用于根據(jù)所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,建立所述多媒體庫(kù)的文本向量矩陣;約減矩陣確定單元,用于根據(jù)奇異值分解處理所述文本向量矩陣,獲得所述文本向量矩陣的文本約減矩陣;相似度確定單元,用于根據(jù)所述文本約減矩陣,確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
在上述優(yōu)化的基礎(chǔ)上,向量矩陣構(gòu)建單元具體用于:
匯集所述多媒體庫(kù)中多媒體節(jié)目的長(zhǎng)文本描述信息,形成長(zhǎng)文本描述信息集合;根據(jù)所述長(zhǎng)文本描述信息集合,確定用于描述所述多媒體庫(kù)中多媒體節(jié)目的高頻詞匯;確定所述多媒體庫(kù)中每一個(gè)多媒體節(jié)目與所述高頻詞匯的TF-IDF文本特征值,并基于所述TF-IDF文本特征值建立與所述多媒體庫(kù)對(duì)應(yīng)的文本向量矩陣。
在上述優(yōu)化的基礎(chǔ)上,約減矩陣確定單元具體用于:
根據(jù)奇異值分解公式,確定所述文本向量矩陣的奇異值集合,其中,所述奇異值集合中的奇異值由大到小排列;在所述奇異值集合中取前r個(gè)奇異值,基于所述前r個(gè)奇異值確定所述文本向量矩陣的文本約減矩陣,其中,r為設(shè)定的整數(shù)值。
進(jìn)一步地,相似度確定單元具體用于:
根據(jù)所述文本約減矩陣確定所述多媒體數(shù)據(jù)庫(kù)中多媒體節(jié)目的文本特征向量;基于所述多媒體數(shù)據(jù)庫(kù)中多媒體節(jié)目的文本特征向量,通過余弦定理分別確定所述當(dāng)前多媒體節(jié)目與所述多媒體庫(kù)中其他多媒體節(jié)目的文本相似度。
注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。