播視頻和電視直播播放記錄進(jìn) 行整合,分析用戶對(duì)播放電視節(jié)目的喜愛程度。從運(yùn)些經(jīng)過預(yù)處理的各類用戶行為信息中 提取出有效的用戶偏好標(biāo)簽后,計(jì)算偏好標(biāo)簽對(duì)應(yīng)的權(quán)值同時(shí)使用邏輯時(shí)間衰減函數(shù)模擬 用戶偏好隨時(shí)間的變化,由此根據(jù)提取出的用戶偏好標(biāo)簽和計(jì)算得到的偏好權(quán)值創(chuàng)建或者 更新用戶的偏好文件。
[00創(chuàng)包括如下步驟:
[0063] (3-1)從用戶的顯式行為信息和隱式行為信息中提取顯式偏好標(biāo)簽和隱式偏好標(biāo) 簽。
[0064] 進(jìn)一步包括如下步驟:
[0065] (3-1-1)對(duì)用戶的行為信息進(jìn)行過濾,去除無(wú)效的行為信息,得到有效的用戶的行 為信息。
[0066] 無(wú)效的用戶行為信息會(huì)影響用戶偏好的挖掘,必須要進(jìn)行清除。例如用戶更改個(gè) 性化簽名時(shí),對(duì)于W前的個(gè)性化簽名就應(yīng)該進(jìn)行過濾;用戶刷新網(wǎng)頁(yè)時(shí),產(chǎn)生的重復(fù)行為信 息同樣要進(jìn)行過濾。
[0067] (3-1-2)將相同連接會(huì)話內(nèi)同一個(gè)視頻的所有播放記錄中的播放時(shí)間疊加,得到 該視頻的累積播放時(shí)間,進(jìn)而將任一視頻的播放記錄整合為一條,得到視頻播放行為描述 標(biāo)簽,為后續(xù)計(jì)算用戶對(duì)該視頻的喜愛程度提供依據(jù)。
[0068] 在同一個(gè)連接會(huì)話中,用戶可能會(huì)對(duì)相同電視節(jié)目進(jìn)行多次操作如播放、暫停、快 進(jìn)、后退、關(guān)閉一段時(shí)間后又重新觀看等,每個(gè)操作均會(huì)產(chǎn)生一條視頻播放反饋記錄,為了 方便對(duì)同一個(gè)視頻的播放記錄進(jìn)行處理,本方法對(duì)相同連接會(huì)話內(nèi)同一個(gè)視頻的所有播放 記錄進(jìn)行了合并。
[0069] (3-1-3)對(duì)有效的用戶的顯式行為信息進(jìn)行分詞,提取關(guān)鍵詞信息得到顯式偏好 標(biāo)簽;對(duì)除已生成描述標(biāo)簽的視頻播放行為信息之外的有效的用戶的隱式行為信息進(jìn)行分 詞,提取關(guān)鍵詞信息,將提取的關(guān)鍵詞信息與視頻播放行為描述標(biāo)簽一起作為隱式偏好標(biāo) 簽。
[0070] 對(duì)于有效的用戶的行為信息,在進(jìn)行偏好挖掘時(shí)均是利用其關(guān)鍵詞信息,因此除 了已經(jīng)生成描述標(biāo)簽的視頻播放行為信息外,其他類型的行為信息均需要進(jìn)行分詞,提取 關(guān)鍵詞信息即標(biāo)簽。記錄用戶對(duì)視頻的評(píng)論信息使得通過評(píng)論標(biāo)簽豐富方式獲取描述視頻 內(nèi)容的評(píng)論標(biāo)簽;記錄新用戶的用戶名信息便于統(tǒng)一管理;對(duì)用戶的已播放視頻id進(jìn)行記 錄,防止在主動(dòng)推薦時(shí)向用戶推薦已看過的視頻內(nèi)容。
[0071] 用戶的行為信息類型不一,為了能夠完整地利用其中每一條用戶的行為信息,同 時(shí)考慮到每條行為信息均可W表示成標(biāo)簽集,因此本方法在對(duì)不同類型的用戶的行為信息 進(jìn)行利用時(shí)提取共同的反饋特征即標(biāo)簽來(lái)表示用戶的偏好。對(duì)于具體的用戶偏好模型則 使用由<tagL油el,tagWei曲t>組成的標(biāo)簽向量進(jìn)行表示,其中tagL油el表示標(biāo)簽文本, tagWei曲t表示標(biāo)簽權(quán)重,即用戶對(duì)該標(biāo)簽的喜愛程度。使用標(biāo)簽向量表示用戶的偏好模 型,一方面能直觀表現(xiàn)出用戶的偏好信息,另一方面與視頻資源的標(biāo)簽描述文件格式保持 一致,使得用戶偏好模型能夠更方便地參與到個(gè)性化服務(wù)的計(jì)算中去。
[0072] (3-2)計(jì)算顯式偏好標(biāo)簽的權(quán)重和隱式偏好標(biāo)簽的權(quán)重
[0073] 其中,顯式偏好標(biāo)簽從用戶的顯式行為信息中提取出來(lái),其權(quán)重的計(jì)算方法具體 為:設(shè)置所有顯式偏好標(biāo)簽的權(quán)重為1 ;對(duì)任一顯式偏好標(biāo)簽,若其未出現(xiàn)在當(dāng)前連接會(huì)話 中,則根據(jù)其最近一次出現(xiàn)的連接會(huì)話距離當(dāng)前連接會(huì)話的次數(shù)n對(duì)其權(quán)重進(jìn)行n次減半 操作。
[0074] 隱式偏好標(biāo)簽從用戶的隱式行為信息中提取出來(lái),并不能顯式地表示用戶的偏 好,因此不能簡(jiǎn)單地設(shè)置其權(quán)值為1或根據(jù)連接會(huì)話對(duì)權(quán)值進(jìn)行減半操作。目前隱式偏好 標(biāo)簽權(quán)值的計(jì)算方法主要有TF和TF-IUF兩種。
[00巧]TF即詞頻,使用標(biāo)簽出現(xiàn)的次數(shù)表示其權(quán)值,此種方式不利于區(qū)分用戶在不同 時(shí)刻的偏好,同樣對(duì)于非活躍用戶簡(jiǎn)單地使用TF也不能反映其對(duì)偏好標(biāo)簽的喜好程度; TF-IUF是詞頻-反用戶,即使用標(biāo)簽出現(xiàn)的次數(shù)與包含該標(biāo)簽的用戶數(shù)之商作為偏好標(biāo)簽 的權(quán)值,TF-IUF考慮了偏好標(biāo)簽對(duì)于不同用戶的區(qū)分度,認(rèn)為包含于多數(shù)用戶的偏好標(biāo)簽 權(quán)值應(yīng)較低,然而對(duì)于用戶來(lái)說(shuō),其興趣的高低程度應(yīng)與其他用戶無(wú)關(guān),因此TF-IUF也不 合理。
[0076] 本方法使用標(biāo)準(zhǔn)化詞頻從各類隱式行為信息中計(jì)算隱式偏好標(biāo)簽的權(quán)重,具體 為:用戶的隱式偏好標(biāo)簽的權(quán)重用該隱式偏好標(biāo)簽出現(xiàn)的次數(shù)與該用戶的所有有效的行為 信息的條數(shù)之商表示,其中,用戶對(duì)同一對(duì)象的一次檢索行為、瀏覽行為、評(píng)論行為等算一 條行為信息。對(duì)于整合后的視頻播放記錄,計(jì)算總播放時(shí)長(zhǎng)與視頻總時(shí)長(zhǎng)的比例P,當(dāng)比 例P〉= 0. 8時(shí),該條播放記錄的權(quán)重為1,否則為P,即在參與上述隱式偏好標(biāo)簽的權(quán)值 的計(jì)算時(shí)另乘W對(duì)應(yīng)的權(quán)重。
[0077] (3-3)用邏輯回歸衰減函數(shù)對(duì)顯式偏好標(biāo)簽的權(quán)重和隱式偏好標(biāo)簽的權(quán)重進(jìn)行衰 減。
[0078] 本方法在挖掘用戶偏好時(shí)考慮到用戶偏好不是一成不變的,時(shí)間較久的用戶行為 信息的權(quán)重應(yīng)該相對(duì)較低,故使用邏輯回歸衰減函數(shù)對(duì)用戶行為信息的權(quán)重進(jìn)行衰減,函 數(shù)公式為:
[0079]
[0080] 其中,T(i)為用戶Ui的偏好的全衰期,t為時(shí)間。由于每位用戶的偏好不同,因此 全衰期也不同。
[0081] 用戶偏好的全衰期T(i)的確定使用leave-one-out策略,即從用戶Ui偏好標(biāo)簽 集中刪除一個(gè)偏好標(biāo)簽ty,然后只根據(jù)不包含標(biāo)簽ty的用戶U1的行為信息計(jì)算用戶U1的 其他偏好標(biāo)簽的權(quán)重,使用平均絕對(duì)誤差(MeanAbsolute化ror,MAE)計(jì)算用戶Ui的偏好 標(biāo)簽ty對(duì)其偏好挖掘的影響:
[0082]
[0083] 其中,P,為刪除偏好標(biāo)簽ty后用戶U1的偏好全衰期為T(i)時(shí)偏好標(biāo)簽集中的偏 好標(biāo)簽t,的預(yù)測(cè)權(quán)重,qj為偏好標(biāo)簽t,的真實(shí)權(quán)重即用戶U1的偏好的全衰期為T(i)時(shí)計(jì) 算的權(quán)重,Ni為用戶U1的偏好標(biāo)簽的個(gè)數(shù)。用戶U1的MAE為:
[0084]
[00化]為所有用戶的偏好的全衰期預(yù)設(shè)一個(gè)范圍[TmiwTmJ,在該范圍內(nèi)計(jì)算用戶Ui的 偏好的全衰期T(i),使得MAE燈(i))的值最小。
[0086] (4)為用戶提供個(gè)性化服務(wù)
[0087] 進(jìn)一步包括如下步驟:
[0088] (4-1)計(jì)算用戶的偏好標(biāo)簽(包括顯式偏好標(biāo)簽和隱式偏好標(biāo)簽)與視頻描述標(biāo) 簽的相似度。
[0089] 在根據(jù)用戶偏好模型為用戶提供個(gè)性化視頻捜索和主動(dòng)推薦服務(wù)時(shí),提出基于標(biāo) 簽滿足關(guān)系的相似度計(jì)算用戶偏好標(biāo)簽與視頻描述標(biāo)簽之間的相似度,該相似度認(rèn)為視頻 資源描述標(biāo)簽文件中包含用戶的偏好標(biāo)簽越多,該視頻資源與用戶的相似度越高。
[0090] 具體地,用戶Ui的偏好標(biāo)簽與視頻Vr的描述標(biāo)簽的相似度:
[0091]
[0092] 其中,Wu表示用戶U1的偏好標(biāo)簽ty的權(quán)重,W"表示用戶U1的偏好標(biāo)簽ty作為視 頻Vr的描述標(biāo)簽時(shí)的權(quán)重,當(dāng)視頻Vr的描述標(biāo)簽中不存在偏好標(biāo)簽tX時(shí),W"= 0,N1為用 戶Ui的偏好標(biāo)簽的個(gè)數(shù),1表示視頻Vf的描述標(biāo)簽中包含用戶U1的偏好