1.一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:包括以下步驟:
步驟1:建立電子讀物平均閱讀時間的計(jì)算標(biāo)準(zhǔn);
步驟2:對用戶的閱讀行為進(jìn)行判斷;
步驟3:用戶平均閱讀速度的建立;
步驟4:用戶單一文章閱讀時間的計(jì)算;
步驟5:根據(jù)用戶實(shí)際閱讀時間和平均閱讀時間判斷閱讀完整度;
步驟6:根據(jù)用戶閱讀完整度建立用戶偏好程度;
步驟7:對用戶偏好向量和文章內(nèi)容特征向量進(jìn)行匹配相似運(yùn)算,得出用戶對未閱讀文章的興趣評價值,可將興趣評價值較高的一系列文章推薦給用戶。
2.如權(quán)利要求1所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述個性化推送方法還包括以下步驟:
步驟8:根據(jù)不同用戶的閱讀偏好建立用戶間的相似模型,將相似度較高的用戶所閱讀的部分文章進(jìn)行相互推送。
3.如權(quán)利要求2所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述個性化推送方法還包括以下步驟:
步驟9:將熱門新聞、短期的爆炸性新聞推薦給用戶。
4.如權(quán)利要求1~3之一所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述步驟1中,電子讀物平均閱讀時間計(jì)算方法包括如下步驟:
1.1)統(tǒng)計(jì)電子讀物中不同語言分別對應(yīng)的字?jǐn)?shù)以及其它媒體文件的總播放時長;
1.2)給定不同語言的平均閱讀速度;
1.3)依據(jù)不同語言的字?jǐn)?shù)和相應(yīng)的平均閱讀速度計(jì)算出此語言的閱讀時間;
1.4)對各種不同語言的閱讀時間和媒體文件的播放時長計(jì)算出該文章的總閱讀時間。
5.如權(quán)利要求1~3之一所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述步驟3中,用戶平均閱讀速度的建立過程如下:首先給定一個初始狀態(tài),即先給定一個平均閱讀速度保存至其平均速度列表中,該平均速度列表中保存有不同語言的平均速度初始狀態(tài)值,并記錄用戶不同語言的實(shí)際閱讀速度,用實(shí)際閱讀速度對其初始平均閱讀速度進(jìn)行實(shí)時矯正訓(xùn)練,并保存在平均速度列表中作為用戶的平均閱讀速度。
6.如權(quán)利要求1~3之一所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述步驟4中,用戶單一文章閱讀時間的計(jì)算:電子讀物不同語言對應(yīng)的字?jǐn)?shù)和用戶不同語言的平均閱讀速度的比值即為用戶不同語言的閱讀時間,對不同語言的閱讀時間和媒體文件的播放時長求和即為用戶單一文章的平均閱讀時間;
T=T1+T2+…+TN+Ta+Tb=M1/V1+M2/V2+…+MN/VN+Ta+Tb (1)
其中,T為用戶單一文章的平均閱讀時間;T1,T2…TN分別為用戶對不同語言的閱讀時間;Ta,Tb分別表示媒體文件總的播放時長和圖片閱讀所需要的時間;M1,M2…MN分別表示不同語言的總字?jǐn)?shù);V1,V2…VN分別表示用戶對不同語言的平均閱讀速度;
所述步驟5中,用戶單一文章閱讀完整度的判定:用戶完成點(diǎn)擊、拖動到底、退出三個步驟并且其閱讀時間滿足相應(yīng)的閾值時表明是完整閱讀,否則被認(rèn)為是未完整閱讀;根據(jù)步驟4中用戶單一文章閱讀時間的計(jì)算,再結(jié)合用戶對該文章的實(shí)際閱讀時間確定閱讀完整度,定義單一文章的實(shí)際閱讀時間和平均閱讀時間的比值為閱讀完整度:即
α=a/b (2)
其中,α為閱讀完整度,a表示用戶單一文章的實(shí)際閱讀時間,b表示平均閱讀時間。
7.如權(quán)利要求6所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述步驟6中,根據(jù)步驟5中所得閱讀完整度,建立用戶偏好度,用戶偏好度度量值與閱讀完整度密切相關(guān),建立如下算法:
其中,αmin0表示閱讀時間比設(shè)定的閾值,當(dāng)閱讀時間小于αmin0時用戶的偏好度為0;αmin1和αmax1之間是用戶偏好度為1的情況下設(shè)定的閱讀時間比上下閾值,即可認(rèn)為用戶對此文章十分感興趣;在αmin0和αmin1之間其偏好度滿足如上的函數(shù)關(guān)系;當(dāng)閱讀時間比大于αmax1時說明用戶的閱讀時間過長。
8.如權(quán)利要求1~3之一所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述步驟7中,根據(jù)閱讀完整度建立的用戶偏好度和關(guān)鍵字等來建立用戶偏好模型,個性化地向用戶推薦感興趣但又從未瀏覽過的文章。對于一篇新的文章,可先根據(jù)其內(nèi)容轉(zhuǎn)換為內(nèi)容特征向量,再與用戶偏好模型進(jìn)行匹配運(yùn)算得出相似度,由相似度得到用戶對未閱讀文章的興趣評價值;從而將興趣評價值較高的一系列文章推薦給用戶。
9.如權(quán)利要求8所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:所述步驟7的過程如下:
用戶在進(jìn)行閱讀文章的過程中會根據(jù)文章的內(nèi)容和步驟6中所述的偏好度轉(zhuǎn)化為用戶的偏好向量,用如下公式來計(jì)算:
其中,ω(t,d)表示關(guān)鍵詞t在文本d中出現(xiàn)的權(quán)重;tf(t,d)表示關(guān)鍵詞t在文本d中出現(xiàn)的頻率;N為樣本出現(xiàn)的總次數(shù);Nt表示所有樣本中t出現(xiàn)的文本數(shù);在步驟6中引入的用戶偏好度后,文章的用戶偏好向量表示為:
I={(t1,ω1),(t2,ω2),…,(tm,ωm),f(α)} (5)
對此偏好向量進(jìn)行擴(kuò)展,其不僅包含文章的內(nèi)容信息,還攜帶著用戶的閱讀行為,用戶的興趣模型表征形式如下:
其中,n為興趣向量的個數(shù),m為每個興趣向量所包含的維數(shù)。
再引入偏好矩陣I來刻畫任意兩個偏好向量的相似度,并找出最大相似度Smax,運(yùn)用夾角余弦法來計(jì)算相似度,公式如下:
其中,Vs,Vr為偏好矩陣I中兩個興趣向量;sim(Vs,Vr)為Vs,Vr的相似度;ωri和ωsj分別為Vs,Vr中特征詞tri、tsj所對應(yīng)的權(quán)值;
對于新的文章,其內(nèi)容特征向量表示為:
Vnew=((t1,ω1),(t2,ω2),…,(tm,ωm)) (8)
最后通過如下評價得出用戶對未閱讀文章的興趣評價值為:
其中,Vi表示用戶興趣模型中第i個興趣向量對應(yīng)的內(nèi)容特征向量;f(αi)為興趣向量Vi對應(yīng)的偏好度;sim(Vi,Vnew)為未閱讀文章與興趣向量Vi之間的相似度;
由此得出用戶對未閱讀文章的興趣評價值,從而將興趣評價值較高的一系列文章推薦給用戶。
10.如權(quán)利要求2或3所述的一種基于閱讀時間的用戶閱讀偏好統(tǒng)計(jì)的個性化推送方法,其特征在于:在所述步驟8中,通過計(jì)算用戶間的相似度,將與其相似度較高的用戶所閱讀的系列文章推薦給對方,從而擴(kuò)展并發(fā)掘用戶的潛在興趣,過程如下:
其中a和b分別表示兩個不同的用戶,wk表示某一文本關(guān)鍵詞k對應(yīng)的權(quán)重,Vak,Vbk分別表示用戶a和b對該文本的興趣向量;
針對用戶b所閱讀的文本k建立用戶a與b之間的相似度,如果相似度高,就把用戶b所閱讀過的,并且用戶a對其相似度較高的文章推薦給用戶a。