利用多維數(shù)據(jù)預(yù)測用戶興趣的方法_2

文檔序號：9787489閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>利用多維數(shù)據(jù)預(yù)測用戶興趣的方法

及在實際中的應(yīng)用，還需要對樹結(jié)構(gòu)特征詞進(jìn)行別名和近義詞擴(kuò)充。
[0028] 特定興趣將興趣特征詞改成了特征詞在興趣樹結(jié)構(gòu)里的標(biāo)識符，利用興趣特征詞擴(kuò)展成興趣詞匯的集合，具體體現(xiàn)在用戶興趣模型的標(biāo)識符，在還原用戶興趣和應(yīng)用過程中，對樹結(jié)構(gòu)進(jìn)行解析和擴(kuò)展。一方面是近義詞擴(kuò)展，另一方面對有歧義或者是包含關(guān)系的特征詞進(jìn)行語義分析和興趣特征詞判別。用戶興趣是通過向量表示，向量中的元素是一個鍵值對，分別是興趣模型中的標(biāo)識符和具有權(quán)值。
[0029] -般用戶興趣模型的構(gòu)建需要先經(jīng)過檢索結(jié)果預(yù)處理和檢索結(jié)果分類再來實現(xiàn)。所使用的檢索結(jié)果先經(jīng)過興趣對象判別。在興趣確定上設(shè)定一個閾值，只有達(dá)到閾值的特征詞才能被判別為興趣，并在之后的興趣更新階段進(jìn)行權(quán)值增加，或者權(quán)值減少到取消該興趣。在檢索結(jié)果特征詞的提取上進(jìn)行一定的過濾，檢索結(jié)果進(jìn)行分詞并取消停用詞等相應(yīng)處理之后，采用低頻閾值來篩選檢索結(jié)果特征詞。
[0030] 為防止對特征詞的提取造成誤導(dǎo)的影響，在原檢索結(jié)果特征詞提取規(guī)則上設(shè)置了高頻上限，在一定程度上遏制檢索詞堆砌的對用戶興趣判別的影響。詞條頻率超過了高頻閾值的詞條同樣不能被判別為檢索結(jié)果特征詞，在特征詞確定的同時記錄該詞的詞頻和出現(xiàn)的位置信息，用于確定為興趣特征詞之后的權(quán)值計算。興趣特征詞的確定在檢索結(jié)果特征詞匯判別之后，根據(jù)檢索結(jié)果特征詞所有頁面出現(xiàn)的次數(shù)來確定，興趣特征詞的判別公式表示如下：
[0031 ] Iterm 一 ( l/ll )( Tpage+Tsearch_d ) +Tsubmit
[0032] 其中，Iterm是判別興趣特征詞時的興趣度值，如果值大于1則判別為興趣詞。Tpage3是指包含興趣特征詞的興趣對象數(shù)量;T_ rc；h是用戶手動輸入的檢索檢索詞出現(xiàn)的次數(shù);Tpage3 和T_rc；h是累加計算的。η是滿足興趣特征詞條件的計數(shù)閾值，只有Tpage3+T_ rc；h-d的值大于等于η才能被判別為興趣詞。Tsubmit則是用戶提交的興趣詞，該值只能為0或者1。
[0033] 用戶興趣模型的更新策略依據(jù)是興趣特征詞使用頻率的變化，具體計算體現(xiàn)興趣詞的權(quán)值變化。在特征詞判別為興趣特征詞后，需要設(shè)置其初始化權(quán)值為1，該值是興趣詞的最小權(quán)值，如果權(quán)值小于1那么該詞應(yīng)該從興趣向量中取消。在確定為興趣特征詞之后還需要根據(jù)詞的重要性進(jìn)行一次權(quán)值分配計算，除了詞頻還有根據(jù)詞條在頁面中出現(xiàn)的位置，位置關(guān)系的重要性通過檢索結(jié)果中源文件標(biāo)記來識別。
[0034] 將權(quán)值計算公式表示為：
[0036]其中W1，表示興趣特征詞的權(quán)值，wo是權(quán)值初始值，即判別為興趣特征詞后設(shè)置的初值為1，
是包含興趣特征詞檢索結(jié)果的平均權(quán)值，η為包含該興趣特征詞的檢索結(jié)果數(shù)，k為興趣特征詞在所有檢索結(jié)果中出現(xiàn)的總數(shù)。wpi是相應(yīng)檢索結(jié)果中檢索詞的權(quán)值，同樣如果文檔中檢索詞出現(xiàn)的頻率越高最后計算的也越大。
[0037] 興趣檢索詞不被用戶使用，相當(dāng)于用戶在忽略該興趣詞，因此將興趣忽略過程描述為：
[0038] F(t)=e-log2/(hSt)
[0039] 其中，St是時間間隔，表示檢索詞最后一次更新到現(xiàn)在的時間，即當(dāng)前時間減去最后一次更新時候的天數(shù)。h是預(yù)設(shè)周期，經(jīng)過h天后F(t)的值為原值一半。
[0040] 最后得到的權(quán)值更新計算公式為：
[0041] Wi=Wi XF(t)+yN
[0042] 其中，N為興趣特征詞被更新的次數(shù)，y為每次興趣詞被使用后權(quán)值增加系數(shù)。
[0043] 在用戶興趣形成時默認(rèn)都是短期興趣，隨著N的增加，表示該詞經(jīng)常被使用，當(dāng)其值超過閾值就將該興趣判別為長期興趣，本發(fā)明使用的N閾值為100。
[0044]綜上所述，本發(fā)明提出了一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法，有效提高互聯(lián) 網(wǎng)用戶特征的識別準(zhǔn)確率和時效性。
[0045]顯然，本領(lǐng)域的技術(shù)人員應(yīng)該理解，上述的本發(fā)明的各模塊或各步驟可以用通用的計算系統(tǒng)來實現(xiàn)，它們可以集中在單個的計算系統(tǒng)上，或者分布在多個計算系統(tǒng)所組成的網(wǎng)絡(luò)上，可選地，它們可以用計算系統(tǒng)可執(zhí)行的程序代碼來實現(xiàn)，從而，可以將它們存儲在存儲系統(tǒng)中由計算系統(tǒng)來執(zhí)行。這樣，本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。 [0046]應(yīng)當(dāng)理解的是，本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的原理，而不構(gòu)成對本發(fā)明的限制。因此，在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外，本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修改例。
【主權(quán)項】
1. 一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法，其特征在于，包括：接收用戶所輸入的檢索詞和用戶特征信息，根據(jù)所述用戶特征信息對檢索詞進(jìn)行優(yōu)化調(diào)整，將優(yōu)化調(diào)整后的檢索詞作為參數(shù)形成檢索結(jié)果列表，返回給用戶端。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述接收用戶所輸入的檢索詞和用戶特征信息，進(jìn)一步包括：對用戶在界面輸入的內(nèi)容進(jìn)行檢索詞分析提取，通過分詞器對用戶檢索內(nèi)容進(jìn)行分詞處理;每個詞對應(yīng)一個Term,最后得到一個檢索向量V(q) = (termi，terms，terms…term。)其中n〉l，其中檢索向量的每個維度都帶有一個數(shù)值，表示檢索詞對應(yīng)的權(quán)值，用來標(biāo)識檢索詞的重要程度；根據(jù)用戶注視行為判別興趣對象，再通過興趣對象進(jìn)行分析構(gòu)建興趣模型；具體估計公式為： Ip = 口 XTb+βΧυ。其中：其中Ip表示檢索結(jié)果興趣度分值，α和β是調(diào)整系數(shù)，即檢索結(jié)果注視時間和檢索結(jié)果交互操作在公式中占的比重，其中a+e=l;Tb是用戶在檢索結(jié)果停留的時間維度，通過正態(tài) 分布來計算，反映用戶的注視檢索結(jié)果時間；注視時間At與參考時間t的接近程度反映興趣度，t是根據(jù)文檔長度決定的參考時間，t和檢索結(jié)果長度成正比關(guān)系;Uo是用戶在檢索結(jié) 果上的交互操作，Ceepy表示用戶是否在檢索結(jié)果進(jìn)行復(fù)制操作，是則值為1，否值為0 ; Ssave表示用戶是否進(jìn)行檢索結(jié)果保存操作，是則值為1，否值為0 ; Rreply表示對于檢索結(jié)果是否進(jìn)行反饋相關(guān)操作，是則值為1，否值為〇;a、b和C是Uo的調(diào)整系數(shù)，根據(jù)不同的操作對是否是興趣對象評判的重要程度，分別對系數(shù)設(shè)置不同的值。3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述所述用戶特征信息對檢索詞進(jìn)行優(yōu)化調(diào)整，進(jìn)一步包括：基于0DP分類構(gòu)建興趣樹結(jié)構(gòu)，樹結(jié)構(gòu)的每個節(jié)點對應(yīng)一個興趣檢索詞，具有興趣節(jié)點類型標(biāo)識符，根據(jù)興趣節(jié)點在興趣樹結(jié)構(gòu)中的不同層次具有不同的權(quán)值;在興趣確定過程中設(shè)定闊值，只有達(dá)到該闊值的特征詞才能被判別為興趣，并在之后的興趣更新階段進(jìn)行權(quán)值增加，或者權(quán)值減少;在檢索結(jié)果特征詞的提取上進(jìn)行過濾，檢索結(jié)果進(jìn)行分詞并取消停用詞之后，采用低頻闊值來篩選檢索結(jié)果特征詞；在原檢索結(jié)果特征詞提取規(guī)則上設(shè)置高頻上限，即詞條頻率超過了高頻闊值的詞條不能被判別為檢索結(jié)果特征詞，在特征詞確定的同時記錄該詞的詞頻和出現(xiàn)的位置信息，用于確定為興趣特征詞之后的權(quán)值計算。
【專利摘要】本發(fā)明提供了一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法，該方法包括：接收用戶所輸入的檢索詞和用戶特征信息，根據(jù)所述用戶特征信息對檢索詞進(jìn)行優(yōu)化調(diào)整，將優(yōu)化調(diào)整后的檢索詞作為參數(shù)形成檢索結(jié)果列表，返回給用戶端。本發(fā)明提出了一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法，有效提高互聯(lián)網(wǎng)用戶特征的識別準(zhǔn)確率和時效性。
【IPC分類】G06F17/30
【公開號】CN105550282
【申請?zhí)枴緾N201510915999
【發(fā)明人】董政, 吳文杰, 陳露, 李學(xué)生
【申請人】成都陌云科技有限公司
【公開日】2016年5月4日
【申請日】2015年12月10日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用多維數(shù)據(jù)預(yù)測用戶興趣的方法_2