及在實際中的應(yīng)用,還需要對樹結(jié)構(gòu)特征詞進(jìn)行別 名和近義詞擴(kuò)充。
[0028] 特定興趣將興趣特征詞改成了特征詞在興趣樹結(jié)構(gòu)里的標(biāo)識符,利用興趣特征詞 擴(kuò)展成興趣詞匯的集合,具體體現(xiàn)在用戶興趣模型的標(biāo)識符,在還原用戶興趣和應(yīng)用過程 中,對樹結(jié)構(gòu)進(jìn)行解析和擴(kuò)展。一方面是近義詞擴(kuò)展,另一方面對有歧義或者是包含關(guān)系的 特征詞進(jìn)行語義分析和興趣特征詞判別。用戶興趣是通過向量表示,向量中的元素是一個 鍵值對,分別是興趣模型中的標(biāo)識符和具有權(quán)值。
[0029] -般用戶興趣模型的構(gòu)建需要先經(jīng)過檢索結(jié)果預(yù)處理和檢索結(jié)果分類再來實現(xiàn)。 所使用的檢索結(jié)果先經(jīng)過興趣對象判別。在興趣確定上設(shè)定一個閾值,只有達(dá)到閾值的特 征詞才能被判別為興趣,并在之后的興趣更新階段進(jìn)行權(quán)值增加,或者權(quán)值減少到取消該 興趣。在檢索結(jié)果特征詞的提取上進(jìn)行一定的過濾,檢索結(jié)果進(jìn)行分詞并取消停用詞等相 應(yīng)處理之后,采用低頻閾值來篩選檢索結(jié)果特征詞。
[0030] 為防止對特征詞的提取造成誤導(dǎo)的影響,在原檢索結(jié)果特征詞提取規(guī)則上設(shè)置了 高頻上限,在一定程度上遏制檢索詞堆砌的對用戶興趣判別的影響。詞條頻率超過了高頻 閾值的詞條同樣不能被判別為檢索結(jié)果特征詞,在特征詞確定的同時記錄該詞的詞頻和出 現(xiàn)的位置信息,用于確定為興趣特征詞之后的權(quán)值計算。興趣特征詞的確定在檢索結(jié)果特 征詞匯判別之后,根據(jù)檢索結(jié)果特征詞所有頁面出現(xiàn)的次數(shù)來確定,興趣特征詞的判別公 式表示如下:
[0031 ] Iterm 一 ( l/ll )( Tpage+Tsearch_d ) +Tsubmit
[0032] 其中,Iterm是判別興趣特征詞時的興趣度值,如果值大于1則判別為興趣詞。Tpage3是 指包含興趣特征詞的興趣對象數(shù)量;T_ rc;h是用戶手動輸入的檢索檢索詞出現(xiàn)的次數(shù);Tpage3 和T_rc;h是累加計算的。η是滿足興趣特征詞條件的計數(shù)閾值,只有Tpage3+T_ rc;h-d的值大于 等于η才能被判別為興趣詞。Tsubmit則是用戶提交的興趣詞,該值只能為0或者1。
[0033] 用戶興趣模型的更新策略依據(jù)是興趣特征詞使用頻率的變化,具體計算體現(xiàn)興趣 詞的權(quán)值變化。在特征詞判別為興趣特征詞后,需要設(shè)置其初始化權(quán)值為1,該值是興趣詞 的最小權(quán)值,如果權(quán)值小于1那么該詞應(yīng)該從興趣向量中取消。在確定為興趣特征詞之后還 需要根據(jù)詞的重要性進(jìn)行一次權(quán)值分配計算,除了詞頻還有根據(jù)詞條在頁面中出現(xiàn)的位 置,位置關(guān)系的重要性通過檢索結(jié)果中源文件標(biāo)記來識別。
[0034] 將權(quán)值計算公式表示為:
[0036]其中W1,表示興趣特征詞的權(quán)值,wo是權(quán)值初始值,即判別為興趣特征詞后設(shè)置的 初值為1,
是包含興趣特征詞檢索結(jié)果的平均權(quán)值,η為包含該興趣特征詞的 檢索結(jié)果數(shù),k為興趣特征詞在所有檢索結(jié)果中出現(xiàn)的總數(shù)。wpi是相應(yīng)檢索結(jié)果中檢索詞的 權(quán)值,同樣如果文檔中檢索詞出現(xiàn)的頻率越高最后計算的也越大。
[0037] 興趣檢索詞不被用戶使用,相當(dāng)于用戶在忽略該興趣詞,因此將興趣忽略過程描 述為:
[0038] F(t)=e-log2/(hSt)
[0039] 其中,St是時間間隔,表示檢索詞最后一次更新到現(xiàn)在的時間,即當(dāng)前時間減去最 后一次更新時候的天數(shù)。h是預(yù)設(shè)周期,經(jīng)過h天后F(t)的值為原值一半。
[0040] 最后得到的權(quán)值更新計算公式為:
[0041] Wi=Wi XF(t)+yN
[0042] 其中,N為興趣特征詞被更新的次數(shù),y為每次興趣詞被使用后權(quán)值增加系數(shù)。
[0043] 在用戶興趣形成時默認(rèn)都是短期興趣,隨著N的增加,表示該詞經(jīng)常被使用,當(dāng)其 值超過閾值就將該興趣判別為長期興趣,本發(fā)明使用的N閾值為100。
[0044]綜上所述,本發(fā)明提出了一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法,有效提高互聯(lián) 網(wǎng)用戶特征的識別準(zhǔn)確率和時效性。
[0045]顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各模塊或各步驟可以用通用 的計算系統(tǒng)來實現(xiàn),它們可以集中在單個的計算系統(tǒng)上,或者分布在多個計算系統(tǒng)所組成 的網(wǎng)絡(luò)上,可選地,它們可以用計算系統(tǒng)可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲 在存儲系統(tǒng)中由計算系統(tǒng)來執(zhí)行。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。 [0046]應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項】
1. 一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法,其特征在于,包括: 接收用戶所輸入的檢索詞和用戶特征信息,根據(jù)所述用戶特征信息對檢索詞進(jìn)行優(yōu)化 調(diào)整,將優(yōu)化調(diào)整后的檢索詞作為參數(shù)形成檢索結(jié)果列表,返回給用戶端。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述接收用戶所輸入的檢索詞和用戶特征 信息,進(jìn)一步包括: 對用戶在界面輸入的內(nèi)容進(jìn)行檢索詞分析提取,通過分詞器對用戶檢索內(nèi)容進(jìn)行分詞 處理;每個詞對應(yīng)一個Term,最后得到一個檢索向量V(q) = (termi,terms,terms…term。)其 中n〉l,其中檢索向量的每個維度都帶有一個數(shù)值,表示檢索詞對應(yīng)的權(quán)值,用來標(biāo)識檢索 詞的重要程度; 根據(jù)用戶注視行為判別興趣對象,再通過興趣對象進(jìn)行分析構(gòu)建興趣模型;具體估計 公式為: Ip = 口 XTb+βΧυ。 其中:其中Ip表示檢索結(jié)果興趣度分值,α和β是調(diào)整系數(shù),即檢索結(jié)果注視時間和檢索結(jié)果 交互操作在公式中占的比重,其中a+e=l;Tb是用戶在檢索結(jié)果停留的時間維度,通過正態(tài) 分布來計算,反映用戶的注視檢索結(jié)果時間;注視時間At與參考時間t的接近程度反映興 趣度,t是根據(jù)文檔長度決定的參考時間,t和檢索結(jié)果長度成正比關(guān)系;Uo是用戶在檢索結(jié) 果上的交互操作,Ceepy表示用戶是否在檢索結(jié)果進(jìn)行復(fù)制操作,是則值為1,否值為0 ; Ssave表 示用戶是否進(jìn)行檢索結(jié)果保存操作,是則值為1,否值為0 ; Rreply表示對于檢索結(jié)果是否進(jìn)行 反饋相關(guān)操作,是則值為1,否值為〇;a、b和C是Uo的調(diào)整系數(shù),根據(jù)不同的操作對是否是興 趣對象評判的重要程度,分別對系數(shù)設(shè)置不同的值。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述所述用戶特征信息對檢索詞進(jìn)行優(yōu)化 調(diào)整,進(jìn)一步包括: 基于0DP分類構(gòu)建興趣樹結(jié)構(gòu),樹結(jié)構(gòu)的每個節(jié)點對應(yīng)一個興趣檢索詞,具有興趣節(jié)點 類型標(biāo)識符,根據(jù)興趣節(jié)點在興趣樹結(jié)構(gòu)中的不同層次具有不同的權(quán)值;在興趣確定過程 中設(shè)定闊值,只有達(dá)到該闊值的特征詞才能被判別為興趣,并在之后的興趣更新階段進(jìn)行 權(quán)值增加,或者權(quán)值減少;在檢索結(jié)果特征詞的提取上進(jìn)行過濾,檢索結(jié)果進(jìn)行分詞并取消 停用詞之后,采用低頻闊值來篩選檢索結(jié)果特征詞;在原檢索結(jié)果特征詞提取規(guī)則上設(shè)置 高頻上限,即詞條頻率超過了高頻闊值的詞條不能被判別為檢索結(jié)果特征詞,在特征詞確 定的同時記錄該詞的詞頻和出現(xiàn)的位置信息,用于確定為興趣特征詞之后的權(quán)值計算。
【專利摘要】本發(fā)明提供了一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法,該方法包括:接收用戶所輸入的檢索詞和用戶特征信息,根據(jù)所述用戶特征信息對檢索詞進(jìn)行優(yōu)化調(diào)整,將優(yōu)化調(diào)整后的檢索詞作為參數(shù)形成檢索結(jié)果列表,返回給用戶端。本發(fā)明提出了一種利用多維數(shù)據(jù)預(yù)測用戶興趣的方法,有效提高互聯(lián)網(wǎng)用戶特征的識別準(zhǔn)確率和時效性。
【IPC分類】G06F17/30
【公開號】CN105550282
【申請?zhí)枴緾N201510915999
【發(fā)明人】董政, 吳文杰, 陳露, 李學(xué)生
【申請人】成都陌云科技有限公司
【公開日】2016年5月4日
【申請日】2015年12月10日