利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興趣的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù),特別涉及一種利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興趣的方法。
【背景技術(shù)】
[0002] 隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)內(nèi)容給用戶(hù)提供了豐富的信息資源和服務(wù)然而網(wǎng)絡(luò) 上信息質(zhì)量卻是參差不齊,大量的信息被復(fù)制、轉(zhuǎn)載,各種推廣信息廣告檢索結(jié)果,已經(jīng)影 響了用戶(hù)體驗(yàn);如果對(duì)于所有用戶(hù)相同的檢索詞輸入返回一樣的檢索結(jié)果恐怕已經(jīng)不是用 戶(hù)希望的。只采用檢索詞匹配的方式,而忽略獨(dú)立用戶(hù)的真正需求,也就是不結(jié)合用戶(hù)行為 (包括用戶(hù)興趣、用戶(hù)偏好、用戶(hù)查詢(xún)記錄)和檢索詞而對(duì)用戶(hù)本次查詢(xún)意圖做出準(zhǔn)確的判 斷,將無(wú)法給出符合用戶(hù)需求的結(jié)果。現(xiàn)有的技術(shù)方案是通過(guò)用戶(hù)的注視歷史或個(gè)人描述 信息為用戶(hù)建立興趣特征向量,再利用該向量對(duì)檢索返回的檢索結(jié)果進(jìn)行相似度的計(jì)算, 這往往將一些用戶(hù)真正需要的卻沒(méi)有在向量?jī)?nèi)的信息排除在外。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問(wèn)題,本發(fā)明提出了一種利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興 趣的方法,包括:
[0004] 接收用戶(hù)所輸入的檢索詞和用戶(hù)特征信息,根據(jù)所述用戶(hù)特征信息對(duì)檢索詞進(jìn)行 優(yōu)化調(diào)整,將優(yōu)化調(diào)整后的檢索詞作為參數(shù)形成檢索結(jié)果列表,返回給用戶(hù)端。
[0005] 優(yōu)選地,所述接收用戶(hù)所輸入的檢索詞和用戶(hù)特征信息,進(jìn)一步包括:
[0006] 對(duì)用戶(hù)在界面輸入的內(nèi)容進(jìn)行檢索詞分析提取,通過(guò)分詞器對(duì)用戶(hù)檢索內(nèi)容進(jìn)行 分詞處理;每個(gè)詞對(duì)應(yīng)一個(gè)Term,最后得到一個(gè)檢索向量V(q) = (termi,term〗,term3~ termn)其中η>1,其中檢索向量的每個(gè)維度都帶有一個(gè)數(shù)值,表示檢索詞對(duì)應(yīng)的權(quán)值,用來(lái) 標(biāo)識(shí)檢索詞的重要程度;
[0007] 根據(jù)用戶(hù)注視行為判別興趣對(duì)象,再通過(guò)興趣對(duì)象進(jìn)行分析構(gòu)建興趣模型;具體 估計(jì)公式為:
[0008] Ip = aXTb+PXU〇
[0009] 其中:
[0011] U0 = a X Cc〇py+b X Ssave+G X RrepIy
[0012] 其中Ip表示檢索結(jié)果興趣度分值,α和β是調(diào)整系數(shù),即檢索結(jié)果注視時(shí)間和檢索 結(jié)果交互操作在公式中占的比重,其中a+i3=l;T b是用戶(hù)在檢索結(jié)果停留的時(shí)間維度,通過(guò) 正態(tài)分布來(lái)計(jì)算,反映用戶(hù)的注視檢索結(jié)果時(shí)間;注視時(shí)間At與參考時(shí)間t的接近程度反 映興趣度,t是根據(jù)文檔長(zhǎng)度決定的參考時(shí)間,t和檢索結(jié)果長(zhǎng)度成正比關(guān)系;Uo是用戶(hù)在檢 索結(jié)果上的交互操作,C_ y表示用戶(hù)是否在檢索結(jié)果進(jìn)行復(fù)制操作,是則值為1,否值為0; Ssave3表示用戶(hù)是否進(jìn)行檢索結(jié)果保存操作,是則值為1,否值為0 ;Rre3ply表示對(duì)于檢索結(jié)果是 否進(jìn)行反饋相關(guān)操作,是則值為I,否值為〇;a、b和c是Uo的調(diào)整系數(shù),根據(jù)不同的操作對(duì)是 否是興趣對(duì)象評(píng)判的重要程度,分別對(duì)系數(shù)設(shè)置不同的值。
[0013] 優(yōu)選地,基于ODP分類(lèi)構(gòu)建興趣樹(shù)結(jié)構(gòu),樹(shù)結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)興趣檢索詞, 具有興趣節(jié)點(diǎn)類(lèi)型標(biāo)識(shí)符,根據(jù)興趣節(jié)點(diǎn)在興趣樹(shù)結(jié)構(gòu)中的不同層次具有不同的權(quán)值;在 興趣確定過(guò)程中設(shè)定閾值,只有達(dá)到該閾值的特征詞才能被判別為興趣,并在之后的興趣 更新階段進(jìn)行權(quán)值增加,或者權(quán)值減少;在檢索結(jié)果特征詞的提取上進(jìn)行過(guò)濾,檢索結(jié)果進(jìn) 行分詞并取消停用詞之后,采用低頻閾值來(lái)篩選檢索結(jié)果特征詞;在原檢索結(jié)果特征詞提 取規(guī)則上設(shè)置高頻上限,即詞條頻率超過(guò)了高頻閾值的詞條不能被判別為檢索結(jié)果特征 詞,在特征詞確定的同時(shí)記錄該詞的詞頻和出現(xiàn)的位置信息,用于確定為興趣特征詞之后 的權(quán)值計(jì)算。
[0014] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
[0015] 本發(fā)明提出了一種利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興趣的方法,有效提高互聯(lián)網(wǎng)用戶(hù)特征 的識(shí)別準(zhǔn)確率,充分考慮到檢索結(jié)果與用戶(hù)查詢(xún)內(nèi)容的相關(guān)度,應(yīng)用廣泛,實(shí)現(xiàn)方便。
【附圖說(shuō)明】
[0016] 圖1是根據(jù)本發(fā)明實(shí)施例的利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興趣的方法的流程圖。
【具體實(shí)施方式】
[0017] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利 要求書(shū)限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以 便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無(wú)這些具體細(xì)節(jié)中的 一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書(shū)實(shí)現(xiàn)本發(fā)明。
[0018] 本發(fā)明的一方面提供了一種利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興趣的方法。圖1是根據(jù)本發(fā) 明實(shí)施例的利用多維數(shù)據(jù)預(yù)測(cè)用戶(hù)興趣的方法流程圖。本發(fā)明的方案在原通用檢索架構(gòu)基 礎(chǔ)上增加用戶(hù)興趣模塊,采用查詢(xún)改進(jìn)與權(quán)值設(shè)置結(jié)合方式。用戶(hù)輸入檢索詞后由興趣向 量調(diào)整查詢(xún)信息,并根據(jù)用戶(hù)興趣設(shè)定不同的權(quán)值初始值,在返回結(jié)果列表中調(diào)整排列順 序。
[0019] 在檢索架構(gòu)中,信息采集模塊負(fù)責(zé)收集用戶(hù)數(shù)據(jù),包括用戶(hù)檢索詞,注視行為,網(wǎng) 頁(yè)注視時(shí)間等能夠反映用戶(hù)特征的信息,為構(gòu)建用戶(hù)興趣模型作準(zhǔn)備。然后興趣模塊根據(jù) 本次查詢(xún)內(nèi)容結(jié)合用戶(hù)興趣,優(yōu)化調(diào)整用戶(hù)檢索檢索詞,同時(shí)將興趣向量和調(diào)整后的查詢(xún) 詞作為參數(shù)傳遞到排序公式中,最后把經(jīng)過(guò)優(yōu)化過(guò)濾的檢索結(jié)果列表返回給用戶(hù)端瀏覽 器。
[0020] 信息采集模塊包括檢索詞提取和用戶(hù)相關(guān)操作兩部分:1)檢索詞提取,是對(duì)用戶(hù) 在檢索界面輸入的內(nèi)容進(jìn)行檢索詞分析提取,通過(guò)分詞器對(duì)用戶(hù)查詢(xún)內(nèi)容進(jìn)行分詞處理。 每個(gè)詞對(duì)應(yīng)一個(gè)Term,最后得到一個(gè)查詢(xún)向量V(q) = (termi,terim,temr"termn)其中n> I,其中查詢(xún)向量的每個(gè)維度都帶有一個(gè)數(shù)值,表示檢索詞對(duì)應(yīng)的權(quán)值,用來(lái)標(biāo)識(shí)檢索詞的 重要程度。2)獲取用戶(hù)相關(guān)操作信息。用戶(hù)在注視結(jié)果列表的過(guò)程中,可能只是因?yàn)闃?biāo)題吸 引而點(diǎn)擊了排名靠前的檢索結(jié)果,但是檢索結(jié)果內(nèi)容并不符合用戶(hù)需求。所以首先要根據(jù) 用戶(hù)注視行為判別興趣對(duì)象,再通過(guò)興趣對(duì)象進(jìn)行分析構(gòu)建興趣模型。
[0021] 注視時(shí)間長(zhǎng)度、在注視檢索結(jié)果的時(shí)候是否進(jìn)行內(nèi)容復(fù)制,收藏等交互操作均表 征興趣對(duì)象的關(guān)系。綜上考慮對(duì)用戶(hù)注視檢索結(jié)果進(jìn)行估計(jì)從而得出檢索結(jié)果是否為用戶(hù) 的興趣對(duì)象,用作構(gòu)建興趣模型的參考內(nèi)容。具體估計(jì)公式如:
[0022] Ip = aXTb+PXU〇
[0023] 其中:
[0025] U0 = a X Cc〇py+b X SsaVe+G X RrepIy
[0026] Ip表示檢索結(jié)果興趣度分值,α和β是調(diào)整系數(shù),通過(guò)不同的值反映檢索結(jié)果注視 時(shí)間和檢索結(jié)果交互操作在估計(jì)公式中占的比重,其中α+β = 1 Jb是用戶(hù)在檢索結(jié)果停留 的時(shí)間維度,通過(guò)正態(tài)分布來(lái)計(jì)算,反映出用戶(hù)的注視檢索結(jié)果時(shí)間。注視時(shí)間At與參考 時(shí)間t的接近程度反映興趣度,注視時(shí)間過(guò)長(zhǎng)或者過(guò)短都會(huì)降低興趣在檢索結(jié)果注視時(shí)間 上的分值,t是根據(jù)文檔長(zhǎng)度決定的,t和檢索結(jié)果長(zhǎng)度成正比關(guān)系。Uo是用戶(hù)在檢索結(jié)果上 的交互操作,C rapy表示用戶(hù)是否在檢索結(jié)果進(jìn)行復(fù)制操作,是則值為1,否值為0 ; Ssare表示用 戶(hù)是否進(jìn)行檢索結(jié)果保存操作,是則值為1,否值為〇;Rre3ply表示對(duì)于檢索結(jié)果是否進(jìn)行反饋 相關(guān)操作,是則值為1,否值為(Ka、b和c是Uo的調(diào)整系數(shù),根據(jù)不同的操作對(duì)是否是興趣對(duì) 象評(píng)判的重要程度,分別對(duì)系數(shù)設(shè)置不同的值。
[0027] 本發(fā)明將用戶(hù)興趣分成普遍興趣和特定興趣,這里的普遍興趣不屬于任何一個(gè)用 戶(hù),它是脫離用戶(hù)獨(dú)立存在的,可以看作特征詞構(gòu)成的樹(shù)結(jié)構(gòu)。而特定興趣則是上述樹(shù)結(jié)構(gòu) 的節(jié)點(diǎn)集合,具有普遍興趣的興趣節(jié)點(diǎn)類(lèi)型標(biāo)識(shí)符,根據(jù)興趣節(jié)點(diǎn)在興趣樹(shù)結(jié)構(gòu)中的不同 層次具有不同的權(quán)值。使得興趣模型是脫離用戶(hù)依賴(lài),在索引階段或者是離線(xiàn)階段興趣模 型不受到限制的使用。本發(fā)明興趣模型基于ODP分類(lèi)構(gòu)建的,樹(shù)結(jié)構(gòu)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)興 趣檢索詞,為擴(kuò)展興趣模型的覆蓋面以