br>[0033]S201:當(dāng)接收到來(lái)自用戶的查詢請(qǐng)求時(shí),從該用戶的歷史記錄獲取該用戶的歷史搜索時(shí)間及關(guān)鍵詞;
[0034]S202:根據(jù)該用戶的歷史搜索時(shí)間及關(guān)鍵詞生成該用戶歷史搜索的時(shí)間序列,其中,時(shí)間序列包括按歷史搜索時(shí)間排列的關(guān)鍵詞;
[0035]S203:對(duì)時(shí)間序列的相似性進(jìn)行度量;
[0036]S204:根據(jù)所述度量的結(jié)果生成用戶搜索的關(guān)聯(lián)規(guī)則。
[0037]其中,歷史記錄多種多樣,不是歷史記錄之間存在先后順序,歷史記錄之間就必然存在因果聯(lián)系,本方案通過(guò)對(duì)時(shí)間序列的相似性進(jìn)行度量,使得繁雜的時(shí)間序列中,存在因果聯(lián)系和時(shí)間先后順序的時(shí)間序列得以關(guān)聯(lián);提高前瞻性推送需求信息的準(zhǔn)確性。
[0038]具體的,所述根據(jù)度量的結(jié)果生成用戶搜索關(guān)聯(lián)規(guī)則的步驟S204包括以下步驟:
[0039]基于時(shí)間序列生成一組由模式表達(dá)的模式子序列;
[0040]計(jì)算該組模式子序列之間的相似性;
[0041]基于模式子序列之間的相似性生成用戶搜索關(guān)聯(lián)規(guī)則。
[0042]更詳細(xì)的,在根據(jù)本發(fā)明的方法中,采用但不限于單調(diào)距離法、向量距離法等算法定義相似度量函數(shù)來(lái)計(jì)算模式子序列之間的相似性;相似性度量之后,將決定哪些模式子序列可以合并成同一個(gè)頻繁模式,然后再采用但不限于Apr1ri算法等方法獲得頻繁模式并生成相應(yīng)的關(guān)聯(lián)規(guī)則。時(shí)間序列雖然是指將同一統(tǒng)計(jì)指標(biāo)的數(shù)值按其發(fā)生的時(shí)間先后順序排列而成的數(shù)列,但時(shí)間序列很多時(shí)候不能直接的進(jìn)行相似性的度量,或者相似性度量難度較大,先將其轉(zhuǎn)化成為模式子序列,可以方便進(jìn)行相似性計(jì)算。Apr1ri算法是一種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過(guò)候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來(lái)挖掘頻繁項(xiàng)集。
[0043]在此,序列模式是指給定一個(gè)由不同序列組成的集合,其中,每個(gè)序列由不同的元素按順序有序排列,每個(gè)元素(交易)由不同項(xiàng)目組成,同時(shí)給定一個(gè)用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值。本發(fā)明借鑒于該序列模式。
[0044]可選地,如圖2所示,在生成用戶搜索關(guān)聯(lián)規(guī)則的步驟S204之后,還包以下步驟:
[0045]S205:對(duì)生成的用戶搜索關(guān)聯(lián)規(guī)則進(jìn)行驗(yàn)證;
[0046]S206:基于驗(yàn)證的結(jié)果,從所生成的用戶搜索關(guān)聯(lián)規(guī)則中篩選部分或全部用戶搜索關(guān)聯(lián)規(guī)則。具體地,在步驟S206中,可以結(jié)合測(cè)試數(shù)據(jù)驗(yàn)證和人工評(píng)估,對(duì)生成的用戶搜索關(guān)聯(lián)規(guī)則進(jìn)行評(píng)價(jià)和驗(yàn)證,存儲(chǔ)其中擁有較高可解釋性和置信度的規(guī)則,用于指導(dǎo)信息定向,幫助用戶快速的確定需求信息。
[0047]可選地,在該篩選部分或全部用戶搜索關(guān)聯(lián)規(guī)則的步驟中,可按照預(yù)設(shè)時(shí)間間隔檢測(cè)用戶搜索關(guān)聯(lián)規(guī)則的有效性,去除失效的用戶搜索關(guān)聯(lián)規(guī)則,而保留其中部分或全部未失效用戶搜索關(guān)聯(lián)規(guī)則。
[0048]具體地,所述檢測(cè)用戶搜索關(guān)聯(lián)規(guī)則的有效性的操作過(guò)程包括以下步驟:
[0049]監(jiān)測(cè)信息CTR的變化情況,當(dāng)CTR發(fā)生的變化超過(guò)預(yù)設(shè)閾值時(shí),判定相應(yīng)的關(guān)聯(lián)規(guī)則失效。當(dāng)信息CTR發(fā)生超過(guò)預(yù)設(shè)閾值的變化時(shí),說(shuō)明現(xiàn)在或者相對(duì)應(yīng)的關(guān)聯(lián)規(guī)則已然失效或者前瞻性不足,如此,將失效的關(guān)聯(lián)規(guī)則清除,方便加入和更新的關(guān)聯(lián)規(guī)則,同時(shí),使得可解釋性和高置信度的關(guān)聯(lián)規(guī)則能夠,更好更快的服務(wù)于用戶,給用戶以便利。采用ADWIN滑動(dòng)窗口算法對(duì)信息CTR的變化情況進(jìn)行監(jiān)測(cè)。
[0050]可選地,對(duì)時(shí)間序列的相似性進(jìn)行度量的步驟包括以下步驟:
[0051]對(duì)時(shí)間序列進(jìn)行預(yù)處理,去除數(shù)據(jù)的噪聲,以生成去除噪聲后的時(shí)間序列;
[0052]對(duì)去除噪聲后的時(shí)間序列的相似性進(jìn)行度量。
[0053]其中,該時(shí)間序列包含了我們所需要的用戶的歷史記錄內(nèi)容,同時(shí),也不可避免的一些有效數(shù)據(jù)以外的干擾數(shù)據(jù),對(duì)時(shí)間序列進(jìn)行去除噪聲的處理可以保證后續(xù)基于時(shí)間序列的處理和操作可以有效進(jìn)行,同時(shí)有助于提高確定用戶需求信息的準(zhǔn)確度。
[0054]可選地,被去除的噪聲是通過(guò)似然比或者概率統(tǒng)計(jì)等方式計(jì)算得到的偏離期望值的噪聲數(shù)據(jù)。通過(guò)計(jì)算,可以找出一些偏離期望值的數(shù)據(jù),這些數(shù)據(jù)即需要進(jìn)行去除的噪聲數(shù)據(jù)。
[0055]當(dāng)數(shù)據(jù)偏離期望值達(dá)到預(yù)設(shè)閾值時(shí),則可將該數(shù)據(jù)視為噪聲數(shù)據(jù)。某些數(shù)據(jù)可能偏離了期望值,但是偏離期望值不大,則該數(shù)據(jù)有很大可能是有效數(shù)據(jù),只是在傳輸和計(jì)算過(guò)程中的誤差造成其偏離期望值,設(shè)置期望值的預(yù)設(shè)閾值,可以幫助保留一些存在誤差的有效數(shù)據(jù),減少有效數(shù)據(jù)被剔除,而造成后續(xù)處理和計(jì)算出現(xiàn)更大誤差的情況。
[0056]可選地,在對(duì)時(shí)間序列進(jìn)行預(yù)處理,去除數(shù)據(jù)的噪聲,以生成去除噪聲后的時(shí)間序列后,可以先對(duì)去除噪聲后的時(shí)間序列進(jìn)行壓縮處理,以生成壓縮后的時(shí)間序列;
[0057]然后再對(duì)壓縮后的時(shí)間序列的相似性進(jìn)行度量。
[0058]其中,時(shí)間序列,特別是大量的時(shí)間序列才能保證信息定向和展示的準(zhǔn)確性,而海量的數(shù)據(jù),很可能造成數(shù)據(jù)堵塞,處理器負(fù)荷過(guò)大,處理速度慢等問(wèn)題;對(duì)時(shí)間序列進(jìn)行壓縮處理,能夠縮短關(guān)聯(lián)規(guī)則挖掘時(shí)的處理時(shí)間;而且在該壓縮處理過(guò)程中,還可以將時(shí)間序列轉(zhuǎn)化為一系列由模式表達(dá)的子序列,有助于后繼的規(guī)則挖掘。
[0059]可選地,壓縮處理采用平均值壓縮法或者分段壓縮法。
[0060]其中,可選地,所述根據(jù)用戶搜索關(guān)聯(lián)規(guī)則確定的用戶需求信息包括未來(lái)至少兩個(gè)不同時(shí)間段內(nèi)的用戶需求信息;其中,在前述步驟S102之后還包括步驟:
[0061]在不同的時(shí)間段內(nèi)分別將相應(yīng)的用戶需求信息提供給用戶所用的客戶端進(jìn)行展不ο
[0062]具體地,根據(jù)用戶搜索關(guān)聯(lián)規(guī)則確定的用戶需求信息包括未來(lái)至少兩個(gè)不同時(shí)間段內(nèi)的用戶需求信息,并在不同的時(shí)間段內(nèi)分別自動(dòng)加載并展示。例如某人在網(wǎng)上搜索了汽車(chē)的防撞貼紙、車(chē)坐墊等物品,這往往意味著他剛購(gòu)入一輛新車(chē)。那么在未來(lái)的一個(gè)月內(nèi),他可能還需要為新車(chē)購(gòu)買(mǎi)行車(chē)記錄儀、胎壓計(jì)、滅火器等物品。在未來(lái)幾個(gè)月后新車(chē)進(jìn)入保養(yǎng)期,他可能需要購(gòu)買(mǎi)機(jī)油、機(jī)濾等物品。根據(jù)不同的時(shí)間段,分別匹配不同的需求信息并給予自動(dòng)加載,可以讓用戶看到更加符合自己需求的信息,給用戶以便利;同時(shí)使得信息發(fā)布者,能夠?qū)⑿畔⒊尸F(xiàn)給更為準(zhǔn)確而有需求的人群。再者,對(duì)廣告主而言,近期的需求以效果廣告為佳,中長(zhǎng)期需求以展示廣告為佳。因此,本方案分時(shí)間段為用戶自動(dòng)加載和呈現(xiàn)不同的需求信息,給用戶尋找需求信息以便利。
[0063]可選地,本方法還包括以下步驟:
[0064]對(duì)需求信息進(jìn)行置信度度量;
[0065]當(dāng)所述需求信息的置信度達(dá)到預(yù)設(shè)條件時(shí),判斷用戶所用的客戶端是否處于等待場(chǎng)景;
[0066]若該客戶端處于等待場(chǎng)景,則將所述用戶需求信息提供給該客戶端進(jìn)行展示。
[0067]具體地,該等待場(chǎng)景可以是PC或者移動(dòng)端大數(shù)據(jù)傳輸場(chǎng)景、網(wǎng)頁(yè)刷新場(chǎng)景和等待應(yīng)用安裝場(chǎng)景等。
[0068]具體到網(wǎng)頁(yè)展示層次,當(dāng)網(wǎng)頁(yè)展示多條需求信息時(shí),可按如下方式進(jìn)行展示:
[0069]按照用戶的需求的時(shí)間順序,以預(yù)設(shè)時(shí)間間隔進(jìn)行輪流展示。例如,以輪播型式展示廣告時(shí),滿足用戶最近需求的廣告最先展示。
[0070]網(wǎng)頁(yè)的容量畢竟有限,按照預(yù)設(shè)時(shí)間間隔給予輪流展示,能夠在有限的版面更多的展示內(nèi)容,同時(shí),減少展示內(nèi)容占據(jù)的面積,避免用戶滿眼都是廣告等內(nèi)容,而煩心的情況。
[0071]可選地,當(dāng)網(wǎng)頁(yè)展示多條需求信息時(shí),可按照時(shí)間順序從左到右或從上到下進(jìn)行排布展示。例如,將廣告從左到右排布,滿足最近需求的廣告排在最左邊。并且,在廣告下方還可以時(shí)間軸標(biāo)注出用戶需求的大致時(shí)間。
[0072]可選地,在廣告排布展示時(shí)還可附注需求時(shí)間信息。
[0073]相對(duì)于比較枯燥的轉(zhuǎn)圈等待,可以利用這一契機(jī)自動(dòng)打開(kāi)展示滿足用戶未來(lái)需求的信息。例如,可以用生動(dòng)活潑的形式展現(xiàn)(小游戲)廣告。這一方法可以加深用戶印象、能降低用