本發(fā)明涉及計(jì)算機(jī)及其信息檢索領(lǐng)域,具體涉及一種基于時(shí)間衰減的相關(guān)搜索詞挖掘方法及系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,信息的獲取變得極為容易,人們僅需要通過(guò)搜索引擎就能查詢(xún)到自己想要的信息;常用的搜索方式為通過(guò)在搜索欄中輸入關(guān)鍵詞進(jìn)行搜索,并且會(huì)推薦給用戶(hù)與關(guān)鍵詞對(duì)應(yīng)的熱搜詞。
但是信息檢索的過(guò)程中,用戶(hù)搜索了某個(gè)關(guān)鍵詞,然后通過(guò)瀏覽發(fā)現(xiàn)沒(méi)有合適的鏈接,經(jīng)常需要變換查詢(xún)?cè)僦匦滤阉?。很多情況下,用戶(hù)并不確定需要重新如何進(jìn)行搜索才能找到目標(biāo)文檔,因此,現(xiàn)有技術(shù)中,開(kāi)發(fā)了“相關(guān)搜索”功能,通過(guò)用戶(hù)當(dāng)前搜索詞和整站內(nèi)部的所有搜索行為,可以“推薦”給用戶(hù)更合適與搜索詞相對(duì)應(yīng)的頻繁項(xiàng)集。
現(xiàn)有技術(shù)的不足之處在于,推薦的頻繁項(xiàng)集存在較多的噪音,使推薦的頻繁項(xiàng)集過(guò)于繁多,人員仍然無(wú)法很好的確定相關(guān)搜索詞;在用戶(hù)的搜索過(guò)程中,時(shí)間距離太久遠(yuǎn)的相關(guān)搜索詞和最近、最熱門(mén)的相關(guān)搜索詞將被以相同的權(quán)重呈現(xiàn)給人員,導(dǎo)致人員無(wú)法迅速找到想要的相關(guān)搜索詞。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于時(shí)間衰減的相關(guān)搜索詞挖掘方法及系統(tǒng),以解決上述不足之處。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于時(shí)間衰減的相關(guān)搜索詞挖掘方法,其特征在于,包括以下步驟:
根據(jù)輸入的搜索詞關(guān)聯(lián)得到頻繁項(xiàng)集;
對(duì)所述頻繁項(xiàng)集進(jìn)行支持度和置信度的計(jì)算,并根據(jù)所述計(jì)算結(jié)果和設(shè)定的閾值進(jìn)行所述頻繁項(xiàng)集的過(guò)濾;
通過(guò)時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集進(jìn)行累加,得到相關(guān)搜索詞。
上述相關(guān)搜索詞挖掘方法,所述頻繁項(xiàng)集的獲得包括以下步驟:
定義歷史搜索日志中的頻繁項(xiàng)的粒度;定義為(a)或(a、b);
輸入搜索詞,并據(jù)其在所述歷史搜索日志中搜尋相應(yīng)的頻繁項(xiàng);
將多個(gè)所述頻繁項(xiàng)歸為所述頻繁項(xiàng)集。
上述相關(guān)搜索詞挖掘方法,所述支持度的計(jì)算包括以下步驟:
遍歷所述頻繁項(xiàng)集,獲取一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集;
進(jìn)行所述一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集的支持度計(jì)算,計(jì)算公式為:支持度=一項(xiàng)或二項(xiàng)項(xiàng)集數(shù)/總項(xiàng)集數(shù)。
上述相關(guān)搜索詞挖掘方法,所述置信度的計(jì)算包括以下步驟:
計(jì)算獲得一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集的支持度;
根據(jù)所述支持度進(jìn)行所述一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集的置信度計(jì)算,計(jì)算公式為:置信度=二項(xiàng)頻繁項(xiàng)集支持度/一項(xiàng)頻繁項(xiàng)集支持度。
上述相關(guān)搜索詞挖掘方法,進(jìn)行所述頻繁項(xiàng)集的過(guò)濾包括以下步驟:
設(shè)定支持度閾值和置信度閾值;
根據(jù)所述支持度閾值對(duì)所述支持度進(jìn)行判斷,過(guò)濾低于所述支持度閾值的頻繁項(xiàng);
根據(jù)所述置信度閾值對(duì)所述置信度進(jìn)行判斷,過(guò)濾低于所述置信度閾值的頻繁項(xiàng)。
上述相關(guān)搜索詞挖掘方法,所述相關(guān)搜索詞的獲得包括以下步驟:
通過(guò)半衰期時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集的權(quán)重進(jìn)行衰減處理;
半衰期函數(shù)為:m=m*(1/2)^(t/t);其中,m為初始值,m為過(guò)一段時(shí)間后的值,t為時(shí)間跨度,t為半衰期。
對(duì)處理結(jié)果進(jìn)行累加,得到相關(guān)搜索詞。
本發(fā)明提供的一種基于時(shí)間衰減的相關(guān)搜索詞挖掘方法,實(shí)現(xiàn)以下有益效果:
1)通過(guò)搜索詞關(guān)聯(lián)到相關(guān)詞的頻繁項(xiàng)集,具有更簡(jiǎn)單、更快速的效果;
2)通過(guò)支持度、置信度對(duì)推薦的頻繁項(xiàng)集中的噪音進(jìn)行過(guò)濾,使推薦的頻繁項(xiàng)集過(guò)得到簡(jiǎn)化,人員可以較為容易的確定相關(guān)搜索詞;
3)通過(guò)時(shí)間衰減函數(shù)降低時(shí)間距離太久遠(yuǎn)的相關(guān)搜索詞的權(quán)重,相對(duì)的升高了最近、最熱門(mén)的相關(guān)搜索詞的權(quán)重,使人員可以迅速找到想要的相關(guān)搜索詞。
本發(fā)明實(shí)施例還提供一種基于時(shí)間衰減的相關(guān)搜索詞挖掘系統(tǒng),包括:
關(guān)聯(lián)單元,用以根據(jù)輸入的搜索詞關(guān)聯(lián)得到頻繁項(xiàng)集;
計(jì)算過(guò)濾單元,用以對(duì)所述頻繁項(xiàng)集進(jìn)行支持度和置信度的計(jì)算,并根據(jù)所述計(jì)算結(jié)果和設(shè)定的閾值進(jìn)行所述頻繁項(xiàng)集的過(guò)濾;
時(shí)間衰減單元,用以通過(guò)時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集進(jìn)行累加,得到相關(guān)搜索詞。
上述相關(guān)搜索詞挖掘系統(tǒng),還包括輸入單元,用以輸入所述搜索詞,或?qū)λ鏊阉髟~進(jìn)行相關(guān)變換。
上述相關(guān)搜索詞挖掘系統(tǒng),所述設(shè)定的閾值為設(shè)定的支持度閾值和置信度閾值。
上述相關(guān)搜索詞挖掘系統(tǒng),所述時(shí)間衰減單元包括:衰減模塊和累加模塊,
所述衰減模塊,用以通過(guò)半衰期時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集的權(quán)重進(jìn)行衰減處理;
所述累加模塊,對(duì)處理結(jié)果進(jìn)行累加,得到相關(guān)搜索詞。
本發(fā)明提供的一種基于時(shí)間衰減的相關(guān)搜索詞挖掘系統(tǒng),實(shí)現(xiàn)以下有益效果:
1)通過(guò)關(guān)聯(lián)單元關(guān)聯(lián)到相關(guān)詞的頻繁項(xiàng)集,具有更簡(jiǎn)單、更快速的效果;
2)通過(guò)計(jì)算過(guò)濾單元對(duì)推薦的頻繁項(xiàng)集中的噪音進(jìn)行過(guò)濾,使推薦的頻繁項(xiàng)集過(guò)得到簡(jiǎn)化,人員可以較為容易的確定相關(guān)搜索詞;
3)通過(guò)時(shí)間衰減單元降低時(shí)間距離太久遠(yuǎn)的相關(guān)搜索詞的權(quán)重,相對(duì)的升高了最近、最熱門(mén)的相關(guān)搜索詞的權(quán)重,使人員可以迅速找到想要的相關(guān)搜索詞。
附圖說(shuō)明
為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的相關(guān)搜索詞挖掘方法的流程示意圖;
圖2為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘方法的流程示意圖;
圖3為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘方法的流程示意圖;
圖4為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘方法的流程示意圖;
圖5為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘方法的流程示意圖;
圖6為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘方法的流程示意圖;
圖7為本發(fā)明實(shí)施例提供的相關(guān)搜索詞挖掘系統(tǒng)的結(jié)構(gòu)示意圖。
圖8為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘系統(tǒng)的結(jié)構(gòu)示意圖;
圖9為本發(fā)明一優(yōu)選實(shí)施例提供的相關(guān)搜索詞挖掘系統(tǒng)的結(jié)構(gòu)示意圖;
圖10為本發(fā)明實(shí)施例提供的以30天為半衰期的時(shí)間衰減函數(shù)圖。
附圖標(biāo)記說(shuō)明:
10、關(guān)聯(lián)單元;20、計(jì)算過(guò)濾單元;30、時(shí)間衰減單元;301、衰減模塊;302、累加模塊;40、輸入單元。
具體實(shí)施方式
為了使本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)介紹。
如圖1所示,為本發(fā)明實(shí)施例提供的一種基于時(shí)間衰減的相關(guān)搜索詞挖掘方法,包括以下步驟:
s101、根據(jù)輸入的搜索詞關(guān)聯(lián)得到頻繁項(xiàng)集;
搜索詞為通過(guò)搜索欄輸入的需要搜索的關(guān)鍵詞。頻繁項(xiàng)集是指在同一個(gè)搜索詞下,共同出現(xiàn)的相關(guān)詞的集合,其可以為一項(xiàng)或者兩項(xiàng)。關(guān)聯(lián)是指基于搜索詞在歷史搜索日志中搜尋到頻繁項(xiàng)。用戶(hù)帶著某個(gè)特定的意圖進(jìn)行查詢(xún)時(shí),可能會(huì)在同一個(gè)session中進(jìn)行多次查詢(xún)變換,通過(guò)累積全站用戶(hù)的session內(nèi)共現(xiàn)的搜索詞,我們可以挖掘出相關(guān)的(具有某一定聯(lián)系)的查詢(xún)query。與普通的頻繁項(xiàng)集挖掘不同,相關(guān)詞的頻繁項(xiàng)集更簡(jiǎn)單也更快速。
如圖2所示,在步驟s101中,所述頻繁項(xiàng)集的獲得包括以下步驟:
s201、定義歷史搜索日志中的頻繁項(xiàng)的粒度;定義為(a)或(a、b);
歷史搜索日志為通過(guò)累積全站用戶(hù)的session內(nèi)共現(xiàn)的搜索詞而得來(lái),其由多個(gè)頻繁項(xiàng)組成,每個(gè)頻繁項(xiàng)至少具有關(guān)鍵詞a本身,或者為具有關(guān)鍵詞a本身和相關(guān)詞b的小項(xiàng);即通過(guò)定義可以實(shí)現(xiàn)每個(gè)頻繁項(xiàng)包含的規(guī)則關(guān)系粒度均小于等于1,比如“啤酒”“尿布”->“牛奶”的頻繁項(xiàng)將不會(huì)在歷史搜索日志中出現(xiàn)。但在相關(guān)搜索詞挖掘中,僅考慮粒度只有1的規(guī)則關(guān)系。
s202、輸入搜索詞,并據(jù)其在所述歷史搜索日志中搜尋相應(yīng)的頻繁項(xiàng);
具體而言,輸入一個(gè)搜索詞“啤酒”,從歷史搜索日志中搜尋到包含“啤酒”的頻繁項(xiàng),比如:“(啤酒、鮮花),(啤酒),(啤酒、尿布),(啤酒、牛奶)”等。
s203、將多個(gè)所述頻繁項(xiàng)歸為所述頻繁項(xiàng)集。
將上述的頻繁項(xiàng)歸為同一個(gè)集合,得到頻繁項(xiàng)集;比如通過(guò)上述頻繁項(xiàng)得到:{(啤酒、鮮花),(啤酒),(啤酒、尿布),(啤酒、牛奶)}的集合。
s102、對(duì)所述頻繁項(xiàng)集進(jìn)行支持度和置信度的計(jì)算,并根據(jù)所述計(jì)算結(jié)果和設(shè)定的閾值進(jìn)行所述頻繁項(xiàng)集的過(guò)濾;
如圖3所示,在步驟s102中,所述支持度的計(jì)算包括以下步驟:
s301、遍歷所述頻繁項(xiàng)集,獲取一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集;
s302、進(jìn)行所述一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集的支持度計(jì)算;
計(jì)算公式為:支持度=一項(xiàng)或二項(xiàng)項(xiàng)集數(shù)/總項(xiàng)集數(shù)。頻繁項(xiàng)集的挖掘包含兩個(gè)指標(biāo):支持度表示數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例。如5條頻繁項(xiàng)集中包含3條啤酒的頻繁項(xiàng),則啤酒的支持度是3/5;如5條頻繁項(xiàng)集中包含2條“啤酒”“尿布”同時(shí)存在的頻繁項(xiàng),則(啤酒,尿布)的支持度為2/5。
如圖4所示,在步驟s102中,所述置信度的計(jì)算包括以下步驟:
s401、計(jì)算獲得一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集的支持度;
s402、根據(jù)所述支持度進(jìn)行所述一項(xiàng)頻繁項(xiàng)集和二項(xiàng)頻繁項(xiàng)集的置信度計(jì)算;
計(jì)算公式為:置信度=二項(xiàng)頻繁項(xiàng)集支持度/一項(xiàng)頻繁項(xiàng)集支持度。根據(jù)步驟s301、s302中得到的支持度進(jìn)行置信度的計(jì)算;置信度是針對(duì)某條關(guān)聯(lián)規(guī)則來(lái)定義的,在本發(fā)明實(shí)施例中,“啤酒”->“尿布”的置信度為支持度(啤酒,尿布)/支持度(啤酒)=2/3。
如圖5所示,在步驟s102中,進(jìn)行所述頻繁項(xiàng)集的過(guò)濾包括以下步驟:
s501、設(shè)定支持度閾值和置信度閾值;
s502、根據(jù)所述支持度閾值對(duì)所述支持度進(jìn)行判斷,過(guò)濾低于所述支持度閾值的頻繁項(xiàng);
s503、根據(jù)所述置信度閾值對(duì)所述置信度進(jìn)行判斷,過(guò)濾低于所述置信度閾值的頻繁項(xiàng)。
通過(guò)設(shè)置包含兩項(xiàng)的項(xiàng)集支持度閾值,可以過(guò)濾掉兩項(xiàng)頻數(shù)出現(xiàn)過(guò)少的項(xiàng)集;進(jìn)一步的,包含兩項(xiàng)的項(xiàng)集沒(méi)有被過(guò)濾掉留下來(lái)的,它們內(nèi)部的僅包含一項(xiàng)的項(xiàng)集支持度必然滿(mǎn)足支持度閾值。通過(guò)設(shè)置置信度的閾值,可以過(guò)濾掉關(guān)聯(lián)規(guī)則關(guān)系不夠強(qiáng)的頻繁項(xiàng)集中的頻繁項(xiàng)。
s103、通過(guò)時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集進(jìn)行累加,得到相關(guān)搜索詞。
如圖6所示,在步驟s103中,所述相關(guān)搜索詞的獲得包括以下步驟:
s601、通過(guò)半衰期時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集的權(quán)重進(jìn)行衰減處理;
半衰期函數(shù)為:m=m*(1/2)^(t/t);其中,m為初始值,m為過(guò)一段時(shí)間后的值,t為時(shí)間跨度,t為半衰期。
s602、對(duì)處理結(jié)果進(jìn)行累加,得到相關(guān)搜索詞。
歷史挖掘的相關(guān)搜索詞能夠?yàn)楝F(xiàn)在提供參考價(jià)值,但時(shí)間越長(zhǎng)遠(yuǎn),所能參考的意義就越低。越近的時(shí)間挖掘的相關(guān)搜索詞越有參考意義,越能反映當(dāng)下的輿論熱點(diǎn)、搜索熱點(diǎn)。這并意味著歷史挖掘的結(jié)果就再無(wú)價(jià)值,我們可以通過(guò)時(shí)間衰減的方式,將歷史挖掘的相關(guān)搜索詞以較低權(quán)重迭代累加至最新的挖掘結(jié)果中。
以30天為半衰期,可以獲得如圖10所示的函數(shù)圖形。
可以設(shè)定一個(gè)半衰期的時(shí)間長(zhǎng)度,每日挖掘的相關(guān)搜索詞對(duì)的權(quán)重都會(huì)按照半衰期進(jìn)行衰減,然后累加到最新的過(guò)濾后的頻繁項(xiàng)集中,因此越新的過(guò)濾后的頻繁項(xiàng)集占的權(quán)重越大,越舊的過(guò)濾后的頻繁項(xiàng)集占得權(quán)重越小,從而可以大幅度降低時(shí)間久遠(yuǎn)的頻繁項(xiàng)集對(duì)相關(guān)搜索詞的影響。
本發(fā)明提供的一種基于時(shí)間衰減的相關(guān)搜索詞挖掘方法,實(shí)現(xiàn)以下有益效果:
1)通過(guò)搜索詞關(guān)聯(lián)到相關(guān)詞的頻繁項(xiàng)集,具有更簡(jiǎn)單、更快速的效果;
2)通過(guò)支持度、置信度對(duì)推薦的頻繁項(xiàng)集中的噪音進(jìn)行過(guò)濾,使推薦的頻繁項(xiàng)集過(guò)得到簡(jiǎn)化,人員可以較為容易的確定相關(guān)搜索詞;
3)通過(guò)時(shí)間衰減函數(shù)降低時(shí)間距離太久遠(yuǎn)的相關(guān)搜索詞的權(quán)重,相對(duì)的升高了最近、最熱門(mén)的相關(guān)搜索詞的權(quán)重,使人員可以迅速找到想要的相關(guān)搜索詞。
如圖7-9所示,為本發(fā)明實(shí)施例提供的一種基于時(shí)間衰減的相關(guān)搜索詞挖掘系統(tǒng),包括:關(guān)聯(lián)單元10,用以根據(jù)輸入的搜索詞關(guān)聯(lián)得到頻繁項(xiàng)集;計(jì)算過(guò)濾單元20,用以對(duì)所述頻繁項(xiàng)集進(jìn)行支持度和置信度的計(jì)算,并根據(jù)所述計(jì)算結(jié)果和設(shè)定的閾值進(jìn)行所述頻繁項(xiàng)集的過(guò)濾;時(shí)間衰減單元30,用以通過(guò)時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集進(jìn)行累加,得到相關(guān)搜索詞。作為本實(shí)施例中優(yōu)選的,還包括輸入單元40,用以輸入所述搜索詞,或?qū)λ鏊阉髟~進(jìn)行相關(guān)變換;人員可以在輸入的搜索詞關(guān)聯(lián)出的相關(guān)詞不符合時(shí),再輸入其他關(guān)鍵詞進(jìn)行搜索。作為本實(shí)施例中優(yōu)選的,所述設(shè)定的閾值為設(shè)定的支持度閾值和置信度閾值,根據(jù)所述支持度閾值對(duì)所述支持度進(jìn)行判斷,過(guò)濾低于所述支持度閾值的頻繁項(xiàng);根據(jù)所述置信度閾值對(duì)所述置信度進(jìn)行判斷,過(guò)濾低于所述置信度閾值的頻繁項(xiàng)。作為本實(shí)施例中優(yōu)選的,所述時(shí)間衰減單元包括:衰減模塊和累加模塊,所述衰減模塊,用以通過(guò)半衰期時(shí)間衰減函數(shù)對(duì)過(guò)濾后的頻繁項(xiàng)集的權(quán)重進(jìn)行衰減處理;所述累加模塊,對(duì)處理結(jié)果進(jìn)行累加,得到相關(guān)搜索詞。半衰期函數(shù)為:m=m*(1/2)^(t/t);其中,m為初始值,m為過(guò)一段時(shí)間后的值,t為時(shí)間跨度,t為半衰期;將得到的相關(guān)搜索詞受時(shí)間影響降低到最小。
本發(fā)明提供的一種基于時(shí)間衰減的相關(guān)搜索詞挖掘系統(tǒng),實(shí)現(xiàn)以下有益效果:
1)通過(guò)關(guān)聯(lián)單元10關(guān)聯(lián)到相關(guān)詞的頻繁項(xiàng)集,具有更簡(jiǎn)單、更快速的效果;
2)通過(guò)計(jì)算過(guò)濾單元20對(duì)推薦的頻繁項(xiàng)集中的噪音進(jìn)行過(guò)濾,使推薦的頻繁項(xiàng)集過(guò)得到簡(jiǎn)化,人員可以較為容易的確定相關(guān)搜索詞;
3)通過(guò)時(shí)間衰減單元30降低時(shí)間距離太久遠(yuǎn)的相關(guān)搜索詞的權(quán)重,相對(duì)的升高了最近、最熱門(mén)的相關(guān)搜索詞的權(quán)重,使人員可以迅速找到想要的相關(guān)搜索詞。
以上只通過(guò)說(shuō)明的方式描述了本發(fā)明的某些示范性實(shí)施例,毋庸置疑,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不偏離本發(fā)明的精神和范圍的情況下,可以用各種不同的方式對(duì)所描述的實(shí)施例進(jìn)行修正。因此,上述附圖和描述在本質(zhì)上是說(shuō)明性的,不應(yīng)理解為對(duì)本發(fā)明權(quán)利要求保護(hù)范圍的限制。