一種搜索引擎熱點(diǎn)詞分析算法
【專利摘要】本發(fā)明申請(qǐng)公開一種搜索引擎熱點(diǎn)詞分析算法,由橫向和縱向兩部分組成,橫向部分對(duì)詞語自身在相鄰的兩個(gè)周期內(nèi)被搜索的次數(shù)進(jìn)行處理,表示為其中,x1是詞語在較近周期中出現(xiàn)的次數(shù),x2是詞語在較早周期中出現(xiàn)的次數(shù),a是大于0的基數(shù);縱向部分選取具有單調(diào)遞增性質(zhì)且在大于0區(qū)間的函數(shù)值大于0的函數(shù)對(duì)平衡因子M進(jìn)行處理,M可以是搜索過詞語的互聯(lián)網(wǎng)用戶的不重復(fù)IP個(gè)數(shù)、不重復(fù)radius個(gè)數(shù)或用戶身份證個(gè)數(shù);將橫向部分和縱向部分的結(jié)果相乘即可得到最終的熱點(diǎn)詞分析結(jié)果;利用本發(fā)明申請(qǐng)所述方法,能夠顯著提高搜索引擎熱點(diǎn)詞得分算法的有效性和可靠性,提高算法的抗干擾能力,從而得到理性的、可用性強(qiáng)的結(jié)果。
【專利說明】一種搜索引擎熱點(diǎn)詞分析算法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)屬于信息【技術(shù)領(lǐng)域】,涉及一種搜索引擎熱點(diǎn)詞分析算法。
【背景技術(shù)】
[0002] 熱點(diǎn)詞,是指一定時(shí)間內(nèi)被大量互聯(lián)網(wǎng)用戶通過搜索引擎搜索過的詞語,相對(duì)于 非熱點(diǎn)詞,熱點(diǎn)詞有搜索次數(shù)高的特點(diǎn)。一般的,通過一系列的方法處理詞語在相鄰的兩個(gè) 周期內(nèi)出現(xiàn)的次數(shù),將處理的結(jié)果篩選,就可以得到熱點(diǎn)詞。經(jīng)過處理的結(jié)果叫做關(guān)鍵詞得 分,處理的方法叫做關(guān)鍵詞得分算法。
[0003] 現(xiàn)有的關(guān)鍵詞得分算法是將詞語在較近周期中被搜索次數(shù)減去詞語在較早周期 中被搜索的次數(shù),然后再除以一個(gè)基數(shù),基數(shù)可以是詞語在較近周期中被搜索的次數(shù),可 以是詞語在較早周期中被搜索的次數(shù),也可以是同一詞語在兩個(gè)周期被搜索次數(shù)的和或者 差,等等。下面是一個(gè)關(guān)鍵詞得分算法的例子:
[0004]
【權(quán)利要求】
1. 一種搜索引擎熱點(diǎn)詞分析算法,其特征在于:由橫向和縱向兩部分組成,橫向部分
對(duì)詞語自身在相鄰的兩個(gè)周期內(nèi)被搜索的次數(shù)進(jìn)行處理,表示為 '其中,X1是詞 ? 語在較近周期中出現(xiàn)的次數(shù),X2是詞語在較早周期中出現(xiàn)的次數(shù),a是大于0的基數(shù); 縱向部分選取具有單調(diào)遞增性質(zhì)且在大于〇區(qū)間的函數(shù)值為正數(shù)的函數(shù)對(duì)平衡因子Μ 進(jìn)行處理,平衡因子Μ可以是搜索過詞語的互聯(lián)網(wǎng)用戶的不重復(fù)IP個(gè)數(shù)、不重復(fù)radius個(gè) 數(shù)或用戶身份證個(gè)數(shù); 將橫向部分和縱向部分的結(jié)果相乘即可得到最終的熱點(diǎn)詞得分計(jì)算結(jié)果。
2. 如權(quán)利要求1所述的一種搜索引擎熱點(diǎn)詞分析算法,其特征在于:較佳的,基數(shù)a設(shè) 定為詞語在較近周期被搜索次數(shù)的平均值。
3. 如權(quán)利要求1所述的一種搜索引擎熱點(diǎn)詞分析算法,其特征在于:較佳的,選取
作為縱向部分的函數(shù),其中,η是大于1的正整數(shù)。
4. 如權(quán)利要求3所述的一種搜索引擎熱點(diǎn)詞分析算法,其特征在于:較佳的,η = 3時(shí) 函數(shù)結(jié)果的區(qū)分程度能夠滿足一般性需求。
【文檔編號(hào)】G06F17/30GK104111999SQ201410326496
【公開日】2014年10月22日 申請(qǐng)日期:2014年7月2日 優(yōu)先權(quán)日:2014年7月2日
【發(fā)明者】沈曉龍, 王崢, 李翔, 丁飛達(dá) 申請(qǐng)人:烽火通信科技股份有限公司