亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取熱點價值詞的方法及裝置的制作方法

文檔序號:6357673閱讀:163來源:國知局
專利名稱:一種獲取熱點價值詞的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,特別涉及一種獲取熱點價值詞的方法及裝置。
背景技術(shù)
在互聯(lián)網(wǎng)中,熱點價值詞具有廣泛的應(yīng)用,例如,在搜索引擎中,通過熱點價值詞能夠更好的展示查詢結(jié)果以滿足用戶的需求。其中,熱點價值詞是指在一段時間內(nèi)出現(xiàn)的、受到一定關(guān)注的且具有明確語義價值的詞匯,往往與突發(fā)事件相關(guān),例如“汶川地震”就是一個熱點價值詞?,F(xiàn)有技術(shù)提供了一種獲取熱點價值詞的方法,具體為基于搜索引擎的查詢?nèi)罩荆?br> 統(tǒng)計一段時間內(nèi)用戶查詢的每個查詢詞的頻率,挑選頻率較高的查詢詞作為熱點價值詞?,F(xiàn)有技術(shù)挑選出的熱點價值詞包括大量的像“姚明”這類頻率始終較高的常用詞,像“三國演”這類語義不完整的詞以及像“在線觀看”這類不具有明確語義價值的詞,因此挑選的熱點價值詞包括大量的噪音詞。

發(fā)明內(nèi)容
為了減少獲取的熱點價值詞中包括的噪音詞,本發(fā)明提供了一種獲取熱點價值詞的方法及裝置。所述技術(shù)方案如下一種獲取熱點價值詞的方法,所述方法包括計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞;根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候選詞;根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確語義價值的熱點價值詞。所述計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞,包括根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值;從所述查詢詞集合中將熱度值超過預(yù)設(shè)第一閾值的查詢詞確定為候選詞;其中,n為大于或等于2的整數(shù),m為大于或等于2且小于或等于n的整數(shù)。根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值,包括根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望;根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望,計算所述查詢詞分別在第m至n個時間片段內(nèi)的方差;根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望和方差,計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值。所述語義參數(shù)至少包括語言模型度量值、前綴邊界熵、后綴邊界熵和上下文對數(shù)似然比;相應(yīng)地,根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候 選詞,包括將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞。所述將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞之前,還包括計算所述候選詞的查詢概率,對所述候選詞進(jìn)行劃分得到所述候選詞包括的分詞組合,計算所述分詞組合的查詢概率,根據(jù)所述候選詞的查詢概率和所述分詞組合的查詢概率計算所述候選詞的語言模型度量值。所述語言模型度量值超過預(yù)設(shè)第二閾值的候選詞為內(nèi)部結(jié)構(gòu)緊密的候選詞,所述將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞之前,還包括獲取包括所述內(nèi)部結(jié)構(gòu)緊密的候選詞的查詢詞,從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴不為空的查詢詞和前綴為空的查詢詞,根據(jù)所述前綴不為空的查詢詞和前綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴邊界熵;從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴不為空的查詢詞和后綴為空的查詢詞,根據(jù)所述后綴不為空的查詢詞和后綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴邊界熵。所述前綴邊界熵超過預(yù)設(shè)第三閾值且后綴邊界熵超過預(yù)設(shè)第四閾值的候選詞為邊界緊密的候選詞,所述將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞之前,還包括獲取所述邊界緊密的候選詞的前綴和后綴都不為空且查詢次數(shù)最大的查詢詞,從所述獲取的查詢詞中提取所述邊界緊密的候選詞的前綴和后綴;從所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Ta ;從所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tb ;從所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tc ;從所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Td ;根據(jù)所述最大的查詢次數(shù)Ta、Tb、Tc和Td計算所述邊界緊密的候選詞的上下文對數(shù)似然比。所述計算查詢詞集合中的查詢詞的熱度值之前,還包括基于搜索引擎的查詢?nèi)罩?,獲取一段時間內(nèi)用戶查詢的所有查詢詞,將所述獲取的查詢詞組成所述查詢詞集合,將所述一段時間劃分成n個時間片段,統(tǒng)計所述查詢詞集合中的查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)。所述根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確主義的熱點價值詞之前,還包括從所述查詢詞集合中獲取包括所述語義完整的候選語的查詢詞,計算所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值;根據(jù)所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值和所述獲取的查詢詞的個數(shù),計算所述語義完整的候選詞的第一表意能力值;根據(jù)所述查詢詞集合中的查詢詞的查詢次數(shù),所述獲取的查詢詞的查詢次數(shù)以及所述語義完整的候選詞的查詢次數(shù),計算所述語義完整的候選詞的第二表意能力值;根據(jù)所述語義完整的候選詞的第一表意能力值和第二表意能力值,計算所述語義完整的候選詞的表意能力值。一種獲取熱點價值詞的裝置,所述裝置包括計算模塊,用于計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞;第一獲取模塊,用于根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候選詞;第二獲取模塊,用于根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確語義價值的熱點價值詞。所述計算模塊包括第一計算單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值;第一確定單元,用于從所述查詢詞集合中將熱度值超過預(yù)設(shè)第一閾值的查詢詞確定為候選詞;其中,n為大于或等于2的整數(shù),m為大于或等于2且小于或等于n的整數(shù)。所述第一計算單元包括第一計算子單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望;第二計算子單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望,計算所述查詢詞分別在第m至n個時間片段內(nèi)的方差;
第三計算子單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望和方差,計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值。所述語義參數(shù)至少包括語言模型度量值、前綴邊界熵、后綴邊界熵和上下文對數(shù)似然比;相應(yīng)地,所述第一獲取模塊,具體用于將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞。所述第一獲取模塊還包括語言模型度量值計算單元,用于計算所述候選詞的查詢概率,對所述候選詞進(jìn)行劃分得到所述候選詞包括的分詞組合,計算所述分詞組合的查詢概率,根據(jù)所述候選詞的查詢概率和所述分詞組合的查詢概率計算所述候選詞的語言模型度量值。所述語言模型度量值超過預(yù)設(shè)第二閾值的候選詞為內(nèi)部結(jié)構(gòu)緊密的候選詞,所述第一獲取模塊還包括
前綴邊界熵計算單元,用于獲取包括所述內(nèi)部結(jié)構(gòu)緊密的候選詞的查詢詞,從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴不為空的查詢詞和前綴為空的查詢詞,根據(jù)所述前綴不為空的查詢詞和前綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴邊界熵;后綴邊界熵計算單元,用于從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴不為空的查詢詞和后綴為空的查詢詞,根據(jù)所述后綴不為空的查詢詞和后綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴邊界熵。所述前綴邊界熵超過預(yù)設(shè)第三閾值且后綴邊界熵超過預(yù)設(shè)第四閾值的候選詞為邊界緊密的候選詞,所述第一獲取模塊還包括提取單元,用于從所述查詢詞集合中獲取所述邊界緊密的候選詞的前綴和后綴都不為空且查詢次數(shù)最大的查詢詞,從所述獲取的查詢詞中提取所述邊界緊密的候選詞的前綴和后綴;第一統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Ta ;第二統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tb ;第三統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tc ;第四統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Td ;第二計算單元,用于根據(jù)所述最大的查詢次數(shù)Ta、Tb、Tc和Td計算所述邊界緊密的候選詞的上下文對數(shù)似然比。其特征在于,所述裝置還包括統(tǒng)計模塊,用于基于搜索引擎的查詢?nèi)罩?,獲取一段時間內(nèi)用戶查詢的所有查詢詞,將所述獲取的查詢詞組成所述查詢詞集合,將所述一段時間劃分成n個時間片段,統(tǒng)計所述查詢詞集合中的查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)。所述裝置還包括第三獲取模塊,用于從所述查詢詞集合中獲取包括所述語義完整的候選語的查詢詞,計算所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值;第一表意能力值計算模塊,用于根據(jù)所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值和所述獲取的查詢詞的個數(shù),計算所述語義完整的候選詞的第一表意能力值;第二表意能力值計算模塊,用于根據(jù)所述查 詢詞集合中的查詢詞的查詢次數(shù),所述獲取的查詢詞的查詢次數(shù)以及所述語義完整的候選詞的查詢次數(shù),計算所述語義完整的候選詞的第二表意能力值;表意能力值計算模塊,用于根據(jù)所述語義完整的候選詞的第一表意能力值和第二表意能力值,計算所述語義完整的候選詞的表意能力值。在本發(fā)明中,計算查詢詞的熱度值并根據(jù)熱度值獲取候選詞,可以將一段時間內(nèi)受到一定關(guān)注的查詢詞作為候選詞,屏蔽掉頻率始終較高的常用詞;根據(jù)候選詞的語義參數(shù)獲取語義完整的候選詞,可以屏蔽到語義不完整的候選詞;根據(jù)語義完整的候選詞的表意能力值從語義完整的候選詞中獲取熱點價值詞,可以屏蔽掉語義價值不明確的候選詞,從而使得獲取的熱點價值詞中不會包含大量的常用詞、語義不完整以及語義價值不強(qiáng)的詞,從而減少熱點價值詞中的噪音詞。


圖I是本發(fā)明實施例I提供的一種獲取熱點價值詞的方法流程圖;圖2是本發(fā)明實施例2提供的一種獲取熱點價值詞的方法流程圖;圖3是本發(fā)明實施例3提供的一種獲取熱點價值詞的裝置示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方式作進(jìn)一步地詳細(xì)描述。實施例I如圖I所示,本發(fā)明實施例提供了一種獲取熱點價值詞的方法,包括步驟101 :計算查詢詞集合中的查詢詞的熱度值,根據(jù)查詢詞的熱度值從查詢詞集合中獲取候選詞;步驟102 :根據(jù)獲取的候選詞的語義參數(shù),獲取語義完整的候選詞;步驟103 :根據(jù)語義完整的候選詞的表意能力值從語義完整的候選詞中獲取具有明確語義價值的熱點價值詞。其中,步驟101、102和103的執(zhí)行順序可以不分先后。即在本實施例中,可以先從查詢詞集合中獲取具有明確主義價值的詞,再從明確主義價值的詞中獲取語義完整的詞,最后計算語義完整的的熱度值,并根據(jù)熱度值獲取熱點價值詞;或者,可以先從查詢詞集合中獲取語義完整的詞,再從語義完整的詞中獲取具有明確語義價值的詞,最后計算具有明確語義價值的詞的熱度值,并根據(jù)熱度值獲取熱點價值詞等執(zhí)行方式。其中,如果先根據(jù)熱度值從查詢詞集合中獲取候選詞,可以先去除查詢詞集合中的大量的噪音詞,再從候選詞中獲取語義完整的詞,可以進(jìn)一步去除大量的噪音詞,最后從語義完整的詞中獲取具有明確語義價值的熱點價值詞,可以提高獲取熱點價值詞的效率。在本發(fā)明 實施例中,計算查詢詞的熱度值并根據(jù)熱度值獲取候選詞,可以將一段時間內(nèi)受到一定關(guān)注的查詢詞作為候選詞,屏蔽掉頻率始終較高的常用詞;根據(jù)候選詞的語義參數(shù)獲取語義完整的候選詞,可以屏蔽到語義不完整的候選詞;根據(jù)語義完整的候選詞的表意能力值從語義完整的候選詞中獲取熱點價值詞,可以屏蔽掉語義價值不強(qiáng)的候選詞,從而使得獲取的熱點價值詞中不會包含大量的常用詞、語義不完整以及語義價值不強(qiáng)的詞,從而減少熱點價值詞中的噪音詞。實施例2如圖2所示,本發(fā)明實施例提供了一種獲取熱點價值詞的方法,包括步驟201 :對于任意一段時間,基于搜索引擎的查詢?nèi)罩?,獲取用戶在該段時間內(nèi)向搜索引擎提交的查詢詞,并組成查詢詞集合;其中,用戶在使用搜索引擎時,搜索引擎會將用戶提交的查詢詞以及查詢時間等信息記錄在查詢?nèi)罩局?。例如,對于一段時間T,基于搜索引擎的查詢?nèi)罩?,獲取用戶在時間段T內(nèi)向搜索引擎提交的所有查詢詞Ql,Q2,...,Qx,再將獲取的所有查詢詞組成查詢詞集合{Q1,Q2, ,Qx}o步驟202 :將該時間段劃分成n個時間片段,基于搜索引擎的查詢?nèi)罩?,統(tǒng)計查詢詞集合中的每個查詢詞分別在每個時間片段內(nèi)被用戶查詢的查詢次數(shù);其中,n為大于或等于2的整數(shù);例如,將一段時間T劃分成n個時間片段分別為Tl,...,Tn,對于查詢詞集合{Q1,Q2, , Qx}里的任一個查詢詞,假設(shè)查詢詞Query為查詢詞集合中{Ql,Q2,. . .,Qx} 一個查詢詞,分別統(tǒng)計查詢詞Query在時間片段Tl,. . .,Tn內(nèi)被用戶查詢的查詢次數(shù)分別為freQuery, I . . .,freQuCTy,n。對于查詢詞集合{Ql,Q2 , . . . , Qx}中其他的每個查詢詞也按與查詢詞Query相同的方法分別統(tǒng)計在時間片段Tl,. . .,Tn內(nèi)被用戶查詢的查詢次數(shù)。其中,由于搜索引擎具有大規(guī)模和時效性的特點,搜索日志能夠在一個側(cè)面反映用戶群的信息需求和熱點關(guān)注。所以在本實施例中,可以從搜索引擎的查詢?nèi)罩局蝎@取一段時間內(nèi)出現(xiàn)的、受到一定關(guān)注的且具有明確語義價值的熱點價值詞。步驟203 :根據(jù)每個查詢詞在每個時間片段的查詢次數(shù),計算每個查詢詞分別在第m至n個時間片段的熱度值,將熱度值超過預(yù)設(shè)第一閾值的查詢詞確定為候選詞,其中,m為大于或等于2且小于或等于n的值;其中,根據(jù)每個查詢詞在每個時間片段內(nèi)被用戶查詢的查詢次數(shù),計算每個查詢詞分別在第m至n個時間片段的熱度值的操作,可以包括如下三個步驟第一步,根據(jù)每個查詢詞在每個時間片段內(nèi)被用戶查詢的查詢次數(shù),計算每個查詢詞分別在第m至n個時間片段的數(shù)學(xué)期望;其中,可以按如下的公式(I)計算每個查詢詞的數(shù)學(xué)期望
I !MeanfQuery, i) =-^ freQ—,k ……(I);
I k=\其中,在公式(I)中,freQuOTy,k為查詢詞Query在第k個時間片段內(nèi)被用戶查詢的查詢次數(shù),i為大于或等于m且小于或等于n的區(qū)間內(nèi)的值,k為大于或等于I且小于或等于i的區(qū)間內(nèi)的值,Mean (Query, i)為查詢詞Query在第i個時間片段內(nèi)的數(shù)學(xué)期望。第二步,根據(jù)每個查詢詞在每個時間片段內(nèi)被用戶查詢的查詢次數(shù)和每個查詢詞分別在第m至n個時間片段的數(shù)學(xué)期望,計算每個查詢詞分別在第m至n個時間片段的方差;其中,可以按如下的公式(2)計算每個查詢詞分別在第m至n個時間片段的方差
r0100l
權(quán)利要求
1.一種獲取熱點價值詞的方法,其特征在于,所述方法包括 計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞; 根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候選詞; 根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確語義價值的熱點價值詞。
2.如權(quán)利要求I所述的方法,其特征在于,所述計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞,包括 根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值; 從所述查詢詞集合中將熱度值超過預(yù)設(shè)第一閾值的查詢詞確定為候選詞;其中,n為大于或等于2的整數(shù),m為大于或等于2且小于或等于n的整數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值,包括 根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望; 根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望,計算所述查詢詞分別在第m至n個時間片段內(nèi)的方差; 根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望和方差,計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值。
4.如權(quán)利要求I所述的方法,其特征在于,所述語義參數(shù)至少包括語言模型度量值、前綴邊界熵、后綴邊界熵和上下文對數(shù)似然比; 相應(yīng)地,根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候選詞,包括 將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞。
5.如權(quán)利要求4所述的方法,其特征在于,所述將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞之前,還包括 計算所述候選詞的查詢概率,對所述候選詞進(jìn)行劃分得到分詞組合,計算所述分詞組合的查詢概率,根據(jù)所述候選詞的查詢概率和所述分詞組合的查詢概率計算所述候選詞的語言模型度量值。
6.如權(quán)利要求4所述的方法,其特征在于,所述語言模型度量值超過預(yù)設(shè)第二閾值的候選詞為內(nèi)部結(jié)構(gòu)緊密的候選詞,所述將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞之前,還包括 獲取包括所述內(nèi)部結(jié)構(gòu)緊密的候選詞的查詢詞,從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴不為空的查詢詞和前綴為空的查詢詞,根據(jù)所述前綴不為空的查詢詞和前綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴邊界熵; 從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴不為空的查詢詞和后綴為空的查詢詞,根據(jù)所述后綴不為空的查詢詞和后綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴邊界熵。
7.如權(quán)利要求4所述的方法,其特征在于,所述前綴邊界熵超過預(yù)設(shè)第三閾值且后綴邊界熵超過預(yù)設(shè)第四閾值的候選詞為邊界緊密的候選詞,所述將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞之前,還包括 從所述查詢詞集合中獲取所述邊界緊密的候選詞的前綴和后綴都不為空且查詢次數(shù)最大的查詢詞,從所述獲取的查詢詞中提取所述邊界緊密的候選詞的前綴和后綴; 在所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Ta ; 在所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tb ; 在所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tc ; 在所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Td ; 根據(jù)所述最大的查詢次數(shù)Ta、Tb、Tc和Td計算所述邊界緊密的候選詞的上下文對數(shù)似然比。
8.如權(quán)利要求I所述的方法,其特征在于,所述計算查詢詞集合中的查詢詞的熱度值之前,還包括 基于搜索引擎的查詢?nèi)罩?,獲取一段時間內(nèi)用戶查詢的所有查詢詞,將所述獲取的查詢詞組成所述查詢詞集合,將所述一段時間劃分成n個時間片段,統(tǒng)計所述查詢詞集合中的查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)。
9.如權(quán)利要求I所述的方法,其特征在于,所述根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確主義的熱點價值詞之前,還包括 從所述查詢詞集合中獲取包括所述語義完整的候選詞的查詢詞,計算所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值; 根據(jù)所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值和所述獲取的查詢詞的個數(shù),計算所述語義完整的候選詞的第一表意能力值; 根據(jù)所述查詢詞集合中的查詢詞的查詢次數(shù),所述獲取的查詢詞的查詢次數(shù)以及所述語義完整的候選詞的查詢次數(shù),計算所述語義完整的候選詞的第二表意能力值; 根據(jù)所述語義完整的候選詞的第一表意能力值和第二表意能力值,計算所述語義完整的候選詞的表意能力值。
10.一種獲取熱點價值詞的裝置,其特征在于,所述裝置包括 計算模塊,用于計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞; 第一獲取模塊,用于根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候選詞; 第二獲取模塊,用于根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確語義價值的熱點價值詞。
11.如權(quán)利要求10所述的裝置,其特征在于,所述計算模塊包括 第一計算單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值; 第一確定單元,用于從所述查詢詞集合中將熱度值超過預(yù)設(shè)第一閾值的查詢詞確定為候選詞;其中,n為大于或等于2的整數(shù),m為大于或等于2且小于或等于n的整數(shù)。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第一計算單元包括 第一計算子單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù),計算所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望; 第二計算子單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望,計算所述查詢詞分別在第m至n個時間片段內(nèi)的方差; 第三計算子單元,用于根據(jù)所述查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)以及所述查詢詞分別在第m至n個時間片段內(nèi)的數(shù)學(xué)期望和方差,計算所述查詢詞分別在第m至n個時間片段內(nèi)的熱度值。
13.如權(quán)利要求10所述的裝置,其特征在于,所述語義參數(shù)至少包括語言模型度量值、前綴邊界熵、后綴邊界熵和上下文對數(shù)似然比; 相應(yīng)地,所述第一獲取模塊,具體用于將語言模型度量值超過預(yù)設(shè)第二閾值、前綴邊界熵超過預(yù)設(shè)第三閾值、后綴邊界熵超過第四閾值以及上下文對數(shù)似然比超過第五閾值的候選詞確定為語義完整的候選詞。
14.如權(quán)利要求13所述的裝置,其特征在于,所述第一獲取模塊還包括 語言模型度量值計算單元,用于計算所述候選詞的查詢概率,對所述候選詞進(jìn)行劃分得到所述候選詞包括的分詞組合,計算所述分詞組合的查詢概率,根據(jù)所述候選詞的查詢概率和所述分詞組合的查詢概率計算所述候選詞的語言模型度量值。
15.如權(quán)利要求13所述的裝置,其特征在于,所述語言模型度量值超過預(yù)設(shè)第二閾值的候選詞為內(nèi)部結(jié)構(gòu)緊密的候選詞,所述第一獲取模塊還包括 前綴邊界熵計算單元,用于獲取包括所述內(nèi)部結(jié)構(gòu)緊密的候選詞的查詢詞,從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴不為空的查詢詞和前綴為空的查詢詞,根據(jù)所述前綴不為空的查詢詞和前綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的前綴邊界熵; 后綴邊界熵計算單元,用于從所述獲取的查詢詞中分類出所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴不為空的查詢詞和后綴為空的查詢詞,根據(jù)所述后綴不為空的查詢詞和后綴為空的查詢詞計算所述內(nèi)部結(jié)構(gòu)緊密的候選詞的后綴邊界熵。
16.如權(quán)利要求13所述的裝置,其特征在于,所述前綴邊界熵超過預(yù)設(shè)第三閾值且后綴邊界熵超過預(yù)設(shè)第四閾值的候選詞為邊界緊密的候選詞,所述第一獲取模塊還包括 提取單元,用于獲取所述邊界緊密的候選詞的前綴和后綴都不為空且查詢次數(shù)最大的查詢詞,從所述獲取的查詢詞中提取所述邊界緊密的候選詞的前綴和后綴; 第一統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Ta ; 第二統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tb ; 第三統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴為所述邊界緊密的候選詞的后綴的查詢詞的查詢次數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Tc ; 第四統(tǒng)計單元,用于從所述查詢詞集合中統(tǒng)計所述提取的前綴不為所述邊界緊密的候選詞的前綴,同時所述提取的后綴不為所述邊界緊密的候選詞的后綴的查詢詞的查詢次 數(shù),從所述統(tǒng)計的查詢次數(shù)中選擇最大的查詢次數(shù)Td ; 第二計算單元,用于根據(jù)所述最大的查詢次數(shù)Ta、Tb、Tc和Td計算所述邊界緊密的候選詞的上下文對數(shù)似然比。
17.如權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 統(tǒng)計模塊,用于基于搜索引擎的查詢?nèi)罩?,獲取一段時間內(nèi)用戶查詢的所有查詢詞,將所述獲取的查詢詞組成所述查詢詞集合,將所述一段時間劃分成n個時間片段,統(tǒng)計所述查詢詞集合中的查詢詞分別在n個時間片段內(nèi)的查詢次數(shù)。
18.如權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 第三獲取模塊,用于從所述查詢詞集合中獲取包括所述語義完整的候選語的查詢詞,計算所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值; 第一表意能力值計算模塊,用于根據(jù)所述語義完整的候選詞在所述獲取的查詢詞中的貢獻(xiàn)值和所述獲取的查詢詞的個數(shù),計算所述語義完整的候選詞的第一表意能力值; 第二表意能力值計算模塊,用于根據(jù)所述查詢詞集合中的查詢詞的查詢次數(shù),所述獲取的查詢詞的查詢次數(shù)以及所述語義完整的候選詞的查詢次數(shù),計算所述語義完整的候選詞的第二表意能力值; 表意能力值計算模塊,用于根據(jù)所述語義完整的候選詞的第一表意能力值和第二表意能力值,計算所述語義完整的候選詞的表意能力值。
全文摘要
本發(fā)明公開了一種獲取熱點價值詞的方法及裝置,屬于互聯(lián)網(wǎng)信息處理領(lǐng)域。所述方法包括計算查詢詞集合中的查詢詞的熱度值,根據(jù)所述查詢詞的熱度值從所述查詢詞集合中獲取候選詞;根據(jù)所述候選詞的語義參數(shù),獲取語義完整的候選詞;根據(jù)所述語義完整的候選詞的表意能力值從所述語義完整的候選詞中獲取具有明確語義價值的熱點價值詞。所述裝置包括計算模塊、第一獲取模塊和第二獲取模塊。本發(fā)明減少獲取的熱點價值詞中包括的噪音詞。
文檔編號G06F17/30GK102737036SQ201110086310
公開日2012年10月17日 申請日期2011年4月7日 優(yōu)先權(quán)日2011年4月7日
發(fā)明者劉懷軍, 趙琳 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1