亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種獲取熱點(diǎn)資訊的方法及裝置制造方法

文檔序號(hào):6509569閱讀:200來(lái)源:國(guó)知局
一種獲取熱點(diǎn)資訊的方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種獲取熱點(diǎn)資訊的方法及裝置,方法包括:獲取熱點(diǎn)關(guān)鍵詞集合;從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊集合;分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資訊的相關(guān)度;根據(jù)所述相關(guān)度從所述候選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊。本發(fā)明能實(shí)現(xiàn)通過(guò)計(jì)算機(jī)獨(dú)立獲取熱點(diǎn)資訊,可節(jié)約成本,能提高獲取熱點(diǎn)資訊的速度。
【專利說(shuō)明】一種獲取熱點(diǎn)資訊的方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,具體涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種獲 取熱點(diǎn)資訊的方法及裝置。

【背景技術(shù)】
[0002] 資訊網(wǎng)站的為了方便用戶快速的進(jìn)行最新的信息的瀏覽,往往都含有大量的最新 熱點(diǎn)資訊的內(nèi)容,例如瀏覽常見(jiàn)門(mén)戶網(wǎng)站的主頁(yè)面時(shí),主頁(yè)面會(huì)含熱點(diǎn)導(dǎo)航欄,其包括了諸 如新聞、娛樂(lè)、汽車、軍事、讀書(shū)和博客等最新熱點(diǎn)資訊的鏈接,用戶可以通過(guò)點(diǎn)擊感興趣的 鏈接跳轉(zhuǎn)到對(duì)應(yīng)的資訊內(nèi)容頁(yè)面。隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,互聯(lián)網(wǎng)資訊更新更加頻繁,每時(shí) 每刻都有熱點(diǎn)人物和事件產(chǎn)生,如何在后臺(tái)的海量資訊集合(如內(nèi)容池)中,準(zhǔn)確且快速地 獲取到實(shí)時(shí)熱點(diǎn)的相關(guān)資訊(又稱熱點(diǎn)資訊),并及時(shí)展現(xiàn)給用戶,變得非常困難。
[0003] 現(xiàn)有技術(shù)主要采用人工配置資訊的方式,對(duì)于實(shí)時(shí)熱點(diǎn)關(guān)鍵詞,通過(guò)大量的人工 手動(dòng)挑選若干與之相關(guān)的資訊,展現(xiàn)給用戶。
[0004] 上述現(xiàn)有技術(shù)的方法存在如下問(wèn)題:首先,由于實(shí)時(shí)熱點(diǎn)更新頻繁,所以人工配置 代價(jià)比較高;另外,配置過(guò)程相對(duì)緩慢,達(dá)不到及時(shí)將內(nèi)容觸達(dá)用戶的速度性要求。


【發(fā)明內(nèi)容】

[0005] 有鑒于此,本發(fā)明實(shí)施例提供一種獲取熱點(diǎn)資訊的方法及裝置,其可提高獲取熱 點(diǎn)資訊的速度。
[0006] 本發(fā)明實(shí)施例提出了以下技術(shù)方案:
[0007] 第一方面,本發(fā)明實(shí)施提供了一種獲取熱點(diǎn)資訊的方法,包括:
[0008] 獲取熱點(diǎn)關(guān)鍵詞集合;
[0009] 從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊集合;
[0010] 分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資訊的 相關(guān)度;
[0011] 根據(jù)所述相關(guān)度從所述候選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選 到的候選資訊作為熱點(diǎn)資訊。
[0012] 第二方面,本發(fā)明實(shí)施例還提供了一種獲取熱點(diǎn)資訊的裝置,包括:
[0013] 熱點(diǎn)關(guān)鍵詞獲取單元,用于獲取熱點(diǎn)關(guān)鍵詞集合;
[0014] 候選資訊提取單元,用于從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作 為候選資訊集合;
[0015] 相關(guān)度計(jì)算單元,用于分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選 資訊集合中的資訊的相關(guān)度;
[0016] 熱點(diǎn)資訊篩選單元,用于根據(jù)所述相關(guān)度從所述候選資訊集合中篩選滿足預(yù)設(shè)條 件的候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊。
[0017] 本發(fā)明實(shí)施例提出的獲取熱點(diǎn)資訊的方法及裝置具有如下特點(diǎn):通過(guò)獲取熱點(diǎn)關(guān) 鍵詞集合,從資訊集合中將較新的資訊提取出來(lái),分別計(jì)算獲取的熱點(diǎn)關(guān)鍵詞集合中的熱 點(diǎn)關(guān)鍵詞與所提取的較新資訊的相關(guān)度,根據(jù)所述相關(guān)度從所提取的較新資訊中篩選滿足 預(yù)設(shè)條件的候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊。本發(fā)明實(shí)施例提出的技術(shù)方 案能實(shí)現(xiàn)通過(guò)計(jì)算機(jī)獨(dú)立獲取熱點(diǎn)資訊,可節(jié)約成本,能提高獲取熱點(diǎn)資訊的速度。

【專利附圖】

【附圖說(shuō)明】
[0018] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例描述中所 需要使用的附圖作簡(jiǎn)單的介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施 例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)本發(fā)明實(shí)施 例的內(nèi)容和這些附圖獲得其他的附圖。
[0019] 圖1是本發(fā)明具體實(shí)施例一所述的獲取熱點(diǎn)資訊的方法流程圖;
[0020] 圖2是本發(fā)明具體實(shí)施例二所述的獲取熱點(diǎn)資訊的方法流程圖;
[0021] 圖3是本發(fā)明具體實(shí)施例三所述的獲取熱點(diǎn)資訊的裝置的結(jié)構(gòu)框圖;
[0022] 圖4是本發(fā)明具體實(shí)施例四所述的獲取熱點(diǎn)資訊的裝置的結(jié)構(gòu)框圖;
[0023] 圖5是本發(fā)明具體實(shí)施例所述的終端的結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0024] 為使本發(fā)明解決的技術(shù)問(wèn)題、采用的技術(shù)方案和達(dá)到的技術(shù)效果更加清楚,下面 將結(jié)合附圖對(duì)本發(fā)明實(shí)施例的技術(shù)方案作進(jìn)一步的詳細(xì)描述,顯然,所描述的實(shí)施例僅僅 是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在 沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0025] 本發(fā)明實(shí)施例的技術(shù)方案主要應(yīng)用于提供資訊的網(wǎng)站為用戶實(shí)時(shí)提供熱點(diǎn)資訊, 需要說(shuō)明的是,本實(shí)施例所述的熱點(diǎn)資訊是指搜索指數(shù)和/或出現(xiàn)次數(shù)最高的,距離當(dāng)前 時(shí)間的間隔小于預(yù)設(shè)時(shí)長(zhǎng)的新聞網(wǎng)頁(yè)。
[0026] 下面結(jié)合附圖并通過(guò)【具體實(shí)施方式】來(lái)進(jìn)一步說(shuō)明本發(fā)明的技術(shù)方案。
[0027] 實(shí)施例一
[0028] 圖1是本實(shí)施例所述的獲取熱點(diǎn)資訊的方法流程圖,本實(shí)施例主要以該獲取熱點(diǎn) 資訊的方法應(yīng)用于能連接到互聯(lián)網(wǎng)的終端中來(lái)舉例說(shuō)明,該終端可以包括個(gè)人計(jì)算機(jī)、月艮 務(wù)器、智能手機(jī)、平板電腦、膝上型便攜計(jì)算機(jī)等等。如圖1所示,本實(shí)施例所述的獲取熱點(diǎn) 資訊的方法包括:
[0029] S101、獲取熱點(diǎn)關(guān)鍵詞集合。
[0030] 獲取熱點(diǎn)關(guān)鍵詞集合的方法可有多種。例如,可從預(yù)先指定的網(wǎng)站(例如新浪、搜 狐等網(wǎng)站)獲取熱點(diǎn)關(guān)鍵詞集合,也可從包含資訊的資訊集合(如內(nèi)容池)中進(jìn)行統(tǒng)計(jì)獲得, 還可從虛擬社區(qū)(例如微博、論壇等)挖掘出有意義有價(jià)值的熱點(diǎn)關(guān)鍵詞。方法可包括:
[0031] 方法一:從所述預(yù)先指定的網(wǎng)站的新聞頁(yè)面中搜索關(guān)鍵詞,對(duì)預(yù)設(shè)時(shí)間窗口(例如 距離當(dāng)前時(shí)間24小時(shí)之內(nèi))的各關(guān)鍵詞按照搜索指數(shù)進(jìn)行統(tǒng)計(jì),按出現(xiàn)次數(shù)進(jìn)行排名,將排 名靠前的詞句作為熱點(diǎn)關(guān)鍵詞。
[0032] 方法二:通過(guò)大量運(yùn)算,統(tǒng)計(jì)虛擬社區(qū)內(nèi)容中各種熱點(diǎn)關(guān)鍵詞出現(xiàn)的頻次等,根據(jù) 所述頻次由高到低提取社區(qū)的熱點(diǎn)關(guān)鍵詞。
[0033] 方法三:通過(guò)直接從預(yù)先指定的網(wǎng)站的熱詞頁(yè)面中提取熱點(diǎn)關(guān)鍵詞(例如百度的 熱點(diǎn)關(guān)鍵詞頁(yè)面)。
[0034] S102、從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊集合。
[0035] RSS (Really Simple Syndication,易信息聚合)訂閱是站點(diǎn)用來(lái)和其他站點(diǎn)之間 共享內(nèi)容的一種簡(jiǎn)易方式,例如,可通過(guò)對(duì)預(yù)先指定的主流網(wǎng)站(例如新浪、搜狐等網(wǎng)站)的 RSS源進(jìn)行抓取并解析,得到資訊對(duì)應(yīng)的統(tǒng)一資源定位符URL、標(biāo)題、時(shí)間、正文、熱度等,保 存到資訊集合中。
[0036] 為了及時(shí)獲取最新資訊,所述抓取并解析的步驟可為周期性的步驟,例如每2小 時(shí)抓取一次,并進(jìn)行去重操作。
[0037] S103、分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資 訊的相關(guān)度。
[0038] 熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞的個(gè)數(shù)記為m,候選資訊集合中的資訊數(shù)目記為 η,分別計(jì)算m個(gè)熱點(diǎn)關(guān)鍵詞中各熱點(diǎn)關(guān)鍵詞與η個(gè)候選資訊集合中的各資訊之間的相關(guān) 度。例如,計(jì)算第i熱點(diǎn)關(guān)鍵詞與第j資訊的相關(guān)度的可采用如下方法:
[0039] 將第i熱點(diǎn)關(guān)鍵詞拆分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合;
[0040] 按照預(yù)設(shè)算法分別計(jì)算第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的 相關(guān)度;
[0041] 將第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的相關(guān)度相加作為第i 熱點(diǎn)關(guān)鍵詞與第j資訊的相關(guān)度;
[0042] 所述i大于等于1小于等于m的整數(shù),j大于等于1小于等于η的整數(shù)。
[0043] 上述將第i熱點(diǎn)關(guān)鍵詞拆分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合的步驟優(yōu)選為:將第i熱 點(diǎn)關(guān)鍵詞中每相鄰的兩個(gè)字作為熱點(diǎn)關(guān)鍵字組合。例如熱點(diǎn)關(guān)鍵詞為"吉林爆炸"。這里將 其拆分為多個(gè)長(zhǎng)度為2的熱點(diǎn)關(guān)鍵字組合,依次為:吉林、林爆、爆炸。
[0044] S104、根據(jù)所述相關(guān)度從所述候選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將 所篩選到的候選資訊作為熱點(diǎn)資訊。
[0045] 該步驟可根據(jù)熱點(diǎn)資訊的展示需要,通過(guò)多種方式獲取滿足需求的熱點(diǎn)資訊:例 如,可采用如下三種方式之一:
[0046] 方法一:從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度最高 的資訊將所篩選到的候選資訊作為熱點(diǎn)資訊。簡(jiǎn)而言之,該方法為分別為每個(gè)熱點(diǎn)關(guān)鍵詞 選定一個(gè)與該關(guān)鍵詞相關(guān)度最高的資訊作為熱點(diǎn)資訊。
[0047] 方法二:從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度大于 預(yù)設(shè)閾值的資訊將所篩選到的候選資訊作為熱點(diǎn)資訊。
[0048] 方法三:從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度為排 名前預(yù)設(shè)數(shù)目個(gè)候選資訊作為熱點(diǎn)資訊。例如,分別為每個(gè)熱點(diǎn)關(guān)鍵詞選定3個(gè)候選資訊 集合中的候選資訊作為熱點(diǎn)資訊。
[0049] 本實(shí)施例所述的技術(shù)方案,通過(guò)獲取熱點(diǎn)關(guān)鍵詞集合,從資訊集合中將較新的資 訊提取出來(lái),分別計(jì)算獲取的熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所提取的較新資訊的相關(guān) 度,根據(jù)所述相關(guān)度從所提取的較新資訊中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選到的 候選資訊作為熱點(diǎn)資訊。能實(shí)現(xiàn)通過(guò)計(jì)算機(jī)獨(dú)立獲取熱點(diǎn)資訊,可節(jié)約成本,能提高獲取熱 點(diǎn)資訊的速度。
[0050] 實(shí)施例二
[0051] 圖2是本實(shí)施例所述的獲取熱點(diǎn)資訊的方法流程圖,如圖2所示,本實(shí)施例所述的 獲取熱點(diǎn)資訊的方法包括:
[0052] S201、對(duì)預(yù)先指定的資訊網(wǎng)站的RSS源周期性地進(jìn)行抓取并解析,將所獲得的資 訊保存到資訊集合中。
[0053] S202、判斷抓取熱點(diǎn)信息的時(shí)間是否到達(dá),若是則執(zhí)行步驟S204,否則執(zhí)行步驟 S203。
[0054] 抓取頻率可以預(yù)先設(shè)置,如設(shè)置在30秒到1分鐘之間,則每個(gè)周期完成后,判斷下 一抓取周期是否開(kāi)始。
[0055] S203、等待,返回步驟S202。
[0056] S204、獲取熱點(diǎn)關(guān)鍵詞集合。
[0057] 例如通過(guò)對(duì)門(mén)戶及搜索引擎特定熱點(diǎn)版塊內(nèi)容進(jìn)行抓取。比如百度熱榜、新浪首 頁(yè)等。
[0058] S205、從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊集合。
[0059] RSS (Really Simple Syndication,易信息聚合)訂閱是站點(diǎn)用來(lái)和其他站點(diǎn)之間 共享內(nèi)容的一種簡(jiǎn)易方式,例如,可通過(guò)對(duì)預(yù)先指定的主流網(wǎng)站(例如新浪、搜狐等網(wǎng)站)的 RSS源進(jìn)行抓取并解析,得到資訊對(duì)應(yīng)的統(tǒng)一資源定位符URL、標(biāo)題、時(shí)間、正文、熱度等,保 存到資訊集合中。
[0060] 為了及時(shí)獲取最新資訊,所述抓取并解析的步驟可為周期性地抓取的步驟,例如 每2小時(shí)抓取一次,并進(jìn)行去重操作。
[0061] S206、順次提取熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞。
[0062] 例如提取熱點(diǎn)關(guān)鍵詞為"吉林爆炸"。
[0063] S207、將提取的熱點(diǎn)關(guān)鍵詞拆分成熱點(diǎn)關(guān)鍵字組合。
[0064] 如將熱點(diǎn)關(guān)鍵詞中每相鄰的兩個(gè)字作為熱點(diǎn)關(guān)鍵字組合。將其拆分為多個(gè)長(zhǎng)度為 2的熱點(diǎn)關(guān)鍵字組合,依次為:吉林、林爆、爆炸。
[0065] S208、計(jì)算各熱點(diǎn)關(guān)鍵字與候選資訊集合中各資訊的相關(guān)度,獲取各熱點(diǎn)關(guān)鍵詞 與各資訊的相關(guān)度。
[0066] 計(jì)算第i熱點(diǎn)關(guān)鍵詞與第j資訊的相關(guān)度的方法具體包括:
[0067] 將第i熱點(diǎn)關(guān)鍵詞拆分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合;
[0068] 按照預(yù)設(shè)算法分別計(jì)算第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的 相關(guān)度;
[0069] 將第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的相關(guān)度相加作為第i 熱點(diǎn)關(guān)鍵詞與第j資訊的相關(guān)度;
[0070] 所述i和j為不小于1的正整數(shù)。
[0071] 所述將第i熱點(diǎn)關(guān)鍵詞拆分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合的步驟具體包括:將第i 熱點(diǎn)關(guān)鍵詞中每相鄰的兩個(gè)字作為熱點(diǎn)關(guān)鍵字組合。
[0072] 所述分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資 訊的相關(guān)度的步驟中,計(jì)算熱點(diǎn)關(guān)鍵詞與資訊的相關(guān)度的方法為:
[0073] Score (qi,D) = λ JF (qi) * λ 2H(D) / ( λ 3DF (qi) * λ 4L (D))
[0074] 其中,D為資訊;
[0075] Score (qp D)為熱點(diǎn)關(guān)鍵詞qi與資訊D的相關(guān)度;
[0076] qi為熱點(diǎn)關(guān)鍵詞Q的第i個(gè)熱點(diǎn)關(guān)鍵字組合;
[0077] TF (Qi)為熱點(diǎn)關(guān)鍵字組合Qi的文檔D中的頻率;
[0078] H(D)為資訊D的熱度;
[0079] DF(Qi)為熱點(diǎn)關(guān)鍵字組合Qi的文檔頻率;
[0080] L(D)為資訊D的內(nèi)容長(zhǎng)度;
[0081] 入η入2、入3和入4為預(yù)設(shè)系數(shù)。
[0082] S209、分別計(jì)算所獲取的各熱點(diǎn)信息與所提取的各資訊的相關(guān)度。
[0083] 熱點(diǎn)信息與所提取的資訊的相關(guān)度為該熱點(diǎn)的熱點(diǎn)關(guān)鍵字組合與該資訊的相關(guān) 度之和:
[0084]其中,Q為熱點(diǎn) 關(guān)鍵詞;

【權(quán)利要求】
1. 一種獲取熱點(diǎn)資訊的方法,其特征在于,包括: 獲取熱點(diǎn)關(guān)鍵詞集合; 從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊集合; 分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資訊的相關(guān) 度; 根據(jù)所述相關(guān)度從所述候選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選到的 候選資訊作為熱點(diǎn)資訊。
2. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述獲取熱點(diǎn)關(guān)鍵詞集合 的步驟包括;從預(yù)先指定的網(wǎng)站獲取熱點(diǎn)關(guān)鍵詞集合。
3. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述從包含資訊的資訊集 合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊集合的步驟之前還包括:對(duì)預(yù)先指定的資訊 網(wǎng)站的易信息聚合進(jìn)行抓取并解析,獲得資訊,將所獲得的資訊保存到資訊集合中。
4. 如權(quán)利要求3所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述從預(yù)先指定的資訊網(wǎng) 站抓取并解析獲得資訊的步驟具體為:對(duì)預(yù)先指定的資訊網(wǎng)站的易信息聚合周期性地進(jìn)行 抓取并解析。
5. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述預(yù)設(shè)時(shí)間窗口的起始 時(shí)間為比當(dāng)前時(shí)間小于預(yù)設(shè)時(shí)長(zhǎng)的時(shí)間,所述預(yù)設(shè)時(shí)間窗口的終止時(shí)間為當(dāng)前時(shí)間。
6. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述分別計(jì)算所述熱點(diǎn)關(guān) 鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資訊的相關(guān)度的步驟中,計(jì)算第i熱點(diǎn) 關(guān)鍵詞與第j資訊的相關(guān)度的方法具體包括: 將第i熱點(diǎn)關(guān)鍵詞拆分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合; 按照預(yù)設(shè)算法分別計(jì)算第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的相關(guān) 度; 將第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的相關(guān)度相加作為第i熱點(diǎn) 關(guān)鍵詞與第j資訊的相關(guān)度; 所述i和j為不小于1的正整數(shù)。
7. 如權(quán)利要求6所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述將第i熱點(diǎn)關(guān)鍵詞拆分 成至少一個(gè)熱點(diǎn)關(guān)鍵字組合的步驟具體包括;將第i熱點(diǎn)關(guān)鍵詞中每相鄰的兩個(gè)字作為熱 點(diǎn)關(guān)鍵字組合。
8. 如權(quán)利要求6所述的獲取熱點(diǎn)資訊的方法,其特征在于,所述分別計(jì)算所述熱點(diǎn)關(guān) 鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資訊的相關(guān)度的步驟中,計(jì)算熱點(diǎn)關(guān)鍵 詞與資訊的相關(guān)度的方法為: 成。巧化=藝:?;?7%') * 公(。)/化純,)* 乂4劇)]; 其中,Q為熱點(diǎn)關(guān)鍵詞; D為資訊; Score怕,D)為熱點(diǎn)關(guān)鍵詞Q與資訊D的相關(guān)度; i為熱點(diǎn)關(guān)鍵詞中包含的熱點(diǎn)關(guān)鍵字組合的序號(hào); n為熱點(diǎn)關(guān)鍵詞中包含的熱點(diǎn)關(guān)鍵字組合的數(shù)目; Qi為熱點(diǎn)關(guān)鍵詞Q的第i個(gè)熱點(diǎn)關(guān)鍵字組合; TF hi)為熱點(diǎn)關(guān)鍵字組合di的資訊D中的頻率; H值)為資訊D的熱度; DFhi)為熱點(diǎn)關(guān)鍵字組合qi的文檔頻率; L0))為資訊D的內(nèi)容長(zhǎng)度; 入1、入2、入3和入4為預(yù)設(shè)系數(shù)。
9. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,根據(jù)所述相關(guān)度從所述候 選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊的步驟 具體包括: 從所述候選資訊集合中篩選分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度最高的資訊,將所 篩選到的候選資訊作為熱點(diǎn)資訊。
10. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,根據(jù)所述相關(guān)度從所述候 選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊的步驟 具體包括: 從所述候選資訊集合中篩選分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度大于預(yù)設(shè)闊值的 資訊將所篩選到的候選資訊作為熱點(diǎn)資訊。
11. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,根據(jù)所述相關(guān)度從所述候 選資訊集合中篩選滿足預(yù)設(shè)條件的候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊的步驟 具體包括: 從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度為排名前預(yù)設(shè)數(shù) 目個(gè)候選資訊作為熱點(diǎn)資訊。
12. 如權(quán)利要求1所述的獲取熱點(diǎn)資訊的方法,其特征在于,將所篩選到的候選資訊作 為熱點(diǎn)資訊的步驟之后還包括;對(duì)所篩選的熱點(diǎn)資訊進(jìn)行展示。
13. -種獲取熱點(diǎn)資訊的裝置,其特征在于,包括: 熱點(diǎn)關(guān)鍵詞獲取單元,用于獲取熱點(diǎn)關(guān)鍵詞集合; 候選資訊提取單元,用于從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候 選資訊集合; 相關(guān)度計(jì)算單元,用于分別計(jì)算所述熱點(diǎn)關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊 集合中的資訊的相關(guān)度; 熱點(diǎn)資訊篩選單元,用于根據(jù)所述相關(guān)度從所述候選資訊集合中篩選滿足預(yù)設(shè)條件的 候選資訊,將所篩選到的候選資訊作為熱點(diǎn)資訊。
14. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,熱點(diǎn)關(guān)鍵詞獲取單元具 體用于:從預(yù)先指定的網(wǎng)站獲取熱點(diǎn)關(guān)鍵詞集合。
15. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,還包括資訊獲取單元,用 于候選資訊提取單元從包含資訊的資訊集合中提取預(yù)設(shè)時(shí)間窗口內(nèi)的資訊作為候選資訊 集合之前,用于對(duì)預(yù)先指定的資訊網(wǎng)站的易信息聚合進(jìn)行抓取并解析,獲得資訊,將所獲得 的資訊保存到資訊集合中。
16. 如權(quán)利要求15所述的獲取熱點(diǎn)資訊的裝置,其特征在于,資訊獲取單元用于所述 對(duì)預(yù)先指定的資訊網(wǎng)站的易信息聚合進(jìn)行抓取并解析具體為:用于對(duì)預(yù)先指定的資訊網(wǎng)站 的易信息聚合進(jìn)行抓取并解析具體為:用于對(duì)預(yù)先指定的資訊網(wǎng)站的易信息聚合周期性地 進(jìn)行抓取并解析。
17. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,所述預(yù)設(shè)時(shí)間窗口的起 始時(shí)間為比當(dāng)前時(shí)間小于預(yù)設(shè)時(shí)長(zhǎng)的時(shí)間,所述預(yù)設(shè)時(shí)間窗口的終止時(shí)間為當(dāng)前時(shí)間。
18. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,相關(guān)度計(jì)算單元中,計(jì)算 第i熱點(diǎn)關(guān)鍵詞與第j資訊的相關(guān)度的裝置具體包括: 將第i熱點(diǎn)關(guān)鍵詞拆分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合; 按照預(yù)設(shè)算法分別計(jì)算第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的相關(guān) 度; 將第j資訊與第i熱點(diǎn)關(guān)鍵詞所拆分的各熱點(diǎn)關(guān)鍵字組合的相關(guān)度相加作為第i熱點(diǎn) 關(guān)鍵詞與第j資訊的相關(guān)度; 所述i和j為不小于1的正整數(shù)。
19. 如權(quán)利要求18所述的獲取熱點(diǎn)資訊的裝置,其特征在于,所述將第i熱點(diǎn)關(guān)鍵詞拆 分成至少一個(gè)熱點(diǎn)關(guān)鍵字組合具體包括:將第i熱點(diǎn)關(guān)鍵詞中每相鄰的兩個(gè)字作為熱點(diǎn)關(guān) 鍵字組合。
20. 如權(quán)利要求18所述的獲取熱點(diǎn)資訊的裝置,其特征在于,所述分別計(jì)算所述熱點(diǎn) 關(guān)鍵詞集合中的熱點(diǎn)關(guān)鍵詞與所述候選資訊集合中的資訊的相關(guān)度的方法中,計(jì)算熱點(diǎn)關(guān) 鍵詞與資訊的相關(guān)度的具體為:
其中,Q為熱點(diǎn)關(guān)鍵詞; D為資訊; Score怕,D)為熱點(diǎn)關(guān)鍵詞Q與資訊D的相關(guān)度; i為熱點(diǎn)關(guān)鍵詞中包含的熱點(diǎn)關(guān)鍵字組合的序號(hào); n為熱點(diǎn)關(guān)鍵詞中包含的熱點(diǎn)關(guān)鍵字組合的數(shù)目; 為熱點(diǎn)關(guān)鍵詞Q的第i個(gè)熱點(diǎn)關(guān)鍵字組合; TFhi)為熱點(diǎn)關(guān)鍵字組合di的資訊D中的頻率; H值)為資訊D的熱度; DFhi)為熱點(diǎn)關(guān)鍵字組合qi的文檔頻率; UD)為資訊D的內(nèi)容長(zhǎng)度; 入1、入2、入3和入4為預(yù)設(shè)系數(shù)。
21. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,熱點(diǎn)資訊篩選單元具體 用于: 從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度最高的資訊將所 篩選到的候選資訊作為熱點(diǎn)資訊。
22. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,熱點(diǎn)資訊篩選單元具體 用于:從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度為排名前預(yù)設(shè)數(shù) 目個(gè)候選資訊作為熱點(diǎn)資訊。
23. 如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,熱點(diǎn)資訊篩選單元具體
用于:從所述候選資訊集合中提取分別與所獲取的各熱點(diǎn)關(guān)鍵詞的相關(guān)度最高的預(yù)設(shè)數(shù)目 的資訊將所篩選到的候選資訊作為熱點(diǎn)資訊。
24.如權(quán)利要求13所述的獲取熱點(diǎn)資訊的裝置,其特征在于,熱點(diǎn)資訊篩選單元之后 還包括熱點(diǎn)資訊展示單元,用于對(duì)所篩選的熱點(diǎn)資訊進(jìn)行展示。
【文檔編號(hào)】G06F17/30GK104424278SQ201310386577
【公開(kāi)日】2015年3月18日 申請(qǐng)日期:2013年8月29日 優(yōu)先權(quán)日:2013年8月29日
【發(fā)明者】蔡兵 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1