亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種資訊處理方法及裝置與流程

文檔序號(hào):12825020閱讀:307來源:國(guó)知局
一種資訊處理方法及裝置與流程

本發(fā)明涉及計(jì)算機(jī)軟件應(yīng)用領(lǐng)域,特別涉及一種資訊處理方法及裝置。



背景技術(shù):

隨著通信技術(shù)的發(fā)展,尤其移動(dòng)網(wǎng)絡(luò)和智能移動(dòng)終端的發(fā)展,用戶的網(wǎng)絡(luò)生活越來越豐富,網(wǎng)絡(luò)端中資訊的發(fā)布數(shù)量也呈爆發(fā)式增長(zhǎng),人們通過網(wǎng)絡(luò)獲取資訊也越來越方便,如瀏覽新聞、看電影、玩游戲、搜索、購(gòu)物、發(fā)布信息等。

但是,資訊的篇幅通常較長(zhǎng),理解其內(nèi)容本身需要花費(fèi)較多時(shí)間與精力,例如,對(duì)金融領(lǐng)域來說,由于金融資訊篇幅較長(zhǎng)并且資訊中有較多的專業(yè)術(shù)語,若不是該領(lǐng)域的從業(yè)者,通常很難充分理解資訊中提及的關(guān)鍵內(nèi)容,即資訊熱點(diǎn)。這些資訊熱點(diǎn)對(duì)經(jīng)濟(jì)決策起到指引的作用,第一時(shí)間對(duì)行業(yè)的資訊熱點(diǎn)進(jìn)行了解和把控,能很好的保證在該行業(yè)的發(fā)展中占絕對(duì)優(yōu)勢(shì)。而目前從資訊中獲取資訊熱點(diǎn)的方式一般還是依靠用戶自身的行業(yè)經(jīng)驗(yàn),在閱讀完該資訊后總結(jié)出來的,不同的用戶行業(yè)經(jīng)驗(yàn)可能存在較大的差異,那么獲得的資訊熱點(diǎn)存在較強(qiáng)的主觀性,造成獲得資訊熱點(diǎn)的準(zhǔn)確度低下,因此,如何能夠快速準(zhǔn)確地對(duì)資訊熱點(diǎn)進(jìn)行提取是現(xiàn)在亟待解決的問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例的目的在于提供一種資訊處理方法及裝置,能夠快速準(zhǔn)確地提取到資訊熱點(diǎn)。

為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種資訊處理方法,所述方法包括:

獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組,所述目標(biāo)資訊組中包括屬于同一領(lǐng)域的至少兩條目標(biāo)資訊;

分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊;

對(duì)所述第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為所述預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。

可選地,所述分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊,包括:

分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊所包含的超文本標(biāo)記語言html標(biāo)簽和/或圖像進(jìn)行過濾,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊。

可選地,所述對(duì)所述第一處理資訊進(jìn)行關(guān)鍵詞提取,包括:

利用詞頻-逆向文件頻率tf-idf算法對(duì)第二處理資訊中包含的詞語進(jìn)行權(quán)重計(jì)算,得到每一詞語的權(quán)重值,所述第二處理資訊為:采用預(yù)設(shè)的分詞庫(kù)對(duì)所述第一處理資訊中包含的無關(guān)詞進(jìn)行過濾后得到的資訊,所述無關(guān)詞為與所述目標(biāo)資訊所屬領(lǐng)域無關(guān)的詞語;

將第一詞語序列的前第一預(yù)設(shè)數(shù)量個(gè)詞語確定為關(guān)鍵詞,所述第一詞語序列為按照詞語對(duì)應(yīng)權(quán)重值從大到小排列的詞語序列。

可選地,所述方法還包括:

針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度。

可選地,計(jì)算所述目標(biāo)資訊的熱度所采用的公式為:

其中,h(x)表示所述目標(biāo)資訊組中包含的目標(biāo)資訊x對(duì)應(yīng)的熱度,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子;具體的,所述q(x)和所述t(x)表達(dá)式如下:

該式中,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,f(kx)表示所述目標(biāo)資訊x中關(guān)鍵詞k對(duì)應(yīng)的權(quán)重值,ntitle(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的標(biāo)題中出現(xiàn)的頻次,ncontent(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的正文中出現(xiàn)的頻次;

該式中,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子,tc(x)表示計(jì)算所述目標(biāo)資訊x的熱度時(shí)對(duì)應(yīng)的時(shí)間,tp(x)表示所述目標(biāo)資訊x對(duì)應(yīng)的發(fā)布時(shí)間。

可選地,所述方法還包括:

針對(duì)所述目標(biāo)資訊組中所有目標(biāo)資訊對(duì)應(yīng)的關(guān)鍵詞進(jìn)行向量化,生成針對(duì)所述目標(biāo)資訊組的文本向量空間,所述文本向量空間中每一維度的向量均對(duì)應(yīng)一個(gè)關(guān)鍵詞;

基于所述文本向量空間中每一目標(biāo)資訊所包含關(guān)鍵詞的向量,對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行聚類,得到第一數(shù)量的類簇;

將每一類簇的第二詞語序列的前第二預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞作為該類簇的代表詞,所述第二詞語序列為按照關(guān)鍵詞對(duì)應(yīng)的權(quán)重值從大到小排列的詞語序列。

可選地,所述方法還包括:

將所述資訊熱點(diǎn)推送至顯示界面,所述顯示界面為展示資訊內(nèi)容的界面。

為達(dá)到上述目的,本發(fā)明實(shí)施例還公開了一種資訊處理裝置,所述裝置包括:

第一獲得模塊,用于獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組,所述目標(biāo)資訊組中包括屬于同一領(lǐng)域的至少兩條目標(biāo)資訊;

數(shù)據(jù)清洗模塊,用于分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊;

第二獲得模塊,用于對(duì)所述第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為所述預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。

可選地,所述數(shù)據(jù)清洗模塊,具體用于:

分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊所包含的超文本標(biāo)記語言html標(biāo)簽和/或圖像進(jìn)行過濾,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊。

可選地,所述第二獲得模塊,具體用于:

利用詞頻-逆向文件頻率tf-idf算法對(duì)第二處理資訊中包含的詞語進(jìn)行權(quán)重計(jì)算,得到每一詞語的權(quán)重值,所述第二處理資訊為:采用預(yù)設(shè)的分詞庫(kù)對(duì)所述第一處理資訊中包含的無關(guān)詞進(jìn)行過濾后得到的資訊,所述無關(guān)詞為與所述目標(biāo)資訊所屬領(lǐng)域無關(guān)的詞語;

將第一詞語序列的前第一預(yù)設(shè)數(shù)量個(gè)詞語確定為關(guān)鍵詞,所述第一詞語序列為按照詞語對(duì)應(yīng)權(quán)重值從大到小排列的詞語序列;

將提取到的關(guān)鍵詞作為所述預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。

可選地,所述裝置還包括:

熱度計(jì)算模塊,用于針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度。

可選地,所述熱度計(jì)算模塊,具體用于:

針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,采用如下公式計(jì)算該目標(biāo)資訊的熱度:

其中,h(x)表示所述目標(biāo)資訊組中包含的目標(biāo)資訊x對(duì)應(yīng)的熱度,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子;具體的,所述q(x)和所述t(x)表達(dá)式如下:

該式中,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,f(kx)表示所述目標(biāo)資訊x中關(guān)鍵詞k對(duì)應(yīng)的權(quán)重值,ntitle(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的標(biāo)題中出現(xiàn)的頻次,ncontent(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的正文中出現(xiàn)的頻次;

該式中,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子,tc(x)表示計(jì)算所述目標(biāo)資訊x的熱度時(shí)對(duì)應(yīng)的時(shí)間,tp(x)表示所述目標(biāo)資訊x對(duì)應(yīng)的發(fā)布時(shí)間。

可選地,所述裝置還包括:

生成模塊,用于針對(duì)所述目標(biāo)資訊組中所有目標(biāo)資訊對(duì)應(yīng)的關(guān)鍵詞進(jìn)行向量化,生成針對(duì)所述目標(biāo)資訊組的文本向量空間,所述文本向量空間中每一維度的向量均對(duì)應(yīng)一個(gè)關(guān)鍵詞;

聚類模塊,用于基于所述文本向量空間中每一目標(biāo)資訊所包含關(guān)鍵詞的向量,對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行聚類,得到第一數(shù)量的類簇;

第三獲得模塊,用于將每一類簇的第二詞語序列的前第二預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞作為該類簇的代表詞,所述第二詞語序列為按照關(guān)鍵詞對(duì)應(yīng)的權(quán)重值從大到小排列的詞語序列。

可選地,所述裝置還包括:

推送模塊,用于將所述資訊熱點(diǎn)推送至顯示界面,所述顯示界面為展示資訊內(nèi)容的界面。

綜上可見,本發(fā)明實(shí)施例提供的方案中,在獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組之后,分別對(duì)目標(biāo)資訊組中的每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到針對(duì)每一目標(biāo)資訊的純文本形式的第一處理資訊,然后對(duì)得到的第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。應(yīng)用本發(fā)明實(shí)施例提供的方案對(duì)資訊進(jìn)行處理,無需人工主觀地處理資訊,而是通過對(duì)資訊進(jìn)行數(shù)據(jù)清洗以及關(guān)鍵詞提取,能夠快速準(zhǔn)確地提取到資訊熱點(diǎn)。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的一種資訊處理方法的流程示意圖;

圖2為本發(fā)明實(shí)施例提供的另一種資訊處理方法的流程示意圖;

圖3為本發(fā)明實(shí)施例提供的再一種資訊處理方法的流程示意圖;

圖4為本發(fā)明實(shí)施例提供的還一種資訊處理方法的流程示意圖;

圖5為本發(fā)明實(shí)施例提供的一種資訊處理裝置的結(jié)構(gòu)示意圖;

圖6為本發(fā)明實(shí)施例提供的另一種資訊處理裝置的結(jié)構(gòu)示意圖;

圖7為本發(fā)明實(shí)施例提供的再一種資訊處理裝置的結(jié)構(gòu)示意圖;

圖8為本發(fā)明實(shí)施例提供的還一種資訊處理裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

下面通過具體實(shí)施例,對(duì)本發(fā)明進(jìn)行詳細(xì)的說明。

圖1為本發(fā)明實(shí)施例提供的一種資訊處理方法的流程示意圖,該方法包括步驟:

s101:獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組,所述目標(biāo)資訊組中包括屬于同一領(lǐng)域的至少兩條目標(biāo)資訊;

隨著用戶的需求多樣化,網(wǎng)絡(luò)端中資訊的種類也呈多樣化的趨勢(shì)發(fā)展,目前網(wǎng)絡(luò)端發(fā)布的資訊幾乎涵蓋了各領(lǐng)域,例如,金融、科技、it、汽車、手機(jī)等等,不同的領(lǐng)域一般對(duì)應(yīng)著不同的資訊數(shù)據(jù)庫(kù),以金融領(lǐng)域?yàn)槔?,金融領(lǐng)域?qū)?yīng)著一個(gè)資訊數(shù)據(jù)庫(kù),在這一資訊數(shù)據(jù)庫(kù)中包含有網(wǎng)絡(luò)端的金融領(lǐng)域的資訊,當(dāng)然,為了節(jié)省資訊數(shù)據(jù)庫(kù)的存儲(chǔ)空間,通常會(huì)存儲(chǔ)一定期限的資訊,例如,近60天的資訊、近半年的資訊、近一年的資訊等,這都是合理的,上述的期限是可以預(yù)先設(shè)定的,因此,本發(fā)明實(shí)施例不對(duì)該期限進(jìn)行明確的限定。

但用戶對(duì)網(wǎng)絡(luò)端存儲(chǔ)的金融領(lǐng)域的所有資訊并不是都感興趣,因?yàn)榫W(wǎng)絡(luò)端發(fā)布的資訊更新比較快,已發(fā)布很久的資訊并不能準(zhǔn)確地反映近期的動(dòng)態(tài)趨勢(shì),而閱讀每一資訊均需花費(fèi)較多的時(shí)間,因此,用戶可以選擇近期的資訊或者某一時(shí)間段的資訊進(jìn)行閱讀,例如,用戶可以設(shè)置一個(gè)時(shí)間段,僅對(duì)該時(shí)間段內(nèi)網(wǎng)絡(luò)端發(fā)布的資訊進(jìn)行閱讀,在本發(fā)明實(shí)施例提供的方案中,稱上述用戶設(shè)置的時(shí)間段為預(yù)設(shè)時(shí)間段,稱該預(yù)設(shè)時(shí)間段內(nèi)網(wǎng)絡(luò)端中金融領(lǐng)域的所有資訊構(gòu)成的資訊組為目標(biāo)資訊組。

需要說明的是,上述的預(yù)設(shè)時(shí)間段不能超過網(wǎng)絡(luò)端存儲(chǔ)的資訊期限范圍,例如,網(wǎng)絡(luò)端的存儲(chǔ)期限為近半年的資訊,那么,預(yù)設(shè)時(shí)間段不能超過半年的時(shí)長(zhǎng),可以設(shè)置為一個(gè)月、一周或者一天等,當(dāng)然上述所列舉的預(yù)設(shè)時(shí)間段僅為幾個(gè)具體的示例,本發(fā)明實(shí)施例對(duì)預(yù)設(shè)時(shí)間段的具體大小不做明確限定。

在確定預(yù)設(shè)時(shí)間段之后,可以從金融領(lǐng)域的資訊庫(kù)中獲取針對(duì)預(yù)設(shè)時(shí)間段的資訊組,該資訊組即為目標(biāo)資訊組。示例性的,網(wǎng)絡(luò)端存儲(chǔ)有近半年的金融領(lǐng)域的資訊,預(yù)設(shè)時(shí)間段為一周(近7天),那么,可以從網(wǎng)絡(luò)端存儲(chǔ)的近半年的金融領(lǐng)域的資訊中獲取近7天的資訊,這里的近7天是指當(dāng)天以及當(dāng)天之前的6天,一共7天。例如,當(dāng)天日期為2016.12.12,那么近7天是指2016.12.12、2016.12.11、2016.12.10、2016.12.09、2016.12.08、2016.12.07、2016.12.06。假設(shè)上述的7天中網(wǎng)絡(luò)端中共發(fā)布了50條金融領(lǐng)域的資訊,那么,這50條資訊構(gòu)成的資訊組即為目標(biāo)資訊組,而每一條資訊即為一條目標(biāo)資訊。

s102:分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊;

在獲得目標(biāo)資訊組后,可以對(duì)該目標(biāo)資訊組中的每一條目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)清洗(datacleaning)從名字上可以看的出,就是把資訊中“臟”內(nèi)容的“洗掉”,是指發(fā)現(xiàn)并處理目標(biāo)資訊中可識(shí)別的錯(cuò)誤或無用內(nèi)容,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。通過對(duì)每一條資訊進(jìn)行數(shù)據(jù)清洗,能夠得到針對(duì)每一資訊的純文本形式的新資訊,稱得到的純文本形式的新資訊為第一處理資訊。

在本發(fā)明實(shí)施例提供的一種具體實(shí)現(xiàn)方式中,所述分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊,可以包括:

分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊所包含的超文本標(biāo)記語言html標(biāo)簽和/或圖像進(jìn)行過濾,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊。

本領(lǐng)域技術(shù)人員能夠理解的是,一般資訊的內(nèi)容以文字為主,但為了使資訊的內(nèi)容更加直觀生動(dòng),通常資訊的內(nèi)容中往往還會(huì)存在一些圖像以及html標(biāo)簽,在對(duì)資訊進(jìn)行識(shí)別時(shí),這些標(biāo)簽以及圖像所包含的信息會(huì)對(duì)該資訊的詞語統(tǒng)計(jì)造成干擾,對(duì)于該資訊而言,標(biāo)簽以及圖像所包含的信息是無效的內(nèi)容,因此需要對(duì)資訊中包含的所有html以及圖像進(jìn)行過濾。

仍以上述的目標(biāo)資訊組包含50條資訊為例,為了準(zhǔn)確地對(duì)該資訊進(jìn)行關(guān)鍵詞提取,需要針對(duì)目標(biāo)資訊組中的50條資訊分別進(jìn)行數(shù)據(jù)清洗,即分別對(duì)每一條資訊中包含的所有html以及圖像進(jìn)行過濾,過濾之后可分別得到這50條資訊各自對(duì)應(yīng)的純文本形式的第一處理資訊。

s103:對(duì)所述第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為所述預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。

資訊的篇幅通常較長(zhǎng),理解其內(nèi)容本身需要花費(fèi)較多時(shí)間與精力,就金融領(lǐng)域而言,金融領(lǐng)域的資訊篇幅較長(zhǎng)并且資訊中有較多的專業(yè)術(shù)語,閱讀起來枯燥無味,若不是該領(lǐng)域的從業(yè)者,通常很難充分理解資訊中提及的關(guān)鍵內(nèi)容,即資訊熱點(diǎn)。為了更加準(zhǔn)確地獲得資訊熱點(diǎn),本發(fā)明實(shí)施例提供的技術(shù)方案中,對(duì)上述獲得的第一處理資訊進(jìn)行關(guān)鍵詞提取,對(duì)于關(guān)鍵詞提取,目前已經(jīng)存在一些算法,比如詞頻-逆向文件頻率(termfrequency–inversedocumentfrequency,簡(jiǎn)稱tf-idf)算法,詞語逆頻率(termfrequency–inversewordfrequency,簡(jiǎn)稱tf-iwf)算法等等。這些算法的大致思想都是一個(gè)詞語出現(xiàn)的次數(shù)越多,并且出現(xiàn)在其它的資訊中的次數(shù)越少,那么它是該條資訊的關(guān)鍵詞的可能性也就越大。

在本發(fā)明實(shí)施例提供的一種具體實(shí)現(xiàn)方式中,所述對(duì)所述第一處理資訊進(jìn)行關(guān)鍵詞提取,可以包括步驟:

a:利用詞頻-逆向文件頻率tf-idf算法對(duì)第二處理資訊中包含的詞語進(jìn)行權(quán)重計(jì)算,得到每一詞語的權(quán)重值,所述第二處理資訊為:采用預(yù)設(shè)的分詞庫(kù)對(duì)所述第一處理資訊中包含的無關(guān)詞進(jìn)行過濾后得到的資訊,所述無關(guān)詞為與所述目標(biāo)資訊所屬領(lǐng)域無關(guān)的詞語;

由上可知,通過對(duì)每一目標(biāo)資訊中包含的html標(biāo)簽和圖像進(jìn)行過濾,能夠得到針對(duì)每一目標(biāo)資訊的純文本形式的第一處理資訊,盡管得到的是純文本形式的資訊,但資訊中還包含有大量的與該目標(biāo)資訊所屬領(lǐng)域無關(guān)的詞語,在本發(fā)明實(shí)施例提供的方案中,稱上述所說的與該目標(biāo)資訊所屬領(lǐng)域無關(guān)的詞語為無關(guān)詞,如果不將該目標(biāo)資訊中的無關(guān)詞過濾掉,那么在進(jìn)行關(guān)鍵詞提取的過程中,會(huì)對(duì)上述的無關(guān)詞一并進(jìn)行統(tǒng)計(jì),因?yàn)橘Y訊中每一詞語在形式上是對(duì)等的,而大量的無關(guān)詞會(huì)使得提取關(guān)鍵詞的效率降低,并且對(duì)無關(guān)詞也進(jìn)行統(tǒng)計(jì)會(huì)使提取到的關(guān)鍵詞準(zhǔn)確度低下。

考慮到上述原因,為了提高提取關(guān)鍵詞的效率以及準(zhǔn)確度,可以采用預(yù)設(shè)的分詞庫(kù)對(duì)上述的第一處理資訊中包含的無關(guān)詞進(jìn)行過濾,例如,可以采用jieba分詞庫(kù)對(duì)上述的第一處理資訊中的無關(guān)詞進(jìn)行過濾。在對(duì)無關(guān)詞進(jìn)行過濾的過程中,可以參照金融領(lǐng)域的停用詞庫(kù)與權(quán)重詞庫(kù)進(jìn)行。其中,金融領(lǐng)域的停用詞庫(kù)是指對(duì)金融領(lǐng)域中特定的停用詞進(jìn)行統(tǒng)計(jì),如:“漲幅”、“開盤價(jià)”等詞語;金融領(lǐng)域的權(quán)重詞庫(kù)是指金融領(lǐng)域中具有特殊含義的詞,如“十三五”、“新三板”等詞,該權(quán)重詞庫(kù)可以結(jié)合搜狗細(xì)胞詞庫(kù)中針對(duì)金融領(lǐng)域的詞語。本發(fā)明實(shí)施例稱對(duì)第一處理資訊中包含的無關(guān)詞進(jìn)行過濾后得到的資訊為第二處理資訊。

需要說明的是,上述僅以金融領(lǐng)域?yàn)槔M(jìn)行具體的說明,但本發(fā)明實(shí)施例并不對(duì)資訊所屬的具體領(lǐng)域做明確限定,例如資訊還可以為:科技、it、汽車、手機(jī)等等,由于不同領(lǐng)域?qū)?yīng)的停用詞庫(kù)以及權(quán)重詞庫(kù)是不同的,因此上述所列舉的各詞語僅為本發(fā)明實(shí)施例提供的一組具體的示例,在實(shí)際應(yīng)用中可根據(jù)資訊所屬領(lǐng)域而進(jìn)一步確定,本發(fā)明實(shí)施例對(duì)此不做進(jìn)一步限定。

在得到第二處理資訊之后,利用詞頻-逆向文件頻率tf-idf算法對(duì)第二處理資訊中包含的詞語進(jìn)行權(quán)重計(jì)算,得到每一詞語的權(quán)重值;tf-idf算法是一種常用的統(tǒng)計(jì)方法,用以評(píng)估詞語對(duì)于目標(biāo)資訊組中的某一資訊的重要程度。詞語的重要性隨著它在該資訊中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在目標(biāo)資訊組中其他資訊中出現(xiàn)的頻率成反比下降,即該詞語的重要程度和整個(gè)目標(biāo)資訊組中包含的資訊(目標(biāo)資訊)數(shù)量與關(guān)鍵詞出現(xiàn)過的資訊數(shù)量呈一個(gè)比例關(guān)系,并通過一定權(quán)重衡量處理,得到該詞語的權(quán)重。tf-idf實(shí)際上是:tf*idf,即詞頻(termfrequency,簡(jiǎn)稱tf)和逆向文件頻率(inversedocumentfrequency,簡(jiǎn)稱idf)的乘積。計(jì)算上述第二處理資訊中每一詞語對(duì)應(yīng)的詞頻tf以及逆向文件頻率idf,得到的tf*idf值便為該詞語對(duì)應(yīng)的權(quán)重值。

b:將第一詞語序列的前第一預(yù)設(shè)數(shù)量個(gè)詞語確定為關(guān)鍵詞,所述第一詞語序列為按照詞語對(duì)應(yīng)權(quán)重值從大到小排列的詞語序列。

通過前述步驟能夠計(jì)算出第二處理資訊中包含的每一詞語對(duì)應(yīng)的權(quán)重值,由于權(quán)重值的大小表征這對(duì)應(yīng)詞語在對(duì)應(yīng)資訊中的重要程度,通常詞語的權(quán)重值越大,那就說明該詞語在對(duì)應(yīng)資訊中越重要,越能代表該資訊的內(nèi)容,那么該詞語為關(guān)鍵詞的可能性也就越大,因此,在計(jì)算出第二處理資訊中包含的每一詞語對(duì)應(yīng)的權(quán)重值之后,可以選擇權(quán)重值較大的一些詞語作為關(guān)鍵詞,具體的可以先按照詞語對(duì)應(yīng)權(quán)重值從大到小排列,排列后組成一個(gè)詞語序列,該序列稱為第一詞語序列,然后可以從上述的第一詞語序列中選取前第一預(yù)設(shè)數(shù)量個(gè)詞語作為關(guān)鍵詞。例如,選取前20個(gè)詞語作為關(guān)鍵詞,這里第一預(yù)設(shè)數(shù)量是一個(gè)經(jīng)驗(yàn)值,通常不會(huì)設(shè)置過大,一般設(shè)置在10-25的范圍內(nèi),當(dāng)然,理論上第一預(yù)設(shè)數(shù)量可以設(shè)置為任意的正整數(shù),因此本發(fā)明實(shí)施例對(duì)第一預(yù)設(shè)數(shù)量的具體數(shù)值并不做明確限定。

由上可見,圖1實(shí)施例提供的方案中,在獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組之后,分別對(duì)目標(biāo)資訊組中的每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到針對(duì)每一目標(biāo)資訊的純文本形式的第一處理資訊,然后對(duì)得到的第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。應(yīng)用本發(fā)明實(shí)施例提供的方案對(duì)資訊進(jìn)行處理,無需人工主觀地處理資訊,而是通過對(duì)資訊進(jìn)行數(shù)據(jù)清洗以及關(guān)鍵詞提取,能夠快速準(zhǔn)確地提取到資訊熱點(diǎn)。

圖2為本發(fā)明實(shí)施例提供的另一種資訊處理方法的流程示意圖,除包括圖1實(shí)施例提供的步驟s101-s103外,該方法還包括步驟:

s104:針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度。

為了反映目標(biāo)資訊組中每一條目標(biāo)資訊與上述預(yù)設(shè)時(shí)間段內(nèi)關(guān)鍵資訊內(nèi)容的相關(guān)度大小,在本發(fā)明實(shí)施例提供的方案中,可以基于每一條目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度。

在本發(fā)明實(shí)施例提供的一種具體實(shí)現(xiàn)方式中,計(jì)算所述目標(biāo)資訊的熱度所采用的公式為:

其中,h(x)表示所述目標(biāo)資訊組中包含的目標(biāo)資訊x對(duì)應(yīng)的熱度,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子;具體的,所述q(x)和所述t(x)表達(dá)式如下:

該式中,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,f(kx)表示所述目標(biāo)資訊x中關(guān)鍵詞k對(duì)應(yīng)的權(quán)重值,ntitle(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的標(biāo)題中出現(xiàn)的頻次,ncontent(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的正文中出現(xiàn)的頻次;

該式中,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子,tc(x)表示計(jì)算所述目標(biāo)資訊x的熱度時(shí)對(duì)應(yīng)的時(shí)間,tp(x)表示所述目標(biāo)資訊x對(duì)應(yīng)的發(fā)布時(shí)間。

示例性的,仍以目標(biāo)資訊組中包含50個(gè)目標(biāo)資訊為例,由于在計(jì)算每一條目標(biāo)資訊對(duì)應(yīng)的熱度時(shí),每一條目標(biāo)資訊之間在形式上是對(duì)等的,因此,以下僅以目標(biāo)資訊15為例進(jìn)行詳細(xì)的說明,若當(dāng)前是日期為2016.12.12,而目標(biāo)資訊15對(duì)應(yīng)的發(fā)布時(shí)間tp(15)為2016.12.10,計(jì)算目標(biāo)資訊15的熱度時(shí)對(duì)應(yīng)的時(shí)間為2016.12.12,則可得目標(biāo)資訊15對(duì)應(yīng)的時(shí)間因子t(15)=10/2=5,目標(biāo)資訊15中包含有20個(gè)關(guān)鍵詞,各關(guān)鍵詞k對(duì)應(yīng)的權(quán)重值f(k15)、在目標(biāo)資訊15的標(biāo)題中出現(xiàn)的頻次ntitle(k15)以及在目標(biāo)資訊15的正文中出現(xiàn)的頻次ncontent(k15)的具體數(shù)值參見表1,具體為:

表1

由表1所示內(nèi)容可知各關(guān)鍵詞對(duì)應(yīng)的權(quán)重值f(k15)、在目標(biāo)資訊15的標(biāo)題中出現(xiàn)的頻次ntitle(k15)以及在目標(biāo)資訊15的正文中出現(xiàn)的頻次ncontent(k15),將上述數(shù)值代入公式中,可得到目標(biāo)資訊15對(duì)應(yīng)的熱點(diǎn)相關(guān)因子q(15)=318.4,上述已知目標(biāo)資訊15對(duì)應(yīng)的時(shí)間因子t(15)=5,再將q(15)=318.4和t(15)=5代入公式中,則可最終計(jì)算得到目標(biāo)資訊15對(duì)應(yīng)的熱度h(x)=9.97。

按照上述的計(jì)算步驟不難將目標(biāo)資訊組中其他目標(biāo)資訊對(duì)應(yīng)的熱度計(jì)算出來,因此,通過上述過程能夠獲得目標(biāo)資訊組中每一條目標(biāo)資訊對(duì)應(yīng)的熱度。

需要說明的是,上述表1中各參數(shù)的數(shù)值僅為本發(fā)明實(shí)施例提供的一組具體的示例,并不構(gòu)成對(duì)上述各參數(shù)具體數(shù)值的限定。

由上可見,圖2實(shí)施例提供的方案中,能夠針對(duì)目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度,進(jìn)一步的對(duì)資訊進(jìn)行處理,更直觀地對(duì)資訊的重要性進(jìn)行體現(xiàn),為用戶獲取到重要的資訊內(nèi)容提供了保障,增加用戶體驗(yàn)。

圖3為本發(fā)明實(shí)施例提供的再一種資訊處理方法的流程示意圖;除包括圖1實(shí)施例提供的步驟s101-s103外,該方法還包括步驟:

s105:針對(duì)所述目標(biāo)資訊組中所有目標(biāo)資訊對(duì)應(yīng)的關(guān)鍵詞進(jìn)行向量化,生成針對(duì)所述目標(biāo)資訊組的文本向量空間,所述文本向量空間中每一維度的向量均對(duì)應(yīng)一個(gè)關(guān)鍵詞;

在本發(fā)明實(shí)施例提供的方案中,可以對(duì)目標(biāo)資訊組中包含的50條目標(biāo)資訊對(duì)應(yīng)的關(guān)鍵詞分別進(jìn)行向量化,向量化的過程為:

建立一個(gè)向量空間模型,可以將每一目標(biāo)資訊所包含的關(guān)鍵詞分別轉(zhuǎn)化至向量空間模型中,遍歷完目標(biāo)資訊組中的所有目標(biāo)資訊后,便生成了針對(duì)該目標(biāo)資訊組的向量空間,稱該向量空間為文本向量空間。

值得強(qiáng)調(diào)的是,每一關(guān)鍵詞均在上述文本向量空間中唯一對(duì)應(yīng)一個(gè)維度的向量,并且每一維度向量的模長(zhǎng)與該一維度向量對(duì)應(yīng)關(guān)鍵詞的權(quán)重值對(duì)應(yīng)。如果同一個(gè)關(guān)鍵詞在多個(gè)目標(biāo)資訊中出現(xiàn)的話,那么僅添加該關(guān)鍵詞一次,但需要將每一目標(biāo)資訊中該關(guān)鍵詞對(duì)應(yīng)的權(quán)重值進(jìn)行累加,該關(guān)鍵詞在文本向量空間中對(duì)應(yīng)的權(quán)重值可通過向量的模長(zhǎng)來體現(xiàn)。

s106:基于所述文本向量空間中每一目標(biāo)資訊所包含關(guān)鍵詞的向量,對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行聚類,得到第一數(shù)量的類簇;

在上述生成文本向量空間后,該文本向量空間中包含目標(biāo)資訊組中所有目標(biāo)資訊的所有關(guān)鍵詞,文本向量空間中的每一維度的向量均代表著一個(gè)關(guān)鍵詞。聚類簡(jiǎn)單的理解就是分類,那么對(duì)目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行聚類,就是對(duì)文本向量空間中每一目標(biāo)資訊中所包含關(guān)鍵詞對(duì)應(yīng)的向量進(jìn)行分類,將相似度或關(guān)聯(lián)度高的關(guān)鍵詞對(duì)應(yīng)的向量劃分為一組,這里所說的一組即為一個(gè)類簇。

聚類的過程一般通過計(jì)算機(jī)語言實(shí)現(xiàn),例如,可以基于scikit-learn工具庫(kù)將文本向量空間中的所有向量輸入至k-means++、ap(affinitypropagation)等算法算法中進(jìn)行聚類,由于該部分內(nèi)容所采用的k-means++、ap(affinitypropagation)等算法在原理上與現(xiàn)有技術(shù)無異,因此,本發(fā)明實(shí)施例將不再贅述。

s107:將每一類簇的第二詞語序列的前第二預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞作為該類簇的代表詞,所述第二詞語序列為按照關(guān)鍵詞對(duì)應(yīng)的權(quán)重值從大到小排列的詞語序列。

在完成對(duì)每一目標(biāo)資訊的關(guān)鍵詞進(jìn)行聚類后,能夠得到一定數(shù)量的類簇,本發(fā)明實(shí)施例中稱一定數(shù)量為第一數(shù)量。假設(shè)上述對(duì)目標(biāo)資訊組中50條目標(biāo)資訊所包含的50*20=1000個(gè)關(guān)鍵詞進(jìn)行向量化后,得到的文本向量空間中包含800個(gè)維度的向量,即該文本向量空間中包含800個(gè)關(guān)鍵詞,將文本向量空間中包含的800個(gè)維度的向量進(jìn)行聚類,得到7個(gè)類簇,假設(shè)這7個(gè)類簇中包含的向量維度數(shù)分別為:120、140、110、120、90、120、100,由于每一維度的向量唯一對(duì)應(yīng)一個(gè)關(guān)鍵詞,因此,上述7個(gè)類簇中包含關(guān)鍵詞的數(shù)量分別為:120、140、110、120、90、120、100。

可見,一般每個(gè)類簇中包含有多個(gè)關(guān)鍵詞,為了更加直觀準(zhǔn)確地體現(xiàn)各類簇所屬的類別,可以將每一類簇中包含的各關(guān)鍵詞按照對(duì)應(yīng)權(quán)重值從大到小的順序進(jìn)行排列后,從排序后對(duì)應(yīng)的詞語序列中取前第二預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞作為該類簇對(duì)應(yīng)的類別,本發(fā)明實(shí)施例提供的方案中,稱該處排序后對(duì)應(yīng)的詞語序列為第二詞語序列、稱該類別為代表詞。為了方便用戶對(duì)各目標(biāo)資訊進(jìn)行查找以及管理,第二預(yù)設(shè)數(shù)量通常設(shè)置的比較小,一般不超過10,當(dāng)然,理論上第二預(yù)設(shè)數(shù)量可以設(shè)置為任意的正整數(shù),因此本發(fā)明實(shí)施例對(duì)第二預(yù)設(shè)數(shù)量的具體數(shù)值并不做明確限定。

由上可見,應(yīng)用圖3提供的實(shí)施例,通過對(duì)目標(biāo)資訊組中包含所有目標(biāo)資訊的關(guān)鍵詞進(jìn)行向量化,并對(duì)向量化之后的各關(guān)鍵詞進(jìn)行聚類,得到第一數(shù)量的類簇,并將每一類簇中權(quán)重值大小排名前第二預(yù)設(shè)數(shù)量的關(guān)鍵詞作為該類簇的代表詞,能夠有效的對(duì)目標(biāo)資訊組中各目標(biāo)資訊進(jìn)行聚類,并用代表詞對(duì)各類簇進(jìn)行表示,方便用戶查看感興趣的資訊,進(jìn)而提升用戶體驗(yàn)。

圖4為本發(fā)明實(shí)施例提供的還一種資訊處理方法的流程示意圖;除包括圖1實(shí)施例提供的步驟s101-s103外,該方法還包括步驟:

s108:將所述資訊熱點(diǎn)推送至顯示界面,所述顯示界面為展示資訊內(nèi)容的界面。

本領(lǐng)域技術(shù)人員可以理解的是,在前述用戶設(shè)置了預(yù)設(shè)時(shí)間段之后,用戶便可以從網(wǎng)絡(luò)端獲取相應(yīng)的目標(biāo)資訊組,在獲得目標(biāo)資訊組中每一目標(biāo)資訊對(duì)應(yīng)的資訊熱點(diǎn)之后,為了將獲得的資訊熱點(diǎn)及時(shí)地告知用戶,以使得用戶能夠根據(jù)該資訊熱點(diǎn)來進(jìn)一步的獲取感興趣的資訊。在本發(fā)明實(shí)施例提供的方案中,可以將上述獲得的各目標(biāo)資訊對(duì)應(yīng)的資訊熱點(diǎn)推送至顯示界面,該顯示界面即為展示資訊內(nèi)容的界面。

應(yīng)用圖4提供的實(shí)施例,通過將獲得到的各目標(biāo)資訊對(duì)應(yīng)的資訊熱點(diǎn)推送至顯示見面,能夠及時(shí)地讓用戶獲取各目標(biāo)資訊對(duì)應(yīng)的資訊熱點(diǎn),以便于用戶根據(jù)推動(dòng)的資訊熱點(diǎn)進(jìn)一步的獲取感興趣的資訊,不再需要用戶逐一的對(duì)目標(biāo)資訊進(jìn)行閱讀,大大縮短了獲取資訊內(nèi)容的時(shí)間,同時(shí)增加用戶閱讀資訊的趣味性。

圖5為本發(fā)明實(shí)施例提供的一種資訊處理裝置的結(jié)構(gòu)示意圖;該裝置包括:第一獲得模塊201、數(shù)據(jù)清洗模塊202和第二獲得模塊203。

第一獲得模塊201,用于獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組,所述目標(biāo)資訊組中包括屬于同一領(lǐng)域的至少兩條目標(biāo)資訊;

數(shù)據(jù)清洗模塊202,用于分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊;

第二獲得模塊203,用于對(duì)所述第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為所述預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。

進(jìn)一步的,所述數(shù)據(jù)清洗模塊202,具體用于:

分別對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊所包含的超文本標(biāo)記語言html標(biāo)簽和/或圖像進(jìn)行過濾,得到每一目標(biāo)資訊對(duì)應(yīng)的純文本形式的第一處理資訊。

進(jìn)一步的,所述第二獲得模塊,具體用于:

利用詞頻-逆向文件頻率tf-idf算法對(duì)第二處理資訊中包含的詞語進(jìn)行權(quán)重計(jì)算,得到每一詞語的權(quán)重值,所述第二處理資訊為:采用預(yù)設(shè)的分詞庫(kù)對(duì)所述第一處理資訊中包含的無關(guān)詞進(jìn)行過濾后得到的資訊,所述無關(guān)詞為與所述目標(biāo)資訊所屬領(lǐng)域無關(guān)的詞語;

將第一詞語序列的前第一預(yù)設(shè)數(shù)量個(gè)詞語確定為關(guān)鍵詞,所述第一詞語序列為按照詞語對(duì)應(yīng)權(quán)重值從大到小排列的詞語序列;

將提取到的關(guān)鍵詞作為所述預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。

由上可見,圖5實(shí)施例提供的方案中,在獲得針對(duì)預(yù)設(shè)時(shí)間段的目標(biāo)資訊組之后,分別對(duì)目標(biāo)資訊組中的每一目標(biāo)資訊進(jìn)行數(shù)據(jù)清洗,得到針對(duì)每一目標(biāo)資訊的純文本形式的第一處理資訊,然后對(duì)得到的第一處理資訊進(jìn)行關(guān)鍵詞提取,將提取到的關(guān)鍵詞作為預(yù)設(shè)時(shí)間段的資訊熱點(diǎn)。應(yīng)用本發(fā)明實(shí)施例提供的方案對(duì)資訊進(jìn)行處理,無需人工主觀地處理資訊,而是通過對(duì)資訊進(jìn)行數(shù)據(jù)清洗以及關(guān)鍵詞提取,能夠快速準(zhǔn)確地提取到資訊熱點(diǎn)。

圖6為本發(fā)明實(shí)施例提供的另一種資訊處理裝置的結(jié)構(gòu)示意圖;除包括圖5提供實(shí)施例中的第一獲得模塊201、數(shù)據(jù)清洗模塊202和第二獲得模塊203外,該裝置還包括:熱度計(jì)算模塊204。

熱度計(jì)算模塊204,用于針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度。

進(jìn)一步的,所述熱度計(jì)算模塊204,具體用于:

針對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,采用如下公式計(jì)算該目標(biāo)資訊的熱度:

其中,h(x)表示所述目標(biāo)資訊組中包含的目標(biāo)資訊x對(duì)應(yīng)的熱度,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子;具體的,所述q(x)和所述t(x)表達(dá)式如下:

該式中,q(x)為該目標(biāo)資訊x對(duì)應(yīng)的熱點(diǎn)相關(guān)因子,f(kx)表示所述目標(biāo)資訊x中關(guān)鍵詞k對(duì)應(yīng)的權(quán)重值,ntitle(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的標(biāo)題中出現(xiàn)的頻次,ncontent(kx)表示所述關(guān)鍵詞k在所述目標(biāo)資訊x的正文中出現(xiàn)的頻次;

該式中,t(x)為該目標(biāo)資訊x對(duì)應(yīng)的時(shí)間因子,tc(x)表示計(jì)算所述目標(biāo)資訊x的熱度時(shí)對(duì)應(yīng)的時(shí)間,tp(x)表示所述目標(biāo)資訊x對(duì)應(yīng)的發(fā)布時(shí)間。

由上可見,圖6實(shí)施例提供的方案中,能夠針對(duì)目標(biāo)資訊組中每一目標(biāo)資訊,基于該目標(biāo)資訊對(duì)應(yīng)關(guān)鍵詞的權(quán)重值以及該目標(biāo)資訊的發(fā)布時(shí)間,計(jì)算該目標(biāo)資訊的熱度,進(jìn)一步的對(duì)資訊進(jìn)行處理,更直觀地對(duì)資訊的重要性進(jìn)行體現(xiàn),為用戶獲取到重要的資訊內(nèi)容提供了保障,增加用戶體驗(yàn)。

圖7為本發(fā)明實(shí)施例提供的再一種資訊處理裝置的結(jié)構(gòu)示意圖;除包括圖5提供實(shí)施例中的第一獲得模塊201、數(shù)據(jù)清洗模塊202和第二獲得模塊203外,該裝置還包括:生成模塊205、聚類模塊206和第三獲得模塊207。

生成模塊205,用于針對(duì)所述目標(biāo)資訊組中所有目標(biāo)資訊對(duì)應(yīng)的關(guān)鍵詞進(jìn)行向量化,生成針對(duì)所述目標(biāo)資訊組的文本向量空間,所述文本向量空間中每一維度的向量均對(duì)應(yīng)一個(gè)關(guān)鍵詞;

聚類模塊206,用于基于所述文本向量空間中每一目標(biāo)資訊所包含關(guān)鍵詞的向量,對(duì)所述目標(biāo)資訊組中每一目標(biāo)資訊進(jìn)行聚類,得到第一數(shù)量的類簇;

第三獲得模塊207,用于將每一類簇的第二詞語序列的前第二預(yù)設(shè)數(shù)量個(gè)關(guān)鍵詞作為該類簇的代表詞,所述第二詞語序列為按照關(guān)鍵詞對(duì)應(yīng)的權(quán)重值從大到小排列的詞語序列。

由上可見,應(yīng)用圖7提供的實(shí)施例,通過對(duì)目標(biāo)資訊組中包含所有目標(biāo)資訊的關(guān)鍵詞進(jìn)行向量化,并對(duì)向量化之后的各關(guān)鍵詞進(jìn)行聚類,得到第一數(shù)量的類簇,并將每一類簇中權(quán)重值大小排名前第二預(yù)設(shè)數(shù)量的關(guān)鍵詞作為該類簇的代表詞,能夠有效的對(duì)目標(biāo)資訊組中各目標(biāo)資訊進(jìn)行聚類,并用代表詞對(duì)各類簇進(jìn)行表示,方便用戶查看感興趣的資訊,進(jìn)而提升用戶體驗(yàn)。

圖8為本發(fā)明實(shí)施例提供的還一種資訊處理裝置的結(jié)構(gòu)示意圖,除包括圖5提供實(shí)施例中的第一獲得模塊201、數(shù)據(jù)清洗模塊202和第二獲得模塊203外,該裝置還包括:推送模塊208。

推送模塊208,用于將所述資訊熱點(diǎn)推送至顯示界面,所述顯示界面為展示資訊內(nèi)容的界面。

應(yīng)用圖8提供的實(shí)施例,通過將獲得到的各目標(biāo)資訊對(duì)應(yīng)的資訊熱點(diǎn)推送至顯示見面,能夠及時(shí)地讓用戶獲取各目標(biāo)資訊對(duì)應(yīng)的資訊熱點(diǎn),以便于用戶根據(jù)推動(dòng)的資訊熱點(diǎn)進(jìn)一步的獲取感興趣的資訊,不再需要用戶逐一的對(duì)目標(biāo)資訊進(jìn)行閱讀,大大縮短了獲取資訊內(nèi)容的時(shí)間,同時(shí)增加用戶閱讀資訊的趣味性。

需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱得的存儲(chǔ)介質(zhì),如:rom/ram、磁碟、光盤等。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1