專(zhuān)利名稱:一種挖掘熱點(diǎn)詞的方法與裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)通信技術(shù),特別涉及一種挖掘熱點(diǎn)詞的方法與裝置。
背景技術(shù):
隨著計(jì)算機(jī)通信技術(shù)的發(fā)展,尤其是3g網(wǎng)絡(luò)和智能移動(dòng)終端的發(fā)展,用戶的網(wǎng)絡(luò)生活越來(lái)越豐富,在網(wǎng)絡(luò)上聊天、瀏覽新聞、看電影、玩游戲、搜索、購(gòu)物、發(fā)布信息等,越來(lái)越成為網(wǎng)絡(luò)生活的一部分。例如,微博客(MicroBlog),即微博作為一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái),用戶可以通過(guò)WEB、WAP以及各種客戶端組建個(gè)人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。由于網(wǎng)絡(luò)內(nèi)容的豐富,網(wǎng)絡(luò)用戶從中獲取相關(guān)信息所花費(fèi)的時(shí)間也越來(lái)越多,為了提高用戶的網(wǎng)絡(luò)體驗(yàn),各運(yùn)營(yíng)商通過(guò)熱點(diǎn)詞挖掘的方法,自動(dòng)獲取最新的時(shí)訊,及時(shí)向網(wǎng)絡(luò)用戶進(jìn)行推薦,例如,根據(jù)微博輸入的文本流信息,自動(dòng)識(shí)別其中包含的熱點(diǎn)詞,并向關(guān)注的用戶推薦熱點(diǎn)信息,這樣,在提升網(wǎng)絡(luò)服務(wù)的同時(shí),也有效降低了用戶獲取熱點(diǎn)信息所需的時(shí)間。圖1為現(xiàn)有挖掘熱點(diǎn)詞的方法流程示意圖。參見(jiàn)圖1,該流程包括步驟101,獲取輸入的文本流;本步驟中,通過(guò)對(duì)網(wǎng)頁(yè)、微博包含的內(nèi)容進(jìn)行處理,獲取網(wǎng)頁(yè)、微博內(nèi)容對(duì)應(yīng)的文本流,文本流可以按照預(yù)先設(shè)定的時(shí)間周期進(jìn)行獲取,也可以進(jìn)行隨機(jī)獲取。步驟102,對(duì)文本流進(jìn)行分詞,獲取候選詞集;本步驟中,對(duì)文本流進(jìn)行分詞獲取文本流中包含的詞語(yǔ),具體可參見(jiàn)相關(guān)技術(shù)文獻(xiàn)。步驟103,將獲取的候選詞集與預(yù)先設(shè)置的熱點(diǎn)詞詞表進(jìn)行匹配,獲取熱點(diǎn)候選詞集,并統(tǒng)計(jì)熱點(diǎn)候選詞的頻率;本步驟中,可以以人工的方式預(yù)先整理、收集一批熱點(diǎn)事件中可能包含的待關(guān)注詞語(yǔ),例如地震、火災(zāi)、演講、事故、北京、旅游、購(gòu)物等詞語(yǔ)組成熱點(diǎn)詞詞表。文本流輸入之后,將經(jīng)過(guò)分詞處理獲取的候選詞集與熱點(diǎn)詞詞表進(jìn)行匹配,如果候選詞集中的候選詞包含在熱點(diǎn)詞詞表中,則將候選詞集中的該候選詞作為熱點(diǎn)候選詞,放入熱點(diǎn)候選詞集中,并統(tǒng)計(jì)該熱點(diǎn)候選詞在候選詞集中出現(xiàn)的次數(shù)或頻率,即統(tǒng)計(jì)分詞后出現(xiàn)在熱點(diǎn)詞詞表中的詞的頻率。步驟104,選取頻率最高的預(yù)定數(shù)目的熱點(diǎn)候選詞作為熱點(diǎn)詞輸出。本步驟中,將頻率最高的N個(gè)熱點(diǎn)候選詞作為熱點(diǎn)詞輸出。由上述可見(jiàn),現(xiàn)有的挖掘熱點(diǎn)詞的方法,需要人工整理熱點(diǎn)詞詞表,工作量大;同時(shí),大量新出現(xiàn)的人名、地名、機(jī)構(gòu)名可能是未登錄詞,即未被整理至熱點(diǎn)詞詞表中進(jìn)行收錄,但這些詞又往往是一個(gè)熱點(diǎn)事件或主題的主要部分,使得基于人工整理形成的熱點(diǎn)詞詞表挖掘范圍小,不能挖掘到此類(lèi)熱點(diǎn)事件或主題,使得熱點(diǎn)詞挖掘效率較低;進(jìn)一步地,很多熱點(diǎn)詞,例如北京、電影、緋聞等往往是一些頻率較高的詞,由于多個(gè)事件會(huì)包含該詞,尤其是在微博平臺(tái)中,網(wǎng)友聊天對(duì)話中極有可能夾帶北京、緋聞這些詞語(yǔ),使得這些詞被提及或頻繁出現(xiàn),但頻繁出現(xiàn)的該詞并不能反映出一個(gè)熱點(diǎn)事件或是話題,也就是說(shuō),僅僅依靠詞語(yǔ)在一定時(shí)間內(nèi)的出現(xiàn)頻率不能夠真正反映出這個(gè)詞語(yǔ)的熱度;而且,輸出的熱點(diǎn)詞是單個(gè)的詞語(yǔ),在缺乏上下文的環(huán)境中,單個(gè)詞語(yǔ)難以反映一個(gè)熱點(diǎn)事件或是話題,例如,對(duì)于輸出的熱點(diǎn)詞為科特迪瓦的情形,在缺乏相關(guān)知識(shí)背景下,用戶難以了解這個(gè)詞語(yǔ)代表了哪一個(gè)熱點(diǎn)的事件或是話題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提出一種挖掘熱點(diǎn)詞的方法,能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高熱點(diǎn)詞挖掘效率。本發(fā)明的另一目的在于提出一種挖掘熱點(diǎn)詞的裝置,能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提聞熱點(diǎn)詞挖掘效率。為達(dá)到上述目的,本發(fā)明提供了一種挖掘熱點(diǎn)詞的方法,該方法包括獲取輸入的文本流,對(duì)文本流進(jìn)行分詞,獲取候選詞集;統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。 在獲取候選詞集后,進(jìn)一步包括將預(yù)先設(shè)置的停用詞表與獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行過(guò)濾。所述停用詞表包括無(wú)意義詞語(yǔ)、和/或,高文檔率詞語(yǔ)。所述獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率包括如果歷史數(shù)據(jù)中存儲(chǔ)有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率;如果歷史數(shù)據(jù)中未存儲(chǔ)有該候選詞的歷史頻率,計(jì)算歷史數(shù)據(jù)中存儲(chǔ)的所有候選詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。所述根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值包括根據(jù)候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值;根據(jù)該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值,計(jì)算該候選詞的方差;獲取該候選詞的當(dāng)前頻率與歷史頻率的平均值的差的絕對(duì)值,計(jì)算該絕對(duì)值與所述方差的商,得到該候選詞的頻率異常性值。所述輸出預(yù)定數(shù)目的頻率異常的候選詞為將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇進(jìn)行輸出。所述將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇包括基于預(yù)定數(shù)目的頻率異常的候選詞,統(tǒng)計(jì)每?jī)蓚€(gè)候選詞組成的詞組在同一文本流中出現(xiàn)的次數(shù);統(tǒng)計(jì)該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù),并獲取該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù)的乘積;獲取所述詞組在同一文本流中出現(xiàn)的次數(shù)與所述乘積的商,作為所述兩個(gè)候選詞之間的點(diǎn)間互信息距離;如果獲取的點(diǎn)間互信息距離值大于預(yù)先設(shè)置的點(diǎn)間互信息距離值閾值,則將該點(diǎn)間互信息距離值對(duì)應(yīng)的兩個(gè)候選詞合成為一個(gè)詞簇。進(jìn)一步包括基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者通過(guò)候選詞聚合形成的詞簇,觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示。一種挖掘熱點(diǎn)詞的裝置,該裝置包括分詞模塊、歷史數(shù)據(jù)存儲(chǔ)模塊以及頻率異常性值處理模塊,其中,分詞模塊,用于獲取輸入的文本流,對(duì)文本流進(jìn)行分詞,獲取候選詞集;歷史數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)候選詞的各歷史頻率;頻率異常性值處理模塊,用于統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,根據(jù)候選詞的當(dāng)前頻率以及歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的該候選詞的各歷史頻率計(jì)算該候選詞的頻率異常性值,將計(jì)算得到的候選詞的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)存儲(chǔ)模塊,并輸出預(yù)定數(shù)目的頻率異常的候選詞。進(jìn)一步包括去噪模塊,用于根據(jù)預(yù)先設(shè)置的停用詞表,與分詞模塊獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行去噪處理。進(jìn)一步包括候選詞聚合模塊,用于接收頻率異常性值處理模塊輸出的預(yù)定數(shù)目的頻率異常的候選詞,將獲取的候選詞聚合成用以描述一個(gè)事件或主題的詞簇。進(jìn)一步包括搜索模塊,用于以獲取的詞簇或候選詞為搜索關(guān)鍵詞,觸發(fā)從預(yù)先設(shè)置的數(shù)據(jù)源執(zhí)行搜索,向用戶展示詞簇以及搜索結(jié)果,或者,候選詞以及搜索結(jié)果。所述頻率異常性值處理模塊包括當(dāng)前頻率統(tǒng)計(jì)單元、歷史頻率平均值計(jì)算單元、方差計(jì)算單元、異常性值計(jì)算單元以及候選詞輸出判斷單元,其中,當(dāng)前頻率統(tǒng)計(jì)單元,用于統(tǒng)計(jì)候選詞集中各候選詞在輸入文本流中出現(xiàn)的當(dāng)前頻率,將當(dāng)前頻率信息分別輸出至歷史數(shù)據(jù)存儲(chǔ)模塊以及異常性值計(jì)算單元;歷史頻率平均值計(jì)算單元,用于讀取歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率,計(jì)算各候選詞的歷史頻率的平均值,輸出至異常性值計(jì)算單元;方差計(jì)算單元,用于根據(jù)歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率以及歷史頻率平均值計(jì)算單元計(jì)算得到的該候選詞的歷史頻率的平均值,計(jì)算各候選詞的方差,輸出至異常性值計(jì)算單元;異常性值計(jì)算單元,用于根據(jù)各候選詞的當(dāng)前頻率、歷史頻率的平均值以及方差,分別計(jì)算各候選詞的異常性值;
候選詞輸出判斷單元,用于將異常性值大于預(yù)先設(shè)置的異常性值閾值的候選詞或?qū)惓P灾底畲蟮念A(yù)定數(shù)目的候選詞進(jìn)行輸出展示。由上述的技術(shù)方案可見(jiàn),本發(fā)明提供的一種挖掘熱點(diǎn)詞的方法與裝置,獲取輸入的文本流;對(duì)文本流進(jìn)行分詞,獲取候選詞集;統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。這樣,通過(guò)記錄候選詞集中各候選詞的歷史頻率,結(jié)合該候選詞當(dāng)前的頻率,計(jì)算其頻率異常性值,通過(guò)頻率異常性值挖掘熱點(diǎn)詞,能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高熱點(diǎn)詞挖掘效率。
圖1為現(xiàn)有挖掘熱點(diǎn)詞的方法流程示意圖。圖2為本發(fā)明實(shí)施例挖掘熱點(diǎn)詞的方法流程示意圖。圖3為本發(fā)明實(shí)施例抽取熱點(diǎn)詞的方法流程示意圖。圖4為本發(fā)明實(shí)施例熱點(diǎn)詞擴(kuò)展的方法流程示意圖。圖5為本發(fā)明實(shí)施例的挖掘熱點(diǎn)詞的裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述?,F(xiàn)有挖掘熱點(diǎn)詞的方法,將候選詞集與熱點(diǎn)詞詞表進(jìn)行匹配后,將頻率最高的N個(gè)熱點(diǎn)候選詞作為熱點(diǎn)詞輸出。由于熱點(diǎn)詞詞表更新周期較長(zhǎng),使得候選詞集中較多的熱點(diǎn)詞被熱點(diǎn)詞詞表過(guò)濾,使得熱點(diǎn)詞的挖掘范圍較小、挖掘效率較低。本發(fā)明實(shí)施例中,考慮并記錄候選詞集中各候選詞的歷史頻率,結(jié)合該候選詞當(dāng)前的頻率,計(jì)算其頻率異常度,通過(guò)頻率異常度挖掘熱點(diǎn)詞,使得挖掘的熱點(diǎn)詞與熱點(diǎn)詞詞表無(wú)關(guān),擴(kuò)展了熱點(diǎn)詞的挖掘范圍,從而提聞了熱點(diǎn)詞的挖掘效率。圖2為本發(fā)明實(shí)施例挖掘熱點(diǎn)詞的方法流程示意圖。參見(jiàn)圖2,該流程包括步驟201,獲取輸入的文本流;本發(fā)明實(shí)施例中,較佳地,由于是基于候選詞的歷史頻率進(jìn)行挖掘,需要保持計(jì)算頻率的周期一致,因而,可以按照預(yù)先設(shè)置的時(shí)間周期獲取輸入的文本流,例如,以天為時(shí)間周期,獲取每天輸入的文本流。步驟202,對(duì)文本流進(jìn)行分詞,獲取候選詞集;本步驟中,獲取的候選詞集中,可能包含了大量噪音,例如,包含有一些無(wú)意義的“的”、“了”、“呢”等詞語(yǔ),這類(lèi)詞語(yǔ)對(duì)熱點(diǎn)詞輸出毫無(wú)益處,稱之為噪音。為了減少最后輸出的熱點(diǎn)詞包含的無(wú)意義詞語(yǔ),本發(fā)明實(shí)施例中,在獲取候選詞集后,可以根據(jù)預(yù)先設(shè)置的停用詞表對(duì)獲取的候選詞集進(jìn)行去噪處理,即通過(guò)設(shè)置停用詞表,與獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行去噪(過(guò)濾)處理。如前所述,對(duì)于例如北京、電影、緋聞等頻率較高卻不能反映出一個(gè)熱點(diǎn)事件或是話題的詞語(yǔ),本發(fā)明實(shí)施例中,進(jìn)一步在停用詞表中設(shè)置該類(lèi)詞語(yǔ),具體可通過(guò)大規(guī)模文本集的分析,篩選一批文檔率高的詞語(yǔ),加入到停用詞表中,即停用詞表包括無(wú)意義詞語(yǔ)以及 高文檔率詞語(yǔ)。
當(dāng)然,實(shí)際應(yīng)用中,在獲取去噪處理后的候選詞集后,還可以將獲取的去噪處理后 的候選詞集與預(yù)先設(shè)置的熱點(diǎn)詞詞表進(jìn)行匹配,獲取熱點(diǎn)候選詞集,并基于該熱點(diǎn)候選詞 集進(jìn)行統(tǒng)計(jì),這樣,可以以犧牲一部分召回率的基礎(chǔ)上得到更為精確的輸出。
步驟203,統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在 預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率;
本步驟中,如前所述,如果是按照預(yù)先設(shè)置的時(shí)間周期獲取輸入的文本流,則統(tǒng)計(jì) 候選詞集中各候選詞在文本流中出現(xiàn)的次數(shù),該次數(shù)即為該候選詞的當(dāng)前頻率;如果隨機(jī) 獲取輸入的文本流,則統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的次數(shù),換算為在預(yù)先設(shè) 置的時(shí)間周期內(nèi)對(duì)應(yīng)的次數(shù),該對(duì)應(yīng)的次數(shù)即為該候選詞的當(dāng)前頻率。
獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率包括
如果歷史數(shù)據(jù)中存儲(chǔ)有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率;
如果歷史數(shù)據(jù)中未存儲(chǔ)有該候選詞的歷史頻率,計(jì)算歷史數(shù)據(jù)中存儲(chǔ)的所有候選 詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。
步驟204,根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值, 在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。
本步驟中,計(jì)算頻率異常性值的公式后續(xù)再進(jìn)行詳細(xì)描述。
如前所述,輸出的熱點(diǎn)詞是單個(gè)的詞語(yǔ),在缺乏上下文的環(huán)境中,單個(gè)詞語(yǔ)難以反 映一個(gè)熱點(diǎn)事件或是話題,在缺乏相關(guān)知識(shí)背景下,用戶難以了解這個(gè)詞語(yǔ)代表了哪一個(gè) 熱點(diǎn)的事件或是話題。本發(fā)明實(shí)施例中,輸出預(yù)定數(shù)目的頻率異常的候選詞可以為
將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇進(jìn)行輸 出。其中,詞簇是指屬于同一個(gè)事件或話題的兩個(gè)或兩個(gè)以上候選詞,例如,對(duì)于輸出詞簇 為“科特迪瓦體育”的情形,即使在缺乏相關(guān)知識(shí)背景下,用戶也可以了解這個(gè)詞簇代表的 是關(guān)于科特迪瓦體育的事件或是話題。
進(jìn)一步地,本發(fā)明實(shí)施例中,還可以基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或 者詞簇,觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的 候選詞或者詞簇同時(shí)向用戶展示。這樣,用戶可以詳細(xì)了解展示的候選詞或者詞簇所屬熱 點(diǎn)事件或話題的具體內(nèi)容,提高了用戶體驗(yàn)。
由上述可見(jiàn),本發(fā)明實(shí)施例的挖掘熱點(diǎn)詞的方法,獲取輸入的文本流;對(duì)文本流進(jìn) 行分詞,獲取候選詞集;統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選 詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該 候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻 率異常的候選詞。這樣,通過(guò)記錄候選詞集中各候選詞的歷史頻率,結(jié)合該候選詞當(dāng)前的頻 率,計(jì)算其頻率異常度,通過(guò)頻率異常度挖掘熱點(diǎn)詞,能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高了 熱點(diǎn)詞挖掘效率;同時(shí),不需要人工整理熱點(diǎn)詞詞表,降低了工作量;進(jìn)一步地,通過(guò)停用 詞表對(duì)候選詞集進(jìn)行過(guò)濾,避免了頻繁出現(xiàn)、但不能反映熱點(diǎn)事件或是話題的熱點(diǎn)詞的輸 出;而且,通過(guò)將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇、和 /或,基于詞簇或候選詞觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示,可以使用戶在缺乏相關(guān)知識(shí)背景下,詳細(xì)了解展示的候選詞或者詞簇所屬熱點(diǎn)事件或話題的具體內(nèi)容,提高了用戶體驗(yàn)。
由上述描述可見(jiàn),本發(fā)明實(shí)施例的挖掘熱點(diǎn)詞的方法,從步驟201至步驟204,主要是熱點(diǎn)詞的抽取流程,而詞簇合成、搜索,則是熱點(diǎn)詞的擴(kuò)展流程,下面分別進(jìn)行具體說(shuō)明。
圖3為本發(fā)明實(shí)施例抽取熱點(diǎn)詞的方法流程示意圖。參見(jiàn)圖3,該流程包括
步驟301,獲取輸入的文本流;
步驟302,對(duì)文本流進(jìn)行分詞,獲取候選詞集;
步驟301、302分別與步驟101、102相同。
步驟303,根據(jù)預(yù)先設(shè)置的停用詞表對(duì)獲取的候選詞集進(jìn)行去噪處理;
本步驟中,停用詞表包括無(wú)意義詞語(yǔ)、和/或,高文檔率詞語(yǔ)。
步驟304,統(tǒng)計(jì)去噪處理后的候選詞集中各候選詞出現(xiàn)的當(dāng)前頻率;
本步驟中,統(tǒng)計(jì)各候選詞出現(xiàn)的當(dāng)前頻率后,將該統(tǒng)計(jì)出的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)中進(jìn)行存儲(chǔ)。
步驟305,獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率;
本步驟中,歷史頻率與當(dāng)前頻率的單位相一致,如果當(dāng)前頻率單位與歷史頻率單位不一致,則將當(dāng)前頻率單位換算為與歷史頻率單位相一致。
步驟306,根據(jù)當(dāng)前頻率與歷史頻率,獲取頻率異常的預(yù)定數(shù)目的候選詞并輸出。
本步驟中,找出頻率異常最突出的N個(gè)詞作為熱點(diǎn)詞輸出。
高斯分布(正態(tài)分布)是一種最常見(jiàn)的連續(xù)性隨機(jī)變量的概率分布,具有兩個(gè)參數(shù)μ和σ2,參數(shù)μ是服從正態(tài)分布的隨機(jī)變量的均值,參數(shù)σ 2是該隨機(jī)變量的方差,記作 N ( μ , σ 2)。
假定候選詞滿足高斯分布,這樣,對(duì)每個(gè)候選詞,可以通過(guò)統(tǒng)計(jì)該候選詞在歷史數(shù)據(jù)中各個(gè)單位時(shí)間段(時(shí)間周期)內(nèi)出現(xiàn)的頻率得到高斯分布的均值,然后根據(jù)最大似然估計(jì)的方式計(jì)算得到高斯分布的方差,計(jì)算均值具體如下
設(shè)μ i為候選詞在第i個(gè)單位時(shí)間段內(nèi)出現(xiàn)的頻率,即第i個(gè)歷史頻率,則該候選詞對(duì)應(yīng)的高斯分布的均值(各歷史頻率的平均值)μ為
權(quán)利要求
1.一種挖掘熱點(diǎn)詞的方法,其特征在于,該方法包括 獲取輸入的文本流,對(duì)文本流進(jìn)行分詞,獲取候選詞集; 統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率; 根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。
2.如權(quán)利要求1所述的方法,其特征在于,在獲取候選詞集后,進(jìn)一步包括 將預(yù)先設(shè)置的停用詞表與獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行過(guò)濾。
3.如權(quán)利要求2所述的方法,其特征在于,所述停用詞表包括無(wú)意義詞語(yǔ)、和/或,高文檔率詞語(yǔ)。
4.如權(quán)利要求1所述的方法,其特征在于,所述獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率包括 如果歷史數(shù)據(jù)中存儲(chǔ)有該候選詞的各歷史頻率,讀取該候選詞的各歷史頻率; 如果歷史數(shù)據(jù)中未存儲(chǔ)有該候選詞的歷史頻率,計(jì)算歷史數(shù)據(jù)中存儲(chǔ)的所有候選詞的各歷史頻率的平均值,作為該候選詞的各歷史頻率。
5.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值包括 根據(jù)候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值; 根據(jù)該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值,計(jì)算該候選詞的方差; 獲取該候選詞的當(dāng)前頻率與歷史頻率的平均值的差的絕對(duì)值,計(jì)算該絕對(duì)值與所述方差的商,得到該候選詞的頻率異常性值。
6.如權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述輸出預(yù)定數(shù)目的頻率異常的候選詞為 將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇進(jìn)行輸出。
7.如權(quán)利要求6所述的方法,其特征在于,所述將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇包括 基于預(yù)定數(shù)目的頻率異常的候選詞,統(tǒng)計(jì)每?jī)蓚€(gè)候選詞組成的詞組在同一文本流中出現(xiàn)的次數(shù); 統(tǒng)計(jì)該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù),并獲取該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù)的乘積; 獲取所述詞組在同一文本流中出現(xiàn)的次數(shù)與所述乘積的商,作為所述兩個(gè)候選詞之間的點(diǎn)間互信息距離; 如果獲取的點(diǎn)間互信息距離值大于預(yù)先設(shè)置的點(diǎn)間互信息距離值閾值,則將該點(diǎn)間互信息距離值對(duì)應(yīng)的兩個(gè)候選詞合成為一個(gè)詞簇。
8.如權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,進(jìn)一步包括 基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者通過(guò)候選詞聚合形成的詞簇,觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索,并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示。
9.一種挖掘熱點(diǎn)詞的裝置,其特征在于,該裝置包括分詞模塊、歷史數(shù)據(jù)存儲(chǔ)模塊以及頻率異常性值處理模塊,其中, 分詞模塊,用于獲取輸入的文本流,對(duì)文本流進(jìn)行分詞,獲取候選詞集; 歷史數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)候選詞的各歷史頻率; 頻率異常性值處理模塊,用于統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,根據(jù)候選詞的當(dāng)前頻率以及歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的該候選詞的各歷史頻率計(jì)算該候選詞的頻率異常性值,將計(jì)算得到的候選詞的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)存儲(chǔ)模塊,并輸出預(yù)定數(shù)目的頻率異常的候選詞。
10.如權(quán)利要求9所述的裝置,其特征在于,進(jìn)一步包括 去噪模塊,用于根據(jù)預(yù)先設(shè)置的停用詞表,與分詞模塊獲取的候選詞集進(jìn)行匹配,將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行去噪處理。
11.如權(quán)利要求9或10所述的裝置,其特征在于,進(jìn)一步包括 候選詞聚合模塊,用于接收頻率異常性值處理模塊輸出的預(yù)定數(shù)目的頻率異常的候選詞,將獲取的候選詞聚合成用以描述一個(gè)事件或主題的詞簇。
12.如權(quán)利要求11所述的裝置,其特征在于,進(jìn)一步包括 搜索模塊,用于以獲取的詞簇或候選詞為搜索關(guān)鍵詞,觸發(fā)從預(yù)先設(shè)置的數(shù)據(jù)源執(zhí)行搜索,向用戶展示詞簇以及搜索結(jié)果,或者,候選詞以及搜索結(jié)果。
13.如權(quán)利要求12所述的裝置,其特征在于,所述頻率異常性值處理模塊包括當(dāng)前頻率統(tǒng)計(jì)單元、歷史頻率平均值計(jì)算單元、方差計(jì)算單元、異常性值計(jì)算單元以及候選詞輸出判斷單元,其中, 當(dāng)前頻率統(tǒng)計(jì)單元,用于統(tǒng)計(jì)候選詞集中各候選詞在輸入文本流中出現(xiàn)的當(dāng)前頻率,將當(dāng)前頻率分別輸出至歷史數(shù)據(jù)存儲(chǔ)模塊以及異常性值計(jì)算單元; 歷史頻率平均值計(jì)算單元,用于讀取歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率,計(jì)算各候選詞的歷史頻率的平均值,輸出至異常性值計(jì)算單元; 方差計(jì)算單元,用于根據(jù)歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率以及歷史頻率平均值計(jì)算單元計(jì)算得到的該候選詞的歷史頻率的平均值,計(jì)算各候選詞的方差,輸出至異常性值計(jì)算單元; 異常性值計(jì)算單元,用于根據(jù)各候選詞的當(dāng)前頻率、歷史頻率的平均值以及方差,分別計(jì)算各候選詞的異常性值; 候選詞輸出判斷單元,用于將異常性值大于預(yù)先設(shè)置的異常性值閾值的候選詞或?qū)惓P灾底畲蟮念A(yù)定數(shù)目的候選詞進(jìn)行輸出展示。
全文摘要
本發(fā)明公開(kāi)了一種挖掘熱點(diǎn)詞的方法與裝置。該方法包括獲取輸入的文本流;對(duì)文本流進(jìn)行分詞,獲取候選詞集;統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率,獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率;根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值,在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。應(yīng)用本發(fā)明,可以擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高熱點(diǎn)詞挖掘效率。
文檔編號(hào)G06F17/30GK103049443SQ20111030784
公開(kāi)日2013年4月17日 申請(qǐng)日期2011年10月12日 優(yōu)先權(quán)日2011年10月12日
發(fā)明者羅侃, 陳洪亮, 楊志峰 申請(qǐng)人:騰訊科技(深圳)有限公司