一種挖掘熱點(diǎn)詞的方法與裝置的制作方法

文檔序號(hào)：6435355閱讀：158來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱：一種挖掘熱點(diǎn)詞的方法與裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)通信技術(shù)，特別涉及一種挖掘熱點(diǎn)詞的方法與裝置。
背景技術(shù)：
隨著計(jì)算機(jī)通信技術(shù)的發(fā)展，尤其是3g網(wǎng)絡(luò)和智能移動(dòng)終端的發(fā)展，用戶的網(wǎng)絡(luò)生活越來(lái)越豐富，在網(wǎng)絡(luò)上聊天、瀏覽新聞、看電影、玩游戲、搜索、購(gòu)物、發(fā)布信息等，越來(lái)越成為網(wǎng)絡(luò)生活的一部分。例如，微博客(MicroBlog)，即微博作為一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取平臺(tái)，用戶可以通過(guò)WEB、WAP以及各種客戶端組建個(gè)人社區(qū)，以140字左右的文字更新信息，并實(shí)現(xiàn)即時(shí)分享。由于網(wǎng)絡(luò)內(nèi)容的豐富，網(wǎng)絡(luò)用戶從中獲取相關(guān)信息所花費(fèi)的時(shí)間也越來(lái)越多，為了提高用戶的網(wǎng)絡(luò)體驗(yàn)，各運(yùn)營(yíng)商通過(guò)熱點(diǎn)詞挖掘的方法，自動(dòng)獲取最新的時(shí)訊，及時(shí)向網(wǎng)絡(luò)用戶進(jìn)行推薦，例如，根據(jù)微博輸入的文本流信息，自動(dòng)識(shí)別其中包含的熱點(diǎn)詞，并向關(guān)注的用戶推薦熱點(diǎn)信息，這樣，在提升網(wǎng)絡(luò)服務(wù)的同時(shí)，也有效降低了用戶獲取熱點(diǎn)信息所需的時(shí)間。圖1為現(xiàn)有挖掘熱點(diǎn)詞的方法流程示意圖。參見(jiàn)圖1，該流程包括步驟101，獲取輸入的文本流；本步驟中，通過(guò)對(duì)網(wǎng)頁(yè)、微博包含的內(nèi)容進(jìn)行處理，獲取網(wǎng)頁(yè)、微博內(nèi)容對(duì)應(yīng)的文本流，文本流可以按照預(yù)先設(shè)定的時(shí)間周期進(jìn)行獲取，也可以進(jìn)行隨機(jī)獲取。步驟102，對(duì)文本流進(jìn)行分詞，獲取候選詞集；本步驟中，對(duì)文本流進(jìn)行分詞獲取文本流中包含的詞語(yǔ)，具體可參見(jiàn)相關(guān)技術(shù)文獻(xiàn)。步驟103，將獲取的候選詞集與預(yù)先設(shè)置的熱點(diǎn)詞詞表進(jìn)行匹配，獲取熱點(diǎn)候選詞集，并統(tǒng)計(jì)熱點(diǎn)候選詞的頻率；本步驟中，可以以人工的方式預(yù)先整理、收集一批熱點(diǎn)事件中可能包含的待關(guān)注詞語(yǔ)，例如地震、火災(zāi)、演講、事故、北京、旅游、購(gòu)物等詞語(yǔ)組成熱點(diǎn)詞詞表。文本流輸入之后，將經(jīng)過(guò)分詞處理獲取的候選詞集與熱點(diǎn)詞詞表進(jìn)行匹配，如果候選詞集中的候選詞包含在熱點(diǎn)詞詞表中，則將候選詞集中的該候選詞作為熱點(diǎn)候選詞，放入熱點(diǎn)候選詞集中，并統(tǒng)計(jì)該熱點(diǎn)候選詞在候選詞集中出現(xiàn)的次數(shù)或頻率，即統(tǒng)計(jì)分詞后出現(xiàn)在熱點(diǎn)詞詞表中的詞的頻率。步驟104，選取頻率最高的預(yù)定數(shù)目的熱點(diǎn)候選詞作為熱點(diǎn)詞輸出。本步驟中，將頻率最高的N個(gè)熱點(diǎn)候選詞作為熱點(diǎn)詞輸出。由上述可見(jiàn)，現(xiàn)有的挖掘熱點(diǎn)詞的方法，需要人工整理熱點(diǎn)詞詞表，工作量大；同時(shí)，大量新出現(xiàn)的人名、地名、機(jī)構(gòu)名可能是未登錄詞，即未被整理至熱點(diǎn)詞詞表中進(jìn)行收錄，但這些詞又往往是一個(gè)熱點(diǎn)事件或主題的主要部分，使得基于人工整理形成的熱點(diǎn)詞詞表挖掘范圍小，不能挖掘到此類(lèi)熱點(diǎn)事件或主題，使得熱點(diǎn)詞挖掘效率較低；進(jìn)一步地，很多熱點(diǎn)詞，例如北京、電影、緋聞等往往是一些頻率較高的詞，由于多個(gè)事件會(huì)包含該詞，尤其是在微博平臺(tái)中，網(wǎng)友聊天對(duì)話中極有可能夾帶北京、緋聞這些詞語(yǔ)，使得這些詞被提及或頻繁出現(xiàn)，但頻繁出現(xiàn)的該詞并不能反映出一個(gè)熱點(diǎn)事件或是話題，也就是說(shuō)，僅僅依靠詞語(yǔ)在一定時(shí)間內(nèi)的出現(xiàn)頻率不能夠真正反映出這個(gè)詞語(yǔ)的熱度；而且，輸出的熱點(diǎn)詞是單個(gè)的詞語(yǔ)，在缺乏上下文的環(huán)境中，單個(gè)詞語(yǔ)難以反映一個(gè)熱點(diǎn)事件或是話題，例如，對(duì)于輸出的熱點(diǎn)詞為科特迪瓦的情形，在缺乏相關(guān)知識(shí)背景下，用戶難以了解這個(gè)詞語(yǔ)代表了哪一個(gè)熱點(diǎn)的事件或是話題。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的主要目的在于提出一種挖掘熱點(diǎn)詞的方法，能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高熱點(diǎn)詞挖掘效率。本發(fā)明的另一目的在于提出一種挖掘熱點(diǎn)詞的裝置，能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提聞熱點(diǎn)詞挖掘效率。為達(dá)到上述目的，本發(fā)明提供了一種挖掘熱點(diǎn)詞的方法，該方法包括獲取輸入的文本流，對(duì)文本流進(jìn)行分詞，獲取候選詞集；統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值，在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。在獲取候選詞集后，進(jìn)一步包括將預(yù)先設(shè)置的停用詞表與獲取的候選詞集進(jìn)行匹配，將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行過(guò)濾。所述停用詞表包括無(wú)意義詞語(yǔ)、和/或，高文檔率詞語(yǔ)。所述獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率包括如果歷史數(shù)據(jù)中存儲(chǔ)有該候選詞的各歷史頻率，讀取該候選詞的各歷史頻率；如果歷史數(shù)據(jù)中未存儲(chǔ)有該候選詞的歷史頻率，計(jì)算歷史數(shù)據(jù)中存儲(chǔ)的所有候選詞的各歷史頻率的平均值，作為該候選詞的各歷史頻率。所述根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值包括根據(jù)候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值；根據(jù)該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值，計(jì)算該候選詞的方差；獲取該候選詞的當(dāng)前頻率與歷史頻率的平均值的差的絕對(duì)值，計(jì)算該絕對(duì)值與所述方差的商，得到該候選詞的頻率異常性值。所述輸出預(yù)定數(shù)目的頻率異常的候選詞為將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇進(jìn)行輸出。所述將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇包括基于預(yù)定數(shù)目的頻率異常的候選詞，統(tǒng)計(jì)每?jī)蓚€(gè)候選詞組成的詞組在同一文本流中出現(xiàn)的次數(shù)；統(tǒng)計(jì)該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù)，并獲取該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù)的乘積；獲取所述詞組在同一文本流中出現(xiàn)的次數(shù)與所述乘積的商，作為所述兩個(gè)候選詞之間的點(diǎn)間互信息距離；如果獲取的點(diǎn)間互信息距離值大于預(yù)先設(shè)置的點(diǎn)間互信息距離值閾值，則將該點(diǎn)間互信息距離值對(duì)應(yīng)的兩個(gè)候選詞合成為一個(gè)詞簇。進(jìn)一步包括基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者通過(guò)候選詞聚合形成的詞簇，觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索，并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示。一種挖掘熱點(diǎn)詞的裝置，該裝置包括分詞模塊、歷史數(shù)據(jù)存儲(chǔ)模塊以及頻率異常性值處理模塊，其中，分詞模塊，用于獲取輸入的文本流，對(duì)文本流進(jìn)行分詞，獲取候選詞集；歷史數(shù)據(jù)存儲(chǔ)模塊，用于存儲(chǔ)候選詞的各歷史頻率；頻率異常性值處理模塊，用于統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，根據(jù)候選詞的當(dāng)前頻率以及歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的該候選詞的各歷史頻率計(jì)算該候選詞的頻率異常性值，將計(jì)算得到的候選詞的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)存儲(chǔ)模塊，并輸出預(yù)定數(shù)目的頻率異常的候選詞。進(jìn)一步包括去噪模塊，用于根據(jù)預(yù)先設(shè)置的停用詞表，與分詞模塊獲取的候選詞集進(jìn)行匹配，將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行去噪處理。進(jìn)一步包括候選詞聚合模塊，用于接收頻率異常性值處理模塊輸出的預(yù)定數(shù)目的頻率異常的候選詞，將獲取的候選詞聚合成用以描述一個(gè)事件或主題的詞簇。進(jìn)一步包括搜索模塊，用于以獲取的詞簇或候選詞為搜索關(guān)鍵詞，觸發(fā)從預(yù)先設(shè)置的數(shù)據(jù)源執(zhí)行搜索，向用戶展示詞簇以及搜索結(jié)果，或者，候選詞以及搜索結(jié)果。所述頻率異常性值處理模塊包括當(dāng)前頻率統(tǒng)計(jì)單元、歷史頻率平均值計(jì)算單元、方差計(jì)算單元、異常性值計(jì)算單元以及候選詞輸出判斷單元，其中，當(dāng)前頻率統(tǒng)計(jì)單元，用于統(tǒng)計(jì)候選詞集中各候選詞在輸入文本流中出現(xiàn)的當(dāng)前頻率，將當(dāng)前頻率信息分別輸出至歷史數(shù)據(jù)存儲(chǔ)模塊以及異常性值計(jì)算單元；歷史頻率平均值計(jì)算單元，用于讀取歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率，計(jì)算各候選詞的歷史頻率的平均值，輸出至異常性值計(jì)算單元；方差計(jì)算單元，用于根據(jù)歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率以及歷史頻率平均值計(jì)算單元計(jì)算得到的該候選詞的歷史頻率的平均值，計(jì)算各候選詞的方差，輸出至異常性值計(jì)算單元；異常性值計(jì)算單元，用于根據(jù)各候選詞的當(dāng)前頻率、歷史頻率的平均值以及方差，分別計(jì)算各候選詞的異常性值；
候選詞輸出判斷單元，用于將異常性值大于預(yù)先設(shè)置的異常性值閾值的候選詞或?qū)惓Ｐ灾底畲蟮念A(yù)定數(shù)目的候選詞進(jìn)行輸出展示。由上述的技術(shù)方案可見(jiàn)，本發(fā)明提供的一種挖掘熱點(diǎn)詞的方法與裝置，獲取輸入的文本流；對(duì)文本流進(jìn)行分詞，獲取候選詞集；統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值，在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。這樣，通過(guò)記錄候選詞集中各候選詞的歷史頻率，結(jié)合該候選詞當(dāng)前的頻率，計(jì)算其頻率異常性值，通過(guò)頻率異常性值挖掘熱點(diǎn)詞，能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高熱點(diǎn)詞挖掘效率。

圖1為現(xiàn)有挖掘熱點(diǎn)詞的方法流程示意圖。圖2為本發(fā)明實(shí)施例挖掘熱點(diǎn)詞的方法流程示意圖。圖3為本發(fā)明實(shí)施例抽取熱點(diǎn)詞的方法流程示意圖。圖4為本發(fā)明實(shí)施例熱點(diǎn)詞擴(kuò)展的方法流程示意圖。圖5為本發(fā)明實(shí)施例的挖掘熱點(diǎn)詞的裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖及具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述?，F(xiàn)有挖掘熱點(diǎn)詞的方法，將候選詞集與熱點(diǎn)詞詞表進(jìn)行匹配后，將頻率最高的N個(gè)熱點(diǎn)候選詞作為熱點(diǎn)詞輸出。由于熱點(diǎn)詞詞表更新周期較長(zhǎng)，使得候選詞集中較多的熱點(diǎn)詞被熱點(diǎn)詞詞表過(guò)濾，使得熱點(diǎn)詞的挖掘范圍較小、挖掘效率較低。本發(fā)明實(shí)施例中，考慮并記錄候選詞集中各候選詞的歷史頻率，結(jié)合該候選詞當(dāng)前的頻率，計(jì)算其頻率異常度，通過(guò)頻率異常度挖掘熱點(diǎn)詞，使得挖掘的熱點(diǎn)詞與熱點(diǎn)詞詞表無(wú)關(guān)，擴(kuò)展了熱點(diǎn)詞的挖掘范圍，從而提聞了熱點(diǎn)詞的挖掘效率。圖2為本發(fā)明實(shí)施例挖掘熱點(diǎn)詞的方法流程示意圖。參見(jiàn)圖2，該流程包括步驟201，獲取輸入的文本流；本發(fā)明實(shí)施例中，較佳地，由于是基于候選詞的歷史頻率進(jìn)行挖掘，需要保持計(jì)算頻率的周期一致，因而，可以按照預(yù)先設(shè)置的時(shí)間周期獲取輸入的文本流，例如，以天為時(shí)間周期，獲取每天輸入的文本流。步驟202，對(duì)文本流進(jìn)行分詞，獲取候選詞集；本步驟中，獲取的候選詞集中，可能包含了大量噪音，例如，包含有一些無(wú)意義的“的”、“了”、“呢”等詞語(yǔ)，這類(lèi)詞語(yǔ)對(duì)熱點(diǎn)詞輸出毫無(wú)益處，稱之為噪音。為了減少最后輸出的熱點(diǎn)詞包含的無(wú)意義詞語(yǔ)，本發(fā)明實(shí)施例中，在獲取候選詞集后，可以根據(jù)預(yù)先設(shè)置的停用詞表對(duì)獲取的候選詞集進(jìn)行去噪處理，即通過(guò)設(shè)置停用詞表，與獲取的候選詞集進(jìn)行匹配，將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行去噪(過(guò)濾)處理。如前所述，對(duì)于例如北京、電影、緋聞等頻率較高卻不能反映出一個(gè)熱點(diǎn)事件或是話題的詞語(yǔ)，本發(fā)明實(shí)施例中，進(jìn)一步在停用詞表中設(shè)置該類(lèi)詞語(yǔ)，具體可通過(guò)大規(guī)模文本集的分析，篩選一批文檔率高的詞語(yǔ)，加入到停用詞表中，即停用詞表包括無(wú)意義詞語(yǔ)以及高文檔率詞語(yǔ)。
當(dāng)然，實(shí)際應(yīng)用中，在獲取去噪處理后的候選詞集后，還可以將獲取的去噪處理后的候選詞集與預(yù)先設(shè)置的熱點(diǎn)詞詞表進(jìn)行匹配，獲取熱點(diǎn)候選詞集，并基于該熱點(diǎn)候選詞集進(jìn)行統(tǒng)計(jì)，這樣，可以以犧牲一部分召回率的基礎(chǔ)上得到更為精確的輸出。
步驟203，統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；
本步驟中，如前所述，如果是按照預(yù)先設(shè)置的時(shí)間周期獲取輸入的文本流，則統(tǒng)計(jì) 候選詞集中各候選詞在文本流中出現(xiàn)的次數(shù)，該次數(shù)即為該候選詞的當(dāng)前頻率；如果隨機(jī) 獲取輸入的文本流，則統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的次數(shù)，換算為在預(yù)先設(shè) 置的時(shí)間周期內(nèi)對(duì)應(yīng)的次數(shù)，該對(duì)應(yīng)的次數(shù)即為該候選詞的當(dāng)前頻率。
獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率包括
如果歷史數(shù)據(jù)中存儲(chǔ)有該候選詞的各歷史頻率，讀取該候選詞的各歷史頻率；
如果歷史數(shù)據(jù)中未存儲(chǔ)有該候選詞的歷史頻率，計(jì)算歷史數(shù)據(jù)中存儲(chǔ)的所有候選詞的各歷史頻率的平均值，作為該候選詞的各歷史頻率。
步驟204，根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值，在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。
本步驟中，計(jì)算頻率異常性值的公式后續(xù)再進(jìn)行詳細(xì)描述。
如前所述，輸出的熱點(diǎn)詞是單個(gè)的詞語(yǔ)，在缺乏上下文的環(huán)境中，單個(gè)詞語(yǔ)難以反映一個(gè)熱點(diǎn)事件或是話題，在缺乏相關(guān)知識(shí)背景下，用戶難以了解這個(gè)詞語(yǔ)代表了哪一個(gè) 熱點(diǎn)的事件或是話題。本發(fā)明實(shí)施例中，輸出預(yù)定數(shù)目的頻率異常的候選詞可以為
將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇進(jìn)行輸出。其中，詞簇是指屬于同一個(gè)事件或話題的兩個(gè)或兩個(gè)以上候選詞，例如，對(duì)于輸出詞簇為“科特迪瓦體育”的情形，即使在缺乏相關(guān)知識(shí)背景下，用戶也可以了解這個(gè)詞簇代表的是關(guān)于科特迪瓦體育的事件或是話題。
進(jìn)一步地，本發(fā)明實(shí)施例中，還可以基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者詞簇，觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索，并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示。這樣，用戶可以詳細(xì)了解展示的候選詞或者詞簇所屬熱點(diǎn)事件或話題的具體內(nèi)容，提高了用戶體驗(yàn)。
由上述可見(jiàn)，本發(fā)明實(shí)施例的挖掘熱點(diǎn)詞的方法，獲取輸入的文本流；對(duì)文本流進(jìn) 行分詞，獲取候選詞集；統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值，在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。這樣，通過(guò)記錄候選詞集中各候選詞的歷史頻率，結(jié)合該候選詞當(dāng)前的頻率，計(jì)算其頻率異常度，通過(guò)頻率異常度挖掘熱點(diǎn)詞，能夠擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高了熱點(diǎn)詞挖掘效率；同時(shí)，不需要人工整理熱點(diǎn)詞詞表，降低了工作量；進(jìn)一步地，通過(guò)停用詞表對(duì)候選詞集進(jìn)行過(guò)濾，避免了頻繁出現(xiàn)、但不能反映熱點(diǎn)事件或是話題的熱點(diǎn)詞的輸出；而且，通過(guò)將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇、和 /或，基于詞簇或候選詞觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索，并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示，可以使用戶在缺乏相關(guān)知識(shí)背景下，詳細(xì)了解展示的候選詞或者詞簇所屬熱點(diǎn)事件或話題的具體內(nèi)容，提高了用戶體驗(yàn)。
由上述描述可見(jiàn)，本發(fā)明實(shí)施例的挖掘熱點(diǎn)詞的方法，從步驟201至步驟204，主要是熱點(diǎn)詞的抽取流程，而詞簇合成、搜索，則是熱點(diǎn)詞的擴(kuò)展流程，下面分別進(jìn)行具體說(shuō)明。
圖3為本發(fā)明實(shí)施例抽取熱點(diǎn)詞的方法流程示意圖。參見(jiàn)圖3，該流程包括
步驟301，獲取輸入的文本流；
步驟302，對(duì)文本流進(jìn)行分詞，獲取候選詞集；
步驟301、302分別與步驟101、102相同。
步驟303，根據(jù)預(yù)先設(shè)置的停用詞表對(duì)獲取的候選詞集進(jìn)行去噪處理；
本步驟中，停用詞表包括無(wú)意義詞語(yǔ)、和/或，高文檔率詞語(yǔ)。
步驟304，統(tǒng)計(jì)去噪處理后的候選詞集中各候選詞出現(xiàn)的當(dāng)前頻率；
本步驟中，統(tǒng)計(jì)各候選詞出現(xiàn)的當(dāng)前頻率后，將該統(tǒng)計(jì)出的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)中進(jìn)行存儲(chǔ)。
步驟305，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；
本步驟中，歷史頻率與當(dāng)前頻率的單位相一致，如果當(dāng)前頻率單位與歷史頻率單位不一致，則將當(dāng)前頻率單位換算為與歷史頻率單位相一致。
步驟306，根據(jù)當(dāng)前頻率與歷史頻率，獲取頻率異常的預(yù)定數(shù)目的候選詞并輸出。
本步驟中，找出頻率異常最突出的N個(gè)詞作為熱點(diǎn)詞輸出。
高斯分布(正態(tài)分布)是一種最常見(jiàn)的連續(xù)性隨機(jī)變量的概率分布，具有兩個(gè)參數(shù)μ和σ2，參數(shù)μ是服從正態(tài)分布的隨機(jī)變量的均值，參數(shù)σ 2是該隨機(jī)變量的方差，記作 N ( μ , σ 2)。
假定候選詞滿足高斯分布，這樣，對(duì)每個(gè)候選詞，可以通過(guò)統(tǒng)計(jì)該候選詞在歷史數(shù)據(jù)中各個(gè)單位時(shí)間段(時(shí)間周期)內(nèi)出現(xiàn)的頻率得到高斯分布的均值，然后根據(jù)最大似然估計(jì)的方式計(jì)算得到高斯分布的方差，計(jì)算均值具體如下
設(shè)μ i為候選詞在第i個(gè)單位時(shí)間段內(nèi)出現(xiàn)的頻率，即第i個(gè)歷史頻率，則該候選詞對(duì)應(yīng)的高斯分布的均值(各歷史頻率的平均值)μ為
權(quán)利要求
1.一種挖掘熱點(diǎn)詞的方法，其特征在于，該方法包括獲取輸入的文本流，對(duì)文本流進(jìn)行分詞，獲取候選詞集；統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值，在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。
2.如權(quán)利要求1所述的方法，其特征在于，在獲取候選詞集后，進(jìn)一步包括將預(yù)先設(shè)置的停用詞表與獲取的候選詞集進(jìn)行匹配，將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行過(guò)濾。
3.如權(quán)利要求2所述的方法，其特征在于，所述停用詞表包括無(wú)意義詞語(yǔ)、和/或，高文檔率詞語(yǔ)。
4.如權(quán)利要求1所述的方法，其特征在于，所述獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率包括如果歷史數(shù)據(jù)中存儲(chǔ)有該候選詞的各歷史頻率，讀取該候選詞的各歷史頻率；如果歷史數(shù)據(jù)中未存儲(chǔ)有該候選詞的歷史頻率，計(jì)算歷史數(shù)據(jù)中存儲(chǔ)的所有候選詞的各歷史頻率的平均值，作為該候選詞的各歷史頻率。
5.如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值包括根據(jù)候選詞的各歷史頻率獲取該候選詞的歷史頻率的平均值；根據(jù)該候選詞的各歷史頻率以及獲取的該候選詞的歷史頻率的平均值，計(jì)算該候選詞的方差；獲取該候選詞的當(dāng)前頻率與歷史頻率的平均值的差的絕對(duì)值，計(jì)算該絕對(duì)值與所述方差的商，得到該候選詞的頻率異常性值。
6.如權(quán)利要求1至5任一項(xiàng)所述的方法，其特征在于，所述輸出預(yù)定數(shù)目的頻率異常的候選詞為將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇進(jìn)行輸出。
7.如權(quán)利要求6所述的方法，其特征在于，所述將預(yù)定數(shù)目的頻率異常的候選詞聚合成用以描述一個(gè)事件或主題的詞簇包括基于預(yù)定數(shù)目的頻率異常的候選詞，統(tǒng)計(jì)每?jī)蓚€(gè)候選詞組成的詞組在同一文本流中出現(xiàn)的次數(shù)；統(tǒng)計(jì)該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù)，并獲取該兩個(gè)候選詞在同一文本流中分別出現(xiàn)的次數(shù)的乘積；獲取所述詞組在同一文本流中出現(xiàn)的次數(shù)與所述乘積的商，作為所述兩個(gè)候選詞之間的點(diǎn)間互信息距離；如果獲取的點(diǎn)間互信息距離值大于預(yù)先設(shè)置的點(diǎn)間互信息距離值閾值，則將該點(diǎn)間互信息距離值對(duì)應(yīng)的兩個(gè)候選詞合成為一個(gè)詞簇。
8.如權(quán)利要求1至5任一項(xiàng)所述的方法，其特征在于，進(jìn)一步包括基于選擇的預(yù)定數(shù)目的頻率異常的候選詞或者通過(guò)候選詞聚合形成的詞簇，觸發(fā)從預(yù)先設(shè)置的外部數(shù)據(jù)源執(zhí)行搜索，并將搜索結(jié)果與預(yù)定數(shù)目的頻率異常的候選詞或者詞簇同時(shí)向用戶展示。
9.一種挖掘熱點(diǎn)詞的裝置，其特征在于，該裝置包括分詞模塊、歷史數(shù)據(jù)存儲(chǔ)模塊以及頻率異常性值處理模塊，其中，分詞模塊，用于獲取輸入的文本流，對(duì)文本流進(jìn)行分詞，獲取候選詞集；歷史數(shù)據(jù)存儲(chǔ)模塊，用于存儲(chǔ)候選詞的各歷史頻率；頻率異常性值處理模塊，用于統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，根據(jù)候選詞的當(dāng)前頻率以及歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的該候選詞的各歷史頻率計(jì)算該候選詞的頻率異常性值，將計(jì)算得到的候選詞的當(dāng)前頻率信息輸出至歷史數(shù)據(jù)存儲(chǔ)模塊，并輸出預(yù)定數(shù)目的頻率異常的候選詞。
10.如權(quán)利要求9所述的裝置，其特征在于，進(jìn)一步包括去噪模塊，用于根據(jù)預(yù)先設(shè)置的停用詞表，與分詞模塊獲取的候選詞集進(jìn)行匹配，將候選詞集中與停用詞表相匹配的詞語(yǔ)進(jìn)行去噪處理。
11.如權(quán)利要求9或10所述的裝置，其特征在于，進(jìn)一步包括候選詞聚合模塊，用于接收頻率異常性值處理模塊輸出的預(yù)定數(shù)目的頻率異常的候選詞，將獲取的候選詞聚合成用以描述一個(gè)事件或主題的詞簇。
12.如權(quán)利要求11所述的裝置，其特征在于，進(jìn)一步包括搜索模塊，用于以獲取的詞簇或候選詞為搜索關(guān)鍵詞，觸發(fā)從預(yù)先設(shè)置的數(shù)據(jù)源執(zhí)行搜索，向用戶展示詞簇以及搜索結(jié)果，或者，候選詞以及搜索結(jié)果。
13.如權(quán)利要求12所述的裝置，其特征在于，所述頻率異常性值處理模塊包括當(dāng)前頻率統(tǒng)計(jì)單元、歷史頻率平均值計(jì)算單元、方差計(jì)算單元、異常性值計(jì)算單元以及候選詞輸出判斷單元，其中，當(dāng)前頻率統(tǒng)計(jì)單元，用于統(tǒng)計(jì)候選詞集中各候選詞在輸入文本流中出現(xiàn)的當(dāng)前頻率，將當(dāng)前頻率分別輸出至歷史數(shù)據(jù)存儲(chǔ)模塊以及異常性值計(jì)算單元；歷史頻率平均值計(jì)算單元，用于讀取歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率，計(jì)算各候選詞的歷史頻率的平均值，輸出至異常性值計(jì)算單元；方差計(jì)算單元，用于根據(jù)歷史數(shù)據(jù)存儲(chǔ)模塊存儲(chǔ)的各候選詞的歷史頻率以及歷史頻率平均值計(jì)算單元計(jì)算得到的該候選詞的歷史頻率的平均值，計(jì)算各候選詞的方差，輸出至異常性值計(jì)算單元；異常性值計(jì)算單元，用于根據(jù)各候選詞的當(dāng)前頻率、歷史頻率的平均值以及方差，分別計(jì)算各候選詞的異常性值；候選詞輸出判斷單元，用于將異常性值大于預(yù)先設(shè)置的異常性值閾值的候選詞或?qū)惓Ｐ灾底畲蟮念A(yù)定數(shù)目的候選詞進(jìn)行輸出展示。
全文摘要
本發(fā)明公開(kāi)了一種挖掘熱點(diǎn)詞的方法與裝置。該方法包括獲取輸入的文本流；對(duì)文本流進(jìn)行分詞，獲取候選詞集；統(tǒng)計(jì)候選詞集中各候選詞在文本流中出現(xiàn)的當(dāng)前頻率，獲取各候選詞在預(yù)先存儲(chǔ)的歷史數(shù)據(jù)中的各歷史頻率；根據(jù)候選詞的當(dāng)前頻率以及各歷史頻率計(jì)算該候選詞的頻率異常性值，在歷史數(shù)據(jù)中存儲(chǔ)該候選詞的當(dāng)前頻率信息并輸出預(yù)定數(shù)目的頻率異常的候選詞。應(yīng)用本發(fā)明，可以擴(kuò)展熱點(diǎn)詞的挖掘范圍、提高熱點(diǎn)詞挖掘效率。
文檔編號(hào)G06F17/30GK103049443SQ20111030784
公開(kāi)日2013年4月17日申請(qǐng)日期2011年10月12日優(yōu)先權(quán)日2011年10月12日
發(fā)明者羅侃, 陳洪亮, 楊志峰申請(qǐng)人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅侃;陳洪亮;楊志峰
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

挖掘機(jī)回轉(zhuǎn)裝置相關(guān)技術(shù)

挖掘機(jī)工作裝置設(shè)計(jì)相關(guān)技術(shù)

挖掘機(jī)工作裝置相關(guān)技術(shù)

挖掘機(jī)行走裝置相關(guān)技術(shù)

挖掘機(jī)快換裝置相關(guān)技術(shù)

挖掘機(jī)回轉(zhuǎn)裝置cad相關(guān)技術(shù)

液壓挖掘機(jī)工作裝置相關(guān)技術(shù)

挖掘機(jī)動(dòng)力裝置相關(guān)技術(shù)

口袋妖怪白金挖掘裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種挖掘熱點(diǎn)詞的方法與裝置的制作方法