互聯(lián)網(wǎng)熱詞挖掘方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理技術(shù),尤其涉及一種互聯(lián)網(wǎng)熱詞挖掘方法及裝置。
【背景技術(shù)】
[0002] 熱詞是指在某段時間內(nèi)使用頻率較高的詞語,往往具有時代特征,反映一個時期 的熱點話題及民生問題?;ヂ?lián)網(wǎng)熱詞除了詞典已收錄詞外,還存在一些網(wǎng)絡(luò)熱詞,這類詞來 源于、流傳于網(wǎng)絡(luò)空間,并被廣泛應(yīng)用于日常交流之中,如"何棄療"、"不明覺厲"、"陳歐體" 等,分詞系統(tǒng)通常很難識別這類詞語,而網(wǎng)絡(luò)熱詞卻作為一種新的重要傳播現(xiàn)象出現(xiàn)在當 今互聯(lián)網(wǎng)中,并且隨著時代的變化,發(fā)生著演化和變遷。
[0003] 互聯(lián)網(wǎng)熱詞與社會事件或現(xiàn)象聯(lián)系緊密,成為民意表達與輿論監(jiān)督的工具,準確、 高效抽取互聯(lián)網(wǎng)熱詞是當下輿情監(jiān)管、互聯(lián)網(wǎng)研究等重要事宜的發(fā)展基礎(chǔ)。
[0004] 熱詞挖掘目前所使用的技術(shù)有,基于文檔聚類的熱詞挖掘,這類方法通常容易出 現(xiàn)聚類復雜度高,無法滿足互聯(lián)網(wǎng)熱詞挖掘的實時性需求;另外一種是,根據(jù)字串的成詞邊 界、時間分布等特征,采用機器學習模型,進行熱詞與否的分類學習,這類方法一方面需要 知識庫支持,另一方面所選取特征基本是字串公有特征,沒有對特殊字串做特殊處理,導致 噪音詞較大,熱詞發(fā)現(xiàn)的準確率不高。
[0005] 由于各實體串具有獨特的成詞規(guī)律,如人名串由有限的姓氏+高頻名字用詞組 成,且目前有大量實體串知識庫,便于機器學習模型學習。為此,本發(fā)明將互聯(lián)網(wǎng)熱詞分為 實體串與非實體串,提出一種互聯(lián)網(wǎng)熱詞挖掘方法和裝置,以解決互聯(lián)網(wǎng)熱詞挖掘效率瓶 頸。
【發(fā)明內(nèi)容】
[0006] 鑒于此,本發(fā)明主要目的是提供一種互聯(lián)網(wǎng)熱詞挖掘方法和裝置,以提高熱詞挖 掘的準確率和效率。
[0007] 本發(fā)明提供了一種互聯(lián)網(wǎng)熱詞挖掘方法,該方法包括。
[0008] 步驟A構(gòu)建詞圖Words和背景庫Corpus,并初始化。
[0009] 詞圖Words,存儲每一步驟中抽取的詞的結(jié)果。
[0010] 背景庫Corpus,存放互聯(lián)網(wǎng)采集來的源數(shù)據(jù),同時記錄每一個時間單位里各統(tǒng)計 指標結(jié)果,如標題串頻、正文串頻、總串頻等。
[0011] 步驟B實體串識別。
[0012] 以句子終結(jié)符為標準,將互聯(lián)網(wǎng)原始數(shù)據(jù)切分為一個個原始字串序列。
[0013] 對字串序列進行分詞原子切分,對原子單元進行兩兩組合,實現(xiàn)字串序列的二元 粗切分,抽取最優(yōu)的N個粗分結(jié)果加入到詞圖Words中。
[0014] 構(gòu)建三級互聯(lián)的隱馬爾科夫模型,自底向上依次為人名識別HMM,地名識別HMM和 機構(gòu)名識別HMM,每一級以隱馬爾科夫模型作為基本的算法模型,構(gòu)建層疊隱馬爾科夫模型 (CascadedHiddenMarkovModel,簡稱CascadedHMM)。
[0015] 每一層隱馬爾科夫模型采用N-Best策略,將產(chǎn)生的最好的N個結(jié)果送到詞圖 Words中,供高層模型使用。
[0016] 低層隱馬爾科夫模型通過詞語的生成模型為高層隱馬爾科夫模型的參數(shù)估計提 供支持。
[0017] 第一層人名識別的輸入為二元粗切分序列,每一層隱馬爾科夫模型都采用改進的 Viterbi算法,將最好的N個結(jié)果送入詞圖中,供高一級模型使用。
[0018] 最高級隱馬模型在人名和地名識別的基礎(chǔ)之上進行機構(gòu)名識別。
[0019] 步驟C非實體串識別。
[0020] 采用Nagao算法統(tǒng)計字串中長度為L的子串串頻,抽取串頻大于一定閾值的子串, 進行子串歸并。
[0021] 采用通用度過濾、IWP過濾、互信度過濾及首尾字過濾等策略進行垃圾串過濾,得 到候選串,從候選串中過濾掉實體串,即為非實體串。
[0022] 步驟D字串統(tǒng)計指標更新。
[0023] 字串分為候選實體串和非實體串,即為以上步驟抽取的串。
[0024] 字串統(tǒng)計指標這里指服務(wù)于字串熱度計算的統(tǒng)計值,如字串在標題、正文中出現(xiàn) 的頻次,字串出現(xiàn)的頻次總和,字串出現(xiàn)的文檔數(shù),某時間單位下字串的頻次等指標的值。
[0025] 背景庫Corpus中記錄源數(shù)據(jù)更新時間單位下的字串統(tǒng)計指標值,隨后時間單位 的互聯(lián)網(wǎng)數(shù)據(jù)到來時,對背景庫Corpus中的語料進行增量更新,同時增量更新記錄中的指 標。
[0026] 步驟E字串熱度計算。
[0027] 字串熱度權(quán)值分為:基礎(chǔ)權(quán)值和波動權(quán)值,根據(jù)背景庫中實時更新的統(tǒng)計指標計 算字串熱度。
[0028] 其中,基礎(chǔ)權(quán)值由串出現(xiàn)的位置信息、頻率、逆文檔頻率確定。
[0029] 波動權(quán)值,用字串的時間衰減度來描述。
[0030] 熱詞被定義為某一時間段內(nèi)頻繁、大量使用的詞,為此采用詞條的時間衰減度來 表征字串頻率隨時間的變化,簡稱衰減度。
[0031] 更進一步地,基礎(chǔ)權(quán)值計算公式如下: Basew(s) =titlew(s) *〇"+content(s),其中titlew為字串在標題中出現(xiàn)的權(quán)重,contentw為字串在正文中出現(xiàn)的權(quán)重,權(quán)重的衡量采用tf-idf技術(shù),為作用系數(shù),反應(yīng) 字串在標題和正文中的差異。
[0032] 為平衡低頻、高頻字串,對基礎(chǔ)權(quán)值進行平滑處理,處理方法如下: Convbasew(s) =log(1+log(1+log(basew(S))))〇
[0033] 波動權(quán)值,是字串頻次隨時間的衰減度,其計算方法如下:
【主權(quán)項】
1. 一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,該方法包括: 步驟A,構(gòu)建詞圖Words和背景庫Corpus,并初始化; 步驟B,實體串識別; 步驟C,非實體串識別; 步驟D,字串統(tǒng)計指標更新; 步驟E,字串熱度計算; 步驟F,熱詞排序、輸出。
2. 如權(quán)利要求1所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,詞圖用于存儲中間抽 取的詞;背景庫用于存儲背景語料及單位時間里各統(tǒng)計指標量化值,各統(tǒng)計指標是為字串 熱度計算服務(wù)的一些指標,根據(jù)熱度計算方法的不同,統(tǒng)計指標有所區(qū)別。
3. 如權(quán)利要求1所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,以句子終結(jié)符為標準, 將互聯(lián)網(wǎng)原始數(shù)據(jù)切分為一個個原始字串序列后做下一步處理。
4. 如權(quán)利要求1所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,實體串包括人名、地 名、機構(gòu)名等,實體串識別基于分詞基礎(chǔ),構(gòu)建三級互聯(lián)的隱馬爾科夫模型,自底向上依次 為人名HMM、地名HMM、機構(gòu)名稱HMM,每一級以隱馬爾科夫模型作為基本的算法模型,構(gòu)建 層疊隱馬爾科夫模型。
5. 如權(quán)利要求1和權(quán)利要求4所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于每一層隱 馬爾科夫模型采用改進的Viterbi算法,利用N-Best策略,將產(chǎn)生的最好的N個結(jié)果送到 詞圖Words中,供高層模型使用。
6. 如權(quán)利要求4所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,低層隱馬爾科夫模型 通過詞語的生成模型為高層模型的參數(shù)估計提供支持。
7. 如權(quán)利要求4所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,第一層人名識別模型 的輸入是分詞后的二元粗切分序列,最高級隱馬爾科夫模型在人名和地名識別的基礎(chǔ)上, 做機構(gòu)名識別。
8. 如權(quán)利要求1所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,采用串頻統(tǒng)計算法,如 Nagao算法,統(tǒng)計字串中長度為L的子串串頻,抽取大于一定閾值的子串,進行子串歸并及 垃圾子串過濾。
9. 如權(quán)利要求1和權(quán)利要求2所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,對背景庫 中語料進行定點更新,同時更新字串統(tǒng)計指標,這里的字串指實體串和非實體串。
10. 如權(quán)利要求1所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,字串熱度權(quán)值分為基 礎(chǔ)權(quán)值和波動權(quán)值,字串熱度權(quán)值的計算,依賴于字串統(tǒng)計指標的值,其計算方法為: 字串熱度finalweight(s,t) = Convbasew(s) * Wavew(s,t),其中Convbasew(s)為字 串基礎(chǔ)權(quán)值,Wavew(S)為字串的波動權(quán)值。
11. 如權(quán)利要求1和權(quán)利要求10所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,基礎(chǔ)權(quán) 值由字串出現(xiàn)的位置、頻率、逆文檔頻率確定;波動權(quán)值用字串的時間衰減度來描述,即為 字串頻率隨時間的變化情況。
12. 如權(quán)利要求11所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,基礎(chǔ)權(quán)值的計算方 法為: Basew(s) = titlew(s) *CT+ content(s),其中titlew為字串在標題中出現(xiàn)的權(quán) 重,contentw為字串在正文中出現(xiàn)的權(quán)重,權(quán)重的衡量采用tf-idf技術(shù),O'為作用系數(shù),反 應(yīng)字串在標題和正文中的差異; 為平衡低頻、高頻字串,對基礎(chǔ)權(quán)值進行平滑處理,處理方法如下: Convbasew (s) = log (1+log (1+log (basew (S))))〇
13. 如權(quán)利要求11所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,波動權(quán)值,其計算方 法為
,t e [1,T], t為一個時間單位。
14. 如權(quán)利要求1所述的一種互聯(lián)網(wǎng)熱詞挖掘方法,其特征在于,按照字串熱度權(quán)值由 大到小對字串排序,輸出一定時間內(nèi),熱度大于一定閾值的作為熱詞,其中包括熱點人名、 地名、機構(gòu)名和非實體詞語。
15. 本發(fā)明提供的一種互聯(lián)網(wǎng)熱詞挖掘裝置,其特征在于,包括以下模塊: 存儲單元101,負責詞圖、背景庫等的存儲和供給; 實體識別單元102,負責字串切分及實體串的識別,包括人名、地名、機構(gòu)名識別; 非實體串識別單元103,負責高頻字串抽取、垃圾串過濾、候選非實體串抽??; 熱詞抽取單元104,主要負責,背景庫中字串的統(tǒng)計指標更新;字串熱度計算;字串熱 度排序及字串輸出。
16. 如權(quán)利要求15所述的一種互聯(lián)網(wǎng)熱詞挖掘裝置,其特征在于,熱詞抽取單元104又 由統(tǒng)計指標更新模塊1〇4_1,熱度計算模塊104_2,熱度排序及熱詞輸出模塊104_3組成。
【專利摘要】本發(fā)明提供的一種互聯(lián)網(wǎng)熱詞挖掘方法,包括:詞圖和背景庫的初始化;實體串和非實體串的識別;字串統(tǒng)計指標更新;字串熱度計算;字串熱度排序及字串輸出。將字串分為實體串和非實體串有針對性的區(qū)分識別,并設(shè)置背景庫實現(xiàn)語料和計算指標的增量更新,提高了熱詞抽取的準確率和效率。同時,還提供了一種互聯(lián)網(wǎng)熱詞挖掘裝置,包括:存儲單元,實體串識別單元,非實體串識別單元,熱詞抽取單元。熱詞抽取單元完成:統(tǒng)計指標的增量更新,字串熱度計算,字串排序輸出。實現(xiàn)熱詞有序、高效、準確地抽取。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104679738
【申請?zhí)枴緾N201310607937
【發(fā)明人】肖詩斌, 孫麗華
【申請人】北京拓爾思信息技術(shù)股份有限公司
【公開日】2015年6月3日
【申請日】2013年11月27日