專利名稱:一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,具體涉及一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)和方法。
背景技術(shù):
網(wǎng)絡(luò)輿情監(jiān)控是指通過對網(wǎng)絡(luò)各類信息匯集、分類、整合、篩選等技術(shù)處理,再形成對網(wǎng)絡(luò)熱點(diǎn)、動態(tài)、網(wǎng)民意見等實(shí)時(shí)統(tǒng)計(jì)報(bào)表的一個(gè)過程。網(wǎng)絡(luò)輿情監(jiān)控的背景隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)友言論活躍已達(dá)到前所未有的程度,不論是國內(nèi)還是國際重大事件,都能馬上形成網(wǎng)上輿論,通過這種網(wǎng)絡(luò)來表達(dá)觀點(diǎn)、傳播思想,進(jìn)而產(chǎn)生巨大的輿論壓力,達(dá)到任何部門、機(jī)構(gòu)都無法忽視的地步。可以說,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器。網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn),主要通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等實(shí)現(xiàn)并加以強(qiáng)化。當(dāng)今,信息傳播與意見交互空前迅捷,網(wǎng)絡(luò)輿論的表達(dá)訴求也日益多元。如果引導(dǎo)不善,負(fù)面的網(wǎng)絡(luò)輿情將對社會公共安全形成較大威脅。對相關(guān)政府部門來說,如何加強(qiáng)對網(wǎng)絡(luò)輿論的及時(shí)監(jiān)測、有效引導(dǎo),以及對網(wǎng)絡(luò)輿論危機(jī)的積極化解,對維護(hù)社會穩(wěn)定、促進(jìn)國家發(fā)展具有重要的現(xiàn)實(shí)意義,也是創(chuàng)建和諧社會的應(yīng)有內(nèi)涵?!熬W(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)”是征對在一定的社會空間內(nèi),圍繞中介性社會事件的發(fā)生、發(fā)展和變化,民眾對社會管理者產(chǎn)生和持有的社會政治態(tài)度于網(wǎng)絡(luò)上表達(dá)出來意愿集合而進(jìn)行的計(jì)算機(jī)監(jiān)測的系統(tǒng)統(tǒng)稱?!熬W(wǎng)絡(luò)輿情”是較多群眾關(guān)于社會中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。網(wǎng)絡(luò)輿情形成迅速,對社會影響巨大,加強(qiáng)互聯(lián)網(wǎng)信息監(jiān)管的同時(shí),組織力量開展信息匯集整理和分析,對于及時(shí)應(yīng)對網(wǎng)絡(luò)突發(fā)的公共事件和全面掌握社情民意很有意義。輿情監(jiān)控系統(tǒng)的一般工作流程如下:1.信息采集:互聯(lián)網(wǎng)信息(新聞、論壇等)的實(shí)時(shí)監(jiān)測、采集、內(nèi)容提取、下載及排重。2.信息處理:對抓取的內(nèi)容進(jìn)行自動分類聚類、關(guān)鍵詞過濾、主題檢測、專題聚焦
坐寸o3.信息服務(wù):將采集并分析整理后的信息直接為用戶或?yàn)橛脩糨o助編輯提供信息服務(wù)。一般的輿情監(jiān)控系統(tǒng)都會有一個(gè)對網(wǎng)絡(luò)信息進(jìn)行處理的時(shí)候都會有一個(gè)關(guān)鍵詞過濾的過程,以關(guān)鍵詞突出并標(biāo)記本網(wǎng)絡(luò)信息的類別,或用關(guān)鍵詞當(dāng)做信息的標(biāo)簽。因此,需要有一種關(guān)鍵詞抽取的方法,來準(zhǔn)確識別網(wǎng)絡(luò)文本信息或視頻信息中的關(guān)鍵詞。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能夠快速準(zhǔn)確查找網(wǎng)絡(luò)信息關(guān)鍵詞的動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)和方法。為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案是:一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:包括抽取模塊,映射模塊,分詞空間,計(jì)算模塊,標(biāo)記模塊,抽取模塊以用戶輸入的關(guān)鍵詞進(jìn)行目標(biāo)信息的樣本抽取,映射模塊將抽取目標(biāo)信息的文本信息映射到分詞空間中進(jìn)行分詞處理,計(jì)算模塊將分詞處理后的中文詞匯表達(dá)為向量,根據(jù)中文詞匯的權(quán)重系數(shù)以及詞頻對中文詞匯進(jìn)行權(quán)重指數(shù)的計(jì)算,選取出標(biāo)簽關(guān)鍵詞傳送至標(biāo)記模塊,進(jìn)行信息的標(biāo)簽關(guān)鍵詞標(biāo)記,并生成一索引文件。所述的目標(biāo)信息是用戶以特定關(guān)鍵詞搜索到的網(wǎng)頁文本信息,或者視頻轉(zhuǎn)化文本后的文本信息。所述的映射模塊將文本信息映射到分詞空間中,采用中文分詞技術(shù)對文本中的整句話進(jìn)行分詞處理,分成若干中文詞匯。所述的映射模塊將分詞后的中文詞匯進(jìn)行預(yù)處理,去掉高頻詞匯。所述的高頻詞匯包括“ 的”一類的無實(shí)際意義的副詞、介詞、連詞、助詞、嘆詞等虛詞o所述的計(jì)算模塊將對去掉高頻詞后的中文分詞結(jié)果進(jìn)行信息熵計(jì)算,所述的信息熵計(jì)算即將中文分詞結(jié)果的單個(gè)詞語計(jì)算器權(quán)重系數(shù)后表達(dá)為向量,抽取其特征向量。所述的權(quán)重系數(shù)中,是根據(jù)中文詞匯的詞性、出現(xiàn)位置、詞頻、地名、人名、分詞特征、專有名詞等要素自動給出的,各要素的權(quán)重系數(shù)是由用戶結(jié)合樣本的特點(diǎn)設(shè)定的。所述的計(jì)算模塊將目標(biāo)信息中文分詞處理后的包含的所有中文詞匯的權(quán)重指數(shù)進(jìn)行歸一化處理,并根據(jù)歸一化后的權(quán)重指數(shù)進(jìn)行排序,并篩選出標(biāo)簽關(guān)鍵詞。所述的標(biāo)記模塊根據(jù)目標(biāo)信息的標(biāo)簽關(guān)鍵詞對目標(biāo)信息進(jìn)行關(guān)鍵詞標(biāo)記,統(tǒng)計(jì)成一個(gè)方便用戶查詢的索引文件。具有上述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)的動態(tài)輿情關(guān)鍵詞抽取方法,其特征在于:包括如下步驟:(I)、用戶輸入查詢關(guān)鍵詞至抽取模塊,抽取模塊搜索出目標(biāo)信息,并生成目標(biāo)信息的網(wǎng)頁文本信息或者是視頻轉(zhuǎn)化文本信息;( 2 )、映射模塊將文本信息映射到中文分詞空間中進(jìn)行分詞處理成若干中文詞匯,并去掉一些介詞或虛詞等無實(shí)際意義詞性的高頻詞;(3)、計(jì)算模塊對將去掉高頻詞后的中文分詞結(jié)果進(jìn)行分詞計(jì)算,即將文本向量化,抽取其特征向量;(4)、計(jì)算模塊將目標(biāo)信息中文分詞處理后的包含的所有中文詞匯的權(quán)重指數(shù)進(jìn)行歸一化處理,并根據(jù)歸一化后的權(quán)重指數(shù)進(jìn)行排序,并篩選出標(biāo)簽關(guān)鍵詞;(5)、標(biāo)記模塊根據(jù)目標(biāo)信息的標(biāo)簽關(guān)鍵詞對目標(biāo)信息進(jìn)行關(guān)鍵詞標(biāo)記,統(tǒng)計(jì)成一個(gè)方便用戶查詢的索引文件。本發(fā)明的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)和方法,能夠快速準(zhǔn)確的生成標(biāo)簽關(guān)鍵詞,進(jìn)行目標(biāo)信息的統(tǒng)計(jì)和標(biāo)記,并生成方便用戶查詢的索引文件,用戶可以后續(xù)進(jìn)行信息的查詢,只需要輸入標(biāo)簽關(guān)鍵詞便能夠進(jìn)行目標(biāo)信息的查詢。
圖1、本發(fā)明的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)示意圖;圖2、本發(fā)明的一種動態(tài)輿情關(guān)鍵詞抽取方法流程圖
具體實(shí)施例方式下面集合附圖對本發(fā)明的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)和方法進(jìn)行詳細(xì)描述:如圖1所示,本發(fā)明的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)包括抽取模塊K1,映射模塊K2,分詞空間K3,計(jì)算模塊K4,標(biāo)記模塊K5,抽取模塊Kl以用戶輸入的關(guān)鍵詞進(jìn)行目標(biāo)信息的抽取,目標(biāo)信息是用戶以特定關(guān)鍵詞搜索到的網(wǎng)頁文本信息,或者視頻轉(zhuǎn)化文本后的文本信息。映射模塊K2將抽取到的目標(biāo)信息的文本信息映射到分詞空間K3中采用中文分詞技術(shù)對文本中的整句話進(jìn)行分詞處理,分成若干中文詞匯,將分詞后的中文詞匯進(jìn)行預(yù)處理,去掉高頻詞匯包括“的” 一類的介詞或虛詞。計(jì)算模塊K4對將去掉高頻詞后的中文分詞結(jié)果進(jìn)行分詞計(jì)算,即將中文分詞結(jié)果的單個(gè)詞語表達(dá)為向量,抽取其特征向量,并根據(jù)其權(quán)重系數(shù)和詞頻計(jì)算詞語的權(quán)重指數(shù)。權(quán)重系數(shù)中,部分關(guān)鍵詞匯的權(quán)重系數(shù)是由用戶設(shè)定的,其他中文詞匯的權(quán)重系數(shù)是根據(jù)中文詞匯所述詞性、出現(xiàn)位置、詞頻、地名、人名、分詞特征、專有名詞自動給出的。計(jì)算模塊K4根據(jù)中文詞匯的權(quán)重系數(shù)以及詞頻對中文詞匯進(jìn)行權(quán)重指數(shù)的計(jì)算,選取出標(biāo)簽關(guān)鍵詞傳送至標(biāo)記模塊K5,進(jìn)行信息的標(biāo)簽關(guān)鍵詞標(biāo)記,并生成一索引文件。計(jì)算模塊K4將目標(biāo)信息中文分詞處理后的包含的所有中文詞匯的權(quán)重指數(shù)進(jìn)行歸一化處理,并根據(jù)歸一化后第二權(quán)重指數(shù)進(jìn)行排序,并篩選出標(biāo)簽關(guān)鍵詞。標(biāo)記模塊K5根據(jù)目標(biāo)信息的標(biāo)簽關(guān)鍵詞對目標(biāo)信息進(jìn)行關(guān)鍵詞標(biāo)記,統(tǒng)計(jì)成一個(gè)方便用戶查詢的索引文件。如圖2所示,本發(fā)明的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)的動態(tài)輿情關(guān)鍵詞抽取方法,其特征在于:包括如下步驟:(I)、用戶輸入查詢關(guān)鍵詞至抽取模塊,抽取模塊搜索出目標(biāo)信息,并生成目標(biāo)信息的網(wǎng)頁文本信息或者是視頻轉(zhuǎn)化文本信息,如圖2中所示的stepl ;(2)、映射模塊K2將文本信息映射到中文分詞空間K3中進(jìn)行分詞處理成若干中文詞匯,并去掉一些介詞或虛詞詞性的高頻詞;如圖2中所示的step2 ;(3)、計(jì)算模塊K4對將去掉高頻詞后的中文分詞結(jié)果進(jìn)行分詞計(jì)算,即將中文分詞結(jié)果的單個(gè)詞語表達(dá)為向量,抽取其特征向量,并根據(jù)其權(quán)重系數(shù)和詞頻計(jì)算詞語的權(quán)重指數(shù);如圖2中所示的st印3 ;(4)、計(jì)算模塊K4將目標(biāo)信息中文分詞處理后的包含的所有中文詞匯的權(quán)重指數(shù)進(jìn)行歸一化處理,并根據(jù)歸一化后第二權(quán)重指數(shù)進(jìn)行排序,并篩選出標(biāo)簽關(guān)鍵詞;如圖2中所示的step4 ;(5)、標(biāo)記模塊K5根據(jù)目標(biāo)信息的標(biāo)簽關(guān)鍵詞對目標(biāo)信息進(jìn)行關(guān)鍵詞標(biāo)記,統(tǒng)計(jì)成一個(gè)方便用戶查詢的索引文件,如圖2中所示的step5 ;
實(shí)施例:以“三鹿奶粉”為例,用戶在抽取模塊輸入“三鹿奶粉”字樣,搜索出一系列的網(wǎng)頁文本信息,將網(wǎng)頁文本信息傳輸至映射模塊K2,映射模塊K2隨即將所有文本信息映射至中文分詞空間K3中,將網(wǎng)頁文本信息分為若干中文詞匯,如下:“2008年6月28日,位于蘭州市的解放軍第一醫(yī)院收治了首例患“腎結(jié)石”病癥的嬰幼兒,據(jù)家長們反映,孩子從出生起就一直食用河北石家莊三鹿集團(tuán)所產(chǎn)的三鹿嬰幼兒奶粉。7月中旬,甘肅省衛(wèi)生廳接到醫(yī)院嬰兒泌尿結(jié)石病例報(bào)告后,隨即展開了調(diào)查,并報(bào)告衛(wèi)生部。隨后短短兩個(gè)多月,該醫(yī)院收治的患嬰人數(shù)就迅速擴(kuò)大到14名?!狈衷~后的文本信息為:“2008年6月28日,位于蘭州市的解放軍第一醫(yī)院收治了首例患“腎結(jié)石”病癥的嬰幼兒,據(jù)家長們反映,孩子從出生起就一直食用河北石家莊三鹿集團(tuán)所產(chǎn)的三鹿嬰幼兒奶粉。7月中旬,甘肅省衛(wèi)生廳接到醫(yī)院嬰兒泌尿結(jié)石病例報(bào)告后,隨即展開了調(diào)查,并報(bào)告衛(wèi)生部。隨后短短兩個(gè)多月,該醫(yī)院收治的患嬰人數(shù)就迅速擴(kuò)大到14名?!比サ羝渲械母哳l詞語,即出現(xiàn)4次的詞語“的”和出現(xiàn)兩次的“了”以及“到、起、就、據(jù)、名等無實(shí)際意義的虛詞或單位”。然后定義中文詞語的權(quán)重系數(shù):其中時(shí)間節(jié)點(diǎn)為兩個(gè),“2008年6月28日”、“7月中旬”,此時(shí)間節(jié)點(diǎn)的權(quán)重系數(shù)為2。其中地名有“蘭州市” “河北” “石家莊” “甘肅省”此地名的權(quán)重系數(shù)為1,5。其中名詞“解放軍第一醫(yī)院”、“腎結(jié)石”、“家長們”、“孩子”、“出生” “三鹿集團(tuán)” “三鹿嬰幼兒奶粉”、“泌尿結(jié)石病例”、“調(diào)查”、“衛(wèi)生部”、“患嬰”、“醫(yī)院”、這些名詞根據(jù)出現(xiàn)的位置,次數(shù)(即詞頻)還有主 謂語關(guān)系,設(shè)定權(quán)重系數(shù)為:主語的權(quán)重系數(shù)為3,謂語的權(quán)重系數(shù)為2,每多出現(xiàn)一次權(quán)重系數(shù)便加1,出現(xiàn)在標(biāo)題中的詞語直接加4。經(jīng)過計(jì)算后的權(quán)重系數(shù)比例如下表所示:
權(quán)利要求
1.一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:包括抽取模塊,映射模塊,分詞空間,計(jì)算模塊,標(biāo)記模塊,抽取模塊以用戶輸入的關(guān)鍵詞進(jìn)行目標(biāo)信息的樣本抽取,映射模塊將抽取目標(biāo)信息的文本信息映射到分詞空間中進(jìn)行分詞處理,計(jì)算模塊將分詞處理后的中文詞匯表達(dá)為向量,根據(jù)中文詞匯的權(quán)重系數(shù)以及詞頻對中文詞匯進(jìn)行權(quán)重指數(shù)的計(jì)算,選取出標(biāo)簽關(guān)鍵詞傳送至標(biāo)記模塊,進(jìn)行信息的標(biāo)簽關(guān)鍵詞標(biāo)記,并生成一索引文件。
2.根據(jù)權(quán)利要求1所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的目標(biāo)信息是用戶以特定關(guān)鍵詞搜索到的網(wǎng)頁文本信息,或者視頻轉(zhuǎn)化文本后的文本信息。
3.根據(jù)權(quán)利要求1所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的映射模塊將文本信息映射到分詞空間中,采用中文分詞技術(shù)對文本中的整句話進(jìn)行分詞處理,分成若干中文詞匯。
4.根據(jù)權(quán)利要求3所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的映射模塊將分詞后的中文詞匯進(jìn)行預(yù)處理,去掉高頻詞匯。
5.根據(jù)權(quán)利要求4所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的高頻詞匯包括“的”一類的無實(shí)際意義的副詞、介詞、連詞、助詞、嘆詞等虛詞。
6.根據(jù)權(quán)利要求1所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的計(jì)算模塊將對去掉高頻詞后的中文分詞結(jié)果進(jìn)行信息熵計(jì)算,所述的信息熵計(jì)算即將中文分詞結(jié)果的單個(gè)詞語計(jì)算器權(quán)重系數(shù)后表達(dá)為向量,抽取其特征向量。
7.根據(jù)權(quán)利要求6所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的權(quán)重系數(shù)中,是根據(jù)中文詞匯的詞性、出現(xiàn)位置、詞頻、地名、人名、分詞特征、專有名詞等要素自動給出的,各要素的權(quán)重系數(shù)是由用戶結(jié)合樣本的特點(diǎn)設(shè)定的。
8.根據(jù)權(quán)利要求7所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的計(jì)算模塊將目標(biāo)信息中文分詞處理后的包含的所有中文詞匯的權(quán)重指數(shù)進(jìn)行歸一化處理,并根據(jù)歸一化后的權(quán)重指數(shù)進(jìn)行排序,并篩選出標(biāo)簽關(guān)鍵詞。
9.根據(jù)權(quán)利要求8所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng),其特征在于:所述的標(biāo)記模塊根據(jù)目標(biāo)信息的標(biāo)簽關(guān)鍵詞對目標(biāo)信息進(jìn)行關(guān)鍵詞標(biāo)記,統(tǒng)計(jì)成一個(gè)方便用戶查詢的索引文件。
10.具有如權(quán)利1_9中的任一項(xiàng)所述的一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)的動態(tài)輿情關(guān)鍵詞抽取方法,其特征在于:包括如下步驟: (I)、用戶輸入查詢關(guān)鍵詞至抽取模塊,抽取模塊搜索出目標(biāo)信息,并生成目標(biāo)信息的網(wǎng)頁文本信息或者是視頻轉(zhuǎn)化文本信息; (2 )、映射模塊將文本信息映射到中文分詞空間中進(jìn)行分詞處理成若干中文詞匯,并去掉一些介詞或虛詞等無實(shí)際意義詞性的高頻詞; (3)、計(jì)算模塊對將去掉高頻詞后的中文分詞結(jié)果進(jìn)行分詞計(jì)算,即將文本向量化,抽取其特征向量; (4)、計(jì)算模塊將目標(biāo)信息中文分詞處理后的包含的所有中文詞匯的權(quán)重指數(shù)進(jìn)行歸一化處理,并根據(jù)歸一化后的權(quán)重指數(shù)進(jìn)行排序,并篩選出標(biāo)簽關(guān)鍵詞; (5)、標(biāo)記模塊根據(jù)目標(biāo)信息的標(biāo)簽關(guān)鍵詞對目標(biāo)信息進(jìn)行關(guān)鍵詞標(biāo)記,統(tǒng)計(jì)成一個(gè)方便用戶查詢的索引文件。
全文摘要
本發(fā)明公開了一種動態(tài)輿情關(guān)鍵詞抽取系統(tǒng)及方法,包括抽取模塊,映射模塊,分詞空間K3,計(jì)算模塊,標(biāo)記模塊,抽取模塊以用戶輸入的關(guān)鍵詞進(jìn)行目標(biāo)信息的樣本抽取,映射模塊將抽取目標(biāo)信息的文本信息映射到分詞空間K3中進(jìn)行分詞處理,計(jì)算模塊將分詞處理后的中文詞匯表達(dá)為向量,根據(jù)中文詞匯的權(quán)重系數(shù)以及詞頻對中文詞匯進(jìn)行權(quán)重指數(shù)的計(jì)算,選取出標(biāo)簽關(guān)鍵詞傳送至標(biāo)記模塊,進(jìn)行信息的標(biāo)簽關(guān)鍵詞標(biāo)記,并生成一索引文件,能夠快速準(zhǔn)確的生成標(biāo)簽關(guān)鍵詞,進(jìn)行目標(biāo)信息的統(tǒng)計(jì)和標(biāo)記,并生成方便用戶查詢的索引文件,用戶可以進(jìn)行后續(xù)信息的查詢,只需要輸入標(biāo)簽關(guān)鍵詞便能夠進(jìn)行目標(biāo)信息的快速查詢。
文檔編號G06F17/30GK103186662SQ201210586409
公開日2013年7月3日 申請日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者趙樹合, 楊小豹, 鞏在飛 申請人:中聯(lián)競成(北京)科技有限公司