亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)輿情信息處理方法和裝置的制作方法

文檔序號:6591587閱讀:262來源:國知局
專利名稱:一種網(wǎng)絡(luò)輿情信息處理方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)輿情信息處理方法和裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為反映社會輿情的主要載體之一。網(wǎng)絡(luò)輿情是通過互聯(lián)網(wǎng)傳播的,公眾對現(xiàn)實生活某些熱點事件所持有的情感、態(tài)度、意見、言論或觀點,其主要通過新聞評論、論壇BBS、博客Blog、聚合新聞(RSS)等方式實現(xiàn)。由于網(wǎng)絡(luò)的開放性和虛擬性,導(dǎo)致網(wǎng)絡(luò)輿情形成迅速,對社會影響巨大。特別是當出現(xiàn)負面的網(wǎng)絡(luò)輿情時,若不能及時了解、有效引導(dǎo),很容易形成輿論危機,嚴重時甚至影響公共安全。因此,如何及時準確的了解網(wǎng)絡(luò)輿情就成為社會管理部門必須面對和解決的問題?,F(xiàn)有技術(shù)200810147645.2,公開了一種網(wǎng)絡(luò)輿情觀點收集方法,通過在網(wǎng)絡(luò)論壇中提取熱點詞,根據(jù)熱點詞提取相關(guān)的信息文檔,構(gòu)成該熱點詞相關(guān)的熱點事件文檔集,并對其中的關(guān)鍵句進行聚類,按不同類別建立正負情感詞庫,然后依據(jù)該情感詞庫對觀點主題句集中的關(guān)鍵句的情感詞進行情感標·記,計算出每個網(wǎng)民在該觀點主題下的情感傾向值,得到某一熱點事件的網(wǎng)絡(luò)輿情觀點,從而實現(xiàn)了網(wǎng)絡(luò)輿情觀點的收集。上述現(xiàn)有技術(shù)中通過建立正/負情感詞庫對關(guān)鍵句的情感詞進行情感標記,進而判斷該關(guān)鍵句的情感傾向值是正面還是負面。但是,在某些漢語句中,僅憑字詞很難判斷其情感傾向,以情感詞“相當”為例:關(guān)鍵句‘他的球踢的相當好’與‘這車油耗相當高’僅依據(jù)情感詞“相當”所在詞庫的情感傾向值就無法正確判斷關(guān)鍵句的真實情感傾向。而當這樣的誤判累積到一定程度時,就會造成對網(wǎng)絡(luò)輿情判斷失真。因此,需要本領(lǐng)域技術(shù)人員解決的技術(shù)問題是如何提高判斷網(wǎng)絡(luò)輿情信息傾向性的準確性。

發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種網(wǎng)絡(luò)輿情信息處理方法和裝置。依據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)絡(luò)輿情信息處理方法,所述方法包括:從網(wǎng)絡(luò)數(shù)據(jù)源獲取網(wǎng)頁;獲取網(wǎng)絡(luò)熱詞;將所述網(wǎng)絡(luò)熱詞和所述網(wǎng)頁對應(yīng)的文檔存儲在數(shù)據(jù)集合中;從所述數(shù)據(jù)集合中提取網(wǎng)頁文檔進行分詞;從所述分詞結(jié)果中提取單詞與預(yù)置的標準情感詞庫匹配,若匹配,則將所述單詞作為目標情感詞;從所述分詞結(jié)果中提取單詞與預(yù)置的基準情感詞庫匹配,若匹配,則將所述單詞作為基準情感詞;
計算所述目標情感詞與基準情感詞的語義距離;根據(jù)所述語義距離判斷所述網(wǎng)頁文檔的情感傾向??蛇x的,所述獲取網(wǎng)絡(luò)熱詞包括:從網(wǎng)絡(luò)報文中提取基于搜索引擎提交的搜索關(guān)鍵字;統(tǒng)計所述搜索請求關(guān)鍵字在預(yù)定時間段內(nèi)被搜索次數(shù)作為網(wǎng)絡(luò)熱度;將所述預(yù)定時間段內(nèi)網(wǎng)絡(luò)熱度超出閾值的搜索請求關(guān)鍵字作為網(wǎng)絡(luò)熱詞??蛇x的,所述將網(wǎng)絡(luò)熱詞和網(wǎng)頁存儲在數(shù)據(jù)集合之后還包括:對數(shù)據(jù)集合中的網(wǎng)頁文檔聚類,所述對網(wǎng)頁文檔聚類包括:從所述數(shù)據(jù)集合中提取網(wǎng)頁文檔;計算所述網(wǎng)頁文檔與目標網(wǎng)絡(luò)熱詞的關(guān)聯(lián)度;將關(guān)聯(lián)度超出閾值的網(wǎng)頁文檔存入所述目標網(wǎng)絡(luò)熱詞對應(yīng)的一類網(wǎng)頁集合中;重復(fù)上述步驟直到完成對所有網(wǎng)絡(luò)熱詞的聚類;腿_碰當棚變_漏& =財,
Xa表示目標網(wǎng)絡(luò)熱詞與當前網(wǎng)頁A的關(guān)聯(lián)度,&1是目標網(wǎng)絡(luò)熱詞在網(wǎng)絡(luò)數(shù)據(jù)源Dl中基于當前搜索日期所提取的網(wǎng)頁A中出現(xiàn)的次數(shù),&2是目標網(wǎng)絡(luò)熱詞在網(wǎng)絡(luò)數(shù)據(jù)源Dl中基于其它日期所提取網(wǎng)頁中出現(xiàn)的次數(shù)^13233..^11分別是目標網(wǎng)絡(luò)熱詞在網(wǎng)絡(luò)數(shù)據(jù)源01、02、D3...Dn對應(yīng)的網(wǎng)頁中出現(xiàn)的總次數(shù)??蛇x的,還包括:對所述數(shù)據(jù)集合中的網(wǎng)頁文檔按地域信息分組。可選的,所述計算目標情感詞與基準情感詞間的語義距離包括:計算目標情感詞wl與基準情感詞w2的點互信息PMI (wl, w2)值;所述語義距離so為所述網(wǎng)頁文檔中正面基準情感詞的PMI合值與負面基準情感詞PMI合值的差值;所述根據(jù)語義距離判斷所述網(wǎng)頁文檔的情感傾向包括:當所述語義距離so值大于1,則所述網(wǎng)頁文檔的情感傾向為正面;當所述語義距離so值小于1,則所述網(wǎng)頁文檔的情感傾向為負面;其中,
權(quán)利要求
1.一種網(wǎng)絡(luò)輿情信息處理方法,其特征在于,包括: 從網(wǎng)絡(luò)數(shù)據(jù)源獲取網(wǎng)頁; 獲取網(wǎng)絡(luò)熱詞; 將所述網(wǎng)絡(luò)熱詞和所述網(wǎng)頁對應(yīng)的文檔存儲在數(shù)據(jù)集合中; 從所述數(shù)據(jù)集合中提取網(wǎng)頁文檔進行分詞; 從所述分詞結(jié)果中獲取目標情感詞和基準情感詞,具體包括:提取單詞與預(yù)置的標準情感詞庫匹配,若匹配,則將所述單詞作為目標情感詞;從所述分詞結(jié)果中提取單詞與預(yù)置的基準情感詞庫匹配,若匹配,則將所述單詞作為基準情感詞; 計算所述目標情感詞與基準情感詞的語義距離;根據(jù)所述語義距離判斷所述網(wǎng)頁文檔的情感傾向。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取網(wǎng)絡(luò)熱詞包括: 從網(wǎng)絡(luò)報文中提取基于搜索引擎提交的搜索關(guān)鍵字; 統(tǒng)計所述搜索請求關(guān)鍵字在預(yù)定時間段內(nèi)被搜索次數(shù)作為網(wǎng)絡(luò)熱度; 將所述預(yù)定時間段內(nèi)網(wǎng)絡(luò)熱度超出閾值的搜索請求關(guān)鍵字作為網(wǎng)絡(luò)熱詞。
3.如權(quán)利要求1所述的方法,其特征在于,所述將網(wǎng)絡(luò)熱詞和網(wǎng)頁存儲在數(shù)據(jù)集合之后還包括: 對數(shù)據(jù)集合中的網(wǎng)頁文檔聚類,所述對網(wǎng)頁文檔聚類包括: 從所述數(shù)據(jù)集合中提取網(wǎng)頁文檔; 計算所述網(wǎng)頁文檔與目標網(wǎng)絡(luò)熱詞的關(guān)聯(lián)度; 將關(guān)聯(lián)度超出閾值的網(wǎng)頁文檔存入所述目標網(wǎng)絡(luò)熱詞對應(yīng)的一類網(wǎng)頁集合中; 重復(fù)上述步驟直到完成對所有網(wǎng)絡(luò)熱詞的聚類; 所述計算網(wǎng)頁文檔與目標網(wǎng)絡(luò)熱詞的關(guān)聯(lián)度. =其中,Xa表示目標網(wǎng)絡(luò)熱詞與當前網(wǎng)頁A的關(guān)聯(lián)度,&1是目標網(wǎng)絡(luò)熱詞在網(wǎng)絡(luò)數(shù)據(jù)源Dl中基于當前搜索日期所提取的網(wǎng)頁A中出現(xiàn)的次數(shù),&2是目標網(wǎng)絡(luò)熱詞在網(wǎng)絡(luò)數(shù)據(jù)源Dl中基于其它日期所提取網(wǎng)頁中出現(xiàn)的次數(shù)^13233..^11分別是目標網(wǎng)絡(luò)熱詞在網(wǎng)絡(luò)數(shù)據(jù)源01、02、D3...Dn對應(yīng)的網(wǎng)頁中出現(xiàn)的總次數(shù)。
4.如權(quán)利要求3所述的方法,其特征在于,還包括: 對所述數(shù)據(jù)集合中的網(wǎng)頁文檔按地域信息分組。
5.如權(quán)利要求1所述的方法,其特征在于,所述計算目標情感詞與基準情感詞間的語義距離包括: 計算目標情感詞wl與基準情感詞w2的點互信息PMI (wl, w2)值; 所述語義距離so為所述網(wǎng)頁文檔中正面基準情感詞的PMI合值與負面基準情感詞PMI合值的差值; 所述根據(jù)語義距離判斷所述網(wǎng)頁文檔的情感傾向包括: 當所述語義距離so值大于1,則所述網(wǎng)頁文檔的情感傾向為正面;當所述語義距離so值小于1,則所述網(wǎng)頁文檔的情感傾向為負面; 其中,PMl(wl,w2)=log2 1......1 9 ; & [p(wl)p(w2)J 語義距離 so (w) = Σ PMI (w, gword) - Σ PMI (w, bword),其中,w 為目標情感詞,gword為正面基準情感詞,bword為負面基準情感詞。
6.一種網(wǎng)絡(luò)輿情信息處理裝置,其特征在于,包括: 網(wǎng)頁獲取模塊,用于從網(wǎng)絡(luò)數(shù)據(jù)源獲取網(wǎng)頁; 網(wǎng)絡(luò)熱詞獲取模塊,用于獲取網(wǎng)絡(luò)熱詞; 數(shù)據(jù)集合,用于存儲所述網(wǎng)絡(luò)熱詞和所述網(wǎng)頁對應(yīng)的文檔; 分詞模塊,用于從所述數(shù)據(jù)集合中提取網(wǎng)頁文檔進行分詞; 匹配模塊,用于從所述分詞結(jié)果中提取單詞與預(yù)置的標準情感詞庫匹配,若匹配,則將所述單詞作為目標情感詞; 所述分詞模塊還用于從所述分詞結(jié)果中提取單詞與預(yù)置的基準情感詞庫匹配,若匹配,則將所述單詞作為 基準情感詞; 語義距離計算模塊,用于計算所述目標情感詞與基準情感詞的語義距離; 情感傾向判斷模塊,用于根據(jù)所述語義距離判斷所述網(wǎng)頁文檔的情感傾向。
7.如權(quán)利要求6所述的裝置,其特征在于,所述獲取網(wǎng)絡(luò)熱詞獲取模塊還包括: 關(guān)鍵字獲取單元,用于從網(wǎng)絡(luò)報文中提取基于搜索引擎提交的搜索關(guān)鍵字; 網(wǎng)絡(luò)熱度獲取單元,用于統(tǒng)計所述搜索關(guān)鍵字在預(yù)定時間段內(nèi)被搜索次數(shù)作為網(wǎng)絡(luò)熱度; 熱詞標記單元,用于將所述預(yù)定時間段內(nèi)網(wǎng)絡(luò)熱度超出閾值的搜索關(guān)鍵字作為網(wǎng)絡(luò)熱ο
8.如權(quán)利要求6所述的裝置,其特征在于,還包括: 文檔聚類模塊,用于對數(shù)據(jù)集合中的網(wǎng)頁文檔聚類。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括: 文檔分組模塊,用于對所述數(shù)據(jù)集合中的網(wǎng)頁文檔按地域信息分組。
10.如權(quán)利要求6所述的裝置,其特征在于,所述語義距離計算模塊還包括: 點互信息計算單元,用于計算目標情感詞wl與基準情感詞w2的點互信息PMI (wl,w2)值; 所述語義距離so為所述網(wǎng)頁文檔中正面基準情感詞的PMI合值與負面基準情感詞PMI合值的差值; 所述情感傾向判斷模塊還用于判斷:當所述語義距離so值大于1,則所述網(wǎng)頁文檔的情感傾向為正面;當所述語義距離so值小于1,則所述網(wǎng)頁文檔的情感傾向為負面。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)輿情信息處理方法和裝置,所述方法包括從網(wǎng)絡(luò)數(shù)據(jù)源獲取網(wǎng)頁;獲取網(wǎng)絡(luò)熱詞;將所述網(wǎng)絡(luò)熱詞和所述網(wǎng)頁對應(yīng)的文檔存儲在數(shù)據(jù)集合中;從所述數(shù)據(jù)集合中提取網(wǎng)頁文檔進行分詞;從所述分詞結(jié)果中獲取目標情感詞和基準情感詞;計算所述目標情感詞與基準情感詞的語義距離;根據(jù)所述語義距離判斷所述網(wǎng)頁文檔的情感傾向。由于語義距離能夠反映出目標情感詞與基準情感詞之間關(guān)聯(lián)的緊密程度,以及情感詞在文檔中不同位置對情感傾向的影響,因此,有效提高了對文檔情感傾向判斷的準確性,這樣一來,也就大大提高了對網(wǎng)絡(luò)輿情信息判斷的準確性,為網(wǎng)絡(luò)輿情信息的后續(xù)處理提供了更為真實、準確的基礎(chǔ)。
文檔編號G06F17/28GK103246644SQ20131011335
公開日2013年8月14日 申請日期2013年4月2日 優(yōu)先權(quán)日2013年4月2日
發(fā)明者張宏剛, 羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1