基于證據(jù)理論的中文微博可信度評估方法
【專利摘要】本發(fā)明屬于信息檢索與評估領(lǐng)域,具體涉及基于證據(jù)理論的中文微博可信度評估方法。本發(fā)明從中文微博的固有特點(diǎn)入手,兼顧了這些特點(diǎn)的可測量性和實(shí)際任務(wù),系統(tǒng)地梳理了中文微博信息的可信度測量指標(biāo),并將其歸屬為文本信息、信息來源與信息傳播三個高層維度??紤]到人類認(rèn)知的模糊性本質(zhì),提出一個基于多維證據(jù)的微博可信度評估方法用于融合上述三個異構(gòu)維度。與現(xiàn)有的僅針對網(wǎng)絡(luò)文本或互連關(guān)系的單一特征評估方法比較,基于證據(jù)理論的中文微博可信度評估方法考慮更全面、合理,在同樣的查詢條件下,可以優(yōu)選哪些來源可靠,傳播廣泛的信息。
【專利說明】基于證據(jù)理論的中文微博可信度評估方法
【技術(shù)領(lǐng)域】
[0001]基于證據(jù)理論的中文微博可信度評估方法屬于信息檢索與評估領(lǐng)域。
【背景技術(shù)】
[0002]最近幾年,社會媒體得到迅猛發(fā)展,特別是微博,如美國的推特(Twitter)、中國的新浪微博、騰訊微博等,已發(fā)展成為互聯(lián)網(wǎng)上的巨擘。中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)于2012年7月發(fā)布的《第30次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2012年6月底,我國微博用戶數(shù)達(dá)到2.74億,微博的滲透率已經(jīng)過半,而且微博在手機(jī)端的增長幅度仍然明顯,增速達(dá)到24.2%。根據(jù)中國互聯(lián)網(wǎng)調(diào)查社區(qū)(http://h.cnnicresearch.cn/sv/result/sid/22253) 2013年I月13日完成的關(guān)于“社會化媒體使用率的調(diào)查”結(jié)果顯示,微博(73.46%)已經(jīng)取代“即時(shí)聊天工具”(66.93%)、搜索引擎(61.64%)、官方網(wǎng)站(56.64%)成為大眾接觸最多的社會媒體。
[0003]隨著微博的蓬勃發(fā)展而帶來的一大隱患,就是用戶對微博內(nèi)容的真實(shí)性和價(jià)值越來越難以判斷。這主要是由微博內(nèi)容的固有特點(diǎn)造成的。和其他社會媒體相似,微博的最大特點(diǎn)依然是媒體內(nèi)容產(chǎn)生于用戶(UGC,用戶創(chuàng)造內(nèi)容)和消費(fèi)者(CGM,消費(fèi)者產(chǎn)生媒體)。而且比起強(qiáng)調(diào)版面布置的博客來說,微博內(nèi)容更簡短、零碎,微博書寫更隨意、自由。正是由于微博內(nèi)容的創(chuàng)造者自由度很大,沒有編輯條款限制,使得微博上的信息質(zhì)量差異很大。而且,由于信息的隨便發(fā)布,群體的話語暴力,不負(fù)責(zé)任的非理性表達(dá),也使得微博成為了眾多網(wǎng)絡(luò)謠言的發(fā)源地。因此,針對微博在信息書寫、信息傳播、社會網(wǎng)絡(luò)分析等方面的固有特點(diǎn),分析、評估微博內(nèi)容、微博用戶,并將其應(yīng)用于微博信息綜合或垂直搜索、微博知識發(fā)現(xiàn)等領(lǐng)域的研究,已經(jīng)引起了國內(nèi)外計(jì)算機(jī)科學(xué)、信息科學(xué)、傳媒科學(xué)領(lǐng)域研究人員的關(guān)注和重視,成為微博研究領(lǐng)域的重要內(nèi)容之一。
[0004]由于時(shí)間因素,目前對微博質(zhì)量的研究實(shí)例大多集中于推特(Twitter)分析,這些研究可以分為兩類,一類是利用傳統(tǒng)分類技術(shù)的定性分析,這類研究需要大量樣本,獲取的是非數(shù)值結(jié)論,無法用于定量評估;另一類是針對不同性能指標(biāo)的一些定量算法,只是現(xiàn)有質(zhì)量評估函數(shù)多數(shù)只關(guān)注信息本身或某一側(cè)面,缺少系統(tǒng)、全面地分析和評估,更沒有從模糊認(rèn)知的角度進(jìn)行度量。目前針對中文微博質(zhì)量分析的研究多數(shù)集中于內(nèi)容分析和特定主題提取,缺少專門針對質(zhì)量進(jìn)行定量評估的系統(tǒng)方法。
【發(fā)明內(nèi)容】
[0005]本發(fā)明從中文微博的固有特點(diǎn)入手,兼顧了這些特點(diǎn)的可測量性和實(shí)際任務(wù),系統(tǒng)地梳理了中文微博信息的可信度測量指標(biāo),并將其歸屬為文本信息、信息來源與信息傳播三個高層維度,考慮到人類認(rèn)知的模糊性本質(zhì),提出一個基于多維證據(jù)的微博可信度評估方法用于融合上述三個異構(gòu)維度,具體流程如圖1所示。與現(xiàn)有的僅針對網(wǎng)絡(luò)文本或互連關(guān)系的單一特征評估方法比較,基于證據(jù)理論的中文微博可信度評估方法考慮更全面、合理,在同樣的查詢條件下,可以優(yōu)選哪些來源可靠,傳播廣泛的信息。本發(fā)明提供的中文微博可信度評估方法,具體步驟如下:
[0006]步驟1:預(yù)處理,將從各微博平臺獲取的Json格式微博,通過格式解析形成有效數(shù)據(jù),然后借助現(xiàn)有的自然語言處理工具,對有效數(shù)據(jù)中的微博文本進(jìn)行分詞、詞性標(biāo)注、圖標(biāo)檢測、錯誤詞檢測、重復(fù)標(biāo)點(diǎn)檢測等預(yù)處理工作,并統(tǒng)計(jì)相關(guān)數(shù)據(jù);
[0007]步驟2:文本信息的可信度測量,信息本身的可信度可以從客觀和主觀兩個方面入手考察,客觀因素主要包括句法、語法、語氣和語義四個層面,前兩個層面,考慮了文本長度Slmgth和拼寫錯誤Sspelling兩個指標(biāo),具體計(jì)算方法如表1所示,表1同時(shí)列出了本發(fā)明考慮的和語氣相關(guān)的三個因素分別是:圖標(biāo)S_ti_s、重復(fù)標(biāo)點(diǎn)Spun。以及正性詞/負(fù)性詞Spwneg’本發(fā)明將語義因素歸結(jié)到任務(wù)相關(guān)領(lǐng)域,信息本身的可信度測量不涉及,影響文本信息可信度的主觀因素反映的是其他用戶對該文本質(zhì)量的主觀看法,通過分析主流中文微博平臺數(shù)據(jù),發(fā)現(xiàn)針對單個文本的可直接測量的主觀因素有直接轉(zhuǎn)貼數(shù)Smwsts和用戶評論數(shù)Sranmmts,具體計(jì)算方法如表1所示;
[0008]本發(fā)明采用均值模式來分別融合客觀因素和主觀因素,然后再通過一個介于[0,
I]之間的權(quán)重λ來控制客觀和主觀因素的相對權(quán)重,將各個影響因素的得分進(jìn)行min-max標(biāo)準(zhǔn)化,計(jì)算方法如下:
[0009]
【權(quán)利要求】
1.基于證據(jù)理論的中文微博可信度評估方法,其特征在于步驟如下: 步驟1:預(yù)處理,將從各微博平臺獲取的Json格式微博,通過格式解析形成有效數(shù)據(jù),然后借助現(xiàn)有的自然語言處理工具,對有效數(shù)據(jù)中的微博文本進(jìn)行分詞、詞性標(biāo)注、圖標(biāo)檢測、錯誤詞檢測、重復(fù)標(biāo)點(diǎn)檢測等預(yù)處理工作,并統(tǒng)計(jì)相關(guān)數(shù)據(jù); 步驟2:文本信息的可信度測量,信息本身的可信度可以從客觀和主觀兩個方面入手考察,客觀因素主要包括句法、語法、語氣和語義四個層面,前兩個層面,考慮了文本長度Slmgth和拼寫錯誤Sspelling兩個指標(biāo),具體計(jì)算方法如表1所示,表1同時(shí)列出了本發(fā)明考慮的和語氣相關(guān)的三個因素分別是:圖標(biāo)S_ti_s、重復(fù)標(biāo)點(diǎn)Spum以及正性詞/負(fù)性詞Sp()si/Mg,本發(fā)明將語義因素歸結(jié)到任務(wù)相關(guān)領(lǐng)域,信息本身的可信度測量不涉及;影響文本信息可信度的主觀因素反映的是其他用戶對該文本質(zhì)量的主觀看法,通過分析主流中文微博平臺數(shù)據(jù),發(fā)現(xiàn)針對單個文本的可直接測量的主觀因素有直接轉(zhuǎn)貼數(shù)Smwsts和用戶評論數(shù)Sranmmts,具體計(jì)算方法如表1所示; 本發(fā)明采用均值模式來分別融合客觀因素和主觀因素,然后再通過一個介于[0,1]之間的權(quán)重λ來控制客觀和主觀因素的相對權(quán)重,將各個影響因素的得分進(jìn)行min-max標(biāo)準(zhǔn)化,計(jì)算方法如下:
【文檔編號】G06F17/27GK103927297SQ201410149429
【公開日】2014年7月16日 申請日期:2014年4月13日 優(yōu)先權(quán)日:2014年4月13日
【發(fā)明者】高明霞 申請人:北京工業(yè)大學(xué)