一種鑒定網(wǎng)絡(luò)謠言的方法和裝置制造方法
【專利摘要】本發(fā)明適用于互聯(lián)網(wǎng)通信領(lǐng)域,提供了一種鑒定網(wǎng)絡(luò)謠言的方法,所述方法包括:對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征;用機器學習法建模,生成打分函數(shù);利用打分函數(shù)對網(wǎng)絡(luò)信息進行鑒定。本發(fā)明可以每過一段時間對模型做出修正,體現(xiàn)了網(wǎng)絡(luò)傳播的動態(tài)性,通過建模產(chǎn)生的打分函數(shù),可以利用機器快速鑒定網(wǎng)絡(luò)謠言,從而為網(wǎng)絡(luò)管理者快速反應(yīng)提供重要的依據(jù)。
【專利說明】一種鑒定網(wǎng)絡(luò)謠言的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于互聯(lián)網(wǎng)通信領(lǐng)域,尤其涉及一種鑒定網(wǎng)絡(luò)謠言的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,F(xiàn)acebook、Twitter、微博、電子郵件、博客、youtube等社交網(wǎng)站相繼出現(xiàn),網(wǎng)絡(luò)謠言也隨之產(chǎn)生和傳播,其對社會產(chǎn)生的危害:小到個人生活和隱私,大到社會的安定團結(jié)以及經(jīng)濟發(fā)展。比如2012年夏天,印度阿薩姆邦發(fā)生流血事件后,網(wǎng)絡(luò)謠言導(dǎo)致30多萬人逃離居住地;2010年2月20日,山西某些地區(qū)要地震的謠言通過網(wǎng)絡(luò)迅速傳播,致使太原等六地數(shù)百萬群眾凌晨開始走上街頭“躲避地震”,山西地震官網(wǎng)一度癱瘓;2011年3月日本9.0級地震后,有關(guān)食鹽可以預(yù)防核輻射的謠言使得中國部分地區(qū)開始瘋狂搶購食鹽,市場秩序一片混亂。據(jù)統(tǒng)計僅2012年3月和4月間在我國被清理的網(wǎng)絡(luò)謠言就有20余萬多條。網(wǎng)絡(luò)謠言跨越國界,在世界范圍內(nèi)影響和危害人民的生活安定、社會安全和經(jīng)濟發(fā)展,治理網(wǎng)絡(luò)謠言已經(jīng)成為世界性的難題。
[0003]網(wǎng)絡(luò)謠言可以理解為在網(wǎng)絡(luò)這一特定的環(huán)境下,網(wǎng)絡(luò)使用實體以特定方式傳播的,對網(wǎng)民感興趣的事物、事件或問題的,未經(jīng)證實的闡述或詮釋(《情報理論與實踐》2004年6期,巢乃鵬,黃嫻著)。目前世界范圍內(nèi)還沒有針對網(wǎng)絡(luò)謠言的一種快速有效的鑒定方法,如何在短時間內(nèi)鑒定網(wǎng)絡(luò)謠言意義十分重大。申請?zhí)枮?00810167018.5的專利介紹了一種網(wǎng)絡(luò)秩序調(diào)控方法,該方法主要針對網(wǎng)絡(luò)用戶的網(wǎng)絡(luò)行為進行規(guī)范,基于網(wǎng)絡(luò)用戶的行為建立一個信用評估體系,并沒有針對網(wǎng)絡(luò)謠言提出有效的預(yù)測和鑒定方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種鑒定網(wǎng)絡(luò)謠言的方法和裝置,旨在解決當前沒有針對網(wǎng)絡(luò)謠言提出有效的預(yù)測和鑒定方法,無法利用機器快速鑒定網(wǎng)絡(luò)謠言,從而為網(wǎng)絡(luò)管理者快速反應(yīng)提供依據(jù)。
[0005]為此,本發(fā)明實施例提供了如下技術(shù)方案:
[0006]一種鑒定網(wǎng)絡(luò)謠言的方法,包括以下步驟:
[0007]對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征;
[0008]用機器學習法建模,生成打分函數(shù);
[0009]利用打分函數(shù)對網(wǎng)絡(luò)信息進行鑒定。
[0010]本發(fā)明實施例還提供了一種鑒定網(wǎng)絡(luò)謠言的裝置,包括:
[0011]數(shù)據(jù)庫,用于存儲網(wǎng)絡(luò)信息;
[0012]特征提取模塊,用于對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征;
[0013]建模模塊,用于用機器學習法建模,生成打分函數(shù);
[0014]鑒定模塊,用于利用打分函數(shù)對網(wǎng)絡(luò)信息進行預(yù)測。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明的實施例具有如下優(yōu)點:
[0016]本發(fā)明通過提供對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征,用機器學習法建模,生成打分函數(shù),再利用打分函數(shù)對網(wǎng)絡(luò)信息進行鑒定,可以每過一段時間對模型做出修正,并實現(xiàn)利用機器快速鑒定網(wǎng)絡(luò)謠言,從而為網(wǎng)絡(luò)管理者快速反應(yīng)提供重要的依據(jù)。
【專利附圖】
【附圖說明】
[0017]圖1是本發(fā)明實施例提供的鑒定網(wǎng)絡(luò)謠言的方法的方法流程圖;
[0018]圖2是本發(fā)明實施例提供的鑒定網(wǎng)絡(luò)謠言的裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0019] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當理解,此處所描述的僅是本發(fā)明的一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0020]具體的,首先定義一些該專利發(fā)明中用到的常用參數(shù):
[0021]? M:網(wǎng)絡(luò)信息,可以是謠言或者真實信息。
[0022]? S (M):網(wǎng)絡(luò)信息M的發(fā)布者。
[0023]?Τ(Μ):網(wǎng)絡(luò)信息M的傳播者,傳播了該網(wǎng)絡(luò)信息;可以是相信了該網(wǎng)絡(luò)信息的用戶,也可以是不相信該網(wǎng)絡(luò)信息的用戶。
[0024]? R(M):網(wǎng)絡(luò)信息M的受眾,相信該網(wǎng)絡(luò)信息的網(wǎng)絡(luò)用戶;可以同時是網(wǎng)絡(luò)信息M的傳播者。
[0025]^U:網(wǎng)絡(luò)用戶,可以是個人,也可以是單位機構(gòu);網(wǎng)絡(luò)互動的主體,可以是信息發(fā)布者、傳播者和受眾。
[0026]? I (M):網(wǎng)絡(luò)信息M的重要性。
[0027]? V (M):網(wǎng)絡(luò)信息M的模糊性。
[0028]? A (M):網(wǎng)絡(luò)信息M的反常性。
[0029]? pl, ρ2, ρ3…pi…:打分函數(shù)的參數(shù),每個參數(shù)pi針對打分函數(shù)的一項。
[0030]在本發(fā)明中,針對某個網(wǎng)絡(luò)信息M的打分函數(shù)具有以下的形式:
[0031]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0032]這里的打分函數(shù)(El)的函數(shù)由兩部分構(gòu)成。前三項和網(wǎng)絡(luò)信息的傳播和傳播環(huán)境有關(guān),而后二項和網(wǎng)絡(luò)彳目息本身的特點有關(guān)。
[0033]圖1是本發(fā)明實施例提供的鑒定網(wǎng)絡(luò)謠言的方法流程圖,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分。
[0034]如圖1所示,該方法包括以下步驟:
[0035]步驟101,對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征。
[0036]具體的,包括以下步驟:
[0037]步驟一,對數(shù)據(jù)庫中謠言的分類,將每個謠言歸為其中的一類。
[0038]具體的,假設(shè)分為匪類謠言,比如可分為財經(jīng)、體育、娛樂、汽車、政治、科技、軍事、歷史、其他等,然后將每個謠言歸為其中的一類。
[0039]步驟二,分析數(shù)據(jù)庫中每一類謠言和每一個網(wǎng)絡(luò)用戶,提取與傳播環(huán)境有關(guān)的特征。[0040]具體的,網(wǎng)絡(luò)信息的傳播環(huán)境包含網(wǎng)絡(luò)信息的發(fā)布者、傳播者,和受眾。因為網(wǎng)絡(luò)信息(謠言)傳播環(huán)境非常重要,只有經(jīng)過廣泛傳播,其影響和危害才會巨大。傳播者和受眾對該事件的判斷能力可以大大影響網(wǎng)絡(luò)信息的傳播。比如:山西地震局作為網(wǎng)絡(luò)用戶(比如微博用戶)對2010年2月山西某些地區(qū)要地震的謠言辟謠,阻止了謠言的進一步傳播。
[0041]具體的,與傳播環(huán)境有關(guān)的特征,在本發(fā)明用到的參數(shù)中,是這樣定義的:
[0042]? S (M):網(wǎng)絡(luò)信息M的發(fā)布者。
[0043]?Τ(Μ):網(wǎng)絡(luò)信息M的傳播者,傳播了該網(wǎng)絡(luò)信息;可以是相信了該網(wǎng)絡(luò)信息的用戶,也可以是不相信該網(wǎng)絡(luò)信息的用戶。
[0044]? R(M):網(wǎng)絡(luò)信息M的受眾,相信該網(wǎng)絡(luò)信息的網(wǎng)絡(luò)用戶;可以同時是網(wǎng)絡(luò)信息M的傳播者。
[0045]優(yōu)選的,對于數(shù)據(jù)庫中的每一類謠言Mi,和每一個網(wǎng)絡(luò)用戶Ui作如下分析,并提取與傳播環(huán)境有關(guān)的特征。
[0046]首先,根據(jù)用戶是否發(fā)布過謠言Mi,將用戶標記為謠言發(fā)布者/非發(fā)布者,從而對網(wǎng)絡(luò)信息的發(fā)布者進行分析。 [0047]優(yōu)選的,對網(wǎng)絡(luò)信息的發(fā)布者S進行分析。由于用戶Ui可能是網(wǎng)絡(luò)謠言的發(fā)布者,也可能不是,因此,根據(jù)用戶Ui是否發(fā)布過謠言Mi,將用戶Ui標記為:Mi謠言發(fā)布者/非發(fā)布者。因此對于數(shù)據(jù)庫中的用戶Ui,相應(yīng)的打分函數(shù):
[0048]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0049]El中S項就有兩項,pi參數(shù)也就有兩個。對應(yīng)于所有用戶和所有謠言類型的S項參數(shù)的總數(shù)是2*N*L。
[0050]其次,根據(jù)用戶是否傳播過謠言Mi,將用戶標記為謠言傳播者/非傳播者,從而對網(wǎng)絡(luò)信息的傳播者進行分析。
[0051]優(yōu)選的,對網(wǎng)絡(luò)信息的傳播者T進行分析。由于用戶Ui可能是網(wǎng)絡(luò)謠言的傳播者,也可能不是,因此,根據(jù)用戶Ui是否傳播過謠言Mi標記Ui =Mi謠言傳播者/非傳播者;因此對于數(shù)據(jù)庫中的用戶Ui,相應(yīng)的打分函數(shù):
[0052]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0053]El中T項就有兩項,p2參數(shù)也就有兩個。對應(yīng)于所有用戶和所有謠言類型的T項參數(shù)的總數(shù)是2*N*L。
[0054]然后,根據(jù)用戶是否相信謠言Mi,將用戶標記謠言受眾/非受眾,從而對網(wǎng)絡(luò)信息的受眾進行分析。
[0055]對網(wǎng)絡(luò)信息的受眾R進行分析。由于用戶Ui可能相信接受到的網(wǎng)絡(luò)謠言,也可能不相信接受到的網(wǎng)絡(luò)謠言,因此根據(jù)用戶Ui是否相信謠言Mi標記用戶Ui為:Mi謠言受眾/非受眾;因此對于數(shù)據(jù)庫中的用戶Ui,相應(yīng)的打分函數(shù):
[0056]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)
[0057]El中R項就有兩項,p3參數(shù)也就有兩個。對應(yīng)于所有用戶和所有謠言類型的T項參數(shù)的總數(shù)是2*N*L。
[0058]步驟三,分析數(shù)據(jù)庫中的每一類謠言,提取與網(wǎng)絡(luò)信息本身相關(guān)的特征。
[0059]優(yōu)選的,包括以下步驟:
[0060]首先,依據(jù)重要程度不同將謠言分類,通過統(tǒng)計分析數(shù)據(jù)庫中謠言的傳播速度,確定單位時間傳播次數(shù)的上限閾值和下限閾值,并根據(jù)謠言在單位時間內(nèi)的傳播次數(shù)是否超過或小于所述上限閾值或下限閾值,實現(xiàn)從傳播速度提取謠言的重要性分類特征和對謠言的重要性分析。
[0061]優(yōu)選的,對謠言的重要性I進行分析。謠言一般來講可以分為以下幾類:牢騷性謠言、攻擊性謠言、宣傳性謠言、牟利性謠言、誤解性謠言,不同謠言的重要和危害性也不同,根據(jù)其重要程度不同可以將謠言非為三類:非常重要,一般重要,不重要。從操作層次來講,可以從傳播速度來提取分類特征,當謠言Mi在時間t內(nèi)的傳播次數(shù)超過Ql時,此謠言Mi為非常重要;當傳播次數(shù)超過Q2而小于Ql時,此謠言Mi為一般重要;當傳播次數(shù)小于Q2時,此謠言Mi為一般重要。其中Q1>Q2,通過統(tǒng)計分析數(shù)據(jù)庫中謠言的傳播速度來確定Ql和Q2的值。對應(yīng)于所有謠言類型的I項參數(shù)的總數(shù)是3*L。
[0062]其次,依據(jù)從社交網(wǎng)絡(luò)數(shù)據(jù)庫中提取和分析得到的模糊詞列表,和謠言中模糊詞出現(xiàn)的頻率,對謠言的模糊性分類,實現(xiàn)對謠言的模糊性分析。
[0063]優(yōu)選的,對謠言的模糊性V進行分析。模糊性低的謠言很容易網(wǎng)絡(luò)用戶來證實真假,因此傳播速度慢;而模糊性高的謠言的傳播速度則要更快,其危害也更大。可以根據(jù)謠言中模糊詞出現(xiàn)的頻率將謠言的模糊性分為三類:模糊性高,模糊性中,模糊性低。模糊詞的列表需從社交網(wǎng)絡(luò)數(shù)據(jù)庫中提取和分析,基于統(tǒng)計分析設(shè)置兩個頻率閾值Vl和V2引導(dǎo)分類。對應(yīng)于所有謠言類型的V項參數(shù)的總數(shù)是3*L(具體參數(shù)待定)。依據(jù)從社交網(wǎng)絡(luò)數(shù)據(jù)庫中提取和分析得到的模糊詞的列表,和謠言中模糊詞出現(xiàn)的頻率,將謠言的模糊性分為三類:模糊性高,模糊性中,模糊性低。
[0064]最后,將謠言自動隨機發(fā)送給網(wǎng)絡(luò)用戶,依據(jù)對反饋信息的分析,對謠言的的反常性分類,實現(xiàn)對謠言的反常度分析。
[0065]優(yōu)選的,謠言的反常度A進行分析。謠言反常度越高,其危害越大,傳播速度就越快。將謠言的反常性分為三類:反常度高,反常度中,反常度低。具體方法是設(shè)計一網(wǎng)絡(luò)系統(tǒng)將謠言自動隨機發(fā)送給一些網(wǎng)絡(luò)用戶,依據(jù)對反饋信息的分析將謠言進行分類。對應(yīng)于所有謠言類型的A項參數(shù)的總數(shù)是3*L。
[0066]步驟四,從數(shù)據(jù)庫中提取相同數(shù)量的非謠言網(wǎng)絡(luò)信息。
[0067]具體的,找到非謠言網(wǎng)絡(luò)信息L項,重復(fù)1-3的步驟,對L項網(wǎng)絡(luò)信息分析并提取特征。
[0068]步驟102,用機器學習法建模,生成打分函數(shù)。。
[0069]具體的,包括:
[0070]步驟一,準備樣本特征,將獲得的謠言和非謠言樣本和樣本特征換成相應(yīng)機器學習分類方法的格式。
[0071]步驟二,用機器學習分類方法,對所述獲得的謠言和非謠言樣本進行多重驗證訓練建模,從而得到打分函數(shù)模型的參數(shù)。
[0072]具體的,所述用機器學習分類方法,包括支持向量機,神經(jīng)網(wǎng)絡(luò)中的一種或者多種。
[0073]步驟103,利用打分函數(shù)對網(wǎng)絡(luò)信息進行鑒定。
[0074]具體的,包括以下步驟:
[0075]對數(shù)據(jù)庫中任一個新的網(wǎng)絡(luò)信息,提取與傳播環(huán)境有關(guān)的特征,和與網(wǎng)絡(luò)信息本身相關(guān)的特征;
[0076]具體的,提取新的網(wǎng)絡(luò)信息中以下6個特征:
[0077]S:網(wǎng)絡(luò)信息的發(fā)布者。
[0078]T:網(wǎng)絡(luò)信息的傳播者,傳播了該網(wǎng)絡(luò)信息。
[0079]R:網(wǎng)絡(luò)信息的受眾。
[0080]1:網(wǎng)絡(luò)信息的重要性。
[0081 ] V:網(wǎng)絡(luò)信息的模糊性。
[0082]A:網(wǎng)絡(luò)信息M的反常性。
[0083]利用打分函數(shù)進行打分,具體的,打分函數(shù)是:
[0084]F (M) =pl*S+p2*T+p3*R+p4*I+p5*V+p6*A(El)[0085]由于經(jīng)過機器學習建模,函數(shù)(El)的參數(shù)pl,p2,p3…pi...,已經(jīng)計算得出。因此,可以得到打分函數(shù)的分數(shù)。從而根據(jù)分數(shù)鑒定所述網(wǎng)絡(luò)信息是否為謠言。
[0086]具體的,當所述分數(shù)高于一個高的預(yù)設(shè)值時,則鑒定此網(wǎng)絡(luò)信息為謠言,低于一個低的預(yù)設(shè)值時,則鑒定此網(wǎng)絡(luò)信息不是網(wǎng)絡(luò)謠言,當分數(shù)介于所述高的預(yù)設(shè)值和低的預(yù)設(shè)值之間時,則定義該網(wǎng)絡(luò)信息有很大可能是網(wǎng)絡(luò)謠言,需要更多信息進一步驗證。
[0087]優(yōu)選的,對網(wǎng)絡(luò)上傳播的信息進行打分,當分數(shù)高于某個閾值Fl時,則鑒定此網(wǎng)絡(luò)信息為謠言;低于某個閾值F2時,則鑒定此網(wǎng)絡(luò)信息不是網(wǎng)絡(luò)謠言;當分數(shù)介于Fl和F2之間時,則定義該網(wǎng)絡(luò)信息有很大可能是網(wǎng)絡(luò)謠言,需要更多信息進一步驗證。
[0088]基于相同的構(gòu)思,本發(fā)明實施例還提供一種鑒定網(wǎng)絡(luò)謠言的裝置,如圖2所示,該裝置包括:
[0089]數(shù)據(jù)庫201,用于存儲網(wǎng)絡(luò)信息。
[0090]特征提取模塊202,用于對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征。
[0091]建模模塊203,用于用機器學習法建模,生成打分函數(shù);
[0092]鑒定模塊204,用于利用打分函數(shù)對網(wǎng)絡(luò)信息進行預(yù)測。
[0093]本發(fā)明實施例通過提供對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征,用機器學習法建模,生成打分函數(shù),再利用打分函數(shù)對網(wǎng)絡(luò)信息進行鑒定,可以每過一段時間對模型做出修正,并實現(xiàn)利用機器快速鑒定網(wǎng)絡(luò)謠言,從而為網(wǎng)絡(luò)管理者快速反應(yīng)提供重要的依據(jù)。
[0094]本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的模塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應(yīng)變化位于不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
[0095]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0096]以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視本發(fā)明的保護范圍。
【權(quán)利要求】
1.一種鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,包括以下步驟: A:對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征; B:用機器學習法建模,生成打分函數(shù); C:利用打分函數(shù)對網(wǎng)絡(luò)信息進行鑒定。
2.如權(quán)利要求1所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟A包括以下步驟: a:對數(shù)據(jù)庫中謠言的分類,將每個謠言歸為其中的一類; b:分析數(shù)據(jù)庫中每一類謠言和每一個網(wǎng)絡(luò)用戶,提取與傳播環(huán)境有關(guān)的特征;c:分析數(shù)據(jù)庫中的每一類謠言,提取與網(wǎng)絡(luò)信息本身相關(guān)的特征;d:從數(shù)據(jù)庫中提取相同數(shù)量的非謠言網(wǎng)絡(luò)信息,重復(fù)執(zhí)行所述步驟a至步驟C,對所述非謠言網(wǎng)絡(luò)信息進行分析并提取特征。
3.如權(quán)利要求2所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟b包括以下步驟: bl:根據(jù)用戶是否發(fā)布過謠言,將用戶標記為謠言發(fā)布者/非發(fā)布者,從而對網(wǎng)絡(luò)信息的發(fā)布者進行分析; b2:根據(jù)用戶是否傳播過謠言,將用戶標記為謠言傳播者/非傳播者,從而對網(wǎng)絡(luò)信息的傳播者進行分析; b3:根據(jù)用戶是否相信謠言,將用戶標記謠言受眾/非受眾,從而對網(wǎng)絡(luò)信息的受眾進行分析。
4.如權(quán)利要求2或3所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟c包括以下步驟: Cl:依據(jù)重要程度不同將謠言分類,通過統(tǒng)計分析數(shù)據(jù)庫中謠言的傳播速度,確定單位時間傳播次數(shù)的上限閾值和下限閾值,并根據(jù)謠言在單位時間內(nèi)的傳播次數(shù)是否超過或小于所述上限閾值或下限閾值,實現(xiàn)從傳播速度提取謠言的重要性分類特征和對謠言的重要性分析; c2:依據(jù)從社交網(wǎng)絡(luò)數(shù)據(jù)庫中提取和分析得到的模糊詞列表,和謠言中模糊詞出現(xiàn)的頻率,對謠言的模糊性分類,實現(xiàn)對謠言的模糊性分析; c3:將謠言自動隨機發(fā)送給網(wǎng)絡(luò)用戶,依據(jù)對反饋信息的分析,對謠言的的反常性分類,實現(xiàn)對謠言的反常度分析。
5.如權(quán)利要求1或4所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟B包括以下步驟: e:準備樣本特征,將獲得的謠言和非謠言樣本和樣本特征換成相應(yīng)機器學習分類方法的格式; f:用機器學習分類方法,對所述獲得的謠言和非謠言樣本進行多重驗證訓練建模,從而得到打分函數(shù)模型的參數(shù)。
6.如權(quán)利要求5所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟f包括以下步驟: fl:所述用機器學習分類方法,包括支持向量機,神經(jīng)網(wǎng)絡(luò)中的一種或者多種。
7.如權(quán)利要求5所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟C包括以下步驟: g:對數(shù)據(jù)庫中任一個新的網(wǎng)絡(luò)信息,提取特征; h:利用打分函數(shù)進行打分,根據(jù)分數(shù)鑒定所述網(wǎng)絡(luò)信息是否為謠言。
8.如權(quán)利要求7所述的鑒定網(wǎng)絡(luò)謠言的方法,其特征在于,所述步驟h包括以下步驟:當所述分數(shù)高于一個高的預(yù)設(shè)值時,則鑒定此網(wǎng)絡(luò)信息為謠言,低于一個低的預(yù)設(shè)值時,則鑒定此網(wǎng)絡(luò)信息不是網(wǎng)絡(luò)謠言,當分數(shù)介于所述高的預(yù)設(shè)值和低的預(yù)設(shè)值之間時,則定義該網(wǎng)絡(luò)信息有很大可能是網(wǎng)絡(luò)謠言,需要更多信息進一步驗證。
9.一種鑒定網(wǎng)絡(luò)謠言的裝置,其特征在于,包括: 數(shù)據(jù)庫,用于存儲網(wǎng)絡(luò)信息; 特征提取模塊,用于對數(shù)據(jù)庫中的網(wǎng)絡(luò)信息進行分析并提取特征; 建模模塊,用于用機器學習法建模,生成打分函數(shù); 鑒定模塊,用 于利用打分函數(shù)對網(wǎng)絡(luò)信息進行預(yù)測。
【文檔編號】G06F17/30GK103902621SQ201210586904
【公開日】2014年7月2日 申請日期:2012年12月28日 優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】魏彥杰, 張帆, 張慧玲, 彭豐斌, 孟金濤, 魏丹 申請人:深圳先進技術(shù)研究院