一種社交網(wǎng)用戶異常行為的分析方法
【專利摘要】一種社交網(wǎng)用戶異常行為的分析方法,可用于分析社交網(wǎng)站中存在的包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡“灌水”、騙取社交好友錢財?shù)犬惓J录?。該方法基于網(wǎng)絡爬蟲技術(shù)獲取用戶行為數(shù)據(jù),采用用戶行為分析技術(shù)對這些數(shù)據(jù)進行分析和檢測,當檢測到異常時發(fā)出告警,分為三個功能單元——數(shù)據(jù)獲取、分析檢測和異常報警,每個單元完成方法的一個功能。數(shù)據(jù)獲取單元采用網(wǎng)絡爬蟲技術(shù)獲取用戶行為數(shù)據(jù);分析檢測單元采用用戶行為分析技術(shù)對獲取到的用戶行為數(shù)據(jù)進行分析和檢測;異常報警單元當檢測到異常時發(fā)出告警短信。本發(fā)明能夠方便、靈活、智能地檢測社交網(wǎng)中廣泛存在的異常事件,社交網(wǎng)提供商可利用本發(fā)明及時發(fā)現(xiàn)惡意用戶,減少網(wǎng)民損失。
【專利說明】一種社交網(wǎng)用戶異常行為的分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種社交網(wǎng)用戶異常行為的分析方法,用于檢測社交網(wǎng)站中發(fā)布惡意鏈接、垃圾廣告、詐騙消息等的用戶異常行為,屬于網(wǎng)絡安全檢測【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]CNNIC統(tǒng)計數(shù)據(jù)顯示,2013年我國微博用戶數(shù)量達到5.36億,此外,使用人人網(wǎng)的用戶數(shù)量也達到了 2.8億之多。由于社交網(wǎng)絡中不可或缺的重要實體(即海量用戶)的存在,促使著商務類和個人類社交不斷發(fā)展,而伴隨著網(wǎng)絡社交的蓬勃發(fā)展,各種信息資源也在社交的過程中不斷地交流和傳播,并且由于這些信息不僅可能包含用戶的隱私信息,而且可能會是某些公司的商業(yè)機密,因而其信息價值越來越被認可。伴隨著微博、人人等社交應用的蓬勃興起,基于社交網(wǎng)絡的安全問題也越來越突出,例如,近年來利用社交網(wǎng)絡實施的釣魚欺詐行為數(shù)量正急劇增加。
[0003]社交網(wǎng)好友關(guān)系間的信任和認可,是不法分子實施惡意活動的出發(fā)點,而這也是社交網(wǎng)絡產(chǎn)生安全問題的根源。不法分子通過盜取用戶帳號來實施竊取用戶信息、誘騙廣告點擊、借錢欺詐等非法活動。近年來,許多安全公司給出的報告里都表明,有1/4左右的借錢欺詐、虛擬抽獎等網(wǎng)絡釣魚的惡意活動是通過社交網(wǎng)絡傳播的,并且這些安全公司的分析預測也稱,全方位改善社交安全將成為網(wǎng)絡安全新課題。
【發(fā)明內(nèi)容】
[0004]鑒于此,本發(fā)明的目標是針對社交網(wǎng)絡正常帳號被盜后發(fā)布詐騙、釣魚、垃圾信息等惡意消息這類異常事件,提出一種異常事件檢測方法,此方法基于網(wǎng)絡爬蟲技術(shù)爬取用戶行為數(shù)據(jù),基于用戶行為分析技術(shù)和數(shù)學建模思想進行行為建模和分析檢測,當檢測到異常賬戶時發(fā)出短信告警,可為社交網(wǎng)提供者提供異常用戶列表,從而大大減少網(wǎng)絡詐騙、釣魚和垃圾信息對網(wǎng)民的危害,同時該方法作為Web安全檢測的一部分,對研究Web環(huán)境下的安全問題也具有一定的參考價值和指導意義。
[0005]本發(fā)明提出的社交網(wǎng)異常事件檢測方法基于網(wǎng)絡爬蟲技術(shù)和Web解析技術(shù)獲取用戶在社交網(wǎng)中發(fā)布的消息數(shù)據(jù),然后對這些數(shù)據(jù)進行用戶行為分析,從而檢測出異常用戶,并進行告警。使用本方法可以檢測目標社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件,包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡“灌水”、騙取社交好友錢財?shù)鹊?。本發(fā)明主要由三個主要功能單元組成,即數(shù)據(jù)獲取單元、分析檢測單元和異常報警單元。
[0006]所述的數(shù)據(jù)獲取單元的功能特點如下:
[0007]獲得目標檢測社交網(wǎng)的操作權(quán)限,通過網(wǎng)絡爬蟲技術(shù)來完成對用戶消息數(shù)據(jù)(發(fā)布狀態(tài)、日志、照片、分享、評論等信息)的抓取,對抓取下來的數(shù)據(jù)解析后按用戶進行分類并存入文件,這些文件就是分析檢測單元的輸入。
[0008]本單元主要包括用戶登錄、數(shù)據(jù)抓取、數(shù)據(jù)解析和數(shù)據(jù)輸出四個子單元。
[0009]所述的用戶登錄子單元的功能特點如下:[0010]創(chuàng)建一個Singleton Connector 類,使用 DefaultHttpClient、HttpGet 和HttpPosttjHttpGet用來獲取人人網(wǎng)入口 URL,HttpPost中設定人人網(wǎng)登錄URL,同時設定登錄用戶的基本信息(包括用戶名、密碼、人人網(wǎng)域名等,這些參數(shù)信息可從配置單元取到)。然后執(zhí)行1ginO方法,如果進入到了登錄后的頁面,就表明已成功登錄,然后將用戶憑據(jù)信息作為Cookie保存下來,以便下次抓取時使用。
[0011]所述的數(shù)據(jù)抓取子單元的功能特點如下:
[0012]實現(xiàn)ICrawler 接口和 IParser 接口,其中 IParser 接 口繼承 HtmlParser。該單兀主要包括 CrawlFeeds 類、CrawlTimelineFeed 類、FilterOpenUser 類和 FeedController類。其中FeedContiOller類嚴格意義上不屬于數(shù)據(jù)抓取單元,因為它用來控制數(shù)據(jù)抓取和數(shù)據(jù)輸出存儲。用戶登錄后,首先FilterOpenUser從登錄的用戶節(jié)點開始獲取每一個待抓用戶所有相關(guān)的URL。如果該待抓用戶是登錄用戶的好友,則可以直接爬?。蝗绻皇呛糜训脑?,有的信息需要加了好友后才能查看,通過這樣的方式得到所有可查看的userid列表。然后 FeedController 以 FilterOpenUser 得到的 userid 列表為輸入,調(diào)用 CrawlFeeds或CrawlTimelineFeed進行爬取。在抓取的時候,采用定時器的增量式抓取方法。定時器的方法通過設定具體的時間間隔進行抓取。具體的時間間隔由配置單元設定。爬取時就是按照userid進行分別爬取。
[0013]所述的數(shù)據(jù)解析子單元的功能特點如下:
[0014]對爬取頁面進行解析,然后將爬取子單元按userid爬取到的所有數(shù)據(jù)再按照狀態(tài)、日志、分享的鏈接等進行分類,并提取出這些信息的發(fā)布時間、具體內(nèi)容等信息,還要對消息的具體內(nèi)容即html文本進行解析。該子單元主要是FeedFilter類和HtmlParser類。其中HtmlParser是一個成熟的程序庫,它是一個基于Java代碼的HTML解析類庫,它不依賴于其他的Java庫,主要用于改造和提取HTML,并能夠高速、準確地解析HTML。該單元利用HtmlParser提取出消息的文本內(nèi)容。HtmlParser通過Node、AbstractNode和Tag重新定義HTML的信息。在程序中,通過定義NodeFilter對象對html中提供文本輸入的標簽進行過濾,可以方便地找到消息文本的內(nèi)容。
[0015]所述的數(shù)據(jù)輸出子單元的功能特點如下:
[0016]通過爬蟲得到的數(shù)據(jù)結(jié)果以用userid命名的文件輸出,存儲在文件中的數(shù)據(jù)內(nèi)容格式為數(shù)據(jù)ID、數(shù)據(jù)類型、內(nèi)容、內(nèi)容語言、發(fā)布時間。
[0017]所述的分析檢測單元的功能特點如下:
[0018]以數(shù)據(jù)獲取單元得到的結(jié)果為輸入,對其進行預處理,并在分析檢測方法中提出了 7個用戶行為特征,對這7個特征分別進行建模,對用戶所有的歷史數(shù)據(jù)根據(jù)這個7個特征模型建模,得到用戶的行為輪廓。對歷史數(shù)據(jù)的最后一個時間點之后的數(shù)據(jù),先按照7個行為特征進行分類,然后對每個行為特征得到一個異常得分,最后將7個異常得分進行計算得到總的異常得分,從而判斷該用戶是否異常。
[0019]本單元采用的分析檢測方法包括用戶行為建模,用戶消息的相似度分析,如何對消息的異常得分進行計算,以及如何最終檢測異常事件四個方面。
[0020]所述的用戶行為建模的功能特點如下:
[0021]用戶行為輪廓是通過用戶在社交網(wǎng)絡上的歷史行為得到的,它可以用來預期該用戶在將來的正常行為。為了建立用戶的行為輪廓,即用戶行為建模,就需要該用戶發(fā)布在社交網(wǎng)站上的消息流,而這些消息流正是數(shù)據(jù)獲取單元得到的結(jié)果。所以可以使用數(shù)據(jù)獲取單元得到的結(jié)果進行行為輪廓的建立。
[0022]針對社交網(wǎng)絡的特點和檢測的需要,對于每條消息,本單元設定了 7個特征,對于每個特征訓練一個統(tǒng)計模型。其中的每個模型都反應了該條消息某方面的特性,對某個用戶的所有消息分析完之后,就可以得到該用戶在這7個方面的特征值,就可以預期該用戶發(fā)送的消息應該是怎樣的。下面對每條消息的7個特征模型進行詳細介紹。
[0023]1、消息發(fā)送的時間(hour/day)。這個特征模型用來捕獲一個帳號在一天中的哪些時間是活躍的。許多用戶在一天中的確定時間段是不活躍的,例如午飯時間、或者睡眠時間。通過用戶的消息流中用戶發(fā)布消息的時間,可以判定出哪些是非活躍時間,那么發(fā)布在非活躍時間的消息就被認為是異常的。
[0024]2、消息源。發(fā)布消息的應用程序。大多數(shù)社交網(wǎng)站提供傳統(tǒng)網(wǎng)絡和移動網(wǎng)絡接入給他們的用戶,以及用于移動平臺的應用程序例如iOS和Android。許多社交網(wǎng)絡提供多種由第三方開發(fā)者獨立創(chuàng)建的應用程序。當然,在默認情況下,第三方應用程序不能發(fā)消息到用戶的帳戶。然而,如果一個用戶選擇這種方式發(fā)送,他可以授予這種特權(quán)給這個應用,這就使該第三方應用在沒有用戶憑據(jù)的情況下能夠訪問用戶的個人資料。事實上,根據(jù)相關(guān)評估顯示,第三方應用程序經(jīng)常被用來發(fā)送惡意消息。
[0025]該模型用來確定用戶是否以前常使用特定應用程序,或者反過來說,這是否是第一次使用某種應用程序來發(fā)送消息。每當用戶使用一個新的應用程序發(fā)布消息,這個變化可能表明,一個攻擊者已成功引誘受害者授權(quán)惡意應用程序訪問他的帳戶。
[0026]3、消息文本(語言)。用戶可以自由地使用任何語言發(fā)布消息。然而,事實上每個用戶只使用為數(shù)不多的語言種類來發(fā)布消息(通常,一個或兩個)。因此,特別是當這個模型特點(消息語言)是相對穩(wěn)定的,突然的語言變化則顯示用戶行為可疑。
[0027]要確定一個消息使用的語言,利用Iibtextcat庫。這個庫是一個執(zhí)行以n-gram為基礎的文本分類算法的開源庫。
[0028]4、消息話題。用戶發(fā)布的消息往往包含許多喋喋不休或世俗的信息。但是,很多用戶有一組他們經(jīng)常談論的話題,比如最喜歡的運動隊,樂隊,或電視節(jié)目。當用戶發(fā)布的消息通常集中在幾個話題中,然后突然發(fā)布一些不同和無關(guān)的話題,這個新的消息應該被評為異常。
[0029]一般,從沒有上下文的短的文本片段,推斷消息的話題是困難的。然而,社交網(wǎng)絡平臺允許用戶標記消息,明確指定他們的消息是哪個話題的。當在有標簽的情況下,它們提供了有價值的信息來源。一個眾所周知的例子的消息標記機制是人人網(wǎng)、微博的話題標簽,通常使用“ 兩個“ # ”號中間的為話題。
[0030]5、消息中的鏈接。通常情況下,發(fā)布在社交網(wǎng)站的消息包含指向其他資源的鏈接,如博客,圖片,視頻或新聞文章。從社交網(wǎng)出現(xiàn)到現(xiàn)在,消息中的鏈接都廣泛存在著,因而以前更多的關(guān)于社交網(wǎng)的安全研究工作都集中在對URL的分析,并把它作為確定消息是否為惡意的唯一的因素。論文也把消息中的URL作為用戶行為輪廓的一部分,但只是作為一個單一的特征模型。另外,確立該行為模型特征主要是用來捕捉用戶的正常活動。也就是說,本檢測方法不試圖檢測一個URL本身是否是惡意的,而是去檢測該用戶正常情況下會否發(fā)送這樣的URL。[0031]為了確定在消息中出現(xiàn)的鏈接,本方法只利用鏈接中URL的域名。其原因在于用戶可能會經(jīng)常引用在同一個域名中的內(nèi)容。例如,許多用戶往往看特定的新聞網(wǎng)站和博客,并經(jīng)常鏈接到在那里的有趣文章。惡意鏈接,另一方面,指向的是不合法的網(wǎng)站。因此,鏈接信息包含過去沒有出現(xiàn)過的域名時則表示了一種變化。該行為模型還考慮了消息中包含鏈接的頻率,以及用戶鏈接到特定網(wǎng)站的一致性。
[0032]6、用戶間交互。社交網(wǎng)絡提供單個用戶間直接進行交互的機制。最常見的方式是通過直接發(fā)送消息到接收者。不同的社交網(wǎng)絡有不同的機制。隨著時間的推移,一個用戶在社交網(wǎng)絡就建立了一個與其他用戶互動的歷史記錄。通過社交網(wǎng)的這個特性就可以捕獲一個用戶的歷史交互記錄。事實上,它跟蹤用戶帳戶所有發(fā)生過的交互。發(fā)送消息的目的是為了得到接收者的注意,因此這種用戶間的直接交互方式常被用來發(fā)送垃圾消息。
[0033]7、鄰近的地理位置。在許多情況下,用戶在社交網(wǎng)絡中的朋友就是在現(xiàn)實中與他們親近的其他用戶。例如,一個人人網(wǎng)的用戶將有很多住在同一個城市,上同一所學校,或者工作在相同的公司的朋友。如果該用戶突然開始與生活在另一個大陸的人交往,這可能是可疑的。該特征用于捕捉消息是當?shù)氐倪€是非本地的。
[0034]對于用戶的每條消息按上述7個特征模型進行建模,然后對其進行模型訓練和評估。
[0035]所述的模型訓練的功能特點如下:
[0036]模型訓練的輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個消息,提取上述7個特征,例如發(fā)送消息的源程序和消息中包含的鏈接。
[0037]每一個特征模型用集合M來表示。M的每個元素是一個鍵值對元組<fv,C〉。fv是特征值(例如,英語的語言模型,或者鏈接模型examp I e.com )。c表示fv值出現(xiàn)的消息個數(shù)。此外,每個模型都存儲訓練消息的總數(shù)N。
`[0038]將訓練模型分為兩類:
[0039](I)必要模型是對于每一個消息都有一個特征值,并且這個特征值總是出現(xiàn)的模型。默認模型包括消息發(fā)送的時間,消息源,鄰近的地理位置和消息語言。
[0040](2)可選模型是指對于一個消息來說,該模型不一定總需要有值。同時,不同于必要模型的是,對于一個消息來說,這個模型可以對應多個值??蛇x模型,包括鏈接,用戶間交互和主題。例如,一個消息可能有O個,一個或者多個鏈接。對于每個可選模型,我們保留一個fV=null,并把這個特征值的“c”值提出(例如,沒有鏈接的消息數(shù))。
[0041]對于消息發(fā)送時間這個特征模型的訓練稍有不同。基于前面的描述,系統(tǒng)首先提取消息發(fā)送于幾點。然后,它將存儲每個小時的fv,以及在這一小時被發(fā)布的消息數(shù)。這樣就會有一個問題,就是時間段可能是不連續(xù)的,是離散的。因此,在用戶的正常時間附近的時間點發(fā)送的消息就可能會被錯誤地認為是異常。
[0042]為了避免這個問題,在對時間模型訓練之后調(diào)整步驟。具體來說就是,對于每個小時i,考慮與它相鄰的兩個小時。即,對于M的每個鍵值對〈i,Ci>,一個新的計算變量C’ i用來計算第i個小時Ci發(fā)布消息的平均數(shù),變量Cg用來存儲之前那個小時發(fā)送的消息數(shù),Ci+!用戶存儲第i小時之后的那個小時發(fā)送的消息數(shù)。當計算出C’i,就用它來代替鍵值對〈i,Ci> 中的 Ci。
[0043]所述的模型評估的功能特點如下:[0044]模型的評估,即計算7個行為特征模型的異常得分,并最終將這個7個值采用一定的算法整合為一個值,即該條消息的異常得分。
[0045]> 7個特征模型異常得分的計算:
[0046]在一般情況下,當一個消息的必要模型中的特征值沒有出現(xiàn)在用戶的信息流中,或者特征值出現(xiàn)的次數(shù)與M中的鍵值對不匹配,那么這個消息就是異常的。
[0047]對于必要模型的特征模型,消息的異常得分是通過如下方式計算的:
[0048]1、首先要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個元素的鍵值對,那么就可以從M中提取整個鍵值對。如果M中不存在以fv為第一個值的鍵值對,那么這個消息就是異常的,那么程序在這里就會返回異常得分I。
[0049]2、第二步,根據(jù)用戶的行為輪廓分析fv是否是異常的。c和M進行比較,基于公式:
【權(quán)利要求】
1.一種社交網(wǎng)用戶異常行為的分析方法,可以檢測目標社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件,包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡“灌水”、騙取社交好友錢財?shù)鹊?。其特征在于,基于網(wǎng)絡爬蟲技術(shù)獲取用戶行為數(shù)據(jù),將這些數(shù)據(jù)作為用戶行為分析的基礎,對用戶發(fā)布的消息進行建模和訓練,提取出用戶的行為輪廓,根據(jù)用戶的行為輪廓評估新消息是否異常,當檢測到異常事件時發(fā)出告警。 該方法主要由三個功能單元組成,即數(shù)據(jù)獲取、分析檢測和異常報警,其中: 數(shù)據(jù)獲取,旨在獲取到社交網(wǎng)中用戶的Deep Web數(shù)據(jù),即用戶發(fā)布和分享的狀態(tài)、日志,鏈接等數(shù)據(jù),這些數(shù)據(jù)需要采用網(wǎng)絡爬蟲方法對社交網(wǎng)絡進行深層網(wǎng)絡爬蟲,即基于在目標檢測社交網(wǎng)站注冊的有效登錄用戶帳號,采用該帳號登錄目標檢測網(wǎng)站從而獲取網(wǎng)站授權(quán),爬取出用戶的Deep Web數(shù)據(jù)。 分析檢測,根據(jù)數(shù)據(jù)獲取單元得到的用戶數(shù)據(jù)建立用戶行為模型,并對其進行訓練和評估,然后對每個用戶的行為數(shù)據(jù)進行基于內(nèi)容的相似度分類,最后根據(jù)特定算法進行異常檢測。 異常報警,當檢測到異常用戶時發(fā)生報警,提供短信發(fā)送和報警查詢功能。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)獲取功能單元,其特征在于:獲取該方法的分析基礎——社交網(wǎng)用戶數(shù)據(jù),首先需要取得目標檢測社交網(wǎng)站的身份授權(quán),然后采用網(wǎng)絡爬蟲技術(shù)獲得從登錄節(jié)點起始的所有具有查看權(quán)限的用戶種子集,針對該種子集可采用時間軸數(shù)據(jù)進行種子集中所有用戶數(shù)據(jù)的抓取,從爬取到的結(jié)果集中按照userid,userid即用戶唯一 ID號,再進行分析,獲得該userid對應的用戶的所有新鮮事,可提取出該userid發(fā)布和分享的所有狀態(tài)、日志、鏈接等數(shù)據(jù)信息,然后對這些數(shù)據(jù)信息進行HTML文本解析和語言解析,解析后用以userid命名的文件形式輸出,文件內(nèi)容包括數(shù)據(jù)Id、發(fā)布時間、數(shù)據(jù)類型、內(nèi)容、語言類型、是否包含鏈接、鏈接地址等。
3.根據(jù)權(quán)利要求1所·述的分析檢測單元中用戶行為建模方法,其特征在于:通過用戶發(fā)布在社交網(wǎng)站上的消息流建立用戶的行為輪廓,而這些消息流正是數(shù)據(jù)獲取單元得到的輸出。 針對社交網(wǎng)絡的特點和檢測的需要,對于每條消息,本單元設定7個特征,針對每個特征訓練一個統(tǒng)計模型。每個模型都反應該條消息某方面的特性,在對某用戶的所有消息分析完之后,可以得到該用戶在此7個方面的特征值,從而可預期該用戶發(fā)送的消息內(nèi)容。
4.根據(jù)權(quán)利要求3所述7種特征,其特征在于:7種特征對應每條消息的7個特征模型,分別為消息發(fā)送的時間(hour/day)、發(fā)布消息的應用程序、語言類型、話題、鏈接、用戶間交互和地理位置,并將此7種特征分為兩類: (1)必要模型是對于每一個消息都有一個特征值,并且這個特征值總是出現(xiàn)。默認特征包括消息發(fā)送的時間,消息源,鄰近的地理位置和消息語言。 (2)可選模型是指對于一個消息來說,該特征不一定總需要有值。同時,不同于必要模型的是,對于一個消息來說,這個特征可以對應多個值??蛇x模型,包括鏈接,用戶間交互和主題。例如,一個消息可能有O個,一個或者多個鏈接。對于每個可選模型,我們保留一個fv=null,并把這個特征值的“c”值提出(例如,沒有鏈接的消息數(shù))。fv指某特征值,c表示fv出現(xiàn)的消息個數(shù)。
5.根據(jù)權(quán)利要求1所述分析檢測單元中用戶行為模型的訓練和評估,其特征在于:對于模型的訓練: 輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個消息,提取上述7個特征,例如發(fā)送消息的源程序和消息中包含的鏈接。每一個特征模型用集合M來表示。M的每個元素是一個鍵值對元組<fV,c〉。fv是特征值(例如,英語的語言模型,或者鏈接模型example, com)。c表示fv值出現(xiàn)的消息個數(shù)。此外,每個模型都存儲訓練消息的總數(shù)N。 對于消息發(fā)送時間這個特征模型的訓練稍有不同。具體來說就是,對于每個小時i,考慮與它相鄰的兩個小時。即,對于M的每個鍵值對<i,CiX—個新的計算變量C%用來計算第i個小時Ci發(fā)布消息的平均數(shù),變量C^1用來存儲之前那個小時發(fā)送的消息數(shù),Cf1用戶存儲第i小時之后的那個小時發(fā)送的消息數(shù)。當計算出C’ i,就用它來代替鍵值對<i,Ci)中的C” 對于模型的評估: 即計算一條消息的異常得分,看這條消息是否不符合用戶的行為輪廓。 對于的特征模型,消息的異常得分是通過如下方式計算的: (1)首先必要模型要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個元素的鍵值對,那么就可以從M中提取整個鍵值對。如果M中不存在以fv為第一個值的鍵值對,那么這個消息就是異常的,那么程序在這里就會返回異常得分I。 (2)根據(jù)用戶的行為輪廓分析fv是否是異常的。c和巧進行比較,基于公式:
6.根據(jù)權(quán)利要求1所述分析檢測單元中基于內(nèi)容的相似度分類,其特征在于:所述分析檢測單元中基于內(nèi)容的相似度分類,帳號異常檢測需要進行基于內(nèi)容的相似度分析的原因是基于這樣一個事實:釣魚、詐騙等消息是需要大量傳播的。所以當只有一條消息被判定為異常時,并不認為其對應帳號發(fā)生異常,需要進一步觀察更多的其他類似消息,只有類似消息達到一定數(shù)量時,才認定發(fā)送這些消息的帳號為異常帳號。 內(nèi)容相似度的計算有兩種方法:一是文本內(nèi)容相似度;二是包含的URL相似度。
7.根據(jù)權(quán)利要求1所述分析檢測單元中異常檢測,其特征在于:主要檢測兩類異常:一是受侵害的可疑用戶群組;二是非受侵害的可疑用戶或應用。它們的不同之處在于:前者存在正常的用戶行為輪廓,之后發(fā)布了大量相似的消息;后者從頭到尾都在發(fā)布大量相似的消息。 數(shù)據(jù)獲取單元得到的是一定時間間隔的用戶數(shù)據(jù),因而在分析檢測單元中,基于內(nèi)容分類的消息也是在一定時間間隔內(nèi)的。這每個時間間隔內(nèi)的數(shù)據(jù)叫做一個分組。對于每個分組,本方法檢查所有用戶帳戶的消息是否違反了其用戶行為輪廓?;谶@樣的分析,就能檢測出一個賬戶是否是異常的。 異常帳號檢測的規(guī)則是:每個分組中只要有消息的個人行為模型異常評分超過一定閥值,就判定這個分組為異常消息組,則其中所有消息對應的帳號為異常帳號。閥值的計算方式為:
th (n) =max (0.1, kn+d) 其中η為分組數(shù)量,通過實驗得到當k=-0.005, d=0.82時結(jié)果最準確。由公式可知,分組規(guī)模小的異常消息判定閥值較高,分組規(guī)模大的閥值較低。
8.根據(jù)權(quán)利要求1所述的異常報警單元,其特征在于:所述報警單元提供報警提示和報警查詢兩種服務,并提供三種調(diào)用方式——Curl, Thrift和Json方式。其中,報警提示以發(fā)送短信的方式提供?!?br>
【文檔編號】G06F17/30GK103853841SQ201410101728
【公開日】2014年6月11日 申請日期:2014年3月19日 優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】閆丹鳳, 吳海莉, 徐佳 申請人:北京郵電大學