亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種從社交網(wǎng)絡抽取MSVL模型的方法與流程

文檔序號:12364400閱讀:687來源:國知局
一種從社交網(wǎng)絡抽取MSVL模型的方法與流程

本發(fā)明屬于系統(tǒng)形式化建模技術(shù)領(lǐng)域,尤其涉及一種從社交網(wǎng)絡抽取MSVL模型的方法。



背景技術(shù):

隨著計算機科學的不斷發(fā)展,全球化進程的不斷加深。人與人之間的聯(lián)系越來越緊密,而交往成本也在不斷變低。社交網(wǎng)絡(Social Network Service/Site,SNS)的出現(xiàn)就是這種時代潮流下的產(chǎn)物。SNS的產(chǎn)生拓寬了人們現(xiàn)有的交流模式,成為人們生活與工作不可缺少的一部分。典型的SNS有國外的Facebook、Twitter、YouTube、Linkedin等,國內(nèi)的微信、QQ空間、百度貼吧、人人網(wǎng)、新浪微博、優(yōu)酷網(wǎng)等。在社交網(wǎng)絡領(lǐng)域,關(guān)于社交網(wǎng)絡建模方面的研究有以下幾種方法:意大利學者提出了一種基于圖的建模方法來對SNS進行建模,主要方法是通過一些著名在線社交網(wǎng)絡平臺例如Facebook、Twitter、Google+和Diaspora的分析,抽象出社交網(wǎng)絡最主要的共有特性。用這些特性來表現(xiàn)各種現(xiàn)實世界的服務。作者把在線社交網(wǎng)絡平臺簡化為用戶和對象(包括文字信息,聲音,視頻等)以及關(guān)聯(lián)的集合。特點是其引入了基于圖的形式化定義,在圖中用戶和對象用結(jié)點表示,而用戶和用戶、用戶和對象以及對象之間的聯(lián)系用邊來表示,構(gòu)建的模型直觀,易懂。PrT(Predicate/Transition)網(wǎng)是一種適用于對社交網(wǎng)絡進行建模的高級Petri網(wǎng),有高效的可達分析。這種建模方法能夠嚴格地分析社交網(wǎng)絡活動,可用于建模和分析在社交網(wǎng)絡中的好友推薦功能。其特點是在傳統(tǒng)Petri網(wǎng)模型的基礎(chǔ)上引入動態(tài)通信通道,使得用戶之間可以通信,并能夠模塊化和封裝社交網(wǎng)絡中的每個實體。美國科羅拉多州立大學的學者提出了一種建模方法,主要方法是通過對典型OSN(Online Social Network)系統(tǒng)的分析,提取它們共有的特點,用以描述OSN中的各種實體和關(guān)系,這些不同的實體有:User,Subject,Group,Application,Object和Operation。任意一個實體和關(guān)系集有一個描述其屬性的集合,然后用形式化建模語言Alloy來對SNS進行建模。其特點是可以表達社交網(wǎng)絡模型的復雜結(jié)構(gòu)約束和行為。中國臺灣中央研究院的學者提出了一種基于拓撲的社交網(wǎng)絡模型,用于研究社交網(wǎng)絡的聚類系數(shù)。該模型是一種從拓撲角度建模的BA模型(Barabási-Albert Model,一種無標度網(wǎng)絡模型),可以把SNS用戶看作是一個個的節(jié)點,用戶間存在的關(guān)系看作邊。其特點是網(wǎng)絡規(guī)??蓴U展,節(jié)點采用優(yōu)先連接機制?,F(xiàn)有技術(shù)存在的問題是其建模過程是通過對典型社交網(wǎng)絡進行綜合分析后進行的,是以多個現(xiàn)有的典型社交網(wǎng)站共有特性為依據(jù)的;然而每個社交網(wǎng)站都有自己的特點,忽略了各個社交網(wǎng)站的特性。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于提供一種從社交網(wǎng)絡抽取MSVL模型的方法,旨在解決現(xiàn)有的社交網(wǎng)絡建模方法無法實現(xiàn)針對不同的社交網(wǎng)站的特點進行建模的問題。

本發(fā)明是這樣實現(xiàn)的,一種從社交網(wǎng)絡抽取MSVL模型的方法,所述從社交網(wǎng)絡抽取MSVL模型的方法包括:通過網(wǎng)絡爬蟲或現(xiàn)有SNS數(shù)據(jù)包來獲取感興趣的SNS系統(tǒng)的數(shù)據(jù)信息;將獲得的SNS系統(tǒng)信息進行分析,了解該社交網(wǎng)站的基本架構(gòu),還有其包含的主要數(shù)據(jù)結(jié)構(gòu)和方法,如用戶,內(nèi)容,轉(zhuǎn)發(fā)內(nèi)容,好友關(guān)系等。將其轉(zhuǎn)化為統(tǒng)一的XML格式,是將獲取的數(shù)據(jù)作為輸入,通過程序來分析輸入的數(shù)據(jù)將其轉(zhuǎn)化為對應的XML文件;將提取到的XML格式的SNS數(shù)據(jù)轉(zhuǎn)化成MSVL程序,通過識別XML文件中的標簽將其轉(zhuǎn)化為MSVL程序中對應的數(shù)據(jù)結(jié)構(gòu),其中若該標簽的結(jié)構(gòu)復雜,含有子標簽,那么其對應MSVL程序中的結(jié)構(gòu)體,若只是XML文件中的基本類型則對應MSVL程序中的基本數(shù)據(jù)結(jié)構(gòu)。用形式化建模語言MSVL實現(xiàn)對SNS系統(tǒng)的建模;在MSVL中用結(jié)構(gòu)體數(shù)據(jù)類型來描述系統(tǒng)中的用戶、用戶發(fā)布的內(nèi)容,用戶轉(zhuǎn)發(fā)的內(nèi)容,用戶所在位置,并采用鏈表表示用戶的好友列表。系統(tǒng)中的用戶用結(jié)構(gòu)體struct user表示;系統(tǒng)中用戶發(fā)布的內(nèi)容用結(jié)構(gòu)體struct content表示;系統(tǒng)中用戶轉(zhuǎn)發(fā)的內(nèi)容用結(jié)構(gòu)體struct re_content表示;系統(tǒng)中用戶的位置用結(jié)構(gòu)體struct location表示;系統(tǒng)中用戶的好友列表用結(jié)構(gòu)體struct fri表示。

進一步,所述將獲取的SNS數(shù)據(jù)轉(zhuǎn)化成XML文件,XML文件用XML Schema定成統(tǒng)一的格式;以XML文件作為中間層來連接SNS數(shù)據(jù)和形式化編程語言MSVL,進行SNS系統(tǒng)建模。采用XML文件作為中間層來連接SNS數(shù)據(jù)和形式化編程語言MSVL。

進一步,所述將轉(zhuǎn)化好的XML文件通過工具轉(zhuǎn)成化建MSVL程序,進行對社交網(wǎng)絡MSVL模型的抽取,在MSVL中用結(jié)構(gòu)體數(shù)據(jù)類型來描述系統(tǒng)中的用戶、用戶發(fā)布的內(nèi)容,用戶轉(zhuǎn)發(fā)的內(nèi)容,用戶所在位置,并采用鏈表表示用戶的好友列表。

本發(fā)明的另一目的在于提供一種應用從社交網(wǎng)絡抽取MSVL模型的方法的分析社交網(wǎng)絡中隱私策略的方法。

本發(fā)明的另一目的在于提供一種應用從社交網(wǎng)絡抽取MSVL模型的方法的分析社交網(wǎng)絡中安全的方法。

本發(fā)明提供的從社交網(wǎng)絡抽取MSVL模型的方法,對真實的SNS數(shù)據(jù)(網(wǎng)絡爬蟲獲取或現(xiàn)有SNS數(shù)據(jù)包)進行分析,提取,轉(zhuǎn)化為統(tǒng)一的XML格式,將XML文件當作中間層,屏蔽各種各樣SNS數(shù)據(jù)格式對轉(zhuǎn)化為形式化建模語言MSVL的影響因為網(wǎng)絡爬蟲和數(shù)據(jù)包獲取的數(shù)據(jù)格式多樣,倘若直接根據(jù)獲取的數(shù)據(jù)進行建模,那么對多個數(shù)據(jù)網(wǎng)站進行建模需要編寫多個該數(shù)據(jù)格式的文件到MSVL程序轉(zhuǎn)換的工具。本發(fā)明采用XML文件作為中間層來連接SNS數(shù)據(jù)和形式化編程語言MSVL。屏蔽了網(wǎng)絡爬蟲和數(shù)據(jù)包獲取的數(shù)據(jù)格式不一致對建模產(chǎn)生的影響,只需要開發(fā)一個從統(tǒng)一格式的XML文件到MSVL程序的轉(zhuǎn)換工具既可;將XML文件轉(zhuǎn)化為MSVL語言進行對社交網(wǎng)絡系統(tǒng)建模。其實現(xiàn)方法是使用了XML格式的數(shù)據(jù)文件作為中間層,用來屏蔽各種不同格式的SNS數(shù)據(jù)對轉(zhuǎn)換成形式化建模語言MSVL產(chǎn)生的影響,然后讓可以把感興趣的SNS系統(tǒng)數(shù)據(jù)轉(zhuǎn)換成MSVL語言,從而在社交網(wǎng)絡中抽取一個MSVL模型。在MSVL中用結(jié)構(gòu)體數(shù)據(jù)類型來描述系統(tǒng)中的用戶、用戶發(fā)布的內(nèi)容,用戶轉(zhuǎn)發(fā)的內(nèi)容,用戶所在位置,并采用鏈表表示用戶的好友列表。其技術(shù)效果是使得XML文件轉(zhuǎn)換為形式化建模語言MSVL,從而可以完成對社交網(wǎng)絡的建模過程。

附圖說明

圖1是本發(fā)明實施例提供的從社交網(wǎng)絡抽取MSVL模型的方法流程圖。

圖2是本發(fā)明實施例提供的實施例1的流程圖。

具體實施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

下面結(jié)合附圖對本發(fā)明的應用原理作詳細的步描述。

如圖1所示,本發(fā)明實施例的從社交網(wǎng)絡抽取MSVL模型的方法包括以下步驟:

S101:通過網(wǎng)絡爬蟲或現(xiàn)有SNS數(shù)據(jù)包來獲取感興趣的SNS系統(tǒng)的數(shù)據(jù)信息;

S102:將獲得的SNS系統(tǒng)信息進行分析,提取感興趣的部分,轉(zhuǎn)化為統(tǒng)一的XML格式,以便下一步轉(zhuǎn)化成形式語言;

S103:將提取到的XML格式的SNS數(shù)據(jù)轉(zhuǎn)化成MSVL程序,實現(xiàn)對SNS的建模。

下面結(jié)合具體應用實施例對本發(fā)明的應用原理作進一步的描述。

本發(fā)明的實施例是以現(xiàn)有的的新浪微博數(shù)據(jù)包(關(guān)于用戶個人主頁部分)作為所獲取的SNS數(shù)據(jù)為例,對本發(fā)明作進一步的說明。

需要說明的是不管是通過網(wǎng)絡爬蟲還是已有的SNS數(shù)據(jù)包獲得的SNS數(shù)據(jù),其數(shù)據(jù)格式多種多樣,需要對其進行統(tǒng)一的格式處理,將SNS數(shù)據(jù)轉(zhuǎn)為XML格式的文件。通過對獲得的SNS數(shù)據(jù)的分析,提取感興趣的數(shù)據(jù),例如新浪微博數(shù)據(jù)包中的用戶數(shù)據(jù)即對應轉(zhuǎn)化的XML文件中的user標簽,而用戶數(shù)據(jù)里面的信息,如用戶名,ID號等則對應XML文件中的user標簽下的子標簽:name標簽和id標簽。微博內(nèi)容則對應轉(zhuǎn)化的XML文件中的content標簽。微博內(nèi)容里面的信息如word,發(fā)布時間對應轉(zhuǎn)化的XML文件中的content標簽下的子標簽:word標簽和tweet_time標簽。根據(jù)上述方法將不同格式的SNS數(shù)據(jù)轉(zhuǎn)化為XML文件,為下一步轉(zhuǎn)化為形式化建模語言MSVL打下基礎(chǔ)。

需要說明的是在數(shù)據(jù)轉(zhuǎn)為XML格式時,定義了XML Schema用以驗證所有的SNS數(shù)據(jù)轉(zhuǎn)化成的XML是否格式一致。該程序的基本思想是先通過XML Schema來定義我們需要的XML文件格式,然后將獲取的SNS數(shù)據(jù)轉(zhuǎn)換成XML文件,將這兩者作為驗證XML文件是否符合XML Schema格式的程序的輸入,通過程序分析二者的標簽及結(jié)構(gòu),判斷SNS數(shù)據(jù)轉(zhuǎn)換的XML文件是否符合XML Schema格式。

這里定義的XML Schema格式如下:

接下來將已有的新浪微博部分SNS數(shù)據(jù)轉(zhuǎn)成的XML文件,并且該XML文件需符合上述定義的XML Schema格式,SNS數(shù)據(jù)轉(zhuǎn)成的XML文件示例如下:

而后通過工具將其轉(zhuǎn)化為MSVL,以便對SNS進行建模。

需要說明的是形式化建模語言MSVL中包含的數(shù)據(jù)類型和主要語句如下:

MSVL的基本數(shù)據(jù)類型有:

(1)整形:int

(2)浮點型:float

(3)字符型:char

(4)字符串型:string

(5)基本數(shù)據(jù)類型指針:int*/char*/float*/string*

(6)結(jié)構(gòu)體:struct

(7)結(jié)構(gòu)體指針:struct*。

MSVL的主要語句有:

(1)空語句:empty;

(2)基本賦值語句:x<==e,

(3)next語句:Ox;

(4)always語句:□x;

(5)投影語句:(s1,...,sm)prjs;

(6)順序語句:

(7)并行語句:

(8)條件語句:

(9)while語句:

(10)狀態(tài)框架語句:

(11)區(qū)間框架語句:

(12)Await語句:其中x1,...,xh是出現(xiàn)在b中的變量;

該工具的轉(zhuǎn)換過程如下:

第一步將XML文件導入轉(zhuǎn)換工具中,對XML文件中的user標簽進行識別,并判斷整個XML文件的user標簽數(shù)量;

其轉(zhuǎn)換規(guī)則是將user標簽轉(zhuǎn)換為MSVL中的結(jié)構(gòu)體數(shù)據(jù)類型user,根據(jù)user的數(shù)量,構(gòu)建存儲user結(jié)構(gòu)體類型的數(shù)組。在XML文件中的user標簽下的子標簽都是對應的MSVL里面user結(jié)構(gòu)體中的變量類型。

第二步識別user標簽下的子標簽,對id標簽,姓名標簽等最基本的XML標簽轉(zhuǎn)換為MSVL中的基本數(shù)據(jù)類型。

其轉(zhuǎn)換規(guī)則是所有的基本標簽都對應MSVL中的基本數(shù)據(jù)類型,如id標簽對應MSVL中的基本數(shù)據(jù)類型String,name標簽對應MSVL中的基本數(shù)據(jù)類型String。

第三步識別user標簽下的復合標簽,即含有子標簽的標簽,如location,content,re_content,friend等。其中content,re_content,friend等復合標簽可重復出現(xiàn),因此要統(tǒng)計這些符合標簽出現(xiàn)的數(shù)量。

其轉(zhuǎn)換規(guī)則是復合標簽對應的是MSVL中的結(jié)構(gòu)體數(shù)據(jù)類型,如content標簽對應MSVL中的content結(jié)構(gòu)體,re_content標簽對應MSVL中的re_content結(jié)構(gòu)體,friend標簽對應MSVL中的fri鏈表。多次出現(xiàn)的復合標簽分別對應MSVL中的數(shù)組。如含有多個content標簽,則對應MSVL中存放content類型結(jié)構(gòu)體的數(shù)組。

第四步識別復合標簽下的子標簽,如content標簽下的子標簽word標簽,tweet_time標簽。

其轉(zhuǎn)換規(guī)則是子標簽即為該復合標簽對應的結(jié)構(gòu)體中的變量類型。如content標簽的子標簽word標簽對應MSVL中的string數(shù)據(jù)類型。其分析方法和對user標簽的分析方法是相同的,自頂向下,不斷識別標簽,轉(zhuǎn)換為MSVL中對應的數(shù)據(jù)結(jié)構(gòu)類型。重復上述步驟。并用MSVL基本語句來描述整個SNS系統(tǒng)。

第五步對MSVL中的user用戶進行初始化。

其轉(zhuǎn)換規(guī)則是將XML文件中各個標簽的內(nèi)容賦給MSVL對應數(shù)據(jù)結(jié)構(gòu)的變量,從而實現(xiàn)對MSVL中數(shù)據(jù)的初始化。

轉(zhuǎn)化成的MSVL程序如下:

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1