基于相機(jī)指紋特征的社交網(wǎng)絡(luò)用戶的識(shí)別方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)識(shí)別領(lǐng)域。尤其涉及一種基于相機(jī)指紋特征的社交網(wǎng)絡(luò)用戶的識(shí)別方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)和電子技術(shù)的發(fā)展,社交媒體已經(jīng)成為了當(dāng)今社會(huì)主要的社交方式,人們通過各種社交媒體平臺(tái)來分享各種形式的信息。然而由于各種原因,同一個(gè)人往往會(huì)擁有多個(gè)在線社交賬戶,而這些賬戶分布在一個(gè)或數(shù)個(gè)社交網(wǎng)站之上。從一方面來說,這種現(xiàn)象極大的豐富了互聯(lián)網(wǎng)的多媒體信息資源,但是從另一方面來說,這種現(xiàn)象也產(chǎn)生大量的冗余信息。雖然這種冗余對(duì)互聯(lián)網(wǎng)的發(fā)展造成了諸多不便,但是也為數(shù)據(jù)的統(tǒng)一提供了可能。通常來說,屬于同一個(gè)自然人的多個(gè)網(wǎng)絡(luò)賬戶應(yīng)當(dāng)具有一些相似的行為模式,例如人們會(huì)更傾向于瀏覽、發(fā)布自己所感興趣的內(nèi)容,或是通過一些網(wǎng)站所提供的定位服務(wù)來體現(xiàn)相近的地理位置信息,又或是具有相近的人際關(guān)系網(wǎng)絡(luò)等;而這些行為模式可以用來判斷兩個(gè)賬戶是否屬于相同的人,進(jìn)而將網(wǎng)絡(luò)用戶與真實(shí)世界的人所聯(lián)系起來。
[0003]從信息安全的角度來說,網(wǎng)絡(luò)中多媒體信息魚龍混雜,難免存在一些諸如暴力、恐怖、犯罪等違法的多媒體信息,而發(fā)布該類信息的網(wǎng)絡(luò)用戶會(huì)可以掩蓋自己的個(gè)人資料,從而導(dǎo)致難以追蹤用戶的實(shí)際擁有者。如果能根據(jù)發(fā)布該類信息的賬號(hào)的行為模式尋找到屬于發(fā)布人的多個(gè)網(wǎng)絡(luò)賬戶,并將多個(gè)賬戶的信息進(jìn)行融合,就可以得到較為完整的發(fā)布人信息,從而將網(wǎng)絡(luò)賬戶與實(shí)際個(gè)體聯(lián)系起來,進(jìn)而追蹤到發(fā)布該類信息的實(shí)際擁有者。
[0004]從網(wǎng)絡(luò)服務(wù)的角度來說,對(duì)于屬于同一個(gè)個(gè)體的多個(gè)賬戶,網(wǎng)絡(luò)服務(wù)提供商可以融合多個(gè)賬戶的信息從而得到賬戶擁有者更為全面的信息,進(jìn)而對(duì)用戶提供更為便捷的、定制化的網(wǎng)絡(luò)服務(wù),如按興趣點(diǎn)推送相關(guān)信息、避免廣告的重復(fù)推送等。
[0005]無論是從信息安全的角度還是網(wǎng)絡(luò)服務(wù)的角度,其核心問題是如何從單個(gè)用戶的碎片信息中得到有效的模式,從而精確的找出屬于同一個(gè)個(gè)體的所有用戶。由于單個(gè)用戶所表現(xiàn)出的模式是碎片化的,那么如何找到一種在所有用戶中都能得到體現(xiàn)的模式特征則是用戶識(shí)別問題面臨的主要挑戰(zhàn)。
[0006]最近幾年,用戶識(shí)別問題吸引了眾多研究機(jī)構(gòu)的目光,并且產(chǎn)生了大量的研究成果Ο
[0007]—般來說,目前典型的用戶識(shí)別的方法有以下幾種,首先是基于用戶資料的用戶識(shí)別。用戶的基本資料指的是可以直接獲取的用戶數(shù)據(jù),包括用戶名、注冊(cè)郵箱、個(gè)人資料、IP地址、地理信息等。在很多情況下,人們更傾向于使用相同的用戶名、郵箱等資料注冊(cè)新的網(wǎng)絡(luò)用戶,同時(shí),屬于同一個(gè)個(gè)體的多個(gè)網(wǎng)絡(luò)用戶應(yīng)當(dāng)具有相對(duì)固定的IP地址、地理坐標(biāo)等模式特征,那么如果用戶間存在相同的基本資料,進(jìn)而可以判斷這些用戶屬于同一個(gè)個(gè)體。該類方法具有較高的計(jì)算效率,但是其中一個(gè)明顯不足就是該類特征較為容易被篡改,特別是在互聯(lián)網(wǎng)迅猛發(fā)展的今天,人們可以輕易的申請(qǐng)一個(gè)新的郵箱,或是改變IP地址和地理信息。如果人們出于各種原因而沒有使用相同的模式來注冊(cè)新的網(wǎng)絡(luò)用戶,那么該類方法就會(huì)產(chǎn)生較大的誤差甚至失效。
[0008]另一種用戶識(shí)別方法是基于用戶文本的模式特征。在在線的社交網(wǎng)絡(luò)中,人們通過博文、微博等文本形式來實(shí)現(xiàn)與他人的互動(dòng),而在用戶所發(fā)布的內(nèi)容中隱含了大量的個(gè)人習(xí)慣。比如,每個(gè)人都具有特定的用詞習(xí)慣,或語氣風(fēng)格等。一種典型的方法就是對(duì)用戶文本的用詞、語序等特征進(jìn)行分析,從而得到一種表示文本風(fēng)格的模式特征,進(jìn)而通過比較該特征來判斷用戶是否屬于同一個(gè)個(gè)體。顯然,大多數(shù)的用戶在創(chuàng)作文本內(nèi)容時(shí)會(huì)不自覺的使用較為習(xí)慣的語言表述方式,但對(duì)于一些刻意改變文本創(chuàng)作習(xí)慣的惡意用戶來說,該類方法有很大的可能失效。此外,提取用戶文本的特征模式往往需要大量的文本數(shù)據(jù)進(jìn)行訓(xùn)練,而如今的新興媒體如微博、Twitter等消息類社交網(wǎng)絡(luò)平臺(tái)也很難能提供足夠的訓(xùn)練樣本。
[0009]—種可能的解決方法是利用相機(jī)指紋來實(shí)現(xiàn)多個(gè)用戶的識(shí)別。相機(jī)指紋,也被稱為PRNU (光響應(yīng)非一致噪聲,Photo-Respond Non-Uniformity noise),主要由數(shù)碼圖像米集設(shè)備的感光敏感性的差異造成,是一種與相機(jī)唯一對(duì)應(yīng)的數(shù)字特征。數(shù)碼相機(jī)的感光部件是由數(shù)個(gè)硅晶片組成的陣列,每個(gè)硅晶片根據(jù)接受到的光子數(shù)量產(chǎn)生相應(yīng)的電壓,并經(jīng)過A/D轉(zhuǎn)換得到對(duì)應(yīng)位置的像素值。然而每一個(gè)硅晶片的感光敏感性略有不同,那么由感光陣列得到的圖像也與真實(shí)的場景存在微小的誤差,而該誤差即被稱為PRNU。顯然,圖像的PRNU特征與相機(jī)唯一對(duì)應(yīng),即不同相機(jī)拍攝的圖像具有不同的PRNU,因此也成PRNU為相機(jī)指紋。在用戶識(shí)別時(shí),如果能從用戶圖像中提取出相機(jī)指紋并進(jìn)行特征匹配,那么具有相同相機(jī)指紋特征的用戶則意味著共享同一部相機(jī),即這些用戶有很高的概率屬于同一個(gè)個(gè)體,進(jìn)而實(shí)現(xiàn)用戶識(shí)別。相比之前的用戶特征,相機(jī)指紋特征的一個(gè)巨大優(yōu)勢就在于其難以篡改和不可復(fù)制的特性,如果一個(gè)個(gè)體在不同的用戶中使用相同相機(jī)拍攝的圖像,那么無論其如何偽裝,總能通過相機(jī)指紋找尋到相關(guān)用戶,進(jìn)而實(shí)現(xiàn)可靠性更高的用戶識(shí)別。
[0010]然而,傳統(tǒng)的相機(jī)指紋識(shí)別方法多用于法庭舉證、圖像來源鑒別等方面,即檢測待識(shí)別圖像是否由目標(biāo)相機(jī)拍攝。主要步驟如下:
[0011 ] 由目標(biāo)相機(jī)拍攝數(shù)張圖像,并提取其PRNU特征,通過最大似然估計(jì)得到目標(biāo)相機(jī)的相機(jī)指紋。
[0012]提取待識(shí)別圖像的噪聲殘差,并計(jì)算目標(biāo)相機(jī)的相機(jī)指紋與該殘差的相關(guān)度,并根據(jù)相關(guān)系數(shù)來判斷待識(shí)別圖像是否由目標(biāo)相機(jī)拍攝得到。
[0013]顯然,這種方法并不完全適用于用戶識(shí)別。首先,用戶識(shí)別問題并非是判斷一張圖像是否由目標(biāo)相機(jī)拍攝,而是判斷一個(gè)用戶的數(shù)張圖像與另一個(gè)用戶的數(shù)張圖像是否由同一部相機(jī)拍攝;其次,由于用戶能夠提供的圖像都是來源未知的,且大多數(shù)用戶的圖像由多部相機(jī)拍攝得到,那么上述的方法就難以有效估計(jì)圖像的相機(jī)指紋。
[0014]因此,需要找到一種方法來解決這些問題。
【發(fā)明內(nèi)容】
[0015]本發(fā)明的實(shí)施例提供了一種基于相機(jī)指紋特征的社交網(wǎng)絡(luò)用戶的識(shí)別方法和系統(tǒng),能夠?qū)W(wǎng)絡(luò)用戶進(jìn)行識(shí)別。
[0016]—種基于相機(jī)指紋特征的社交網(wǎng)絡(luò)用戶的識(shí)別方法,包括:
[0017]獲取至少兩個(gè)網(wǎng)絡(luò)用戶的原始圖像;
[0018]提取各個(gè)所述網(wǎng)絡(luò)用戶的原始圖像的噪聲模式;
[0019]按照所述噪聲模式相互的相關(guān)度大小,對(duì)各個(gè)所述網(wǎng)絡(luò)用戶的原始圖像進(jìn)行聚類;
[0020]根據(jù)所述網(wǎng)絡(luò)用戶的聚類后的各類原始圖像的噪聲模式,估計(jì)得到所述各類原始圖像的相機(jī)指紋,并組合作為所述網(wǎng)絡(luò)用戶的相機(jī)指紋組;
[0021]根據(jù)兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋組,計(jì)算兩個(gè)所述網(wǎng)絡(luò)用戶之間的用戶相關(guān)度;
[0022]當(dāng)兩個(gè)所述網(wǎng)絡(luò)用戶之間的用戶相關(guān)度大于第一閾值時(shí),則確定為所述兩個(gè)網(wǎng)絡(luò)用戶共享至少一個(gè)相機(jī)。
[0023]根據(jù)兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋組,計(jì)算兩個(gè)所述網(wǎng)絡(luò)用戶之間的用戶相關(guān)度的步驟包括:
[0024]根據(jù)兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋組的峰值能量相關(guān)度,計(jì)算兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋之間的相關(guān)系數(shù);
[0025]選擇數(shù)值最大的所述相關(guān)系數(shù),作為兩個(gè)所述網(wǎng)絡(luò)用戶之間的用戶相關(guān)度。
[0026]所述根據(jù)兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋組,計(jì)算兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋特征之間的相關(guān)系數(shù)的步驟包括:
[0027]根據(jù)兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋組的峰值能量相關(guān)度,計(jì)算兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋特征之間的相關(guān)系數(shù);或者
[0028]根據(jù)兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋組的相關(guān)性,計(jì)算兩個(gè)所述網(wǎng)絡(luò)用戶的相機(jī)指紋特征之間的相關(guān)系數(shù)。
[0029]所述提取各個(gè)所述網(wǎng)絡(luò)用戶的原始圖像的噪聲模式的步驟包括:
[0030]步驟A1,對(duì)所述網(wǎng)絡(luò)用戶的原始圖像進(jìn)行去噪處理,得到無噪圖像;
[0031]步驟A2,將所述無噪圖像與所述原始圖像做差,得到所述原始圖像的噪聲殘差,將所述原始圖像的噪聲殘差作為所述原始圖像的噪聲模式。
[0032]所述提取各個(gè)所述網(wǎng)絡(luò)用戶的原始圖像的噪聲模式的步驟包括:
[0033]步驟A0,將所述網(wǎng)絡(luò)用戶的原始圖像處理成為相同大??;
[0034]步驟A1,對(duì)處理成相同大小的圖像進(jìn)行去噪處理,得到無噪圖像;
[0035]步驟A2,將所述無噪圖像與處理后的相同大小的所述圖像做差,得到所述原始圖像的噪聲殘差,將所述原始圖像的噪聲殘差作為所述原始圖像的噪聲模式。
[0036]所述按照所述噪聲模式相互的相關(guān)度大小,對(duì)各個(gè)所述網(wǎng)絡(luò)用戶的原始圖像進(jìn)行聚類的步驟包括:
[0037]步驟一,獲取所述網(wǎng)絡(luò)用戶的所有原始圖像,作為當(dāng)前原始圖像組;
[0038]步驟二,計(jì)算所述當(dāng)前原始圖像組中的所有原始圖像間的噪聲模式的兩兩相關(guān)度;
[0039]步驟三,選擇出相關(guān)度最大的一對(duì)原始圖像,將選擇出的所述一對(duì)圖像劃分到當(dāng)前類;根據(jù)所述當(dāng)前類中的所有原始圖像,估計(jì)所述當(dāng)前類的相機(jī)指紋特征;