一種基于sns的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)時(shí)代是信息膨脹的時(shí)代。科技的進(jìn)步,尤其是3G網(wǎng)絡(luò)的發(fā)展、智能手機(jī)的 普及,極大地提高了網(wǎng)民的互聯(lián)網(wǎng)參與度。伴隨著SNS(SocialNetworkSite,社交網(wǎng)站) 的興起,互聯(lián)網(wǎng)成為一種社會(huì)關(guān)系的載體?;诨ヂ?lián)網(wǎng)信息的社會(huì)關(guān)系挖掘已然成為一項(xiàng) 熱門課題。
[0003] 通過(guò)SNS網(wǎng)站可以知道某用戶是哪些用戶的粉絲(即某用戶關(guān)注了哪些用戶)以 及某用戶有哪些粉絲(即哪些用戶關(guān)注了此用戶)。以此為起點(diǎn),通過(guò)更深層次的采集,可 以很容易的知道更多用戶的相互關(guān)注情況。但是這樣的方法有以下不足:
[0004] 1)它僅是虛擬世界中的一種關(guān)注行為,并不代表現(xiàn)實(shí)世界中他們彼此認(rèn)識(shí);
[0005] 2)僅僅通過(guò)直接關(guān)注情況得來(lái)的信息量是片面的、有限的。
【發(fā)明內(nèi)容】
[0006] 針對(duì)上述技術(shù)問(wèn)題,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于社交網(wǎng)站平臺(tái), 結(jié)合用戶備注信息和150定律,能夠分析找出更多在現(xiàn)實(shí)世界中彼此認(rèn)識(shí)的基于SNS的個(gè) 人社會(huì)關(guān)系數(shù)據(jù)挖掘方法。
[0007] 本發(fā)明為了解決上述技術(shù)問(wèn)題采用以下技術(shù)方案:本發(fā)明設(shè)計(jì)了一種基于SNS的 個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,包括如下步驟:
[0008] 步驟001.在社交網(wǎng)站中任意選取一名用戶,獲取該用戶在社交網(wǎng)站中關(guān)注用戶 的用戶列表,作為一級(jí)用戶列表;
[0009] 步驟002.針對(duì)一級(jí)用戶列表中的用戶進(jìn)行過(guò)濾,刪除異常用戶,更新一級(jí)用戶列 表;
[0010] 步驟003.針對(duì)一級(jí)用戶列表中的各個(gè)用戶,分別采集各個(gè)用戶在社交網(wǎng)站中關(guān) 注用戶的用戶列表,分別作為二級(jí)用戶列表;
[0011] 步驟004.分別針對(duì)各個(gè)二級(jí)用戶列表中的用戶進(jìn)行過(guò)濾,刪除異常用戶,分別更 新各個(gè)二級(jí)用戶列表;
[0012] 步驟005.將一級(jí)用戶列表和各個(gè)二級(jí)用戶列表分別作為各個(gè)初級(jí)用戶列表,分 別針對(duì)各個(gè)初級(jí)用戶列表中的用戶按兩兩組合方式進(jìn)行分組獲得各個(gè)用戶分組,其中, 各個(gè)初級(jí)用戶列表分別對(duì)應(yīng)的用戶分組的數(shù)量為c】,n為對(duì)應(yīng)初級(jí)用戶列表中用戶的數(shù) 量;
[0013] 步驟006.針對(duì)所有初級(jí)用戶列表對(duì)應(yīng)的各個(gè)用戶分組,分別統(tǒng)計(jì)各個(gè)用戶分組 的數(shù)量,刪除數(shù)量小于預(yù)設(shè)共同被關(guān)注次數(shù)閾值的用戶分組;
[0014] 步驟007.將剩余所有用戶分組中的各個(gè)用戶作為各個(gè)分析用戶,分別針對(duì)各個(gè) 分析用戶,獲得與分析用戶位于同一用戶分組、并且與分析用戶對(duì)應(yīng)同一用戶分組的數(shù)量 大于預(yù)設(shè)數(shù)量閾值的各個(gè)用戶,該各個(gè)用戶構(gòu)成對(duì)應(yīng)分析用戶的用戶分析列表;
[0015] 步驟008.分別針對(duì)各個(gè)分析用戶所對(duì)應(yīng)的用戶分析列表,分別計(jì)算獲得用戶分 析列表中各個(gè)用戶與對(duì)應(yīng)分析用戶之間的相識(shí)可信度,并將用戶分析列表中的各個(gè)用戶按 其與對(duì)應(yīng)分析用戶之間相識(shí)可信度,由高至低進(jìn)行排序;
[0016] 步驟009.分別針對(duì)各個(gè)分析用戶所對(duì)應(yīng)的用戶分析列表,判斷用戶分析列表中 用戶的數(shù)量是否大于150,是則刪除第150個(gè)用戶之后的所有用戶,更新用戶分析列表;否 則不做任何操作;
[0017] 步驟010.分別針對(duì)各個(gè)分析用戶所對(duì)應(yīng)的用戶分析列表,分別判斷用戶分析列 表中各個(gè)用戶與對(duì)應(yīng)分析用戶之間相識(shí)可信度和預(yù)設(shè)相識(shí)度下限值、預(yù)設(shè)相識(shí)度上限值之 間的關(guān)系,若相識(shí)可信度低于預(yù)設(shè)相識(shí)度下限值,則判定該相識(shí)可信度所對(duì)應(yīng)用戶與對(duì)應(yīng) 分析用戶之間彼此認(rèn)識(shí)的可能性??;若相識(shí)可信度高于預(yù)設(shè)相識(shí)度下限值,且低于預(yù)設(shè)相 識(shí)度上限值,則判定該相識(shí)可信度所對(duì)應(yīng)用戶與對(duì)應(yīng)分析用戶之間彼此可能認(rèn)識(shí);若相識(shí) 可信度高于預(yù)設(shè)相識(shí)度上限值,則判定該相識(shí)可信度所對(duì)應(yīng)用戶與對(duì)應(yīng)分析用戶之間彼此 很可能認(rèn)識(shí)。
[0018] 作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟002和步驟004中,分別針對(duì)一級(jí)用戶 列表中的用戶和各個(gè)二級(jí)用戶列表中的用戶進(jìn)行過(guò)濾的操作為判斷若用戶為"大V"用戶, 或者其粉絲數(shù)大于100000,則將該用戶作為異常用戶進(jìn)行刪除,實(shí)現(xiàn)針對(duì)用戶的過(guò)濾。
[0019] 作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟008中,分別計(jì)算獲得用戶分析列表 中各個(gè)用戶與對(duì)應(yīng)分析用戶之間的相識(shí)可信度,具體包括針對(duì)用戶分析列表中各個(gè)用戶分 別執(zhí)行如下步驟:
[0020] 步驟00801.分別獲取用戶分析列表中用戶的備注信息,以及用戶分析列表對(duì)應(yīng) 的分析用戶的備注信息,進(jìn)入步驟00802 ;
[0021] 步驟00802.判斷該用戶和該分析用戶中是否存在一位用戶備注信息中的各項(xiàng)屬 性全部為空,是則進(jìn)入步驟00805 ;否則進(jìn)入步驟00803 ;
[0022] 步驟00803.針對(duì)該用戶備注信息中各項(xiàng)屬性與和該分析用戶備注信息中各項(xiàng)屬 性分別對(duì)應(yīng)進(jìn)行比較,獲得該用戶與該分析用戶在備注信息中各項(xiàng)屬性上的比較結(jié)果,其 中,若屬性比較相同或相近,則該用戶和該分析用戶在該屬性上的比較值為1,若屬性比較 不相同,則該用戶和該分析用戶在該屬性上的比較值為〇 ;進(jìn)入步驟00804 ;
[0023] 步驟00804.根據(jù)該用戶與該分析用戶在備注信息中各項(xiàng)屬性上的比較結(jié)果,以 及各項(xiàng)預(yù)設(shè)備注信息屬性權(quán)重,進(jìn)行加權(quán)計(jì)算獲得該用戶與該分析用戶之間的相識(shí)可信 度,該用戶與該分析用戶之間相識(shí)可信度的計(jì)算方法結(jié)束,其中,各項(xiàng)預(yù)設(shè)備注信息屬性權(quán) 重之和為1 ;
[0024] 步驟00805.直接定義該用戶與該分析用戶之間的相識(shí)可信度為0. 5,該用戶與該 分析用戶之間相識(shí)可信度的計(jì)算方法結(jié)束。
[0025] 作為本發(fā)明的一種優(yōu)選技術(shù)方案:所述步驟00804中進(jìn)行加權(quán)計(jì)算的模型如下:
[0026]
【主權(quán)項(xiàng)】
1. 一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,其特征在于,包括如下步驟: 步驟001.在社交網(wǎng)站中任意選取一名用戶,獲取該用戶在社交網(wǎng)站中關(guān)注用戶的用 戶列表,作為一級(jí)用戶列表; 步驟002.針對(duì)一級(jí)用戶列表中的用戶進(jìn)行過(guò)濾,刪除異常用戶,更新一級(jí)用戶列表; 步驟003.針對(duì)一級(jí)用戶列表中的各個(gè)用戶,分別采集各個(gè)用戶在社交網(wǎng)站中關(guān)注用 戶的用戶列表,分別作為二級(jí)用戶列表; 步驟004.分別針對(duì)各個(gè)二級(jí)用戶列表中的用戶進(jìn)行過(guò)濾,刪除異常用戶,分別更新各 個(gè)二級(jí)用戶列表; 步驟005.將一級(jí)用戶列表和各個(gè)二級(jí)用戶列表分別作為各個(gè)初級(jí)用戶列表,分別針 對(duì)各個(gè)初級(jí)用戶列表中的用戶按C"2兩兩組合方式進(jìn)行分組獲得各個(gè)用戶分組,其中,各個(gè) 初級(jí)用戶列表分別對(duì)應(yīng)的用戶分組的數(shù)量為& 2,n為對(duì)應(yīng)初級(jí)用戶列表中用戶的數(shù)量; 步驟006.針對(duì)所有初級(jí)用戶列表對(duì)應(yīng)的各個(gè)用戶分組,分別統(tǒng)計(jì)各個(gè)用戶分組的數(shù) 量,刪除數(shù)量小于預(yù)設(shè)共同被關(guān)注次數(shù)閾值的用戶分組; 步驟007.將剩余所有用戶分組中的各個(gè)用戶作為各個(gè)分析用戶,分別針對(duì)各個(gè)分析 用戶,獲得與分析用戶位于同一用戶分組、并且與分析用戶對(duì)應(yīng)同一用戶分組的數(shù)量大于 預(yù)設(shè)數(shù)量閾值的各個(gè)用戶,該各個(gè)用戶構(gòu)成對(duì)應(yīng)分析用戶的用戶分析列表; 步驟008.分別針對(duì)各個(gè)分析用戶所對(duì)應(yīng)的用戶分析列表,分別計(jì)算獲得用戶分析列 表中各個(gè)用戶與對(duì)應(yīng)分析用戶之間的相識(shí)可信度,并將用戶分析列表中的各個(gè)用戶按其與 對(duì)應(yīng)分析用戶之間相識(shí)可信度,由高至低進(jìn)行排序; 步驟009.分別針對(duì)各個(gè)分析用戶所對(duì)應(yīng)的用戶分析列表,判斷用戶分析列表中用戶 的數(shù)量是否大于150,是則刪除第150個(gè)用戶之后的所有用戶,更新用戶分析列表;否則不 做任何操作; 步驟010.分別針對(duì)各個(gè)分析用戶所對(duì)應(yīng)的用戶分析列表,分別判斷用戶分析列表中 各個(gè)用戶與對(duì)應(yīng)分析用戶之間相識(shí)可信度和預(yù)設(shè)相識(shí)度下限值、預(yù)設(shè)相識(shí)度上限值之間的 關(guān)系,若相識(shí)可信度低于預(yù)設(shè)相識(shí)度下限值,則判定該相識(shí)可信度所對(duì)應(yīng)用戶與對(duì)應(yīng)分析 用戶之間彼此認(rèn)識(shí)的可能性小;若相識(shí)可信度高于預(yù)設(shè)相識(shí)度下限值,且低于預(yù)設(shè)相識(shí)度 上限值,則判定該相識(shí)可信度所對(duì)應(yīng)用戶與對(duì)應(yīng)分析用戶之間彼此可能認(rèn)識(shí);若相識(shí)可信 度高于預(yù)設(shè)相識(shí)度上限值,則判定該相識(shí)可信度所對(duì)應(yīng)用戶與對(duì)應(yīng)分析用戶之間彼此很可 能認(rèn)識(shí)。
2. 根據(jù)權(quán)利要求1所述一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,其特征在于:所 述步驟002和步驟004中,分別針對(duì)一級(jí)用戶列表中的用戶和各個(gè)二級(jí)用戶列表中的用戶 進(jìn)行過(guò)濾的操作為判斷若用戶為"大V"用戶,或者其粉絲數(shù)大于100000,則將該用戶作為 異常用戶進(jìn)行刪除,實(shí)現(xiàn)針對(duì)用戶的過(guò)濾。
3. 根據(jù)權(quán)利要求1所述一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,其特征在于:所 述步驟008中,分別計(jì)算獲得用戶分析列表中各個(gè)用戶與對(duì)應(yīng)分析用戶之間的相識(shí)可信 度,具體包括針對(duì)用戶分析列表中各個(gè)用戶分別執(zhí)行如下步驟: 步驟00801.分別獲取用戶分析列表中用戶的備注信息,以及用戶分析列表對(duì)應(yīng)的分 析用戶的備注信息,進(jìn)入步驟00802 ; 步驟00802.判斷該用戶和該分析用戶中是否存在一位用戶備注信息中的各項(xiàng)屬性全 部為空,是則進(jìn)入步驟00805 ;否則進(jìn)入步驟00803 ; 步驟00803.針對(duì)該用戶備注信息中各項(xiàng)屬性與和該分析用戶備注信息中各項(xiàng)屬性分 別對(duì)應(yīng)進(jìn)行比較,獲得該用戶與該分析用戶在備注信息中各項(xiàng)屬性上的比較結(jié)果,其中,若 屬性比較相同或相近,則該用戶和該分析用戶在該屬性上的比較值為1,若屬性比較不相 同,則該用戶和該分析用戶在該屬性上的比較值為0 ;進(jìn)入步驟00804 ; 步驟00804.根據(jù)該用戶與該分析用戶在備注信息中各項(xiàng)屬性上的比較結(jié)果,以及各 項(xiàng)預(yù)設(shè)備注信息屬性權(quán)重,進(jìn)行加權(quán)計(jì)算獲得該用戶與該分析用戶之間的相識(shí)可信度,該 用戶與該分析用戶之間相識(shí)可信度的計(jì)算方法結(jié)束,其中,各項(xiàng)預(yù)設(shè)備注信息屬性權(quán)重之 和為1 ; 步驟00805.直接定義該用戶與該分析用戶之間的相識(shí)可信度為0. 5,該用戶與該分析 用戶之間相識(shí)可信度的計(jì)算方法結(jié)束。
4. 根據(jù)權(quán)利要求3所述一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,其特征在于:所 述步驟00804中進(jìn)行加權(quán)計(jì)算的模型如下:
其中,
,C為該用戶與該分析用戶之間相識(shí)可信度,4為該用戶與該分析用戶 在第i個(gè)屬性上的比較結(jié)果,%為第i個(gè)屬性的預(yù)設(shè)備注信息屬性權(quán)重,I為備注信息中屬 性的數(shù)量。
5. 根據(jù)權(quán)利要求3所述一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,其特征在于:所 述備注信息包括如下屬性:所屬行業(yè)、所屬院校、所在籍貫、當(dāng)前年齡。
6. 根據(jù)權(quán)利要求5所述一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,其特征在于:所 述預(yù)設(shè)備注信息屬性權(quán)重中,所屬行業(yè)的預(yù)設(shè)備注信息屬性權(quán)重為〇. 4,所屬院校的預(yù)設(shè)備 注信息屬性權(quán)重為〇. 3,所在籍貫的預(yù)設(shè)備注信息屬性權(quán)重為0. 2,當(dāng)前年齡的預(yù)設(shè)備注信 息屬性權(quán)重為0. 1。
【專利摘要】本發(fā)明涉及一種基于SNS的個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘方法,邏輯清楚,易于實(shí)施,其中,以社交網(wǎng)站平臺(tái)為基礎(chǔ),獲取用戶的關(guān)注信息、粉絲信息,以及用戶的備注信息,計(jì)算獲得兩用戶之間的相識(shí)可信度,并結(jié)合150定律,分析找出更多在現(xiàn)實(shí)世界中彼此認(rèn)識(shí)的人,有效提高了個(gè)人社會(huì)關(guān)系數(shù)據(jù)挖掘的工作效率和準(zhǔn)確性。
【IPC分類】G06F17-30
【公開(kāi)號(hào)】CN104573081
【申請(qǐng)?zhí)枴緾N201510042252
【發(fā)明人】張坤, 史波良, 李名臣, 邢蘇霄
【申請(qǐng)人】南京烽火星空通信發(fā)展有限公司
【公開(kāi)日】2015年4月29日
【申請(qǐng)日】2015年1月27日