一種挖掘目標(biāo)微博用戶的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是一種挖掘目標(biāo)微博用戶的方法。
【背景技術(shù)】
[0002]在微博用戶形成的社交網(wǎng)絡(luò)中,尋找某個(gè)特定用戶的社交圈對于分析用戶的興趣行為有著非常重要的作用。比較流行的算法有最大團(tuán)算法等,但是最大團(tuán)算法要求最大聯(lián)通子圖,這種約束對社交網(wǎng)絡(luò)來說過于苛刻,很難分析出用戶潛在的社交網(wǎng)絡(luò);另一方面,這種算法沒有很好的利用微博的社交屬性,當(dāng)我們用交互行為作為連接微博用戶節(jié)點(diǎn)的邊時(shí),最大團(tuán)算法并不會(huì)考慮微博用戶與其他用戶的交互次數(shù),而這種能夠體現(xiàn)出用戶之間交互意愿統(tǒng)計(jì)屬性,對于分析微博用戶的社交圈極其重要。
[0003]中國發(fā)明專利CN 103345535 A公開了一種微博用戶挖掘方法,包括:判斷用戶列表中是否存在未處理用戶;如果不存在,則按照預(yù)設(shè)規(guī)則從微博網(wǎng)頁中抓取用戶數(shù)據(jù),并判斷用戶數(shù)據(jù)對應(yīng)的抓取用戶是否存在于用戶列表,如果不存在,則將該抓取用戶添加至用戶列表,并設(shè)置該抓取用戶的狀態(tài)已處理;如果存在,則判斷該未處理用戶是否具有下級(jí)用戶:如果具有,則獲取該未處理用戶的下級(jí)用戶,并將下級(jí)用戶添加到用戶列表,設(shè)置未處理用戶的狀態(tài)為已處理;將下級(jí)用戶作為未處理用戶,繼續(xù)執(zhí)行判斷未處理用戶是否具有下級(jí)用戶的步驟;如果不具有,則設(shè)置該未處理用戶的狀態(tài)為已處理。
【發(fā)明內(nèi)容】
[0004]本發(fā)明需要解決的技術(shù)問題提供一種可以快速識(shí)別和挖掘目標(biāo)微博用戶相關(guān)潛在用戶的方法。
[0005]為解決上述的技術(shù)問題,本發(fā)明一種挖掘目標(biāo)微博用戶的方法,包括以下步驟,步驟SlOl:社交網(wǎng)絡(luò)形成,以微博用戶作為社交網(wǎng)絡(luò)中的節(jié)點(diǎn),以相互提交關(guān)系作為邊形成社交網(wǎng)絡(luò);步驟S102:種子用戶密友選擇,指定用戶為種子,以種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)選擇確定種子用戶的密友;步驟S103:種子用戶好友選擇,以密友和種子用戶建立的社交圈選擇確定種子用戶的好友;步驟S104:種子用戶普通朋友選擇,以種子用戶、密友和好友建立的社交圈選擇確定種子用戶的普通朋友;步驟S105:種子用戶社交圈確定,以種子用戶、密友、好友和普通朋友組成的集合形成種子用戶社交圈。
[0006]進(jìn)一步的,所述密友、好友和普通朋友的數(shù)量以需要確定的種子用戶社交圈的大小為準(zhǔn)。
[0007]更進(jìn)一步的,所述步驟SlOl中提及關(guān)系包括轉(zhuǎn)發(fā)或直接提及到其他用戶的行為,并存儲(chǔ)相互提及的次數(shù)。
[0008]更進(jìn)一步的,所述步驟S102中種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)包括種子用戶提及頻繁的用戶或頻繁提及種子用戶的用戶。
[0009]更進(jìn)一步的,所述步驟S103還包括以下步驟,步驟S1031:以種子用戶和密友作為一個(gè)社交圈C ;步驟S1032:在C的鄰居集合中選擇一個(gè)與C中節(jié)點(diǎn)存在交互關(guān)系最多的節(jié)點(diǎn)以好友身份加入C中;步驟S1033:判斷好友數(shù)量是否滿足要求,如果否,反正步驟S1032 ;如果是,則進(jìn)入步驟S104。
[0010]更進(jìn)一步的,如果步驟S1032中同時(shí)存在多個(gè)滿足條件的節(jié)點(diǎn),則選取聚集系數(shù)最高的一個(gè)節(jié)點(diǎn)加入C。
[0011]更進(jìn)一步的,所述步驟S104包括以下步驟,步驟S1041:以種子用戶、密友和好友作為一個(gè)社交圈D ;步驟S1042:在D的鄰居集合中選擇一個(gè)與D中節(jié)點(diǎn)存在交互關(guān)系最多的節(jié)點(diǎn)以普通朋友身份加入D中;步驟S1043:判斷普通朋友數(shù)量是否滿足要求,如果否,反正步驟S1042 ;如果是,則進(jìn)入步驟S105。
[0012]采用上述方法后,本發(fā)明通過放寬對用戶交互關(guān)系的約束,能夠找全目標(biāo)微博用戶潛在的社交圈;通過對密友不同選擇條件,能夠分析出目標(biāo)微博用戶具備不同社交屬性的社交圈。本發(fā)明速度快,挖掘目標(biāo)微博用戶的社交圈效率高,滿足實(shí)時(shí)分析的需求。
【附圖說明】
[0013]下面將結(jié)合附圖和【具體實(shí)施方式】對本作進(jìn)一步詳細(xì)的說明。
[0014]圖1為本發(fā)明一種挖掘目標(biāo)微博用戶方法的流程圖。
【具體實(shí)施方式】
[0015]如圖1所示,本發(fā)明一種挖掘目標(biāo)微博用戶的方法,包括以下步驟:
[0016]步驟SlOl:社交網(wǎng)絡(luò)形成,以微博用戶作為社交網(wǎng)絡(luò)中的節(jié)點(diǎn),以相互提交關(guān)系作為邊形成社交網(wǎng)絡(luò)。這里涉及的提及關(guān)系包括轉(zhuǎn)發(fā)或直接提及到其他用戶的行為,并存儲(chǔ)相互提及的次數(shù)。本實(shí)施方式中由于最后確定的種子用戶的社交圈包括種子用戶、密友、好友和普通朋友,而密友、好友和普通朋友的數(shù)量要以所確定的種子用戶社交圈的大小為準(zhǔn),這里假設(shè)需要確定的密友k人,好友m人,普通朋友η人,那么種子用戶的社交圈為l+k+m+η,其中I表示種子用戶本身。
[0017]步驟S102:種子用戶密友選擇,指定用戶為種子,以種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)選擇確定種子用戶的密友。這里種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)包括種子用戶提及頻繁的用戶或頻繁提及種子用戶的用戶。這兩種不同的密友選擇條件,能夠分析出目標(biāo)微博用戶(種子用戶)不同社交屬性的社交圈,具體如下:
[0018]a)種子用戶提及最頻繁的人
[0019]1、當(dāng)種子用戶的出度(提及到其他用戶的數(shù)量)遠(yuǎn)遠(yuǎn)大于入度(提及到種子用戶的其他用戶數(shù)量)時(shí),最終形成的社交圈是種子用戶比較感興趣的社群。
[0020]2、當(dāng)種子用戶的出度遠(yuǎn)遠(yuǎn)小于入度時(shí),最終形成的社交圈是種子用戶真實(shí)社交圈。
[0021]b)頻繁提及種子用戶的人
[0022]1、當(dāng)種子用戶的出度遠(yuǎn)遠(yuǎn)大于入度時(shí),最終形成的社交圈是種子用戶的真實(shí)社交圈。
[0023]2、當(dāng)種子用戶的出度遠(yuǎn)遠(yuǎn)小于入度時(shí),最終形成的社交圈是對種子用戶感興趣的社群,即粉絲群。
[0024]根據(jù)以上條件選擇適應(yīng)的密友K個(gè)。
[0025]步驟S103:種子用戶好友選擇,以密友和種子用戶建立的社交圈選擇確定種子用戶的好友;步驟S1031:以種子用戶和密友作為一個(gè)社交圈C ;步驟S1032:在C的鄰居集合中選擇一個(gè)與C中節(jié)點(diǎn)存在交互關(guān)系最多的節(jié)點(diǎn)以好友身份加入C中,這里如果同時(shí)存在多個(gè)滿足條件的節(jié)點(diǎn),則選取聚集系數(shù)最高的一個(gè)節(jié)點(diǎn)加入C ;步驟S1033:判斷好友數(shù)量是否達(dá)到m,如果否,反正步驟S1032 ;如果是,則進(jìn)入步驟S104。其中鄰居集合指與C中任一節(jié)點(diǎn)存在交互關(guān)系的節(jié)點(diǎn)。
[0026]步驟S104:種子用戶普通朋友選擇,以種子用戶、密友和好友建立的社交圈選擇確定種子用戶的普通朋友。具體包括以下步驟S1041:以種子用戶、密友和好友作為一個(gè)社交圈D ;步驟S1042:在D的鄰居集合中選擇一個(gè)與D中節(jié)點(diǎn)存在交互關(guān)系最多的節(jié)點(diǎn)以普通朋友身份加入D中;步驟S1043:判斷普通朋友數(shù)量是否達(dá)到n,如果否,反正步驟S1042 ;如果是,則進(jìn)入步驟S105 ;這里選取聚集系數(shù)排列前η個(gè)人。
[0027]步驟S105:種子用戶社交圈確定,以種子用戶、密友、好友和普通朋友組成的集合形成種子用戶社交圈,所述種子用戶社交圈包括1+k+m+n。
[0028]雖然以上描述了本發(fā)明的【具體實(shí)施方式】,但是本領(lǐng)域熟練技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,可以對本實(shí)施方式作出多種變更或修改,而不背離發(fā)明的原理和實(shí)質(zhì),本發(fā)明的保護(hù)范圍僅由所附權(quán)利要求書限定。
【主權(quán)項(xiàng)】
1.一種挖掘目標(biāo)微博用戶的方法,其特征在于,包括以下步驟: 步驟SlOl:社交網(wǎng)絡(luò)形成,以微博用戶作為社交網(wǎng)絡(luò)中的節(jié)點(diǎn),以相互提交關(guān)系作為邊形成社交網(wǎng)絡(luò); 步驟S102:種子用戶密友選擇,指定用戶為種子,以種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)選擇確定種子用戶的密友; 步驟S103:種子用戶好友選擇,以密友和種子用戶建立的社交圈選擇確定種子用戶的好友; 步驟S104:種子用戶普通朋友選擇,以種子用戶、密友和好友建立的社交圈選擇確定種子用戶的普通朋友; 步驟S105:種子用戶社交圈確定,以種子用戶、密友、好友和普通朋友組成的集合形成種子用戶社交圈。
2.按照權(quán)利要求1所述的一種挖掘目標(biāo)微博用戶的方法,其特征在于:所述密友、好友和普通朋友的數(shù)量以需要確定的種子用戶社交圈的大小為準(zhǔn)。
3.按照權(quán)利要求2所述的一種挖掘目標(biāo)微博用戶的方法,其特征在于:所述步驟SlOl中提及關(guān)系包括轉(zhuǎn)發(fā)或直接提及到其他用戶的行為,并存儲(chǔ)相互提及的次數(shù)。
4.按照權(quán)利要求3所述的一種挖掘目標(biāo)微博用戶的方法,其特征在于:所述步驟S102中種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)為種子用戶提及頻繁的用戶或頻繁提及種子用戶的用戶。
5.按照權(quán)利要求4所述的一種挖掘目標(biāo)微博用戶的方法,其特征在于,所述步驟S103還包括以下步驟, 步驟S1031:以種子用戶和密友作為一個(gè)社交圈C ; 步驟S1032:在C的鄰居集合中選擇一個(gè)與C中節(jié)點(diǎn)存在交互關(guān)系最多的節(jié)點(diǎn)以好友身份加入C中; 步驟S1033:判斷好友數(shù)量是否滿足要求,如果否,反正步驟S1032 ;如果是,則進(jìn)入步驟 S104。
6.按照權(quán)利要求5所述的一種挖掘目標(biāo)微博用戶的方法,其特征在于:如果步驟S1032中同時(shí)存在多個(gè)滿足條件的節(jié)點(diǎn),則選取聚集系數(shù)最高的一個(gè)節(jié)點(diǎn)加入C。
7.按照權(quán)利要求5所述的一種挖掘目標(biāo)微博用戶的方法,其特征在于,所述步驟S104包括以下步驟, 步驟S1041:以種子用戶、密友和好友作為一個(gè)社交圈D ; 步驟S1042:在D的鄰居集合中選擇一個(gè)與D中節(jié)點(diǎn)存在交互關(guān)系最多的節(jié)點(diǎn)以普通朋友身份加入D中; 步驟S1043:判斷普通朋友數(shù)量是否滿足要求,如果否,反正步驟S1042 ;如果是,則進(jìn)入步驟S105。
【專利摘要】本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是一種挖掘目標(biāo)微博用戶的方法,包括以下步驟,社交網(wǎng)絡(luò)形成,以微博用戶作為社交網(wǎng)絡(luò)中的節(jié)點(diǎn),以相互提交關(guān)系作為邊形成社交網(wǎng)絡(luò);種子用戶密友選擇,指定用戶為種子,以種子用戶和其他用戶互相提及關(guān)系的頻繁次數(shù)選擇確定種子用戶的密友;種子用戶好友選擇,以密友和種子用戶建立的社交圈選擇確定種子用戶的好友;種子用戶普通朋友選擇,以種子用戶、密友和好友建立的社交圈選擇確定種子用戶的普通朋友;種子用戶社交圈確定,以種子用戶、密友、好友和普通朋友組成的集合形成種子用戶社交圈。采用上述方法后,發(fā)明速度快,挖掘目標(biāo)微博用戶的社交圈效率高,滿足實(shí)時(shí)分析的需求。
【IPC分類】G06F17-30
【公開號(hào)】CN104573096
【申請?zhí)枴緾N201510047759
【發(fā)明人】李景澤
【申請人】湖南識(shí)微科技有限公司
【公開日】2015年4月29日
【申請日】2015年1月30日