本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及一種用戶信息聚合方法、系統(tǒng)和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)中出現(xiàn)了海量的用戶信息數(shù)據(jù),比如:社交網(wǎng)絡(luò)中,用戶可能會訪問多個社交網(wǎng)站,并在每個社交網(wǎng)站中注冊用戶信息,使用用戶信息登錄,而同一用戶在不同社交網(wǎng)站中可能使用相同的用戶信息,也可能使用不同的用戶信息。
而目前信息管理系統(tǒng)僅支持用戶信息的存儲、增加、修改、查詢、刪除等操作,但面對如今互聯(lián)網(wǎng)社交網(wǎng)站數(shù)量繁多的現(xiàn)狀,同一用戶在不同的社交網(wǎng)站平臺留下多份用戶信息的情況是普遍存在的。而大部分信息管理系統(tǒng)或者是數(shù)據(jù)倉庫系統(tǒng)只能將他們視作多個獨立的信息主體,無法提供多個信息實體間關(guān)聯(lián)性。
因此,如何處理同一用戶的多份數(shù)據(jù)信息,建立用戶信息之間的關(guān)聯(lián)關(guān)系以便更好的管理和使用用戶信息,成為亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種用戶信息聚合方法、系統(tǒng)和裝置。
第一方面,本發(fā)明實施例提供一種用戶信息聚合方法,包括:
獲取用戶在各社交網(wǎng)站使用的用戶信息;
根據(jù)用戶信息中包括的信息記錄項,確定任意兩個用戶信息之間關(guān)聯(lián)關(guān)系;
根據(jù)確定出的用戶信息之間的關(guān)聯(lián)關(guān)系,構(gòu)造以用戶信息為節(jié)點的用戶信息聚合超集模型,所述模型的任意兩節(jié)點間以單向邊標(biāo)注所對應(yīng)的兩個用戶信息的關(guān)聯(lián)關(guān)系。
在一些可選的實施例中,所述根據(jù)用戶信息中包括的信息記錄項,確定任意兩個用戶信息之間關(guān)聯(lián)關(guān)系,具體包括:
依次獲取兩個用戶信息,針對獲取的兩個用戶信息,執(zhí)行下列操作:
根據(jù)選定的算法,計算兩個用戶信息所包含的信息記錄項的相關(guān)程度;
當(dāng)包含第一指定屬性的信息記錄項時,確定兩個用戶信息是同一用戶的用戶信息;
當(dāng)包含第二指定屬性的信息記錄項時,確定兩個用戶信息是具有包含關(guān)系的用戶信息;
當(dāng)不包含第一指定屬性和第二指定屬性的信息記錄項、或包含有第三指定屬性的信息記錄項時,確定兩個用戶信息不是同一用戶的用戶信息;
直至任意兩個用戶信息的關(guān)聯(lián)關(guān)系都確定完。
在一些可選的實施例中,所述第一指定屬性的信息記錄項為能夠唯一標(biāo)識一個用戶的信息記錄項,所述第二指定屬性的信息記錄項為具有子集關(guān)系的信息記錄項,第三指定屬性的信息記錄項為用戶互斥屬性的信息記錄項。
在一些可選的實施例中,信息記錄項包括下列信息中的至少一項:
信息來源、用戶標(biāo)識信息、用戶名稱、登錄ip地址信息、用戶設(shè)備標(biāo)識信息、用戶設(shè)備地址信息、郵箱信息、通訊聯(lián)系信息、地址信息、用戶身份信息、好友信息。
在一些可選的實施例中,上述方法還包括:
接收到用戶信息查詢請求時,根據(jù)查詢請求中包含的查詢條件,查詢建立的聚合超集模型;
當(dāng)查詢到所述用戶信息聚合超集模型中的有節(jié)點對應(yīng)的用戶信息與所述查詢條件相匹配時,確定與該節(jié)點具有關(guān)聯(lián)關(guān)系的節(jié)點;
將該節(jié)點對應(yīng)用戶信息、其關(guān)聯(lián)關(guān)系為同一用戶信息的節(jié)點對應(yīng)的用戶信息、其關(guān)聯(lián)關(guān)系為有包含關(guān)系的節(jié)點對應(yīng)的用戶信息反饋給發(fā)送查詢請求的用戶。
第二方面,本發(fā)明實施例提供一種用戶信息聚合裝置,包括:
獲取模塊,用于獲取用戶在各社交網(wǎng)站使用的用戶信息;
確定模塊,用于根據(jù)用戶信息中包括的信息記錄項,確定任意兩個用戶信息之間關(guān)聯(lián)關(guān)系;
建立模塊,用于根據(jù)確定出的用戶信息之間的關(guān)聯(lián)關(guān)系,構(gòu)造以用戶信息為節(jié)點的用戶信息聚合超集模型,所述模型的任意兩節(jié)點間以單向邊標(biāo)注所對應(yīng)的兩個用戶信息的關(guān)聯(lián)關(guān)系。
在一些可選的實施例中,所述確定模塊,具體用于:
依次獲取兩個用戶信息,針對獲取的兩個用戶信息,執(zhí)行下列操作:
根據(jù)選定的算法,計算兩個用戶信息所包含的信息記錄項的相關(guān)程度;
當(dāng)包含第一指定屬性的信息記錄項時,確定兩個用戶信息是同一用戶的用戶信息;
當(dāng)包含第二指定屬性的信息記錄項時,確定兩個用戶信息是具有包含關(guān)系的用戶信息;
當(dāng)不包含第一指定屬性和第二指定屬性的信息記錄項、或包含有第三指定屬性的信息記錄項時,確定兩個用戶信息不是同一用戶的用戶信息;
直至任意兩個用戶信息的關(guān)聯(lián)關(guān)系都確定完。
在一些可選的實施例中,上述裝置還包括:
查詢模塊,用于接收到用戶信息查詢請求時,根據(jù)查詢請求中包含的查詢條件,查詢建立的用戶信息聚合超集模型;當(dāng)查詢到所述聚合超集模型中的有節(jié)點對應(yīng)的用戶信息與所述查詢條件相匹配時,確定與該節(jié)點具有關(guān)聯(lián)關(guān)系的節(jié)點;將該節(jié)點對應(yīng)用戶信息、其關(guān)聯(lián)關(guān)系為同一用戶信息的節(jié)點對應(yīng)的用戶信息、其關(guān)聯(lián)關(guān)系為有包含關(guān)系的節(jié)點對應(yīng)的用戶信息反饋給發(fā)送查詢請求的用戶。
本發(fā)明實施例還提供一種用戶信息聚合系統(tǒng),包括:聚合服務(wù)器、網(wǎng)站服務(wù)器和客戶端;
所述聚合服務(wù)器中包括上述的用戶信息聚合裝置;
所述網(wǎng)站服務(wù)器,用于向所述聚合服務(wù)器上報所述客戶端登錄網(wǎng)站時所使用的用戶信息。
在一些可選的實施例中,所述客戶端,還用于發(fā)送用戶信息查詢請求給網(wǎng)站服務(wù)器;相應(yīng)的,所述網(wǎng)站服務(wù)器,還用于將所述查詢請求發(fā)送給聚合服務(wù)器,并將聚合服務(wù)器返回的用戶信息查詢結(jié)果提供給客戶端;或
所述客戶端,還用于發(fā)送用戶信息查詢請求給聚合服務(wù)器;相應(yīng)的,所述聚合服務(wù)器,還用于向客戶端返回用戶信息查詢結(jié)果。
本發(fā)明實施例提供的上述技術(shù)方案的有益效果至少包括:
將用戶在不同社交網(wǎng)站使用的用戶信息,根據(jù)其中的信息記錄項,建立關(guān)聯(lián)關(guān)系,實現(xiàn)信息聚合,構(gòu)造用戶信息聚合超集模型,從而使同一用戶在不同網(wǎng)站的用戶信息之間能夠通過該用戶信息聚合超集模型關(guān)聯(lián)起來,方便后續(xù)用戶查詢使用,也便于用戶信息的管理。
本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細(xì)描述。
附圖說明
附圖用來提供對本發(fā)明的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明的實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:
圖1為本發(fā)明實施例一中用戶信息聚合方法的流程圖;
圖2為本發(fā)明實施例二中用戶信息聚合方法的流程圖;
圖3為本發(fā)明實施例二中不同網(wǎng)站的用戶信息示意圖;
圖4為本發(fā)明實施例二中兩個用戶信息之間的關(guān)系示例圖一;
圖5為本發(fā)明實施例二中兩個用戶信息之間的關(guān)系示例圖二;
圖6為本發(fā)明實施例二中兩個用戶信息之間的關(guān)系示例圖三;
圖7為本發(fā)明實施例二中用戶信息聚合超集模型示例圖;
圖8為本發(fā)明實施例中用戶信查詢過程的流程圖;
圖9為本發(fā)明實施例中用戶信息聚合系統(tǒng)的結(jié)構(gòu)示意圖;
圖10為本發(fā)明實施例中用戶信息聚合裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
為了解決現(xiàn)有技術(shù)中存在的社交網(wǎng)絡(luò)中同一用戶在不同社交網(wǎng)站會留下多份用戶信息,無法建立這些信息之間的關(guān)聯(lián)關(guān)系,不便于信息的管理和使用的問題,本發(fā)明實施例提供一種用戶信息聚合方法,能夠挖掘出將用戶信息之間的關(guān)聯(lián)關(guān)系,建立關(guān)系模型,以便于管理和使用網(wǎng)絡(luò)中的用戶信息。
實施例一
本發(fā)明實施例一提供一種用戶信息聚合方法,其流程如圖1所示,包括如下步驟:
步驟s101:獲取用戶在各社交網(wǎng)站使用的用戶信息。
聚合服務(wù)器收集并存儲用戶在各社交網(wǎng)站使用的用戶信息,具體可以由各社交網(wǎng)站的網(wǎng)站服務(wù)器向聚合服務(wù)器上報用戶登錄網(wǎng)站時使用的用戶信息,并存儲下來,以備后續(xù)使用。
步驟s102:根據(jù)用戶信息中包括的信息記錄項,確定任意兩個用戶信息之間關(guān)聯(lián)關(guān)系。
聚合服務(wù)器對收集的用戶信息進行聚合處理,建立任意兩個用戶信息之間的關(guān)聯(lián)關(guān)系。比如來自不同網(wǎng)站的兩個用戶信息是不是同一用戶的用戶信息,是不是具有包含關(guān)系(子集關(guān)系)的用戶信息,還是完全相異的用戶信息。具體包括依次獲取兩個用戶信息,針對獲取的兩個用戶信息,執(zhí)行下列操作:
根據(jù)選定的算法,計算兩個用戶信息所包含的信息記錄項的相關(guān)程度;
當(dāng)包含第一指定屬性的信息記錄項時,確定兩個用戶信息是同一用戶的用戶信息;
當(dāng)包含第二指定屬性的信息記錄項時,確定兩個用戶信息是具有包含關(guān)系的用戶信息;
當(dāng)不包含第一指定屬性和第二指定屬性的信息記錄項、或包含有第三指定屬性的信息記錄項時,確定兩個用戶信息不是同一用戶的用戶信息;
直至任意兩個用戶信息的關(guān)聯(lián)關(guān)系都確定完。
上述過程中,實現(xiàn)針對每兩個用戶信息均確定其關(guān)聯(lián)關(guān)系,是否是同一用戶的用戶信息。
其中,第一指定屬性的信息記錄項為能夠唯一標(biāo)識一個用戶的信息記錄項,第二指定屬性的信息記錄項為具有子集關(guān)系的信息記錄項,第三指定屬性的信息記錄項為用戶互斥屬性的信息記錄項。比如:當(dāng)兩個用戶信息都包含有相同的能夠唯一標(biāo)識一個用戶的信息記錄項,確認(rèn)兩個用戶信息是同一個用戶的用戶信息;當(dāng)個用戶信息都包含的信息記錄項具有子集關(guān)系時,確認(rèn)兩個用戶信息是具有包含關(guān)系的用戶信息;當(dāng)兩個用戶信息不包含有相同的能夠唯一標(biāo)識一個用戶的信息記錄項且兩個用戶信息的信息記錄項也不具有子集關(guān)系時,或兩個用戶信息包含有用戶互斥屬性的信息記錄項時,確認(rèn)兩個用戶信息是不同用戶的用戶信息。
優(yōu)選的,上述信息記錄項包括下列信息中的至少一項:信息來源、用戶標(biāo)識信息、用戶名稱、登錄ip地址信息、用戶設(shè)備標(biāo)識信息、用戶設(shè)備地址信息、郵箱信息、通訊聯(lián)系信息、地址信息、用戶身份信息、好友信息。
步驟s103:根據(jù)確定出的用戶信息之間的關(guān)聯(lián)關(guān)系,構(gòu)造以用戶信息為節(jié)點的用戶信息聚合超集模型。其中,用戶信息聚合超集模型的任意兩節(jié)點間以單向邊標(biāo)注所對應(yīng)的兩個用戶信息的關(guān)聯(lián)關(guān)系。
確定兩個用戶信息之間的關(guān)聯(lián)關(guān)系后,可以以用戶信息為節(jié)點,用邊來連接兩個用戶信息節(jié)點,建立用戶信息聚合超集模型。其中,每兩個用戶信息節(jié)點之間通過單向邊連接,單向邊表明用戶信息之間的關(guān)聯(lián)關(guān)系是同一用戶,包含的關(guān)系,還是互異的關(guān)系。
實施例二
本發(fā)明實施例二提供上述用戶信息聚合方法的一種具體實現(xiàn)過程,其流程如圖2所示,包括如下步驟:
步驟s201:聚合服務(wù)器獲取用戶在各社交網(wǎng)站使用的用戶信息并存儲。
聚合服務(wù)器收集用戶使用社交網(wǎng)站時的用戶信息,可以有用戶使用客戶端上報給聚合服務(wù)器,也可以由用戶所登錄的社交網(wǎng)站的網(wǎng)站服務(wù)器上報給聚合服務(wù)器。
步驟s202:聚合服務(wù)器獲取兩個用戶信息。
聚合服務(wù)器按照一定的規(guī)則,每次獲取兩個用戶信息,以便通過計算處理,確定兩個用戶信息之間的關(guān)聯(lián)關(guān)系,直至處理完所有用戶信息,確定出了任意兩個用戶信息之間的關(guān)聯(lián)關(guān)系為止。
比如,聚合服務(wù)器可以先獲取一個用戶信息,然后再按一定的順序逐一獲取其他用戶信息,分別與這一個用戶信息組成要確定關(guān)聯(lián)關(guān)系的信息對進行處理,確定這一個用戶信息和其他用戶信息之間的關(guān)聯(lián)關(guān)系分別是什么關(guān)系。然后再獲取下一個用戶信息,并針對獲取的下一個信息,按一定的順序逐一獲取其他用戶信息,分別與這一個用戶信息組成要確定關(guān)聯(lián)關(guān)系的信息對進行處理,以此類推,直至處理完所有的用戶信息為止。
當(dāng)然,獲取兩個用戶信息的獲取方式不限于上述方式,也可以按照其他規(guī)則和方式進行獲取,只要最終能夠?qū)崿F(xiàn)遍歷所有信息,使任意兩個信息之間的關(guān)系均得以確定即可。
如圖3所示為獲取的不同網(wǎng)站的兩個用戶信息的示例圖。
來自網(wǎng)絡(luò)站點微博的用戶信息,其中包括:信息來源:微博、微博標(biāo)識(id):00001、微博名稱:清風(fēng)、郵箱:123456@qq.com、……等等;
來自網(wǎng)絡(luò)站點知乎的用戶信息,其中包括:信息來源:知乎、知乎名稱:明月、郵箱:123456@qq.com、……等等。
步驟s203:根據(jù)選定的算法,計算兩個用戶信息所包含的信息記錄項的相關(guān)程度。
比如:當(dāng)包含第一指定屬性的信息記錄項時,確定兩個用戶信息是同一用戶的用戶信息;當(dāng)包含第二指定屬性的信息記錄項時,確定兩個用戶信息是具有包含關(guān)系的用戶信息;當(dāng)不包含第一指定屬性和第二指定屬性的信息記錄項、或包含有第三指定屬性的信息記錄項時,確定兩個用戶信息不是同一用戶的用戶信息。
社交網(wǎng)站上的用戶信息達到千萬甚至上億級別,可以使用分布式計算框架spark的graphx模塊來運行該數(shù)據(jù)規(guī)模的圖論算法。將所有社交用戶信息實體視作圖論算法中的單獨的結(jié)點。結(jié)點與結(jié)點之間的關(guān)系我們使用單向邊作為標(biāo)注。
例如上面例舉的來自微博站點的用戶信息與來自知乎站點的用戶信息,對其進行信息記錄項的運算,通過兩個節(jié)點所具有的信息結(jié)合判斷出兩個節(jié)點間的關(guān)系,并使用邊將兩個孤立結(jié)點連通.用戶信息判斷算法返回下列三種關(guān)系:
(1)聚合關(guān)系,及兩個信息為同一個用戶的用戶信息。
如圖3所示的來自知乎和微博的兩個用戶信息包含有能夠唯一標(biāo)識一個用戶的信息記錄項,即郵箱,所以這兩個信息是同一個用戶的用戶信息,這兩個用戶信息為節(jié)點,其連接邊的屬性為聚合,如圖4所示為聚合關(guān)系的示例圖,a與b通過算法判斷是同一個用戶的用戶信息時,使用merge標(biāo)記為該兩個節(jié)點的關(guān)聯(lián)關(guān)系。
(2)子集關(guān)系,即具有包含關(guān)系的用戶信息。
如圖5所示為子集關(guān)系的示例圖,發(fā)現(xiàn)a中所有的信息是b的一個子集,a中所有的信息僅是b的一部分,這兩個用戶信息為節(jié)點,其連接邊的屬性為子集,使用subset標(biāo)記為該兩個節(jié)點的關(guān)聯(lián)關(guān)系。
(3)相異關(guān)系,即不是同一用戶的用戶信息。
如圖6所示為相異關(guān)系的示例圖,判斷a與b不是一個用戶的用戶信息時,這兩個用戶信息為節(jié)點,其連接邊的屬性為相異,使用diff標(biāo)記為該兩個節(jié)點的關(guān)聯(lián)關(guān)系。
步驟204:是否處理完所有用戶信息。
若是,執(zhí)行步驟s205;若否,執(zhí)行步驟s202。
若未處理完所有用戶信息,則返回步驟s202繼續(xù)獲取未處理的用戶信息,直至任意兩個用戶信息的關(guān)聯(lián)關(guān)系都確定完。
步驟s205:以用戶信息為節(jié)點,建立模型。
根據(jù)確定出的用戶信息之間的關(guān)聯(lián)關(guān)系,構(gòu)造以用戶信息為節(jié)點的用戶信息聚合超集模型。
步驟s206:為用戶信息聚合超集模型中每兩個節(jié)點的連接邊標(biāo)注對應(yīng)兩個的兩個用戶信息的關(guān)聯(lián)關(guān)系。
確定兩個用戶信息之間的關(guān)聯(lián)關(guān)系后,可以用邊來連接兩個用戶信息節(jié)點,其中,每兩個用戶信息節(jié)點之間通過單向邊連接,單向邊表明用戶信息之間的關(guān)聯(lián)關(guān)系是同一用戶,包含的關(guān)系,還是互異的關(guān)系。
步驟s207:得到用戶信息聚合超集模型。
建立的用戶信息聚合超集模型的任意兩節(jié)點間以單向邊標(biāo)注所對應(yīng)的兩個用戶信息的關(guān)聯(lián)關(guān)系。如圖8所示為建立的用戶信息聚合超集模型的示例圖,任意兩節(jié)點之間通過有向線段標(biāo)注其關(guān)聯(lián)關(guān)系:merge、subset、diff等等。
將所有subset,merge邊連接的連通結(jié)點群視作一個信息聚合超集,他聚合了多個信息結(jié)點的信息。經(jīng)過計算之后,能把不同來源的用戶信息聚合成一個信息模型。在之后的分析中能獲得更為豐富的人物信息,通過人工標(biāo)注的測試集,對該關(guān)系判斷算法進行準(zhǔn)確率,與召回率的統(tǒng)計,基于該結(jié)果完成關(guān)系判斷算法的迭代提高。
優(yōu)選的,上述方法還包括:用戶使用建立的用戶信息聚合超集模型查詢用戶信息的過程,其流程如圖8所示,包括如下步驟:
步驟s301:接收到用戶信息查詢請求時,根據(jù)查詢請求中包含的查詢條件,查詢建立的聚合超集模型。
用戶信息查詢請求可以由客戶端發(fā)送給聚合服務(wù)器。也可以由客戶端發(fā)送給網(wǎng)站服務(wù)器后再由網(wǎng)站服務(wù)器發(fā)送給聚合服務(wù)器。查詢請求中包含用戶設(shè)置的查詢條件。
步驟s302:當(dāng)查詢到用戶信息聚合超集模型中的有節(jié)點對應(yīng)的用戶信息與包含的查詢條件相匹配時,確定與該節(jié)點具有關(guān)聯(lián)關(guān)系的節(jié)點。
只要在用戶信息聚合超集模型中任一節(jié)點發(fā)現(xiàn)與查詢條件相匹配的用戶信息記錄項,則確定與該節(jié)點具有關(guān)聯(lián)關(guān)系的其他節(jié)點,尤其是關(guān)聯(lián)關(guān)系為聚合與子集關(guān)系的節(jié)點。
步驟s303:將該節(jié)點對應(yīng)用戶信息、其關(guān)聯(lián)關(guān)系為同一用戶信息的節(jié)點對應(yīng)的用戶信息、其關(guān)聯(lián)關(guān)系為有包含關(guān)系的節(jié)點對應(yīng)的用戶信息反饋給發(fā)送查詢請求的用戶。
建立用戶信息聚合超集模型后,可以實現(xiàn)用戶信息可視化查詢。
使用neo4j圖數(shù)據(jù)支持的可視化查詢模塊,能夠針對節(jié)點屬性中的某個屬性進行查詢,例如姓名李磊,然后聚合服務(wù)器可以會返回包含李磊的信息聚合超集。通過使用spark計算出來的結(jié)點與邊的關(guān)系使用neo4j能快速的相應(yīng)相關(guān)查詢。并且neo4j提供可視化的結(jié)果返回。參見圖7所示的,當(dāng)查詢時能夠可視化返回信息聚合超集。其中,neo4j是一個高性能的,nosql圖形數(shù)據(jù)庫。nosql是非關(guān)系型的數(shù)據(jù)庫。
本發(fā)明實施例的上述方法,用于互聯(lián)網(wǎng)大數(shù)據(jù)處理,實現(xiàn)圖數(shù)據(jù)庫模式的信息管理。旨在發(fā)掘社交用戶信息之間的聯(lián)系,完成多個社交平臺用戶信息主體間的聚合。以圖數(shù)據(jù)庫的基礎(chǔ),圖節(jié)點中存儲用戶信息,以邊的方式來建立用戶信息之間的關(guān)系,節(jié)點通過邊構(gòu)造出圖模型,其中一個聯(lián)通子圖則對等于碎片化的用戶信息聚合成一個信息集合。
上述方法解決了目前大部分信息管理型數(shù)據(jù)庫無法聚合用戶信息的問題,實現(xiàn)了能夠?qū)⒉煌W(wǎng)絡(luò)站點的社交用戶信息實體構(gòu)造關(guān)系,能夠標(biāo)識出同一用戶在不同社交網(wǎng)站上面留下的部分相同的信息,能為之后的用戶畫像或者是用戶特征分析提供更加完備的用戶信息。
基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供一種用戶信息聚合系統(tǒng),該系統(tǒng)的結(jié)構(gòu)如圖9所示,包括:聚合服務(wù)器901、網(wǎng)站服務(wù)器902和客戶端903。
聚合服務(wù)器901中包括用戶信息聚合裝置,用于獲取用戶在各社交網(wǎng)站使用的用戶信息;根據(jù)用戶信息中包括的信息記錄項,確定任意兩個用戶信息之間關(guān)聯(lián)關(guān)系;根據(jù)確定出的用戶信息之間的關(guān)聯(lián)關(guān)系,構(gòu)造以用戶信息為節(jié)點的用戶信息聚合超集模型,其中,用戶信息聚合超集模型的任意兩節(jié)點間以單向邊標(biāo)注所對應(yīng)的兩個用戶信息的關(guān)聯(lián)關(guān)系。
網(wǎng)站服務(wù)器902,用于向聚合服務(wù)器901上報客戶端903登錄網(wǎng)站時所使用的用戶信息。
優(yōu)選的,上述客戶端903,還用于發(fā)送用戶信息查詢請求給網(wǎng)站服務(wù)器902;相應(yīng)的,網(wǎng)站服務(wù)器902,還用于將用戶信息查詢請求發(fā)送給聚合服務(wù)器901,并將聚合服務(wù)器901返回的用戶信息查詢結(jié)果提供給客戶端903.
或優(yōu)選的,上述客戶端903,還用于發(fā)送用戶信息查詢請求給聚合服務(wù)器901;相應(yīng)的,聚合服務(wù)器901,還用于向客戶端903返回用戶信息查詢結(jié)果。
基于同一發(fā)明構(gòu)思,本發(fā)明實施例還提供一種用戶信息聚合裝置,該裝置可以設(shè)置在聚合服務(wù)器中,也可以設(shè)置在任一網(wǎng)站的網(wǎng)站服務(wù)器中,該裝置的結(jié)構(gòu)如圖10所示,包括:獲取模塊101、確定模塊102和建立模塊103。
獲取模塊101,用于獲取用戶在各社交網(wǎng)站使用的用戶信息。
確定模塊102,用于根據(jù)用戶信息中包括的信息記錄項,確定任意兩個用戶信息之間關(guān)聯(lián)關(guān)系。
建立模塊103,用于根據(jù)確定出的用戶信息之間的關(guān)聯(lián)關(guān)系,構(gòu)造以用戶信息為節(jié)點的用戶信息聚合超集模型,其中,用戶信息聚合超集模型的任意兩節(jié)點間以單向邊標(biāo)注所對應(yīng)的兩個用戶信息的關(guān)聯(lián)關(guān)系。
優(yōu)選的,上述確定模塊102,具體用于依次獲取兩個用戶信息,針對獲取的兩個用戶信息,執(zhí)行下列操作:
根據(jù)選定的算法,計算兩個用戶信息所包含的信息記錄項的相關(guān)程度;
當(dāng)包含第一指定屬性的信息記錄項時,確定兩個用戶信息是同一用戶的用戶信息;
當(dāng)包含第二指定屬性的信息記錄項時,確定兩個用戶信息是具有包含關(guān)系的用戶信息;
當(dāng)不包含第一指定屬性和第二指定屬性的信息記錄項、或包含有第三指定屬性的信息記錄項時,確定兩個用戶信息不是同一用戶的用戶信息;
直至任意兩個用戶信息的關(guān)聯(lián)關(guān)系都確定完。
優(yōu)選的,上述裝置還包括:
查詢模塊104,用于接收到用戶信息查詢請求時,根據(jù)查詢請求中包含的查詢條件,查詢建立的聚合超集模型;當(dāng)查詢到用戶信息聚合超集模型中的有節(jié)點對應(yīng)的用戶信息與查詢條件相匹配時,確定與該節(jié)點具有關(guān)聯(lián)關(guān)系的節(jié)點;將該節(jié)點對應(yīng)用戶信息、其關(guān)聯(lián)關(guān)系為同一用戶信息的節(jié)點對應(yīng)的用戶信息、其關(guān)聯(lián)關(guān)系為有包含關(guān)系的節(jié)點對應(yīng)的用戶信息反饋給發(fā)送查詢請求的用戶。
關(guān)于上述實施例中的用戶信息聚合裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實施例中進行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。
本發(fā)明實施例的上述方法、系統(tǒng)和裝置,用戶通過該方法能夠?qū)⒘闵⒌纳缃痪W(wǎng)站的用戶信息構(gòu)建出網(wǎng)絡(luò)結(jié)構(gòu)模型圖,連通圖形成的簇狀網(wǎng)絡(luò)對外標(biāo)識為統(tǒng)一主體,能夠顯著的提高一個主體的信息量。使得基于用戶信息與用戶行為特征分析能夠獲得覆蓋面廣,信息量大的分析數(shù)據(jù),從而有效的提升分析結(jié)果的質(zhì)量,而且該系統(tǒng)能夠使用spark的并行化計算承載數(shù)千萬級別的結(jié)點數(shù)目的圖算法,而且結(jié)合neo4j圖數(shù)據(jù)庫,能快速相應(yīng)搜索以及可視化搜索結(jié)果。
除非另外具體陳述,術(shù)語比如處理、計算、運算、確定、顯示等等可以指一個或更多個處理或者計算系統(tǒng)、或類似設(shè)備的動作和/或過程,所述動作和/或過程將表示為處理系統(tǒng)的寄存器或存儲器內(nèi)的物理(如電子)量的數(shù)據(jù)操作和轉(zhuǎn)換成為類似地表示為處理系統(tǒng)的存儲器、寄存器或者其他此類信息存儲、發(fā)射或者顯示設(shè)備內(nèi)的物理量的其他數(shù)據(jù)。信息和信號可以使用多種不同的技術(shù)和方法中的任何一種來表示。例如,在貫穿上面的描述中提及的數(shù)據(jù)、指令、命令、信息、信號、比特、符號和碼片可以用電壓、電流、電磁波、磁場或粒子、光場或粒子或者其任意組合來表示。
應(yīng)該明白,公開的過程中的步驟的特定順序或?qū)哟问鞘纠苑椒ǖ膶嵗??;谠O(shè)計偏好,應(yīng)該理解,過程中的步驟的特定順序或?qū)哟慰梢栽诓幻撾x本公開的保護范圍的情況下得到重新安排。所附的方法權(quán)利要求以示例性的順序給出了各種步驟的要素,并且不是要限于所述的特定順序或?qū)哟巍?/p>
在上述的詳細(xì)描述中,各種特征一起組合在單個的實施方案中,以簡化本公開。不應(yīng)該將這種公開方法解釋為反映了這樣的意圖,即,所要求保護的主題的實施方案需要清楚地在每個權(quán)利要求中所陳述的特征更多的特征。相反,如所附的權(quán)利要求書所反映的那樣,本發(fā)明處于比所公開的單個實施方案的全部特征少的狀態(tài)。因此,所附的權(quán)利要求書特此清楚地被并入詳細(xì)描述中,其中每項權(quán)利要求獨自作為本發(fā)明單獨的優(yōu)選實施方案。
本領(lǐng)域技術(shù)人員還應(yīng)當(dāng)理解,結(jié)合本文的實施例描述的各種說明性的邏輯框、模塊、電路和算法步驟均可以實現(xiàn)成電子硬件、計算機軟件或其組合。為了清楚地說明硬件和軟件之間的可交換性,上面對各種說明性的部件、框、模塊、電路和步驟均圍繞其功能進行了一般地描述。至于這種功能是實現(xiàn)成硬件還是實現(xiàn)成軟件,取決于特定的應(yīng)用和對整個系統(tǒng)所施加的設(shè)計約束條件。熟練的技術(shù)人員可以針對每個特定應(yīng)用,以變通的方式實現(xiàn)所描述的功能,但是,這種實現(xiàn)決策不應(yīng)解釋為背離本公開的保護范圍。
結(jié)合本文的實施例所描述的方法或者算法的步驟可直接體現(xiàn)為硬件、由處理器執(zhí)行的軟件模塊或其組合。軟件模塊可以位于ram存儲器、閃存、rom存儲器、eprom存儲器、eeprom存儲器、寄存器、硬盤、移動磁盤、cd-rom或者本領(lǐng)域熟知的任何其它形式的存儲介質(zhì)中。一種示例性的存儲介質(zhì)連接至處理器,從而使處理器能夠從該存儲介質(zhì)讀取信息,且可向該存儲介質(zhì)寫入信息。當(dāng)然,存儲介質(zhì)也可以是處理器的組成部分。處理器和存儲介質(zhì)可以位于asic中。該asic可以位于用戶終端中。當(dāng)然,處理器和存儲介質(zhì)也可以作為分立組件存在于用戶終端中。
對于軟件實現(xiàn),本申請中描述的技術(shù)可用執(zhí)行本申請所述功能的模塊(例如,過程、函數(shù)等)來實現(xiàn)。這些軟件代碼可以存儲在存儲器單元并由處理器執(zhí)行。存儲器單元可以實現(xiàn)在處理器內(nèi),也可以實現(xiàn)在處理器外,在后一種情況下,它經(jīng)由各種手段以通信方式耦合到處理器,這些都是本領(lǐng)域中所公知的。
上文的描述包括一個或多個實施例的舉例。當(dāng)然,為了描述上述實施例而描述部件或方法的所有可能的結(jié)合是不可能的,但是本領(lǐng)域普通技術(shù)人員應(yīng)該認(rèn)識到,各個實施例可以做進一步的組合和排列。因此,本文中描述的實施例旨在涵蓋落入所附權(quán)利要求書的保護范圍內(nèi)的所有這樣的改變、修改和變型。此外,就說明書或權(quán)利要求書中使用的術(shù)語“包含”,該詞的涵蓋方式類似于術(shù)語“包括”,就如同“包括,”在權(quán)利要求中用作銜接詞所解釋的那樣。此外,使用在權(quán)利要求書的說明書中的任何一個術(shù)語“或者”是要表示“非排它性的或者”。