本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)的生成方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,產(chǎn)生和捕獲的數(shù)據(jù)量迅猛增長,使得現(xiàn)代社會逐步邁進大數(shù)據(jù)時代,在大數(shù)據(jù)時代中社交網(wǎng)絡(luò)的應(yīng)用越來越廣泛,隨之增加的是越來越多的人愿意在交互的社交網(wǎng)絡(luò)中分享各自的見聞感受。
在社交關(guān)系網(wǎng)絡(luò)挖掘的業(yè)務(wù)場景中,通常需要接近于現(xiàn)實生活場景中的社交關(guān)系信息,例如,人與人之間的通訊。在挖掘社交關(guān)系網(wǎng)絡(luò)時,通常需要模擬本體之間的通訊關(guān)系,其中,所述本體包括社交關(guān)系中的個人及其電話號碼,該電話號碼是在挖掘社交關(guān)系網(wǎng)絡(luò)時個人的唯一身份標識。社交關(guān)系網(wǎng)絡(luò)的挖掘過程依賴于電話號碼,雖然可以很好的生成通訊關(guān)系網(wǎng)絡(luò),但是隨著科技的不斷進步,人與人之間的通訊交往不限于使用移動電話或者固定電話,人與人之間的通訊還可以通過同行、同住、同家族等多維度社會屬性信息,因此,依賴單一維度信息生成的社交關(guān)系網(wǎng)絡(luò)不能滿足當今社會多維度社會屬性信息的查詢。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供一種數(shù)據(jù)的生成方法及裝置,主要目的在于解決依賴單一維度信息生成的社交關(guān)系網(wǎng)絡(luò)不能滿足當今社會多維度社會屬性信息的查詢的問題。
為達到上述目的,本發(fā)明提供如下技術(shù)方案:
一方面,本發(fā)明提供一種數(shù)據(jù)的生成方法,包括:
獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,所述本體編號包含唯一的社交身份標識;
根據(jù)所述本體編號生成開戶信息表;
根據(jù)社交行為構(gòu)造社交屬性信息表;所述社交屬性信息表中包含社交 信息編號,所述社交信息編號為對社交行為構(gòu)造的信息編號;
基于所述社交信息編號與所述開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò)。
另一方面,本發(fā)明提供的一種數(shù)據(jù)的生成裝置,包括:
第一獲取單元,用于獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,所述本體編號包含唯一的社交身份標識;
生成單元,用于根據(jù)所述第一獲取單元獲取的所述本體編號生成開戶信息表;
第一構(gòu)造單元,用于根據(jù)社交行為構(gòu)造社交屬性信息表;所述社交屬性信息表中包含社交信息編號,所述社交信息編號為對社交行為構(gòu)造的信息編號;
第二構(gòu)造單元,用于基于所述第一構(gòu)造單元構(gòu)造的所述社交信息編號與所述生成單元生成的所述開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò)。
借由上述技術(shù)方案,本發(fā)明實施例提供的技術(shù)方案至少具有下列優(yōu)點:
本發(fā)明提供的一種數(shù)據(jù)的生成方法及裝置,首先,獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,該本體編號包含唯一的社交身份標識;根據(jù)本體編號生成開戶信息表;其次,根據(jù)社交行為構(gòu)造社交屬性信息表,該社交屬性信息表中包含社交信息編號,社交信息編號為對社交行為構(gòu)造的信息編號;最后,基于社交信息編號與開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò);與現(xiàn)有技術(shù)中只依賴于單一維度信息生成社交關(guān)系網(wǎng)絡(luò)相比,本發(fā)明能夠從多維度的社交行為生成社交關(guān)系網(wǎng)絡(luò),可以從社交行為中的任意維度信息對社交關(guān)系網(wǎng)絡(luò)進行查詢,能夠滿足當今大數(shù)據(jù)時代的查詢、獲取信息的需求。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目 的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發(fā)明實施例提供的一種數(shù)據(jù)的生成方法的流程圖;
圖2示出了本發(fā)明實施例提供的關(guān)系網(wǎng)絡(luò)的示意圖;
圖3示出了本發(fā)明實施例提供的一種數(shù)據(jù)的生成裝置的組成框圖;
圖4示出了本發(fā)明實施例提供的另一種數(shù)據(jù)的生成裝置的組成框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
本發(fā)明實施例提供一種數(shù)據(jù)的生成方法,如圖1所示,該方法包括:
101、獲取本體編號。
本發(fā)明實施例中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,所述本體編號包含唯一的社交身份標識。
在實際應(yīng)用中,本體代表一個關(guān)系網(wǎng)絡(luò)中的一個廣義人,即包括一個人及其所有具有社交身份標識,所述社交身份標識可以包含但不局限于以下內(nèi)容:例如,身份證號碼、手機號碼、微信號碼、qq號碼、人人網(wǎng)賬號、臉譜(facebook)賬號、貼吧賬戶、微博賬戶等等,需要說明的是,在本發(fā)明實施例中,以下的實施例是以社交身份標識為身份證號碼或者手機號碼為例進行的說明;本發(fā)明實施例對社交身份標識的具體形式不作限定。
102、根據(jù)所述本體編號生成開戶信息表。
在具體實施時,開戶信息表中記錄的屬性信息包括:手機號碼及使用該手機號碼的身份證號碼。
103、根據(jù)社交行為構(gòu)造社交屬性信息表。
所述社交屬性信息表中包含社交信息編號,所述社交信息編號為對社交行為構(gòu)造的信息編號,該社交信息編號是唯一的。需要說明的是,步驟102中的開戶信息表與本步驟的社交屬性信息表是相輔相成的。
本發(fā)明實施例中,所述社交行為包括但不局限于以下內(nèi)容,例如:社交關(guān)系網(wǎng)絡(luò)中人與人之間的通訊、同住、同行、同家族及個人的行為軌跡;對應(yīng)于社交行為,所述社交屬性信息表包括:通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表。
104、基于所述社交信息編號與所述開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò)。
將社交信息編號與本體編號進行結(jié)合,共同構(gòu)成關(guān)系網(wǎng)絡(luò),以圖示的形式生成社交關(guān)系網(wǎng)絡(luò)。在構(gòu)造關(guān)系網(wǎng)絡(luò)時,包含所述本體編號的開戶信息表為頂點,包含所述社交信息編號的至少兩個社交屬性信息表為子集。
本發(fā)明實施例提供的一種數(shù)據(jù)的生成方法,首先,獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,該本體編號包含唯一的社交身份標識;根據(jù)本體編號生成開戶信息表;其次,根據(jù)社交行為構(gòu)造社交屬性信息表,該社交屬性信息表中包含社交信息編號,社交信息編號為對社交行為構(gòu)造的信息編號;最后,基于社交信息編號與開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò);與現(xiàn)有技術(shù)中只依賴于單一維度信息生成社交關(guān)系網(wǎng)絡(luò)相比,本發(fā)明能夠從多維度的社交行為生成社交關(guān)系網(wǎng)絡(luò),可以從社交行為中的任意維度信息對社交關(guān)系網(wǎng)絡(luò)進行查詢,能夠滿足當今大數(shù)據(jù)時代的查詢、獲取信息的需求。
進一步的,作為對圖1所示方法的細化和擴展,步驟101在獲取本體編號過程中,首先需要生成本體編號表,該本體編號表用于記錄所述本體編號,并且為本體編號分配唯一的社交身份標識,獲取分配社交身份標識后的本體編號。對本體編號分配唯一的社交身份標識,其目的在于,建立本體編號與社交身份標識的一一對應(yīng)關(guān)系。
在本發(fā)明實施例中,生成本體編號表需要根據(jù)生成本體的實際規(guī)模進行設(shè)置,為了確保本體編號表能夠完全記錄本體編號,在生成本體編號表時其大小要等于或者大于本體的實際規(guī)模。示例性的,若生成本體的數(shù)量為100萬,在生成本體編號表時,其數(shù)量為100萬或者100.1萬等等,本發(fā)明實施例對本體的數(shù)量及本體編號表等內(nèi)容不進行限定。
為了便于對本體編號表的統(tǒng)一管理,在生成本體編號表的過程中每個 本體生成唯一的編號,即本體編號,編號方式可以包含但不局限于使用單一阿拉伯數(shù)字編號、單一希臘字母或者阿拉伯數(shù)字與希臘字母的結(jié)合編號等等。示例性的,若本體數(shù)量為100萬,在對本體進行編號時可通過數(shù)字1-1000000進行編號標識。本發(fā)明實施例對本體編號的具體實現(xiàn)方式不進行限定。
需要說明的是,生成的本體編號表僅記錄有對本體的本體編號,而不涉及本體本身,即本體編號與本體沒有一一對應(yīng)的關(guān)系;示例性的,假設(shè),本體編號為001,在該本體編號中加入的社交身份標識可能是張三的社交身份標識,也可能是李四的社交身份標識;本體編號為002,在本體編號中加入的社交身份標識也可能是張三的社交身份標識,也可能只王五的社交身份標識;以上僅為示例性的舉例,本發(fā)明實施例對此不作限定。
為本體編號分配的社交身份標識具有唯一性,承由上述的示例,若本體編號001中分配了李四的社交身份標識,則本體編號001中不會再被分配張三的社交身份標識或者王五的社交身份標識;若本體編號002中分配了張三的社交身份標識,則本體編號002中不會再分配李四的社交身份標識或者王五的社交身份標識。
進一步的,根據(jù)社交行為構(gòu)造社交屬性信息表,根據(jù)社交行為生成其對應(yīng)的唯一標識信息,基于該唯一標識信息構(gòu)造社交屬性信息表,該社交屬性信息表包含多維度信息,從社交屬性信息表中的任意表中,通過社交行為的唯一標識信息均可查詢、獲取關(guān)系網(wǎng)絡(luò)中的個人信息。
進一步的,社交屬性信息表作為構(gòu)成關(guān)系網(wǎng)絡(luò)的必要信息,以下將詳細說明當社交屬性信息表包含通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表時,社交屬性信息表的具體構(gòu)造過程。
(一)當所述社交屬性信息表為所述通訊信息表時,基于所述唯一標識信息構(gòu)造所述社交屬性信息表。
當所述社交屬性信息表為所述通訊信息表時,根據(jù)基站信息獲取不同本體編號之間的通訊信息,根據(jù)冪律分布函數(shù)及通訊信息構(gòu)造通訊信息表。其中,所述基站信息為個運營商基站的經(jīng)緯度信息。本發(fā)明實施例中,通過統(tǒng)計冪律分布函數(shù)的各種指標(通訊信息),將統(tǒng)計的各種指標擬合成 冪律分布函數(shù),構(gòu)造通訊信息表。
(二)當所述社交屬性信息表為所述同住關(guān)系表時,基于所述唯一標識信息構(gòu)造所述社交屬性信息表。
首先,從互聯(lián)網(wǎng)中獲取第一預(yù)置時間段內(nèi)的酒店信息,該酒店信息包括但不局限于以下內(nèi)容:酒店名稱、酒店房間數(shù)及酒店所屬基站信息等等,其中,所述酒店所屬基站信息包含酒店的具體地址;其次,對酒店信息構(gòu)造居住編號,所述居住編號是社交行為的唯一標識信息;最后,基于居住編號生成同住關(guān)系表。
示例性的,假設(shè),從互聯(lián)網(wǎng)中獲取2016/1/1-2016/2/29酒店i的酒店信息包括:酒店名稱為酒店i、酒店房間數(shù)為505、酒店所屬基站信息為(a°b'c",d°e'f"),在構(gòu)造居住編號時采用,i-001-a/b/c-d/e/f/、i-002-a/b/c-d/e/f…i-500-a/b/c-d/e/f。本發(fā)明實施例對構(gòu)造居住編號的方法不進行限定,能唯一標識居住編號的方式均可采用。
需要說明的是,同住關(guān)系表中記錄有身份證號碼與居住編號的對應(yīng)信息;在去酒店進行住宿時,通過需要通過身份證進行實名驗證,在同住關(guān)系表中,通過查詢身份證號碼即可查找該身份證號碼對應(yīng)的本體編號在關(guān)系網(wǎng)絡(luò)中的其他信息。
(三)當所述社交屬性信息表為所述同行關(guān)系表時,基于所述唯一標識信息構(gòu)造所述社交屬性信息表。
首先,從互聯(lián)網(wǎng)上獲取第二預(yù)置時間段內(nèi)的列車信息,該列車信息包括:列車車次信息、沿途各站信息及到沿途各站的時刻信息;其次,根據(jù)獲取的列車信息構(gòu)造出行編號;最后,基于出行編號生成同行關(guān)系表。其中,對構(gòu)造出行編號與構(gòu)造居住編號的實現(xiàn)方式相同,請參考上述有關(guān)居住編號的詳細描述,本發(fā)明實施例在此不再進行贅述。
需要說明的是,同行關(guān)系表中記錄有身份證號碼與出行編號的對應(yīng)信息;在搭乘列車時,通過需要通過身份證進行實名驗證,在同行關(guān)系表中,通過查詢身份證號碼即可查找該身份證號碼對應(yīng)的本體編號在關(guān)系網(wǎng)絡(luò)中的其他信息。
(四)當所述社交屬性信息表為所述同家族關(guān)系表時,基于所述唯一標 識信息構(gòu)造所述社交屬性信息表。
從本體編號表中確定核心家族成員,根據(jù)冪律分布函數(shù)計算核心家族成員對應(yīng)的家族規(guī)模,根據(jù)家族規(guī)模及本體編號選擇其他本體編號加入核心家族成員所在的家族,并生成同家族關(guān)系表。
在實際操作時,由于本發(fā)明實施例面向的是大規(guī)模數(shù)據(jù),在從本體編號中確定核心家族成員時,通過隨機選取的方式確定核心家族成員。確定出核心家族成員之后,基于冪律分布函數(shù)、概率衰減表計算核心家族成員對應(yīng)的家族規(guī)模,其中所述概率衰減表中記錄有以各個本體編號為起點的不同家族規(guī)模,并包含不同家族規(guī)模對應(yīng)的概率,示例性的,概率衰減表中記錄有80%的家族規(guī)模為3,8%的家族規(guī)模為4,0.8%的家族規(guī)模為5…,每個家族生成一個隨機數(shù),根據(jù)隨機數(shù)即可求出該家族的家族規(guī)模。
(五)當所述社交屬性信息表為所述人員軌跡表時,基于所述唯一標識信息構(gòu)造所述社交屬性信息表。
針對各個本體編號分別隨機生成預(yù)設(shè)數(shù)量的位置信息,設(shè)置預(yù)設(shè)數(shù)量的位置信息的到達概率,當確定本體編號出現(xiàn)在第一位置時,根據(jù)馬爾科夫隨機過程計算本體編號到第二位置的隨機概率;其中,第一位置為預(yù)設(shè)數(shù)量的位置信息中的任意一個位置,第二位置為預(yù)設(shè)數(shù)量的位置中除第一位置外的所有位置,將隨機概率最大值對應(yīng)的第二位置確定為本體編號待前往的目的地位置,生成從第一位置到目的地位置的軌跡。
在本發(fā)明實施例中,針對各個本體編號分別隨機生成預(yù)設(shè)數(shù)量的位置信息為各個本體編號經(jīng)常到達的位置信息,分別對預(yù)設(shè)數(shù)量的常去位置信息設(shè)置到達概率,在對預(yù)設(shè)數(shù)量經(jīng)常到達的位置信息設(shè)置到達概率時,需要根據(jù)各個本體編號該些預(yù)設(shè)數(shù)量的位置信息的次數(shù)設(shè)置,本體編號到達位置信息的次數(shù)越多,其設(shè)置位置信息的到達概率越大,本體編號到達位置信息的次數(shù)越少,其設(shè)置位置信息的到達概率越小。在本發(fā)明實施例中,有關(guān)根據(jù)馬爾科夫隨機過程計算本體編號到第二位置的隨機概率的實現(xiàn)方式,請參考現(xiàn)有技術(shù)中的詳細描述,本發(fā)明實施例在此不再進行贅述。
進一步的,在生成從第一位置到目的地位置的軌跡之后,由于該軌跡是在隨著本體的移動而改變的,因此,需要對該軌跡進行及時更新。首先, 判斷通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表中的數(shù)據(jù)是否與軌跡存在關(guān)聯(lián)關(guān)系,若確定存在關(guān)聯(lián)關(guān)系,則將通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表中與軌跡相關(guān)聯(lián)的數(shù)據(jù)對軌跡進行更新。在具體實施過程中,同家族關(guān)系表中的數(shù)據(jù)通常不會有太大的更新,在社交關(guān)系網(wǎng)絡(luò)中,人與人之間的通訊、同行、同住,可能會隨著時間的變化而變化,因此,可以基于通訊信息表、同住關(guān)系表、同行關(guān)系表中與軌跡相關(guān)聯(lián)的數(shù)據(jù)對軌跡進行更新。
進一步的,上述實施例已詳細說明了通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表的構(gòu)造過程,在生成關(guān)系網(wǎng)絡(luò)時,基于通訊、同行、同住、同家族、個人的行為軌跡等多維度信息生成關(guān)系網(wǎng)絡(luò),在生成通訊信息表、同住關(guān)系表、同行關(guān)系表與人員軌跡表之后,將開戶信息表中的本體編號分別與通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表與人員軌跡表中的社交信息編號構(gòu)造關(guān)系網(wǎng)絡(luò),以圖示的形式將關(guān)系網(wǎng)絡(luò)進行展示,示例性的,如圖2所示,圖2示出了本發(fā)明實施例提供的關(guān)系網(wǎng)絡(luò)的示意圖,在各個表中均包含表對應(yīng)的唯一標識信息。其中,圖2僅為示例性的舉例,本發(fā)明實施例對通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表與人員軌跡表分別與開戶信息表的位置以及通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表與人員軌跡表、開戶信息表中的內(nèi)容進行限定。
進一步的,在實際應(yīng)用中,基于通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表中的社交信息編號與本體編號構(gòu)造的關(guān)系網(wǎng)絡(luò)可以包含但不局限于二部圖(或者二分圖)。為了構(gòu)造數(shù)據(jù)量更大的關(guān)系網(wǎng)絡(luò),通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表之間相互構(gòu)造關(guān)系網(wǎng)絡(luò),以滿足當今人們對大數(shù)據(jù)查詢、獲取的實際需求。
進一步的,以上示例詳細說明了開戶信息表中的本體編號分別與通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表與人員軌跡表中的社交信息編號構(gòu)成關(guān)系網(wǎng)絡(luò)的實施過程。在實際應(yīng)用中,隨著用戶對大數(shù)據(jù)查詢需求的不斷增大,本發(fā)明實施例還可以構(gòu)造通訊信息表、同住關(guān)系表、 同行關(guān)系表、同家族關(guān)系表與人員軌跡表之間的關(guān)系網(wǎng)絡(luò),例如,構(gòu)造通訊信息表與同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表、人員軌跡表之間的關(guān)系網(wǎng)絡(luò);或者,構(gòu)造同住關(guān)系表與通訊信息表、同行關(guān)系表、同家族關(guān)系表、人員軌跡表之間的關(guān)系網(wǎng)絡(luò)。構(gòu)造社交屬性信息表之間的關(guān)系網(wǎng)絡(luò),其步驟包括:分別獲取所述通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表中的社交信息編號;構(gòu)造社交信息編號與社交信息編號之間的關(guān)系網(wǎng)絡(luò)。需要說明的是,有關(guān)構(gòu)造社交信息編號與社交信息編號之間的關(guān)系網(wǎng)絡(luò)與基于社交信息編號與開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò)的具體操作流程類似,本發(fā)明實施例對構(gòu)造社交信息編號與社交信息編號之間的關(guān)系網(wǎng)絡(luò)的具體實現(xiàn)過程不再進行一一贅述。
進一步的,基于所述社交信息編號與所述開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò),基于隨機映射的方式將社交信息編號映射到開戶信息表中的本體編號中,構(gòu)造社交信息編號與本體編號之間的關(guān)系網(wǎng)絡(luò)。在具體實施時,將開戶信息表中的本體編號與社交信息編號作為兩個不同的集合,將兩個集合進行合并,構(gòu)成社交信息編號與本體編號之間的關(guān)系網(wǎng)絡(luò)。
進一步的,由于在關(guān)系網(wǎng)絡(luò)挖掘的業(yè)務(wù)場景中,經(jīng)常需要接近于真實場景的大規(guī)模關(guān)系網(wǎng)絡(luò)數(shù)據(jù),而真實場景中,一個人可能會有多個電話號碼或者電話號碼是匿名使用的,可能在挖掘關(guān)系網(wǎng)絡(luò)的過程中,會偏離真實數(shù)據(jù)。為解決上述問題,本發(fā)明實施例在根據(jù)分配社交身份標識后的本體編號生成開會信息表時,從全部分配社交身份標識后的本體編號中選取預(yù)設(shè)數(shù)量的分配社交身份標識后的本體編號,并生成偽造數(shù)據(jù),該偽造數(shù)據(jù)為模擬社交身份標識生成的數(shù)據(jù);根據(jù)預(yù)設(shè)數(shù)量的分配社交身份標識后的本體編號與偽造數(shù)據(jù)生成所述開戶信息表。本發(fā)明實施例中,通過偽造數(shù)據(jù)模擬真實場景中通訊公司存儲的手機號碼開戶記錄與手機號碼真實的使用者不相符的情況,以確保挖掘關(guān)系網(wǎng)絡(luò)的更接近于真實場景。
進一步的,在為本體編號分配唯一的社交身份標識過程中,為了避免不同的本體分配到相同的社交身份標識,基于哈希規(guī)則本體編號分配唯一的社交身份標識,該社交身份標識包括身份證號碼或手機號碼。
進一步的,作為對上述圖1所示方法的實現(xiàn),本發(fā)明另一實施例還提 供了一種數(shù)據(jù)的生成裝置。該裝置實施例與前述方法實施例對應(yīng),為便于閱讀,本裝置實施例不再對前述方法實施例中的細節(jié)內(nèi)容進行逐一贅述,但應(yīng)當明確,本實施例中的裝置能夠?qū)?yīng)實現(xiàn)前述方法實施例中的全部內(nèi)容。
本發(fā)明實施例提供一種數(shù)據(jù)的生成裝置,如圖3所示,該裝置包括:
第一獲取單元31,用于獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,所述本體編號包含唯一的社交身份標識;
生成單元32,用于根據(jù)所述第一獲取單元31獲取的所述本體編號生成開戶信息表;
第一構(gòu)造單元33,用于根據(jù)社交行為構(gòu)造社交屬性信息表;所述社交屬性信息表中包含社交信息編號,所述社交信息編號為對社交行為構(gòu)造的信息編號;
第二構(gòu)造單元34,用于基于所述第一構(gòu)造單元33構(gòu)造的所述社交信息編號與所述生成單元32生成的所述開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò)。
進一步的,如圖4所示,所述第一獲取單元31包括:
生成子單元311,用于生成本體編號表;其中,所述本體編號表用于記錄所述本體編號;
分配子單元312,用于為所述生成子單元311生成的所述本體編號分配唯一的所述社交身份標識;
獲取子單元313,用于獲取所述分配子單元312分配社交身份標識后的本體編號。
進一步的,如圖4所示,其特征在于,所述第一構(gòu)造單元33包括:
生成子單元331,用于根據(jù)所述社交行為生成其對應(yīng)的唯一標識信息;
構(gòu)造子單元332,用于基于所述生成子331單元生成的所述唯一標識信息構(gòu)造所述社交屬性信息表。
進一步的,所述社交行為包括所述社交關(guān)系網(wǎng)絡(luò)中人與人之間的通訊、同住、同行、同家族及個人的行為軌跡;
所述社交屬性信息表包括:通訊信息表、同住關(guān)系表、同行關(guān)系表、 同家族關(guān)系表及人員軌跡表。
進一步的,如圖4所示,當所述社交屬性信息表為所述通訊信息表時,所述構(gòu)造子單元332包括:
第一獲取模塊3321,用于根據(jù)基站信息獲取不同本體編號之間的通訊信息,所述基站信息為各運營商基站的經(jīng)緯度信息;
第一構(gòu)造模塊3322,用于根據(jù)冪律分布函數(shù)及所述獲取模塊3321獲取的所述通訊信息構(gòu)造所述通訊信息表。
進一步的,如圖4所示,當所述社交屬性信息表為所述同住關(guān)系表時,所述構(gòu)造子單元332包括:
第二獲取模塊3323,用于獲取第一預(yù)置時間段內(nèi)的酒店信息,酒店信息包括:酒店名稱、酒店房間數(shù)及酒店所屬基站信息;
第二構(gòu)造模塊3324,用于對所述第二獲取模塊3323獲取的所述酒店名稱、酒店房間數(shù)及酒店所屬基站信息構(gòu)造居住編號;
第一生成模塊3325,用于基于所述第二構(gòu)造模塊3324構(gòu)造的所述居住編號生成所述同住關(guān)系表。
進一步的,如圖4所示,當所述社交屬性信息表為所述同行關(guān)系表時,所述構(gòu)造子單元332包括:
第三獲取模塊3326,用于獲取第二預(yù)置時間段內(nèi)的列車信息;所述列車信息包括:列車車次信息、沿途各站信息及到沿途各站的時刻信息;
第三構(gòu)造模塊3327,用于基于所述第三獲取模塊3326獲取的所述列車車次信息、沿途各站信息及到沿途各站的時刻信息構(gòu)造出行編號;
第二生成模塊3328,用于基于所述第三構(gòu)造模塊3327構(gòu)造的所述出行編號生成所述同行關(guān)系表。
進一步的,如圖4所示,當所述社交屬性信息表為所述同家族關(guān)系表時,所述構(gòu)造子單元332包括:
第一確定模塊3329,用于從所述本體編號表中確定核心家族成員;
第一計算模塊33210,用于根據(jù)冪律分布函數(shù)計算所述確定模塊確定的所述核心家族成員對應(yīng)的家族規(guī)模;
處理模塊33211,根據(jù)所述家族規(guī)模及所述本體編號選擇其他本體編號 加入所述核心家族成員所在的家族,并生成所述同家族關(guān)系表。
進一步的,如圖4所示,當所述社交屬性信息表為所述人員軌跡表時,所述構(gòu)造子單元332包括:
第三生成模塊33212,用于針對各個本體編號分別隨機生成預(yù)設(shè)數(shù)量的位置信息;
設(shè)置模塊33213,用于設(shè)置所述第三生成模塊33212生成的所述預(yù)設(shè)數(shù)量的位置信息的到達概率;
第二計算模塊33214,用于當確定所述本體編號出現(xiàn)在第一位置時,根據(jù)馬爾科夫隨機過程計算所述本體編號到第二位置的隨機概率;其中,所述第一位置為所述預(yù)設(shè)數(shù)量的位置信息中的任意一個位置,所述第二位置為所述預(yù)設(shè)數(shù)量的位置中除所述第一位置外的所有位置;
第二確定模塊33215,用于將所述第二計算模塊33214計算的所述隨機概率最大值對應(yīng)的第二位置確定為所述本體編號待前往的目的地位置;
第四生成模塊33216,用于生成從所述第一位置到所述第二確定模塊確定的所述目的地位置的軌跡。
進一步的,如圖4所示,所述構(gòu)造子單元332還包括:
判斷模塊33217,用于判斷所述通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表中的數(shù)據(jù)是否與所述軌跡存在關(guān)聯(lián)關(guān)系;
更新模塊33218,用于當所述判斷模塊33217確定存在關(guān)聯(lián)關(guān)系時,將所述通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表中與所述軌跡相關(guān)聯(lián)的數(shù)據(jù)對所述軌跡進行更新。
進一步的,如圖4所示,所述裝置還包括:
第二獲取單元35,用于獲取所述通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表中的社交信息編號;
第三構(gòu)造單元36,用于構(gòu)造所述第二獲取單元35獲取的所述通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表中社交信息編號與社交信息編號之間的關(guān)系網(wǎng)絡(luò)。
進一步的,如圖4所示,所述第二構(gòu)造單元34包括:
映射子單元341,用于基于隨機映射的方式將所述社交信息編號映射到 所述開戶信息表中的本體編號;
構(gòu)造子單元342,用于構(gòu)造所述社交信息編號與所述本體編號之間的關(guān)系網(wǎng)絡(luò)。
進一步的,如圖4所示,所述生成單元32包括:
選取子單元321,用于從全部分配社交身份標識后的本體編號中選取預(yù)設(shè)數(shù)量的分配社交身份標識后的本體編號;
第一生成子單元322,用于生成偽造數(shù)據(jù),所述偽造數(shù)據(jù)為模擬所述社交身份標識生成的數(shù)據(jù);
第二生成子單元323,用于根據(jù)所述選取子單元321選取的所述預(yù)設(shè)數(shù)量的分配社交身份標識后的本體編號與所述第一生成子單元322生成的所述偽造數(shù)據(jù)生成所述開戶信息表。
進一步的,所述第二構(gòu)造單元34,還用于將所述開戶信息表中的本體編號分別與通訊信息表、同住關(guān)系表、同行關(guān)系表、同家族關(guān)系表及人員軌跡表構(gòu)造關(guān)系網(wǎng)絡(luò)。
進一步的,所述第二構(gòu)造單元34構(gòu)造的所述關(guān)系網(wǎng)絡(luò)包含二部圖。
進一步的,所述分配子單元312,還用于基于哈希規(guī)則為所述本體編號分配唯一的所述社交身份標識,所述社交身份標識包括身份證號碼或手機號碼。
本發(fā)明實施例提供的一種數(shù)據(jù)的生成裝置,首先,獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,該本體編號包含唯一的社交身份標識;根據(jù)本體編號生成開戶信息表;其次,根據(jù)社交行為構(gòu)造社交屬性信息表,該社交屬性信息表中包含社交信息編號,社交信息編號為對社交行為構(gòu)造的信息編號;最后,基于社交信息編號與開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò);與現(xiàn)有技術(shù)中只依賴于單一維度信息生成社交關(guān)系網(wǎng)絡(luò)相比,本發(fā)明能夠從多維度的社交行為生成社交關(guān)系網(wǎng)絡(luò),可以從社交行為中的任意維度信息對社交關(guān)系網(wǎng)絡(luò)進行查詢,能夠滿足當今大數(shù)據(jù)時代的查詢、獲取信息的需求。
所述數(shù)據(jù)的生成裝置包括處理器和存儲器,上述第一獲取單元、生成單元、第一構(gòu)造單元及第二構(gòu)造單元等均作為程序單元存儲在存儲器中, 由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來解決依賴單一維度信息生成的社交關(guān)系網(wǎng)絡(luò)不能滿足當今社會多維度社會屬性信息的查詢的問題。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取本體編號;其中,本體為社交關(guān)系網(wǎng)絡(luò)中的人或者社交身份標識,所述本體編號包含唯一的社交身份標識;根據(jù)所述本體編號生成開戶信息表;根據(jù)社交行為構(gòu)造社交屬性信息表;所述社交屬性信息表中包含社交信息編號,所述社交信息編號為對社交行為構(gòu)造的信息編號;基于所述社交信息編號與所述開戶信息表中的本體編號構(gòu)造關(guān)系網(wǎng)絡(luò)。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本申請是參照根據(jù)本申請實施例的圖表中圖形的顯示方法、裝置、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理 設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設(shè)備包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram)。存儲器是計算機可讀介質(zhì)的示例。
計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機存取存儲器(sram)、動態(tài)隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。
以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。