信息確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及大數(shù)據(jù)分析技術(shù),尤其涉及一種信息確定方法及裝置。
【背景技術(shù)】
[0002] 大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,大數(shù)據(jù)可以概括為4個(gè)V,數(shù)據(jù)量大 (Volume)、速度快(Velocity)、類型多(Variety)、真實(shí)性(Veracity),大數(shù)據(jù)分析較小規(guī) 模的數(shù)據(jù)分析,它的數(shù)據(jù)分析結(jié)果更加準(zhǔn)確,大數(shù)據(jù)分析的應(yīng)用為社會(huì)、經(jīng)濟(jì)和生產(chǎn)帶來了 巨大的變革和價(jià)值。
[0003] 數(shù)據(jù)融合技術(shù)是指利用計(jì)算機(jī)對(duì)按時(shí)序獲得的若干觀測(cè)信息,在一定準(zhǔn)則下加以 自動(dòng)分析、綜合,以完成所需的決策和評(píng)估任務(wù)而進(jìn)行的信息處理技術(shù),因此,跨領(lǐng)域的數(shù) 據(jù)融合將使大數(shù)據(jù)分析發(fā)揮更大的價(jià)值,兩個(gè)領(lǐng)域的數(shù)據(jù)融合將產(chǎn)生1+1>2的效果。
[0004] 假設(shè)要對(duì)同一用戶在不同領(lǐng)域中的實(shí)例數(shù)據(jù)進(jìn)行分析來估計(jì)該用戶的待預(yù)測(cè)屬 性信息,其中這里的實(shí)例數(shù)據(jù)包括多個(gè)屬性信息,比如:用戶A在移動(dòng)運(yùn)營商的實(shí)例數(shù)據(jù)包 括的屬性信息為:姓名、手機(jī)號(hào)、消費(fèi)信息等,而用戶A在銀行的實(shí)例數(shù)據(jù)包括的屬性信息 為:姓名、手機(jī)號(hào)、業(yè)務(wù)類型、該業(yè)務(wù)類型涉及金額等,通過這些已知屬性信息來估計(jì)用戶A 的待預(yù)測(cè)屬性信息,比如:性別、或者年齡等?,F(xiàn)有技術(shù)進(jìn)行大數(shù)據(jù)分析的過程是:首先根 據(jù)用戶A在移動(dòng)運(yùn)營商的標(biāo)識(shí)和在銀行的標(biāo)識(shí)實(shí)現(xiàn)兩個(gè)領(lǐng)域的數(shù)據(jù)融合,這里的標(biāo)識(shí)可以 是用戶A在移動(dòng)運(yùn)營商和銀行公共屬性信息,比如:姓名,實(shí)現(xiàn)數(shù)據(jù)融合只是按照明文的方 式進(jìn)行數(shù)據(jù)連接或者組合,然后再對(duì)融合后的數(shù)據(jù)進(jìn)行分析來估計(jì)該用戶的待預(yù)測(cè)屬性信 息。
[0005] 上述基于數(shù)據(jù)融合的數(shù)據(jù)分析過程可以稱為信息確定過程,由于現(xiàn)有技術(shù)中的信 息確定過程中實(shí)現(xiàn)數(shù)據(jù)融合只是按照明文的方式進(jìn)行數(shù)據(jù)連接或者組合,從而無法保證不 同領(lǐng)域數(shù)據(jù)之間的保密性。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明實(shí)施例提供一種信息確定方法及裝置,從而在保證不同領(lǐng)域數(shù)據(jù)之間的保 密性的情況下,融合多個(gè)領(lǐng)域數(shù)據(jù)來更加精確的確定待預(yù)測(cè)信息。
[0007] 第一方面,本發(fā)明實(shí)施例提供一種信息確定方法,該方法基于N個(gè)領(lǐng)域,N為大于 或者等于2的整數(shù),每個(gè)領(lǐng)域包括多個(gè)用戶的實(shí)例數(shù)據(jù),每個(gè)實(shí)例數(shù)據(jù)包括多個(gè)屬性信息, 同一用戶在N個(gè)領(lǐng)域中的實(shí)例數(shù)據(jù)存在至少一個(gè)公共屬性信息,同一用戶在N個(gè)領(lǐng)域中的 實(shí)例數(shù)據(jù)組成一個(gè)樣本,將樣本所包括的部分或者全部的已知屬性信息生成所述樣本的特 征向量,每個(gè)樣本的特征向量所包括的已知屬性信息個(gè)數(shù)相同,包括:
[0008] 估計(jì)待標(biāo)記樣本的特征向量與待預(yù)測(cè)屬性信息之間的關(guān)聯(lián)關(guān)系,其中待標(biāo)記樣本 為包括至少一個(gè)待預(yù)測(cè)屬性信息的樣本;
[0009] 將關(guān)聯(lián)關(guān)系分解為與N個(gè)領(lǐng)域一一對(duì)應(yīng)的N個(gè)子關(guān)聯(lián)關(guān)系,并將每個(gè)樣本的特征 向量分解為與N個(gè)領(lǐng)域--對(duì)應(yīng)的特征子向量;
[0010] 獲取每個(gè)領(lǐng)域中每個(gè)已標(biāo)記樣本的特征子向量代入對(duì)應(yīng)的子關(guān)聯(lián)關(guān)系得到的第 一數(shù)值;
[0011] 基于公共屬性信息將同一用戶在所述N個(gè)領(lǐng)域得到的第一數(shù)值求和得到估計(jì)的 屬性信息;估計(jì)的屬性信息為根據(jù)關(guān)聯(lián)關(guān)系和已標(biāo)記樣本的特征向量估計(jì)已標(biāo)記樣本中與 待預(yù)測(cè)屬性信息對(duì)應(yīng)的屬性信息,已標(biāo)記樣本為包括的所有屬性信息為已知屬性信息的樣 本;
[0012] 根據(jù)所有已標(biāo)記樣本的估計(jì)的屬性信息對(duì)應(yīng)的已知屬性信息和估計(jì)的屬性信息 確定關(guān)聯(lián)關(guān)系;
[0013] 根據(jù)確定的關(guān)聯(lián)關(guān)系和待標(biāo)記樣本的特征向量確定待標(biāo)記樣本的待預(yù)測(cè)屬性信 息。
[0014] 由于該方法中基于公共屬性信息將同一用戶在N個(gè)領(lǐng)域得到的第一數(shù)值求和得 到估計(jì)的屬性信息,即無需知道每個(gè)領(lǐng)域的屬性信息,而是從各個(gè)領(lǐng)域獲取計(jì)算結(jié)果,通過 公共屬性信息實(shí)現(xiàn)對(duì)同一用戶的計(jì)算結(jié)果進(jìn)行進(jìn)一步計(jì)算,最后確定待預(yù)測(cè)屬性信息,從 而保證不同領(lǐng)域數(shù)據(jù)之間的保密性。
[0015] 進(jìn)一步地,基于公共屬性信息將同一用戶在N個(gè)領(lǐng)域得到的第一數(shù)值求和得到估 計(jì)的屬性信息,包括:基于加密后的公共屬性信息將同一用戶在N個(gè)領(lǐng)域得到的第一數(shù)值 求和得到估計(jì)的屬性信息,其中,N個(gè)領(lǐng)域中采用相同加密算法對(duì)公共屬性信息加密。
[0016] 由于各個(gè)領(lǐng)域采用的加密算法相同,因此,各個(gè)領(lǐng)域加密后的公共屬性信息一定 相同,該方法無需融合各個(gè)N個(gè)領(lǐng)域的數(shù)據(jù),只要基于加密后的公共屬性信息實(shí)現(xiàn)N個(gè)領(lǐng)域 數(shù)據(jù)的對(duì)接即可,從而可以提高數(shù)據(jù)之間的保密性。
[0017] -種可選方式,根據(jù)所有已標(biāo)記樣本的估計(jì)的屬性信息對(duì)應(yīng)的已知屬性信息和所 述估計(jì)的屬性信息確定關(guān)聯(lián)關(guān)系,包括:針對(duì)每個(gè)已標(biāo)記樣本,計(jì)算估計(jì)的屬性信息對(duì)應(yīng)的 已知屬性信息與估計(jì)的屬性信息的第一差值;令所有已標(biāo)記樣本對(duì)應(yīng)的第一差值之和達(dá)到 最小以確定關(guān)聯(lián)關(guān)系。
[0018] 另一種可選方式,該方法還包括:獲取每個(gè)領(lǐng)域中各個(gè)待標(biāo)記樣本之間的相似度 權(quán)重;其中,相似度權(quán)重用于衡量實(shí)例數(shù)據(jù)之間的相似度;獲取每個(gè)領(lǐng)域中每個(gè)待標(biāo)記樣 本的特征子向量代入對(duì)應(yīng)的子關(guān)聯(lián)關(guān)系得到的第二數(shù)值;計(jì)算每個(gè)領(lǐng)域中各個(gè)待標(biāo)記樣 本的第二數(shù)值的第二差值,并對(duì)每個(gè)領(lǐng)域中的所有第二差值與對(duì)應(yīng)的相似度權(quán)重的乘積求 和;則根據(jù)所有已標(biāo)記樣本的估計(jì)的屬性信息對(duì)應(yīng)的已知屬性信息和估計(jì)的屬性信息確定 關(guān)聯(lián)關(guān)系,包括:針對(duì)每個(gè)已標(biāo)記樣本,計(jì)算估計(jì)的屬性信息對(duì)應(yīng)的已知屬性信息與估計(jì)的 屬性信息的第一差值;根據(jù)所有已標(biāo)記樣本對(duì)應(yīng)的第一差值之和與每個(gè)領(lǐng)域中的所有第二 差值與對(duì)應(yīng)的相似度權(quán)重的乘積之和確定關(guān)聯(lián)關(guān)系。
[0019] 通過上述兩種可選方式可以較為準(zhǔn)確地確定待標(biāo)記樣本的特征向量與待預(yù)測(cè)屬 性信息之間的關(guān)聯(lián)關(guān)系。
[0020] 進(jìn)一步地,根據(jù)所有已標(biāo)記樣本的估計(jì)的屬性信息對(duì)應(yīng)的已知屬性信息和所述估 計(jì)的屬性信息確定關(guān)聯(lián)關(guān)系之后,還包括:校正關(guān)聯(lián)關(guān)系,并將校正后的關(guān)聯(lián)關(guān)系作為估計(jì) 的新的關(guān)聯(lián)關(guān)系;直到校正次數(shù)超過預(yù)設(shè)值,則停止;或者,直到所有的關(guān)聯(lián)關(guān)系收斂,則 停止。該校正過程即為學(xué)習(xí)過程,通過不斷的學(xué)習(xí),從而使得關(guān)聯(lián)關(guān)系更加精確。
[0021] 第二方面,本方面實(shí)施例提供一種信息確定方法,該方法基于N個(gè)領(lǐng)域,N為大于 或者等于2的整數(shù),每個(gè)領(lǐng)域包括多個(gè)用戶的實(shí)例數(shù)據(jù),每個(gè)實(shí)例數(shù)據(jù)包括多個(gè)屬性信息, 同一用戶在N個(gè)領(lǐng)域中的實(shí)例數(shù)據(jù)存在至少一個(gè)公共屬性信息,同一用戶在N個(gè)領(lǐng)域中的 實(shí)例數(shù)據(jù)組成一個(gè)樣本,將樣本所包括的部分或者全部的已知屬性信息生成樣本的特征向 量,每個(gè)樣本的特征向量所包括的已知屬性信息個(gè)數(shù)相同,包括:
[0022] 根據(jù)待標(biāo)記樣本的特征向量估計(jì)待預(yù)測(cè)屬性信息的概率分布函數(shù),其中待標(biāo)記樣 本為包括至少一個(gè)待預(yù)測(cè)屬性信息的樣本;
[0023] 將概率分布函數(shù)分解為與N個(gè)領(lǐng)域一一對(duì)應(yīng)的N個(gè)子函數(shù),并將每個(gè)樣本的特征 向量分解為與N個(gè)領(lǐng)域--對(duì)應(yīng)的特征子向量;
[0024] 獲取每個(gè)領(lǐng)域中每個(gè)已標(biāo)記樣本的特征子向量代入對(duì)應(yīng)的子函數(shù)得到的第一數(shù) 值;
[0025] 基于公共屬性信息將同一用戶在N個(gè)領(lǐng)域得到的第一數(shù)值求和得到已標(biāo)記樣本 中與待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性信息的概率,已標(biāo)記樣本為包括的所有 屬性信息為已知屬性信息的樣本;
[0026] 根據(jù)所有已標(biāo)記樣本的待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性信息的概 率與實(shí)際是否為特定屬性信息的情況確定概率分布函數(shù);
[0027] 根據(jù)確定的概率分布函數(shù)和待標(biāo)記樣本的特征向量確定待標(biāo)記樣本的待預(yù)測(cè)屬 性信息。
[0028] 由于該過程中基于公共屬性信息將同一用戶在所述N個(gè)領(lǐng)域得到的第一數(shù)值求 和得到已標(biāo)記樣本中與待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性信息的概率,即無需 知道每個(gè)領(lǐng)域的屬性信息,而是從各個(gè)領(lǐng)域獲取計(jì)算結(jié)果,通過公共屬性信息實(shí)現(xiàn)對(duì)同一 用戶的計(jì)算結(jié)果進(jìn)行進(jìn)一步計(jì)算,最后確定待預(yù)測(cè)屬性信息,從而保證不同領(lǐng)域數(shù)據(jù)之間 的保性。
[0029] 進(jìn)一步地,基于公共屬性信息將同一用戶在所述Ν個(gè)領(lǐng)域得到的第一數(shù)值求和得 到已標(biāo)記樣本中與所述待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性信息的概率,包括: 基于加密后的公共屬性信息將同一用戶在Ν個(gè)領(lǐng)域得到的第一數(shù)值求和得到已標(biāo)記樣本 中與所述待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性信息的概率;其中,Ν個(gè)領(lǐng)域中采 用相同加密算法對(duì)公共屬性信息加密。
[0030] 由于各個(gè)領(lǐng)域采用的加密算法相同,因此,各個(gè)領(lǐng)域加密后的公共屬性信息一定 相同,該方法無需融合各個(gè)Ν個(gè)領(lǐng)域的數(shù)據(jù),只要基于加密后的公共屬性信息實(shí)現(xiàn)Ν個(gè)領(lǐng)域 數(shù)據(jù)的對(duì)接即可,從而可以提高數(shù)據(jù)之間的保密性。
[0031] -種可選方式,根據(jù)所有已標(biāo)記樣本的待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定 屬性信息的概率與實(shí)際是否為特定屬性信息的情況確定概率分布函數(shù),包括:若已標(biāo)記樣 本的待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息對(duì)應(yīng)有m個(gè)特定屬性信息,m為大于或者等于2的 正整數(shù);針對(duì)每個(gè)已標(biāo)記樣本的每個(gè)特定屬性信息,若待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息 實(shí)際為特定屬性信息,則計(jì)算概率與1的第一差值,否則,則計(jì)算概率與〇的第一差值;令所 有第一差值之和達(dá)到最小以確定概率分布函數(shù)。
[0032] 另一種可選方式,該方法還包括:獲取每個(gè)領(lǐng)域中各個(gè)待標(biāo)記樣本之間的相似度 權(quán)重;其中,相似度權(quán)重用于衡量實(shí)例數(shù)據(jù)之間的相似度;獲取每個(gè)領(lǐng)域中每個(gè)待標(biāo)記樣 本的特征子向量代入對(duì)應(yīng)的子函數(shù)得到的第二數(shù)值;計(jì)算每個(gè)領(lǐng)域中各個(gè)待標(biāo)記樣本的數(shù) 值的第二差值,并對(duì)每個(gè)領(lǐng)域中的所有第二差值與對(duì)應(yīng)的相似度權(quán)重的乘積求和;則根據(jù) 所有已標(biāo)記樣本的待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性信息的概率與實(shí)際是否 為特定屬性信息的情況確定概率分布函數(shù),包括:針對(duì)每個(gè)已標(biāo)記樣本的每個(gè)特定屬性信 息,若待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息實(shí)際為特定屬性信息,則計(jì)算概率與1的第一差 值,否則,則計(jì)算概率與0的第一差值;根據(jù)所有已標(biāo)記樣本對(duì)應(yīng)的第一差值之和與每個(gè)領(lǐng) 域中的所有第二差值與對(duì)應(yīng)的相似度權(quán)重的乘積之和確定概率分布函數(shù)。
[0033] 通過上述兩種可選方式可以較為準(zhǔn)確的確定待預(yù)測(cè)屬性信息的概率分布函數(shù)。
[0034] 進(jìn)一步地,根據(jù)所有已標(biāo)記樣本的待預(yù)測(cè)屬性信息相對(duì)應(yīng)的屬性信息為特定屬性 信息的概率與實(shí)際是否為特定屬性信息的情況確定概率分布函數(shù)之后,還包括:校正概率 分布函數(shù),并將校正后的概率分布函數(shù)作為估計(jì)的新的概率分布函數(shù);直到校正次數(shù)超過 預(yù)設(shè)值,則停止;或者,直到所有的概率分布函數(shù)收斂,則停止。該校正過程即為學(xué)習(xí)過程, 通過不斷的學(xué)習(xí),從而使得概率分布函數(shù)更加精確。
[0035] 下面將介紹發(fā)明實(shí)施例提供一種信息確定裝置,其中裝置部分與上述方法對(duì)應(yīng), 對(duì)應(yīng)內(nèi)容技術(shù)效果相同,在此不再贅述。
[0036] 第三方面,本發(fā)明實(shí)施例提供一種信息確定裝置,該裝置基于N個(gè)領(lǐng)域,N為大于 或者等于2的整數(shù),每個(gè)領(lǐng)域包括多個(gè)用戶的實(shí)例數(shù)據(jù),每個(gè)實(shí)例數(shù)據(jù)包括多個(gè)屬性信息, 同一用戶在N個(gè)領(lǐng)域中的實(shí)例數(shù)據(jù)存在至少一個(gè)公共屬性信息,同一用戶在N個(gè)領(lǐng)域中的 實(shí)例數(shù)據(jù)組成一個(gè)樣本,將樣本所包括的部分或者全部的已知屬性信息生成所述樣本的特 征向量,每個(gè)樣本的特征向量所包括的已知屬性信息個(gè)數(shù)相同,包括:
[0037] 估計(jì)模塊,用于估計(jì)待標(biāo)記樣本的特征向量與待預(yù)測(cè)屬性信息之間的關(guān)聯(lián)關(guān)系, 其中待標(biāo)記樣本為包括至少一個(gè)待預(yù)測(cè)屬性