本發(fā)明涉及數(shù)據(jù)識(shí)別領(lǐng)域,特別是涉及一種用戶標(biāo)識(shí)處理的方法和裝置。
背景技術(shù):
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的用戶享受著互聯(lián)網(wǎng)技術(shù)所帶來的便利,同時(shí)也產(chǎn)生了海量的數(shù)據(jù)。海量的數(shù)據(jù)中涉及到很多用戶標(biāo)識(shí)信息,該用戶標(biāo)識(shí)信息關(guān)乎用戶的隱私,需要對(duì)用戶標(biāo)識(shí)信息進(jìn)行保護(hù)。然而,這些用戶標(biāo)識(shí)信息涉及大量的表,表結(jié)構(gòu)復(fù)雜,且存儲(chǔ)達(dá)到百TB(太字節(jié)),無法做到人工識(shí)別覆蓋整體數(shù)據(jù)。傳統(tǒng)的用戶標(biāo)識(shí)識(shí)別方法主要是通過模糊搜索識(shí)別字段,或者通過限制用戶標(biāo)識(shí)數(shù)據(jù)值范圍,或者基于全量注冊(cè)數(shù)據(jù)進(jìn)行匹配,然而,采用模糊搜索匹配出現(xiàn)錯(cuò)誤率較高,通過數(shù)據(jù)值范圍匹配,因數(shù)據(jù)范圍變化較大,無法準(zhǔn)確捕捉正確的用戶標(biāo)識(shí),采用全量注冊(cè)數(shù)據(jù)進(jìn)行匹配,效率低,且用戶標(biāo)識(shí)安全性低。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對(duì)傳統(tǒng)的用戶標(biāo)識(shí)識(shí)別方法識(shí)別準(zhǔn)確率低且效率低的問題,提供一種用戶標(biāo)識(shí)處理的方法,能提高識(shí)別的準(zhǔn)確率和效率,且能提高用戶標(biāo)識(shí)安全性。
此外,還有必要提供一種用戶標(biāo)識(shí)處理的裝置,能提高識(shí)別的準(zhǔn)確率和效率,且能提高用戶標(biāo)識(shí)安全性。
一種用戶標(biāo)識(shí)處理的方法,包括以下步驟:
掃描源數(shù)據(jù)表,獲取所述源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征;
將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功,則所述字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí),若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗,則所述字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí);
將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變。
一種用戶標(biāo)識(shí)處理的裝置,包括:
掃描模塊,用于掃描源數(shù)據(jù)表,獲取所述源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征;
匹配模塊,用于將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功,則所述字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí),若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗,則所述字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí);
處理模塊,用于將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變。
上述用戶標(biāo)識(shí)處理的方法和裝置,通過獲取源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)的特征,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若匹配成功,則將該字段所對(duì)應(yīng)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),若匹配失敗,則保持該字段所對(duì)應(yīng)的數(shù)據(jù)不變,通過用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,提高了用戶標(biāo)識(shí)被識(shí)別的準(zhǔn)確率和效率,且將用戶標(biāo)識(shí)轉(zhuǎn)化為第三方用戶帳號(hào),不讓第三方平臺(tái)獲取用戶標(biāo)識(shí),提高了用戶標(biāo)識(shí)的安全性。
附圖說明
圖1A為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)示意圖;
圖1B為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖;
圖2為一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的方法的流程圖;
圖3為一個(gè)實(shí)施例中源數(shù)據(jù)表的結(jié)構(gòu)形式示意圖;
圖4為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的方法的流程圖;
圖5為一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖;
圖6為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖;
圖7為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖;
圖8為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
可以理解,本發(fā)明所使用的術(shù)語“第一”、“第二”等可在本文中用于描述各種元件,但這些元件不受這些術(shù)語限制。這些術(shù)語僅用于將第一個(gè)元件與另一個(gè)元件區(qū)分。舉例來說,在不脫離本發(fā)明的范圍的情況下,可以將第一客戶端稱為第二客戶端,且類似地,可將第二客戶端稱為第一客戶端。
圖1A為一個(gè)實(shí)施例中終端的內(nèi)部結(jié)構(gòu)示意圖。如圖1A所示,該終端包括通過系統(tǒng)總線連接的處理器、存儲(chǔ)介質(zhì)、內(nèi)存、網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中,終端的存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng),還包括一種用戶標(biāo)識(shí)處理的裝置,該用戶標(biāo)識(shí)處理的裝置用于實(shí)現(xiàn)一種用戶標(biāo)識(shí)處理的方法。該處理器用于提供計(jì)算和控制能力,支撐整個(gè)終端的運(yùn)行。終端中的內(nèi)存為存儲(chǔ)介質(zhì)中的用戶標(biāo)識(shí)處理的裝置的運(yùn)行提供環(huán)境,網(wǎng)絡(luò)接口用于與服務(wù)器進(jìn)行網(wǎng)絡(luò)通信,如發(fā)送數(shù)據(jù)請(qǐng)求至服務(wù)器,接收服務(wù)器返回的數(shù)據(jù)等。終端的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等,輸入裝置可以是顯示屏上覆蓋的觸摸層,也可以是終端外殼上設(shè)置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或鼠標(biāo)等。該終端可以是手機(jī)、平板電腦或者個(gè)人數(shù)字助理。本領(lǐng)域技術(shù)人員可以理解,圖1A中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的終端的限定,具體的終端可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
圖1B為一個(gè)實(shí)施例中服務(wù)器的內(nèi)部結(jié)構(gòu)示意圖。如圖1B所示,該服務(wù)器包括通過系統(tǒng)總線連接的處理器、非易失性存儲(chǔ)介質(zhì)、內(nèi)存、網(wǎng)絡(luò)接口、顯示屏和輸入裝置。其中,該服務(wù)器的非易失性存儲(chǔ)介質(zhì)存儲(chǔ)有操作系統(tǒng)、數(shù)據(jù)庫和用戶標(biāo)識(shí)處理的裝置,數(shù)據(jù)庫中存儲(chǔ)有各種數(shù)據(jù)和用戶標(biāo)識(shí)與第三方用戶帳號(hào)數(shù)據(jù)及對(duì)應(yīng)關(guān)系,該用戶標(biāo)識(shí)處理的裝置用于實(shí)現(xiàn)適用于服務(wù)器的一種用戶標(biāo) 識(shí)處理的方法。該服務(wù)器的處理器用于提供計(jì)算和控制能力,支撐整個(gè)服務(wù)器的運(yùn)行。該服務(wù)器的內(nèi)存為非易失性存儲(chǔ)介質(zhì)中的用戶標(biāo)識(shí)處理的裝置的運(yùn)行提供環(huán)境。該服務(wù)器的顯示屏可以是液晶顯示屏或者電子墨水顯示屏等,輸入裝置可以是顯示屏上覆蓋的觸摸層,也可以是終端外殼上設(shè)置的按鍵、軌跡球或觸控板,也可以是外接的鍵盤、觸控板或鼠標(biāo)等。該服務(wù)器的網(wǎng)絡(luò)接口用于據(jù)以與外部的終端通過網(wǎng)絡(luò)連接通信,比如接收終端發(fā)送的用戶標(biāo)識(shí)請(qǐng)求以及向終端返回第三方用戶帳號(hào)等。服務(wù)器可以用獨(dú)立的服務(wù)器或者是多個(gè)服務(wù)器組成的服務(wù)器集群來實(shí)現(xiàn)。本領(lǐng)域技術(shù)人員可以理解,圖1B中示出的結(jié)構(gòu),僅僅是與本申請(qǐng)方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對(duì)本申請(qǐng)方案所應(yīng)用于其上的服務(wù)器的限定,具體的服務(wù)器可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
圖2為一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的方法的流程圖。如圖2所示,一種用戶標(biāo)識(shí)處理的方法,可運(yùn)行于圖1中的服務(wù)器或終端上,包括以下步驟:
步驟202,掃描源數(shù)據(jù)表,獲取該源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征。
具體地,源數(shù)據(jù)表是指從網(wǎng)絡(luò)中獲取的數(shù)據(jù),其一般以表格形式存儲(chǔ)。在源數(shù)據(jù)表中存在一個(gè)或多個(gè)字段,每個(gè)字段表示一種數(shù)據(jù),例如序號(hào)字段、姓名字段、用戶標(biāo)識(shí)字段、性別字段、年齡字段、地址字段等。
圖3為一個(gè)實(shí)施例中源數(shù)據(jù)表的結(jié)構(gòu)形式示意圖。如圖3所示,在源數(shù)據(jù)表首行中包括序號(hào)字段、姓名字段、性別字段、用戶標(biāo)識(shí)字段、年齡字段、地址字段等。每個(gè)字段對(duì)應(yīng)一列。序號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)可為以1開始,自增1的自然數(shù)。姓名字段所對(duì)應(yīng)的數(shù)據(jù)可為各種名稱,如王小明、李小白、趙小紅等。性別字段所對(duì)應(yīng)的數(shù)據(jù)可為“男”、“女”和“未知”等。用戶標(biāo)識(shí)字段所對(duì)應(yīng)的數(shù)據(jù)可為符合用戶標(biāo)識(shí)規(guī)則的數(shù)據(jù),如即時(shí)通信帳號(hào)12345至9999999999等。年齡字段所對(duì)應(yīng)的數(shù)據(jù)可為0至150等。地址字段所對(duì)應(yīng)的數(shù)據(jù)可為各個(gè)地址。
本實(shí)施例中的源數(shù)據(jù)表可為各網(wǎng)站的用戶行為所產(chǎn)生的數(shù)據(jù)等。
對(duì)源數(shù)據(jù)表中每個(gè)字段所對(duì)應(yīng)的數(shù)據(jù)計(jì)算數(shù)據(jù)的特征。該特征可包括平均值和標(biāo)準(zhǔn)差等。平均值和標(biāo)準(zhǔn)差相對(duì)穩(wěn)定,且組合校驗(yàn)具有較高的可靠性。此 外,該特征還可包括最大值和最小值。
步驟204,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配。
具體地,預(yù)先可根據(jù)海量的數(shù)據(jù)統(tǒng)計(jì)得出用戶標(biāo)識(shí)的特征規(guī)則。該用戶標(biāo)識(shí)的特征規(guī)則可為均值和標(biāo)準(zhǔn)差在某個(gè)范圍內(nèi)。不同的用戶標(biāo)識(shí)的特征規(guī)則不同,需要根據(jù)海量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析得出對(duì)應(yīng)用戶標(biāo)識(shí)的特征規(guī)則。
用戶標(biāo)識(shí)是用于表示用戶身份唯一性的標(biāo)識(shí)。用戶標(biāo)識(shí)可為即時(shí)通信帳號(hào)或移動(dòng)通信標(biāo)識(shí)或電子郵箱或身份證號(hào)碼或支付帳號(hào)等。
將字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,例如用戶標(biāo)識(shí)的特征規(guī)則是均值在[100000,110000]之間,標(biāo)準(zhǔn)差在[1,2],計(jì)算得到的字段所對(duì)應(yīng)的數(shù)據(jù)的特征,即均值在[100000,110000]之間且標(biāo)準(zhǔn)差在[1,2]之間,則該字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功。若計(jì)算得到的字段所對(duì)應(yīng)的數(shù)據(jù)的特征,即均值和標(biāo)準(zhǔn)差中任意一個(gè)不在用戶標(biāo)識(shí)的特征規(guī)則內(nèi),則該字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗。
步驟206,若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功,則該字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí),然后執(zhí)行步驟210。
步驟208,若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗,則該字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí),然后執(zhí)行步驟212。
步驟210,將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶標(biāo)識(shí)。
具體地,第三方用戶標(biāo)識(shí)是一個(gè)開放用戶標(biāo)識(shí),即openid,是允許用戶使用用戶標(biāo)識(shí)登錄第三方平臺(tái),但不會(huì)公開用戶標(biāo)識(shí)給第三方,為用戶標(biāo)識(shí)的開放提供的一種安全的實(shí)現(xiàn)方式。預(yù)先建立用戶標(biāo)識(shí)與第三方用戶帳號(hào)的映射關(guān)系,然后根據(jù)用戶標(biāo)識(shí)從用戶標(biāo)識(shí)與第三方用戶帳號(hào)的映射關(guān)系中查找到對(duì)應(yīng)的第三方用戶帳號(hào),將用戶標(biāo)識(shí)替換為第三方用戶帳號(hào)。
步驟212,將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變。
若源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)均不為用戶標(biāo)識(shí),則保持源數(shù)據(jù)表不變。
上述用戶標(biāo)識(shí)處理的方法,通過獲取源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)的特 征,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若匹配成功,則將該字段所對(duì)應(yīng)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),若匹配失敗,則保持該字段所對(duì)應(yīng)的數(shù)據(jù)不變,通過用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,提高了用戶標(biāo)識(shí)被識(shí)別的準(zhǔn)確率和效率,且將用戶標(biāo)識(shí)轉(zhuǎn)化為第三方用戶帳號(hào),不讓第三方平臺(tái)獲取用戶標(biāo)識(shí),提高了用戶標(biāo)識(shí)的安全性。
圖4為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的方法的流程圖。如圖4所示,一種用戶標(biāo)識(shí)處理的方法,包括以下步驟:
步驟402,從測(cè)試數(shù)據(jù)中選取用戶標(biāo)識(shí)字段的數(shù)據(jù)作為正樣本數(shù)據(jù),選取非用戶標(biāo)識(shí)字段的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù)。
具體地,測(cè)試數(shù)據(jù)可為海量的網(wǎng)絡(luò)數(shù)據(jù)。用戶標(biāo)識(shí)是用于表示用戶身份唯一性的標(biāo)識(shí)。用戶標(biāo)識(shí)可為即時(shí)通信帳號(hào)或移動(dòng)通信標(biāo)識(shí)或電子郵箱或身份證號(hào)碼或支付帳號(hào)等。
例如用戶標(biāo)識(shí)為即時(shí)通信帳號(hào),則測(cè)試數(shù)據(jù)可包括即時(shí)通信帳號(hào)數(shù)據(jù)和廣告曝光數(shù)據(jù)、商品訂單路徑數(shù)據(jù)、網(wǎng)頁瀏覽數(shù)據(jù)、用戶搜索數(shù)據(jù)等。從測(cè)試數(shù)據(jù)中提取即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為正樣本數(shù)據(jù)。隨機(jī)選取非即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù),將負(fù)樣本數(shù)據(jù)作為參照組。
步驟404,對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別進(jìn)行特征計(jì)算。
具體地,對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別求取平均值和標(biāo)準(zhǔn)差,還可求取最大值和最小值。將計(jì)算得到的正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征以字段為行,特征為列的匯總表格。對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別進(jìn)行特征計(jì)算可得到用戶標(biāo)識(shí)的特征的統(tǒng)計(jì)分布狀態(tài),進(jìn)行分析得出分布規(guī)則。
步驟406,將正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征進(jìn)行比對(duì),得到該正樣本數(shù)據(jù)的特征規(guī)則。
具體地,可將正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征進(jìn)行匯總,通過條形圖展示比對(duì),發(fā)現(xiàn)兩者之間的特征呈現(xiàn)較明顯的區(qū)別,提煉出用戶標(biāo)識(shí)數(shù)據(jù)的可信范圍,然后形成用戶標(biāo)識(shí)的特征規(guī)則。
步驟408,掃描源數(shù)據(jù)表,獲取該源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征。
具體地,源數(shù)據(jù)表是指從網(wǎng)絡(luò)中獲取的數(shù)據(jù),其一般以表格形式存儲(chǔ)。在源數(shù)據(jù)表中存在一個(gè)或多個(gè)字段,每個(gè)字段表示一種數(shù)據(jù),例如序號(hào)字段、姓名字段、用戶標(biāo)識(shí)字段、性別字段、年齡字段、地址字段等。
步驟410,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配。
具體地,預(yù)先可根據(jù)海量的數(shù)據(jù)統(tǒng)計(jì)得出用戶標(biāo)識(shí)的特征規(guī)則。該用戶標(biāo)識(shí)的特征規(guī)則可為均值和標(biāo)準(zhǔn)差在某個(gè)范圍內(nèi)。不同的用戶標(biāo)識(shí)的特征規(guī)則不同,需要根據(jù)海量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析得出對(duì)應(yīng)用戶標(biāo)識(shí)的特征規(guī)則。
用戶標(biāo)識(shí)是用于表示用戶身份唯一性的標(biāo)識(shí)。用戶標(biāo)識(shí)可為即時(shí)通信帳號(hào)或移動(dòng)通信標(biāo)識(shí)或電子郵箱或身份證號(hào)碼或支付帳號(hào)等。
將字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,例如用戶標(biāo)識(shí)的特征規(guī)則是均值在[100000,110000]之間,標(biāo)準(zhǔn)差在[1,2],計(jì)算得到的字段所對(duì)應(yīng)的數(shù)據(jù)的特征,即均值在[100000,110000]之間且標(biāo)準(zhǔn)差在[1,2]之間,則該字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功。若計(jì)算得到的字段所對(duì)應(yīng)的數(shù)據(jù)的特征,即均值和標(biāo)準(zhǔn)差中任意一個(gè)不在用戶標(biāo)識(shí)的特征規(guī)則內(nèi),則該字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗。
步驟412,若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功,則該字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí),若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗,則該字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)。
步驟414,將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶標(biāo)識(shí),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變,然后執(zhí)行步驟418。
具體地,第三方用戶標(biāo)識(shí)是一個(gè)開放用戶標(biāo)識(shí),即openid,是允許用戶使用用戶標(biāo)識(shí)登錄第三方平臺(tái),但不會(huì)公開用戶標(biāo)識(shí)給第三方,為用戶標(biāo)識(shí)的開放提供的一種安全的實(shí)現(xiàn)方式。預(yù)先建立用戶標(biāo)識(shí)與第三方用戶帳號(hào)的映射關(guān)系,然后根據(jù)用戶標(biāo)識(shí)從用戶標(biāo)識(shí)與第三方用戶帳號(hào)的映射關(guān)系中查找到對(duì)應(yīng)的第三方用戶帳號(hào),將用戶標(biāo)識(shí)替換為第三方用戶帳號(hào)。
步驟416,源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)均不為用戶標(biāo)識(shí),則保持源數(shù)據(jù)表不變。
步驟418,根據(jù)已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)和包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)該用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正。
具體地,字段所對(duì)應(yīng)的數(shù)據(jù)與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配的過程中可能存在識(shí)別錯(cuò)誤或漏識(shí)別字段的情況,通過獲取已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)和包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù),然后根據(jù)已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)和包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)該用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正。例如可分析包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù),得到用戶標(biāo)識(shí)的命名規(guī)則和/或類型等,并添加到用戶標(biāo)識(shí)的特征規(guī)則中,下次再進(jìn)行匹配時(shí),則不會(huì)被漏掉。對(duì)于已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)被認(rèn)為是識(shí)別錯(cuò)誤的,可根據(jù)該字段所對(duì)應(yīng)的數(shù)據(jù)的特征對(duì)用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正。
上述用戶標(biāo)識(shí)處理的方法,選取用戶標(biāo)識(shí)作為正樣本數(shù)據(jù),非用戶標(biāo)識(shí)的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù),計(jì)算正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征,比較得出正樣本數(shù)據(jù)的特征規(guī)則,可得到較為準(zhǔn)確的用戶標(biāo)識(shí)的特征規(guī)則;通過獲取源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)的特征,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若匹配成功,則將該字段所對(duì)應(yīng)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),若匹配失敗,則保持該字段所對(duì)應(yīng)的數(shù)據(jù)不變,通過用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,提高了用戶標(biāo)識(shí)被識(shí)別的準(zhǔn)確率和效率,且將用戶標(biāo)識(shí)轉(zhuǎn)化為第三方用戶帳號(hào),不讓第三方平臺(tái)獲取用戶標(biāo)識(shí),提高了用戶標(biāo)識(shí)的安全性;通過已匹配成功的字段及包含用戶標(biāo)識(shí)未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正,可持續(xù)完善用戶標(biāo)識(shí)的特征規(guī)則,提高識(shí)別的準(zhǔn)確率。
在一個(gè)實(shí)施例中,上述用戶標(biāo)識(shí)處理的方法還包括:在該將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變的步驟之后,獲取源數(shù)據(jù)表中包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù);根據(jù)該包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)該用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正。
具體地,可分析包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù),得到用戶標(biāo)識(shí)的命名規(guī)則和/或類型等,并添加到用戶標(biāo)識(shí)的特征規(guī)則中,下次再進(jìn)行匹配時(shí),則不會(huì)被漏掉。
下面結(jié)合具體的應(yīng)用場(chǎng)景描述用戶標(biāo)識(shí)處理的方法的實(shí)現(xiàn)過程。以用戶標(biāo)識(shí)處理的方法用于將第三方平臺(tái)的數(shù)據(jù)中即時(shí)通信帳號(hào)進(jìn)行識(shí)別并入庫保存。具體過程包括(1)至(5):
(1)從測(cè)試數(shù)據(jù)中選取即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為正樣本數(shù)據(jù),選取非即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù)。
具體地,將即時(shí)通信應(yīng)用的注冊(cè)數(shù)據(jù)和第三方平臺(tái)的用戶行為數(shù)據(jù)作為測(cè)試數(shù)據(jù)。例如即時(shí)通信應(yīng)用QQ的數(shù)據(jù)包括注冊(cè)用戶數(shù)據(jù)。第三方平臺(tái)的用戶行為數(shù)據(jù)如京東網(wǎng)站有5個(gè)數(shù)據(jù)量,包括廣告曝光數(shù)據(jù)、商品訂單路徑數(shù)據(jù)、網(wǎng)頁瀏覽數(shù)據(jù)、用戶搜索數(shù)據(jù)等。從即時(shí)通信應(yīng)用的注冊(cè)數(shù)據(jù)和第三方平臺(tái)的用戶行為數(shù)據(jù)中選取即時(shí)通信帳號(hào)字段作為正樣本數(shù)據(jù),在選取非即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù)。
可采用分區(qū)抽樣統(tǒng)計(jì)或全表統(tǒng)計(jì)等方式對(duì)特征進(jìn)行統(tǒng)計(jì)計(jì)算。分區(qū)抽樣統(tǒng)計(jì)是指抽取一部分?jǐn)?shù)據(jù)進(jìn)行統(tǒng)計(jì)。全表統(tǒng)計(jì)是指對(duì)所有數(shù)據(jù)表進(jìn)行分析統(tǒng)計(jì)。
(2)對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別進(jìn)行特征計(jì)算,特征包括平均值和標(biāo)準(zhǔn)差。
具體地,對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別求取平均值和標(biāo)準(zhǔn)差。此外,還可求取最大值和最小值。將計(jì)算得到的正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征以字段為行,特征為列的匯總表格。
(3)將即時(shí)通信帳號(hào)的特征和非即時(shí)通信帳號(hào)的特征進(jìn)行比對(duì),得到即時(shí)通信帳號(hào)的特征規(guī)則。
具體地,可將即時(shí)通信帳號(hào)的特征和非即時(shí)通信帳號(hào)的特征進(jìn)行匯總,通過條形圖展示比對(duì),發(fā)現(xiàn)兩者之間的特征呈現(xiàn)較明顯的區(qū)別,提煉出即時(shí)通信帳號(hào)數(shù)據(jù)的可信范圍,然后形成即時(shí)通信帳號(hào)的特征規(guī)則。
(4)掃描第三方平臺(tái)的源數(shù)據(jù)表,獲取源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與即時(shí)通信帳號(hào)的特征規(guī)則進(jìn)行匹配,若 字段所對(duì)應(yīng)的數(shù)據(jù)的特征與即時(shí)通信帳號(hào)的特征規(guī)則匹配成功,則該字段所對(duì)應(yīng)的數(shù)據(jù)為即時(shí)通信帳號(hào),若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與即時(shí)通信帳號(hào)的特征規(guī)則匹配失敗,則該字段所對(duì)應(yīng)的數(shù)據(jù)不為即時(shí)通信帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為即時(shí)通信帳號(hào)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶標(biāo)識(shí),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為即時(shí)通信帳號(hào)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變。
具體地,掃描第三方平臺(tái)的源數(shù)據(jù)表中的即時(shí)通信帳號(hào),根據(jù)即時(shí)通信帳號(hào)與第三方用戶帳號(hào)的映射關(guān)系,將即時(shí)通信帳號(hào)轉(zhuǎn)化為第三方用戶帳號(hào),即openid。然后將完整的數(shù)據(jù)表入庫保存。第三方平臺(tái)無法直接獲取用戶標(biāo)識(shí),只是獲取openid,即實(shí)現(xiàn)一種安全的帳號(hào)開放模式。
在這一過程中,人工只需配置相應(yīng)的特征規(guī)則和需要遷移的數(shù)據(jù)表清單,然后由大數(shù)據(jù)平臺(tái)自動(dòng)識(shí)別和轉(zhuǎn)化,并入庫保存,節(jié)省人力。
(5)根據(jù)已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)和包含即時(shí)通信帳號(hào)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)該即時(shí)通信帳號(hào)的特征規(guī)則進(jìn)行修正。
具體地,對(duì)已轉(zhuǎn)化的數(shù)據(jù),會(huì)記錄數(shù)據(jù)被識(shí)別的情況,可包括已有即時(shí)通信帳號(hào)字段被識(shí)別和包含即時(shí)通信帳號(hào)字段未被識(shí)別。根據(jù)已有即時(shí)通信帳號(hào)字段被識(shí)別和包含即時(shí)通信帳號(hào)字段未被識(shí)別對(duì)即時(shí)通信帳號(hào)的特征規(guī)則進(jìn)行修正,持續(xù)完善以提高識(shí)別的準(zhǔn)確率。處理包含即時(shí)通信帳號(hào)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù),得到即時(shí)通信帳號(hào)的命名規(guī)則和/或類型等,并添加到即時(shí)通信帳號(hào)的特征規(guī)則中,下次再進(jìn)行匹配時(shí),則不會(huì)被漏掉。
通過對(duì)正負(fù)樣本數(shù)據(jù)得出的特征規(guī)則做了幾輪修正后,對(duì)于QQ號(hào)碼識(shí)別準(zhǔn)確率達(dá)到了94.5%。該即時(shí)通信帳號(hào)可為QQ號(hào)碼或微信或其他即時(shí)通信帳號(hào)等。
需要說明的是,上述具體應(yīng)用場(chǎng)景描述了即時(shí)通信帳號(hào)被識(shí)別處理的過程,但不限于此,上述用戶標(biāo)識(shí)處理的方法還可應(yīng)用于身份證號(hào)碼、移動(dòng)通信標(biāo)識(shí)、支付帳號(hào)、電子郵箱等被識(shí)別處理。
圖5為一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖。如圖5所示,一種用戶標(biāo)識(shí)處理的裝置,包括掃描模塊510、匹配模塊520和處理模塊530。其中:
掃描模塊510用于掃描源數(shù)據(jù)表,獲取該源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征。
具體地,源數(shù)據(jù)表是指從網(wǎng)絡(luò)中獲取的數(shù)據(jù),其一般以表格形式存儲(chǔ)。在源數(shù)據(jù)表中存在一個(gè)或多個(gè)字段,每個(gè)字段表示一種數(shù)據(jù),例如序號(hào)字段、姓名字段、用戶標(biāo)識(shí)字段、性別字段、年齡字段、地址字段等。
匹配模塊520用于將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配成功,則該字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí),若字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則匹配失敗,則該字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)。
具體地,預(yù)先可根據(jù)海量的數(shù)據(jù)統(tǒng)計(jì)得出用戶標(biāo)識(shí)的特征規(guī)則。該用戶標(biāo)識(shí)的特征規(guī)則可為均值和標(biāo)準(zhǔn)差在某個(gè)范圍內(nèi)。不同的用戶標(biāo)識(shí)的特征規(guī)則不同,需要根據(jù)海量的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析得出對(duì)應(yīng)用戶標(biāo)識(shí)的特征規(guī)則。
用戶標(biāo)識(shí)是用于表示用戶身份唯一性的標(biāo)識(shí)。用戶標(biāo)識(shí)可為即時(shí)通信帳號(hào)或移動(dòng)通信標(biāo)識(shí)或電子郵箱或身份證號(hào)碼或支付帳號(hào)等。
本實(shí)施例中的源數(shù)據(jù)表可為各網(wǎng)站的用戶行為所產(chǎn)生的數(shù)據(jù)等。
對(duì)源數(shù)據(jù)表中每個(gè)字段所對(duì)應(yīng)的數(shù)據(jù)計(jì)算數(shù)據(jù)的特征。該特征可包括平均值和標(biāo)準(zhǔn)差等。平均值和標(biāo)準(zhǔn)差相對(duì)穩(wěn)定,且組合校驗(yàn)具有較高的可靠性。此外,該特征還可包括最大值和最小值。
處理模塊530用于將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變。
具體地,第三方用戶標(biāo)識(shí)是一個(gè)開放用戶標(biāo)識(shí),即openid,是允許用戶使用用戶標(biāo)識(shí)登錄第三方平臺(tái),但不會(huì)公開用戶標(biāo)識(shí)給第三方,為用戶標(biāo)識(shí)的開放提供的一種安全的實(shí)現(xiàn)方式。預(yù)先建立用戶標(biāo)識(shí)與第三方用戶帳號(hào)的映射關(guān)系,然后根據(jù)用戶標(biāo)識(shí)從用戶標(biāo)識(shí)與第三方用戶帳號(hào)的映射關(guān)系中查找到對(duì)應(yīng)的第三方用戶帳號(hào),將用戶標(biāo)識(shí)替換為第三方用戶帳號(hào)。
若源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)均不為用戶標(biāo)識(shí),則保持源數(shù)據(jù)表不變。
上述用戶標(biāo)識(shí)處理的裝置,通過獲取源數(shù)據(jù)表中各字段所對(duì)應(yīng)的數(shù)據(jù)的特 征,將各字段所對(duì)應(yīng)的數(shù)據(jù)的特征與用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,若匹配成功,則將該字段所對(duì)應(yīng)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),若匹配失敗,則保持該字段所對(duì)應(yīng)的數(shù)據(jù)不變,通過用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行匹配,提高了用戶標(biāo)識(shí)被識(shí)別的準(zhǔn)確率和效率,且將用戶標(biāo)識(shí)轉(zhuǎn)化為第三方用戶帳號(hào),不讓第三方平臺(tái)獲取用戶標(biāo)識(shí),提高了用戶標(biāo)識(shí)的安全性。
圖6為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖。如圖6所示,一種用戶標(biāo)識(shí)處理的裝置,除了包括掃描模塊510、匹配模塊520和處理模塊530,還包括選取模塊540、計(jì)算模塊550和特征規(guī)則提取模塊560。其中:
選取模塊540用于在掃描源數(shù)據(jù)表,獲取該源數(shù)據(jù)表的各字段所對(duì)應(yīng)的數(shù)據(jù)的特征之前,從測(cè)試數(shù)據(jù)中選取用戶標(biāo)識(shí)字段的數(shù)據(jù)作為正樣本數(shù)據(jù),選取非用戶標(biāo)識(shí)字段的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù)。
具體地,測(cè)試數(shù)據(jù)可為海量的網(wǎng)絡(luò)數(shù)據(jù)。用戶標(biāo)識(shí)是用于表示用戶身份唯一性的標(biāo)識(shí)。用戶標(biāo)識(shí)可為即時(shí)通信帳號(hào)或移動(dòng)通信標(biāo)識(shí)或電子郵箱或身份證號(hào)碼或支付帳號(hào)等。
例如用戶標(biāo)識(shí)為即時(shí)通信帳號(hào),則測(cè)試數(shù)據(jù)可包括即時(shí)通信帳號(hào)數(shù)據(jù)和廣告曝光數(shù)據(jù)、商品訂單路徑數(shù)據(jù)、網(wǎng)頁瀏覽數(shù)據(jù)、用戶搜索數(shù)據(jù)等。從測(cè)試數(shù)據(jù)中提取即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為正樣本數(shù)據(jù)。隨機(jī)選取非即時(shí)通信帳號(hào)字段所對(duì)應(yīng)的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù),將負(fù)樣本數(shù)據(jù)作為參照組。
計(jì)算模塊550用于對(duì)該正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別進(jìn)行特征計(jì)算。
具體地,對(duì)正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)分別求取平均值和標(biāo)準(zhǔn)差,還可求取最大值和最小值。將計(jì)算得到的正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征以字段為行,特征為列的匯總表格。
特征規(guī)則提取模塊560用于將正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征進(jìn)行比對(duì),得到該正樣本數(shù)據(jù)的特征規(guī)則。
具體地,可將正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征進(jìn)行匯總,通過條形圖展示比對(duì),發(fā)現(xiàn)兩者之間的特征呈現(xiàn)較明顯的區(qū)別,提煉出用戶標(biāo)識(shí)數(shù)據(jù)的可信范圍,然后形成用戶標(biāo)識(shí)的特征規(guī)則。
選取用戶標(biāo)識(shí)作為正樣本數(shù)據(jù),非用戶標(biāo)識(shí)的數(shù)據(jù)作為負(fù)樣本數(shù)據(jù),計(jì)算正樣本數(shù)據(jù)的特征和負(fù)樣本數(shù)據(jù)的特征,比較得出正樣本數(shù)據(jù)的特征規(guī)則,可得到較為準(zhǔn)確的用戶標(biāo)識(shí)的特征規(guī)則。
圖7為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖。如圖7所示,一種用戶標(biāo)識(shí)處理的裝置,除了包括掃描模塊510、匹配模塊520和處理模塊530,還包括第一獲取模塊570和第一修正模塊580。其中:
第一獲取模塊570用于在該將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變之后,獲取源數(shù)據(jù)表中已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)和包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)。
第一修正模塊580用于根據(jù)已匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)和包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)該用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正。
具體地,可分析包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù),得到用戶標(biāo)識(shí)的命名規(guī)則和/或類型等,并添加到用戶標(biāo)識(shí)的特征規(guī)則中,下次再進(jìn)行匹配時(shí),則不會(huì)被漏掉。
圖8為另一個(gè)實(shí)施例中用戶標(biāo)識(shí)處理的裝置的結(jié)構(gòu)框圖。如圖8所示,一種用戶標(biāo)識(shí)處理的裝置,除了包括掃描模塊510、匹配模塊520和處理模塊530,還包括第二獲取模塊590和第二修正模塊592。其中:
第二獲取模塊590用于在該將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)為用戶標(biāo)識(shí)的數(shù)據(jù)轉(zhuǎn)化為第三方用戶帳號(hào),將源數(shù)據(jù)表中字段所對(duì)應(yīng)的數(shù)據(jù)不為用戶標(biāo)識(shí)的數(shù)據(jù)保持?jǐn)?shù)據(jù)不變之后,獲取源數(shù)據(jù)表中包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)。
第二修正模塊592用于根據(jù)該包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù)對(duì)該用戶標(biāo)識(shí)的特征規(guī)則進(jìn)行修正。
具體地,可分析包含用戶標(biāo)識(shí)而未被匹配成功的字段所對(duì)應(yīng)的數(shù)據(jù),得到用戶標(biāo)識(shí)的命名規(guī)則和/或類型等,并添加到用戶標(biāo)識(shí)的特征規(guī)則中,下次再進(jìn)行匹配時(shí),則不會(huì)被漏掉。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一非易失性計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)等。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。