本申請(qǐng)涉及但不限于數(shù)據(jù)分析領(lǐng)域,尤指一種數(shù)據(jù)處理方法和裝置。
背景技術(shù):
隨著智能電視領(lǐng)域技術(shù)的日益漸進(jìn),電視設(shè)備也從傳統(tǒng)電視變?yōu)槿缃窬邆洳僮飨到y(tǒng)、具有平臺(tái)特性的智能電視,智能電視逐漸成為每個(gè)家庭必備的娛樂(lè)設(shè)備。智能電視允許用戶(hù)在欣賞普通電視節(jié)目的同時(shí),自行安裝和卸載各類(lèi)應(yīng)用軟件以對(duì)其功能進(jìn)行擴(kuò)充,并具備通過(guò)網(wǎng)絡(luò)回傳用戶(hù)數(shù)據(jù)的功能。
如今,隨著多樣化的網(wǎng)民屬性估算技術(shù)的日趨成熟,家庭人口屬性估算成為當(dāng)務(wù)之急。準(zhǔn)確的定位一個(gè)家庭的組成情況對(duì)于媒體的精準(zhǔn)投放,廣告主的商業(yè)營(yíng)銷(xiāo)方向,政府的監(jiān)管及人口統(tǒng)計(jì),人口大數(shù)據(jù)的分析有著至關(guān)重要的意義。而現(xiàn)有對(duì)家庭人口屬性統(tǒng)計(jì)的方法仍然停留在人工走訪(fǎng)調(diào)研的水平,此種做法費(fèi)時(shí)費(fèi)力,同時(shí)統(tǒng)計(jì)期限漫長(zhǎng)。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法和裝置,能夠更加快速、便捷的獲知家庭的組成構(gòu)架。
為了達(dá)到本申請(qǐng)目的,本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法,包括:
收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)id;
統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量;
分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度;
根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。
進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),在所述統(tǒng)計(jì)所述與智能設(shè)備關(guān)聯(lián)的終端id的上網(wǎng)行為向量之后,在所述計(jì)算所述第一相似度之前,該方法還包括:
根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與所述智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。
進(jìn)一步地,所述根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與所述智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)包括:
分別計(jì)算與所述智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;
判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;
當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量;
計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。
進(jìn)一步地,所述計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的所述兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為所述分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。
進(jìn)一步地,該方法之前還包括:收集并對(duì)應(yīng)存儲(chǔ)所述各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。
進(jìn)一步地,所述根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別包括:
分別確定各個(gè)分類(lèi)后的終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為所述分類(lèi)后的該終端id的身份類(lèi)別。
進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),所述根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別包括:
確定所述終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為所述終端id的身份類(lèi)別。
本申請(qǐng)還提供了一種數(shù)據(jù)處理裝置,包括:確定模塊、統(tǒng)計(jì)模塊、計(jì)算模塊和分類(lèi)模塊
確定模塊,用于收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)id;
統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量;
計(jì)算模塊,用于分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度;
分類(lèi)模塊,用于根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。
進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),該裝置還包括處理模塊,用于:根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與所述智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。
進(jìn)一步地,所述處理模塊,具體用于:
分別計(jì)算與所述智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;
判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;
當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量;
計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。
進(jìn)一步地,所述處理模塊計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的所述兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為所述分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。
進(jìn)一步地,該裝置還包括存儲(chǔ)模塊,用于:收集并對(duì)應(yīng)存儲(chǔ)所述各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。
進(jìn)一步地,所述分類(lèi)模塊,具體用于:
分別確定各個(gè)分類(lèi)后的終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為所述分類(lèi)后的該終端id的身份類(lèi)別。
進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),所述分類(lèi)模塊,具體用于:
確定所述終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為所述終端id的身份類(lèi)別。
本申請(qǐng)技術(shù)方案包括:收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)id;統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量;分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度;根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。本申請(qǐng)技術(shù)方案實(shí)現(xiàn)了更加快速、便捷的獲知家庭的組成構(gòu)架。
附圖說(shuō)明
此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
圖1為本發(fā)明實(shí)施例數(shù)據(jù)處理方法的流程圖;
圖2為本發(fā)明實(shí)施例數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下文中將結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)說(shuō)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互任意組合。
發(fā)明人發(fā)現(xiàn),智能電視不同于移動(dòng)終端設(shè)備,由于絕大多數(shù)家庭都會(huì)使用智能電視且其具備不可移動(dòng)性,因此,在一定程度上一臺(tái)智能電視可以代表一戶(hù)家庭,因此可以通過(guò)智能電視和與其關(guān)聯(lián)的其它終端設(shè)備來(lái)確定家庭的組成構(gòu)架(即家庭人口屬性)。
圖1為本發(fā)明實(shí)施例數(shù)據(jù)處理方法的流程圖,如圖1所示,包括:
步驟101:收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)(id)。
其中,智能設(shè)備是智能電視;終端包括:手機(jī)、pad、筆記本電腦等。
其中,智能設(shè)備的行為數(shù)據(jù)包括:智能設(shè)備的ip地址、智能卡id、開(kāi)機(jī)時(shí)間和關(guān)機(jī)時(shí)間。
其中,預(yù)設(shè)時(shí)間段可以為一個(gè)默認(rèn)值,如為一個(gè)月,也可以為15天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。
其中,按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端id包括:在該智能設(shè)備的開(kāi)機(jī)時(shí)間到關(guān)機(jī)時(shí)間內(nèi)查找與智能設(shè)備的ip地址相同的終端id并記錄查找到的次數(shù);
獲取大于或等于預(yù)設(shè)次數(shù)閾值的查找到的次數(shù)對(duì)應(yīng)的與智能設(shè)備的ip地址相同的終端id;
關(guān)聯(lián)智能卡id與獲得的終端id。
其中,預(yù)設(shè)次數(shù)閾值可以為一個(gè)默認(rèn)值,如為5,也可以為3天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。
步驟102:統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。
步驟102具體包括:
獲取在該預(yù)設(shè)時(shí)間段內(nèi)關(guān)聯(lián)的終端id的上網(wǎng)行為數(shù)據(jù);
根據(jù)獲得的上網(wǎng)行為數(shù)據(jù)統(tǒng)計(jì)與該智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。其中,上網(wǎng)行為數(shù)據(jù)包括:終端id、訪(fǎng)問(wèn)網(wǎng)址和訪(fǎng)問(wèn)時(shí)間。
其中,上網(wǎng)行為向量包括終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的次數(shù)。需要說(shuō)明的是上網(wǎng)行為向量的維度與預(yù)設(shè)網(wǎng)站的個(gè)數(shù)相等。
步驟103:分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度。
其中,按照公式(1)計(jì)算第一相似度:
其中,用戶(hù)a(即終端id可以看成a)的上網(wǎng)行為向量為(a1,...,an),樣本b的上網(wǎng)行為向量為(b1,...,bn)。
進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),在步驟102之后,在步驟103之前,該方法還包括:
根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。
其中,根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)包括:
分別計(jì)算與智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;
判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;
當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量;
計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。
其中,按照公式(2)計(jì)算任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二
相似度:
其中,id1和id2分別為終端1的id和終端2的id,d1的上網(wǎng)行為向量為(f1,...,fn),id2的上網(wǎng)行為向量為(y1,...,yn)。
其中,相似度閾值可以為一個(gè)默認(rèn)值,如為0.8,也可以為0.6;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。
其中,計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。
舉例說(shuō)明,假設(shè)分為相同類(lèi)的兩個(gè)終端id分別為終端id1和終端id2,其中,終端id1的上網(wǎng)行為向量為(f1,...,fn),終端id2的上網(wǎng)行為向量為(y1,...,yn),則分為相同類(lèi)的終端id1和終端id2可以合并成一個(gè)終端id,其中合并后的終端id可以在終端id1和終端id2中任選一個(gè),也可以定義一個(gè)新的id,則其上網(wǎng)行為向量為(f1+y1,...,fn+yn);具體的終端id1的上網(wǎng)行為向量為(6,9,10,20,0,0…,0),終端id2的上網(wǎng)行為向量為(4,7,12,19,0,0…,0),則合并后的終端id的上網(wǎng)行為向量為(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。
步驟104:根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。
其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),步驟104具體包括:
分別確定各個(gè)分類(lèi)后的終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為分類(lèi)后的該終端id的身份類(lèi)別。
其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),步驟104具體包括:確定終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為終端id的身份類(lèi)別。
進(jìn)一步地,當(dāng)最大第一相似度有兩個(gè)或兩個(gè)以上時(shí),確定終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量包括:選擇兩個(gè)或兩個(gè)以上最大第一相似度中的任意一個(gè)最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量作為確定出的樣本的上網(wǎng)行為向量。
進(jìn)一步地,該方法之前還包括:收集并對(duì)應(yīng)存儲(chǔ)各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。
其中,樣本的屬性信息包括:年齡、性別、受教育程度和收入等。
本發(fā)明實(shí)施例中,通過(guò)計(jì)算與智能設(shè)備關(guān)聯(lián)的終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量的第一相似度來(lái)確定終端id的身份類(lèi)別,實(shí)現(xiàn)了更加快速、便捷的獲知家庭的組成構(gòu)架。
下面結(jié)合具體實(shí)施例對(duì)本申請(qǐng)技術(shù)方案進(jìn)行詳細(xì)描述,本實(shí)施例中,以與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上為例進(jìn)行的闡述。
步驟一:選取1000個(gè)樣本進(jìn)行處理整合。
包括以下內(nèi)容:每個(gè)人的年齡、性別、受教育程度、收入等屬性以及使用的電子設(shè)備(或稱(chēng)為終端)id。
步驟二:收集最近一個(gè)月內(nèi)的智能電視的收視行為數(shù)據(jù)(或稱(chēng)為行為數(shù)據(jù))以及手機(jī)和個(gè)人電腦等電子設(shè)備id的上網(wǎng)行為數(shù)據(jù)。
其中,智能電視的收視行為數(shù)據(jù)包括智能電視設(shè)備id,開(kāi)機(jī)時(shí)間,關(guān)機(jī)時(shí)間,ip地址等。電子設(shè)備id的上網(wǎng)行為數(shù)據(jù)包括電子設(shè)備id,訪(fǎng)問(wèn)時(shí)間,訪(fǎng)問(wèn)網(wǎng)址等。
其中,假設(shè)判斷智能電視設(shè)備id與電子設(shè)備id關(guān)聯(lián)次數(shù)的閾值為5次,進(jìn)行id合并的相似度閾值為0.8.假設(shè)收集到下面的智能電視日志和手機(jī)和電腦等電子設(shè)備日志。
智能電視日志
2015-09-01-18-00-01,tvid1,162.105.20.10,開(kāi)機(jī)
2015-09-01-20-00-05,tvid1,162.105.20.10,關(guān)機(jī)
2015-09-02-19-10-04,tvid1,162.105.20.12,開(kāi)機(jī)
2015-09-02-22-00-01,tvid1,162.105.20.12,關(guān)機(jī)
……
電子設(shè)備上網(wǎng)日志
2015-09-01-18-20-11,id1,162.105.20.10,www.youku.com
2015-09-01-18-30-11,id1,162.105.20.10,www.sina.com
2015-09-02-20-20-13,id2,162.105.20.12,www.163.com
2015-09-02-21-10-15,id2,162.105.20.12,www.iqiyi.com
……
統(tǒng)計(jì)得到智能電視tvid1關(guān)聯(lián)的所有設(shè)備id包括id1,id2,id3,id4,id5,關(guān)聯(lián)次數(shù)依次為10,3,15,18,2。假設(shè)過(guò)濾閾值為5,則智能電視tvid1關(guān)聯(lián)的設(shè)備id包括id1,id3,id4,假設(shè)id1,id3,id4的上網(wǎng)行為向量依次為:
id1,(3,4,5,0….,0)
id3,(3,4,4,0….,0)
id4,(0,0,10,0….,0)
步驟三:根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)合并。
根據(jù)公式(1)或公式(2)計(jì)算id1,id3,id4兩兩之間的相似度為:sim(id1,id3)=0.99,sim(id1,id4)=0.71,sim(id3,id4)=0.62。
由于id1和id3的相似度最大并且大于閾值0.8,將id1和id3合并,id簇{id1,id3}的上網(wǎng)行為向量為(6,8,9,0,…,0),重新計(jì)算{id1,id3}與id4的相似度為:sim({id1,id3},id4)=0.67。
由于,目前所有的相似度均小于0.8,因此id合并結(jié)束。
步驟四:確定各個(gè)分類(lèi)合并后的終端id的身份類(lèi)別。
假設(shè)所有樣本的上網(wǎng)行為向量依次是:
y1,(6,8,8,0,…,0)
y2,(0,0,9,0,…,0)
……
計(jì)算{id1,id3}與每個(gè)樣本戶(hù)的相似度為:
假設(shè){id1,id3}與其他998個(gè)樣本的相似度分別為0.90,0.88,…,0.2;則{id1,id3}與y1的相似度最高,將{id1,id3}歸為y1類(lèi),假設(shè)y1是30歲的男性,則{id1,id3}標(biāo)記為30歲的男性。類(lèi)似可計(jì)算id4與所有樣本的相似度,假設(shè)id4與y2的相似度最高,y2是28歲的女性,則id4標(biāo)記為28歲的女性。由此推斷出使用tvid1這個(gè)電視的家庭有兩個(gè)人,分別是30歲的男性,28歲的女性。
圖2為本發(fā)明實(shí)施例數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖,如圖2所示,包括:確定模塊、統(tǒng)計(jì)模塊、計(jì)算模塊和分類(lèi)模塊。其中,
確定模塊,用于收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)(id)。
其中,智能設(shè)備的行為數(shù)據(jù)包括:智能設(shè)備的ip地址、智能卡id、開(kāi)機(jī)時(shí)間和關(guān)機(jī)時(shí)間。
其中,預(yù)設(shè)時(shí)間段可以為一個(gè)默認(rèn)值,如為一個(gè)月,也可以為15天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。
其中,確定模塊按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端id包括:在該智能設(shè)備的開(kāi)機(jī)時(shí)間到關(guān)機(jī)時(shí)間內(nèi)查找與智能設(shè)備的ip地址相同的終端id并記錄查找到的次數(shù);
獲取大于或等于預(yù)設(shè)次數(shù)閾值的查找到的次數(shù)對(duì)應(yīng)的與智能設(shè)備的ip地址相同的終端id;
關(guān)聯(lián)智能卡id與獲得的終端id。
其中,預(yù)設(shè)次數(shù)閾值可以為一個(gè)默認(rèn)值,如為5,也可以為3天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。
統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。
其中,統(tǒng)計(jì)模塊,具體用于:獲取在該預(yù)設(shè)時(shí)間段內(nèi)關(guān)聯(lián)的終端id的上網(wǎng)行為數(shù)據(jù);
根據(jù)獲得的上網(wǎng)行為數(shù)據(jù)統(tǒng)計(jì)與該智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。其中,上網(wǎng)行為數(shù)據(jù)包括:終端id、訪(fǎng)問(wèn)網(wǎng)址和訪(fǎng)問(wèn)時(shí)間。
其中,上網(wǎng)行為向量包括終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的次數(shù)。需要說(shuō)明的是上網(wǎng)行為向量的維度與預(yù)設(shè)網(wǎng)站的個(gè)數(shù)相等。
計(jì)算模塊,用于分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度。
其中,計(jì)算模塊按照公式(1)計(jì)算第一相似度:
其中,用戶(hù)a(即終端id可以看成a)的上網(wǎng)行為向量為(a1,...,an),樣本b的上網(wǎng)行為向量為(b1,...,bn)。
分類(lèi)模塊,用于根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。
其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),分類(lèi)模塊,具體用于:
分別確定各個(gè)分類(lèi)后的終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為分類(lèi)后的該終端id的身份類(lèi)別。
其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),分類(lèi)模塊,具體用于:
確定終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;
在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;
將查找到的樣本的屬性信息作為終端id的身份類(lèi)別。
進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),該裝置還包括處理模塊,用于:根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。
其中,處理模塊,具體用于:
分別計(jì)算與智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;
判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;
當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量;
計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。
其中,處理模塊按照公式(2)計(jì)算任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度:
其中,id1和id2分別為終端1的id和終端2的id,d1的上網(wǎng)行為向量為(f1,...,fn),id2的上網(wǎng)行為向量為(y1,...,yn)。
其中,相似度閾值可以為一個(gè)默認(rèn)值,如為0.8,也可以為0.6;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。
其中,處理模塊計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。
舉例說(shuō)明,假設(shè)分為相同類(lèi)的兩個(gè)終端id分別為終端id1和終端id2,其中,終端id1的上網(wǎng)行為向量為(f1,...,fn),終端id2的上網(wǎng)行為向量為(y1,...,yn),則分為相同類(lèi)的終端id1和終端id2可以合并成一個(gè)終端id,其中合并后的終端id可以在終端id1和終端id2中任選一個(gè),也可以定義一個(gè)新的id,則其上網(wǎng)行為向量為(f1+y1,...,fn+yn);具體的終端id1的上網(wǎng)行為向量為(6,9,10,20,0,0…,0),終端id2的上網(wǎng)行為向量為(4,7,12,19,0,0…,0),則合并后的終端id的上網(wǎng)行為向量為(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。
進(jìn)一步地,該裝置還包括存儲(chǔ)模塊,用于:收集并對(duì)應(yīng)存儲(chǔ)各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。
需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。
上述本申請(qǐng)實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤(pán))中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述的方法。
以上僅為本申請(qǐng)的優(yōu)選實(shí)施例,并非因此限制本申請(qǐng)的專(zhuān)利范圍,凡是利用本申請(qǐng)說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本申請(qǐng)的專(zhuān)利保護(hù)范圍內(nèi)。