亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)處理方法和裝置與流程

文檔序號(hào):11591392閱讀:200來(lái)源:國(guó)知局

本申請(qǐng)涉及但不限于數(shù)據(jù)分析領(lǐng)域,尤指一種數(shù)據(jù)處理方法和裝置。



背景技術(shù):

隨著智能電視領(lǐng)域技術(shù)的日益漸進(jìn),電視設(shè)備也從傳統(tǒng)電視變?yōu)槿缃窬邆洳僮飨到y(tǒng)、具有平臺(tái)特性的智能電視,智能電視逐漸成為每個(gè)家庭必備的娛樂(lè)設(shè)備。智能電視允許用戶(hù)在欣賞普通電視節(jié)目的同時(shí),自行安裝和卸載各類(lèi)應(yīng)用軟件以對(duì)其功能進(jìn)行擴(kuò)充,并具備通過(guò)網(wǎng)絡(luò)回傳用戶(hù)數(shù)據(jù)的功能。

如今,隨著多樣化的網(wǎng)民屬性估算技術(shù)的日趨成熟,家庭人口屬性估算成為當(dāng)務(wù)之急。準(zhǔn)確的定位一個(gè)家庭的組成情況對(duì)于媒體的精準(zhǔn)投放,廣告主的商業(yè)營(yíng)銷(xiāo)方向,政府的監(jiān)管及人口統(tǒng)計(jì),人口大數(shù)據(jù)的分析有著至關(guān)重要的意義。而現(xiàn)有對(duì)家庭人口屬性統(tǒng)計(jì)的方法仍然停留在人工走訪(fǎng)調(diào)研的水平,此種做法費(fèi)時(shí)費(fèi)力,同時(shí)統(tǒng)計(jì)期限漫長(zhǎng)。



技術(shù)實(shí)現(xiàn)要素:

本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法和裝置,能夠更加快速、便捷的獲知家庭的組成構(gòu)架。

為了達(dá)到本申請(qǐng)目的,本申請(qǐng)?zhí)峁┝艘环N數(shù)據(jù)處理方法,包括:

收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)id;

統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量;

分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度;

根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。

進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),在所述統(tǒng)計(jì)所述與智能設(shè)備關(guān)聯(lián)的終端id的上網(wǎng)行為向量之后,在所述計(jì)算所述第一相似度之前,該方法還包括:

根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與所述智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。

進(jìn)一步地,所述根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與所述智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)包括:

分別計(jì)算與所述智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;

判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;

當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量;

計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。

進(jìn)一步地,所述計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的所述兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為所述分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。

進(jìn)一步地,該方法之前還包括:收集并對(duì)應(yīng)存儲(chǔ)所述各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。

進(jìn)一步地,所述根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別包括:

分別確定各個(gè)分類(lèi)后的終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為所述分類(lèi)后的該終端id的身份類(lèi)別。

進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),所述根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別包括:

確定所述終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為所述終端id的身份類(lèi)別。

本申請(qǐng)還提供了一種數(shù)據(jù)處理裝置,包括:確定模塊、統(tǒng)計(jì)模塊、計(jì)算模塊和分類(lèi)模塊

確定模塊,用于收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)id;

統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量;

計(jì)算模塊,用于分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度;

分類(lèi)模塊,用于根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。

進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),該裝置還包括處理模塊,用于:根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與所述智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。

進(jìn)一步地,所述處理模塊,具體用于:

分別計(jì)算與所述智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;

判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;

當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量;

計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。

進(jìn)一步地,所述處理模塊計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的所述兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為所述分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。

進(jìn)一步地,該裝置還包括存儲(chǔ)模塊,用于:收集并對(duì)應(yīng)存儲(chǔ)所述各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。

進(jìn)一步地,所述分類(lèi)模塊,具體用于:

分別確定各個(gè)分類(lèi)后的終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為所述分類(lèi)后的該終端id的身份類(lèi)別。

進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),所述分類(lèi)模塊,具體用于:

確定所述終端id的所述第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的所述各個(gè)樣本的上網(wǎng)行為向量以及所述各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為所述終端id的身份類(lèi)別。

本申請(qǐng)技術(shù)方案包括:收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)id;統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量;分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度;根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。本申請(qǐng)技術(shù)方案實(shí)現(xiàn)了更加快速、便捷的獲知家庭的組成構(gòu)架。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說(shuō)明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:

圖1為本發(fā)明實(shí)施例數(shù)據(jù)處理方法的流程圖;

圖2為本發(fā)明實(shí)施例數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下文中將結(jié)合附圖對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)說(shuō)明。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互任意組合。

發(fā)明人發(fā)現(xiàn),智能電視不同于移動(dòng)終端設(shè)備,由于絕大多數(shù)家庭都會(huì)使用智能電視且其具備不可移動(dòng)性,因此,在一定程度上一臺(tái)智能電視可以代表一戶(hù)家庭,因此可以通過(guò)智能電視和與其關(guān)聯(lián)的其它終端設(shè)備來(lái)確定家庭的組成構(gòu)架(即家庭人口屬性)。

圖1為本發(fā)明實(shí)施例數(shù)據(jù)處理方法的流程圖,如圖1所示,包括:

步驟101:收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)(id)。

其中,智能設(shè)備是智能電視;終端包括:手機(jī)、pad、筆記本電腦等。

其中,智能設(shè)備的行為數(shù)據(jù)包括:智能設(shè)備的ip地址、智能卡id、開(kāi)機(jī)時(shí)間和關(guān)機(jī)時(shí)間。

其中,預(yù)設(shè)時(shí)間段可以為一個(gè)默認(rèn)值,如為一個(gè)月,也可以為15天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。

其中,按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端id包括:在該智能設(shè)備的開(kāi)機(jī)時(shí)間到關(guān)機(jī)時(shí)間內(nèi)查找與智能設(shè)備的ip地址相同的終端id并記錄查找到的次數(shù);

獲取大于或等于預(yù)設(shè)次數(shù)閾值的查找到的次數(shù)對(duì)應(yīng)的與智能設(shè)備的ip地址相同的終端id;

關(guān)聯(lián)智能卡id與獲得的終端id。

其中,預(yù)設(shè)次數(shù)閾值可以為一個(gè)默認(rèn)值,如為5,也可以為3天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。

步驟102:統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。

步驟102具體包括:

獲取在該預(yù)設(shè)時(shí)間段內(nèi)關(guān)聯(lián)的終端id的上網(wǎng)行為數(shù)據(jù);

根據(jù)獲得的上網(wǎng)行為數(shù)據(jù)統(tǒng)計(jì)與該智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。其中,上網(wǎng)行為數(shù)據(jù)包括:終端id、訪(fǎng)問(wèn)網(wǎng)址和訪(fǎng)問(wèn)時(shí)間。

其中,上網(wǎng)行為向量包括終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的次數(shù)。需要說(shuō)明的是上網(wǎng)行為向量的維度與預(yù)設(shè)網(wǎng)站的個(gè)數(shù)相等。

步驟103:分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度。

其中,按照公式(1)計(jì)算第一相似度:

其中,用戶(hù)a(即終端id可以看成a)的上網(wǎng)行為向量為(a1,...,an),樣本b的上網(wǎng)行為向量為(b1,...,bn)。

進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),在步驟102之后,在步驟103之前,該方法還包括:

根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。

其中,根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)包括:

分別計(jì)算與智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;

判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;

當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量;

計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。

其中,按照公式(2)計(jì)算任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二

相似度:

其中,id1和id2分別為終端1的id和終端2的id,d1的上網(wǎng)行為向量為(f1,...,fn),id2的上網(wǎng)行為向量為(y1,...,yn)。

其中,相似度閾值可以為一個(gè)默認(rèn)值,如為0.8,也可以為0.6;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。

其中,計(jì)算分為相同類(lèi)的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。

舉例說(shuō)明,假設(shè)分為相同類(lèi)的兩個(gè)終端id分別為終端id1和終端id2,其中,終端id1的上網(wǎng)行為向量為(f1,...,fn),終端id2的上網(wǎng)行為向量為(y1,...,yn),則分為相同類(lèi)的終端id1和終端id2可以合并成一個(gè)終端id,其中合并后的終端id可以在終端id1和終端id2中任選一個(gè),也可以定義一個(gè)新的id,則其上網(wǎng)行為向量為(f1+y1,...,fn+yn);具體的終端id1的上網(wǎng)行為向量為(6,9,10,20,0,0…,0),終端id2的上網(wǎng)行為向量為(4,7,12,19,0,0…,0),則合并后的終端id的上網(wǎng)行為向量為(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。

步驟104:根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。

其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),步驟104具體包括:

分別確定各個(gè)分類(lèi)后的終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為分類(lèi)后的該終端id的身份類(lèi)別。

其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),步驟104具體包括:確定終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為終端id的身份類(lèi)別。

進(jìn)一步地,當(dāng)最大第一相似度有兩個(gè)或兩個(gè)以上時(shí),確定終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量包括:選擇兩個(gè)或兩個(gè)以上最大第一相似度中的任意一個(gè)最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量作為確定出的樣本的上網(wǎng)行為向量。

進(jìn)一步地,該方法之前還包括:收集并對(duì)應(yīng)存儲(chǔ)各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。

其中,樣本的屬性信息包括:年齡、性別、受教育程度和收入等。

本發(fā)明實(shí)施例中,通過(guò)計(jì)算與智能設(shè)備關(guān)聯(lián)的終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量的第一相似度來(lái)確定終端id的身份類(lèi)別,實(shí)現(xiàn)了更加快速、便捷的獲知家庭的組成構(gòu)架。

下面結(jié)合具體實(shí)施例對(duì)本申請(qǐng)技術(shù)方案進(jìn)行詳細(xì)描述,本實(shí)施例中,以與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上為例進(jìn)行的闡述。

步驟一:選取1000個(gè)樣本進(jìn)行處理整合。

包括以下內(nèi)容:每個(gè)人的年齡、性別、受教育程度、收入等屬性以及使用的電子設(shè)備(或稱(chēng)為終端)id。

步驟二:收集最近一個(gè)月內(nèi)的智能電視的收視行為數(shù)據(jù)(或稱(chēng)為行為數(shù)據(jù))以及手機(jī)和個(gè)人電腦等電子設(shè)備id的上網(wǎng)行為數(shù)據(jù)。

其中,智能電視的收視行為數(shù)據(jù)包括智能電視設(shè)備id,開(kāi)機(jī)時(shí)間,關(guān)機(jī)時(shí)間,ip地址等。電子設(shè)備id的上網(wǎng)行為數(shù)據(jù)包括電子設(shè)備id,訪(fǎng)問(wèn)時(shí)間,訪(fǎng)問(wèn)網(wǎng)址等。

其中,假設(shè)判斷智能電視設(shè)備id與電子設(shè)備id關(guān)聯(lián)次數(shù)的閾值為5次,進(jìn)行id合并的相似度閾值為0.8.假設(shè)收集到下面的智能電視日志和手機(jī)和電腦等電子設(shè)備日志。

智能電視日志

2015-09-01-18-00-01,tvid1,162.105.20.10,開(kāi)機(jī)

2015-09-01-20-00-05,tvid1,162.105.20.10,關(guān)機(jī)

2015-09-02-19-10-04,tvid1,162.105.20.12,開(kāi)機(jī)

2015-09-02-22-00-01,tvid1,162.105.20.12,關(guān)機(jī)

……

電子設(shè)備上網(wǎng)日志

2015-09-01-18-20-11,id1,162.105.20.10,www.youku.com

2015-09-01-18-30-11,id1,162.105.20.10,www.sina.com

2015-09-02-20-20-13,id2,162.105.20.12,www.163.com

2015-09-02-21-10-15,id2,162.105.20.12,www.iqiyi.com

……

統(tǒng)計(jì)得到智能電視tvid1關(guān)聯(lián)的所有設(shè)備id包括id1,id2,id3,id4,id5,關(guān)聯(lián)次數(shù)依次為10,3,15,18,2。假設(shè)過(guò)濾閾值為5,則智能電視tvid1關(guān)聯(lián)的設(shè)備id包括id1,id3,id4,假設(shè)id1,id3,id4的上網(wǎng)行為向量依次為:

id1,(3,4,5,0….,0)

id3,(3,4,4,0….,0)

id4,(0,0,10,0….,0)

步驟三:根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)合并。

根據(jù)公式(1)或公式(2)計(jì)算id1,id3,id4兩兩之間的相似度為:sim(id1,id3)=0.99,sim(id1,id4)=0.71,sim(id3,id4)=0.62。

由于id1和id3的相似度最大并且大于閾值0.8,將id1和id3合并,id簇{id1,id3}的上網(wǎng)行為向量為(6,8,9,0,…,0),重新計(jì)算{id1,id3}與id4的相似度為:sim({id1,id3},id4)=0.67。

由于,目前所有的相似度均小于0.8,因此id合并結(jié)束。

步驟四:確定各個(gè)分類(lèi)合并后的終端id的身份類(lèi)別。

假設(shè)所有樣本的上網(wǎng)行為向量依次是:

y1,(6,8,8,0,…,0)

y2,(0,0,9,0,…,0)

……

計(jì)算{id1,id3}與每個(gè)樣本戶(hù)的相似度為:

假設(shè){id1,id3}與其他998個(gè)樣本的相似度分別為0.90,0.88,…,0.2;則{id1,id3}與y1的相似度最高,將{id1,id3}歸為y1類(lèi),假設(shè)y1是30歲的男性,則{id1,id3}標(biāo)記為30歲的男性。類(lèi)似可計(jì)算id4與所有樣本的相似度,假設(shè)id4與y2的相似度最高,y2是28歲的女性,則id4標(biāo)記為28歲的女性。由此推斷出使用tvid1這個(gè)電視的家庭有兩個(gè)人,分別是30歲的男性,28歲的女性。

圖2為本發(fā)明實(shí)施例數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖,如圖2所示,包括:確定模塊、統(tǒng)計(jì)模塊、計(jì)算模塊和分類(lèi)模塊。其中,

確定模塊,用于收集預(yù)設(shè)時(shí)間段內(nèi)的智能設(shè)備的行為數(shù)據(jù)并按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端身份標(biāo)識(shí)(id)。

其中,智能設(shè)備的行為數(shù)據(jù)包括:智能設(shè)備的ip地址、智能卡id、開(kāi)機(jī)時(shí)間和關(guān)機(jī)時(shí)間。

其中,預(yù)設(shè)時(shí)間段可以為一個(gè)默認(rèn)值,如為一個(gè)月,也可以為15天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。

其中,確定模塊按照收集的行為數(shù)據(jù)確定與該智能設(shè)備關(guān)聯(lián)的終端id包括:在該智能設(shè)備的開(kāi)機(jī)時(shí)間到關(guān)機(jī)時(shí)間內(nèi)查找與智能設(shè)備的ip地址相同的終端id并記錄查找到的次數(shù);

獲取大于或等于預(yù)設(shè)次數(shù)閾值的查找到的次數(shù)對(duì)應(yīng)的與智能設(shè)備的ip地址相同的終端id;

關(guān)聯(lián)智能卡id與獲得的終端id。

其中,預(yù)設(shè)次數(shù)閾值可以為一個(gè)默認(rèn)值,如為5,也可以為3天;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。

統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)在該預(yù)設(shè)時(shí)間段內(nèi),與智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。

其中,統(tǒng)計(jì)模塊,具體用于:獲取在該預(yù)設(shè)時(shí)間段內(nèi)關(guān)聯(lián)的終端id的上網(wǎng)行為數(shù)據(jù);

根據(jù)獲得的上網(wǎng)行為數(shù)據(jù)統(tǒng)計(jì)與該智能設(shè)備關(guān)聯(lián)的終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的上網(wǎng)行為向量。其中,上網(wǎng)行為數(shù)據(jù)包括:終端id、訪(fǎng)問(wèn)網(wǎng)址和訪(fǎng)問(wèn)時(shí)間。

其中,上網(wǎng)行為向量包括終端id訪(fǎng)問(wèn)各個(gè)預(yù)設(shè)網(wǎng)站的次數(shù)。需要說(shuō)明的是上網(wǎng)行為向量的維度與預(yù)設(shè)網(wǎng)站的個(gè)數(shù)相等。

計(jì)算模塊,用于分別計(jì)算終端id的上網(wǎng)行為向量與各個(gè)樣本的上網(wǎng)行為向量之間的第一相似度。

其中,計(jì)算模塊按照公式(1)計(jì)算第一相似度:

其中,用戶(hù)a(即終端id可以看成a)的上網(wǎng)行為向量為(a1,...,an),樣本b的上網(wǎng)行為向量為(b1,...,bn)。

分類(lèi)模塊,用于根據(jù)計(jì)算出的第一相似度確定終端id的身份類(lèi)別。

其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),分類(lèi)模塊,具體用于:

分別確定各個(gè)分類(lèi)后的終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為分類(lèi)后的該終端id的身份類(lèi)別。

其中,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是一個(gè)時(shí),分類(lèi)模塊,具體用于:

確定終端id的第一相似度中的最大第一相似度對(duì)應(yīng)的樣本的上網(wǎng)行為向量;

在對(duì)應(yīng)存儲(chǔ)的各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息中查找與確定出的樣本的上網(wǎng)行為向量對(duì)應(yīng)的樣本的屬性信息;

將查找到的樣本的屬性信息作為終端id的身份類(lèi)別。

進(jìn)一步地,當(dāng)與該智能設(shè)備關(guān)聯(lián)的終端id是兩個(gè)或者兩個(gè)以上時(shí),該裝置還包括處理模塊,用于:根據(jù)統(tǒng)計(jì)出的上網(wǎng)行為向量對(duì)與智能設(shè)備關(guān)聯(lián)的兩個(gè)或兩個(gè)以上的終端id進(jìn)行分類(lèi)。

其中,處理模塊,具體用于:

分別計(jì)算與智能設(shè)備關(guān)聯(lián)的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度;

判斷計(jì)算出的第二相似度中是否存在大于或等于相似度閾值的第二相似度;

當(dāng)判斷出計(jì)算出的第二相似度中存在大于或等于相似度閾值的第二相似度時(shí),將大于或等于相似度閾值的第二相似度中最大的第二相似度對(duì)應(yīng)的兩個(gè)終端id分為相同類(lèi)并計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量;

計(jì)算分類(lèi)后的終端id中任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度,直到計(jì)算出的第二相似度中不存在大于或等于相似度閾值的第二相似度。

其中,處理模塊按照公式(2)計(jì)算任意兩個(gè)終端id的上網(wǎng)行為向量之間的第二相似度:

其中,id1和id2分別為終端1的id和終端2的id,d1的上網(wǎng)行為向量為(f1,...,fn),id2的上網(wǎng)行為向量為(y1,...,yn)。

其中,相似度閾值可以為一個(gè)默認(rèn)值,如為0.8,也可以為0.6;也可以由管理員根據(jù)自身需求進(jìn)行設(shè)定。

其中,處理模塊計(jì)算分類(lèi)后的終端id的上網(wǎng)行為向量包括:計(jì)算分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量的向量和值作為分為相同類(lèi)的兩個(gè)終端id的上網(wǎng)行為向量。

舉例說(shuō)明,假設(shè)分為相同類(lèi)的兩個(gè)終端id分別為終端id1和終端id2,其中,終端id1的上網(wǎng)行為向量為(f1,...,fn),終端id2的上網(wǎng)行為向量為(y1,...,yn),則分為相同類(lèi)的終端id1和終端id2可以合并成一個(gè)終端id,其中合并后的終端id可以在終端id1和終端id2中任選一個(gè),也可以定義一個(gè)新的id,則其上網(wǎng)行為向量為(f1+y1,...,fn+yn);具體的終端id1的上網(wǎng)行為向量為(6,9,10,20,0,0…,0),終端id2的上網(wǎng)行為向量為(4,7,12,19,0,0…,0),則合并后的終端id的上網(wǎng)行為向量為(6,9,10,20,0,0…,0)+(4,7,12,19,0,0…,0)=(10,16,22,39,0,0…,0)。

進(jìn)一步地,該裝置還包括存儲(chǔ)模塊,用于:收集并對(duì)應(yīng)存儲(chǔ)各個(gè)樣本的上網(wǎng)行為向量以及各個(gè)樣本的屬性信息。

需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。

上述本申請(qǐng)實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。

通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如rom/ram、磁碟、光盤(pán))中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),服務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述的方法。

以上僅為本申請(qǐng)的優(yōu)選實(shí)施例,并非因此限制本申請(qǐng)的專(zhuān)利范圍,凡是利用本申請(qǐng)說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本申請(qǐng)的專(zhuān)利保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1