本發(fā)明屬于大數(shù)據(jù)領(lǐng)域,更準(zhǔn)確的講,涉及半監(jiān)督學(xué)習(xí)中的協(xié)同學(xué)習(xí)方法。
背景技術(shù):
傳統(tǒng)的協(xié)同學(xué)習(xí)(co-training)主要針對(duì)兩視圖,且基于以下假設(shè):a)兩視圖之間獨(dú)立;b)視圖完整,即單獨(dú)通過每一個(gè)視圖都能得到相對(duì)可靠的分類器。協(xié)同學(xué)習(xí)的思想是兩個(gè)視圖上的分類器相互學(xué)習(xí),相互糾正。一般情況下,協(xié)同學(xué)習(xí)的步驟為:首先根據(jù)有類標(biāo)數(shù)據(jù)分別在兩個(gè)視圖上訓(xùn)練初始分類器,然后利用分類器分別在另外一個(gè)視圖上做驗(yàn)證,把最有把握的無類標(biāo)樣本進(jìn)行標(biāo)注,并放入對(duì)方視圖的有類標(biāo)訓(xùn)練集中;再增加的訓(xùn)練集上,再分別訓(xùn)練兩個(gè)視圖上的分類器,重復(fù)以上步驟,直到該分類器足夠可靠。從協(xié)同訓(xùn)練提出到現(xiàn)在十幾年時(shí)間里,盡管理論很完美,但是實(shí)際有價(jià)值的應(yīng)用并不多??偨Y(jié)原因在于,滿足兩視圖獨(dú)立性條件的數(shù)據(jù)太少,更不要說三個(gè)以上的視圖。本課題的場(chǎng)景為超過三個(gè)視圖,目前的兩視圖技術(shù)并不能處理,具體來說,現(xiàn)有技術(shù)存在以下缺陷:
1)目前的協(xié)同學(xué)習(xí)主流技術(shù)為兩視圖之間相互學(xué)習(xí),盡管存在三視圖學(xué)習(xí)方法,但對(duì)于多個(gè)(超過三個(gè))視圖之間,如何選擇合適視圖,以及如何選擇最有把握的無類標(biāo)樣本,還缺乏相應(yīng)的理論知識(shí)與實(shí)踐經(jīng)驗(yàn)。
2)未知數(shù)據(jù)存在著大量的特征缺失問題,例如:該id在其中幾個(gè)視圖中出現(xiàn),在另外幾個(gè)視圖中卻無數(shù)據(jù)。如何處理缺失視圖數(shù)據(jù),目前也沒有技術(shù)能做到。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是在多源、異構(gòu)的小樣本情況下,對(duì)智慧城市的市民偏好進(jìn) 行發(fā)現(xiàn),進(jìn)而用于人物畫像。市民的網(wǎng)上行為可以有:看視頻、瀏覽網(wǎng)頁、玩游戲、聊天、購物等多種方式,這種多視圖的數(shù)據(jù)極大的彌補(bǔ)了協(xié)同訓(xùn)練的充分性。假設(shè)存在K個(gè)視圖,{V1,…,Vk,…,VK},在每個(gè)視圖上分別建立分類器{f1,…,fK}。示例x在視圖Vk中的特征向量為xk,由于存在數(shù)據(jù)缺失的問題,該特征可能為空。本發(fā)明在數(shù)據(jù)缺失、有類標(biāo)樣本較少的情況下,利用超多視圖(大于3)數(shù)據(jù)相互學(xué)習(xí),逐漸提高分類器的性能。其技術(shù)要點(diǎn)如下:
1、多源異構(gòu)數(shù)據(jù)的采集與融合:本發(fā)明著重考慮市民的真實(shí)數(shù)據(jù),其中以市民卡、市民網(wǎng)手機(jī)端app為主導(dǎo),整合市民的注冊(cè)姓名、性別、年齡、住址、社保等真實(shí)信息,關(guān)聯(lián)相應(yīng)的虛擬賬號(hào),因此關(guān)注市民的虛擬行為,并采集虛擬數(shù)據(jù)。最后對(duì)真實(shí)數(shù)據(jù)與虛擬數(shù)據(jù),進(jìn)行異構(gòu)處理,重新融合;
2、市民畫像:主要根據(jù)市民的真實(shí)信息,輔以虛擬行為,對(duì)市民進(jìn)行多重歸類處理,并提取最有信息量的特征,給用戶群體進(jìn)行畫像。每個(gè)群體有一種特征,每個(gè)市民對(duì)應(yīng)多重類別,也相應(yīng)對(duì)應(yīng)多個(gè)特征。相同特征的市民更容易接受相似的市民服務(wù)。
3、市民服務(wù)推薦:基于跨領(lǐng)域的數(shù)據(jù),計(jì)算更為復(fù)雜的相似性,推薦更為準(zhǔn)確的市民服務(wù)。同時(shí)較傳統(tǒng)的推薦系統(tǒng),市民服務(wù)推薦有很強(qiáng)的時(shí)效性。因此,如果多名相同特征的市民選擇了某一種城市服務(wù),那么有針對(duì)性的給該市民推薦此服務(wù)。
附圖說明
圖1為本發(fā)明的流程圖。
具體實(shí)施方式
參見圖1,本發(fā)明通過協(xié)同訓(xùn)練的方式,在超多視圖、類標(biāo)缺失的情況下,逐步訓(xùn)練一個(gè)強(qiáng)分類器。其中,實(shí)心圈表示有類標(biāo)數(shù)據(jù),空心實(shí)圖表示無類標(biāo)數(shù)據(jù),空心虛圈表示缺失數(shù)據(jù)。主要步驟包括:
步驟1:在各個(gè)視圖上分別建立初始分類器;;
步驟2:根據(jù)統(tǒng)計(jì)概率,在無類標(biāo)數(shù)據(jù)中找出屬于某類的概率最大的示例;
步驟3:用該類將該示例標(biāo)注,并加入有類標(biāo)數(shù)據(jù)中;
步驟4:在相應(yīng)的視圖上,重新訓(xùn)練分類器;
步驟5:重復(fù)以上步驟,直到分類器魯棒。
最后所應(yīng)說明的是,以上實(shí)施例僅用以說明而并非限制本發(fā)明所描述的技術(shù)方案;因此,盡管本說明書參照上述的實(shí)施例對(duì)本發(fā)明已進(jìn)行了詳細(xì)的說明,但是,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,仍然可以對(duì)本發(fā)明進(jìn)行修改或者等同地替換;而一切不脫離本發(fā)明的精神和范圍的技術(shù)方案及其改進(jìn),其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。