本發(fā)明涉及場(chǎng)所語(yǔ)義識(shí)別領(lǐng)域,尤其涉及一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法。
背景技術(shù):
隨著智能設(shè)備的普及和移動(dòng)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的基于位置的服務(wù)給生活帶來(lái)了極大便利?!拔恢谩敝嫌辛硪环N情境層次更高、表達(dá)能力更強(qiáng)的概念,即“場(chǎng)所”。場(chǎng)所除了有基本的地理位置信息外,往往還具有語(yǔ)義,通常表現(xiàn)為標(biāo)簽的形式,如家、公司、餐廳等。場(chǎng)所語(yǔ)義是以用戶為中心的位置表達(dá)方式,可使基于位置的服務(wù)更智能。例如,基于場(chǎng)所語(yǔ)義的提醒服務(wù)可將待辦事項(xiàng)與特定語(yǔ)義的場(chǎng)所相關(guān)聯(lián)。因此,場(chǎng)所語(yǔ)義識(shí)別在普適計(jì)算、基于位置的服務(wù)等領(lǐng)域具有廣闊應(yīng)用空間。
傳統(tǒng)的場(chǎng)所語(yǔ)義識(shí)別方法一般通過(guò)分析場(chǎng)所下所有用戶共性的行為對(duì)場(chǎng)所語(yǔ)義進(jìn)行識(shí)別。然而,這種方法的前提是場(chǎng)所對(duì)所有用戶具有相同語(yǔ)義,而未考慮場(chǎng)所對(duì)用戶的個(gè)性化語(yǔ)義。例如,超市對(duì)消費(fèi)者是購(gòu)物場(chǎng)所,但對(duì)超市員工則是工作場(chǎng)所。
為了識(shí)別場(chǎng)所個(gè)性化語(yǔ)義,研究人員從用戶角度出發(fā),根據(jù)用戶歷史記錄,獲取用戶的場(chǎng)所訪問(wèn)模式。典型做法是通過(guò)用戶的gps軌跡發(fā)現(xiàn)用戶停留的場(chǎng)所,根據(jù)場(chǎng)所位置以及訪問(wèn)時(shí)間等信息識(shí)別場(chǎng)所語(yǔ)義。由于gps存在耗電高、室內(nèi)沒(méi)有信號(hào)等問(wèn)題,這一方法在實(shí)際應(yīng)用中無(wú)法工作。針對(duì)這一問(wèn)題,現(xiàn)有研究從智能手機(jī)使用日志中挖掘用戶情境,識(shí)別場(chǎng)所個(gè)性化語(yǔ)義。然而,現(xiàn)有方法均未考慮高情境層次的場(chǎng)所特征。此外,由于不同類型場(chǎng)所在語(yǔ)義上的相似性,不同錯(cuò)誤識(shí)別造成的代價(jià)損失有所差異,但現(xiàn)有方法在評(píng)估模型性能時(shí)很少考慮這一指標(biāo)。用戶標(biāo)注場(chǎng)所語(yǔ)義代價(jià)高昂,因此場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法普遍存在訓(xùn)練數(shù)據(jù)不足導(dǎo)致模型性能不佳的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為克服上述的不足之處,目的在于提供一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法,本發(fā)明方法從智能手機(jī)使用日志的各類情境數(shù)據(jù)中提取有效特征,并通過(guò)聚類發(fā)現(xiàn)加速度數(shù)據(jù)中的用戶活動(dòng),構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征。接著,根據(jù)場(chǎng)所的活動(dòng)分布,計(jì)算場(chǎng)所語(yǔ)義相似性以獲取代價(jià)矩陣。然后,結(jié)合代價(jià)矩陣對(duì)場(chǎng)所的特征進(jìn)行建模,引入無(wú)標(biāo)簽場(chǎng)所數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)得到多個(gè)代價(jià)敏感的基分類器。最后,集成多個(gè)基分類器輸出識(shí)別模型,對(duì)用戶訪問(wèn)場(chǎng)所進(jìn)行個(gè)性化語(yǔ)義識(shí)別。本發(fā)明結(jié)合情境感知、代價(jià)敏感和半監(jiān)督學(xué)習(xí)進(jìn)行場(chǎng)所個(gè)性化語(yǔ)義識(shí)別,在普適計(jì)算、基于位置的服務(wù)等領(lǐng)域具有廣闊的應(yīng)用前景。
本發(fā)明是通過(guò)以下技術(shù)方案達(dá)到上述目的:一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法,其包括如下步驟:1)從智能手機(jī)上的使用訪問(wèn)日志的各類情境數(shù)據(jù)中提取有效特征,并通過(guò)聚類發(fā)現(xiàn)加速度數(shù)據(jù)中的用戶活動(dòng),構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征,并獲得有標(biāo)簽數(shù)據(jù)集與無(wú)標(biāo)簽數(shù)據(jù)集;
2)根據(jù)場(chǎng)所活動(dòng)分布,計(jì)算場(chǎng)所語(yǔ)義相似性,得到代價(jià)矩陣;
3)結(jié)合代價(jià)矩陣對(duì)場(chǎng)所的特征進(jìn)行建模,引入無(wú)標(biāo)簽數(shù)據(jù)集進(jìn)行半監(jiān)督學(xué)習(xí)得到若干個(gè)代價(jià)敏感的基分類器;
4)集成若干個(gè)基分類器輸出識(shí)別模型,對(duì)用戶訪問(wèn)場(chǎng)所進(jìn)行個(gè)性化語(yǔ)義識(shí)別。
作為優(yōu)選,所述步驟1)具體如下:
1.1)將用戶在相同場(chǎng)所下的所有訪問(wèn)記錄v整合形成場(chǎng)所的訪問(wèn)記錄集合v,v在識(shí)別中看作一個(gè)場(chǎng)所;
1.2)采用特征工程方法分別從用戶場(chǎng)所訪問(wèn)記錄集合v的多情境數(shù)據(jù)中提取有效特征;
1.3)以聚類的方式從訪問(wèn)記錄集合v的加速度數(shù)據(jù)中發(fā)現(xiàn)用戶活動(dòng),統(tǒng)計(jì)活動(dòng)分布,并構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征fh;
1.4)根據(jù)場(chǎng)所是否具有用戶標(biāo)注的語(yǔ)義標(biāo)簽劃分有標(biāo)簽數(shù)據(jù)集和無(wú)標(biāo)簽數(shù)據(jù)集。
作為優(yōu)選,所述的有效特征包括時(shí)間特征ft、app使用特征fa、通話記錄特征fc。
作為優(yōu)選,所述步驟1.3)得到場(chǎng)所用戶活動(dòng)特征fh的方法具體如下:
1.3.1)將加速度數(shù)據(jù)<(t1,(x1,y1,z1)),...,(tn,(xn,yn,zn))>按時(shí)長(zhǎng)δ劃分成多個(gè)具有重合時(shí)長(zhǎng)ε的時(shí)間窗口,其中,δ>ε;
1.3.2)對(duì)每個(gè)時(shí)間窗口提取時(shí)域特征,得到加速度特征向量fi,其中時(shí)域特征包括均值、方差、標(biāo)準(zhǔn)差、平均絕對(duì)偏差、均方根、皮爾遜線性相關(guān)系數(shù)、能量和四分位差;
1.3.3)利用k-means算法,對(duì)加速度特征向量fi進(jìn)行聚類,得到k個(gè)簇,將每個(gè)簇看作一種活動(dòng)類別;
1.3.4)在該場(chǎng)所的訪問(wèn)記錄集合v中,對(duì)場(chǎng)所活動(dòng)分布進(jìn)行統(tǒng)計(jì),得到場(chǎng)所用戶活動(dòng)特征fh。
作為優(yōu)選,所述步驟2)得到代價(jià)矩陣的步驟如下:
2.1)分別統(tǒng)計(jì)每類相同語(yǔ)義的場(chǎng)所下各類活動(dòng)的時(shí)間占比,得到該類場(chǎng)所活動(dòng)分布向量t=[t1,t2,...,tn],n為活動(dòng)類別數(shù)目;
2.2)基于tf-idf檢索模型,從wikipedia上獲取與活動(dòng)最相關(guān)的d篇文章;
2.3)基于得到的d篇文章,采用文本表示方法,基于pv-dbow模型進(jìn)行學(xué)習(xí),將各類活動(dòng)表示為m維向量αj=[αj,1,αj,2,...,αj,m];
2.4)以場(chǎng)所活動(dòng)分布為權(quán)重,結(jié)合各活動(dòng)向量,將該類場(chǎng)所表示為m維向量
2.5)基于余弦相似性,分別計(jì)算每?jī)深悎?chǎng)所向量的相似性,得到場(chǎng)所相似性矩陣sm,其中,計(jì)算公式如下:
2.6)將相似性矩陣sm按反比關(guān)系轉(zhuǎn)化得到代價(jià)矩陣cm。
作為優(yōu)選,所述步驟2.1)得到該類場(chǎng)所活動(dòng)分布向量t=[t1,t2,...,tn]的方法為:對(duì)具有相同語(yǔ)義標(biāo)簽的所有場(chǎng)所,將每類活動(dòng)的所有時(shí)長(zhǎng)進(jìn)行累加,再進(jìn)行歸一化后獲得該類場(chǎng)所的活動(dòng)分布向量t=[t1,t2,...,tn]。
作為優(yōu)選,所述步驟3)得到若干個(gè)代價(jià)敏感的基分類器的步驟如下:
3.1)輸入有標(biāo)簽數(shù)據(jù)集t與無(wú)標(biāo)簽數(shù)據(jù)集u;
3.2)對(duì)有標(biāo)簽數(shù)據(jù)集t進(jìn)行可重復(fù)自助取樣,獲得n個(gè)訓(xùn)練子集ti(1≤i≤n);
3.3)利用得到的ti訓(xùn)練n個(gè)基分類器ci(1≤i≤n);
3.4)n個(gè)基分類器分別對(duì)無(wú)標(biāo)簽數(shù)據(jù)集u的樣本進(jìn)行識(shí)別,并通過(guò)置信度度量得到高置信度的候選樣本集pi(1≤i≤n);
3.5)根據(jù)置信度優(yōu)先的選擇策略從步驟4所得候選樣本集pi中挑選若干樣本作為輔助學(xué)習(xí)集fi(1≤i≤n),將輔助學(xué)習(xí)集fi和訓(xùn)練子集ti一同訓(xùn)練,得到新的基分類器ci;
3.6)重復(fù)步驟3.4)、3.5)直到不再有無(wú)標(biāo)簽數(shù)據(jù)集u的樣本被挑選,或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的最大迭代次數(shù);
3.7)輸出n個(gè)代價(jià)敏感的基分類器。
作為優(yōu)選,所述步驟3.4)中第i個(gè)基分類器ci對(duì)無(wú)標(biāo)簽樣本xu的置信度的計(jì)算如公式如下:
其中,hj(xu)為第j個(gè)基分類器的識(shí)別結(jié)果,li(xu)是由除第i個(gè)基分類器以外的其余基分類器識(shí)別結(jié)果投票所得偽標(biāo)簽。
作為優(yōu)選,所述步驟3.5)中將樣本置信度按照從高到低排序,順序挑選若干數(shù)目的樣本,使模型的訓(xùn)練誤差和代價(jià)損失得到控制,如下式所示:
其中,mi、mi′分別為本輪次和上一輪次輔助學(xué)習(xí)集fi的大小,ei、ei′分別為本輪次和上一輪次的訓(xùn)練誤差,ri、ri′分別為本輪次和上一輪次的代價(jià)損失;當(dāng)候選樣本集pi中樣本個(gè)數(shù)ni大于mi時(shí),挑選置信度前mi的樣本加入輔助學(xué)習(xí)集fi;否則,將候選樣本集pi直接作為輔助學(xué)習(xí)集fi。
作為優(yōu)選,所述步驟4)對(duì)用戶訪問(wèn)場(chǎng)所進(jìn)行個(gè)性化語(yǔ)義識(shí)別的步驟如下:
4.1)獲取用戶在該場(chǎng)所的訪問(wèn)記錄集合v;
4.2)采用特征工程方法分別從用戶場(chǎng)所訪問(wèn)記錄集合v的多情境數(shù)據(jù)中提取有效特征;
4.3)以聚類的方式從訪問(wèn)記錄集合v的加速度數(shù)據(jù)中發(fā)現(xiàn)用戶活動(dòng),統(tǒng)計(jì)活動(dòng)分布,并構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征fh;
4.4)將場(chǎng)所的特征分別輸入到n個(gè)基分類器中,每個(gè)基分類器輸出一個(gè)場(chǎng)所語(yǔ)義識(shí)別結(jié)果,得到識(shí)別結(jié)果候選集;
4.5)基于步驟4.4)的識(shí)別結(jié)果候選集,投票得到最終的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別結(jié)果;其中在此步驟中,還可根據(jù)基分類器的一致性獲得最終識(shí)別結(jié)果的置信度。
本發(fā)明的有益效果在于:(1)構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征,解決現(xiàn)有方法中對(duì)場(chǎng)所語(yǔ)義缺乏有效表示的問(wèn)題;(2)根據(jù)各類場(chǎng)所的活動(dòng)分布計(jì)算語(yǔ)義相似性,構(gòu)建代價(jià)矩陣,解決場(chǎng)所錯(cuò)誤識(shí)別代價(jià)損失差異的問(wèn)題;(3)采用半監(jiān)督學(xué)習(xí)方法引入無(wú)標(biāo)簽數(shù)據(jù),解決因訓(xùn)練數(shù)據(jù)不足導(dǎo)致模型性能不佳的問(wèn)題。
附圖說(shuō)明
圖1是本發(fā)明的方法流程示意圖;
圖2是本發(fā)明實(shí)施例的場(chǎng)所用戶特征構(gòu)建過(guò)程圖;
圖3是本發(fā)明實(shí)施例的模型訓(xùn)練迭代學(xué)習(xí)示意圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述,但本發(fā)明的保護(hù)范圍并不僅限于此:
實(shí)施例:如圖1所示,一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法,該方法分為預(yù)處理、模型訓(xùn)練和語(yǔ)義識(shí)別三個(gè)階段,具體步驟如下:
預(yù)處理階段實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、特征提取和代價(jià)矩陣構(gòu)建的功能,主要可以分為多情境特征提取和代價(jià)矩陣構(gòu)建兩部分:
多情境特征提取的具體步驟如下:
步驟1,將用戶在相同場(chǎng)所下的所有訪問(wèn)記錄v形成場(chǎng)所的訪問(wèn)記錄集合v,v在識(shí)別中看作一個(gè)場(chǎng)所。
可將每條訪問(wèn)記錄表示為v=(tin,tout,data),其中tin和tout分別是場(chǎng)所訪問(wèn)的開(kāi)始時(shí)間和結(jié)束時(shí)間,data是一個(gè)多情境數(shù)據(jù)的集合。識(shí)別場(chǎng)所語(yǔ)義時(shí),考慮其訪問(wèn)記錄集合v中的所有訪問(wèn)記錄v的多情境數(shù)據(jù)。
步驟2,基于特征工程方法,分別從用戶場(chǎng)所訪問(wèn)的多情境數(shù)據(jù)中提取有效特征,如時(shí)間特征ft、app使用特征fa、通話記錄特征fc等。
此步驟中,提取的特征主要有ft中的場(chǎng)所停留時(shí)間、fa中的app使用情況、fc中的通話記錄數(shù)目等,再通過(guò)relieff方法選擇其中最有效的一部分特征。
步驟3,以聚類的方式從訪問(wèn)記錄的加速度數(shù)據(jù)中發(fā)現(xiàn)用戶活動(dòng),統(tǒng)計(jì)活動(dòng)分布以構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征fh。
場(chǎng)所用戶活動(dòng)特征構(gòu)建過(guò)程如圖2所示,將原始加速度數(shù)據(jù)<(t1,(x1,y1,z1)),...,(tn,(xn,(yn,zn))>按時(shí)長(zhǎng)δ劃分成多個(gè)具有重合時(shí)長(zhǎng)ε的時(shí)間窗口(δ>ε);對(duì)每個(gè)時(shí)間窗口提取時(shí)域特征(均值、方差、標(biāo)準(zhǔn)差、平均絕對(duì)偏差、均方根、皮爾遜線性相關(guān)系數(shù)、能量和四分位差),得到加速度特征向量fi;利用k-means算法,對(duì)加速度特征向量fi進(jìn)行聚類,得到k個(gè)簇,將每個(gè)簇看作一種活動(dòng)類別;最后,在該場(chǎng)所的訪問(wèn)記錄集合v中,對(duì)場(chǎng)所活動(dòng)分布進(jìn)行統(tǒng)計(jì),得到場(chǎng)所用戶活動(dòng)特征fh。
步驟4,根據(jù)場(chǎng)所是否具有用戶標(biāo)注的語(yǔ)義標(biāo)簽劃分有標(biāo)簽數(shù)據(jù)集和無(wú)標(biāo)簽數(shù)據(jù)集。
每個(gè)有標(biāo)簽數(shù)據(jù)樣本可以看作(x,y),用于訓(xùn)練模型;無(wú)標(biāo)簽樣本看作(x,u),u為缺省值,將在模型訓(xùn)練模塊迭代學(xué)習(xí)過(guò)程中被標(biāo)注偽標(biāo)簽.
代價(jià)矩陣構(gòu)建的具體步驟如下:
步驟1,分別統(tǒng)計(jì)每類相同語(yǔ)義的場(chǎng)所下各類活動(dòng)的時(shí)間占比,得到該類場(chǎng)所活動(dòng)分布向量t=[t1,t2,...,tn],n為活動(dòng)類別數(shù)目。
對(duì)具有相同語(yǔ)義標(biāo)簽的所有場(chǎng)所,將每類活動(dòng)的所有時(shí)長(zhǎng)進(jìn)行累加,再進(jìn)行歸一化以獲得該類場(chǎng)所的活動(dòng)分布向量t=[t1,t2,...,tn]。
步驟2,基于tf-idf檢索模型,從wikipedia上獲取與活動(dòng)最相關(guān)的d篇文章。
步驟3,通過(guò)文本表示方法,結(jié)合步驟2得到的d篇文章,使用pv-dbow模型將各日常活動(dòng)表示為m維向量αj=[αj,1,αj,2,...,αj,m]。
基于嵌入技術(shù),采用文本表示中的doc2vec方法,使用pv-dbow模型進(jìn)行學(xué)習(xí),將第j類日?;顒?dòng)表示為一個(gè)m維的向量
αj=[αj,1,αj,2,...,αj,m]。
步驟4,以場(chǎng)所活動(dòng)分布為權(quán)重,結(jié)合各活動(dòng)向量,將該類場(chǎng)所表示為m維向量
步驟5,對(duì)場(chǎng)所兩兩類別之間度量余弦相似性,構(gòu)建場(chǎng)所相似性矩陣sm。
基于余弦相似性,分別計(jì)算每?jī)深悎?chǎng)所向量的相似性,如公式(1)所示,得到場(chǎng)所相似性矩陣sm。
步驟6,將相似性矩陣sm按反比關(guān)系轉(zhuǎn)化得到代價(jià)矩陣cm。
根據(jù)代價(jià)矩陣cm={cij},可計(jì)算模型代價(jià)損失r,如公式(2)所示:
其中,h(x)為識(shí)別模型,m為場(chǎng)所語(yǔ)義類別數(shù)目,nij表示第i種場(chǎng)所語(yǔ)義被錯(cuò)誤識(shí)別為第j種場(chǎng)所語(yǔ)義的個(gè)數(shù)。
模型訓(xùn)練階段是一個(gè)迭代學(xué)習(xí)的過(guò)程,主要是結(jié)合代價(jià)矩陣對(duì)場(chǎng)所的特征進(jìn)行建模,引入無(wú)標(biāo)簽數(shù)據(jù)集進(jìn)行半監(jiān)督學(xué)習(xí)得到若干個(gè)代價(jià)敏感的基分類器,其主要迭代過(guò)程如圖3所示:
步驟1,輸入經(jīng)過(guò)數(shù)據(jù)預(yù)處理的數(shù)據(jù)集,包括有標(biāo)簽數(shù)據(jù)集t和無(wú)標(biāo)簽數(shù)據(jù)集u;其中,有標(biāo)簽數(shù)據(jù)集t作為訓(xùn)練數(shù)據(jù)集,無(wú)標(biāo)簽數(shù)據(jù)集u在每輪迭代學(xué)習(xí)過(guò)程中被挑選加入輔助學(xué)習(xí)集。
步驟2,對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行可重復(fù)自助取樣獲得n個(gè)訓(xùn)練子集ti(1≤i≤n)。
步驟3,利用步驟2得到的ti訓(xùn)練n個(gè)基分類器ci(1≤i≤n)。
為保證訓(xùn)練的基分類器具有一定的差異性,采用多種不同的基分類器學(xué)習(xí)算法,如決策樹(shù)、隨機(jī)森林、條件隨機(jī)場(chǎng)和代價(jià)敏感學(xué)習(xí)算法gllboost等。此外,代價(jià)矩陣cm也將作為輸入,用于學(xué)習(xí)代價(jià)敏感的基分類器,即考慮基分類器在訓(xùn)練數(shù)據(jù)上的代價(jià)損失。
步驟4,n個(gè)基分類器分別對(duì)無(wú)標(biāo)簽數(shù)據(jù)集u的樣本進(jìn)行識(shí)別,并通過(guò)置信度度量得到高置信度的候選樣本集pi(1≤i≤n)。
對(duì)于第i個(gè)基分類器ci而言,無(wú)標(biāo)簽樣本xu的置信度的計(jì)算如公式(3)所示:
其中,hj(xu)為第j個(gè)基分類器的識(shí)別結(jié)果,li(xu)是由除第i個(gè)基分類器以外的其余基分類器識(shí)別結(jié)果投票所得偽標(biāo)簽。僅當(dāng)置信度大于設(shè)定的閾值且當(dāng)前基分類器識(shí)別結(jié)果hi(xu)不等于li(xu),樣本xu同其被標(biāo)注的偽標(biāo)簽(即(xu,li(xu)))才被加入到候選樣本集pi中。
步驟5,根據(jù)置信度優(yōu)先的選擇策略從步驟4所得候選樣本集pi中挑選一部分樣本作為輔助學(xué)習(xí)集fi(1≤i≤n),將輔助學(xué)習(xí)集fi和訓(xùn)練子集ti一同訓(xùn)練新的基分類器ci。
候選樣本集pi中樣本數(shù)目過(guò)多將引入噪聲。因此,按照樣本置信度高低排序,順序挑選一定數(shù)目的樣本,使模型的訓(xùn)練誤差和代價(jià)損失得到控制,如公式(4)所示:
其中,mi、mi′分別為本輪次和上一輪次輔助學(xué)習(xí)集fi的大小,ei、ei′分別為本輪次和上一輪次的訓(xùn)練誤差,ri、ri′分別為本輪次和上一輪次的代價(jià)損失。當(dāng)候選樣本集pi中樣本個(gè)數(shù)ni大于mi時(shí),挑選置信度前mi的樣本加入輔助學(xué)習(xí)集fi;否則,將候選樣本集pi直接作為輔助學(xué)習(xí)集fi。
步驟6,重復(fù)步驟4、5,直到不再有無(wú)標(biāo)簽數(shù)據(jù)集u的樣本被挑選,或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)。
步驟7,輸出n個(gè)基分類器。
語(yǔ)義識(shí)別階段主要是對(duì)場(chǎng)所下的智能手機(jī)使用日志進(jìn)行采集、特征處理以及根據(jù)模型進(jìn)行場(chǎng)所個(gè)性化語(yǔ)義識(shí)別,其主要步驟如下:
步驟1,獲取用戶在該場(chǎng)所的訪問(wèn)記錄集合v;
根據(jù)用戶的訪問(wèn)情境,自動(dòng)采集智能手機(jī)使用日志。將當(dāng)前待識(shí)別場(chǎng)所的所有訪問(wèn)記錄形成訪問(wèn)記錄集合v作為識(shí)別目標(biāo)。
步驟2~3,同預(yù)處理模塊中多情境特征提取步驟2和步驟3;
步驟4,將場(chǎng)所的特征分別輸入到n個(gè)基分類器中,每個(gè)基分類器輸出一個(gè)場(chǎng)所語(yǔ)義識(shí)別結(jié)果,得到識(shí)別結(jié)果候選集。
步驟5,基于步驟4的識(shí)別結(jié)果候選集,投票得到最終的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別結(jié)果。此步驟中,除得到最終識(shí)別結(jié)果外,還可以根據(jù)基分類器的一致性獲得最終識(shí)別結(jié)果的置信度。
以上的所述乃是本發(fā)明的具體實(shí)施例及所運(yùn)用的技術(shù)原理,若依本發(fā)明的構(gòu)想所作的改變,其所產(chǎn)生的功能作用仍未超出說(shuō)明書(shū)及附圖所涵蓋的精神時(shí),仍應(yīng)屬本發(fā)明的保護(hù)范圍。