一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法與流程

文檔序號(hào)：11458587閱讀：162來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法與流程

本發(fā)明涉及場(chǎng)所語(yǔ)義識(shí)別領(lǐng)域，尤其涉及一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法。

背景技術(shù)：

隨著智能設(shè)備的普及和移動(dòng)互聯(lián)網(wǎng)的發(fā)展，越來(lái)越多的基于位置的服務(wù)給生活帶來(lái)了極大便利?！拔恢谩敝嫌辛硪环N情境層次更高、表達(dá)能力更強(qiáng)的概念，即“場(chǎng)所”。場(chǎng)所除了有基本的地理位置信息外，往往還具有語(yǔ)義，通常表現(xiàn)為標(biāo)簽的形式，如家、公司、餐廳等。場(chǎng)所語(yǔ)義是以用戶為中心的位置表達(dá)方式，可使基于位置的服務(wù)更智能。例如，基于場(chǎng)所語(yǔ)義的提醒服務(wù)可將待辦事項(xiàng)與特定語(yǔ)義的場(chǎng)所相關(guān)聯(lián)。因此，場(chǎng)所語(yǔ)義識(shí)別在普適計(jì)算、基于位置的服務(wù)等領(lǐng)域具有廣闊應(yīng)用空間。

傳統(tǒng)的場(chǎng)所語(yǔ)義識(shí)別方法一般通過(guò)分析場(chǎng)所下所有用戶共性的行為對(duì)場(chǎng)所語(yǔ)義進(jìn)行識(shí)別。然而，這種方法的前提是場(chǎng)所對(duì)所有用戶具有相同語(yǔ)義，而未考慮場(chǎng)所對(duì)用戶的個(gè)性化語(yǔ)義。例如，超市對(duì)消費(fèi)者是購(gòu)物場(chǎng)所，但對(duì)超市員工則是工作場(chǎng)所。

為了識(shí)別場(chǎng)所個(gè)性化語(yǔ)義，研究人員從用戶角度出發(fā)，根據(jù)用戶歷史記錄，獲取用戶的場(chǎng)所訪問(wèn)模式。典型做法是通過(guò)用戶的gps軌跡發(fā)現(xiàn)用戶停留的場(chǎng)所，根據(jù)場(chǎng)所位置以及訪問(wèn)時(shí)間等信息識(shí)別場(chǎng)所語(yǔ)義。由于gps存在耗電高、室內(nèi)沒(méi)有信號(hào)等問(wèn)題，這一方法在實(shí)際應(yīng)用中無(wú)法工作。針對(duì)這一問(wèn)題，現(xiàn)有研究從智能手機(jī)使用日志中挖掘用戶情境，識(shí)別場(chǎng)所個(gè)性化語(yǔ)義。然而，現(xiàn)有方法均未考慮高情境層次的場(chǎng)所特征。此外，由于不同類型場(chǎng)所在語(yǔ)義上的相似性，不同錯(cuò)誤識(shí)別造成的代價(jià)損失有所差異，但現(xiàn)有方法在評(píng)估模型性能時(shí)很少考慮這一指標(biāo)。用戶標(biāo)注場(chǎng)所語(yǔ)義代價(jià)高昂，因此場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法普遍存在訓(xùn)練數(shù)據(jù)不足導(dǎo)致模型性能不佳的問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明為克服上述的不足之處，目的在于提供一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法，本發(fā)明方法從智能手機(jī)使用日志的各類情境數(shù)據(jù)中提取有效特征，并通過(guò)聚類發(fā)現(xiàn)加速度數(shù)據(jù)中的用戶活動(dòng)，構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征。接著，根據(jù)場(chǎng)所的活動(dòng)分布，計(jì)算場(chǎng)所語(yǔ)義相似性以獲取代價(jià)矩陣。然后，結(jié)合代價(jià)矩陣對(duì)場(chǎng)所的特征進(jìn)行建模，引入無(wú)標(biāo)簽場(chǎng)所數(shù)據(jù)進(jìn)行半監(jiān)督學(xué)習(xí)得到多個(gè)代價(jià)敏感的基分類器。最后，集成多個(gè)基分類器輸出識(shí)別模型，對(duì)用戶訪問(wèn)場(chǎng)所進(jìn)行個(gè)性化語(yǔ)義識(shí)別。本發(fā)明結(jié)合情境感知、代價(jià)敏感和半監(jiān)督學(xué)習(xí)進(jìn)行場(chǎng)所個(gè)性化語(yǔ)義識(shí)別，在普適計(jì)算、基于位置的服務(wù)等領(lǐng)域具有廣闊的應(yīng)用前景。

本發(fā)明是通過(guò)以下技術(shù)方案達(dá)到上述目的：一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法，其包括如下步驟：1)從智能手機(jī)上的使用訪問(wèn)日志的各類情境數(shù)據(jù)中提取有效特征，并通過(guò)聚類發(fā)現(xiàn)加速度數(shù)據(jù)中的用戶活動(dòng)，構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征，并獲得有標(biāo)簽數(shù)據(jù)集與無(wú)標(biāo)簽數(shù)據(jù)集；

2)根據(jù)場(chǎng)所活動(dòng)分布，計(jì)算場(chǎng)所語(yǔ)義相似性，得到代價(jià)矩陣；

3)結(jié)合代價(jià)矩陣對(duì)場(chǎng)所的特征進(jìn)行建模，引入無(wú)標(biāo)簽數(shù)據(jù)集進(jìn)行半監(jiān)督學(xué)習(xí)得到若干個(gè)代價(jià)敏感的基分類器；

4)集成若干個(gè)基分類器輸出識(shí)別模型，對(duì)用戶訪問(wèn)場(chǎng)所進(jìn)行個(gè)性化語(yǔ)義識(shí)別。

作為優(yōu)選，所述步驟1)具體如下：

1.1)將用戶在相同場(chǎng)所下的所有訪問(wèn)記錄v整合形成場(chǎng)所的訪問(wèn)記錄集合v，v在識(shí)別中看作一個(gè)場(chǎng)所；

1.2)采用特征工程方法分別從用戶場(chǎng)所訪問(wèn)記錄集合v的多情境數(shù)據(jù)中提取有效特征；

1.3)以聚類的方式從訪問(wèn)記錄集合v的加速度數(shù)據(jù)中發(fā)現(xiàn)用戶活動(dòng)，統(tǒng)計(jì)活動(dòng)分布，并構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征fh；

1.4)根據(jù)場(chǎng)所是否具有用戶標(biāo)注的語(yǔ)義標(biāo)簽劃分有標(biāo)簽數(shù)據(jù)集和無(wú)標(biāo)簽數(shù)據(jù)集。

作為優(yōu)選，所述的有效特征包括時(shí)間特征ft、app使用特征fa、通話記錄特征fc。

作為優(yōu)選，所述步驟1.3)得到場(chǎng)所用戶活動(dòng)特征fh的方法具體如下：

1.3.1)將加速度數(shù)據(jù)<(t1，(x1，y1，z1))，...，(tn，(xn，yn，zn))>按時(shí)長(zhǎng)δ劃分成多個(gè)具有重合時(shí)長(zhǎng)ε的時(shí)間窗口，其中，δ＞ε；

1.3.2)對(duì)每個(gè)時(shí)間窗口提取時(shí)域特征，得到加速度特征向量fi，其中時(shí)域特征包括均值、方差、標(biāo)準(zhǔn)差、平均絕對(duì)偏差、均方根、皮爾遜線性相關(guān)系數(shù)、能量和四分位差；

1.3.3)利用k-means算法，對(duì)加速度特征向量fi進(jìn)行聚類，得到k個(gè)簇，將每個(gè)簇看作一種活動(dòng)類別；

1.3.4)在該場(chǎng)所的訪問(wèn)記錄集合v中，對(duì)場(chǎng)所活動(dòng)分布進(jìn)行統(tǒng)計(jì)，得到場(chǎng)所用戶活動(dòng)特征fh。

作為優(yōu)選，所述步驟2)得到代價(jià)矩陣的步驟如下：

2.1)分別統(tǒng)計(jì)每類相同語(yǔ)義的場(chǎng)所下各類活動(dòng)的時(shí)間占比，得到該類場(chǎng)所活動(dòng)分布向量t＝[t1，t2，...，tn]，n為活動(dòng)類別數(shù)目；

2.2)基于tf-idf檢索模型，從wikipedia上獲取與活動(dòng)最相關(guān)的d篇文章；

2.3)基于得到的d篇文章，采用文本表示方法，基于pv-dbow模型進(jìn)行學(xué)習(xí)，將各類活動(dòng)表示為m維向量αj＝[αj，1，αj，2，...，αj，m]；

2.4)以場(chǎng)所活動(dòng)分布為權(quán)重，結(jié)合各活動(dòng)向量，將該類場(chǎng)所表示為m維向量

2.5)基于余弦相似性，分別計(jì)算每?jī)深悎?chǎng)所向量的相似性，得到場(chǎng)所相似性矩陣sm，其中，計(jì)算公式如下：

2.6)將相似性矩陣sm按反比關(guān)系轉(zhuǎn)化得到代價(jià)矩陣cm。

作為優(yōu)選，所述步驟2.1)得到該類場(chǎng)所活動(dòng)分布向量t＝[t1，t2，...，tn]的方法為：對(duì)具有相同語(yǔ)義標(biāo)簽的所有場(chǎng)所，將每類活動(dòng)的所有時(shí)長(zhǎng)進(jìn)行累加，再進(jìn)行歸一化后獲得該類場(chǎng)所的活動(dòng)分布向量t＝[t1，t2，...，tn]。

作為優(yōu)選，所述步驟3)得到若干個(gè)代價(jià)敏感的基分類器的步驟如下：

3.1)輸入有標(biāo)簽數(shù)據(jù)集t與無(wú)標(biāo)簽數(shù)據(jù)集u；

3.2)對(duì)有標(biāo)簽數(shù)據(jù)集t進(jìn)行可重復(fù)自助取樣，獲得n個(gè)訓(xùn)練子集ti(1≤i≤n)；

3.3)利用得到的ti訓(xùn)練n個(gè)基分類器ci(1≤i≤n)；

3.4)n個(gè)基分類器分別對(duì)無(wú)標(biāo)簽數(shù)據(jù)集u的樣本進(jìn)行識(shí)別，并通過(guò)置信度度量得到高置信度的候選樣本集pi(1≤i≤n)；

3.5)根據(jù)置信度優(yōu)先的選擇策略從步驟4所得候選樣本集pi中挑選若干樣本作為輔助學(xué)習(xí)集fi(1≤i≤n)，將輔助學(xué)習(xí)集fi和訓(xùn)練子集ti一同訓(xùn)練，得到新的基分類器ci；

3.6)重復(fù)步驟3.4)、3.5)直到不再有無(wú)標(biāo)簽數(shù)據(jù)集u的樣本被挑選，或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)；

3.7)輸出n個(gè)代價(jià)敏感的基分類器。

作為優(yōu)選，所述步驟3.4)中第i個(gè)基分類器ci對(duì)無(wú)標(biāo)簽樣本xu的置信度的計(jì)算如公式如下：

其中，hj(xu)為第j個(gè)基分類器的識(shí)別結(jié)果，li(xu)是由除第i個(gè)基分類器以外的其余基分類器識(shí)別結(jié)果投票所得偽標(biāo)簽。

作為優(yōu)選，所述步驟3.5)中將樣本置信度按照從高到低排序，順序挑選若干數(shù)目的樣本，使模型的訓(xùn)練誤差和代價(jià)損失得到控制，如下式所示：

其中，mi、mi′分別為本輪次和上一輪次輔助學(xué)習(xí)集fi的大小，ei、ei′分別為本輪次和上一輪次的訓(xùn)練誤差，ri、ri′分別為本輪次和上一輪次的代價(jià)損失；當(dāng)候選樣本集pi中樣本個(gè)數(shù)ni大于mi時(shí)，挑選置信度前mi的樣本加入輔助學(xué)習(xí)集fi；否則，將候選樣本集pi直接作為輔助學(xué)習(xí)集fi。

作為優(yōu)選，所述步驟4)對(duì)用戶訪問(wèn)場(chǎng)所進(jìn)行個(gè)性化語(yǔ)義識(shí)別的步驟如下：

4.1)獲取用戶在該場(chǎng)所的訪問(wèn)記錄集合v；

4.2)采用特征工程方法分別從用戶場(chǎng)所訪問(wèn)記錄集合v的多情境數(shù)據(jù)中提取有效特征；

4.3)以聚類的方式從訪問(wèn)記錄集合v的加速度數(shù)據(jù)中發(fā)現(xiàn)用戶活動(dòng)，統(tǒng)計(jì)活動(dòng)分布，并構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征fh；

4.4)將場(chǎng)所的特征分別輸入到n個(gè)基分類器中，每個(gè)基分類器輸出一個(gè)場(chǎng)所語(yǔ)義識(shí)別結(jié)果，得到識(shí)別結(jié)果候選集；

4.5)基于步驟4.4)的識(shí)別結(jié)果候選集，投票得到最終的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別結(jié)果；其中在此步驟中，還可根據(jù)基分類器的一致性獲得最終識(shí)別結(jié)果的置信度。

本發(fā)明的有益效果在于：(1)構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征，解決現(xiàn)有方法中對(duì)場(chǎng)所語(yǔ)義缺乏有效表示的問(wèn)題；(2)根據(jù)各類場(chǎng)所的活動(dòng)分布計(jì)算語(yǔ)義相似性，構(gòu)建代價(jià)矩陣，解決場(chǎng)所錯(cuò)誤識(shí)別代價(jià)損失差異的問(wèn)題；(3)采用半監(jiān)督學(xué)習(xí)方法引入無(wú)標(biāo)簽數(shù)據(jù)，解決因訓(xùn)練數(shù)據(jù)不足導(dǎo)致模型性能不佳的問(wèn)題。

附圖說(shuō)明

圖1是本發(fā)明的方法流程示意圖；

圖2是本發(fā)明實(shí)施例的場(chǎng)所用戶特征構(gòu)建過(guò)程圖；

圖3是本發(fā)明實(shí)施例的模型訓(xùn)練迭代學(xué)習(xí)示意圖。

具體實(shí)施方式

下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述，但本發(fā)明的保護(hù)范圍并不僅限于此：

實(shí)施例：如圖1所示，一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法，該方法分為預(yù)處理、模型訓(xùn)練和語(yǔ)義識(shí)別三個(gè)階段，具體步驟如下：

預(yù)處理階段實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、特征提取和代價(jià)矩陣構(gòu)建的功能，主要可以分為多情境特征提取和代價(jià)矩陣構(gòu)建兩部分：

多情境特征提取的具體步驟如下：

步驟1，將用戶在相同場(chǎng)所下的所有訪問(wèn)記錄v形成場(chǎng)所的訪問(wèn)記錄集合v，v在識(shí)別中看作一個(gè)場(chǎng)所。

可將每條訪問(wèn)記錄表示為v＝(tin，tout，data)，其中tin和tout分別是場(chǎng)所訪問(wèn)的開(kāi)始時(shí)間和結(jié)束時(shí)間，data是一個(gè)多情境數(shù)據(jù)的集合。識(shí)別場(chǎng)所語(yǔ)義時(shí)，考慮其訪問(wèn)記錄集合v中的所有訪問(wèn)記錄v的多情境數(shù)據(jù)。

步驟2，基于特征工程方法，分別從用戶場(chǎng)所訪問(wèn)的多情境數(shù)據(jù)中提取有效特征，如時(shí)間特征ft、app使用特征fa、通話記錄特征fc等。

此步驟中，提取的特征主要有ft中的場(chǎng)所停留時(shí)間、fa中的app使用情況、fc中的通話記錄數(shù)目等，再通過(guò)relieff方法選擇其中最有效的一部分特征。

步驟3，以聚類的方式從訪問(wèn)記錄的加速度數(shù)據(jù)中發(fā)現(xiàn)用戶活動(dòng)，統(tǒng)計(jì)活動(dòng)分布以構(gòu)建高情境層次的場(chǎng)所用戶活動(dòng)特征fh。

場(chǎng)所用戶活動(dòng)特征構(gòu)建過(guò)程如圖2所示，將原始加速度數(shù)據(jù)<(t1，(x1，y1，z1))，...，(tn，(xn，(yn，zn))>按時(shí)長(zhǎng)δ劃分成多個(gè)具有重合時(shí)長(zhǎng)ε的時(shí)間窗口(δ＞ε)；對(duì)每個(gè)時(shí)間窗口提取時(shí)域特征(均值、方差、標(biāo)準(zhǔn)差、平均絕對(duì)偏差、均方根、皮爾遜線性相關(guān)系數(shù)、能量和四分位差)，得到加速度特征向量fi；利用k-means算法，對(duì)加速度特征向量fi進(jìn)行聚類，得到k個(gè)簇，將每個(gè)簇看作一種活動(dòng)類別；最后，在該場(chǎng)所的訪問(wèn)記錄集合v中，對(duì)場(chǎng)所活動(dòng)分布進(jìn)行統(tǒng)計(jì)，得到場(chǎng)所用戶活動(dòng)特征fh。

步驟4，根據(jù)場(chǎng)所是否具有用戶標(biāo)注的語(yǔ)義標(biāo)簽劃分有標(biāo)簽數(shù)據(jù)集和無(wú)標(biāo)簽數(shù)據(jù)集。

每個(gè)有標(biāo)簽數(shù)據(jù)樣本可以看作(x，y)，用于訓(xùn)練模型；無(wú)標(biāo)簽樣本看作(x，u)，u為缺省值，將在模型訓(xùn)練模塊迭代學(xué)習(xí)過(guò)程中被標(biāo)注偽標(biāo)簽.

代價(jià)矩陣構(gòu)建的具體步驟如下：

步驟1，分別統(tǒng)計(jì)每類相同語(yǔ)義的場(chǎng)所下各類活動(dòng)的時(shí)間占比，得到該類場(chǎng)所活動(dòng)分布向量t＝[t1，t2，...，tn]，n為活動(dòng)類別數(shù)目。

對(duì)具有相同語(yǔ)義標(biāo)簽的所有場(chǎng)所，將每類活動(dòng)的所有時(shí)長(zhǎng)進(jìn)行累加，再進(jìn)行歸一化以獲得該類場(chǎng)所的活動(dòng)分布向量t＝[t1，t2，...，tn]。

步驟2，基于tf-idf檢索模型，從wikipedia上獲取與活動(dòng)最相關(guān)的d篇文章。

步驟3，通過(guò)文本表示方法，結(jié)合步驟2得到的d篇文章，使用pv-dbow模型將各日常活動(dòng)表示為m維向量αj＝[αj，1，αj，2，...，αj，m]。

基于嵌入技術(shù)，采用文本表示中的doc2vec方法，使用pv-dbow模型進(jìn)行學(xué)習(xí)，將第j類日?；顒?dòng)表示為一個(gè)m維的向量

αj＝[αj，1，αj，2，...，αj，m]。

步驟4，以場(chǎng)所活動(dòng)分布為權(quán)重，結(jié)合各活動(dòng)向量，將該類場(chǎng)所表示為m維向量

步驟5，對(duì)場(chǎng)所兩兩類別之間度量余弦相似性，構(gòu)建場(chǎng)所相似性矩陣sm。

基于余弦相似性，分別計(jì)算每?jī)深悎?chǎng)所向量的相似性，如公式(1)所示，得到場(chǎng)所相似性矩陣sm。

步驟6，將相似性矩陣sm按反比關(guān)系轉(zhuǎn)化得到代價(jià)矩陣cm。

根據(jù)代價(jià)矩陣cm＝{cij}，可計(jì)算模型代價(jià)損失r，如公式(2)所示：

其中，h(x)為識(shí)別模型，m為場(chǎng)所語(yǔ)義類別數(shù)目，nij表示第i種場(chǎng)所語(yǔ)義被錯(cuò)誤識(shí)別為第j種場(chǎng)所語(yǔ)義的個(gè)數(shù)。

模型訓(xùn)練階段是一個(gè)迭代學(xué)習(xí)的過(guò)程，主要是結(jié)合代價(jià)矩陣對(duì)場(chǎng)所的特征進(jìn)行建模，引入無(wú)標(biāo)簽數(shù)據(jù)集進(jìn)行半監(jiān)督學(xué)習(xí)得到若干個(gè)代價(jià)敏感的基分類器，其主要迭代過(guò)程如圖3所示：

步驟1，輸入經(jīng)過(guò)數(shù)據(jù)預(yù)處理的數(shù)據(jù)集，包括有標(biāo)簽數(shù)據(jù)集t和無(wú)標(biāo)簽數(shù)據(jù)集u；其中，有標(biāo)簽數(shù)據(jù)集t作為訓(xùn)練數(shù)據(jù)集，無(wú)標(biāo)簽數(shù)據(jù)集u在每輪迭代學(xué)習(xí)過(guò)程中被挑選加入輔助學(xué)習(xí)集。

步驟2，對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行可重復(fù)自助取樣獲得n個(gè)訓(xùn)練子集ti(1≤i≤n)。

步驟3，利用步驟2得到的ti訓(xùn)練n個(gè)基分類器ci(1≤i≤n)。

為保證訓(xùn)練的基分類器具有一定的差異性，采用多種不同的基分類器學(xué)習(xí)算法，如決策樹(shù)、隨機(jī)森林、條件隨機(jī)場(chǎng)和代價(jià)敏感學(xué)習(xí)算法gllboost等。此外，代價(jià)矩陣cm也將作為輸入，用于學(xué)習(xí)代價(jià)敏感的基分類器，即考慮基分類器在訓(xùn)練數(shù)據(jù)上的代價(jià)損失。

步驟4，n個(gè)基分類器分別對(duì)無(wú)標(biāo)簽數(shù)據(jù)集u的樣本進(jìn)行識(shí)別，并通過(guò)置信度度量得到高置信度的候選樣本集pi(1≤i≤n)。

對(duì)于第i個(gè)基分類器ci而言，無(wú)標(biāo)簽樣本xu的置信度的計(jì)算如公式(3)所示：

其中，hj(xu)為第j個(gè)基分類器的識(shí)別結(jié)果，li(xu)是由除第i個(gè)基分類器以外的其余基分類器識(shí)別結(jié)果投票所得偽標(biāo)簽。僅當(dāng)置信度大于設(shè)定的閾值且當(dāng)前基分類器識(shí)別結(jié)果hi(xu)不等于li(xu)，樣本xu同其被標(biāo)注的偽標(biāo)簽(即(xu,li(xu)))才被加入到候選樣本集pi中。

步驟5，根據(jù)置信度優(yōu)先的選擇策略從步驟4所得候選樣本集pi中挑選一部分樣本作為輔助學(xué)習(xí)集fi(1≤i≤n)，將輔助學(xué)習(xí)集fi和訓(xùn)練子集ti一同訓(xùn)練新的基分類器ci。

候選樣本集pi中樣本數(shù)目過(guò)多將引入噪聲。因此，按照樣本置信度高低排序，順序挑選一定數(shù)目的樣本，使模型的訓(xùn)練誤差和代價(jià)損失得到控制，如公式(4)所示：

其中，mi、mi′分別為本輪次和上一輪次輔助學(xué)習(xí)集fi的大小，ei、ei′分別為本輪次和上一輪次的訓(xùn)練誤差，ri、ri′分別為本輪次和上一輪次的代價(jià)損失。當(dāng)候選樣本集pi中樣本個(gè)數(shù)ni大于mi時(shí)，挑選置信度前mi的樣本加入輔助學(xué)習(xí)集fi；否則，將候選樣本集pi直接作為輔助學(xué)習(xí)集fi。

步驟6，重復(fù)步驟4、5，直到不再有無(wú)標(biāo)簽數(shù)據(jù)集u的樣本被挑選，或者迭代次數(shù)已經(jīng)達(dá)到預(yù)先設(shè)定的最大迭代次數(shù)。

步驟7，輸出n個(gè)基分類器。

語(yǔ)義識(shí)別階段主要是對(duì)場(chǎng)所下的智能手機(jī)使用日志進(jìn)行采集、特征處理以及根據(jù)模型進(jìn)行場(chǎng)所個(gè)性化語(yǔ)義識(shí)別，其主要步驟如下：

步驟1，獲取用戶在該場(chǎng)所的訪問(wèn)記錄集合v；

根據(jù)用戶的訪問(wèn)情境，自動(dòng)采集智能手機(jī)使用日志。將當(dāng)前待識(shí)別場(chǎng)所的所有訪問(wèn)記錄形成訪問(wèn)記錄集合v作為識(shí)別目標(biāo)。

步驟2～3，同預(yù)處理模塊中多情境特征提取步驟2和步驟3；

步驟4，將場(chǎng)所的特征分別輸入到n個(gè)基分類器中，每個(gè)基分類器輸出一個(gè)場(chǎng)所語(yǔ)義識(shí)別結(jié)果，得到識(shí)別結(jié)果候選集。

步驟5，基于步驟4的識(shí)別結(jié)果候選集，投票得到最終的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別結(jié)果。此步驟中，除得到最終識(shí)別結(jié)果外，還可以根據(jù)基分類器的一致性獲得最終識(shí)別結(jié)果的置信度。

以上的所述乃是本發(fā)明的具體實(shí)施例及所運(yùn)用的技術(shù)原理，若依本發(fā)明的構(gòu)想所作的改變，其所產(chǎn)生的功能作用仍未超出說(shuō)明書(shū)及附圖所涵蓋的精神時(shí)，仍應(yīng)屬本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王敬昌;陳嶺;吳曉杰;張圣
技術(shù)所有人：浙江鴻程計(jì)算機(jī)系統(tǒng)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多情境數(shù)據(jù)和代價(jià)敏感集成模型的場(chǎng)所個(gè)性化語(yǔ)義識(shí)別方法與流程