本發(fā)明涉及IPTV視頻業(yè)務(wù)數(shù)據(jù)的智能化處理領(lǐng)域,尤其是涉及IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測方法。
背景技術(shù):
作為電視與互聯(lián)網(wǎng)融合的產(chǎn)物,IPTV滿足了人們愈來愈趨向于多樣化、專業(yè)化和個性化的視音頻需求,給廣播電視行業(yè)帶來了巨大的變化,并且為電視受眾帶來一場新的電視消費(fèi)革命。但是,互聯(lián)網(wǎng)視頻生態(tài)系統(tǒng)(包括內(nèi)容提供者,內(nèi)容傳輸網(wǎng)絡(luò),分析服務(wù)商,視頻播放器設(shè)計師和用戶)面臨一個迫在眉睫的挑戰(zhàn),即缺乏一個能夠預(yù)測用戶滿意度這一具有強(qiáng)烈主觀特性的指標(biāo)的標(biāo)準(zhǔn)方法。
在現(xiàn)有的解決方案中,對于用戶滿意度的度量和標(biāo)注,常常采用用戶主觀打分來進(jìn)行量化的方式,這樣雖然相對直接,但是也存在一些問題,如:當(dāng)IPTV視頻業(yè)務(wù)數(shù)據(jù)量很大的時候,這種方式耗時耗力、參與打分的用戶所受的環(huán)境因素和自身當(dāng)時狀態(tài)的因素影響較大,因而不可能大范圍應(yīng)用。此外,目前很多方法試圖去尋找并建立IPTV視頻業(yè)務(wù)傳輸相關(guān)參數(shù)和用戶滿意度之間的顯式的映射關(guān)系,而這樣的關(guān)系常常不能夠全面的反映二者之間真實(shí)和內(nèi)在的聯(lián)系。因而需要解決兩方面問題,包括:(1)尋找能夠體現(xiàn)IPTV視頻業(yè)務(wù)中用戶滿意度的指標(biāo),解放主觀打分所帶來的局限性。(2)尋找IPTV視頻業(yè)務(wù)中用戶滿意度和IPTV視頻傳輸相關(guān)參數(shù)的內(nèi)在關(guān)聯(lián)?;诖?,本發(fā)明致力于解決現(xiàn)有技術(shù)存在的一些技術(shù)缺陷,很好地解決了IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明目的在于針對上述現(xiàn)有技術(shù)的缺陷,提出了一種IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測方法,該方法很好地解決了現(xiàn)有用戶滿意度預(yù)測方法中需要通過主觀打分來度量用戶滿意度以及用戶滿意度與其影響因素之間內(nèi)在關(guān)聯(lián)性建模不夠準(zhǔn)確合理的問題。本發(fā)明的實(shí)施流程為:首先確定影響用戶滿意度的因素,而后用用戶使用業(yè)務(wù)時長來客觀度量用戶滿意度,接著通過訓(xùn)練建立CART樹模型,并用其將帶預(yù)測數(shù)據(jù)劃分到相關(guān)區(qū)域,在該區(qū)域內(nèi)用KNN搜索,并最終用距離加權(quán)平均值作為預(yù)測結(jié)果。采用本發(fā)明的方法,可以有效地降低預(yù)測過程中的運(yùn)算量,并且可以使得預(yù)測精度得到了較大的提升。
本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案是:一種IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測方法,該方法包括如下步驟:
步驟1:確定影響用戶滿意度的因素:從IPTV機(jī)頂盒收集的視頻業(yè)務(wù)的關(guān)鍵性能指標(biāo)(KPI)原始記錄中,挑選固定時間長度的KPI數(shù)據(jù),每條KPI數(shù)據(jù)中包含6個屬性:設(shè)備傳輸時延df、設(shè)備傳輸抖動jit、設(shè)備丟包率lp、平均傳輸比特率br、業(yè)務(wù)開始時間、業(yè)務(wù)結(jié)束時間。該時間長度內(nèi)各個用戶的所有KPI數(shù)據(jù)的前4個屬性{df,jit,lp,br}的平均值作為影響用戶滿意度的因素其中xn=(xn,df,xn,jit,xn,lp,xn,br)。
步驟2:確定用戶滿意度的客觀度量:將每個用戶固定時間長度內(nèi)的每個KPI數(shù)據(jù)中的結(jié)束時間減去開始時間,并將其累加,得到用戶在該固定時間長度內(nèi)使用業(yè)務(wù)的時長,即,
步驟3:建立分類回歸(CART)樹模型及訓(xùn)練:
(3-1)將(X,Y)作為訓(xùn)練數(shù)據(jù),對于X中的某個屬性j(j∈{df,jit,lp,br}),用其作為切分變量;對于該切分變量j,選擇切分點(diǎn)s,將X劃分成兩個區(qū)域:R1(j,s)={xn|xn,j≤s}和R2(j,s)={xn|xn,j>s}
(3-2)分別求兩個區(qū)域中的xn對應(yīng)的yn的均值c1和c2,即其中N1和N2分別為兩個區(qū)域中的數(shù)據(jù)數(shù)目。
(3-3)計算平方誤差:
(3-4)遍歷所有的j和s,選擇使得平方誤差最小的最優(yōu)值j*和s*作為分類回歸樹第一層切分變量和切分點(diǎn),即,(j*,s*)=argminError(j,s);用最終選定的(j*,s*)劃分出子區(qū)域R1(j*,s*),R2(j*,s*),保存落在每個子區(qū)域的訓(xùn)練數(shù)據(jù)D1,D2,如下:
R1(j*,s*)={xn|xn,j*≤s*},R2(j*,s*)={xn|xn,j*>s*}
D1={(xn,yn)|xn∈R1(j*,s*)},D2={(xn,yn)|xn∈R2(j*,s*)}
(3-5)對已劃分好的兩個子區(qū)域,考慮剩余的屬性,調(diào)用(3-1)~(3-4)的步驟,繼續(xù)對每個子區(qū)域進(jìn)行進(jìn)一步劃分,并對劃分好的二級、三級子區(qū)域中的訓(xùn)練數(shù)據(jù)進(jìn)行存儲,直至滿足停止條件。需要說明的是,這里的停止條件為所有的4個屬性已經(jīng)全部被遍歷或者在子區(qū)域生成過程中計算出的Error(j,s)的最小值低于閾值ε;通過本步驟,最終生成CART樹;
步驟4:預(yù)測用戶滿意度。
(4-1)對于待預(yù)測用戶滿意度的數(shù)據(jù)x',按照所生成的CART樹的結(jié)構(gòu),自上而下,將其分配到相應(yīng)的葉節(jié)點(diǎn)所在的區(qū)域,設(shè)該區(qū)域?yàn)镈'。
(4-2)對于x',在D'中做KNN搜索,基于歐氏距離找到其中的K個近鄰數(shù)據(jù),計算距離加權(quán)平均值,用該均值作為最終的預(yù)測值輸出y',即:
其中
上式中d(x',xk)為x'與其鄰居節(jié)點(diǎn)xk的歐氏距離。
進(jìn)一步的,本發(fā)明應(yīng)用于IPTV視頻業(yè)務(wù)。
有益效果:
1.本發(fā)明將用戶體驗(yàn)時長作為用戶滿意度的客觀度量,很好地解決了現(xiàn)有方法中需要用戶進(jìn)行主觀評價打分所帶來的代價過高、受環(huán)境因素影響較大等缺點(diǎn)。
2.本發(fā)明在影響用戶滿意度的因素和用戶體驗(yàn)視頻業(yè)務(wù)的時長之間建立的是回歸模型,很好地解決了現(xiàn)有方法基于分類模型來進(jìn)行用戶滿意度預(yù)測所帶來的精確度不高的問題。
3.本發(fā)明采用CART樹將待預(yù)測數(shù)據(jù)進(jìn)行劃分,而后在所在區(qū)域內(nèi)進(jìn)行KNN,大大的減輕了運(yùn)算量和搜索開銷。
4.本發(fā)明在用KNN預(yù)測用戶體驗(yàn)時長時,用了距離加權(quán)平均值,根據(jù)K個最近鄰的貢獻(xiàn)進(jìn)行加權(quán)加權(quán),將較大的權(quán)值賦給較近的近鄰,提高了最終預(yù)測的準(zhǔn)確率。
附圖說明
圖1為IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測方法流程圖。
圖2為本發(fā)明的方法與三種現(xiàn)有的回歸方法的誤差對比結(jié)果。
圖3為本發(fā)明的方法與三種現(xiàn)有的回歸方法的相關(guān)系數(shù)對比結(jié)果。
圖4為本發(fā)明的方法與KNN、CART方法在不同訓(xùn)練與預(yù)測數(shù)據(jù)比例下的誤差對比結(jié)果。
圖5為本發(fā)明的方法與KNN、CART方法在不同訓(xùn)練與預(yù)測數(shù)據(jù)比例下的相關(guān)系數(shù)對比結(jié)果。
具體實(shí)施方式
下面結(jié)合說明書附圖和具體實(shí)例對本發(fā)明作進(jìn)一步的詳細(xì)說明。
如圖1所示,本發(fā)明提供了一種IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測方法,該方法包括如下步驟:
步驟1:確定影響用戶滿意度的因素:從IPTV機(jī)頂盒收集的視頻業(yè)務(wù)的關(guān)鍵性能指標(biāo)(即KPI)數(shù)據(jù)中,挑選不同用戶在固定時間長度(如30分鐘)的KPI數(shù)據(jù),每條KPI數(shù)據(jù)中包含6個屬性:設(shè)備傳輸時延df、設(shè)備傳輸抖動jit、設(shè)備丟包率lp、平均傳輸比特率br、業(yè)務(wù)開始時間、業(yè)務(wù)結(jié)束時間。將固定時間長度內(nèi)某個用戶各條KPI數(shù)據(jù)的前4個屬性{df,jit,lp,br}的平均值作為影響用戶滿意度的因素,其可以反映在該時間段內(nèi)的網(wǎng)絡(luò)狀況。即,將其用作本方法的輸入其中xn=(xn,df,xn,jit,xn,lp,xn,br)。
步驟2:確定用戶滿意度的客觀度量:當(dāng)用戶對現(xiàn)有視頻業(yè)務(wù)滿意度高時,其會長時間觀看該視頻/使用該業(yè)務(wù),反之,則使用該業(yè)務(wù)的時間較短?;诖?,摒棄傳統(tǒng)的用戶打分的滿意度度量方式,采用用戶體驗(yàn)業(yè)務(wù)的時長來間接、客觀地衡量用戶的滿意度。即,統(tǒng)計每個用戶在固定時間長度內(nèi)的KPI數(shù)據(jù),如現(xiàn)有IPTV機(jī)頂盒每5分鐘有一條KPI記錄,在30分鐘這一時間段內(nèi),則可能有0~5條KPI數(shù)據(jù)。將每條KPI中的結(jié)束時間減去開始時間,并將其累加,得到用戶在30分鐘內(nèi)使用某業(yè)務(wù)的時長,即,
步驟3:建立分類回歸(即CART)樹模型及訓(xùn)練:將已經(jīng)統(tǒng)計好的帶有用戶使用業(yè)務(wù)時長的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),即訓(xùn)練數(shù)據(jù)集為(X,Y)。
(3-1)對于X中的某個屬性j(j∈{df,jit,lp,br}),用其作為切分變量;對于該切分變量j,選擇切分點(diǎn)s,將X劃分成兩個區(qū)域:R1(j,s)={xn|xn,j≤s}和R2(j,s)={xn|xn,j>s}
(3-2)分別求兩個區(qū)域中的xn對應(yīng)的yn的均值c1和c2,即其中N1和N2分別為兩個區(qū)域中的數(shù)據(jù)數(shù)目。
(3-3)計算平方誤差:
(3-4)遍歷所有的j和s,選擇使得平方誤差最小的最優(yōu)值j*和s*作為分類回歸樹第一層切分變量和切分點(diǎn),即,(j*,s*)=argminError(j,s);用最終選定的(j*,s*)劃分出子區(qū)域R1(j*,s*),R2(j*,s*),保存落在該區(qū)域的訓(xùn)練數(shù)據(jù)D1,D2,如下:
R1(j*,s*)={xn|xn,j*≤s*},R2(j*,s*)={xn|xn,j*>s*}
D1={(xn,yn)|xn∈R1(j*,s*)},D2={(xn,yn)|xn∈R2(j*,s*)}
(3-5)對已劃分好的兩個子區(qū)域,考慮剩余的屬性,調(diào)用(3-1)~(3-4)的步驟,繼續(xù)對每個子區(qū)域進(jìn)行劃分,并對劃分好的二級、三級子區(qū)域中的訓(xùn)練數(shù)據(jù)進(jìn)行存儲,直至滿足停止條件。需要說明的是,這里的停止條件為所有的4個屬性已經(jīng)全部被遍歷或者在子區(qū)域生成過程中計算出的Error(j,s)的最小值低于閾值ε。ε通常取0.01。通過這樣的方式,生成CART樹。
步驟4:預(yù)測用戶滿意度:
(4-1)對于待預(yù)測用戶滿意度的數(shù)據(jù)x'(x'的產(chǎn)生方式和X中的數(shù)據(jù)相同,y'未知待預(yù)測),按照所生成的CART樹的結(jié)構(gòu),自上而下,將其分配到相應(yīng)的葉節(jié)點(diǎn)所在的區(qū)域,設(shè)該區(qū)域?yàn)镈'。
(4-2)對于x',在D'中做KNN搜索,基于歐氏距離找到其中的K個近鄰數(shù)據(jù),計算距離加權(quán)平均值,用該均值作為最終的預(yù)測值輸出y',即:
其中
上式中d(x',xk)為x'與其鄰居節(jié)點(diǎn)xk的歐氏距離。
實(shí)施例及性能評價
為了更好地說明本發(fā)明所設(shè)計的IPTV視頻業(yè)務(wù)中用戶滿意度的智能化預(yù)測方法的優(yōu)勢,對來自于IPTV機(jī)頂盒的35160條視頻業(yè)務(wù)數(shù)據(jù),采用本發(fā)明的方法的步驟1和步驟2進(jìn)行處理,得到影響用戶滿意度的因素的輸入數(shù)據(jù)和用戶使用業(yè)務(wù)的時長,在其中隨機(jī)抽取50%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)(X,Y),剩下的數(shù)據(jù)用于預(yù)測。為了比較本發(fā)明所提出的預(yù)測方法的性能,分別使用線性回歸、KNN、CART、以及本發(fā)明方法(即:用weighted-KNN-CART表示)進(jìn)行訓(xùn)練和預(yù)測,重復(fù)50次實(shí)驗(yàn),得到的平均參數(shù)如圖2和圖3所示。
圖2比較了四種方法的預(yù)測誤差,其為所有待預(yù)測樣本(假設(shè)為M條)所預(yù)測出的y'與其真實(shí)值之間的絕對誤差的。絕對誤差的計算公式如下:
圖3比較了四種方法預(yù)測出y'與其真實(shí)值之間的相關(guān)系數(shù),該系數(shù)的絕對值越大,表明y'與關(guān)聯(lián)性越大。相關(guān)系數(shù)的計算公式如下:
從圖2和圖3中可以看出,使用線性回歸方法得到預(yù)測誤差較大,相關(guān)性較小,所以影響用戶滿意度的網(wǎng)絡(luò)性能參數(shù)和用戶使用業(yè)務(wù)的時長并不是單純的線性關(guān)系。在訓(xùn)練和預(yù)測數(shù)據(jù)1:1情況下,本發(fā)明方法獲得了最優(yōu)的性能。
眾所周知,如果可以用較少量訓(xùn)練數(shù)據(jù)生成的模型,對較大數(shù)據(jù)量都有很好的預(yù)測性能,或預(yù)測性能下降很小,說明所建立的模型具有較高的魯棒性?;诖?,調(diào)整用于訓(xùn)練和預(yù)測數(shù)據(jù)之間的比例,使其分別為1:0.5、1:1、1:1.5、1:2倍的情況下,依然進(jìn)行50次實(shí)驗(yàn),三種方法(KNN,CART以及本發(fā)明所設(shè)計weighted-KNN-CART)的誤差和相關(guān)系數(shù)分別如圖4和圖5所示,可以看出,本發(fā)明的方法的性能最優(yōu)。