部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法

文檔序號(hào)：7716004閱讀：205來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法
技術(shù)領(lǐng)域：
本發(fā)明涉及的是一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法。
背景技術(shù)：
伴隨視頻編碼與通信技術(shù)的飛速發(fā)展，在無線網(wǎng)絡(luò)上傳輸視頻流已經(jīng)成為多媒體應(yīng)用的一個(gè)非常重要的發(fā)展方向?；贖. 264/AVC的可伸縮擴(kuò)展標(biāo)準(zhǔn)(Scalable Video Coding, SVC) 于2007年正式形成，它實(shí)現(xiàn)了單一碼流同時(shí)在時(shí)間、空間和質(zhì)量多維尺度上的可伸縮性。在無線網(wǎng)絡(luò)中傳輸可伸縮視頻流，異構(gòu)用戶根據(jù)信道實(shí)時(shí)狀況和接收能力得到同一內(nèi)容在不同尺度組合下的視頻圖像，可以進(jìn)一步提高傳輸可靠性和接收質(zhì)量。
數(shù)據(jù)包調(diào)度是可伸縮視頻流傳輸中的一個(gè)關(guān)鍵問題，調(diào)度策略的優(yōu)異將直接影響用戶整體接收質(zhì)量以及網(wǎng)絡(luò)資源的合理利用。傳統(tǒng)的調(diào)度算法包括排序優(yōu)先型(sorted-priority) 和幀結(jié)構(gòu)型(framed-based)兩大類都是基于公平性的調(diào)度原則，要求節(jié)點(diǎn)必須公平地為每個(gè)視頻流提供服務(wù)，鏈路帶寬必須在不同的視頻流之間進(jìn)行公平分配。然而，可伸縮視頻流不同層次碼流之間存在嚴(yán)格的隸屬依賴關(guān)系，公平性調(diào)度方法無法實(shí)現(xiàn)視頻流的最優(yōu)化質(zhì)量接收。Dong Nguyen等人探討了在無線單播和廣播環(huán)境下，AP (無線接入點(diǎn))進(jìn)行通訊等數(shù) 據(jù)交換操作，釆用馬爾可夫決策過程(Markov decision process, MDP)進(jìn)行數(shù)據(jù)包優(yōu)化調(diào)度，隨后提出了基于隨機(jī)網(wǎng)絡(luò)編碼的調(diào)度算法。兩種算法均假設(shè)用戶的狀態(tài)信息是完全可知的，在現(xiàn)實(shí)世界中難以實(shí)現(xiàn)。S. H. Kang提出了一種基于數(shù)據(jù)包優(yōu)先級(jí)的調(diào)度算法，僅僅考慮了數(shù)據(jù)包的不同重要性，而忽略了調(diào)度性能的整體優(yōu)化問題。對(duì)于系統(tǒng)狀態(tài)信息部分可知的情況，DihongTian等人提出了點(diǎn)對(duì)點(diǎn)通信模型下的數(shù)據(jù)包調(diào)度策略。對(duì)于多描述編碼視頻流，
Ali C.Begen等人提出了多點(diǎn)對(duì)單點(diǎn)的數(shù)據(jù)包調(diào)度算法。

發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)存在的不足，提供一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，該方法能提高視頻流的平均PSNR值，進(jìn)而以實(shí)現(xiàn)用戶整體視頻接收質(zhì)量的最佳化。
為達(dá)到上述目的，本發(fā)明的構(gòu)思是上述部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，針對(duì)無線廣播下的環(huán)境進(jìn)行假設(shè)簡(jiǎn)化，在用戶狀態(tài)不確定或部分可觀測(cè)的條件下，對(duì)可伸縮視頻流進(jìn)行調(diào)度，采用部分可觀測(cè)馬爾可夫決策過程建立數(shù)據(jù)包調(diào)度優(yōu)化模型，該模型包括狀態(tài)集合、行動(dòng)集合、狀態(tài)轉(zhuǎn)移概率、報(bào)酬函數(shù)、觀察集合、觀察概率，給出具體調(diào)度過程，其步驟如下
6(1)、假設(shè)一個(gè)無線廣播傳輸環(huán)境模型，其具體如下(1-1) 、 AP需要將視頻流發(fā)送給M個(gè)接收者r1，,，…,/^ ;
(1-2)、 AP需要在iV個(gè)時(shí)隙內(nèi)將i:個(gè)包的集合丄二仏,/2，…，/J發(fā)送給接收者；(1-3)、每一幀數(shù)據(jù)(丄個(gè)包)的最大發(fā)送時(shí)間均為iV個(gè)時(shí)隙。W個(gè)時(shí)隙結(jié)束之后，AP轉(zhuǎn)向下一幀數(shù)據(jù)的發(fā)送；
(1-4)、 AP轉(zhuǎn)發(fā)1個(gè)數(shù)據(jù)包的時(shí)間是一個(gè)時(shí)隙；
(l-5)、假設(shè)無線信道的丟包率服從參數(shù)為A的伯努利分布，
(2)、分別對(duì)可伸縮視頻流的每一幀數(shù)據(jù)分為Z層，每層打包為一個(gè)數(shù)據(jù)包，每一幀的數(shù)據(jù)包集合記為丄二仏，/2，…，/J，設(shè)立數(shù)據(jù)包調(diào)度優(yōu)化模型，它包括如下
(2-1)、狀態(tài)集合
在任一給定的時(shí)間節(jié)點(diǎn)，假設(shè)接收者^收到了若干數(shù)據(jù)包，它是Z的一個(gè)子集。該子集可以用丄位矢量表示，即(^,《，…A"T，其中6e(0,1)。 6,;1表示,擁有數(shù)據(jù)包/,，否則
6,-0。共有M個(gè)接收者，系統(tǒng)的狀態(tài)s用一個(gè)矩陣來表示>y =
6) 6 …6:
，系統(tǒng)一共有2
個(gè)狀態(tài)。
S-^^,…,^J表示M個(gè)用戶擁有的數(shù)據(jù)包的狀態(tài)集合，"[^,A,…,;7，]表示對(duì)應(yīng)
狀態(tài)的概率分布2/^=1。
1=1
(2-2)、行動(dòng)集合
^^"，a"…,a,J表示M個(gè)用戶擁有的數(shù)據(jù)包的行動(dòng)集合，在每一個(gè)時(shí)隙內(nèi)AP選擇一個(gè)
需要發(fā)送的數(shù)據(jù)包，a,表示"發(fā)送第/個(gè)數(shù)據(jù)包"；(2-3)、狀態(tài)轉(zhuǎn)移概率
在給定參數(shù)為A的伯努利丟包模型下，直接計(jì)算出狀態(tài)轉(zhuǎn)移概率尸(&, =^>,=")。
例如，發(fā)送兩個(gè)包到兩個(gè)接收者，似=2，丄=2。假設(shè)《=
'10、、0)
，s =
、01,、11,
。在f時(shí)刻，系統(tǒng)
處在s狀態(tài)，即一擁有數(shù)據(jù)包/,，,擁有數(shù)據(jù)包/2。此時(shí)，AP選擇行動(dòng)a廣"發(fā)送/,"，那么轉(zhuǎn)
7移到狀態(tài)5的概率是<formula>formula see original document page 8</formula>;如果選擇行動(dòng)fl,"發(fā)送/2"，那么轉(zhuǎn)移到的概率是<formula>formula see original document page 8</formula>(2-4)、報(bào)酬函數(shù)
報(bào)酬的選擇必須使每一時(shí)間節(jié)點(diǎn)下的瞬時(shí)報(bào)酬K&o)的總和能準(zhǔn)確地反應(yīng)既定目標(biāo)——
視頻流質(zhì)量的最優(yōu)化。把接收者接收到每一個(gè)特定數(shù)據(jù)包所減少的失真作為瞬時(shí)報(bào)酬，視頻
質(zhì)量最優(yōu)等價(jià)于所有M個(gè)用戶的視頻失真總和最小。
事實(shí)上，在狀態(tài)^下采取行動(dòng)a后，并不會(huì)提供一個(gè)很明確的瞬時(shí)報(bào)酬。但是，可以很明
確地知道當(dāng)系統(tǒng)從s轉(zhuǎn)移到s后的回報(bào)值。舉例來說，給定一個(gè)SVC分層視頻流，并且接收到
每一層后相應(yīng)的失真減少值已經(jīng)給出。如果狀態(tài)s表示一個(gè)接收者擁有第一層和第二層視頻
流，狀態(tài)s表示接收者擁有第一層、第二層和第三層視頻流，則從狀態(tài)s轉(zhuǎn)移到s的瞬時(shí)報(bào)酬
值是r(s,"，該值等于第三層貢獻(xiàn)的失真減少值。采取行動(dòng)"后的狀態(tài)轉(zhuǎn)移概率已知，瞬時(shí)報(bào)酬K&")可以通過下式計(jì)算<formula>formula see original document page 8</formula>
(2-5)、觀察集合
O表示AP能觀察到的觀察集合<formula>formula see original document page 8</formula>表示在/時(shí)刻M個(gè)用戶的聯(lián)合觀察<formula>formula see original document page 8</formula>其中
乂CK:確認(rèn)收到數(shù)據(jù)包的反饋A^《沒有收到數(shù)據(jù)包的反饋(2-6)、觀察概率
由于觀察結(jié)果的不確定性，觀察結(jié)果o在狀態(tài)s下采取行動(dòng)a后，用一個(gè)條件概率函數(shù)<formula>formula see original document page 8</formula>來給出。
(3)、對(duì)可伸縮視頻流優(yōu)化調(diào)度
一個(gè)//幀的視頻流，每一幀由丄層組成，每一層打成一個(gè)包，假設(shè)初始信念狀態(tài)為
<formula>formula see original document page 8</formula> ， ^^第2M"個(gè)狀^為所有接收者成功接收到所有數(shù)據(jù)包的
目標(biāo)狀態(tài)，針對(duì)某一幀數(shù)據(jù)包的具體調(diào)度步驟如下(3-1)、部分可觀測(cè)馬爾可夫決策過程參數(shù)輸入初始信念狀態(tài)6'。=[^,^,..,《；];(3-2)、選擇需要發(fā)送的數(shù)據(jù)包在每一個(gè)時(shí)隙內(nèi)AP通過下式選擇需要發(fā)送的最優(yōu)數(shù)據(jù)
包，
n^。,f。) = argmax(《[A: | ^6。,g + i ,2^ | s,，6。,g +…《[A: |《 0]}
其中n"6。，/。)表示一步部分可觀測(cè)馬爾可夫決策過程需要發(fā)送的最優(yōu)數(shù)據(jù)包；
及r^k,6。，,。]表示,。時(shí)刻在初始信念為6。的情況下，發(fā)送第A:個(gè)數(shù)據(jù)包后第附個(gè)用戶獲得的一步失真減少；Q(O表示在？時(shí)刻需要發(fā)送的數(shù)據(jù)包的集合，初始時(shí)刻的Q(g-(l,2,…，Zh(3-3)、信念狀態(tài)更新一次每發(fā)送一個(gè)數(shù)據(jù)包，進(jìn)行一次聯(lián)合觀察o，0(0二^(0,O2(0,…,Om(0〉，其中o,(/)e^4C7i:，A^"，系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)移，從狀態(tài)s,.轉(zhuǎn)移到狀態(tài)~ ，根據(jù)接收到的反饋的不同，~的取值一共有2M種情況，即
A/位
。二^^f^，…，《…18，《…^， 6'。的一次更新過程如下
(3-3-1)、 o = {》/1尺，A^K， . A/^K， A64力
(3-3-2) 、 o = {iV肌iV風(fēng)...iV肌JOT}
^=0
+
II收益值為
m，{i 11[*|>yi，6。,g + J 12[A^,,6。,g + 《[6U,,6。,,0]}，
巧(6。,f。)表示一步部分可觀測(cè)馬爾可夫決策過程的收益值。每發(fā)送一次，概率更新一次，
狀態(tài)的確定度越來越大；
(3-4)、判斷發(fā)送時(shí)隙"是否大于最大發(fā)送時(shí)隙數(shù)iV，若大于，則轉(zhuǎn)移到下一幀的數(shù)據(jù)包
進(jìn)行發(fā)送；否則接著發(fā)送此幀的數(shù)據(jù)包。經(jīng)過"步后，部分可觀測(cè)馬爾可夫決策過程的最大
失真減少及其最優(yōu)策略分別如下
// (6o,0 = ，X{i 》|、6。,,。] + i ,^,,6。,g + 《[W^6"]}
n (6。, f。 ) = ar g max {《[A: I ^, 6。, g + i "2 [ A: U,, 6。, ,。] +…[ A: I , 6。, g}
經(jīng)過W個(gè)時(shí)隙后，轉(zhuǎn)移到下一幀數(shù)據(jù)包的調(diào)度，直至//幀的視頻流的數(shù)據(jù)包調(diào)度完成。本發(fā)明的部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法與現(xiàn)有技術(shù)相比較具有的優(yōu)點(diǎn)是該方法在用戶狀態(tài)不確定或部分可觀測(cè)條件下，建立了可伸縮視頻流的數(shù)據(jù)包調(diào)度優(yōu)化模型。仿真結(jié)果表明隨著丟包率以及調(diào)度規(guī)模的增大，該方法逐漸逼近最優(yōu)化
調(diào)度算法——MDP算法；而與傳統(tǒng)的調(diào)度算法FIFO和RR相比，能提高視頻流的平均PSNR值，
以實(shí)現(xiàn)用戶整體視頻接收質(zhì)量的最佳化。

圖1本發(fā)明針對(duì)多個(gè)用戶的無線廣播模型的示意圖；圖2(a)本發(fā)明丟包率對(duì)"Bus"序列與其它算法比較的平均PSNR示意圖；圖2(b)本發(fā)明丟包率對(duì)"Foreman"序列與其它算法比較的平均PSNR示意圖；圖3(a)本發(fā)明發(fā)送時(shí)隙對(duì)"Bus"序列與其它算法比較的平均PSNR示意圖；圖3(b)本發(fā)明發(fā)送時(shí)隙對(duì)"Foreman"序列與其它算法比較的平均PSNR示意圖；圖4(a)本發(fā)明用戶數(shù)目對(duì)"Bus"序列與其它算法比較的平均PSNR示意圖；圖4(b)本發(fā)明用戶數(shù)目對(duì)"Foreman"序列與其它算法比較的平均PSNR示意圖；圖5本發(fā)明所述方法針對(duì)某一幀數(shù)據(jù)包的核心模塊流程框圖。
具體實(shí)施例方式
以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例作進(jìn)一步的詳細(xì)說明。
下面對(duì)本發(fā)明的實(shí)施例作詳細(xì)說明，本實(shí)施例以本發(fā)明的技術(shù)方案為前提下進(jìn)行實(shí)施，給出了詳細(xì)的實(shí)施方式，但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
如圖1所示，上述部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，其具
10體步驟如下
(1) 、假設(shè)一個(gè)無線廣播模型，其具體如下(1-1) 、 AP需要將視頻流發(fā)送給2個(gè)接收者一，一；
(1-2)、 AP需要在7V個(gè)時(shí)隙內(nèi)將丄個(gè)包的集合丄-仏,/2,…,/^發(fā)送給接收者；
(1-3)、每一幀數(shù)據(jù)(￡個(gè)包)的最大發(fā)送時(shí)間均為7V個(gè)時(shí)隙。7V個(gè)時(shí)隙結(jié)束之后，AP轉(zhuǎn)向下一幀數(shù)據(jù)的發(fā)送；
(1-4)、 AP轉(zhuǎn)發(fā)1個(gè)數(shù)據(jù)包的時(shí)間是一個(gè)時(shí)隙；
(1-5)、假設(shè)無線信道的丟包率服從參數(shù)為A的伯努利分布。
(2) 、對(duì)2個(gè)用戶的可伸縮視頻流的每一幀數(shù)據(jù)分為Z層，每層打包為一個(gè)數(shù)據(jù)包，一幀的數(shù)據(jù)包集合記為丄=(H…，/J ，其部分可觀測(cè)馬爾可夫決策過程的數(shù)據(jù)包調(diào)度優(yōu)化模型定義如下
(2-1)、狀態(tài)集合
在任一給定的時(shí)間節(jié)點(diǎn)，假設(shè)接收者^已經(jīng)收到了若干數(shù)據(jù)包，它是丄的一個(gè)子集。該子集可以用Z位矢量表示，即(^,《,…,6;"f，其中6€{0,1}。 6,.=1表示^擁有數(shù)據(jù)包
/,，否則6,-0。只有2個(gè)接收者，系統(tǒng)的狀態(tài)J用一個(gè)矩陣來表示5 =
、"i "i 乂
，系統(tǒng)一共
有2"個(gè)狀態(tài)。
5 = "，52, ，522,}表示一，一擁有的數(shù)據(jù)包的狀態(tài)集合，6二[p,，/72,…，p^]表示對(duì)應(yīng)狀態(tài)的
概率分布，J>,=1。(2-2)、行動(dòng)集合
」二&,，A，…,ad表示八一擁有的數(shù)據(jù)包的行動(dòng)集合，在每一個(gè)時(shí)隙內(nèi)AP選擇一個(gè)需要
發(fā)送的數(shù)據(jù)包，",表示"發(fā)送第/個(gè)數(shù)據(jù)包"。(2-3)、狀態(tài)轉(zhuǎn)移概率
在給定參數(shù)為A的伯努利丟包模型下，可以直接計(jì)算出狀態(tài)轉(zhuǎn)移概率
一
p(、,s =a)。例如，發(fā)送兩個(gè)數(shù)據(jù)包到兩個(gè)接收者，M = 2,丄=2。假設(shè)s二
、01乂<formula>formula see original document page 12</formula>
。在r時(shí)刻，系統(tǒng)處在^狀態(tài)，即—擁有數(shù)據(jù)包/,，一擁有數(shù)據(jù)包/2。此時(shí)，AP選擇
行動(dòng)^="發(fā)送/,"，那么轉(zhuǎn)移到狀態(tài)y的概率是尸(&, =s -s,a, =") = 0;如果選擇行動(dòng)"2 =
"發(fā)送/2"，那么轉(zhuǎn)移到的概率是尸0,+1 =s k, = J，a, =a) = l-a 。(2-4)、報(bào)酬函數(shù)
報(bào)酬函數(shù)的選擇必須使每一時(shí)間節(jié)點(diǎn)下的瞬時(shí)報(bào)酬r(s，力的總和能準(zhǔn)確地反應(yīng)既定目標(biāo)
——視頻流質(zhì)量的最優(yōu)化，可以把接收者接收到每一個(gè)特定數(shù)據(jù)包所減少的失真作為瞬時(shí)報(bào)酬。視頻質(zhì)量最優(yōu)就等價(jià)于兩個(gè)用戶的視頻失真總和最小。
事實(shí)上，在狀態(tài)s下采取行動(dòng)fl后，并不會(huì)提供一個(gè)很明確的瞬時(shí)報(bào)酬。但是，可以很明
確地知道當(dāng)系統(tǒng)從s轉(zhuǎn)移到s后的回報(bào)值。舉例來說，給定一個(gè)SVC分層視頻流，并且接收到
每一層后相應(yīng)的失真減少值已經(jīng)給出。如果狀態(tài)s表示一個(gè)接收者擁有第一層和第二層視頻
流，狀態(tài)s表示接收者擁有第一層、第二層和第三層視頻流，則從狀態(tài)s轉(zhuǎn)移到s的瞬時(shí)報(bào)酬
值是K^,",該值等于第三層貢獻(xiàn)的失真減少值。采取行動(dòng)fl后的狀態(tài)轉(zhuǎn)移概率已知，瞬時(shí)
報(bào)酬")可以通過下式計(jì)算
(2-5)、觀察集合
O表示AP能觀察到的觀察集合，0 = {^XA^/C}， 0(0-V(/),o力))表示在f時(shí)刻2個(gè)
用戶的聯(lián)合觀察，o'(0eMC尺，iVv4/0，其中
jCA::確認(rèn)收到數(shù)據(jù)包的feedbacka^4/::沒有收到數(shù)據(jù)包的feedback(2-6)、觀察概率
由于觀察結(jié)果的不確定性，觀察結(jié)果o在狀態(tài)s下采取行動(dòng)a后，用一個(gè)條件概率函數(shù)ZO，a,o) = ; Ko I s，")來給出。
(3)、可伸縮視頻流的優(yōu)化調(diào)度，如圖5所示，一個(gè)/Z幀的視頻流，每一幀由丄層組
12成，每一層打成一個(gè)包，假設(shè)初始信念狀態(tài)為[:^""r，:^f"r,…,^"r,0]，設(shè)定第2"個(gè)
2 —12 —l 2 —1
狀態(tài)為所有接收者成功接收到所有數(shù)據(jù)包的目標(biāo)狀態(tài)，針對(duì)某一幀的數(shù)據(jù)包具體調(diào)度步驟如下-
(3-1)、部分可觀測(cè)馬爾可夫決策過程參數(shù)輸入初始信念狀態(tài)6'。[A'。，;^，…,;^":h(3-2)、選擇需要發(fā)送的數(shù)據(jù)包在每一個(gè)時(shí)隙內(nèi)AP通過下式選擇需要發(fā)送的數(shù)據(jù)
包，
n!(6。J。) = argmax(i ;[A; | s,》。，/。] +| ^,6?！?]}
其中n,(6。"。)表示一步部分可觀測(cè)馬爾可夫決策過程需要發(fā)送的最優(yōu)數(shù)據(jù)包；^"^k,6。人]表示,。時(shí)刻在初始信念為6。的情況下，發(fā)送第^個(gè)數(shù)據(jù)包后第附個(gè)用戶獲得的
一步失真減少；Q(f)表示在f時(shí)刻需要發(fā)送的數(shù)據(jù)包的集合，初始時(shí)刻的Q(0^仏2,…，Q;
(3-3)、信念狀態(tài)更新一次每發(fā)送一個(gè)數(shù)據(jù)包，進(jìn)行一次聯(lián)合觀察o， 0(0々),02(0〉，其中o,(,)e^4C^:,A^尺)，系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)移，從狀態(tài)&轉(zhuǎn)移到狀態(tài)^，根據(jù)接收到的反饋的不同，^的取值一共有4種情況，即~=",^〗，/;，".}，各個(gè)元素的含義如下-
A:,和一都沒有收到第A:層數(shù)據(jù)包一收到第A層數(shù)據(jù)包，一沒收到,收到第it層數(shù)據(jù)包，,沒收到/和一都收到第A層數(shù)據(jù)包
6'。的一次更新過程如下
(3-3-1)、
p;',。=《。冷=4
(3-3-2)、 o = {A^，^C/Q
13A'
0
力。=p)。4《+rf
(3-3-3)、 o-^Oi:,A^尺〉
'_0
4=4
(3-3-4)、 o = {JC/d《}
W = 0
P〉,,《,，=/^+"。
收益值為:
//,(6。,/。)表示一步的部分可觀測(cè)馬爾可夫決策過程收益值。每發(fā)送一次，概率更新一次，
狀態(tài)的確定度越來越大；
(3-4)、判斷發(fā)送時(shí)隙"是否大于最大發(fā)送時(shí)隙數(shù)W，若大于，則轉(zhuǎn)移到下一幀的數(shù)據(jù)包
進(jìn)行發(fā)送；否則接著發(fā)送此幀的數(shù)據(jù)包。經(jīng)過"步后，部分可觀測(cè)馬爾可夫決策過程的最大
失真減少及其最優(yōu)策略分別如下
^(6。,0、n^x(《[A:l、6。,g +《[A;ls,，6。,g)
n (6。,f。) = argmax{《| ^,60,f。] +《[A | ,6。，^]}
經(jīng)過7V個(gè)時(shí)隙后轉(zhuǎn)移到下一幀數(shù)據(jù)包的調(diào)度，直至//幀的視頻流的數(shù)據(jù)包調(diào)度完成。圖2(a)、 2(b)、 3(a)、 3(b)、 4(a)、 4(b)分別把部分可觀測(cè)馬爾可夫決策過程算法與在狀態(tài)信息可知的最優(yōu)化調(diào)度算法MDP算法、傳統(tǒng)的FIFO算法，即只是簡(jiǎn)單的按照數(shù)據(jù)包到達(dá)的順序進(jìn)行發(fā)送，且每個(gè)數(shù)據(jù)包最多只有兩次發(fā)送機(jī)會(huì)，以及輪詢調(diào)度算法(Round Robin，RR)。假設(shè)初始信念狀態(tài)為[^n,^T,…，^T，0]，設(shè)定第2M"個(gè)狀態(tài)為所有接收者成功接收到所有數(shù)
據(jù)包的目標(biāo)狀態(tài)。圖中方塊符實(shí)線代表MDP算法的收益值的變化趨勢(shì)，空心圓圈虛線代表部分可觀測(cè)馬爾可夫決策過程算法的變化趨勢(shì)，五角星符雙劃線代表RR算法的變化趨勢(shì)，菱形符點(diǎn)劃線代表FIFO算法的變化趨勢(shì)。圖2(a)、 2(b)只是針對(duì)兩種不同的序列做了仿真，四個(gè)用戶的丟包率相同，分別為A =P2 = P3 = A =0.2,0.3,0.5,0.6以及7V-3的情況下平均PSNR值的比較。從中可以看出隨著丟包率的增加，部分可觀測(cè)馬爾可夫決策過程逐漸接近MDP，丟包率越大，接收者正確接收到數(shù)據(jù)包的概率越小，此時(shí)網(wǎng)絡(luò)的吞吐量急劇減少，對(duì)數(shù)據(jù)包進(jìn)行優(yōu)化調(diào)度是十分關(guān)鍵的，而部分可觀測(cè)馬爾可夫決策過程和MDP都采用了優(yōu)化調(diào)度，兩者的差距越來越??；而與FIFO的差距越來越大，隨著丟包率的增大，更加需要對(duì)數(shù)據(jù)包進(jìn)行調(diào)度，而FIFO仍然按照數(shù)據(jù)包到達(dá)的順序發(fā)送數(shù)據(jù)包。圖3(a)、 3(b)給出了發(fā)送時(shí)隙對(duì)平均psnr值的影響。四個(gè)用戶的丟包概率相同，即a-a-a-a:0.3，隨著7V的增加，部分可觀測(cè)馬爾可夫決策過程逐漸接近MDP， iV越大，部分可觀測(cè)馬爾可夫決策過程中的狀態(tài)的確定度也越來越大，兩種算法越來越接近；而隨著iV的增大，接收者成功接收到數(shù)據(jù)包的概率增加，三種算法隨著7V的增加差距越來越小。圖4(a)、 4(b)給出了用戶數(shù)目對(duì)平均PSNR值的影響。a-0.3，^:^0.4,a二0.5,a二0.6,即從一個(gè)到四個(gè)用戶的丟包概率是不同的，
iV = 3。從中可以看出隨著丟包率、發(fā)送時(shí)隙和用戶數(shù)目的增加，本算法逐漸逼近最優(yōu)化的調(diào)度算法MDP，與傳統(tǒng)的調(diào)度算法RR和FIFO相比，其PSNR值提高了大約1分貝。
權(quán)利要求
1、一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，其特征在于，針對(duì)無線廣播下的環(huán)境進(jìn)行假設(shè)簡(jiǎn)化，在用戶狀態(tài)不確定或部分可觀測(cè)的條件下，對(duì)可伸縮視頻流進(jìn)行調(diào)度，采用部分可觀測(cè)馬爾可夫決策過程建立數(shù)據(jù)包調(diào)度優(yōu)化模型，該模型包括狀態(tài)集合、行動(dòng)集合、狀態(tài)轉(zhuǎn)移概率、報(bào)酬函數(shù)、觀察集合、觀察概率，給出具體的調(diào)度過程，其具體步驟如下(1)、假設(shè)一個(gè)無線廣播傳輸環(huán)境模型，其具體為(1-1)、AP需要將視頻流發(fā)送給M個(gè)接收者r1，r2，…，rM；(1-2)、AP需要在N個(gè)時(shí)隙內(nèi)將L個(gè)包的集合L＝{l1，l2，…，lL}發(fā)送給接收者；(1-3)、每一幀數(shù)據(jù)(L個(gè)包)的最大發(fā)送時(shí)間均為N個(gè)時(shí)隙，N個(gè)時(shí)隙結(jié)束之后，AP轉(zhuǎn)向下一幀數(shù)據(jù)包的發(fā)送；(1-4)、AP轉(zhuǎn)發(fā)1個(gè)數(shù)據(jù)包的時(shí)間是一個(gè)時(shí)隙；(1-5)、假設(shè)無線信道的丟包率服從參數(shù)為pi的伯努利分布。(2)、分別對(duì)可伸縮視頻流的每一幀數(shù)據(jù)分為L(zhǎng)層，每層打包為一個(gè)數(shù)據(jù)包，每一幀的數(shù)據(jù)包集合記為L(zhǎng)＝{l1，l2，…，lL}，設(shè)立數(shù)據(jù)包調(diào)度優(yōu)化模型；(3)、對(duì)可伸縮視頻流優(yōu)化調(diào)度。
2、根據(jù)權(quán)利要求1所述的部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，其特征在于所述的步驟(2)中的數(shù)據(jù)包調(diào)度優(yōu)化模型，它包括如下(2-1)、狀態(tài)集合在任一給定的時(shí)間節(jié)點(diǎn)，假設(shè)接收者^收到了若干數(shù)據(jù)包，它是丄的一個(gè)子集，該子集可以用丄位矢量表示，即(6r,^,…,^f ,其中6￡{0，1}， 6,=1表示,擁有數(shù)據(jù)包/,.，否則6;=0，共有M個(gè)接收者，系統(tǒng)的狀態(tài)s用一個(gè)矩陣來表示s =<formula>formula see original document page 0</formula>，系統(tǒng)一共有2<formula>formula see original document page 0</formula>個(gè)狀態(tài)，S:h，^,…^，J表示M個(gè)用戶擁有的數(shù)據(jù)包的狀態(tài)集合，"[A,A,…,; ，]表示對(duì)應(yīng)<formula>formula see original document page 0</formula>狀態(tài)的概率分布J>,=1。 (2-2)、行動(dòng)集合J-^,^,…,W表示M個(gè)用戶擁有的數(shù)據(jù)包的行動(dòng)集合，在每一個(gè)時(shí)隙內(nèi)AP選擇一個(gè)需要發(fā)送的數(shù)據(jù)包，",表示"發(fā)送第/個(gè)數(shù)據(jù)包"； (2-3)、狀態(tài)轉(zhuǎn)移概率在給定參數(shù)為p,的伯努利丟包模型下，可以直接計(jì)算出狀態(tài)轉(zhuǎn)移概率,10、|《=")，例如，發(fā)送兩個(gè)包到兩個(gè)接收者，M = 2,Z = 2,假設(shè)《=01y=f1Q>l，在,時(shí)刻，系統(tǒng)處在s狀態(tài)，即r'擁有數(shù)據(jù)包/" 一擁有數(shù)據(jù)包/2，此時(shí)，AP選擇行動(dòng)a,="發(fā)送/,"，那么轉(zhuǎn)移到狀態(tài)/的概率是尸(&, = s' k = = a) = 0;如果選擇行動(dòng)a2 ="發(fā)送/2"，那么轉(zhuǎn)移到的概率是尸(^ = s k = = ") = 1 — ^ ; (2-4)、報(bào)酬函數(shù)報(bào)酬函數(shù)的選擇必須使每一時(shí)間節(jié)點(diǎn)下的瞬時(shí)報(bào)酬rCy，")的總和能準(zhǔn)確地反應(yīng)既定目標(biāo)——視頻流質(zhì)量的最優(yōu)化，可以把接收者接收到每一個(gè)特定數(shù)據(jù)包所減少的失真作為瞬時(shí)報(bào) 酬，視頻質(zhì)量最優(yōu)等價(jià)于所有M個(gè)用戶的視頻失真總和最小。采取行動(dòng)fl后的狀態(tài)轉(zhuǎn)移概率已知，瞬時(shí)報(bào)酬k^，")可以通過下式計(jì)算<formula>formula see original document page 2</formula>(2-5)、觀察集合O表示AP能觀察到的觀察集合，O = {JCX, A^《} ， o(O = {o, (r)，o2(f)，…，oM (0}表示在f時(shí) 刻M個(gè)用戶的聯(lián)合觀察，o'(/)e{JO:,A^:}，其中jca::確認(rèn)收到數(shù)據(jù)包的反饋沒有收到數(shù)據(jù)包的反饋(2-6)、觀察概率觀察結(jié)果的不確定性，觀察結(jié)果o在狀態(tài)s下采取行動(dòng)a后，用一個(gè)條件概率函數(shù) ZO , a, o) = pr(o I a)來給出。
3、根據(jù)權(quán)利要求2所述的部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，其特征在于所述的步驟(3)中的對(duì)可伸縮視頻流優(yōu)化調(diào)度，假設(shè)初始信念狀態(tài)為<formula>formula see original document page 4</formula>,0]，設(shè)定第2M"個(gè)狀態(tài)為所有接收者成功接收到所有數(shù)據(jù)包的目標(biāo)狀態(tài)，針對(duì)某一幀數(shù)據(jù)包的具體調(diào)度步驟如下(3-i)、部分可觀測(cè)馬爾可夫決策過程的參數(shù)輸入初始信念狀態(tài)6'。^[A'。,;^，…，;^"];(3-2)、選擇需要發(fā)送的數(shù)據(jù)包在每一個(gè)時(shí)隙內(nèi)AP通過下式選擇需要發(fā)送的數(shù)據(jù)包，其中n,(6。，g表示一步部分可觀測(cè)馬爾可夫決策過程需要發(fā)送的最優(yōu)數(shù)據(jù)包； ^"[Ak》。，,。]表示,。時(shí)刻在初始信念為6。的情況下，發(fā)送第A:個(gè)數(shù)據(jù)包后第m個(gè)用戶獲得的一步失真減少；Q(,)表示在^時(shí)刻需要發(fā)送的數(shù)據(jù)包的集合，初始時(shí)刻的0(~) = {1,2，一,丄};(3-3)、信念狀態(tài)更新一次每發(fā)送一個(gè)數(shù)據(jù)包，進(jìn)行一次聯(lián)合觀察o， 0(0-(o々)，oJ,)，…,Om(01 ，其中o^)e^4C尺,iV^0，系統(tǒng)發(fā)生狀態(tài)轉(zhuǎn)移，從狀態(tài)s,轉(zhuǎn)移到狀態(tài)~ ，根據(jù)接收到的反饋的不同，~的取值一共有2M種情況，即(3-3-1) ，《，《',，W的一次更新過程如下:<formula>formula see original document page 4</formula>o = {iV風(fēng)7V風(fēng) AC4《,7V竭外,,<formula>formula see original document page 4</formula><formula>formula see original document page 5</formula>收益值為<formula>formula see original document page 5</formula>^(6。,g表示一步部分可觀測(cè)馬爾可夫決策過程的收益值，每發(fā)送一次，概率更新一次，狀態(tài)的確定度越來越大；(3-4)、判斷發(fā)送時(shí)隙"是否大于最大發(fā)送時(shí)隙數(shù)7v，若大于，則轉(zhuǎn)移到下一幀的數(shù)據(jù)包進(jìn)行發(fā)送；否則接著發(fā)送此幀的數(shù)據(jù)包。經(jīng)過"步后，部分可觀測(cè)馬爾可夫決策過程的最大失真減少及其最優(yōu)策略分別如下<formula>formula see original document page 5</formula>經(jīng)過W個(gè)時(shí)隙后轉(zhuǎn)移到下一幀數(shù)據(jù)包的調(diào)度，直至/Z幀的視頻流的數(shù)據(jù)包調(diào)度完成c
全文摘要
本發(fā)明公開了一種部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法，該方法針對(duì)無線廣播下的環(huán)境進(jìn)行簡(jiǎn)化，在用戶狀態(tài)不確定或部分可觀測(cè)條件下，對(duì)可伸縮視頻流進(jìn)行調(diào)度，采用部分可觀測(cè)馬爾可夫決策過程建立數(shù)據(jù)包調(diào)度優(yōu)化模型，它包括狀態(tài)集合、行動(dòng)集合、狀態(tài)轉(zhuǎn)移函數(shù)、報(bào)酬函數(shù)、觀察集合、觀察概率，給出調(diào)度過程，其步驟(1)假設(shè)一個(gè)無線廣播傳輸環(huán)境模型；(2)對(duì)可伸縮視頻流的每一幀數(shù)據(jù)分為層，每層打包為一個(gè)數(shù)據(jù)包，每一幀的數(shù)據(jù)包集合記為，設(shè)立數(shù)據(jù)包調(diào)度優(yōu)化模型；(3)對(duì)可伸縮視頻流優(yōu)化調(diào)度。該方法建立可伸縮視頻流的數(shù)據(jù)包調(diào)度優(yōu)化模型，能提高視頻流的平均PSNR值，以實(shí)現(xiàn)用戶整體視頻接收質(zhì)量最佳化。
文檔編號(hào)H04N7/30GK101674482SQ200910196540
公開日2010年3月17日申請(qǐng)日期2009年9月25日優(yōu)先權(quán)日2009年9月25日
發(fā)明者兵彭, 敏汪, 范鳳軍, 鄒君妮申請(qǐng)人:上海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄒君妮;范鳳軍;彭兵;汪敏
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

馬爾可夫決策過程相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

部分可觀測(cè)馬爾可夫決策過程中可伸縮視頻流的優(yōu)化調(diào)度方法