亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

Hadoop中基于Zigzag的MapReduce數(shù)據(jù)處理方法與流程

文檔序號(hào):12472167閱讀:479來源:國知局
Hadoop中基于Zigzag的 MapReduce數(shù)據(jù)處理方法與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種Hadoop中基于Zigzag的MapReduce數(shù)據(jù)處理方法。



背景技術(shù):

隨著智慧城市、平安城市等概念的提出,全國性的視頻監(jiān)控系統(tǒng)正逐步開展和實(shí)施,城市的視頻監(jiān)控系統(tǒng)已基本覆蓋了城市的各個(gè)角落,正成為城市信息化建設(shè)和管理的重要工具。這也使得視頻數(shù)據(jù)呈指數(shù)級(jí)爆炸式增長,如何快速存儲(chǔ)和處理巨量視頻數(shù)據(jù)具有極大的技術(shù)挑戰(zhàn)性。

視頻是一種結(jié)構(gòu)緊密型的數(shù)據(jù),傳統(tǒng)的單機(jī)存儲(chǔ)與處理難以滿足需求。近年來,Hadoop成為了優(yōu)秀的大數(shù)據(jù)并行計(jì)算處理平臺(tái),在很多世界級(jí)大企業(yè)中都取得了廣泛應(yīng)用。它提供了穩(wěn)定的分布式文件系統(tǒng)HDFS(Hadoop distributed file system)和MapReduce分布式處理架構(gòu)。HDFS采用主從Master/Slave架構(gòu)對(duì)文件系統(tǒng)進(jìn)行管理,由一個(gè)主控節(jié)點(diǎn)和一定數(shù)量數(shù)據(jù)節(jié)點(diǎn)組成,它將數(shù)據(jù)分塊存儲(chǔ)在不同的數(shù)據(jù)節(jié)點(diǎn)并進(jìn)行備份,具有高可靠性和高容錯(cuò)性。

MapReduce是一種并行編程模型,首次提出該模型的是美國Google公司。MapReduce模型的核心步驟主要分兩部分:Map和Reduce。當(dāng)你向MapReduce模型提交一個(gè)計(jì)算作業(yè)時(shí),它會(huì)首先把計(jì)算作業(yè)拆分成若干個(gè)Map任務(wù),然后分配到不同的節(jié)點(diǎn)上去執(zhí)行,每一個(gè)Map任務(wù)處理輸入數(shù)據(jù)中的一部分,當(dāng)Map任務(wù)完成后,它會(huì)生成一些中間文件,這些中間文件將會(huì)作為Reduce任務(wù)的輸入數(shù)據(jù)。Reduce任務(wù)的主要目標(biāo)就是把前面若干個(gè)Map的輸出匯總并輸出。

目前,Hadoop平臺(tái)廣泛應(yīng)用于文本大數(shù)據(jù)的分析與挖掘,而用于視頻圖像處理的研究相對(duì)較少。論文《用于海量圖像存儲(chǔ)與處理的Hadoop擴(kuò)展》(桂林電子科技大學(xué)學(xué)報(bào),2014,10(5):182-183)提出了擴(kuò)展Hadoop支持?jǐn)?shù)據(jù)類型,同時(shí)集成OpenCV開源庫,實(shí)現(xiàn)了基于Hadoop和OpenCV的計(jì)算機(jī)視覺分布式處理平臺(tái);論文《基于Hadoop的快速并行視頻處理方法》(計(jì)算機(jī)測量與控制,2015,23(12):4117-4120)設(shè)計(jì)了MapReduce相關(guān)視頻數(shù)據(jù)處理接口,并給出了視頻數(shù)據(jù)類型擴(kuò)展和MapReduce視頻處理策略。但這些論文中的技術(shù)方法都沒有考慮到視頻本身的編碼結(jié)構(gòu)特征,在視頻處理時(shí)間和系統(tǒng)IO讀寫效率上難有較大改進(jìn)和提升。

具體地,請(qǐng)參考圖1,在現(xiàn)有的MapReduce過程中,如圖所示,每個(gè)Map輸出文件中的整個(gè)分區(qū)(partition,P1)會(huì)被拷貝到Reduce端,然后所有分區(qū)(P1,P1,P1)會(huì)合并成為一個(gè)有序的總的集合(P1),最后做Reduce處理,由于該方法沒有考慮到圖像的任何特征信息,其拷貝的數(shù)據(jù)量不可控,拷貝環(huán)節(jié)內(nèi)存溢出不可避免,隨后合并及進(jìn)行Reduce過程中也會(huì)產(chǎn)生更多硬盤IO的訪問,從而降低了MapReduce視頻處理的性能。

因此,有必要提供一種改進(jìn)的MapReduce數(shù)據(jù)處理方法來克服上述缺陷。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明所要解決的技術(shù)問題是:提供一種Hadoop中基于Zigzag的MapReduce數(shù)據(jù)處理方法,以使得拷貝的數(shù)據(jù)量大小可控,從而提高M(jìn)apReduce視頻處理的性能。

為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下:

提供一種Hadoop中基于Zigzag的MapReduce數(shù)據(jù)處理方法,包括:

將視頻圖像的離散余弦變換編碼特點(diǎn)及相關(guān)的Zigzag分布特征信息引入MapReduce模型的拷貝過程中;

將行程編碼技術(shù)引入MapReduce模型的合并過程中;

對(duì)合并后的數(shù)據(jù)進(jìn)行Reduce處理。

與現(xiàn)有技術(shù)相比,本發(fā)明的方法先將視頻圖像的離散余弦變換編碼特點(diǎn)及相關(guān)的Zigzag分布特征信息引入MapReduce模型的拷貝過程中,再將行程編碼技術(shù)引入MapReduce模型的合并過程中,最后對(duì)合并后的數(shù)據(jù)進(jìn)行Reduce處理。該方法充分考慮了圖像的DCT變換特點(diǎn)及相關(guān)Zigzag分布特征信息,其拷貝的數(shù)據(jù)量大小完全可控,拷貝環(huán)節(jié)內(nèi)存不易溢出,隨后采用行程編碼合并后,Reduce過程中的硬盤IO訪問次數(shù)將大大地減少,同時(shí)MapReduce視頻處理性能也獲得了極大提升。

具體地,將視頻圖像的離散余弦變換編碼特點(diǎn)及相關(guān)的Zigzag分布特征信息引入MapReduce模型的拷貝過程中具體地包括:

將每個(gè)視頻圖像的16×16塊按Zigzag順序劃分為16個(gè)4×4塊;

將每個(gè)4×4塊采用Zigzag映射方式形成B(i,0)、B(i,1)、......、B(i,15),其中,B表示塊,i表示所述塊中第i個(gè)4×4塊;

將16個(gè)4×4塊相對(duì)應(yīng)的數(shù)據(jù)采用Map過程映射到16個(gè)對(duì)應(yīng)的Reduce端以形成塊B(i,j),每一所述塊B(i,j)中具有16個(gè)數(shù)據(jù)。

具體地,將行程編碼技術(shù)引入MapReduce模型的合并過程中具體包括:

采用行程編碼技術(shù)將每個(gè)塊B(i,j)中的16個(gè)數(shù)據(jù)合并為新的第j個(gè)Block。

通過以下的描述并結(jié)合附圖,本發(fā)明將變得更加清晰,這些附圖用于解釋本發(fā)明的實(shí)施例。

附圖說明

圖1為現(xiàn)有的MapReduce過程示意圖。

圖2為Zigzag映射過程示意圖。

圖3為本發(fā)明Hadoop中基于Zigzag的MapReduce數(shù)據(jù)處理方法的主流程圖。

圖4為本發(fā)明方法一實(shí)施例的流程圖。

圖5為本發(fā)明MapReduce過程的示意圖。

具體實(shí)施方式

現(xiàn)在參考附圖描述本發(fā)明的實(shí)施例,附圖中類似的元件標(biāo)號(hào)代表類似的元件。

為了更好地闡述本發(fā)明,先對(duì)其所涉及的基本技術(shù)做如下介紹:

(1)行程編碼技術(shù)

其基本原理是:用一個(gè)符號(hào)值或串長代替具有相同值的連續(xù)符號(hào)(連續(xù)符號(hào)構(gòu)成了一段連續(xù)的“行程”,行程編碼因此而得名),使符號(hào)長度少于原始數(shù)據(jù)的長度。例如:999999777775500000,行程編碼為:(9,6)(7,5)(5,2)(3,4)(0,5)。可見,行程編碼的位數(shù)遠(yuǎn)遠(yuǎn)少于原始字符串的位數(shù)。

(2)Zigzag映射技術(shù)

在JPEG、MEPG、H.26X等視頻圖像編碼中,普遍采用了離散余弦變換(DCT)變換編碼算法,將圖像從像素域變換到頻率域。由于一般視頻圖像都存在很多冗余和相關(guān)性,所以DCT轉(zhuǎn)換到頻率域之后,只有很少的一部分頻率分量的系數(shù)才不為0,大部分系數(shù)都為0(或者說接近于0),這樣就可以進(jìn)行高效的編碼,以達(dá)到壓縮的目的。DCT變換以Block(塊)為單位,塊大小可定義為M×N,通常具有4×4、8×8、16×16三種塊大小。以8×8塊為例,如圖2所示,通過DCT變換得到的系數(shù)矩陣圖將具體如下特征:從左上角依次到右下角,頻率越來越高,左上角的值比較大,到右下角的值就很小很小了,而且絕大部分均為0或接近于0。換句話說,圖像的能量幾乎都集中在左上角這個(gè)地方的低頻系數(shù)上面。

在這種背景下,采用Zigzag映射和行程編碼技術(shù)可以極大地提升圖像編碼效率,也是目前圖像編碼普通采用的編碼方式。

因此,基于上述技術(shù),本發(fā)明的工作原理是:(Discrete Cosine Transform)變換編碼的結(jié)構(gòu)特點(diǎn),如JPEG、MEPG、H.26X等,通過引入Zigzag映射和行程編碼技術(shù),以改進(jìn)MapReduce模型的核心過程——Map、拷貝及合并過程。

具體地,請(qǐng)參考圖3,本發(fā)明的方法主要包括:

S301,將視頻圖像的離散余弦變換編碼特點(diǎn)及相關(guān)的Zigzag分布特征信息引入MapReduce模型的拷貝過程中;

S302,將行程編碼技術(shù)引入MapReduce模型的合并過程中;

S303,對(duì)合并后的數(shù)據(jù)進(jìn)行Reduce處理。

具體地,再請(qǐng)參考圖4及圖5,在本發(fā)明的一優(yōu)選實(shí)施例中,該方法具體包括:

S401,將每個(gè)視頻圖像16×16Block塊按Zigzag順序(如圖2)分為16個(gè)4×4塊。

S402,針對(duì)每個(gè)4×4塊,采用Zigzag映射方式形成B(i,0)、B(i,1)、......、B(i,15),其中,i表示Block中第i個(gè)4×4塊。

S403,采用Map過程將16個(gè)4×4塊相對(duì)應(yīng)數(shù)據(jù)映射到16個(gè)對(duì)應(yīng)的Reduce端。由于圖像的DCT變換特點(diǎn),B(i,j)(任一個(gè)block中,j取值不變)中的16個(gè)數(shù)據(jù)具有很強(qiáng)的相關(guān)性。

S404,在合并過程中,采用行程編碼技術(shù),將每個(gè)B(i,j)(任一個(gè)block中,j取值不變)中的16個(gè)強(qiáng)相關(guān)性數(shù)據(jù)合并為新的第j個(gè)Block。

S405,對(duì)合并后的數(shù)據(jù)做Reduce處理。

從以上描述可以看出,與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):考慮了圖像的DCT變換特點(diǎn)及相關(guān)Zigzag分布特征信息,其拷貝的數(shù)據(jù)量大小完全可控,拷貝環(huán)節(jié)內(nèi)存不易溢出,隨后采用行程編碼合并后,Reduce過程中的硬盤IO訪問次數(shù)將大大地減少,同時(shí)MapReduce視頻處理性能也獲得了極大提升。

此外,就本發(fā)明的技術(shù)方案,還做了相關(guān)的實(shí)驗(yàn)比較。具體地,在進(jìn)行試驗(yàn)時(shí),采用的實(shí)驗(yàn)環(huán)境為:Hadoop-1.2.1,Ubuntu 14.04,聯(lián)想四核CPU,主頻2.6GHz,內(nèi)存8G,硬盤512G。所得到的實(shí)驗(yàn)結(jié)果為:實(shí)驗(yàn)以運(yùn)行時(shí)間作為觀察變量,為了保證實(shí)驗(yàn)的準(zhǔn)確度,實(shí)驗(yàn)中以H.264標(biāo)準(zhǔn)視頻格式作為測試視頻,每幀為704×576像素(D1),并將Map和Reduce數(shù)量均設(shè)為16。取128M大小的H.264標(biāo)準(zhǔn)視頻進(jìn)行測試,與傳統(tǒng)MapReduce過程相比較,該方法普遍可以提升視頻處理速度5-20倍左右。

以上結(jié)合最佳實(shí)施例對(duì)本發(fā)明進(jìn)行了描述,但本發(fā)明并不局限于以上揭示的實(shí)施例,而應(yīng)當(dāng)涵蓋各種根據(jù)本發(fā)明的本質(zhì)進(jìn)行的修改、等效組合。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1