一種基于K?means聚類的全脈沖數(shù)據(jù)無損壓縮方法與流程

文檔序號(hào)：12277812閱讀：1428來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子電路裝置的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)壓縮領(lǐng)域，具體涉及到一種基于K-means聚類的數(shù)據(jù)壓縮方法，實(shí)現(xiàn)對(duì)電子對(duì)抗領(lǐng)域全脈沖數(shù)據(jù)的無損壓縮。

背景技術(shù)：

在現(xiàn)代軍事中，電子對(duì)抗在戰(zhàn)略攻防中起著至關(guān)重要的作用。電子對(duì)抗是敵我雙方采取各種電子措施和行動(dòng)，用以削弱或破壞對(duì)方電子設(shè)備使用效能、保障己方電子設(shè)備發(fā)揮效能的一種作戰(zhàn)方式。電子對(duì)抗偵察是電子對(duì)抗的重要組成部分，優(yōu)良的電子對(duì)抗偵察技術(shù)是電子戰(zhàn)中贏得先機(jī)的關(guān)鍵所在。

全脈沖數(shù)據(jù)是將偵察機(jī)中頻脈沖所包含的關(guān)鍵特征參數(shù)以二進(jìn)制進(jìn)行存儲(chǔ)的一種數(shù)據(jù)類型。全脈沖數(shù)據(jù)的特點(diǎn)為：(1)每個(gè)數(shù)據(jù)點(diǎn)包含五個(gè)參數(shù)，分別是脈沖到達(dá)時(shí)間(TOA)、脈沖寬度(PW)、脈沖幅值(PA)、脈沖載頻(CF)和脈沖到達(dá)角(DOA)；(2)數(shù)據(jù)以二進(jìn)制格式表示，每個(gè)參數(shù)占用4個(gè)字節(jié)；(3)全脈沖數(shù)據(jù)量很大，不便于存儲(chǔ)和傳輸；(4)全脈沖數(shù)據(jù)由于包含來自同一雷達(dá)發(fā)射源的大量重復(fù)脈沖的特征參數(shù)值，這些數(shù)據(jù)具有較強(qiáng)的相關(guān)性，因此存在大量的冗余。由于全脈沖數(shù)據(jù)量大，有必要對(duì)其進(jìn)行壓縮，以降低數(shù)據(jù)的大小，便于存儲(chǔ)和傳輸；并且因?yàn)閿?shù)據(jù)存在冗余，所以能夠被壓縮。全脈沖數(shù)據(jù)包含偵察機(jī)中頻脈沖的關(guān)鍵特征信息，壓縮和解壓過程不能丟失任何信息，因此需要采用無損壓縮。

聚類分析作為統(tǒng)計(jì)學(xué)的一個(gè)分支，主要用于數(shù)據(jù)挖掘領(lǐng)域。聚類算法包括K-means聚類、FCM聚類、Canopy聚類等等。K-means聚類算法易于描述，具有速度快且適用于處理大規(guī)模數(shù)據(jù)等優(yōu)點(diǎn)。本發(fā)明首次提出將K-means聚類算法用于全脈沖數(shù)據(jù)的無損壓縮。全脈沖數(shù)據(jù)記錄了來自多個(gè)發(fā)射源的不同時(shí)刻的脈沖數(shù)據(jù)參數(shù)。來自同一發(fā)射源的多個(gè)脈沖，其特征參數(shù)值差異較小，具有很強(qiáng)的相關(guān)性，通過K-means聚類將其歸于同一類簇中。對(duì)每個(gè)類簇中的數(shù)據(jù)，用數(shù)據(jù)點(diǎn)相對(duì)中心點(diǎn)的差值替代原數(shù)據(jù)值，得到的差值與原值相比數(shù)值較小。對(duì)差值編碼后，輸出碼流占用的信息位較少，從而達(dá)到數(shù)據(jù)壓縮的目的。

技術(shù)實(shí)現(xiàn)要素：

目前在數(shù)據(jù)壓縮領(lǐng)域，通用的無損壓縮算法(例如LZ系列編碼)通常針對(duì)文本數(shù)據(jù)進(jìn)行壓縮，而對(duì)二進(jìn)制格式的數(shù)據(jù)源壓縮效果并不好。本發(fā)明提出一種基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮方法，該方法壓縮效果好，可靠性高，能較好地將全脈沖數(shù)據(jù)進(jìn)行無損壓縮。

本發(fā)明采用的技術(shù)方案為先將數(shù)據(jù)做K-means聚類處理，數(shù)據(jù)相似性較大的點(diǎn)形成同一類簇，在每個(gè)類簇中保留中心點(diǎn)的數(shù)值，并用數(shù)據(jù)點(diǎn)與中心點(diǎn)的差值代替原數(shù)據(jù)，處理后差值會(huì)比原數(shù)據(jù)值小很多。然后將差值先做行程編碼，再做區(qū)間編碼。由于編碼后的碼流占用的信息位較少，能夠取得較好的壓縮效果。

為實(shí)現(xiàn)上述目的，本發(fā)明主要包括以下步驟：

步驟一：對(duì)包含偵察機(jī)中頻數(shù)據(jù)關(guān)鍵參數(shù)信息的全脈沖數(shù)據(jù)進(jìn)行K-means聚類，得到多個(gè)類簇及每個(gè)類簇的中心點(diǎn)。

K-means聚類需要事先指定聚類數(shù)K。一般情況下，聚類數(shù)K取值在之間，其中n為數(shù)據(jù)集的樣本個(gè)數(shù)。實(shí)際應(yīng)用中，真實(shí)的聚類數(shù)未知。經(jīng)驗(yàn)表明，聚類數(shù)K在大于真實(shí)值情況下，壓縮效果變化不大，而在聚類數(shù)K小于真實(shí)值時(shí)，壓縮效果較差。一般電子戰(zhàn)中，目標(biāo)個(gè)數(shù)(即聚類數(shù))在二十以內(nèi)，所以本發(fā)明選擇聚類數(shù)此種K值選擇方法在時(shí)間復(fù)雜度與壓縮效果上都有良好表現(xiàn)。

步驟二：將每個(gè)類簇內(nèi)部所有數(shù)據(jù)點(diǎn)與該類簇中心點(diǎn)做差，得到差值數(shù)據(jù)。

步驟三：將差值做行程編碼。

步驟四：將行程編碼后的數(shù)據(jù)做區(qū)間編碼。

步驟五：將區(qū)間編碼后的碼流與中心值一起輸出得到壓縮結(jié)果。

采用本發(fā)明提出的技術(shù)方案能夠獲得以下有益效果：本發(fā)明能夠?qū)θ}沖數(shù)據(jù)進(jìn)行無損壓縮，并且以較小的時(shí)間開銷獲得2倍左右的壓縮比。本發(fā)明相對(duì)于直接將數(shù)據(jù)進(jìn)行編碼而不進(jìn)行K-means聚類預(yù)處理而言，可以獲得約20％左右的壓縮倍數(shù)提升。這是因?yàn)楸景l(fā)明提出的基于K-means聚類的無損壓縮方法有以下特點(diǎn)：1)K-means聚類對(duì)高維數(shù)據(jù)有較好的相關(guān)性，并且計(jì)算速度較快；2)聚類中采用預(yù)先確定聚類數(shù)目的處理方法，以較小的時(shí)間開銷獲得較好的壓縮效果；3)對(duì)差值數(shù)據(jù)進(jìn)行編碼與直接對(duì)原始數(shù)據(jù)編碼相比，更有利于提高編碼效率。

附圖說明

圖1是基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮流程圖。

圖2是K-means聚類算法流程圖。

圖3是K-means聚類效果示意圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加明確，下面詳述基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮算法的具體實(shí)施步驟。

如圖1所示，基于K-means聚類的全脈沖數(shù)據(jù)無損壓縮方法包括以下步驟：

步驟一：對(duì)輸入的全脈沖數(shù)據(jù)進(jìn)行K-means聚類變換，將數(shù)據(jù)源X重新組合成一系列類簇的集合C＝{C₁,C₂,……，C_K}。其中，C₁∪C₂∪…∪C_K＝X，i≠j；i,j＝1,2,……,K。

K-means聚類的具體流程如圖2所示：

1)輸入數(shù)據(jù)源X包含n個(gè)數(shù)據(jù)點(diǎn){x₁，x₂，…，x_n}，每個(gè)數(shù)據(jù)點(diǎn)為包含p個(gè)特征參數(shù)的

p維數(shù)據(jù)。

2)隨機(jī)選取K個(gè)數(shù)據(jù)點(diǎn)作為各個(gè)類簇的初始聚類中心，分別計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到K個(gè)聚

類中心的歐氏距離，若滿足某個(gè)數(shù)據(jù)點(diǎn)與某一類簇中心的距離小于其與所有其他聚類

中心的距離，則把該數(shù)據(jù)點(diǎn)劃分到這一聚類中心所代表的類簇中，得到初始K個(gè)聚

類劃分；

3)重新計(jì)算K個(gè)新的聚類中心：

其中，μ_i表示第i個(gè)類簇的中心點(diǎn)，N_i表示第i個(gè)類簇中的數(shù)據(jù)點(diǎn)個(gè)數(shù)，x_ij表示第i

個(gè)類簇中第j個(gè)數(shù)據(jù)點(diǎn)；

4)計(jì)算每個(gè)類簇?cái)?shù)據(jù)點(diǎn)與其中心點(diǎn)的歐氏距離，求出各類簇總的距離和(也即偏差)J。

具體計(jì)算公式如下：

5)不斷重復(fù)步驟3)和4)的計(jì)算，對(duì)算法的收斂性進(jìn)行判斷:聚類的目標(biāo)是使各類簇總

的距離和，即偏差J達(dá)到最小。若經(jīng)過反復(fù)迭代后求得的偏差J的變化小于某一預(yù)設(shè)

精度值ε，(假設(shè)ε＝10^-6)，則表明算法收斂，計(jì)算結(jié)束，否則返回2)重新計(jì)算。

K-means聚類效果示意圖如圖3所示。隨機(jī)生成150個(gè)二維數(shù)據(jù)，每50個(gè)隨機(jī)數(shù)據(jù)為一類，均值分別為[-1,-1]，[1,1]，[1,-1]，方差均為[1,1]。經(jīng)過K-means聚類處理后，數(shù)據(jù)被準(zhǔn)確分為三類，每類的中心點(diǎn)與其均值非常接近，聚類效果較好。

步驟二：經(jīng)過K-means聚類算法處理過的數(shù)據(jù)形成K個(gè)類簇，對(duì)于每個(gè)類簇，求數(shù)據(jù)點(diǎn)與中心點(diǎn)的差值。

步驟三：將每個(gè)點(diǎn)的差值數(shù)據(jù)看成字節(jié)流，對(duì)其進(jìn)行行程編碼。

步驟四：將行程編碼后的數(shù)據(jù)進(jìn)行區(qū)間編碼。

為了獲得較好的壓縮效果，本發(fā)明采用了區(qū)間編碼算法。區(qū)間編碼是將所輸入數(shù)據(jù)映射到某一整數(shù)區(qū)間內(nèi)，最終輸出一個(gè)屬于該區(qū)間的整數(shù)作為輸出編碼。區(qū)間編碼能夠?qū)崿F(xiàn)比霍夫曼編碼一個(gè)符號(hào)一位這個(gè)壓縮上限還要高的壓縮率。

區(qū)間編碼主要包括以下步驟：

1)以字節(jié)為單位對(duì)行程編碼后的數(shù)據(jù)進(jìn)行讀取，每個(gè)字節(jié)數(shù)據(jù)看作一個(gè)符號(hào)，統(tǒng)計(jì)符號(hào)的種類數(shù)N，作為所有符號(hào)的總計(jì)頻度T的初始值。

2)設(shè)定一個(gè)初始整數(shù)區(qū)間[L,H]，并初始化區(qū)間的上、下界：上界H＝0xf0000000，下界L＝0x00000000，則初始區(qū)間的范圍R＝0xf0000000。另外，設(shè)定區(qū)間正規(guī)化的最小范圍R_min＝0x00010000。

3)計(jì)算不同符號(hào)所對(duì)應(yīng)的初始映射區(qū)間。根據(jù)某一符號(hào)S當(dāng)前的頻度f_s、累積頻度F_s以及所有符號(hào)的總計(jì)頻度T，計(jì)算出符號(hào)S的初始映射區(qū)間[L',H']。

符號(hào)S的累積頻度F_s是指符號(hào)值小于S的其它符號(hào)(x<S)的頻度總和，可利用公式(3)進(jìn)行計(jì)算：

初始映射區(qū)間[L',H']的上、下界H'、L'及范圍R'具體見公式(4)、(5)、(6)。其中，div表示整除運(yùn)算。

R'＝RdivT×f_s (4)

L'＝L+RdivT×F_s (5)

H'＝L'+R'-1＝L+RdivT×(F_s+f_s)-1 (6)

4)對(duì)含有多個(gè)符號(hào)的數(shù)據(jù)進(jìn)行編碼時(shí)，根據(jù)當(dāng)前輸入的符號(hào)不斷更新其映射區(qū)間。更新原則是下個(gè)輸入符號(hào)映射區(qū)間的計(jì)算是基于上個(gè)符號(hào)的映射區(qū)間進(jìn)行的。具體計(jì)算仍采用公式(4)至(6)，公式中的參數(shù)采用自適應(yīng)的方法進(jìn)行更新。即當(dāng)前輸入符號(hào)S后，其頻度f_s加1，累積頻度F_s和所有符號(hào)的總計(jì)頻度T也相應(yīng)地進(jìn)行計(jì)算更新。根據(jù)更新后的頻度f_s、累積頻度F_s以及所有符號(hào)的總計(jì)頻度T，得到更新后的符號(hào)S的映射區(qū)間[L',H']。

5)當(dāng)更新后的映射區(qū)間范圍R'<R_min(R_min表示最小區(qū)間范圍)或以字節(jié)為單位比較新區(qū)間的上、下界，當(dāng)上下界的高位字節(jié)相等時(shí)，移出相同的高位字節(jié)作為輸出碼流，并對(duì)區(qū)間進(jìn)行正規(guī)化處理。

6)按照以上步驟對(duì)所有輸入數(shù)據(jù)進(jìn)行編碼。編碼結(jié)束時(shí)，移出映射區(qū)間內(nèi)所有的位作為輸出碼流，并保存為二進(jìn)制文件。

步驟五：將區(qū)間編碼后形成的二進(jìn)制文件與中心值一起保存為輸出文件。

應(yīng)用實(shí)例：

選用一段全脈沖數(shù)據(jù)作為樣本，大小為3721KB，數(shù)據(jù)點(diǎn)個(gè)數(shù)n＝10000，每個(gè)數(shù)據(jù)點(diǎn)包含5個(gè)特征參數(shù)。數(shù)據(jù)源為6類，聚類數(shù)K選為50，經(jīng)過K-means聚類壓縮后，大小為1868KB，壓縮率為50.2％。全脈沖數(shù)據(jù)的無損壓縮效果與具體的數(shù)據(jù)樣本有密切關(guān)系，對(duì)有些全脈沖數(shù)據(jù)，壓縮率可以達(dá)到30％左右。

本發(fā)明提出的方法不限于具體實(shí)施方式中所述的實(shí)例，本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施例，只要是利用K-means聚類變換對(duì)全脈沖數(shù)據(jù)進(jìn)行無損壓縮的算法，包括實(shí)現(xiàn)相應(yīng)功能的裝置，也同樣屬于本發(fā)明的創(chuàng)新范圍，需要受到保護(hù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王宏;巫忠書;鐘洪聲;唐廣;李廷軍;
技術(shù)所有人：電子科技大學(xué);
我是此專利的發(fā)明人

上一篇：一種行列矩陣鍵盤接口電路及行列矩陣鍵盤的掃描方法與流程
上一篇：數(shù)據(jù)處理方法及裝置與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、田老師：1: 建筑節(jié)能綠色建筑能耗的模擬與檢測(EnergyPlus)；建筑碳排放和生命周期評(píng)價(jià)；城市微氣候、建筑能耗與太陽能技術(shù)的相互影響；地理信息系統(tǒng)(GIS)和空間回歸方法用于城市建筑能耗分析；不確定性、敏感性分析和機(jī)器學(xué)習(xí)方法應(yīng)用于建筑能耗分析(R)；貝葉斯方法用于城市和單體建筑能源分析 2: 過
2、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
3、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、周老師：1.智能機(jī)器人技術(shù) 2.智能檢測與控制技術(shù) 3.機(jī)構(gòu)運(yùn)動(dòng)學(xué)與動(dòng)力學(xué) 4.機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

kmeans聚類算法matlab相關(guān)技術(shù)

kmeans聚類相關(guān)技術(shù)

kmeans聚類算法相關(guān)技術(shù)

kmeans聚類算法k確定相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于K?means聚類的全脈沖數(shù)據(jù)無損壓縮方法與流程