專利名稱:碎片數(shù)據(jù)類型的識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計(jì)算機(jī)硬盤或其他可移動存儲介質(zhì)的磁盤碎片數(shù)據(jù)的類型或內(nèi)存鏡像中碎片數(shù)據(jù)類型的識別方法,特別是涉及基于字節(jié)頻率分布的碎片數(shù)據(jù)類型的識別方法
背景技術(shù):
磁盤的簇或塊由一個或多個扇區(qū)組成,扇區(qū)是磁盤最小的物理存儲單元,而簇是操作系統(tǒng)分配的最小單元,磁盤的簇通常為多個扇區(qū),例如有2、4、8、16、32、64等多個扇區(qū),每個簇只能由一個文件占用,即使這個文件中只有幾個字節(jié),也決不允許兩個以上的文件共用一個簇,否則會造成數(shù)據(jù)的混亂。其中,扇區(qū)是物理的,而簇是邏輯的,簇可以由操作系統(tǒng)改變,形成簇便于系統(tǒng)管理。文件系統(tǒng)在存儲數(shù)據(jù)到磁盤時以簇或塊為單位,分散保存到整個磁盤的不同地方,在現(xiàn)有技術(shù)中,將這些分散保存到磁盤的不同地方一個文件的不同部分稱為文件碎片。這些文件碎片會導(dǎo)致系統(tǒng)性能降低,使得運(yùn)行速度下降,因而,通過傳統(tǒng)的磁盤碎片整理程序來處理碎片,磁盤碎片整理程序可以分析硬盤中的磁盤碎片,移動并合并文件碎片,使每個文件都可以占用硬盤上單獨(dú)而連續(xù)的儲存空間,從而提高磁盤使用空間的使用率,提高磁盤讀取文件的速度。在磁盤中除了存在上述傳統(tǒng)意義上的文件碎片外,還存在著另一種數(shù)據(jù),即存在于未分配簇或塊中的數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生通常是由于在磁盤使用一段時間后,反復(fù)地復(fù)制、生成和刪除文件造成的。例如,文件被刪除后,但是該文件的部分實(shí)際內(nèi)容仍然存儲在該空間中。這類數(shù)據(jù)具有不完整、易被覆蓋的特點(diǎn)。以刪除文件的操作為例,文件被刪除后,原來存儲該文件的空間被標(biāo)識為“未分配空間”,磁盤中的磁盤文件系統(tǒng)在回收使用未分配空間過程中,會將新內(nèi)容寫入這部分區(qū)域。然而實(shí)際上,此未分配空間還存有原來被刪除的文件的部分內(nèi)容,在將新內(nèi)容寫入該空間時,使得原已存在的數(shù)據(jù)信息被新的數(shù)據(jù)信息所覆蓋。盡管這類數(shù)據(jù)通常是不完整的、易被覆蓋的,但是這類數(shù)據(jù)在提取并重構(gòu)后可以得到較為完整的內(nèi)容,從而作為電子證據(jù)來使用。為了清楚地說明本發(fā)明,在本發(fā)明中,將這種保存在磁盤中未分配簇或塊中的數(shù)據(jù)定義為碎片數(shù)據(jù)。另外,有什么類型的文件,就存在對應(yīng)類型的碎片數(shù)據(jù),碎片數(shù)據(jù)的類型識別是文件重組或文件還原的一個基礎(chǔ),因此,本發(fā)明基于扇區(qū)512B為單位,定義碎片數(shù)據(jù)類型是指以512B為單位的碎片數(shù)據(jù)所代表的數(shù)據(jù)的類型。通過上述分析可見,所述碎片數(shù)據(jù)在形成電子證據(jù)方面起著重要的作用,而對碎片數(shù)據(jù)類型的識別可以提高后續(xù)的文件重組工作的識別率,并降低相應(yīng)的計(jì)算量。然而,目前并沒有任何現(xiàn)有技術(shù)可以對所述的碎片數(shù)據(jù)進(jìn)行分析和利用,對碎片數(shù)據(jù)類型進(jìn)行識別。
發(fā)明內(nèi)容
本發(fā)明為了解決上述問題而提供一種碎片數(shù)據(jù)類型的識別方法,用以識別碎片數(shù)據(jù)的類型,為后續(xù)的碎片數(shù)據(jù)重組工作提供基礎(chǔ)。為了解決上述技術(shù)問題,本發(fā)明提供了如下技術(shù)方案一種碎片數(shù)據(jù)類型的識別方法,包括以下步驟步驟I,提取待測試碎片數(shù)據(jù)X的字節(jié)頻率分布F(X);其中,F(xiàn)(x) = {f0, fi··· fi*··f255},fi為以扇區(qū)為單位的碎片數(shù)據(jù)中字節(jié)值i出現(xiàn)的次數(shù);步驟2,通過公式(1)計(jì)算待測試碎片數(shù)據(jù)X與某一樣本S之間字節(jié)頻率分布的相似度Tx,
權(quán)利要求
1.一種碎片數(shù)據(jù)類型的識別方法,其特征在于包括以下步驟 步驟I,提取待測試碎片數(shù)據(jù)X的字節(jié)頻率分布F(X);其中,F(xiàn)(X) = {fo,^···Ti--^f255I,も為以扇區(qū)為單位的碎片數(shù)據(jù)中字節(jié)值i出現(xiàn)的次數(shù); 步驟2,通過公式(I)計(jì)算待測試碎片數(shù)據(jù)X與某一祥本S之間字節(jié)頻率分布的相似度
2.根據(jù)權(quán)利要求I所述的碎片數(shù)據(jù)類型的識別方法,其特征在于還包括步驟4, 步驟4,當(dāng)所述待測試碎片數(shù)據(jù)X與某一祥本S之間字節(jié)頻率分布的相似度Tx落入一已知數(shù)據(jù)類型Ti的相似度的范圍內(nèi)吋,進(jìn)ー步判斷碎片數(shù)據(jù)X中是否存在δ χ,如果存在,則確定是否滿足Sx e Ir如果滿足,并且,如果i = j,則判定所述測試碎片數(shù)據(jù)χ屬于已知數(shù)據(jù)類型Ti代表的類型; 其中,S x為所述某一文件類型的結(jié)構(gòu)特征,Tj為未知類型數(shù)據(jù)的結(jié)構(gòu)特征的集合。
3.根據(jù)權(quán)利要求I或2所述的碎片數(shù)據(jù)類型的識別方法,其特征在于還包括步驟5, 步驟5,當(dāng)步驟3中的所述待測試碎片數(shù)據(jù)χ與某一祥本S之間字節(jié)頻率分布的相似度Tx落入一已知數(shù)據(jù)類型Ti的相似度的范圍內(nèi)的相似度小于預(yù)定范圍時,或者步驟4中的i幸j時,判斷所述待測碎片數(shù)據(jù)所在的數(shù)據(jù)塊內(nèi)的其他碎片數(shù)據(jù)的相似度落入所述已知數(shù)據(jù)類型Ti的范圍內(nèi)的數(shù)量是否達(dá)到預(yù)定數(shù)量,如果達(dá)到,則判定所述碎片數(shù)據(jù)χ屬于數(shù)據(jù)類型Ti代表的類型,否則判定所述碎片數(shù)據(jù)χ無法識別。
4.根據(jù)權(quán)利要求I所述的碎片數(shù)據(jù)類型的識別方法,其特征在于在步驟I之前包括如下步驟 步驟A :提取樣本模型S,確定各種文件類型的碎片數(shù)據(jù)與所述樣本模型S之間的相似度。
5.根據(jù)權(quán)利要求所述的碎片數(shù)據(jù)類型的識別方法,其特征在于在步驟I之前包括如下步驟 步驟B:提取各種文件類型的結(jié)構(gòu)特征δ,其中,δ = {δ17 δ^·· δ?!ぁ?δπ},表示δ共有m種文件類型的結(jié)構(gòu)特征。
6.根據(jù)權(quán)利要求I所述的碎片數(shù)據(jù)類型的識別方法,其特征在于所述的碎片數(shù)據(jù)包括各種磁盤中的碎片數(shù)據(jù)和內(nèi)存中的碎片數(shù)據(jù)。
7.根據(jù)權(quán)利要求3所述的碎片數(shù)據(jù)類型的識別方法,其特征在于所述待測碎片數(shù)據(jù)所在數(shù)據(jù)塊的數(shù)量為25-28塊。
8.根據(jù)權(quán)利要求3所述的碎片數(shù)據(jù)類型的識別方法,其特征在于所述的預(yù)定數(shù)量為占所述待測碎片數(shù)據(jù)所在數(shù)據(jù)塊數(shù)量的80%以上的數(shù)量。
全文摘要
本發(fā)明提供了一種碎片數(shù)據(jù)類型的識別方法,包括以下步驟首先,提取待測試碎片數(shù)據(jù)x的字節(jié)頻率分布F(x);而后,通過公式計(jì)算待測試碎片數(shù)據(jù)x與某一樣本S之間字節(jié)頻率分布的相似度Tx,接著,判定所述待測試碎片數(shù)據(jù)x與某一樣本S之間字節(jié)頻率分布的相似度Tx是否落入已知數(shù)據(jù)類型T中的一種碎片數(shù)據(jù)類型Ti的相似度的范圍內(nèi),如果落入,則判定所述測試碎片數(shù)據(jù)x屬于已知數(shù)據(jù)類型Ti代表的類型;如果沒有落入任何一個已知數(shù)據(jù)類型T的范圍內(nèi),則判定所述待測試碎片數(shù)據(jù)x的類型無法識別。本發(fā)明提供的方法可以對碎片數(shù)據(jù)的類型進(jìn)行識別,為后續(xù)的碎片數(shù)據(jù)重組工作提供基礎(chǔ),從而可以使得能夠根據(jù)碎片數(shù)據(jù)恢復(fù)出具有一定內(nèi)容的文件,為司法取證提供技術(shù)支持。
文檔編號G06F12/02GK102622302SQ20111003112
公開日2012年8月1日 申請日期2011年1月26日 優(yōu)先權(quán)日2011年1月26日
發(fā)明者劉寶旭, 楊澤明, 湯燕彬 申請人:中國科學(xué)院高能物理研究所