基于動態(tài)時間規(guī)整和劃分算法的波形分類方法
【技術領域】
[0001]本發(fā)明屬于地震數據處理領域,具體涉及一種地震波形分類技術。
【背景技術】
[0002]地震波形是地震數據的基本性質,它包含了所有的定性和定量信息,如反射模式、相位、頻率和振幅等信息,是地震信息的總體特征,其動態(tài)變化蘊含了豐富的內在信息,能夠真實地反映地下結構的特征。波形分類法是最常采用的地震相分析方法,通過對地震信號波形進行分類,可以實現(xiàn)對地震相的劃分。波形分類針對含有各種波形的地震數據樣本集,通過合適的分類或者聚類方法,將樣本劃分到不同的類別,以達到區(qū)分波形樣本的目的。
[0003]波形分類技術分為聚類分析和統(tǒng)計分類。聚類分析是把從圖像或者信號中提取到的輸入特征屬性以“聚類”的形式分開,最后達到區(qū)分這些圖像或者信號的目的。聚類分析是無監(jiān)督的,不需要使用標簽信息,沒有樣本數據的先驗知識,挖掘的是樣本之間的內在聯(lián)系。統(tǒng)計分類主要是基于概率統(tǒng)計模型的方法,通過現(xiàn)實有標簽的樣本集得到各種特征屬性和內在規(guī)律作為后續(xù)的分類依據,然后再對樣本數據進行分類和識別,屬于有監(jiān)督的學習過程。
[0004]目前的波形分類技術主要基于無監(jiān)督分類算法。聚類分析不需要先驗信息,只需要輸入工區(qū)的振幅數據,就能進行波形分類,對地震相進行劃分。聚類分析的策略,是讓同一類的成員間相似性最大,同時不同類的成員間相似性最小。通常采用的相似性度量方法是計算各個波形之間的“距離”。距離計算方法不同,各個樣本之間的相似度就不同,最終的劃分結果也就隨之變化。因此,距離的計算方法在聚類分析中占有舉足輕重的地位。
[0005]在波形分類中,相似性度量通常使用歐氏距離。歐氏距離是最易于理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式,也是使用最廣泛的相似性度量方法。但是,歐氏距離存在著很明顯的缺陷,當層位不準確且未校準層位時,在沿層位截取數據之后,同相軸沒有對齊,此時如果用歐式距離計算相似性,會使原本比較相似的兩道數據距離增大,即求得的相似性比實際的相似性要小很多,從而在后續(xù)的聚類過程中,可能把原本應該聚到同一個簇的兩個樣本,分到了兩個不同的簇,從而出現(xiàn)錯誤的結果。歐氏距離對層位解釋錯誤非常敏感,而層位解釋錯誤在地震數據中是普遍存在的,尤其對于一些開發(fā)尚不成熟的工區(qū)。如果要使用歐氏距離來衡量波形的相似性,則需要另外的步驟來校正層位。
[0006]無監(jiān)督的波形分類即為聚類,聚類分析最簡單、最基本的版本是劃分。基于劃分的聚類算法是在給定η道地震數據集D以及要區(qū)分的地震相種類數k的條件下,把地震數據組織成k(k<n)個分區(qū),其中,一個分區(qū)稱為一個簇,每個簇代表一種地震相。這些簇的形成旨在優(yōu)化一個客觀劃分準則,如基于距離的相異性函數,使得根據數據集的屬性,在同一個簇中的對象是“相似的”,而不同簇中的對象是“相異的”。最著名、最常用的劃分方法有:k-means和k-medoids,這些名稱是根據選定的簇中心的方法不同來區(qū)別的。k_means算法中,每個簇的中心都用簇中所有對象的均值來表示;而k-medoids是一種基于中心點或中心對象進行劃分的算法。但現(xiàn)有的定義族的中心的方法,不能很好地代表一個族的特征。
【發(fā)明內容】
[0007]本發(fā)明所要解決的技術問題為:當存在層位解釋錯誤時,如何準確地度量地震數據之間的相似性以及在基于劃分的聚類算法中如何準確確定簇的中心;為解決所述技術問題,提出一種基于動態(tài)時間規(guī)整和劃分算法的波形分類方法,采用動態(tài)時間規(guī)整(DTff, Dynamic Time Wrapping)來求兩道地震數據之間的距離,由于使用DTW距離來度量兩道數據之間的相似性,因此在形成簇之后,采用了相應的簇中心更新算法。
[0008]本發(fā)明采用的技術方案是:基于動態(tài)時間規(guī)整和劃分算法的波形分類方法,包括以下步驟:
[0009]S1:確定地震數據樣本集;
[0010]S2:根據地震數據樣本集的地震相種類,確定地震數據樣本集的分類數目k ;
[0011]S3:從地震數據樣本集中選擇k個樣本作為初始質心;
[0012]S4:基于DTW距離,將未被選為初始質心的樣本數據分配到對應質心所在的簇;
[0013]S5:迭代地更新簇的質心;
[0014]S6:判斷是否達到迭代次數上限,是則結束,得到最終分配的k個簇;否則根據步驟S5得到的簇的更新的質心執(zhí)行步驟S4,對未被選為初始質心的樣本數據進行重新分配。
[0015]進一步地,步驟S1所述地震數據樣本集為:疊前地震數據樣本集或疊后地震數據樣本集。
[0016]更進一步地,所述疊前地震數據樣本集通過將疊前地震數據進行預處理,得到疊前地震數據樣本集,具體過程為:由每一道疊前地震數據包括m個不同的偏移距,每個偏移距下有η個米樣點;初始化若干值為0的列向量,且將每一列向量分成m'個部分,每部分長度都為n',將每一道原始地震數據的偏移距按照從小到大進行排序,依次將同一偏移距的數據存入列向量對應序號的部分;最后得到疊前地震數據樣本集;
[0017]其中,m蘭 m、,η 蘭 η、。
[0018]更進一步地,對疊前地震數據樣本集,基于DTW距離,求解最短距離時,必須滿足:起點為(1,1),終點為(m*n,m*n);且,必經過點(j*n, j*n);
[0019]其中,j為m個不同偏移距的序號,j = 1,2,……,(m-1)。
[0020]進一步地,步驟S2中所述地震數據樣本集的地震相種類,由歷史數據資料以及經驗值,通過統(tǒng)計分析得到。
[0021]進一步地,所述步驟S3具體為:
[0022]S31:從輸入的地震數據樣本集中隨機選擇一道樣本數據作為初始質心,并計初始質心個數p = 1 ;
[0023]S32:對于樣本集中,未被選為初始質心的每一道樣本數據,通過DTW距離,計算出在初始質心集合中與該道樣本數據距離最小的初始質心,并記錄下對應距離d(i);
[0024]其中,i表示樣本集中未被選為初始質心的樣本數據的序號;
[0025]S33:將由步驟S32得到的所有d(i)相加得到SUM,并生成一個屬于[0,SUM]的隨機數 Random ;
[0026]S34:執(zhí)行 Random = Random-d (i);
[0027]S35:當Random彡0,此時的i所對應的樣本數據為新的初始質心,則p = p+1,并繼續(xù)步驟S36 ;否則轉至步驟S34 ;
[0028]S36:當p = k時,得到k個初始質心,否則轉至步驟S32。
[0029]進一步地,所述步驟S4具體為:根據由步驟S3選出的k個初始質心,基于DTW距離,計算得到每一個未被選為初始質心的樣本數據與k個初始質心的最小距離,將樣本數據分配到最小距離對應初始質心所在的簇,得到k個新的簇。
[0030]進一步地,所述步驟S5具體為:
[0031]S51:遍歷簇中每一個樣本數據,與該簇質心對齊,得到該簇中各樣本數據與該簇質心對齊的點對;
[0032]S52:根據步驟S51中得到的點對,得到該簇各樣本數據與該簇質心對其的的對齊點,并將對齊點振幅相加,取平均值得到該簇新的質心;
[0033]S53:判斷是否達到第二迭代次數上限,是則結束,得到該簇更新后的質心;否則,以步驟S52得到的該簇新的質心,執(zhí)行步驟S51至步驟S52。
[0034]本發(fā)明的有益效果:本發(fā)明的基于動態(tài)時間規(guī)整和劃分算法的波形分類方法,針對存在層位解釋誤差的數據,采用動態(tài)時間規(guī)整來對齊地震數據,減小了層位解釋誤差的影響,更精確地度量了兩道地震數據之間的相似性;本發(fā)明基于劃分算法,利用簇的質心來作為簇的中心,相較于傳統(tǒng)劃分算法中定義的簇的中心,更準確,更能代表一個簇的特征;本發(fā)明將DTW距離和劃分算法相結合,形成一個完整的波形分類流程,能更好地劃分地震相。
【附圖說明】
[0035]圖1為本發(fā)明提供的序列對齊不意圖。
[0036]圖2為本發(fā)明提供的方案流程圖。
【具體實施方式】
[0037]為便于本領域技術人員理解本發(fā)明的技術內容,下面結合附圖對本
【發(fā)明內容】
進一步闡釋。
[0038]動態(tài)時間規(guī)整(DTW, Dynamic Time Wrapping)是一種衡量兩個時間序列的相似度的方法,與歐氏距離不同的是,它不僅可以比較兩個等長的時間序列之間的相似性,對于長度不同的時間序列也能比較相似性,同時還能消除序列之間的相位作用。
[0039]在波形分類中,根據層位加窗取得的數據是一道波形,由于存在層位解釋錯誤、按層位截取出來的三維數據,每一道的第一個點與實際的層位剖面距離并不相同,存在一定的相位誤差。為此,采用動態(tài)時間規(guī)整的方法來度量兩道地震波形的相似性,從而消除這種相位誤差。我們以一道數據為基準,取需要與該道計算相似性的一道作為對比道,遍歷基準道中的每一個點,按照一定的規(guī)則,在對比道中尋找與基準道中的點最相似的點。這個過程,稱為對齊。這樣不僅可以校正層位,消除相位誤差,把與實際層位剖面距離相同的點校正到同一個剖面,同時,也是一個計算相似性的過程。如圖1所示,是兩個波形C、Q對齊的例子,圖A是需要比較相似性的兩個波形,圖B是將C、Q對齊的過程,圖C是將兩個序列對齊的結果顯示。具體的DTW距離算法為現(xiàn)有的技術,因此在此處不作詳細描述。
[0040]如圖2所示為本發(fā)明方案的流程圖,本發(fā)明的基于動態(tài)時間規(guī)整和劃分算法的波形分類方法具體包括:
[0041]S1:確定地震數據樣本集;
[0042]S2:根據地震數據樣本集的地震相種類,確定地震數據樣本集的分類數目k ;
[0043]S3:從地震數據樣本集中選擇k個樣本作為初始質心;
[0044]S4:基于DTW距離,將未被選為初始質心的樣本數據分配到對應質心所在的簇;
[0045]S5:迭代地更新簇的質心;
[0046]S6:判斷是否達到迭代次數上限,是則結束,得到最終分配的k個簇;否則根據步驟S5得到的簇的更新的質心執(zhí)行步驟S4,對未被選為初始質心的樣本數據進行重新分配。
[0047]步驟S1所述的地震數據樣本集為:疊前地震數據樣本集或疊后地震數據樣本集;疊后地震數據即為樣本集格式名不需進行數據預處理,直接進行后續(xù)處理。
[0048]所述疊前地震數據樣本集通過將疊前地震數據進行預處理,得到疊前地震