本發(fā)明涉及油田開采
技術(shù)領(lǐng)域:
:,尤其涉及一種新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法。
背景技術(shù):
::目前,我國(guó)大多數(shù)油田采用的是注水方式開采,長(zhǎng)期的注水開采方式,使很多油田的含水量很高。錄井技術(shù)是油氣勘探開發(fā)活動(dòng)中最基本的技術(shù),是發(fā)現(xiàn)、評(píng)估油氣藏最及時(shí)、最直接的手段。油藏地球化學(xué)錄井技術(shù)是應(yīng)用油藏地球化學(xué)的方法,通過特定的儀器檢測(cè)巖石中與油氣密切相關(guān)的烴信息,評(píng)價(jià)生油巖和儲(chǔ)集巖,判斷儲(chǔ)注水開發(fā)區(qū)儲(chǔ)層的水淹程度,尋找剩余油,為油田的勘探開發(fā)提供地質(zhì)依據(jù)。通過熱解氣相色譜技術(shù)對(duì)固體樣品進(jìn)行檢測(cè),可以獲得包含c13-c37之間的蒸發(fā)烴氣相色譜圖,每幅色譜圖由40000個(gè)時(shí)間序列數(shù)據(jù)組成,色譜圖具有復(fù)雜、非線性、含噪聲等特性。國(guó)內(nèi)外的工程師對(duì)油氣層的識(shí)別也提出了多種解決方法,其中包括原始數(shù)據(jù)法、圖版解釋法、參數(shù)法、圖譜比較法等綜合評(píng)價(jià)方法。然而,從識(shí)別所花費(fèi)的時(shí)間和效果方面來說都不是很理想。因此,人工對(duì)油氣層進(jìn)行檢測(cè)主要是依賴錄井解釋工程師的實(shí)際經(jīng)驗(yàn),存在著很大的偶然性和誤差。技術(shù)實(shí)現(xiàn)要素:為解決上述問題,本發(fā)明提供一種新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法,至少部分解決上述技術(shù)問題。為此,本發(fā)明提供一種新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法,包括:獲取油氣層的氣相色譜圖數(shù)據(jù);根據(jù)曲線擬合法獲取所述氣相色譜圖數(shù)據(jù)的特征值,以實(shí)現(xiàn)所述氣相色譜圖數(shù)據(jù)的降維和降噪;對(duì)所述氣相色譜圖數(shù)據(jù)的特征值進(jìn)行歸一化處理,以形成測(cè)量樣本;根據(jù)預(yù)設(shè)的無模型貝葉斯分類器分類預(yù)測(cè)算法對(duì)所述測(cè)量樣本對(duì)應(yīng)的類別進(jìn)行預(yù)測(cè),以獲得所述測(cè)量樣本對(duì)應(yīng)的類別;根據(jù)所述測(cè)量樣本對(duì)應(yīng)的類別對(duì)所述油氣層進(jìn)行分析,以獲得所述油氣層的水淹程度和開采價(jià)值??蛇x的,所述無模型貝葉斯分類器分類預(yù)測(cè)算法如下:其中p(y=cj)=φj,φj∈[0,1],1{*}是指示函數(shù);所述測(cè)量樣本x=[x1...xn]t,所述測(cè)量樣本對(duì)應(yīng)的類別為y=[y1…yn]tyk∈c={c1,c2,……,cq},每個(gè)測(cè)量樣本xk對(duì)應(yīng)的類別為yk??蛇x的,所述根據(jù)預(yù)設(shè)的無模型貝葉斯分類器分類預(yù)測(cè)算法對(duì)所述測(cè)量樣本對(duì)應(yīng)的類別進(jìn)行預(yù)測(cè)的步驟之前包括:根據(jù)貝葉斯算法形成樸素貝葉斯分類器;根據(jù)最近鄰算法形成概率估計(jì)器;根據(jù)所述樸素貝葉斯分類器和所述概率估計(jì)器形成新型無模型貝葉斯分類器。本發(fā)明具有下述有益效果:本發(fā)明提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法之中,首先通過曲線擬合方法有效地實(shí)現(xiàn)對(duì)氣相色譜圖數(shù)據(jù)的降維和降噪,進(jìn)而提取氣相色譜圖數(shù)據(jù)的特征值,從而縮短分類模型的訓(xùn)練時(shí)間而且能夠獲得更好的泛化能力。本發(fā)明使用新型無模型貝葉斯分類算法建立識(shí)別模型,這樣可以有效避免由于訓(xùn)練樣本不滿足條件獨(dú)立性而造成的模型泛化性能下降問題。本發(fā)明提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法通過氣相色譜圖的測(cè)量客觀展現(xiàn)了不同條件下油氣儲(chǔ)層的水淹程度,指明了各油氣儲(chǔ)層的水淹程度與開采價(jià)值,有助于石油鉆探公司進(jìn)一步提高開采效率和降低成本。因此,本發(fā)明提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法具有有效性和適用性。附圖說明圖1為本發(fā)明實(shí)施例一提供的一種新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法的流程圖;圖2為實(shí)施例一中傅里葉函數(shù)擬合稠油強(qiáng)水淹層色譜圖的示意圖;圖3為實(shí)施例一中重質(zhì)油強(qiáng)水淹層色譜圖面積指標(biāo)分區(qū)的示意圖;圖4為實(shí)施例一中高斯函數(shù)擬合輕質(zhì)油差油層色譜圖的示意圖;圖5為實(shí)施例一中樸素貝葉斯分類器、高斯概率分布貝葉斯分類器、決策樹分類器與新型無模型貝葉斯分類器的分類結(jié)果比較示意圖;圖6為實(shí)施例一中knn算法、svm算法、adaboost算法與mfbc算法的分類結(jié)果比較示意圖。具體實(shí)施方式為使本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對(duì)本發(fā)明提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法進(jìn)行詳細(xì)描述。實(shí)施例一圖1為本發(fā)明實(shí)施例一提供的一種新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法的流程圖。如圖1所示,所述新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法包括:步驟1001、獲取油氣層的氣相色譜圖數(shù)據(jù)。步驟1002、根據(jù)曲線擬合法獲取所述氣相色譜圖數(shù)據(jù)的特征值,以實(shí)現(xiàn)所述氣相色譜圖數(shù)據(jù)的降維和降噪。步驟1003、對(duì)所述氣相色譜圖數(shù)據(jù)的特征值進(jìn)行歸一化處理,以形成測(cè)量樣本。步驟1004、根據(jù)預(yù)設(shè)的無模型貝葉斯分類器分類預(yù)測(cè)算法對(duì)所述測(cè)量樣本對(duì)應(yīng)的類別進(jìn)行預(yù)測(cè),以獲得所述測(cè)量樣本對(duì)應(yīng)的類別。步驟1005、根據(jù)所述測(cè)量樣本對(duì)應(yīng)的類別對(duì)所述油氣層進(jìn)行分析,以獲得所述油氣層的水淹程度和開采價(jià)值。本實(shí)施例中,根據(jù)貝葉斯算法形成樸素貝葉斯分類器,根據(jù)最近鄰算法形成概率估計(jì)器,根據(jù)所述樸素貝葉斯分類器和所述概率估計(jì)器形成新型無模型貝葉斯分類器(mfbc)。本實(shí)施例提供的樸素貝葉斯分類器(nbc)是基于貝葉斯理論的一種分類器,已廣泛應(yīng)用于文本分類、圖像分類、時(shí)間序列分類等多個(gè)領(lǐng)域。然而,nbc假設(shè)樣本的各個(gè)屬性之間都是相互獨(dú)立的,因此屬性之間的相互依賴信息沒有被利用。當(dāng)數(shù)據(jù)樣本中存在著相互依賴的屬性時(shí),nbc就會(huì)呈現(xiàn)不足,分類正確率降低。最近鄰(nn)規(guī)則是模式分類中最簡(jiǎn)單的算法之一,當(dāng)分類沒有重疊時(shí),nn規(guī)則被證明可以漸進(jìn)地趨向于最優(yōu)。為了能夠確定屬性之間的關(guān)聯(lián)關(guān)系,本實(shí)施例基于nn規(guī)則形成概率估計(jì)器,并將上述概率器應(yīng)用在樸素貝葉斯分類器中,從而形成新型無模型貝葉斯分類器。曲線擬合(cf)是指用連續(xù)曲線近似地比擬平面上一組離散點(diǎn)所表示的坐標(biāo)之間的函數(shù)關(guān)系,是一種用解析表達(dá)式逼近離散數(shù)據(jù)的方法。復(fù)雜的氣相色譜圖,實(shí)際是通過采樣、實(shí)驗(yàn)方法獲得的離散數(shù)據(jù),普遍存在嚴(yán)重的噪聲數(shù)據(jù),但是分類算法對(duì)這些噪聲嚴(yán)重的數(shù)據(jù)比較敏感,所以在此之前需要對(duì)原始色譜圖數(shù)據(jù)進(jìn)行去噪處理,同時(shí)為了能夠在一定程度提高算法的速度,也需要首先對(duì)原始數(shù)據(jù)進(jìn)行降維處理。根據(jù)這些數(shù)據(jù),如果能夠找到一個(gè)連續(xù)的函數(shù)或者更加密集的離散方程,使得實(shí)驗(yàn)數(shù)據(jù)與方程的曲線能夠在最大程度上近似吻合,就可以根據(jù)曲線方程對(duì)數(shù)據(jù)進(jìn)行數(shù)學(xué)計(jì)算,對(duì)結(jié)果進(jìn)行理論分析。因此,本實(shí)施例根據(jù)cf方法獲取原始色譜圖數(shù)據(jù)的特征,并且保留原始樣本數(shù)據(jù)的重要信息,從而達(dá)到對(duì)原始數(shù)據(jù)進(jìn)行去噪和降維的處理效果。本實(shí)施例主要分析三種油品:稠油、重質(zhì)油、輕質(zhì)油。稠油和重質(zhì)油的氣相色譜圖類似,所以采用同種樣本方法。圖2為實(shí)施例一中傅里葉函數(shù)擬合稠油強(qiáng)水淹層色譜圖的示意圖。如圖2所示,以30s作為一個(gè)時(shí)間區(qū)間,選取樣本區(qū)間的極小值,使用8階傅立葉函數(shù)擬合,進(jìn)行求面積,其中函數(shù)表達(dá)式如下:funcfourier(x)=a0+a1*cos(x*w)+b1*sin(x*w)+a2*cos(2*x*w)+b2*sin(2*x*w)+a3*cos(3*x*w)+b3*sin(3*x*w)+a4*cos(4*x*w)+b4*sin(4*x*w)+a5*cos(5*x*w)+b5*sin(5*x*w)+a6*cos(6*x*w)+b6*sin(6*x*w)+a7*cos(7*x*w)+b7*sin(7*x*w)+a8*cos(8*x*w)+b8*sin(8*x*w)(1)圖3為實(shí)施例一中重質(zhì)油強(qiáng)水淹層色譜圖面積指標(biāo)分區(qū)的示意圖。如圖3所示,面積是根據(jù)數(shù)據(jù)擬合出的函數(shù)圖像所圍成的面積,面積可以分為三個(gè)區(qū)域,1區(qū)是0-10分鐘,2區(qū)是10-18分鐘,3區(qū)是18分鐘-結(jié)束。所以面積的指標(biāo)有四個(gè):總面積、1區(qū)面積、2區(qū)面積、3區(qū)面積。圖4為實(shí)施例一中高斯函數(shù)擬合輕質(zhì)油差油層色譜圖的示意圖。如圖4所示,以75s作為一個(gè)時(shí)間區(qū)間,選取樣本區(qū)間的極大值,使用高斯函數(shù)擬合,進(jìn)行求面積,其中函數(shù)表達(dá)式如下:funcgaussian(x)=a1*exp(-((x-b1)/c1)^2)(2)本實(shí)施例從擬合后的圖像提取特征值,得到訓(xùn)練樣本集。假設(shè)含有n個(gè)樣本的訓(xùn)練集x=[x1…xn]t,由于每個(gè)特征的貢獻(xiàn)是不同的,為了減少訓(xùn)練的難度,本實(shí)施例采用以下轉(zhuǎn)換公式對(duì)訓(xùn)練前的數(shù)據(jù)集進(jìn)行歸一化處理:如果xij=-1,i=1,2,..,n,j=1,2,...,j。對(duì)于測(cè)量樣本x=[x1…xn]t,所述測(cè)量樣本對(duì)應(yīng)的類別為y=[y1…yn]tyk∈c={c1,c2,......,cq},本實(shí)施例需要預(yù)測(cè)每一個(gè)樣本xk對(duì)應(yīng)的類別,本實(shí)施例通過公式(4)可以獲得測(cè)量樣本所屬類別。本實(shí)施例根據(jù)貝葉斯定理可以得到公式(5):本實(shí)施例可以根據(jù)公式(4)和公式(5)為每一個(gè)樣本xk選擇其最可能屬于的類別,為了方便,本實(shí)施例將公式(5)簡(jiǎn)化為公式(6):對(duì)于離散屬性,本實(shí)施例假設(shè)所有屬性都是條件獨(dú)立的,因此本實(shí)施例可以通過公式(8)獲得。對(duì)于連續(xù)屬性,需要對(duì)樣本假設(shè)一個(gè)先驗(yàn)概率分布。但是,在實(shí)際應(yīng)用中,屬性之間一般都不會(huì)滿足條件獨(dú)立性,因此本實(shí)施例采用公式(7)。對(duì)于所述測(cè)量樣本的標(biāo)記y~multinomial(φ1,φ2,......,φq),即p(y=cj)=φj,φj∈[0,1],本實(shí)施例可以得到公式(9),其中1{*}是指示函數(shù)。然后本實(shí)施例得到對(duì)數(shù)似然函數(shù)l(φ1,φ2,......,φq)通過最大化對(duì)數(shù)似然函數(shù)l(φ1,φ2,......,φq),如公式(11)所示:因?yàn)椴⑶倚枰蠼鈗-1個(gè)參數(shù),本實(shí)施例可以分別對(duì)q-1個(gè)參數(shù)求偏導(dǎo),如公式(12)所示,本實(shí)施例可以求解出參數(shù),如公式(13)所示。因此,本實(shí)施例可以得到接著本實(shí)施例得到最后根據(jù)公式(9)得到p(yk)。利用公式(9)可以計(jì)算出的分類器預(yù)測(cè)值,同時(shí)也表示了油氣儲(chǔ)層的類別,將上述過程應(yīng)用于不同規(guī)模及不同油井下的油品,能夠得到各儲(chǔ)層水淹程度。本實(shí)施例預(yù)測(cè)的類別可以指導(dǎo)并幫助制定儲(chǔ)層開放方案。為了驗(yàn)證改進(jìn)的mfbc分類模型的有效性,首先有必要用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試。本實(shí)施例選取了五個(gè)經(jīng)典的數(shù)據(jù)集,詳細(xì)介紹如表1所示:表1標(biāo)準(zhǔn)數(shù)據(jù)集介紹table1specificationofstandarddatasets本實(shí)施例通過10折交叉驗(yàn)證來估計(jì)分類錯(cuò)誤率,對(duì)于部分?jǐn)?shù)據(jù)集存在缺失值的現(xiàn)象,為了能夠獲得更加準(zhǔn)確的結(jié)果,本實(shí)施例采用直接刪掉這些缺失值來處理。本實(shí)施例將mfbc算法與knn算法、svm算法以及adaboost算法進(jìn)行比較,得到不同分類模型預(yù)測(cè)結(jié)果,如表2所示:表2不同分類模型的性能比較table2comparisonofperformanceofdifferentclassificationmodels從表2中可以看出,對(duì)于某些數(shù)據(jù)集mfbc算法要優(yōu)于其他分類器,例如:userknowledgemodeling數(shù)據(jù)集、breastcancerwisconsin數(shù)據(jù)集和mammographicmass數(shù)據(jù)集,對(duì)于剩余的兩個(gè)數(shù)據(jù)集,mfbc算法的準(zhǔn)確率與其他分類器非常接近。為了進(jìn)一步地驗(yàn)證mfbc算法的性能,本實(shí)施例選擇了樸素貝葉斯分類器(nbc)、高斯概率分布貝葉斯分類器(gnb)和決策樹分類器(c4.5)進(jìn)行比較。此外,本實(shí)施例選擇了breasttissue數(shù)據(jù)集、echocardiogram數(shù)據(jù)集、glass、parkinsons數(shù)據(jù)集、pima數(shù)據(jù)集、redwinequality數(shù)據(jù)集和wine數(shù)據(jù)集進(jìn)行分析。圖5為實(shí)施例一中樸素貝葉斯分類器、高斯概率分布貝葉斯分類器、決策樹分類器與新型無模型貝葉斯分類器的分類結(jié)果比較示意圖。如圖5所示,針對(duì)大部分?jǐn)?shù)據(jù)集,mfbc的準(zhǔn)確率和穩(wěn)定性要優(yōu)于nbc、gnb以及c4.5。例如,對(duì)于echocardiogram數(shù)據(jù)集,mfbc的準(zhǔn)確度要優(yōu)于nbc大約145%;對(duì)于breasttissue數(shù)據(jù)集,mfbc的準(zhǔn)確度要優(yōu)于c4.5大約10.9%;對(duì)于glass數(shù)據(jù)集,mfbc的準(zhǔn)確度要優(yōu)于gnb大約45.6%;對(duì)于parkinsons數(shù)據(jù)集,mfbc的準(zhǔn)確度要優(yōu)于c4.5大約9.6%。從平均意義上來看,mfbc要優(yōu)于nbc大約18%,優(yōu)于gnb大約21%,優(yōu)于c4.5大約11.07%,優(yōu)于coec大約12.7%。因此,不管數(shù)據(jù)集屬性之間是否獨(dú)立,相比其他比較的分類器,mfbc算法都有著更好的或相近的準(zhǔn)確度以及更穩(wěn)定的性能。本實(shí)施例已經(jīng)驗(yàn)證了mfbc分類模型的有效性,因此,接著將其應(yīng)用于油氣儲(chǔ)層氣相色譜圖數(shù)據(jù)分析中。本實(shí)施例選取我國(guó)某油田稠油g18井塊、j16井塊和輕質(zhì)油m19井塊的地化色譜圖數(shù)據(jù)為分析對(duì)象,為了能夠獲得一個(gè)更好的mfbc分類模型,同時(shí)防止訓(xùn)練網(wǎng)絡(luò)模型出現(xiàn)過擬合或欠擬合現(xiàn)象,本實(shí)施例需要提取足夠多的表征圖譜特征的特征值。本實(shí)施例提取基礎(chǔ)數(shù)據(jù)特征指標(biāo)包括:峰數(shù)、最大值、最小值、平均值、中位數(shù)、眾數(shù)、標(biāo)準(zhǔn)差、方差、偏斜度、峰度、峰值時(shí)間、擬合面積。實(shí)驗(yàn)部分特征數(shù)據(jù)如表3所示:表3不同儲(chǔ)層下色譜圖的特征指標(biāo)數(shù)據(jù)table3characteristicindexdataofchromatogramwithdifferentreservoirs其中,peak1-peak5表示標(biāo)志峰;area1-area3表示擬合分區(qū)面積;area(1+2)/3表示(area1+area2)/area3;area(1/2)表示(area1/area2)。下面對(duì)地化色譜圖水淹程度的實(shí)例進(jìn)行具體分析:本實(shí)施例用g18井塊中的310個(gè)色譜圖和m19井塊中的334個(gè)色譜圖提取數(shù)據(jù)作為訓(xùn)練樣本集,使用10折交叉驗(yàn)證測(cè)試樣本。分別比較knn、svm、adaboost和mfbc的泛化性能,最后得到預(yù)測(cè)準(zhǔn)確率如表4所示:表4不同井塊下不同分類器的準(zhǔn)確率比較table4comparisonoftheaccuracyofdifferentclassifiersunderdifferentwell如表4所示,mfbc的準(zhǔn)確率和穩(wěn)定性要優(yōu)于knn、svm以及adaboost。例如,對(duì)于g18井塊,mfbc的準(zhǔn)確度要優(yōu)于knn大約47.6%,優(yōu)于svm大約10.7%,優(yōu)于adaboost大約60.6%;對(duì)于m19井塊,mfbc的準(zhǔn)確度要優(yōu)于knn大約20.0%,優(yōu)于svm大約7.1%,優(yōu)于adaboost大約114%。本實(shí)施例選擇g18和m19的5個(gè)數(shù)據(jù)集,進(jìn)行分類錯(cuò)誤率評(píng)估。圖6為實(shí)施例一中knn算法、svm算法、adaboost算法與mfbc算法的分類結(jié)果比較示意圖。如圖6所示,knn、svm以及adaboost的平均分類錯(cuò)誤率分別比mfbc高101%,33.3%,66.7%。至此,本實(shí)施例驗(yàn)證了mfbc分類模型在油氣儲(chǔ)層氣相色譜圖數(shù)據(jù)分析的有效性。由于mfbc模型比較好的分類性能和穩(wěn)定性,因此本實(shí)施例對(duì)j16中的部分儲(chǔ)層進(jìn)行測(cè)量。參見圖6,可以看出與其他三種分類器比較,mfbc模型的分類預(yù)測(cè)結(jié)果要更接近真實(shí)試油結(jié)果。因此在實(shí)際生產(chǎn)中,錄井技術(shù)人員可以依據(jù)該種軟測(cè)量方法,用來預(yù)測(cè)油氣儲(chǔ)層的水淹程度,確定儲(chǔ)層開采價(jià)值,用于指導(dǎo)開采方案的制定。通過實(shí)驗(yàn)可以看出,由于mfbc模型的優(yōu)越的、穩(wěn)定的泛化性能,使其可以用于錄井油氣層解釋評(píng)價(jià)地化色譜圖的軟測(cè)量,獲得一個(gè)可信的儲(chǔ)層類別,從而可以更好地指導(dǎo)油氣儲(chǔ)層的探明和高效開發(fā)。本實(shí)施例提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法之中,首先通過曲線擬合方法有效地實(shí)現(xiàn)對(duì)氣相色譜圖數(shù)據(jù)的降維和降噪,進(jìn)而提取氣相色譜圖數(shù)據(jù)的特征值,從而縮短分類模型的訓(xùn)練時(shí)間而且能夠獲得更好的泛化能力。本實(shí)施例使用新型無模型貝葉斯分類算法建立識(shí)別模型,這樣可以有效避免由于訓(xùn)練樣本不滿足條件獨(dú)立性而造成的模型泛化性能下降問題。本實(shí)施例提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法通過氣相色譜圖的測(cè)量客觀展現(xiàn)了不同條件下油氣儲(chǔ)層的水淹程度,指明了各油氣儲(chǔ)層的水淹程度與開采價(jià)值,有助于石油鉆探公司進(jìn)一步提高開采效率和降低成本。因此,本實(shí)施例提供的新型無模型貝葉斯分類預(yù)測(cè)模型軟測(cè)量方法具有有效性和適用性??梢岳斫獾氖?,以上實(shí)施方式僅僅是為了說明本發(fā)明的原理而采用的示例性實(shí)施方式,然而本發(fā)明并不局限于此。對(duì)于本領(lǐng)域內(nèi)的普通技術(shù)人員而言,在不脫離本發(fā)明的精神和實(shí)質(zhì)的情況下,可以做出各種變型和改進(jìn),這些變型和改進(jìn)也視為本發(fā)明的保護(hù)范圍。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12