亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法及裝置與流程

文檔序號:11286660閱讀:180來源:國知局
基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法及裝置與流程
本發(fā)明涉及醫(yī)療診斷領域,更具體地說,涉及一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法及裝置。
背景技術
:隨著人工智能的發(fā)展,計算機技術也在醫(yī)療領域中起到了重要的作用,實現(xiàn)醫(yī)療領域中的人工智能。計算機技術與眾多領域的人類醫(yī)學專家的大量權威知識經(jīng)驗相融合,開發(fā)出醫(yī)療診斷系統(tǒng),可以有效地解決各種臨床問題,起到了輔助醫(yī)生診斷的作用。在醫(yī)療診斷系統(tǒng)中,引入了dna微陣列技術,即基因芯片,應用基因芯片就可以在同一時間定量的分析大量的基因表達數(shù)據(jù)的水平,通過這些數(shù)據(jù)就可以研究生物的本質。但是由于dna微陣列技術的發(fā)展,導致了基因表達數(shù)據(jù)的爆炸性增長,在這些大量的基因表達數(shù)據(jù)中選擇出重要的基因,對于現(xiàn)有技術提出了新的挑戰(zhàn)。局部超平面(localhyperlane,lh-relief)算法可以實現(xiàn)對大量基因表達數(shù)據(jù)進行降維,即篩選掉沒有用的基因表達數(shù)據(jù),選擇出重要的基因,減小冗余度的問題。但是該算法對含有噪聲的數(shù)據(jù)以及高位數(shù)據(jù)的應用中,收斂性不能得到保證,導致算法的計算復雜度高。因此,如何實現(xiàn)對大量基因數(shù)據(jù)降維的同時,降低算法的計算復雜度,是本領域技術人員需要解決的問題。技術實現(xiàn)要素:本發(fā)明的目的在于提供一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,以實現(xiàn)對大量基因數(shù)據(jù)降維的同時降低算法的計算復雜度。為實現(xiàn)上述目的,本發(fā)明實施例提供了如下技術方案:一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,包括:s101:獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性;s102:設置所述第一樣本屬性的初始權重向量,將所述初始權重向量作為本次權重向量;s103:通過梯度下降的更新方式對本次權重向量進行更新,得到迭代一次后的下次權重向量;s104:判斷確定規(guī)則是否成立,若是,則將所次權重向量作為最終權重向量,執(zhí)行s105;若否,則將下次權重向量作為本次權重向量,返回s103;其中||wt+1-wt||≤θ為確定規(guī)則,wt為本次權重向量,wt+1為下次權重向量,θ為停止準則;s105:根據(jù)所述最終權重向量進行特征選擇,得到特征索引子集;s106:將所述第一樣本集根據(jù)所述特征索引子集進行特征選擇,得到特征選擇后的第二樣本集;s107:獲取第一待評估數(shù)據(jù),并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù);s108:在所述第二樣本集上對第二待評估數(shù)據(jù)進行分類,得到分類結果。優(yōu)選地,所述獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性,包括:獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性,并對所述第一樣本集進行離差標準化處理;優(yōu)選地,所述通過梯度下降的更新方式對本次權重向量進行更新,得到迭代一次后的下次權重向量,包括:通過規(guī)則對本次權重向量進行更新,得到迭代一次后的下次權重向量wt+1,j(w)為優(yōu)化目標函數(shù),通過最大化j(w)=(zit+1)twt+1計算得到。優(yōu)選地,所述獲取第一待評估數(shù)據(jù),并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù),包括:獲取第一待評估數(shù)據(jù),進行離差標準化處理,并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù)。優(yōu)選地,在所述第二樣本集上對第二待評估數(shù)據(jù)進行分類,得到分類結果,包括:在所述第二樣本集上對第二待評估數(shù)據(jù)利用k近鄰分類器進行分類,得到分類結果。一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,包括:第一樣本集獲取模塊,用于獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性;初始權重限量設置模塊,用于設置所述第一樣本屬性的初始權重向量,將所述初始權重向量作為本次權重向量;下次權重向量獲取模塊,用于通過梯度下降的更新方式對本次權重向量進行更新,得到迭代一次后的下次權重向量;判斷模塊,用于判斷確定規(guī)則是否成立,若是,則將所述下次權重向量作為最終權重向量,調用特征索引子集獲取模塊;若否,則將下次權重向量作為本次權重向量,調用所述下次權重向量獲取模塊;其中確定規(guī)則為||wt+1-wt||≤θ,wt為本次權重向量,wt+1為下次權重向量,θ為停止準則;所述特征索引子集獲取模塊,用于根據(jù)所述最終權重向量進行特征選擇,得到特征索引子集;第二樣本集獲取模塊,用于將所述第一樣本集根據(jù)所述特征索引子集進行特征選擇,得到特征選擇后的第二樣本集;第二待評估數(shù)據(jù)獲取模塊,用于獲取第一待評估數(shù)據(jù),并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù);分類模塊,用于在所述第二樣本集上對第二待評估數(shù)據(jù)進行分類,得到分類結果。優(yōu)選地,所述第一樣本集獲取模塊具體用于:獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性,并對所述第一樣本集進行離差標準化處理。優(yōu)選地,所述下次權重向量獲取模塊具體用于:通過規(guī)則對本次權重向量進行更新,得到迭代一次后的下次權重向量wt+1,j(w)為優(yōu)化目標函數(shù),通過最大化j(w)=(zit+1)twt+1計算得到。優(yōu)選地,所述第二待評估數(shù)據(jù)獲取模塊具體用于:獲取第一待評估數(shù)據(jù),進行離差標準化處理,并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù)。優(yōu)選地,所述分類模塊具體用于:在所述第二樣本集上對第二待評估數(shù)據(jù)利用k近鄰分類器進行分類,得到分類結果。通過以上方案可知,本發(fā)明實施例提供的一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,首先根據(jù)訓練樣本集得到樣本的屬性值,根據(jù)屬性值利用梯度下降的權重更新方式計算屬性對應的權重向量,因此可以保證收斂性,可以較快地達到算法的停止準則,減少計算時間,降低計算復雜度;根據(jù)計算出的權重向量進行特征選擇得到最優(yōu)特征集,將待評估數(shù)據(jù)樣本進行標準化后再最優(yōu)特征子集中進行特征選擇,再將特征選擇后的待評估數(shù)據(jù)樣本進行分類就可以使數(shù)據(jù)樣本實現(xiàn)降維,因此本發(fā)明實施例提供的方法實現(xiàn)降維的同時又降低了計算的復雜度,減少了計算時間。本發(fā)明還提供了一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,同樣可以實現(xiàn)上述技術效果。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例公開的一種醫(yī)療數(shù)據(jù)分類方法流程圖;圖2為本發(fā)明實施例公開的一種醫(yī)療數(shù)據(jù)分類裝置結構示意圖;圖3為本發(fā)明實施例公開的一種醫(yī)療數(shù)據(jù)分類方法與lh-relief的收斂結果對比圖。圖4為本發(fā)明實施例公開的一種醫(yī)療數(shù)據(jù)分類方法與lh-relief的平均性能性能對比圖。具體實施方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。參見圖1,本發(fā)明實施例公開了一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法。具體地:s101:獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性。具體地,獲取醫(yī)療數(shù)據(jù)的第一樣本集得到第一樣本集的樣本屬性,作為第一樣本屬性。其中xi∈ri,yi∈{1,2,...,c}是xi的標簽,表明xi的類別,n是訓練樣本的個數(shù),i是樣本的維數(shù),c是類別總數(shù)。s102:設置所述第一樣本屬性的初始權重向量,將所述初始權重向量作為本次權重向量。具體地,設置初始權重向量w0=[1/i,1/i,...,1/i]t,其中t為迭代次數(shù),當前t=0,即沒有開始迭代,將初始權重向量w0作為本次權重向量wt。s103:通過梯度下降的更新方式對本次權重向量進行更新,得到迭代一次后的下次權重向量。具體地,進行一次迭代,即將本次權重向量wt使用梯度下降的更新方式進行一次更新,得到下次權重向量wt+1。s104:判斷確定規(guī)則是否成立,若是,則將所次權重向量作為最終權重向量,執(zhí)行s105;若否,則將下次權重向量作為本次權重向量,返回s103;其中確定規(guī)則為||wt+1-wt||≤θ,wt為本次權重向量,wt+1為下次權重向量,θ為停止準則。具體地,設置一個停止準則θ,并判斷||wt+1-wt||≤θ是否成立,如果成立,則將下次權重向量wt+1作為最終權重向量w,w=[w1,w2,...,wi]t∈r,進行s105;如果不成立,則將下次權重向量wt+1作為本次權重向量wt,并返回s103,進行新的一次迭代。s105:根據(jù)所述最終權重向量進行特征選擇,得到特征索引子集。具體地,根據(jù)最終權重向量w通過分類精度進行特征選擇,得到對應的特征索引子集實現(xiàn)對第一樣本的特征降維,從而減少計算量以及計算時間。s106:將所述第一樣本集根據(jù)所述特征索引子集進行特征選擇,得到特征選擇后的第二樣本集。具體地,將第一樣本集根據(jù)特征索引子集進行特征選擇,得到第二樣本集其中每一個樣本xi∈r|f|,|f|<i。s107:獲取第一待評估數(shù)據(jù),并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù)。具體地,獲取第一待評估數(shù)據(jù)樣本x,x∈ri,當前樣本x未進行降維處理,樣本維數(shù)為i。將數(shù)據(jù)樣本根據(jù)特征索引子集進行特征選擇,得到第二待評估數(shù)據(jù)x′。s108:在所述第二樣本集上對第二待評估數(shù)據(jù)進行分類,得到分類結果。具體地,在第二樣本集對第二待評估數(shù)據(jù)x′進行分類,得到分類結果,得到分類結果??梢岳眠@個分類結果對第一待評估數(shù)據(jù)樣本x進行診斷。因此,本發(fā)明實施例提供的一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,首先根據(jù)訓練樣本集得到樣本的屬性值,根據(jù)屬性值利用梯度下降的權重更新方式計算屬性對應的權重向量,因此可以保證收斂性,可以較快地達到算法的停止準則,減少計算時間,降低計算復雜度;根據(jù)計算出的權重向量進行特征選擇得到最優(yōu)特征集,將待評估數(shù)據(jù)樣本進行標準化后再最優(yōu)特征子集中進行特征選擇,再將特征選擇后的待評估數(shù)據(jù)樣本進行分類就可以使數(shù)據(jù)樣本實現(xiàn)降維,因此本發(fā)明實施例提供的方法實現(xiàn)降維的同時又降低了計算的復雜度,減少了計算時間。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,區(qū)別于上一實施例,本發(fā)明對s101做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。具體地,s101包括:獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性,并對所述第一樣本集進行離差標準化處理;具體地,獲取醫(yī)療數(shù)據(jù)的第一樣本集得到第一樣本集的樣本屬性,作為第一樣本屬性。其中xi∈ri,yi∈{1,2,...,c}是xi的標簽,表明xi的類別,n是訓練樣本的個數(shù),i是樣本的維數(shù),c是類別總數(shù)。需要說明的是,不同的特征屬性往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結果,為了消除不同量綱及量綱單位造成的影響,需要對第一樣本集進行離差標準化處理,以解決特征屬性數(shù)據(jù)之間的可比性。離差標準化處理的轉換函數(shù)為其中,xij為第i個樣本的第j個屬性,為取所有訓練樣本數(shù)據(jù)中屬性j的最大值,為所有數(shù)據(jù)中屬性j的最小值。進行標準化處理后,特征數(shù)據(jù)的各指標都是同一個數(shù)量級,更利于對這些數(shù)據(jù)進行綜合對比評價,本發(fā)明實施例所用的特征數(shù)據(jù)均為進行離差標準化處理后的數(shù)據(jù)。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,區(qū)別于上一實施例,本發(fā)明對s103做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。具體地,s103包括:通過規(guī)則對本次權重向量進行更新,得到迭代一次后的下次權重向量wt+1,j(w)為優(yōu)化目標函數(shù),通過最大化j(w)=(zit+1)twt+1計算得到。具體地,最大化求解j(w),對下次權重向量wt+1進行更新。其中和分別是樣本xi在異類樣本以及同類樣本中的近鄰樣本矩陣,k是先驗設置的近鄰個數(shù)。αi和βi分別是異類樣本以及同類樣本xi關于的系數(shù)向量。求解的優(yōu)化問題可以獲得αi;求解的優(yōu)化問題可以獲得βi,因此可以通過優(yōu)化目標函數(shù)j(w),利用公式對本次權重向量wt進行更新得到迭代一次后的下次權重向量wt+1。利用梯度下降的權重更新方式能夠保證收斂性,當收斂性可以保證時,就能夠較快地達到算法的停止準則,因此就可以降低計算的復雜度,減少計算的時間。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,區(qū)別于上一實施例,本發(fā)明對s107做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。具體地,s107包括:獲取第一待評估數(shù)據(jù),進行離差標準化處理,并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù)。具體地,獲得待評估信用數(shù)據(jù)樣本x,作為第一待評估數(shù)據(jù),其中x∈ri,對第一待評估數(shù)據(jù)利用上述實施例介紹的離差標準化的方法進行標準化處理,即需要說明的是,本發(fā)明所用的第一待評估數(shù)據(jù)均為進行利差標準化處理后的數(shù)據(jù),對第一待評估數(shù)據(jù)進行離差標準化處理,同樣避免了特征數(shù)據(jù)之間量綱與量綱單位的不同影響數(shù)據(jù)分析結果,將數(shù)據(jù)進行標準化處理,是待評估數(shù)據(jù)的各指標處于同一數(shù)量級,適合進行綜合對比評價。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,區(qū)別于上一實施例,本發(fā)明對s108做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。具體地,s108包括:在所述第二樣本集上對第二待評估數(shù)據(jù)利用k近鄰分類器進行分類,得到分類結果。具體地,在第二樣本集的基礎上,利用k近鄰分類器對第二待評估數(shù)據(jù)x′進行分類,得到分類結果,得到分類結果??梢岳眠@個分類結果對第一待評估數(shù)據(jù)樣本x進行診斷。下面對本發(fā)明實施例提供的一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置進行介紹,下文描述的一種醫(yī)療數(shù)據(jù)分類裝置與上文描述的一種醫(yī)療數(shù)據(jù)分類方法可以相互參照。參見圖2,本發(fā)明實施例提供的一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,具體包括:第一樣本集獲取模塊201,用于獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性。具體地,第一樣本集獲取模塊201獲取醫(yī)療數(shù)據(jù)的第一樣本集得到第一樣本集的樣本屬性,作為第一樣本屬性。其中xi∈ri,yi∈{1,2,...,c}是xi的標簽,表明xi的類別,n是訓練樣本的個數(shù),i是樣本的維數(shù),c是類別總數(shù)。初始權重限量設置模塊202,用于設置所述第一樣本屬性的初始權重向量,將所述初始權重向量作為本次權重向量。具體地,初始權重限量設置模塊202對初始權重向量設置,即初始權重向量為w0=[1/i,1/i,...,1/i]t,其中t為迭代次數(shù),當前t=0,即沒有開始迭代,將初始權重向量w0作為本次權重向量wt。下次權重向量獲取模塊203,用于通過梯度下降的更新方式對本次權重向量進行更新,得到迭代一次后的下次權重向量。具體地,通過下次權重向量獲取模塊203對本次權重向量進行一次迭代,即將本次權重向量wt使用梯度下降的更新方式進行一次更新,得到下次權重向量wt+1。判斷模塊204,用于判斷去定規(guī)則是否成立,若是,則將所述下次權重向量作為最終權重向量,調用特征索引子集獲取模塊;若否,則將下次權重向量作為本次權重向量,調用所述下次權重向量獲取模塊;其中確定規(guī)則為||wt+1-wt||≤θ,wt為本次權重向量,wt+1為下次權重向量,θ為停止準則。具體地,在判斷模塊204中設置一個停止準則θ,判斷||wt+1-wt||≤θ是否成立,如果是,則將下次權重向量wt+1作為最終權重向量w,w=[w1,w2,...,wi]t∈r,調用特征索引子集獲取模塊205,;如果否,則將下次權重向量wt+1作為本次權重向量wt,再次調用下次權重向量獲取模塊203,進行新的一次迭代。所述特征索引子集獲取模塊205,用于根據(jù)所述最終權重向量進行特征選擇,得到特征索引子集。具體地,特征索引子集獲取模塊205根據(jù)最終權重向量w通過分類精度進行特征選擇,得到對應的特征索引子集實現(xiàn)對第一樣本的特征降維,從而減少計算量以及計算時間。第二樣本集獲取模塊206,用于將所述第一樣本集根據(jù)所述特征索引子集進行特征選擇,得到特征選擇后的第二樣本集。具體地,在第二樣本集獲取模塊206中,將第一樣本集根據(jù)特征索引子集進行特征選擇,得到第二樣本集其中每一個樣本xi∈r|f|,|f|<i。第二待評估數(shù)據(jù)獲取模塊207,用于獲取第一待評估數(shù)據(jù),并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù)。具體地,第二待評估數(shù)據(jù)獲取模塊207獲取第一待評估數(shù)據(jù)樣本x,x∈ri,當前樣本x未進行降維處理,樣本維數(shù)為i。將數(shù)據(jù)樣本根據(jù)特征索引子集進行特征選擇,得到第二待評估數(shù)據(jù)x′。分類模塊208,用于在所述第二樣本集上對第二待評估數(shù)據(jù)進行分類,得到分類結果。具體地,分類模塊208將第二待評估數(shù)據(jù)x′在第二樣本集進行分類,得到分類結果,得到分類結果??梢岳眠@個分類結果對第一待評估數(shù)據(jù)樣本x進行診斷。因此,本發(fā)明實施例提供的一種基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類方法,首先通過第一樣本集獲取模塊201得到樣本的屬性值,根據(jù)屬性值在下次權重向量獲取模塊203中,利用梯度下降的權重更新方式計算屬性對應的權重向量,因此可以保證收斂性,可以較快地達到算法的停止準則,減少計算時間,降低計算復雜度;第二樣本集獲取模塊206根據(jù)計算出的權重向量進行特征選擇得到最優(yōu)特征集,第二待評估數(shù)據(jù)獲取模塊207將待評估數(shù)據(jù)樣本進行標準化后再最優(yōu)特征子集中進行特征選擇,再將特征選擇后的待評估數(shù)據(jù)樣本進行分類就可以使數(shù)據(jù)樣本實現(xiàn)降維,因此本發(fā)明實施例提供的方法實現(xiàn)降維的同時又降低了計算的復雜度,減少了計算時間。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,區(qū)別于上一實施例,本發(fā)明對第一樣本集獲取模塊201做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。上述第一樣本集獲取模塊201具體用于:獲取醫(yī)療數(shù)據(jù)的第一樣本集,得到第一樣本屬性,并對所述第一樣本集進行離差標準化處理。具體地,第一樣本集獲取模塊201獲取醫(yī)療數(shù)據(jù)的第一樣本集得到第一樣本集的樣本屬性,作為第一樣本屬性。其中xi∈ri,yi∈{1,2,...,c}是xi的標簽,表明xi的類別,n是訓練樣本的個數(shù),i是樣本的維數(shù),c是類別總數(shù)。需要說明的是,不同的特征屬性往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結果,為了消除不同量綱及量綱單位造成的影響,需要對第一樣本集進行離差標準化處理,以解決特征屬性數(shù)據(jù)之間的可比性。離差標準化處理的轉換函數(shù)為其中,xij為第i個樣本的第j個屬性,為取所有訓練樣本數(shù)據(jù)中屬性j的最大值,為所有數(shù)據(jù)中屬性j的最小值。進行標準化處理后,特征數(shù)據(jù)的各指標都是同一個數(shù)量級,更利于對這些數(shù)據(jù)進行綜合對比評價,本發(fā)明實施例所用的特征數(shù)據(jù)均為進行離差標準化處理后的數(shù)據(jù)。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,區(qū)別于上一實施例,本發(fā)明對下次權重向量獲取模塊203做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。上述下次權重向量獲取模塊203具體用于:通過規(guī)則對本次權重向量進行更新,得到迭代一次后的下次權重向量wt+1,j(w)通過最大化優(yōu)化目標函數(shù)j(w)=(zit+1)twt+1計算得到。具體地,在下次權重向量獲取模塊203中,首先最大化求解j(w),對下次權重向量wt+1進行更新。其中和分別是樣本xi在異類樣本以及同類樣本中的近鄰樣本矩陣,k是先驗設置的近鄰個數(shù)。αi和βi分別是異類樣本以及同類樣本xi關于的系數(shù)向量。求解的優(yōu)化問題可以獲得αi;求解的優(yōu)化問題可以獲得βi,因此可以通過j(w),利用公式對本次權重向量wt進行更新得到迭代一次后的下次權重向量wt+1。其中,優(yōu)化目標函數(shù)j(w)通過最大化j(w)=(zit+1)twt+1計算得到。利用梯度下降的權重更新方式能夠保證收斂性,當收斂性可以保證時,就能夠較快地達到算法的停止準則,因此就可以降低計算的復雜度,減少計算的時間。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,區(qū)別于上一實施例,本發(fā)明對第二待評估數(shù)據(jù)獲取模塊207做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。上述第二待評估數(shù)據(jù)獲取模塊207具體用于:獲取第一待評估數(shù)據(jù),進行離差標準化處理,并根據(jù)所述特征索引子集進行特征選擇得到第二待評估數(shù)據(jù)。具體地,第二待評估數(shù)據(jù)獲取模塊207獲得待評估信用數(shù)據(jù)樣本x,作為第一待評估數(shù)據(jù),其中x∈ri,對第一待評估數(shù)據(jù)利用上述實施例介紹的離差標準化的方法進行標準化處理,即需要說明的是,本發(fā)明所用的第一待評估數(shù)據(jù)均為進行利差標準化處理后的數(shù)據(jù),對第一待評估數(shù)據(jù)進行離差標準化處理,同樣避免了特征數(shù)據(jù)之間量綱與量綱單位的不同影響數(shù)據(jù)分析結果,將數(shù)據(jù)進行標準化處理,是待評估數(shù)據(jù)的各指標處于同一數(shù)量級,適合進行綜合對比評價。本發(fā)明實施例公開了一種具體的基于局部學習特征權重選擇的醫(yī)療數(shù)據(jù)分類裝置,區(qū)別于上一實施例,本發(fā)明對分類模塊208做了具體的限定,其他步驟內容與上一實施例大致相同,詳細內容可以參見上一實施例,此處不再贅述。上述分類模塊208具體用于:在所述第二樣本集上對第二待評估數(shù)據(jù)利用k近鄰分類器進行分類,得到分類結果。具體地,分類模塊208在第二樣本集的基礎上,利用k近鄰分類器對第二待評估數(shù)據(jù)x′進行分類,得到分類結果,得到分類結果??梢岳眠@個分類結果對第一待評估數(shù)據(jù)樣本x進行診斷。本發(fā)明實施例公開了一種基于局部學習特征權重的醫(yī)療數(shù)據(jù)分類方法,具體包括:本發(fā)明實施例在胚數(shù)據(jù)集(cns)數(shù)據(jù)集中進行了測試,該數(shù)據(jù)集中共包含34名患者樣本,每個樣本有7129個基因。這34個樣本包括25個經(jīng)典型髓母細胞瘤(c)以及9個促結締組織增生性成神經(jīng)管細胞瘤(d),因此共有2類。cns數(shù)據(jù)集分為兩個子集:23個訓練樣本(6個c,17個d),用來選擇基因和調整分類器的權重,11個測試樣本(3個c,8個d),用來評價系統(tǒng)所得結果的性能。每個樣本均有都有7129個特征。我們將c視為第一類,d視為第二類。具體實施步驟分為兩個模塊進行,具體如下:模型訓練模塊:s301,輸入醫(yī)療數(shù)據(jù)樣本集作為第一樣本集,其中xi∈ri,yi∈{1,2,...,c}是xi的標簽,表明xi的類別,n是訓練樣本的個數(shù),i是樣本的維數(shù),c是類別總數(shù)。這里n=23,i=7129,c=2。s302,對所述第一樣本集進行離差標準化處理,轉換函數(shù)為其中,xij為第i個樣本的第j個屬性,為取所有訓練樣本數(shù)據(jù)中屬性j的最大值,為所有數(shù)據(jù)中屬性j的最小值。s303,設置所述第一樣本屬性的初始權重向量w0=[1/i,1/i,...,1/i]t,將所述初始權重向量作為本次權重向量。其中t為迭代次數(shù),當前t=0,即沒有開始迭代,將初始權重向量w0作為本次權重向量wt,迭代次數(shù)一共為30次,即一共進行30次迭代。s304,通過梯度下降的更新方式對本次權重向量進行更新,得到迭代一次后的下次權重向量。具體地,最大化求解優(yōu)化目標函數(shù)j(w),對下次權重向量wt+1進行更新。其中和分別是樣本xi在異類樣本以及同類樣本中的近鄰樣本矩陣,k是先驗設置的近鄰個數(shù)。αi和βi分別是異類樣本以及同類樣本xi關于的系數(shù)向量。求解的優(yōu)化問題可以獲得αi;求解的優(yōu)化問題可以獲得βi,因此可以通過j(w),利用公式對本次權重向量wt進行更新得到迭代一次后的下次權重向量wt+1。s305,判斷確定規(guī)則是否成立,若是,則將所次權重向量作為最終權重向量,執(zhí)行s306;若否,則將下次權重向量作為本次權重向量,返回s304;其中確定規(guī)則為||wt+1-wt||≤θ,wt為本次權重向量,wt+1為下次權重向量,θ為停止準則。具體地,設置一個停止準則θ=0.001,并判斷||wt+1-wt||≤θ是否成立,如果成立,則將下次權重向量wt+1作為最終權重向量w,w=[w1,w2,...,wi]t∈r7129,進行s306;如果不成立,則將下次權重向量wt+1作為本次權重向量wt,并返回s304,進行新的一次迭代。s306,根據(jù)所述最終權重向量進行特征選擇,得到特征索引子集。具體地,根據(jù)最終權重向量w通過分類精度進行特征選擇,得到對應的特征索引子集實現(xiàn)對第一樣本的特征降維,從而減少計算量以及計算時間。s307,將所述第一樣本集根據(jù)所述特征索引子集進行特征選擇,得到特征選擇后的第二樣本集。具體地,將第一樣本集根據(jù)特征索引子集進行特征選擇,得到第二樣本集其中每一個樣本xi∈r|f|,|f|<7129。評估模塊:s308,獲取第一待評估數(shù)據(jù)。具體地,輸入待評估信用數(shù)據(jù)樣本x作為第一待評估數(shù)據(jù)樣本,x∈ri。s309,對第一待評估數(shù)據(jù)進行離差標準化處理。具體地,獲得待評估信用數(shù)據(jù)樣本x,作為第一待評估數(shù)據(jù),其中x∈ri,對第一待評估數(shù)據(jù)利用上述實施例介紹的離差標準化的方法進行標準化處理,即s310,根據(jù)特征索引子集對第一待評估數(shù)據(jù)進行特征選擇,得到第二待評估數(shù)據(jù)x′。s311,在所述第二樣本集上對第二待評估數(shù)據(jù)利用k近鄰分類器進行分類,得到分類結果。具體地,在第二樣本集的基礎上,利用k近鄰分類器對第二待評估數(shù)據(jù)x′進行分類,得到分類結果,得到分類結果??梢岳眠@個分類結果對第一待評估數(shù)據(jù)樣本x進行診斷。通過本發(fā)明提出一種基于局部學習特征權重的醫(yī)療數(shù)據(jù)分類方法,對lh-relief的特征選擇方法進行了改進,提取23個7129維的訓練樣本中的特征的組合f,1≤length(f)≤7129,對11個7129維的測試樣本進行分類。本實驗提出的方法與lh-relief算法在相同的數(shù)據(jù)集上做比較,隨機取78個訓練樣本10次,平均收斂結果如圖3所示,平均性能結果如圖4所示。可以看到本發(fā)明比msvm-rfe算法收斂得更快,在相同選擇了相同基因個數(shù)的情況下,具有更好的分類性能。表1給出了兩種方法各自獲得的最好平均分類性能時的對比。本發(fā)明比lh-relief方法提高了大約2個百分點。表1lh-relief和本發(fā)明最好分類性能的對比方法識別率(%)本發(fā)明70.91(10)lh-relief69.09(10)本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對所公開的實施例的上述說明,使本領域專業(yè)技術人員能夠實現(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領域的專業(yè)技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1