亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于特征交叉與融合特征選擇的分類方法及裝置

文檔序號(hào):40394220發(fā)布日期:2024-12-20 12:17閱讀:2來源:國(guó)知局
一種基于特征交叉與融合特征選擇的分類方法及裝置

本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種基于特征交叉與融合特征選擇的分類方法及裝置。


背景技術(shù):

1、時(shí)間序列是表示隨時(shí)間延伸采集的一類信號(hào),該類信號(hào)具有時(shí)間順序特性,是按時(shí)間排序的數(shù)據(jù)點(diǎn)。時(shí)間序列分析既包含對(duì)過去數(shù)據(jù)的診斷,也包括未來數(shù)據(jù)的預(yù)測(cè)。許多應(yīng)用都對(duì)時(shí)間序列的發(fā)展起到了重要貢獻(xiàn)。典型應(yīng)用有:醫(yī)學(xué)、天氣、經(jīng)濟(jì)學(xué)及天文學(xué)等方面。典型的時(shí)間序列分析方法,包括:基于統(tǒng)計(jì)學(xué)的方法、基于機(jī)器學(xué)習(xí)的方法以及集成方法。在使用機(jī)器學(xué)習(xí)進(jìn)行分類的應(yīng)用中,尤其在處理時(shí)間序列數(shù)據(jù)時(shí)具有顯著優(yōu)勢(shì)。這類數(shù)據(jù)廣泛存在于能源、金融及健康等多方面應(yīng)用,如電力負(fù)荷、股票價(jià)格走勢(shì)、心電圖及語音等信號(hào)。通過時(shí)序序列分類,對(duì)未來趨勢(shì)預(yù)測(cè)、對(duì)異常情況檢測(cè),進(jìn)而做出更明智的決策。語音分類作為聽覺通道的類別學(xué)習(xí),能幫助個(gè)體迅速識(shí)別、判斷聲音刺激,具有特殊的生存意義。

2、使用何種特征提取與特征選擇是影響最終效果的重要因素。因此,探索新的特征提取與特征選擇長(zhǎng)期以來都是機(jī)器學(xué)習(xí)領(lǐng)域中的研究熱點(diǎn)。在特征提取方面,為了能提取數(shù)據(jù)中的深層特征,常常采用二次特征提取方法,包括:先提取特征再對(duì)提取的特征進(jìn)行特征交叉或者提取完特征后,再對(duì)特征進(jìn)行二次提取、升維或降維操作。所述特征交叉,包括顯式特征交叉和隱式特征交叉。隱式特征交叉通常采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征交叉,此種方法復(fù)雜度高。顯式特征交叉通?;谝延刑卣鞯木€性變換,如內(nèi)積、笛卡爾積等,該種特征交叉對(duì)非線性模型的擬合度欠佳,一次只能對(duì)兩類特征使用固定的特征交叉方法進(jìn)行交叉,無法根據(jù)已有特征的特點(diǎn)自適應(yīng)選擇最佳交叉方法且交叉后不保留原先的已有特征。在特征選擇方面,雖然已經(jīng)有基于不同原理的多種特征選擇方法被提出,但現(xiàn)有技術(shù)中多采用單一的特征選擇方法,在不同場(chǎng)景下無法總是使用與當(dāng)前待選擇特征最為合適的選擇,因此往往不能取得最佳效果。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于針對(duì)現(xiàn)有顯示特征交叉方法難以擬合非線性模型、每次交叉的特征類型數(shù)有限、自適應(yīng)性差、不保留原有特征以及單一特征選擇導(dǎo)致分類準(zhǔn)確率低的缺陷,提出了一種基于特征交叉與融合特征選擇的分類方法及裝置,所述方法,首先對(duì)受試者的語音信號(hào)進(jìn)行采集,利用采集到的語音數(shù)據(jù)提取多種特征數(shù)據(jù),所述多種特征數(shù)據(jù)在全部拼接后進(jìn)行第一次融合特征選擇得到第一次選擇后數(shù)據(jù),所述第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉得到交叉后特征數(shù)據(jù),所述交叉后特征數(shù)據(jù)在進(jìn)行第二次融合特征選擇后得到的待分類數(shù)據(jù)用于機(jī)器學(xué)習(xí),通過機(jī)器學(xué)習(xí)最終得到能夠?qū)斎胝Z音數(shù)據(jù)進(jìn)行分類;所述分類裝置用于實(shí)現(xiàn)基于特征交叉與融合特征選擇的分類。

2、為了達(dá)到上述目的,本發(fā)明采取以下技術(shù)方案:

3、作為本發(fā)明的第一方面,提出了一種基于特征交叉與融合特征選擇的分類裝置,包括語音采集模塊、特征提取模塊、第一融合特征選擇模塊、自適應(yīng)特征交叉模塊、第二融合特征選擇模塊及模型訓(xùn)練模塊;

4、所述語音采集模塊與特征提取模塊相連,所述特征提取模塊與第一融合特征選擇模塊相連,所述第一融合特征選擇模塊與自適應(yīng)特征交叉模塊相連,所述自適應(yīng)特征交叉模塊與第二融合特征選擇模塊相連,所述第二融合特征選擇模塊與模型訓(xùn)練模塊相連;

5、所述語音采集模塊將語音信號(hào)進(jìn)行數(shù)模轉(zhuǎn)換成語音數(shù)據(jù)傳遞給特征提取模塊;所述特征提取模塊對(duì)語音數(shù)據(jù)提取多種特征,將得到的多種特征數(shù)據(jù)傳遞給第一融合特征選擇模塊;所述第一融合特征選擇模塊對(duì)特征數(shù)據(jù)選擇預(yù)定數(shù)量的特征,將得到的第一次選擇后數(shù)據(jù)傳遞給自適應(yīng)特征交叉模塊;所述自適應(yīng)特征交叉模塊對(duì)第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉,將得到的交叉后特征數(shù)據(jù)傳遞給第二融合特征選擇模塊;所述第二融合特征選擇模塊對(duì)交叉后特征數(shù)據(jù)選擇預(yù)定數(shù)量的特征,將得到的待分類數(shù)據(jù)傳遞給模型訓(xùn)練模塊;所述模型訓(xùn)練模塊利用上述待分類數(shù)據(jù)進(jìn)行模型訓(xùn)練,最終導(dǎo)出訓(xùn)練準(zhǔn)確率最高的分類模型;

6、所述語音采集模塊,包括麥克風(fēng)及模數(shù)轉(zhuǎn)換器;

7、所述語音采集模塊中的麥克風(fēng)用于采集語音,所述麥克風(fēng)采集的語音經(jīng)過模數(shù)轉(zhuǎn)換器進(jìn)行模數(shù)轉(zhuǎn)換為語音數(shù)據(jù)傳遞給特征提取模塊;

8、所述特征提取模塊,包括小波特征提取單元、濾波特征提取單元、熵特征提取單元;

9、所述小波特征提取單元的數(shù)量為w,所述w大于等于2;

10、所述濾波特征提取單元的數(shù)量為f,所述f大于等于1;

11、所述熵特征提取單元的數(shù)量為e,所述e大于等于1;

12、所述特征提取模塊,接收上述語音數(shù)據(jù),上述三種特征提取單元并行運(yùn)行,分別提取得到w組小波特征、f組濾波特征及e組熵特征的特征數(shù)據(jù);

13、所述w組小波特征、f組濾波特征以及e組熵特征的特征數(shù)據(jù)被傳遞給第一融合特征選擇模塊;

14、所述第一融合特征選擇模塊,包括第一平均mic計(jì)算單元、第一特征選擇單元及第一特征補(bǔ)充單元;

15、所述第一特征選擇單元的數(shù)量為c1,所述c1大于等于2;

16、所述第一融合特征選擇模塊,接收上述特征數(shù)據(jù),利用第一平均mic計(jì)算單元計(jì)算特征與來自醫(yī)生判斷的標(biāo)簽、特征與其他特征的平均mic,根據(jù)此mic上述c1個(gè)第一特征選擇單元并行運(yùn)行,選擇出c1類相應(yīng)數(shù)量的特征,第一特征補(bǔ)充單元根據(jù)上述c1類特征取并集后的數(shù)量與希望保留的特征數(shù)量差補(bǔ)充特征,得到第一次選擇后數(shù)據(jù)并傳遞給自適應(yīng)特征交叉模塊;

17、所述自適應(yīng)特征交叉模塊,包括線性相關(guān)系數(shù)計(jì)算單元、非線性變換單元、克羅內(nèi)克積單元;

18、所述自適應(yīng)特征交叉模塊,接收上述第一次選擇后數(shù)據(jù),利用線性相關(guān)系數(shù)計(jì)算單元計(jì)算特征間平均線性相關(guān)系數(shù),判斷此線性相關(guān)系數(shù)是否大于等于閾值s,若否,即小于閾值s,則將第一次選擇后數(shù)據(jù)作為輸入數(shù)據(jù)傳遞給克羅內(nèi)克積單元;若是,即大于等于閾值s,則將第一次選擇后數(shù)據(jù)經(jīng)非線性變換單元后再作為輸入數(shù)據(jù)傳遞給克羅內(nèi)克積單元??肆_內(nèi)克積單元對(duì)所述輸入數(shù)據(jù)與第一次選擇后數(shù)據(jù)求克羅內(nèi)克積,得到交叉后特征數(shù)據(jù)并傳遞給第二次特征選擇模塊;

19、所述閾值s的取值范圍為0≤s≤1;

20、所述第二特征選擇模塊,包括第二平均mic計(jì)算單元、第二特征選擇單元及第二特征補(bǔ)充單元;

21、所述第一特征選擇單元的數(shù)量為c2,所述c2大于等于2;

22、所述第二特征選擇模塊,接收上述交叉后特征數(shù)據(jù),利用第二平均mic計(jì)算單元計(jì)算特征與標(biāo)簽、特征與其他特征的平均mic,根據(jù)此mic上述c2個(gè)第二特征選擇單元并行運(yùn)行,選擇出c2類相應(yīng)數(shù)量的特征,第二特征補(bǔ)充單元根據(jù)上述c2類特征取并集后的數(shù)量與希望保留的特征數(shù)量差補(bǔ)充特征,得到待分類數(shù)據(jù)并傳遞給模型訓(xùn)練模塊;

23、所述模型訓(xùn)練模塊,包括若干分類模型;

24、所述模型訓(xùn)練模塊,接收上述待分類數(shù)據(jù)后放入若干分類模型中進(jìn)行訓(xùn)練,將訓(xùn)練準(zhǔn)確率最高的模型作為模型訓(xùn)練模塊的輸出。

25、作為本發(fā)明的第二方面,提出了一種基于特征交叉與融合特征選擇的分類方法,包括如下步驟:

26、s1、將采集的語音進(jìn)行模數(shù)轉(zhuǎn)換得到語音數(shù)據(jù)并根據(jù)醫(yī)生的診斷結(jié)果為所述每條語音數(shù)據(jù)添加標(biāo)簽;

27、所述語音數(shù)據(jù)的條數(shù)為x;x的取值范圍為2≤x;

28、s2、從語音數(shù)據(jù)中提取若干種類的特征;

29、所述特征種類數(shù)為n;n的取值范圍為1≤n;

30、每條語音數(shù)據(jù)的第n類特征具有yn個(gè)特征數(shù)據(jù)且所述特征數(shù)據(jù)的種類數(shù)與特征種類數(shù)相同;其中n=1,2,...,n,n為所述特征種類數(shù);所述若干種類的特征的總數(shù)為

31、s3、拼接每條語音數(shù)據(jù)對(duì)應(yīng)的特征數(shù)據(jù),得到拼接后向量再表達(dá)為拼接二維矩陣;

32、所述拼接后向量的長(zhǎng)度為所述拼接二維矩陣為行數(shù)為x,列數(shù)為y的二維矩陣,包括全部x條語音數(shù)據(jù)的特征數(shù)據(jù),每行對(duì)應(yīng)一條語音數(shù)據(jù),每列對(duì)應(yīng)一個(gè)特征;

33、s4、根據(jù)標(biāo)簽對(duì)拼接二維矩陣中的所有特征進(jìn)行第一次融合特征選擇,得到第一次選擇后數(shù)據(jù);

34、所述第一次融合特征選擇,具體為:

35、s41、計(jì)算特征數(shù)據(jù)中的特征與標(biāo)簽的最大互信息系數(shù)以及該特征與其他特征的平均最大化信息系數(shù);

36、所述特征為第y個(gè)特征,其中y=1,2,...,y;所述與標(biāo)簽的最大互信息系數(shù)為mic1y;mic1y的取值范圍為0≤mic1y≤1;所述與其他特征的平均最大化信息系數(shù)為mic2y;mic2y的取值范圍為0≤mic2y≤1;

37、s42、計(jì)算所有特征與標(biāo)簽的最大互信息系數(shù)的均值以及該特征與其他特征的平均最大化信息系數(shù)的均值;

38、所述與標(biāo)簽的最大互信息系數(shù)的均值的取值范圍為所述與其他特征的平均最大化信息系數(shù)的均值的取值范圍為

39、s43、根據(jù)s42中得到的與使用相應(yīng)的特征選擇方法選擇特征數(shù)據(jù)保留,得到選擇后特征;

40、所述s43,具體為:

41、s431、根據(jù)希望保留的特征數(shù)據(jù)數(shù)量使用不同特征選擇方法分別選擇出對(duì)應(yīng)數(shù)量的特征;

42、所述希望保留的特征數(shù)據(jù)數(shù)量為m;m的取值范圍為1≤m≤y;所述特征選擇方法的數(shù)量為c1,且至少含有一個(gè)未考慮特征間相關(guān)性的方法與一個(gè)考慮了特征間相關(guān)性的方法;c1的取值范圍為2≤c1;所述對(duì)應(yīng)數(shù)量為與個(gè);

43、s432、將s431中使用不同特征選擇方法得到的特征取并集后得到待補(bǔ)充的選擇后特征;

44、所述待補(bǔ)充的選擇后特征的數(shù)量為m-m,其中m代表不同特征選擇方法重復(fù)選擇的特征的數(shù)量;

45、s433、補(bǔ)充s432中重復(fù)選擇的特征,得到選擇后特征,具體為:

46、若選擇s431中未考慮特征間相關(guān)性的方法下除去s431的特征之后的m個(gè)不重復(fù)特征進(jìn)行補(bǔ)充,否則選擇s431中考慮了特征間相關(guān)性的方法下除去s431中的特征之后的m個(gè)不重復(fù)特征進(jìn)行補(bǔ)充;

47、s44、根據(jù)選擇后特征選擇s3中的特征數(shù)據(jù),得到第一次選擇后數(shù)據(jù);

48、所述第一次選擇后數(shù)據(jù)的行數(shù)為x,列數(shù)為m,每行對(duì)應(yīng)一條語音數(shù)據(jù),每列對(duì)應(yīng)一個(gè)特征;

49、s5、對(duì)s44中的第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉,得到交叉后特征數(shù)據(jù),具體為:

50、s51、計(jì)算s44中第一次選擇數(shù)據(jù)的每?jī)闪刑卣鲾?shù)據(jù)之間的線性相關(guān)系數(shù)后計(jì)算所有線性相關(guān)系數(shù)的均值;

51、所述線性相關(guān)系數(shù)rij,i,j=1,2,...,m,j≠i;rij的取值范圍為0≤rij≤1;所述線性相關(guān)系數(shù)的均值的取值范圍為

52、s52、若s51中的小于閾值s,分別計(jì)算s34中每行數(shù)據(jù)與自身的克羅內(nèi)克積,否則先計(jì)算每行數(shù)據(jù)經(jīng)過非線性函數(shù)的結(jié)果,再計(jì)算該結(jié)果與該行數(shù)據(jù)的克羅內(nèi)克積;

53、所述閾值s的取值范圍為0≤s≤1;所述克羅內(nèi)克積在兩種情況下均為維度為m的方陣;

54、s53、將s52所得各行數(shù)據(jù)對(duì)應(yīng)的方陣元素排列成行向量,則全部生理數(shù)據(jù)對(duì)應(yīng)的特征數(shù)據(jù)可由一個(gè)二維矩陣表示,稱為交叉特征數(shù)據(jù);

55、所述行向量長(zhǎng)度為m2;所述交叉特征數(shù)據(jù)的行數(shù)為x,列數(shù)為m2,每行對(duì)應(yīng)一條語音數(shù)據(jù),每列對(duì)應(yīng)一個(gè)交叉特征;

56、s6、根據(jù)標(biāo)簽對(duì)s53所得交叉后特征數(shù)據(jù)的交叉特征進(jìn)行第二次融合特征選擇,得到第二次選擇后數(shù)據(jù);

57、所述第二次融合特征選擇,具體為:

58、s61、計(jì)算特征數(shù)據(jù)中的特征與標(biāo)簽的最大互信息系數(shù)以及該特征與其他特征的平均最大化信息系數(shù);

59、所述特征為第z個(gè)特征,其中z=1,2,...,m2;所述與標(biāo)簽的最大互信息系數(shù)為mic3z;mic3z的取值范圍為0≤mic3z≤1;所述與其他特征的平均最大化信息系數(shù)為mic4z;mic4z的取值范圍為0≤mic4z≤1;

60、s62、計(jì)算所有特征與標(biāo)簽的最大互信息系數(shù)的均值以及該特征與其他特征的平均最大化信息系數(shù)的均值;

61、所述與標(biāo)簽的最大互信息系數(shù)的均值的取值范圍為所述與其他特征的平均最大化信息系數(shù)的均值的取值范圍為

62、s63、根據(jù)s62中得到的與使用相應(yīng)的特征選擇方法選擇特征數(shù)據(jù)保留,得到選擇后特征;

63、所述s63,具體為:

64、s631、根據(jù)希望保留的特征數(shù)據(jù)數(shù)量使用不同特征選擇方法分別選擇出對(duì)應(yīng)數(shù)量的特征;

65、所述希望保留的特征數(shù)據(jù)數(shù)量為l;l的取值范圍為1≤l≤m2;所述特征選擇方法的數(shù)量為c2,且至少含有一個(gè)未考慮特征間相關(guān)性的方法與一個(gè)考慮了特征間相關(guān)性的方法;c2的取值范圍為2≤c2;所述對(duì)應(yīng)數(shù)量分別為與個(gè);

66、s632、將s631中使用不同特征選擇方法得到的特征取并集后得到待補(bǔ)充的選擇后特征;

67、所述待補(bǔ)充的選擇后特征的數(shù)量為l-l,其中l(wèi)代表不同特征選擇方法重復(fù)選擇的特征的數(shù)量;

68、s633、補(bǔ)充s632中重復(fù)選擇的特征,得到選擇后特征,具體為:

69、若選擇s631中未考慮特征間相關(guān)性的方法下除去s631的特征之后的l個(gè)不重復(fù)特征進(jìn)行補(bǔ)充,否則選擇s631中考慮了特征間相關(guān)性的方法下除去s631中的特征之后的l個(gè)不重復(fù)特征進(jìn)行補(bǔ)充;

70、s64、根據(jù)選擇后特征選擇s53中的交叉特征數(shù)據(jù),得到待分類數(shù)據(jù);

71、所述待分類數(shù)據(jù)的行數(shù)為x,列數(shù)為l,每行對(duì)應(yīng)一條語音數(shù)據(jù),每列對(duì)應(yīng)一個(gè)特征;

72、s7、將s64所得待分類數(shù)據(jù)按比例劃分為訓(xùn)練集與測(cè)試集;

73、s8、將s7劃分的訓(xùn)練集與標(biāo)簽輸入分類學(xué)習(xí)器訓(xùn)練模型,選擇訓(xùn)練準(zhǔn)確率最高的模型導(dǎo)出;

74、s9、將s7所得測(cè)試集輸入s8所得模型即可得到分類結(jié)果;

75、至此,通過所述s1到s9,完成了一種基于特征交叉與融合特征選擇的分類方法。

76、有益效果

77、本發(fā)明提出的基于特征交叉與融合特征選擇的分類方法及裝置,與現(xiàn)有分類方法及裝置相比,具有如下有益效果:

78、1.所述方法共使用兩次融合特征選擇,改善了進(jìn)行特征交叉時(shí)由于維度爆炸導(dǎo)致交叉特征維數(shù)過多的情況;

79、2.所述融合特征選擇綜合考慮了特征與標(biāo)簽、特征與其他特征間的相關(guān)性,在保證所選特征有效性的基礎(chǔ)上減少了特征間的冗余;

80、3.所述融合特征選擇根據(jù)上述兩類相關(guān)性可自適應(yīng)地調(diào)整使用的特征選擇方法,在面對(duì)特性不同的數(shù)據(jù)時(shí)具有較好的魯棒性;

81、4.所述自適應(yīng)特征交叉能夠在一次計(jì)算過程中完成多于2類特征的交叉;

82、5.所述自適應(yīng)特征交叉在輸出不同類型的特征的交叉結(jié)果的同時(shí)保留了未經(jīng)交叉時(shí)的有效特征;

83、6.所述自適應(yīng)特征交叉能夠根據(jù)待交叉數(shù)據(jù)間的線性相關(guān)度自適應(yīng)地調(diào)整交叉方法,對(duì)線性相關(guān)度高的特征使用非線性函數(shù)進(jìn)行計(jì)算,增強(qiáng)了對(duì)非線性模型的擬合度;

84、7.所述自適應(yīng)特征交叉的非線性函數(shù)計(jì)算只對(duì)待交叉數(shù)據(jù)的單邊使用,改善了同時(shí)存在“特征1交叉特征2”與“特征2交叉特征1”的冗余情況,新生成的“經(jīng)過非線性函數(shù)的特征1交叉特征2”與“經(jīng)過非線性函數(shù)的特征2交叉特征1”豐富了交叉得到的深層特征。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1