一種基于特征交叉與融合特征選擇的分類方法及裝置

文檔序號(hào)：40394220發(fā)布日期：2024-12-20 12:17閱讀：2來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于機(jī)器學(xué)習(xí)領(lǐng)域，具體涉及一種基于特征交叉與融合特征選擇的分類方法及裝置。

背景技術(shù)：

1、時(shí)間序列是表示隨時(shí)間延伸采集的一類信號(hào)，該類信號(hào)具有時(shí)間順序特性，是按時(shí)間排序的數(shù)據(jù)點(diǎn)。時(shí)間序列分析既包含對(duì)過去數(shù)據(jù)的診斷，也包括未來數(shù)據(jù)的預(yù)測(cè)。許多應(yīng)用都對(duì)時(shí)間序列的發(fā)展起到了重要貢獻(xiàn)。典型應(yīng)用有：醫(yī)學(xué)、天氣、經(jīng)濟(jì)學(xué)及天文學(xué)等方面。典型的時(shí)間序列分析方法，包括：基于統(tǒng)計(jì)學(xué)的方法、基于機(jī)器學(xué)習(xí)的方法以及集成方法。在使用機(jī)器學(xué)習(xí)進(jìn)行分類的應(yīng)用中，尤其在處理時(shí)間序列數(shù)據(jù)時(shí)具有顯著優(yōu)勢(shì)。這類數(shù)據(jù)廣泛存在于能源、金融及健康等多方面應(yīng)用，如電力負(fù)荷、股票價(jià)格走勢(shì)、心電圖及語音等信號(hào)。通過時(shí)序序列分類，對(duì)未來趨勢(shì)預(yù)測(cè)、對(duì)異常情況檢測(cè)，進(jìn)而做出更明智的決策。語音分類作為聽覺通道的類別學(xué)習(xí)，能幫助個(gè)體迅速識(shí)別、判斷聲音刺激，具有特殊的生存意義。

2、使用何種特征提取與特征選擇是影響最終效果的重要因素。因此，探索新的特征提取與特征選擇長(zhǎng)期以來都是機(jī)器學(xué)習(xí)領(lǐng)域中的研究熱點(diǎn)。在特征提取方面，為了能提取數(shù)據(jù)中的深層特征，常常采用二次特征提取方法，包括：先提取特征再對(duì)提取的特征進(jìn)行特征交叉或者提取完特征后，再對(duì)特征進(jìn)行二次提取、升維或降維操作。所述特征交叉，包括顯式特征交叉和隱式特征交叉。隱式特征交叉通常采用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征交叉，此種方法復(fù)雜度高。顯式特征交叉通?；谝延刑卣鞯木€性變換，如內(nèi)積、笛卡爾積等，該種特征交叉對(duì)非線性模型的擬合度欠佳，一次只能對(duì)兩類特征使用固定的特征交叉方法進(jìn)行交叉，無法根據(jù)已有特征的特點(diǎn)自適應(yīng)選擇最佳交叉方法且交叉后不保留原先的已有特征。在特征選擇方面，雖然已經(jīng)有基于不同原理的多種特征選擇方法被提出，但現(xiàn)有技術(shù)中多采用單一的特征選擇方法，在不同場(chǎng)景下無法總是使用與當(dāng)前待選擇特征最為合適的選擇，因此往往不能取得最佳效果。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于針對(duì)現(xiàn)有顯示特征交叉方法難以擬合非線性模型、每次交叉的特征類型數(shù)有限、自適應(yīng)性差、不保留原有特征以及單一特征選擇導(dǎo)致分類準(zhǔn)確率低的缺陷，提出了一種基于特征交叉與融合特征選擇的分類方法及裝置，所述方法，首先對(duì)受試者的語音信號(hào)進(jìn)行采集，利用采集到的語音數(shù)據(jù)提取多種特征數(shù)據(jù)，所述多種特征數(shù)據(jù)在全部拼接后進(jìn)行第一次融合特征選擇得到第一次選擇后數(shù)據(jù)，所述第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉得到交叉后特征數(shù)據(jù)，所述交叉后特征數(shù)據(jù)在進(jìn)行第二次融合特征選擇后得到的待分類數(shù)據(jù)用于機(jī)器學(xué)習(xí)，通過機(jī)器學(xué)習(xí)最終得到能夠?qū)斎胝Z音數(shù)據(jù)進(jìn)行分類；所述分類裝置用于實(shí)現(xiàn)基于特征交叉與融合特征選擇的分類。

2、為了達(dá)到上述目的，本發(fā)明采取以下技術(shù)方案：

3、作為本發(fā)明的第一方面，提出了一種基于特征交叉與融合特征選擇的分類裝置，包括語音采集模塊、特征提取模塊、第一融合特征選擇模塊、自適應(yīng)特征交叉模塊、第二融合特征選擇模塊及模型訓(xùn)練模塊；

4、所述語音采集模塊與特征提取模塊相連，所述特征提取模塊與第一融合特征選擇模塊相連，所述第一融合特征選擇模塊與自適應(yīng)特征交叉模塊相連，所述自適應(yīng)特征交叉模塊與第二融合特征選擇模塊相連，所述第二融合特征選擇模塊與模型訓(xùn)練模塊相連；

5、所述語音采集模塊將語音信號(hào)進(jìn)行數(shù)模轉(zhuǎn)換成語音數(shù)據(jù)傳遞給特征提取模塊；所述特征提取模塊對(duì)語音數(shù)據(jù)提取多種特征，將得到的多種特征數(shù)據(jù)傳遞給第一融合特征選擇模塊；所述第一融合特征選擇模塊對(duì)特征數(shù)據(jù)選擇預(yù)定數(shù)量的特征，將得到的第一次選擇后數(shù)據(jù)傳遞給自適應(yīng)特征交叉模塊；所述自適應(yīng)特征交叉模塊對(duì)第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉，將得到的交叉后特征數(shù)據(jù)傳遞給第二融合特征選擇模塊；所述第二融合特征選擇模塊對(duì)交叉后特征數(shù)據(jù)選擇預(yù)定數(shù)量的特征，將得到的待分類數(shù)據(jù)傳遞給模型訓(xùn)練模塊；所述模型訓(xùn)練模塊利用上述待分類數(shù)據(jù)進(jìn)行模型訓(xùn)練，最終導(dǎo)出訓(xùn)練準(zhǔn)確率最高的分類模型；

6、所述語音采集模塊，包括麥克風(fēng)及模數(shù)轉(zhuǎn)換器；

7、所述語音采集模塊中的麥克風(fēng)用于采集語音，所述麥克風(fēng)采集的語音經(jīng)過模數(shù)轉(zhuǎn)換器進(jìn)行模數(shù)轉(zhuǎn)換為語音數(shù)據(jù)傳遞給特征提取模塊；

8、所述特征提取模塊，包括小波特征提取單元、濾波特征提取單元、熵特征提取單元；

9、所述小波特征提取單元的數(shù)量為w，所述w大于等于2；

10、所述濾波特征提取單元的數(shù)量為f，所述f大于等于1；

11、所述熵特征提取單元的數(shù)量為e，所述e大于等于1；

12、所述特征提取模塊，接收上述語音數(shù)據(jù)，上述三種特征提取單元并行運(yùn)行，分別提取得到w組小波特征、f組濾波特征及e組熵特征的特征數(shù)據(jù)；

13、所述w組小波特征、f組濾波特征以及e組熵特征的特征數(shù)據(jù)被傳遞給第一融合特征選擇模塊；

14、所述第一融合特征選擇模塊，包括第一平均mic計(jì)算單元、第一特征選擇單元及第一特征補(bǔ)充單元；

15、所述第一特征選擇單元的數(shù)量為c1，所述c1大于等于2；

16、所述第一融合特征選擇模塊，接收上述特征數(shù)據(jù)，利用第一平均mic計(jì)算單元計(jì)算特征與來自醫(yī)生判斷的標(biāo)簽、特征與其他特征的平均mic，根據(jù)此mic上述c1個(gè)第一特征選擇單元并行運(yùn)行，選擇出c1類相應(yīng)數(shù)量的特征，第一特征補(bǔ)充單元根據(jù)上述c1類特征取并集后的數(shù)量與希望保留的特征數(shù)量差補(bǔ)充特征，得到第一次選擇后數(shù)據(jù)并傳遞給自適應(yīng)特征交叉模塊；

17、所述自適應(yīng)特征交叉模塊，包括線性相關(guān)系數(shù)計(jì)算單元、非線性變換單元、克羅內(nèi)克積單元；

18、所述自適應(yīng)特征交叉模塊，接收上述第一次選擇后數(shù)據(jù)，利用線性相關(guān)系數(shù)計(jì)算單元計(jì)算特征間平均線性相關(guān)系數(shù)，判斷此線性相關(guān)系數(shù)是否大于等于閾值s，若否，即小于閾值s，則將第一次選擇后數(shù)據(jù)作為輸入數(shù)據(jù)傳遞給克羅內(nèi)克積單元；若是，即大于等于閾值s,則將第一次選擇后數(shù)據(jù)經(jīng)非線性變換單元后再作為輸入數(shù)據(jù)傳遞給克羅內(nèi)克積單元?？肆_內(nèi)克積單元對(duì)所述輸入數(shù)據(jù)與第一次選擇后數(shù)據(jù)求克羅內(nèi)克積，得到交叉后特征數(shù)據(jù)并傳遞給第二次特征選擇模塊；

19、所述閾值s的取值范圍為0≤s≤1；

20、所述第二特征選擇模塊，包括第二平均mic計(jì)算單元、第二特征選擇單元及第二特征補(bǔ)充單元；

21、所述第一特征選擇單元的數(shù)量為c2，所述c2大于等于2；

22、所述第二特征選擇模塊，接收上述交叉后特征數(shù)據(jù)，利用第二平均mic計(jì)算單元計(jì)算特征與標(biāo)簽、特征與其他特征的平均mic，根據(jù)此mic上述c2個(gè)第二特征選擇單元并行運(yùn)行，選擇出c2類相應(yīng)數(shù)量的特征，第二特征補(bǔ)充單元根據(jù)上述c2類特征取并集后的數(shù)量與希望保留的特征數(shù)量差補(bǔ)充特征，得到待分類數(shù)據(jù)并傳遞給模型訓(xùn)練模塊；

23、所述模型訓(xùn)練模塊，包括若干分類模型；

24、所述模型訓(xùn)練模塊，接收上述待分類數(shù)據(jù)后放入若干分類模型中進(jìn)行訓(xùn)練，將訓(xùn)練準(zhǔn)確率最高的模型作為模型訓(xùn)練模塊的輸出。

25、作為本發(fā)明的第二方面，提出了一種基于特征交叉與融合特征選擇的分類方法，包括如下步驟：

26、s1、將采集的語音進(jìn)行模數(shù)轉(zhuǎn)換得到語音數(shù)據(jù)并根據(jù)醫(yī)生的診斷結(jié)果為所述每條語音數(shù)據(jù)添加標(biāo)簽；

27、所述語音數(shù)據(jù)的條數(shù)為x；x的取值范圍為2≤x；

28、s2、從語音數(shù)據(jù)中提取若干種類的特征；

29、所述特征種類數(shù)為n；n的取值范圍為1≤n；

30、每條語音數(shù)據(jù)的第n類特征具有yn個(gè)特征數(shù)據(jù)且所述特征數(shù)據(jù)的種類數(shù)與特征種類數(shù)相同；其中n＝1,2,...,n，n為所述特征種類數(shù)；所述若干種類的特征的總數(shù)為

31、s3、拼接每條語音數(shù)據(jù)對(duì)應(yīng)的特征數(shù)據(jù)，得到拼接后向量再表達(dá)為拼接二維矩陣；

32、所述拼接后向量的長(zhǎng)度為所述拼接二維矩陣為行數(shù)為x，列數(shù)為y的二維矩陣，包括全部x條語音數(shù)據(jù)的特征數(shù)據(jù)，每行對(duì)應(yīng)一條語音數(shù)據(jù)，每列對(duì)應(yīng)一個(gè)特征；

33、s4、根據(jù)標(biāo)簽對(duì)拼接二維矩陣中的所有特征進(jìn)行第一次融合特征選擇，得到第一次選擇后數(shù)據(jù)；

34、所述第一次融合特征選擇，具體為：

35、s41、計(jì)算特征數(shù)據(jù)中的特征與標(biāo)簽的最大互信息系數(shù)以及該特征與其他特征的平均最大化信息系數(shù)；

36、所述特征為第y個(gè)特征，其中y＝1,2,...,y；所述與標(biāo)簽的最大互信息系數(shù)為mic1y；mic1y的取值范圍為0≤mic1y≤1；所述與其他特征的平均最大化信息系數(shù)為mic2y；mic2y的取值范圍為0≤mic2y≤1；

37、s42、計(jì)算所有特征與標(biāo)簽的最大互信息系數(shù)的均值以及該特征與其他特征的平均最大化信息系數(shù)的均值；

38、所述與標(biāo)簽的最大互信息系數(shù)的均值的取值范圍為所述與其他特征的平均最大化信息系數(shù)的均值的取值范圍為

39、s43、根據(jù)s42中得到的與使用相應(yīng)的特征選擇方法選擇特征數(shù)據(jù)保留，得到選擇后特征；

40、所述s43，具體為：

41、s431、根據(jù)希望保留的特征數(shù)據(jù)數(shù)量使用不同特征選擇方法分別選擇出對(duì)應(yīng)數(shù)量的特征；

42、所述希望保留的特征數(shù)據(jù)數(shù)量為m；m的取值范圍為1≤m≤y；所述特征選擇方法的數(shù)量為c1，且至少含有一個(gè)未考慮特征間相關(guān)性的方法與一個(gè)考慮了特征間相關(guān)性的方法；c1的取值范圍為2≤c1；所述對(duì)應(yīng)數(shù)量為與個(gè)；

43、s432、將s431中使用不同特征選擇方法得到的特征取并集后得到待補(bǔ)充的選擇后特征；

44、所述待補(bǔ)充的選擇后特征的數(shù)量為m-m，其中m代表不同特征選擇方法重復(fù)選擇的特征的數(shù)量；

45、s433、補(bǔ)充s432中重復(fù)選擇的特征，得到選擇后特征，具體為：

46、若選擇s431中未考慮特征間相關(guān)性的方法下除去s431的特征之后的m個(gè)不重復(fù)特征進(jìn)行補(bǔ)充，否則選擇s431中考慮了特征間相關(guān)性的方法下除去s431中的特征之后的m個(gè)不重復(fù)特征進(jìn)行補(bǔ)充；

47、s44、根據(jù)選擇后特征選擇s3中的特征數(shù)據(jù)，得到第一次選擇后數(shù)據(jù)；

48、所述第一次選擇后數(shù)據(jù)的行數(shù)為x，列數(shù)為m，每行對(duì)應(yīng)一條語音數(shù)據(jù)，每列對(duì)應(yīng)一個(gè)特征；

49、s5、對(duì)s44中的第一次選擇后數(shù)據(jù)進(jìn)行自適應(yīng)特征交叉，得到交叉后特征數(shù)據(jù)，具體為：

50、s51、計(jì)算s44中第一次選擇數(shù)據(jù)的每?jī)闪刑卣鲾?shù)據(jù)之間的線性相關(guān)系數(shù)后計(jì)算所有線性相關(guān)系數(shù)的均值；

51、所述線性相關(guān)系數(shù)rij，i,j＝1,2,...,m，j≠i；rij的取值范圍為0≤rij≤1；所述線性相關(guān)系數(shù)的均值的取值范圍為

52、s52、若s51中的小于閾值s，分別計(jì)算s34中每行數(shù)據(jù)與自身的克羅內(nèi)克積，否則先計(jì)算每行數(shù)據(jù)經(jīng)過非線性函數(shù)的結(jié)果，再計(jì)算該結(jié)果與該行數(shù)據(jù)的克羅內(nèi)克積；

53、所述閾值s的取值范圍為0≤s≤1；所述克羅內(nèi)克積在兩種情況下均為維度為m的方陣；

54、s53、將s52所得各行數(shù)據(jù)對(duì)應(yīng)的方陣元素排列成行向量，則全部生理數(shù)據(jù)對(duì)應(yīng)的特征數(shù)據(jù)可由一個(gè)二維矩陣表示，稱為交叉特征數(shù)據(jù)；

55、所述行向量長(zhǎng)度為m2；所述交叉特征數(shù)據(jù)的行數(shù)為x，列數(shù)為m2，每行對(duì)應(yīng)一條語音數(shù)據(jù)，每列對(duì)應(yīng)一個(gè)交叉特征；

56、s6、根據(jù)標(biāo)簽對(duì)s53所得交叉后特征數(shù)據(jù)的交叉特征進(jìn)行第二次融合特征選擇，得到第二次選擇后數(shù)據(jù)；

57、所述第二次融合特征選擇，具體為：

58、s61、計(jì)算特征數(shù)據(jù)中的特征與標(biāo)簽的最大互信息系數(shù)以及該特征與其他特征的平均最大化信息系數(shù)；

59、所述特征為第z個(gè)特征，其中z＝1,2,...,m2；所述與標(biāo)簽的最大互信息系數(shù)為mic3z；mic3z的取值范圍為0≤mic3z≤1；所述與其他特征的平均最大化信息系數(shù)為mic4z；mic4z的取值范圍為0≤mic4z≤1；

60、s62、計(jì)算所有特征與標(biāo)簽的最大互信息系數(shù)的均值以及該特征與其他特征的平均最大化信息系數(shù)的均值；

61、所述與標(biāo)簽的最大互信息系數(shù)的均值的取值范圍為所述與其他特征的平均最大化信息系數(shù)的均值的取值范圍為

62、s63、根據(jù)s62中得到的與使用相應(yīng)的特征選擇方法選擇特征數(shù)據(jù)保留，得到選擇后特征；

63、所述s63，具體為：

64、s631、根據(jù)希望保留的特征數(shù)據(jù)數(shù)量使用不同特征選擇方法分別選擇出對(duì)應(yīng)數(shù)量的特征；

65、所述希望保留的特征數(shù)據(jù)數(shù)量為l；l的取值范圍為1≤l≤m2；所述特征選擇方法的數(shù)量為c2，且至少含有一個(gè)未考慮特征間相關(guān)性的方法與一個(gè)考慮了特征間相關(guān)性的方法；c2的取值范圍為2≤c2；所述對(duì)應(yīng)數(shù)量分別為與個(gè)；

66、s632、將s631中使用不同特征選擇方法得到的特征取并集后得到待補(bǔ)充的選擇后特征；

67、所述待補(bǔ)充的選擇后特征的數(shù)量為l-l，其中l(wèi)代表不同特征選擇方法重復(fù)選擇的特征的數(shù)量；

68、s633、補(bǔ)充s632中重復(fù)選擇的特征，得到選擇后特征，具體為：

69、若選擇s631中未考慮特征間相關(guān)性的方法下除去s631的特征之后的l個(gè)不重復(fù)特征進(jìn)行補(bǔ)充，否則選擇s631中考慮了特征間相關(guān)性的方法下除去s631中的特征之后的l個(gè)不重復(fù)特征進(jìn)行補(bǔ)充；

70、s64、根據(jù)選擇后特征選擇s53中的交叉特征數(shù)據(jù)，得到待分類數(shù)據(jù)；

71、所述待分類數(shù)據(jù)的行數(shù)為x，列數(shù)為l，每行對(duì)應(yīng)一條語音數(shù)據(jù)，每列對(duì)應(yīng)一個(gè)特征；

72、s7、將s64所得待分類數(shù)據(jù)按比例劃分為訓(xùn)練集與測(cè)試集；

73、s8、將s7劃分的訓(xùn)練集與標(biāo)簽輸入分類學(xué)習(xí)器訓(xùn)練模型，選擇訓(xùn)練準(zhǔn)確率最高的模型導(dǎo)出；

74、s9、將s7所得測(cè)試集輸入s8所得模型即可得到分類結(jié)果；

75、至此，通過所述s1到s9，完成了一種基于特征交叉與融合特征選擇的分類方法。

76、有益效果

77、本發(fā)明提出的基于特征交叉與融合特征選擇的分類方法及裝置，與現(xiàn)有分類方法及裝置相比，具有如下有益效果：

78、1.所述方法共使用兩次融合特征選擇，改善了進(jìn)行特征交叉時(shí)由于維度爆炸導(dǎo)致交叉特征維數(shù)過多的情況；

79、2.所述融合特征選擇綜合考慮了特征與標(biāo)簽、特征與其他特征間的相關(guān)性，在保證所選特征有效性的基礎(chǔ)上減少了特征間的冗余；

80、3.所述融合特征選擇根據(jù)上述兩類相關(guān)性可自適應(yīng)地調(diào)整使用的特征選擇方法，在面對(duì)特性不同的數(shù)據(jù)時(shí)具有較好的魯棒性；

81、4.所述自適應(yīng)特征交叉能夠在一次計(jì)算過程中完成多于2類特征的交叉；

82、5.所述自適應(yīng)特征交叉在輸出不同類型的特征的交叉結(jié)果的同時(shí)保留了未經(jīng)交叉時(shí)的有效特征；

83、6.所述自適應(yīng)特征交叉能夠根據(jù)待交叉數(shù)據(jù)間的線性相關(guān)度自適應(yīng)地調(diào)整交叉方法，對(duì)線性相關(guān)度高的特征使用非線性函數(shù)進(jìn)行計(jì)算，增強(qiáng)了對(duì)非線性模型的擬合度；

84、7.所述自適應(yīng)特征交叉的非線性函數(shù)計(jì)算只對(duì)待交叉數(shù)據(jù)的單邊使用，改善了同時(shí)存在“特征1交叉特征2”與“特征2交叉特征1”的冗余情況，新生成的“經(jīng)過非線性函數(shù)的特征1交叉特征2”與“經(jīng)過非線性函數(shù)的特征2交叉特征1”豐富了交叉得到的深層特征。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮立輝,李兆軍,劉海寬,高捷,唐星澤,盧繼華
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種礦用智能巡視裝置的制作方法
上一篇：適用于井道鉆孔平臺(tái)中的四軸調(diào)節(jié)座的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于特征交叉與融合特征選擇的分類方法及裝置