本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語(yǔ)音特征提取方法和裝置。
背景技術(shù):
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。其中,人工智能最重要的方面就是語(yǔ)音識(shí)別技術(shù)。
在現(xiàn)有的語(yǔ)音識(shí)別技術(shù)中,可以將一段語(yǔ)音輸入語(yǔ)音識(shí)別網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)語(yǔ)音的識(shí)別,或者語(yǔ)音的分類。但是,由于在現(xiàn)有技術(shù)中,語(yǔ)音識(shí)別網(wǎng)絡(luò)中往往沒(méi)有專門的語(yǔ)音特征提取的層(layers),而是采用全連接層(full contect layer)起到類似提取語(yǔ)音特征的作用。由于語(yǔ)音特征是描述語(yǔ)音特性的重要方式,因此,在現(xiàn)有技術(shù)中缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取的現(xiàn)狀下,現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別準(zhǔn)確度不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
為此,本發(fā)明的第一個(gè)目的在于提出一種基于人工智能的語(yǔ)音特征提取方法,以實(shí)現(xiàn)對(duì)語(yǔ)音特征的提取,解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
本發(fā)明的第二個(gè)目的在于提出一種基于人工智能的語(yǔ)音特征提取裝置。
本發(fā)明的第三個(gè)目的在于提出又一種基于人工智能的語(yǔ)音特征提取裝置。
本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
本發(fā)明的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的語(yǔ)音特征提取方法,所述語(yǔ)音特征用于進(jìn)行語(yǔ)音識(shí)別,所述方法包括以下步驟:
對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖;
利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。
本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音特征提取方法,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而VGG卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的語(yǔ)音特征提取裝置,所述語(yǔ)音特征用于進(jìn)行語(yǔ)音識(shí)別,所述裝置包括:
分析模塊,用于對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖;
提取模塊,用于利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。
本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音特征提取裝置,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而VGG卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種基于人工智能的語(yǔ)音特征提取裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí),實(shí)現(xiàn)第一方面所述的方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明第四方面實(shí)施例提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明第五方面實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品中的指令處理器執(zhí)行時(shí),執(zhí)行第一方面所述的方法。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
附圖說(shuō)明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明實(shí)施例所提供的一種基于人工智能的語(yǔ)音特征提取方法的流程示意圖;
圖2為語(yǔ)譜圖的示意圖;
圖3為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音特征提取方法的結(jié)構(gòu)示意圖;
圖4為VGG卷積神經(jīng)網(wǎng)絡(luò)的配置示意圖;
圖5為VGG卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;
圖6為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音特征提取裝置的結(jié)構(gòu)示意圖;以及
圖7為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音特征提取裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
下面參考附圖描述本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音特征提取方法和裝置。
圖1為本發(fā)明實(shí)施例所提供的一種基于人工智能的語(yǔ)音特征提取方法的流程示意圖。如圖1所示,該基于人工智能的語(yǔ)音特征提取方法包括以下步驟:
步驟101,對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖。
具體地,針對(duì)所述待識(shí)別語(yǔ)音中的各音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;進(jìn)而,根據(jù)各音頻幀的頻譜值,生成語(yǔ)譜圖;其中,語(yǔ)譜圖的橫坐標(biāo)為所述音頻幀所對(duì)應(yīng)的時(shí)間,所述語(yǔ)譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語(yǔ)譜圖的坐標(biāo)點(diǎn)值為所述頻譜值,也就是能量。
進(jìn)一步,針對(duì)待識(shí)別語(yǔ)音中的各音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值之前,首先需要以預(yù)設(shè)采樣周期,對(duì)待識(shí)別語(yǔ)音進(jìn)行采樣,得到各音頻幀,然后利用包含預(yù)設(shè)個(gè)數(shù)濾波器的濾波器組,針對(duì)每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。
例如:可以采用40維的濾波器組,每隔10ms對(duì)所提取的一個(gè)音頻幀進(jìn)行濾波,從而得到一個(gè)40維的向量,向量中每一個(gè)元素對(duì)應(yīng)一個(gè)頻譜分量。從而在根據(jù)頻譜分量進(jìn)行傅里葉變換之后,對(duì)于一段連續(xù)的語(yǔ)音,可以繪制前述的語(yǔ)譜圖,圖2為語(yǔ)譜圖的示意圖,如圖2所示的語(yǔ)譜圖,橫坐標(biāo)為音頻幀所對(duì)應(yīng)的時(shí)間,語(yǔ)譜圖的縱坐標(biāo)為音頻幀所含的頻率分量,語(yǔ)譜圖的坐標(biāo)點(diǎn)值為頻譜值。
步驟102,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。
具體地,通過(guò)前述繪制語(yǔ)譜圖的過(guò)程,將一段語(yǔ)音描述為一幅圖像。本步驟中,可以利用視覺(jué)幾何組(Visual Geometry Group,VGG)卷積神經(jīng)網(wǎng)絡(luò)對(duì)該語(yǔ)譜圖進(jìn)行特征提取,將所提取出的特征作為語(yǔ)音特征。
為了清楚說(shuō)明本實(shí)施例,本實(shí)施例中將對(duì)所采用的VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)要介紹。
VGG卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層,這里池化層的作用在于,在時(shí)域和/或頻域進(jìn)行降采樣。VGG卷積神經(jīng)網(wǎng)絡(luò)中各卷積層的卷積核具有相同大小,同時(shí),后一層卷積層中過(guò)濾器的個(gè)數(shù)為前一層卷積層中過(guò)濾器的整數(shù)倍。
需要注意的是,各池化層在時(shí)域上的總降采樣率應(yīng)當(dāng)小于在頻域上的總降采樣率,也就是說(shuō),各池化層在時(shí)域上的總采樣率應(yīng)當(dāng)大于在頻域上的總采樣率。
這是由于在繪制語(yǔ)譜圖的過(guò)程中,已經(jīng)對(duì)語(yǔ)音在時(shí)域上進(jìn)行了降采樣,即前述的以預(yù)設(shè)采樣周期采樣得到各音頻幀的過(guò)程,因此,在VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行降采樣時(shí),采樣周期將進(jìn)一步加大。為了使得在繪制語(yǔ)譜圖和VGG卷積神經(jīng)網(wǎng)絡(luò)提取特征的這兩個(gè)過(guò)程中,時(shí)域與頻域的采樣率是適應(yīng)的,各池化層在時(shí)域上的總降采樣率應(yīng)當(dāng)小于在頻域上的總降采樣率。
為了獲得更好的語(yǔ)音識(shí)別效果,時(shí)域上的總降采樣率應(yīng)當(dāng)是根據(jù)對(duì)該待識(shí)別語(yǔ)音進(jìn)行語(yǔ)音分類時(shí)的粒度確定的。若時(shí)域最終的總降采樣率和進(jìn)行語(yǔ)音分類時(shí)的粒度不匹配,則會(huì)出現(xiàn)語(yǔ)音識(shí)別效果較差的情況。具體來(lái)說(shuō),語(yǔ)音識(shí)別中通常采用10ms為幀移,也就是采樣周期是10ms,因此,經(jīng)過(guò)池化層在時(shí)域的降采樣之后,采樣周期會(huì)變大。語(yǔ)音分類時(shí)的粒度為音素時(shí),各池化層總計(jì)1/4的時(shí)域降采樣率是合適的,語(yǔ)音分類時(shí)的粒度為字時(shí),各池化層總計(jì)1/8的時(shí)域降采樣率是合適的。
本實(shí)施例中,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而VGG卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
為了清楚說(shuō)明上一實(shí)施例,本實(shí)施例提供了另一種基于人工智能的語(yǔ)音特征提取方法,圖3為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音特征提取方法的結(jié)構(gòu)示意圖,如圖3所示,該語(yǔ)音特征提取方法可以包括以下步驟:
步驟201,建立VGG卷積神經(jīng)網(wǎng)絡(luò),并對(duì)所建立的VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行設(shè)置。
具體地,VGG卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層和池化層。為了清楚說(shuō)明VGG卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),本實(shí)施例提供了一種可能的實(shí)現(xiàn)方式,圖4為VGG卷積神經(jīng)網(wǎng)絡(luò)的配置示意圖,如圖4所示,通過(guò)進(jìn)行如下配置:
“conv64block”,
“pool2d_2X2”,
“conv128block”,
“pool2d_2X2”,
“conv256block”,
“pool2d_2X1”,
“conv512block”,
“pool2d_2X1”
VGG卷積神經(jīng)網(wǎng)絡(luò)包括4個(gè)卷積層,每一個(gè)卷積層后緊接一個(gè)池化層。
具體地,在VGG卷積神經(jīng)網(wǎng)絡(luò)中,首先是卷積層conv64block,本層包括M個(gè)通道,針對(duì)每一個(gè)通道,包括64個(gè)過(guò)濾器,每一個(gè)過(guò)濾器的卷積核的大小均為3X3,從而構(gòu)成了圖4中的卷積層conv64block。
進(jìn)而是池化層pool2d_2X2,通過(guò)池化層進(jìn)行降采樣,具體地,本層在時(shí)域和頻域均以采樣率1/2進(jìn)行降采樣。
接下來(lái)是卷積層conv128block,本層包括N個(gè)通道,針對(duì)每一個(gè)通道,包括128個(gè)過(guò)濾器,每一個(gè)過(guò)濾器的卷積核的大小均為3X3,從而構(gòu)成了圖4中的卷積層conv128block。
進(jìn)而,還是池化層pool2d_2X2,通過(guò)池化層進(jìn)行降采樣,本層在時(shí)域和頻域均以采樣率1/2進(jìn)行降采樣。
接下來(lái)是卷積層conv256block,本層包括K個(gè)通道,針對(duì)每一個(gè)通道,包括256個(gè)過(guò)濾器,每一個(gè)過(guò)濾器的卷積核的大小均為3X3,從而構(gòu)成了圖4中的卷積層conv256block。
進(jìn)而,是池化層pool2d_2X1,通過(guò)池化層進(jìn)行降采樣,本層僅在頻域以采樣率1/2進(jìn)行降采樣。
接下來(lái)是卷積層conv512block,本層包括L個(gè)通道,針對(duì)每一個(gè)通道,包括512個(gè)過(guò)濾器,每一個(gè)過(guò)濾器的卷積核的大小均為3X3,從而構(gòu)成了圖4中的卷積層conv512block。
最后是池化層pool2d_2X1,通過(guò)池化層進(jìn)行降采樣,本層僅在頻域以采樣率1/2進(jìn)行降采樣。
這里的前述的參數(shù)M,N,K,L是可以進(jìn)行人為設(shè)置的,當(dāng)M取值為2,N取值為3,K取值為3且L取值為2時(shí),VGG卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示。
在圖5中“conv2d”表示卷積層,“conv2d”后面的64、128、256或者512用于表示過(guò)濾器的個(gè)數(shù)。“pool2d”表示池化層,“pool2d”后面的“2X2”表示以1/2采樣率對(duì)時(shí)域和頻域進(jìn)行降采樣,“2X1”表示以1/2采樣率對(duì)頻域進(jìn)行降采樣。“-”后面的0、1或2表示序號(hào),用以對(duì)相同結(jié)構(gòu)的池化層或相同結(jié)構(gòu)的卷積層進(jìn)行區(qū)分。
在如圖5所示的VGG卷積神經(jīng)網(wǎng)絡(luò)中,使用了4次池化層用來(lái)降采樣,但是在時(shí)域上降采樣的次數(shù)通常比頻域上少,具體在圖5中,在時(shí)域上降采樣2次,總采樣率為1/4;而在頻域上降采樣了4次,總采樣率為1/16??梢?jiàn),時(shí)域的總采樣率大于頻域的總采樣率,也就是說(shuō),時(shí)域的總降采樣率低于頻域的總降采樣率。另外,如圖5所示的VGG卷積神經(jīng)網(wǎng)絡(luò)中,使用了4次卷積層,每一卷積層中,均使用了3x3的較小卷積核,在整個(gè)模型具有相同感受野的前提下,這種設(shè)計(jì)可以獲得更深的層數(shù)。
步驟202,對(duì)經(jīng)過(guò)設(shè)置的VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
步驟203,將待識(shí)別語(yǔ)音的語(yǔ)譜圖輸入該VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試,得到語(yǔ)音特征。
具體地,首先需要繪制待識(shí)別語(yǔ)音的語(yǔ)譜圖。以預(yù)設(shè)采樣周期,對(duì)待識(shí)別語(yǔ)音進(jìn)行采樣,得到各音頻幀,然后利用包含預(yù)設(shè)個(gè)數(shù)濾波器的濾波器組,針對(duì)每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。針對(duì)各音頻幀,根據(jù)所含的各頻譜分量進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;進(jìn)而,根據(jù)各音頻幀的頻譜值,生成語(yǔ)譜圖;其中,語(yǔ)譜圖的橫坐標(biāo)為所述音頻幀所對(duì)應(yīng)的時(shí)間,所述語(yǔ)譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語(yǔ)譜圖的坐標(biāo)點(diǎn)值為所述頻譜值,也就是能量。進(jìn)而,將語(yǔ)譜圖輸入該VGG卷積神經(jīng)網(wǎng)絡(luò),從而得到語(yǔ)音特征。
步驟204,將語(yǔ)音特征輸入聲學(xué)模型進(jìn)行語(yǔ)音分類處理。
具體地,這里的聲學(xué)模型可以是以音素為建模單元的聲學(xué)模型,也可以是以字為建模單元的聲學(xué)模型,本實(shí)施例中對(duì)此不作限定,但是需要注意的是,VGG卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上的總采樣率是根據(jù)該聲學(xué)模型進(jìn)行語(yǔ)音分類時(shí)的粒度確定的,這里的粒度包括:字和音素。
例如:當(dāng)該聲學(xué)模型進(jìn)行語(yǔ)音分類時(shí)的粒度為音素時(shí),VGG卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上的總采樣率為1/4;當(dāng)該聲學(xué)模型進(jìn)行語(yǔ)音分類時(shí)的粒度為字時(shí),VGG卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上的總采樣率為1/8。
本實(shí)施例中,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而VGG卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種基于人工智能的語(yǔ)音特征提取裝置。
圖6為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音特征提取裝置的結(jié)構(gòu)示意圖。
如圖6所示,該基于人工智能的語(yǔ)音特征提取裝置包括:分析模塊61和提取模塊62。
分析模塊61,用于對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖。
提取模塊62,用于利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。
進(jìn)一步地,在本發(fā)明實(shí)施例的一種可能的實(shí)現(xiàn)方式中,VGG卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層;所述池化層用于在時(shí)域和/或頻域進(jìn)行降采樣;各池化層在時(shí)域上的總降采樣率小于在頻域上的總降采樣率。并且,在時(shí)域上的總降采樣率是根據(jù)對(duì)所述待識(shí)別語(yǔ)音進(jìn)行語(yǔ)音分類時(shí)的粒度確定的。
進(jìn)一步,VGG卷積神經(jīng)網(wǎng)絡(luò)中,后一層卷積層中過(guò)濾器的個(gè)數(shù)為前一層卷積層中過(guò)濾器的整數(shù)倍,且VGG卷積神經(jīng)網(wǎng)絡(luò)中各卷積層的卷積核具有相同大小。
可見(jiàn),通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而VGG卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
需要說(shuō)明的是,前述對(duì)方法實(shí)施例的解釋說(shuō)明也適用于該實(shí)施例的裝置,此處不再贅述。
基于上述實(shí)施例,本發(fā)明實(shí)施例還提供了一種基于人工智能的語(yǔ)音特征提取裝置的可能的實(shí)現(xiàn)方式,圖7為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音特征提取裝置的結(jié)構(gòu)示意圖,如圖7所示,在上一實(shí)施例的基礎(chǔ)上,分析模塊61,包括:采樣單元611、濾波單元612、變換單元613和生成單元614。
采樣單元611,用于以預(yù)設(shè)采樣周期,對(duì)所述待識(shí)別語(yǔ)音進(jìn)行采樣,得到各音頻幀。
濾波單元612,用于利用包含預(yù)設(shè)個(gè)數(shù)濾波器的濾波器組,針對(duì)每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。
變換單元613,用于針對(duì)所述待識(shí)別語(yǔ)音中的各音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值。
生成單元614,用于根據(jù)各音頻幀的頻譜值,生成所述語(yǔ)譜圖。
其中,所述語(yǔ)譜圖的橫坐標(biāo)為所述音頻幀所對(duì)應(yīng)的時(shí)間,所述語(yǔ)譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語(yǔ)譜圖的坐標(biāo)點(diǎn)值為所述頻譜值。
進(jìn)一步,基于人工智能的語(yǔ)音特征提取裝置還包括:設(shè)置模塊63和訓(xùn)練模塊64和分類模塊65。
設(shè)置模塊63,用于預(yù)先對(duì)所述VGG卷積神經(jīng)網(wǎng)絡(luò)中各卷積層的通道數(shù)進(jìn)行設(shè)置。
訓(xùn)練模塊64,用于對(duì)經(jīng)過(guò)設(shè)置的VGG卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
分類模塊65,用于將提取到的語(yǔ)音特征輸入聲學(xué)模型進(jìn)行語(yǔ)音分類處理。
本發(fā)明實(shí)施例中,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用VGG卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而VGG卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出另一種基于人工智能的語(yǔ)音特征提取裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí),實(shí)現(xiàn)前述實(shí)施例中的基于人工智能的語(yǔ)音特征提取方法。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由處理器被執(zhí)行時(shí),使得處理器能夠執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音特征提取方法。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品中的指令處理器執(zhí)行時(shí),執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音特征提取方法。
在本說(shuō)明書的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說(shuō)明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
此外,術(shù)語(yǔ)“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)定制邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書而言,"計(jì)算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個(gè)或多個(gè)布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤盒(磁裝置),隨機(jī)存取存儲(chǔ)器(RAM),只讀存儲(chǔ)器(ROM),可擦除可編輯只讀存儲(chǔ)器(EPROM或閃速存儲(chǔ)器),光纖裝置,以及便攜式光盤只讀存儲(chǔ)器(CDROM)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。如,如果用硬件來(lái)實(shí)現(xiàn)和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。