亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于人工智能的語(yǔ)音特征提取方法和裝置與流程

文檔序號(hào):12806111閱讀:278來(lái)源:國(guó)知局
基于人工智能的語(yǔ)音特征提取方法和裝置與流程

本發(fā)明涉及語(yǔ)音識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語(yǔ)音特征提取方法和裝置。



背景技術(shù):

人工智能(artificialintelligence),英文縮寫(xiě)為ai。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。其中,人工智能最重要的方面就是語(yǔ)音識(shí)別技術(shù)。

在現(xiàn)有的語(yǔ)音識(shí)別技術(shù)中,可以將一段語(yǔ)音輸入語(yǔ)音識(shí)別網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)語(yǔ)音的識(shí)別,或者語(yǔ)音的分類。但是,由于在現(xiàn)有技術(shù)中,語(yǔ)音識(shí)別網(wǎng)絡(luò)中往往沒(méi)有專門(mén)的語(yǔ)音特征提取的層(layers),而是采用全連接層(fullcontectlayer)起到類似提取語(yǔ)音特征的作用。由于語(yǔ)音特征是描述語(yǔ)音特性的重要方式,因此,在現(xiàn)有技術(shù)中缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取的現(xiàn)狀下,現(xiàn)有技術(shù)中的語(yǔ)音識(shí)別準(zhǔn)確度不高。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。

為此,本發(fā)明的第一個(gè)目的在于提出一種基于人工智能的語(yǔ)音特征提取方法,以實(shí)現(xiàn)對(duì)語(yǔ)音特征的提取,解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

本發(fā)明的第二個(gè)目的在于提出一種基于人工智能的語(yǔ)音特征提取裝置。

本發(fā)明的第三個(gè)目的在于提出又一種基于人工智能的語(yǔ)音特征提取裝置。

本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。

本發(fā)明的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。

為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的語(yǔ)音特征提取方法,所述語(yǔ)音特征用于進(jìn)行語(yǔ)音識(shí)別,所述方法包括以下步驟:

對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖;

利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。

其中,所述輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層;每一個(gè)卷積層包括至少兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,所述第一通道和所述第二通道分別采用不同的非線性激活函數(shù)。

本發(fā)明實(shí)施例提出的基于人工智能的語(yǔ)音特征提取方法,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的語(yǔ)音特征提取的裝置,所述語(yǔ)音特征用于進(jìn)行語(yǔ)音的識(shí)別,所述裝置包括:

分析模塊,用于對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖;

特征提取模塊,用于利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。

其中,所述輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層;每一個(gè)卷積層包括至少兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,所述第一通道和所述第二通道分別采用不同的非線性激活函數(shù)。

本發(fā)明實(shí)施例提出的基于人工智能的語(yǔ)音特征提取裝置,分析模塊用于對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖,特征提取模塊,用于利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了一種基于人工智能的語(yǔ)音特征提取方法的裝置,包括存儲(chǔ)器,處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí),實(shí)現(xiàn)第一方面所述的方法。

為達(dá)上述目的,本發(fā)明第四方面實(shí)施例提出了一種非臨時(shí)性可讀計(jì)算機(jī)存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)第一方面所述的方法。

為達(dá)上述目的,本發(fā)明第五方面實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述程序產(chǎn)品中的指令被處理器執(zhí)行時(shí),執(zhí)行第一方面所述的方法。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。

附圖說(shuō)明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:

圖1為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音提取方法的流程示意圖;

圖2為語(yǔ)譜圖的示意圖;

圖3為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音提取方法的結(jié)構(gòu)示意;

圖4為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的配置示意圖;

圖5為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv64block的結(jié)構(gòu)示意圖;

圖6為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv128block的結(jié)構(gòu)示意圖;

圖7為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv256block的結(jié)構(gòu)示意圖;

圖8為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv512block的結(jié)構(gòu)示意圖;

圖9為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;

圖10為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音提取方法的裝置的結(jié)構(gòu)示意圖;以及

圖11為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音提取方法的裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。

下面參考附圖描述本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音特征提取方法和裝置。

圖1為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音特征提取方法的流程示意圖。

如圖1所示,該基于人工智能的語(yǔ)音特征提取方法包括以下步驟:

步驟101,對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖。

具體地,針對(duì)待識(shí)別語(yǔ)音中的各音頻幀進(jìn)行傅里葉變換,得到各音頻幀的頻譜值;進(jìn)而,根據(jù)各音頻幀的頻譜值,生成語(yǔ)譜圖;其中,語(yǔ)譜圖的橫坐標(biāo)是音頻幀對(duì)應(yīng)的時(shí)間,語(yǔ)譜圖的縱坐標(biāo)是音頻幀所含的頻率分量,語(yǔ)譜圖的坐標(biāo)點(diǎn)值是音頻幀對(duì)應(yīng)的頻譜值,即能量。

進(jìn)一步,對(duì)待識(shí)別語(yǔ)音進(jìn)行傅里葉變換之前,首先需要根據(jù)預(yù)設(shè)的采樣周期,對(duì)待識(shí)別語(yǔ)音進(jìn)行采樣,得到各音頻幀,然后利用包含預(yù)設(shè)個(gè)數(shù)濾波器的濾波器組,針對(duì)每一音頻幀進(jìn)行濾波,得到音頻幀所含的各頻譜分量。

例如,可以利用40維的濾波器組,每10ms對(duì)要提供的音頻幀進(jìn)行濾波,從而得到一個(gè)40維的向量,向量中每一個(gè)元素對(duì)應(yīng)一個(gè)頻譜分量,從而在根據(jù)頻譜分量進(jìn)行傅里葉變換后,對(duì)于一段連續(xù)的語(yǔ)音,可以繪制前述的語(yǔ)譜圖,圖2為語(yǔ)譜圖的示意圖,如圖2所示的語(yǔ)譜圖,語(yǔ)譜圖的橫坐標(biāo)是音頻幀對(duì)應(yīng)的時(shí)間,語(yǔ)譜圖的縱坐標(biāo)是音頻幀所含的頻率分量,語(yǔ)譜圖的坐標(biāo)點(diǎn)值是音頻幀對(duì)應(yīng)的頻譜值。

步驟102,利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。

具體地,通過(guò)前述語(yǔ)譜圖繪制的過(guò)程,將一段待識(shí)別的語(yǔ)音描述為一幅圖像,本步驟中,通過(guò)輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,將所提取出的特征作為語(yǔ)音特征。

為清楚說(shuō)明本實(shí)施例,本實(shí)施例中將對(duì)所采用的輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行簡(jiǎn)要的介紹。

輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層,這里池化層的作用在于,在時(shí)域和/或頻域進(jìn)行降采樣。輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)中各卷積層均由有向無(wú)環(huán)圖(databaseavailabilitygroup,dag)組成,每一個(gè)卷積層至少包括兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,第一通道和第二通道分別采用不同的非線性激活函數(shù),第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,所有的卷積層都設(shè)有非線性激活函數(shù),卷積層的卷積核具有相同大小,同時(shí),后一層卷積層中濾波器的個(gè)數(shù)為前一層卷積層中濾波器的整數(shù)倍。

需要注意的是,各池化層在時(shí)域上的總降采樣率應(yīng)當(dāng)小于在頻域上的總降采樣率,也就是說(shuō),各池化層在時(shí)域上的總采樣率應(yīng)當(dāng)大于在頻域上的總采樣率。

這是由于在繪制語(yǔ)譜圖的過(guò)程中,已經(jīng)對(duì)語(yǔ)音在時(shí)域上進(jìn)行了降采樣,即前述的以預(yù)設(shè)采樣周期采樣得到各音頻幀的過(guò)程,因此,在輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行降采樣時(shí),采樣周期將進(jìn)一步加大。為了使得在繪制語(yǔ)譜圖和輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)提取特征的這兩個(gè)過(guò)程中,時(shí)域與頻域的采樣率是適應(yīng)的,各池化層在時(shí)域上的總降采樣率應(yīng)當(dāng)小于在頻域上的總降采樣率。

為了獲得更好的語(yǔ)音識(shí)別效果,時(shí)域上的總降采樣率應(yīng)當(dāng)是根據(jù)對(duì)該待識(shí)別語(yǔ)音進(jìn)行語(yǔ)音分類時(shí)的粒度確定的。若時(shí)域最終的總降采樣率和進(jìn)行語(yǔ)音分類時(shí)的粒度不匹配,則會(huì)出現(xiàn)語(yǔ)音識(shí)別效果較差的情況。具體來(lái)說(shuō),語(yǔ)音識(shí)別中通常采用10ms為幀移,也就是采樣周期是10ms,因此,經(jīng)過(guò)池化層在時(shí)域的降采樣之后,采樣周期會(huì)變大。語(yǔ)音分類時(shí)的粒度為音素時(shí),各池化層總計(jì)1/4的時(shí)域降采樣率是合適的,語(yǔ)音分類時(shí)的粒度為字時(shí),各池化層總計(jì)1/8的時(shí)域降采樣率是合適的。

本實(shí)施例中,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

為清楚說(shuō)明上一實(shí)施例,本發(fā)明提出了另一種基于人工智能的語(yǔ)音特征提取方法,圖3為本發(fā)明實(shí)施例提出的另一種基于人工智能的語(yǔ)音特征提取方法的結(jié)構(gòu)示意圖,如圖3所示,該基于人工智能的語(yǔ)音特征提取方法包括以下步驟:

步驟201,建立輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)。

具體地,輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層和池化層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層。為了清楚的說(shuō)明輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),本實(shí)施例提供了一種可能的實(shí)現(xiàn)方式,圖4為輸出門(mén)神經(jīng)網(wǎng)絡(luò)的配置圖示意圖,如圖4所示,配置如下:

卷積層“conv64block”,

池化層“pool2d_2x2”,

卷積層“conv128block”,

池化層“pool2d_2x2”,

卷積層“conv256block”,

池化層“pool2d_2x1”,

卷積層“conv512block”,

池化層“pool2d_2x1”

輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)包括4個(gè)卷積層,每一個(gè)卷積層后緊鄰一個(gè)池化層。輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層的結(jié)構(gòu)即為輸出門(mén)的算法特征,為進(jìn)一步清楚的說(shuō)明輸出門(mén)的算法特征,對(duì)該卷積層的結(jié)構(gòu)做進(jìn)一步解釋,作為一種可能的實(shí)現(xiàn)方式,圖5至圖8為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層的結(jié)構(gòu)示意圖。

在圖5至圖8中,“copy”是把輸入復(fù)制為若干份,“copy”后面的1、2、3和4代表該卷積層的輸入,“multi”是將輸入乘在一起,“conv2d”表示卷積層,“conv2d”后面的64、128、256和512表示濾波器的個(gè)數(shù),3x3表示濾波器卷積核的大小,“-”后面的數(shù)字1、2、3或4,代表序號(hào),用以對(duì)相同的部分加以區(qū)分,例如,tanh-1和tanh-2代表相同的激活函數(shù),只是用不同的編號(hào)加以區(qū)分。

具體地,在輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)中,首先是卷積層conv64block,本層由卷積有向無(wú)環(huán)圖(databaseavailabilitygroup,dag)組成,圖5為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv64block的結(jié)構(gòu)示意圖。

如圖5所示,卷積層conv64block,包括兩層,c01層和c02層,co1層的輸出做為后層co2層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。

具體地,co1層中,第一通道和第二通道分別包括64個(gè)濾波器,每一個(gè)濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為第一層c01層的輸出,該輸出即為第二層co2層的輸入。c02層的結(jié)構(gòu)和c01層的結(jié)構(gòu)相同,此處不做贅述,從而由c01層和c02層構(gòu)成了圖4中的卷積層conv64block。

進(jìn)而是池化層pool2d_2x2,通過(guò)池化層進(jìn)行降采樣,具體地,本層在時(shí)域和頻域均以采樣率1/2進(jìn)行降采樣。

接下來(lái)是卷積層conv128block,本層由一個(gè)卷積有向無(wú)環(huán)圖(dag)組成,圖6為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv128block的結(jié)構(gòu)示意圖。

如圖6所示,卷積層conv128block,包括兩層,c03層和c04層,co3層的輸出做為后層co4層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。

具體地,co3層中,第一通道和第二通道分別包括128個(gè)濾波器,每一個(gè)濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為第一層c03層的輸出,該輸出即為第二層co4層的輸入。c04層的結(jié)構(gòu)和c03層的結(jié)構(gòu)相同,此處不做贅述,從而由c03層和c04層構(gòu)成了圖4中的卷積層conv128block。

進(jìn)而是池化層pool2d_2x2,通過(guò)池化層進(jìn)行降采樣,具體地,本層在時(shí)域和頻域均以采樣率1/2進(jìn)行降采樣。

接下來(lái)是卷積層conv256block,本層由一個(gè)卷積有向無(wú)環(huán)圖(dag)組成,圖7為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv256block的結(jié)構(gòu)示意圖。

如圖7所示,卷積層conv256block,包括兩層,c05層和c06層,co5層的輸出做為后層co6層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。

具體地,co5層中,第一通道和第二通道分別包括256個(gè)濾波器,每一個(gè)濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為c05層的輸出,該輸出即為co6層的輸入。c06層的結(jié)構(gòu)和c05層的結(jié)構(gòu)相同,此處不做贅述,從而由c05層和c06層構(gòu)成了圖4中的卷積層conv256block。

進(jìn)而是池化層pool2d_2x2,通過(guò)池化層進(jìn)行降采樣,具體地,本層僅在頻域以采樣率1/2進(jìn)行降采樣。

接下來(lái)是卷積層conv512block,本層由一個(gè)卷積有向無(wú)環(huán)圖(dag)組成,圖8為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的卷積層conv512block的結(jié)構(gòu)示意圖。

如圖8所示,卷積層conv512block,包括兩層,c07層和c08層,co7層的輸出做為后層co8層的輸入,每一層包括第一通道和第二通道,每一通道中都設(shè)有非線性激活函數(shù)。

具體地,co7層中,第一通道和第二通道分別包括512個(gè)濾波器,每一個(gè)濾波器的卷積核大小均是3x3,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid,將第一通道和第二通道的輸出相乘在一起,作為c07層的輸出,該輸出即為co8層的輸入。c08層的結(jié)構(gòu)和c07層的結(jié)構(gòu)相同,此處不做贅述,從而由c07層和c08層構(gòu)成了圖4中的卷積層conv512block。

進(jìn)而是池化層pool2d_2x2,通過(guò)池化層進(jìn)行降采樣,具體地,本層僅在頻域以采樣率1/2進(jìn)行降采樣。

為了更清楚的說(shuō)明輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),本實(shí)施例提供了一種可能的實(shí)現(xiàn)方式,圖9為輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。

如圖9所示的輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)中,使用了4次池化層用來(lái)降采樣,但是在時(shí)域上降采樣的次數(shù)通常比頻域上少,具體在圖9中,在時(shí)域上降采樣2次,總采樣率為1/4;而在頻域上降采樣了4次,總采樣率為1/16??梢?jiàn),時(shí)域的總采樣率大于頻域的總采樣率,也就是說(shuō),時(shí)域的總降采樣率低于頻域的總降采樣率。另外,如圖9所示的輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)中,使用了4次卷積層,每個(gè)卷積層包含兩層,前層的輸出作為后層的輸入,每一層含有兩個(gè)通道,每個(gè)通道設(shè)有不同的非線性激活函數(shù)。

步驟202,對(duì)經(jīng)過(guò)設(shè)置的輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

步驟203,將待識(shí)別語(yǔ)音的語(yǔ)譜圖輸入該輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行測(cè)試,得到語(yǔ)音特征。

具體地,首先需要繪制待識(shí)別語(yǔ)音的語(yǔ)譜圖。以預(yù)設(shè)采樣周期,對(duì)待識(shí)別語(yǔ)音進(jìn)行采樣,得到各音頻幀,然后利用包含預(yù)設(shè)個(gè)數(shù)濾波器的濾波器組,針對(duì)每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。針對(duì)各音頻幀,根據(jù)所含的各頻譜分量進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值;進(jìn)而,根據(jù)各音頻幀的頻譜值,生成語(yǔ)譜圖;其中,語(yǔ)譜圖的橫坐標(biāo)為所述音頻幀所對(duì)應(yīng)的時(shí)間,所述語(yǔ)譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語(yǔ)譜圖的坐標(biāo)點(diǎn)值為所述頻譜值,也就是能量。進(jìn)而,將語(yǔ)譜圖輸入該輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò),從而得到語(yǔ)音特征。

步驟204,將語(yǔ)音特征輸入聲學(xué)模型進(jìn)行語(yǔ)音分類處理。

具體地,這里的聲學(xué)模型可以是以音素為建模單元的聲學(xué)模型,也可以是以字為建模單元的聲學(xué)模型,本實(shí)施例中對(duì)此不作限定,但是需要注意的是,輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上的總采樣率是根據(jù)該聲學(xué)模型進(jìn)行語(yǔ)音分類時(shí)的粒度確定的,這里的粒度包括:字和音素。

例如:當(dāng)該聲學(xué)模型進(jìn)行語(yǔ)音分類時(shí)的粒度為音素時(shí),輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上的總采樣率為1/4;當(dāng)該聲學(xué)模型進(jìn)行語(yǔ)音分類時(shí)的粒度為字時(shí),輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)在時(shí)域上的總采樣率為1/8。

本實(shí)施例中,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種基于人工智能的語(yǔ)音特征提取裝置。

圖10為本發(fā)明實(shí)施例提供的一種基于人工智能的語(yǔ)音特征提取裝置的結(jié)構(gòu)示意圖。

如圖10所示,該基于人工智能的語(yǔ)音特征提取裝置包括:分析模塊10和特征提取模塊20。

分析模塊10,用于對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到所述待識(shí)別語(yǔ)音的語(yǔ)譜圖。

特征提取模塊20,用于利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所述語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。

進(jìn)一步地,在本發(fā)明實(shí)施例的一種可能的實(shí)現(xiàn)方式中,輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)包括多個(gè)卷積層,每一個(gè)卷積層后連接一個(gè)對(duì)應(yīng)的池化層。卷積層包括至少兩層,前層的輸出作為后層的輸入,每一層包括第一通道和第二通道,第一通道和第二通道分別采用不同的非線性激活函數(shù),其中,第一通道的非線性激活函數(shù)為雙曲函數(shù)tanh,第二通道的非線性激活函數(shù)為s型函數(shù)sigmoid。池化層用于在時(shí)域和/或頻域進(jìn)行降采樣,各池化層在時(shí)域上的總降采樣率小于在頻域上的總降采樣率。并且,在時(shí)域上的總降采樣率是根據(jù)對(duì)所述待識(shí)別語(yǔ)音進(jìn)行語(yǔ)音分類時(shí)的粒度確定的。

進(jìn)一步,輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)中,后一層卷積層中過(guò)濾器的個(gè)數(shù)為前一層卷積層中過(guò)濾器的整數(shù)倍,且輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)中各卷積層的卷積核具有相同大小。

可見(jiàn),通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

需要說(shuō)明的是,前述對(duì)方法實(shí)施例的解釋說(shuō)明也適用于該實(shí)施例的裝置,此處不再贅述。

基于上述實(shí)施例,本發(fā)明實(shí)施例還提供了一種基于人工智能的語(yǔ)音特征提取裝置的可能的實(shí)現(xiàn)方式,圖11為本發(fā)明實(shí)施例提供的另一種基于人工智能的語(yǔ)音特征提取裝置的結(jié)構(gòu)示意圖,如圖11所示,在上一實(shí)施例的基礎(chǔ)上,分析模塊10,包括:采樣單元11、變換單元12和生成單元13。

采樣單元11,用于以預(yù)設(shè)采樣周期,對(duì)所述待識(shí)別語(yǔ)音進(jìn)行采樣,得到各音頻幀,針對(duì)每一音頻幀進(jìn)行濾波,得到所述音頻幀所含的各頻譜分量。

變換單元12,用于針對(duì)所述待識(shí)別語(yǔ)音中的各音頻幀進(jìn)行傅里葉變換,得到所述音頻幀的頻譜值。

生成單元13,用于根據(jù)各音頻幀的頻譜值,生成所述語(yǔ)譜圖。

其中,所述語(yǔ)譜圖的橫坐標(biāo)為所述音頻幀所對(duì)應(yīng)的時(shí)間,所述語(yǔ)譜圖的縱坐標(biāo)為所述音頻幀所含的頻率分量,所述語(yǔ)譜圖的坐標(biāo)點(diǎn)值為所述頻譜值。

進(jìn)一步,基于人工智能的語(yǔ)音特征提取裝置還包括:訓(xùn)練測(cè)試模塊30和分類模塊40。

訓(xùn)練測(cè)試模塊30,用于對(duì)輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試。

分類模塊40,用于將提取到的語(yǔ)音特征輸入聲學(xué)模型進(jìn)行語(yǔ)音分類處理。

需要說(shuō)明的是,前述對(duì)方法實(shí)施例的解釋說(shuō)明也適用于該實(shí)施例的裝置,此處不再贅述。

本發(fā)明實(shí)施例中,通過(guò)對(duì)待識(shí)別語(yǔ)音進(jìn)行頻譜分析,得到待識(shí)別語(yǔ)音的語(yǔ)譜圖之后,利用輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)譜圖進(jìn)行特征提取,得到語(yǔ)音特征。由于語(yǔ)譜圖能夠?qū)ΥR(shí)別語(yǔ)音以圖像的方式進(jìn)行描述,而輸出門(mén)卷積神經(jīng)網(wǎng)絡(luò)又是一種對(duì)圖像進(jìn)行處理的有效方式,因此,采用這種方式所提取出的語(yǔ)音特征能夠?qū)φZ(yǔ)音的特性進(jìn)行準(zhǔn)確描述。當(dāng)根據(jù)所提取出的語(yǔ)音特征在進(jìn)行語(yǔ)音識(shí)別時(shí),能夠解決現(xiàn)有技術(shù)中由于缺乏對(duì)語(yǔ)音特征進(jìn)行有效提取所導(dǎo)致的語(yǔ)音識(shí)別準(zhǔn)確度不高的技術(shù)問(wèn)題。

為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出另一種基于人工智能的語(yǔ)音特征提取裝置,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí),實(shí)現(xiàn)前述實(shí)施例中的基于人工智能的語(yǔ)音特征提取方法。

為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由處理器執(zhí)行時(shí),能夠執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音特征提取方法。

為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品中的指令由處理器執(zhí)行時(shí),執(zhí)行前述實(shí)施例中的基于人工智能的語(yǔ)音特征提取方法。

在本說(shuō)明書(shū)的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書(shū)中,對(duì)上述術(shù)語(yǔ)的示意性表述不必須針對(duì)的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說(shuō)明書(shū)中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

此外,術(shù)語(yǔ)“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。

流程圖中或在此以其他方式描述的任何過(guò)程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)定制邏輯功能或過(guò)程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來(lái)執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。

在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書(shū)而言,"計(jì)算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個(gè)或多個(gè)布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤(pán)盒(磁裝置),隨機(jī)存取存儲(chǔ)器(ram),只讀存儲(chǔ)器(rom),可擦除可編輯只讀存儲(chǔ)器(eprom或閃速存儲(chǔ)器),光纖裝置,以及便攜式光盤(pán)只讀存儲(chǔ)器(cdrom)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。

應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。如,如果用硬件來(lái)實(shí)現(xiàn)和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門(mén)電路的離散邏輯電路,具有合適的組合邏輯門(mén)電路的專用集成電路,可編程門(mén)陣列(pga),現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)等。

本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。

此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。

上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1