亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種融合了短時(shí)與長(zhǎng)時(shí)特征建模的環(huán)境聲識(shí)別方法及裝置的制造方法

文檔序號(hào):9889519閱讀:283來(lái)源:國(guó)知局
一種融合了短時(shí)與長(zhǎng)時(shí)特征建模的環(huán)境聲識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及環(huán)境聲識(shí)別領(lǐng)域,特別設(shè)及環(huán)境聲的聲學(xué)建模領(lǐng)域。
【背景技術(shù)】
[0002] 近年來(lái),針對(duì)非語(yǔ)音感知的研究已逐漸成為研究的熱點(diǎn)。非語(yǔ)音的環(huán)境聲音也能 傳遞有用信息,如在特定環(huán)境中人的活動(dòng)通常會(huì)產(chǎn)生種類豐富的聲學(xué)事件。通過(guò)對(duì)運(yùn)些環(huán) 境聲音的分析和處理,能夠有效獲知人的活動(dòng)情況和相應(yīng)的環(huán)境狀態(tài),如鼓掌聲、笑聲、腳 步聲、槍聲、爆炸聲、玻璃碎裂聲等。
[0003] 針對(duì)環(huán)境聲識(shí)別,研究者們嘗試了各種方法。由于都是對(duì)聲音的處理,環(huán)境聲識(shí)別 首先借鑒了語(yǔ)音識(shí)別領(lǐng)域的GMM(Gaussian Mixture Model:混合高斯模型)/HMM化idden Markov Model:隱馬爾科夫模型)技術(shù)。該方法使用HMM為每一個(gè)環(huán)境聲類別建立聲學(xué)模型, HMM的每一個(gè)狀態(tài)關(guān)聯(lián)一個(gè)GMM模型,識(shí)別時(shí)則采用Viterbi算法進(jìn)行解碼。GMM可作為一個(gè) 狀態(tài)的HMM,被用于單獨(dú)的聲學(xué)建模。此類方法都是基于分帖后提取的短時(shí)特征。在解碼過(guò) 程中,通過(guò)逐帖處理實(shí)現(xiàn)聲音的分割和識(shí)別。
[0004] 相比與逐帖的處理策略,另一種環(huán)境聲識(shí)別的策略則是通過(guò)滑動(dòng)窗來(lái)分段聲音信 號(hào),然后進(jìn)行逐段分類。通過(guò)設(shè)定合適的窗長(zhǎng),每一次選擇一小段音頻,處理若干帖數(shù)據(jù)。此 類方法W滑動(dòng)窗為處理單元,因此可W在滑動(dòng)窗內(nèi),對(duì)音頻進(jìn)行長(zhǎng)時(shí)分析,提取描述聲音長(zhǎng) 時(shí)變化的特征。將一個(gè)滑動(dòng)窗使用長(zhǎng)時(shí)特征表示為一個(gè)向量之后,再使用SVM等分類器進(jìn)行 分類。此類方法的優(yōu)點(diǎn)是可W加入更多的長(zhǎng)時(shí)特征,不足之處在于,將含有若干帖的滑動(dòng)窗 用一個(gè)向量表示時(shí),其短時(shí)特征的細(xì)節(jié)信息便不得不丟棄。如實(shí)際處理中,會(huì)將短時(shí)特征的 均值和方差作為滑動(dòng)窗向量表示的一部分。
[0005] 如上所述,傳統(tǒng)的GMM/HMM方法基于短時(shí)特征建模,識(shí)別時(shí)采取逐帖處理的策略, 處理過(guò)程中不便于長(zhǎng)時(shí)信息的引入。基于滑動(dòng)窗的方法雖然可W進(jìn)行長(zhǎng)時(shí)的分析,但為了 方便使用分類器,需要把每一個(gè)滑動(dòng)窗表示為一個(gè)向量,短時(shí)特征的細(xì)節(jié)信息將會(huì)拋棄。實(shí) 際上音頻短時(shí)和長(zhǎng)時(shí)特征分別是音頻信息表達(dá)的不同尺度,它們含有了聲音不同方面的特 性,對(duì)聲音的識(shí)別都有一定的幫助作用。但現(xiàn)有的環(huán)境聲識(shí)別方法或基于短時(shí)特征建模,或 基于長(zhǎng)時(shí)特征建模,顧此失彼。本發(fā)明中的算法提出了一種能夠融合兩種尺度建模的方法, 在識(shí)別過(guò)程中,兼顧短時(shí)與長(zhǎng)時(shí)的信息,提高了識(shí)別率。

【發(fā)明內(nèi)容】

[0006] (一)要解決的技術(shù)問(wèn)題
[0007] 本發(fā)明的目的在于解決現(xiàn)有環(huán)境聲識(shí)別中算法中信息利用不充分的情況。
[000引(二)技術(shù)方案
[0009] 為解決上述問(wèn)題,本發(fā)明提出了一種融合短時(shí)與長(zhǎng)時(shí)特征建模的環(huán)境聲識(shí)別方 法,包括W下步驟:
[0010] 步驟1:對(duì)待識(shí)別聲音進(jìn)行分帖處理,基于每一帖提取短時(shí)特征;
[0011] 步驟2:基于短時(shí)特征,利用GMM環(huán)境聲分類模型對(duì)待識(shí)別聲音的每一個(gè)滑動(dòng)窗進(jìn) 行分類,給出每個(gè)滑動(dòng)窗的GMM分類結(jié)果;其中,所述GMM環(huán)境聲分類預(yù)先基于訓(xùn)練語(yǔ)料中的 短時(shí)特征訓(xùn)練得到;
[0012] 步驟3:對(duì)GMM環(huán)境聲分類模型的分類結(jié)果進(jìn)行置信度判別,若置信度高于預(yù)定闊 值,則直接將GMM環(huán)境聲分類模型的分類結(jié)果作為所述待識(shí)別聲音的最終識(shí)別結(jié)果,否則轉(zhuǎn) 下一步進(jìn)行再分類;
[0013] 步驟4:對(duì)于置信度低于預(yù)定闊值的待識(shí)別聲音,W滑動(dòng)窗為處理單元,提取所述 待識(shí)別聲音的長(zhǎng)時(shí)特征;
[0014] 步驟5:將所述長(zhǎng)時(shí)特征與所述GMM環(huán)境聲分類模型的概率得分一起作為SVM環(huán)境 聲再分類模型的輸入進(jìn)行再分類,得到最終的識(shí)別結(jié)果;其中,所述SVM環(huán)境聲再分類模型 是預(yù)先訓(xùn)練得到的用于分類所述GMM環(huán)境聲分類模型的中易混淆類的SVM分類器。
[0015] 根據(jù)本發(fā)明另一方面,其提供了一種融合短時(shí)與長(zhǎng)時(shí)特征建模的環(huán)境聲識(shí)別裝 置,包括:
[0016] 短時(shí)特征提取模塊,對(duì)待識(shí)別聲音進(jìn)行分帖處理,基于每一帖提取短時(shí)特征;
[0017] GMM分類模塊,基于短時(shí)特征,利用GMM環(huán)境聲分類模型對(duì)待識(shí)別聲音的每一個(gè)滑 動(dòng)窗進(jìn)行分類,給出每個(gè)滑動(dòng)窗的GMM分類結(jié)果;其中,所述GMM環(huán)境聲分類預(yù)先基于訓(xùn)練語(yǔ) 料中的短時(shí)特征訓(xùn)練得到;
[0018] 第一識(shí)別模塊,對(duì)GMM環(huán)境聲分類模型的分類結(jié)果進(jìn)行置信度判別,若置信度高于 預(yù)定闊值,則直接將GMM環(huán)境聲分類模型的分類結(jié)果作為所述待識(shí)別聲音的最終識(shí)別結(jié)果, 否則進(jìn)行再分類;
[0019] 長(zhǎng)時(shí)特征提取模塊,對(duì)于置信度低于預(yù)定闊值的待識(shí)別聲音,W滑動(dòng)窗為處理單 元,提取所述待識(shí)別聲音的長(zhǎng)時(shí)特征;
[0020] 再分類模塊,將所述長(zhǎng)時(shí)特征與所述GMM環(huán)境聲分類模型的概率得分一起作為SVM 環(huán)境聲再分類模型的輸入進(jìn)行再分類,得到最終的識(shí)別結(jié)果;其中,所述SVM環(huán)境聲再分類 模型是預(yù)先訓(xùn)練得到的用于分類所述GMM環(huán)境聲分類模型的中易混淆類的SVM分類器。 [00別](Ξ巧益效果
[0022] 本發(fā)明針對(duì)現(xiàn)有環(huán)境聲識(shí)別算法中音頻信息利用不充分的情況,提出了一種級(jí)聯(lián) 模型,W融合短時(shí)特征與長(zhǎng)時(shí)特征的建模。該方法引入置信度判別,首先使得第一階段基于 短時(shí)特征建模的置信度較高的識(shí)別結(jié)果得W保留。對(duì)于置信度低的結(jié)果,使用SVM進(jìn)行第二 階段的再分類。在再分類過(guò)程中,使用GMM的概率得分與長(zhǎng)時(shí)特征一起作為SVM的輸入。GMM 的概率得分?jǐn)y帶了大量來(lái)自短時(shí)特征的區(qū)分性信息,使得短時(shí)信息在長(zhǎng)時(shí)建模時(shí)再次得到 利用。此外,GMM是產(chǎn)生式模型,SVM是典型的判別式模型,通過(guò)GMM與SVM兩種方法的級(jí)聯(lián)融 合,不僅使音頻的短時(shí)與長(zhǎng)時(shí)信息在整個(gè)識(shí)別過(guò)程中都得到了利用,還使得兩種模型各自 發(fā)揮自己的優(yōu)勢(shì)。最終提高了識(shí)別結(jié)果。
【附圖說(shuō)明】
[0023] 圖1是根據(jù)本發(fā)明的融合短時(shí)與長(zhǎng)時(shí)特征建模的環(huán)境聲識(shí)別算法的流程圖;
[0024] 圖2是根據(jù)本發(fā)明的基于帖提取短時(shí)特征的流程圖;
[0025] 圖3是根據(jù)本發(fā)明的使用EM算法訓(xùn)練混合高斯模型的流程圖;
[0026] 圖4是根據(jù)本發(fā)明的使用已訓(xùn)練的GMM進(jìn)行環(huán)境聲識(shí)別的流程圖;
[0027] 圖5是根據(jù)本發(fā)明的對(duì)GMM分類結(jié)果進(jìn)行置信度判別的示意圖;
[0028] 圖6是根據(jù)本發(fā)明的基于滑動(dòng)窗提取長(zhǎng)時(shí)特征的示意圖;
[0029] 圖7是根據(jù)本發(fā)明的基于對(duì)GMM分類結(jié)果混淆矩陣的分析,找出易混淆的類,進(jìn)而 訓(xùn)練SVM模型的示意圖。
[0030] 圖8是根據(jù)本發(fā)明使用SVM進(jìn)行再分類的示意圖。
【具體實(shí)施方式】
[0031] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,W下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0032] 為了環(huán)境聲識(shí)別過(guò)程中能夠充分地利用音頻各個(gè)尺度的信息,本發(fā)明基于音頻的 短時(shí)特征與長(zhǎng)時(shí)特征,提出了一個(gè)級(jí)聯(lián)融合模型。整個(gè)過(guò)程分別采用了GMM與SVM基于不同 的特征進(jìn)行了建模。GMM模型的實(shí)施基于音頻的短時(shí)特征。SVM分類器的輸入則包括長(zhǎng)時(shí)特 征與GMM的概率得分。在運(yùn)個(gè)兩階段的框架內(nèi),首先通過(guò)引入置信度使得第一階段正確的分 類結(jié)果予W保留,同時(shí)通過(guò)GMM的概率得分作為SVM輸入的一部分,使得短時(shí)的區(qū)分性信息 在第二階段的分類中繼續(xù)得W使用。該機(jī)制使得音頻的短時(shí)與長(zhǎng)時(shí)信息在識(shí)別過(guò)程中都得 到充分利用。
[0033] 圖1為融合短時(shí)與長(zhǎng)時(shí)特征,使用了GMM與SVM模型的環(huán)境聲識(shí)別的流程圖。識(shí)別過(guò) 程W滑動(dòng)窗為處理單元,首先在每一個(gè)滑動(dòng)窗內(nèi)
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1