一種基于音頻事件和主題模型的音頻場景識別方法及其裝置與流程

文檔序號：11954771閱讀：302來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明屬于音頻識別領(lǐng)域，尤其涉及一種基于音頻事件和主題模型的音頻場景識別方法及其裝置。

背景技術(shù)：

音頻場景識別是指對于一個音頻文檔，識別出該音頻文檔所發(fā)生的環(huán)境，或者換句話說，音頻場景識別是指通過音頻信息來感知周圍環(huán)境。音頻場景識別技術(shù)具有非常廣泛的應(yīng)用價值，將其用于移動終端設(shè)備可以使設(shè)備很好地感知周圍環(huán)境，進(jìn)而能自動地調(diào)整設(shè)備狀態(tài)；音頻場景識別還可以用于智能家居、老年人健康監(jiān)護(hù)等等。

主題模型是在文本分析領(lǐng)域廣泛應(yīng)用的一類模型，近幾年有很多研究將其用于音頻領(lǐng)域，并且已有研究將主題模型用于音頻場景識別。當(dāng)前的研究在將主題模型用于音頻場景識別時一般都是遵循以下范式：首先將音頻文檔進(jìn)行分割處理得到一系列幀；然后將這些幀進(jìn)行聚類以創(chuàng)建音頻字典；根據(jù)字典將幀映射成音頻字；對映射后的音頻字進(jìn)行統(tǒng)計(jì)以生成音頻文檔-音頻字共現(xiàn)矩陣；用主題模型對音頻文檔-音頻字共現(xiàn)矩陣進(jìn)行分析可以得到每個音頻文檔的主題分布；用主題分布作為音頻特征來表征音頻文檔，最后通過分類模型實(shí)現(xiàn)音頻場景識別。

從以上范式可以看出當(dāng)前的研究主要都是對音頻文檔-音頻字共現(xiàn)矩陣進(jìn)行主題分析，這種傳統(tǒng)的將主題模型用于音頻場景識別時所遵循的范式與人類進(jìn)行音頻場景識別的思維模式不一致：通常人類在進(jìn)行音頻場景識別時會首先分析音頻文檔中都有哪些音頻事件，然后根據(jù)這些音頻事件進(jìn)一步分析這些音頻事件想要反映什么主題，最后，通過對這些主題的分析做出識別判斷；而上述傳統(tǒng)的做法中沒有考慮音頻事件，而是以音頻字作為統(tǒng)計(jì)單元，音頻字沒有明確的物理含義，也不是人類進(jìn)行場景識別時所考慮的物理單元，因此上述傳統(tǒng)的識別方法與人類進(jìn)行音頻場景識別的思維模式不一致。人工智能領(lǐng)域的專家一直都在致力于研究如何讓機(jī)器模仿人類的思維模式進(jìn)行思考，研究表明，使機(jī)器模仿人類的思維模式進(jìn)行思考能很好地提高機(jī)器的智能水平，因此，與那些和人類識別思維模式一致的方法相比，上述傳統(tǒng)的識別方法的識別準(zhǔn)確率會相對較低，為了解決上述問題，本發(fā)明提出對音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析。

在求音頻文檔-音頻事件共現(xiàn)矩陣時，常規(guī)的方法是首先對音頻文檔中的音頻事件進(jìn)行分類識別，然后進(jìn)行統(tǒng)計(jì)得到音頻文檔-音頻事件共現(xiàn)矩陣。常規(guī)方法在分類識別音頻事件時需要創(chuàng)建分類模型，當(dāng)音頻事件類別較多時，計(jì)算量將會非常大；此外，常規(guī)的求取方法容易受音頻事件誤分類的影響，導(dǎo)致訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣和測試集的音頻文檔-音頻事件共現(xiàn)矩陣的一致性較差，進(jìn)而降低音頻場景識別準(zhǔn)確率。

技術(shù)實(shí)現(xiàn)要素：

為了解決現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明提供一種基于音頻事件和主題模型的音頻場景識別方法及其裝置。本發(fā)明的該方法對音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析；同時，為了突出音頻文檔的主題，對音頻文檔的音頻事件分布進(jìn)行了加權(quán)處理，加權(quán)的權(quán)值是根據(jù)音頻事件的主題熵來確定的。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案：

一種基于音頻事件和主題模型的音頻場景識別方法，包括：

步驟(1)：訓(xùn)練音頻場景分類模型；

訓(xùn)練音頻場景分類模型的具體過程包括：

步驟(1.1)：獲取訓(xùn)練音頻文檔并存儲至訓(xùn)練音頻文檔集中，對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進(jìn)行分幀和提取特征處理，創(chuàng)建音頻字典；

步驟(1.2)：求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣；

步驟(1.3)：用主題模型PLSA對訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析，求得訓(xùn)練音頻文檔集中每個音頻文檔的主題分布；

步驟(1.4)：將每個音頻文檔的主題分布作為音頻文檔的音頻特征來訓(xùn)練音頻場景分類模型；

步驟(2)：求取待識別音頻文檔的主題分布作為音頻特征，并將求取的音頻特征代入音頻場景分類模型中進(jìn)行分類識別，最終輸出待識別音頻文檔的音頻場景類別。

本發(fā)明對音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析，對音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析與人類的音頻場景識別模式更加一致，因此本發(fā)明提出的音頻場景識別思路更加合理，能有效地提高識別準(zhǔn)確率。

在步驟(1.1)中對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進(jìn)行分幀處理的過程中，因?yàn)橐纛l文檔是短時平穩(wěn)的，如果相鄰兩幀之間沒有重疊的話，很可能會導(dǎo)致后續(xù)特征提取步驟中提取的音頻特征在相鄰兩幀之間的變化較大，因此，為了使音頻特征平滑變化，在分幀處理時設(shè)置幀與幀之間有50％的重疊。

在步驟(1.1)中還對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔提取MFCC特征，在對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔提取MFCC特征之后，對訓(xùn)練音頻文檔集里每一音頻場景類中的所有幀進(jìn)行聚類，聚類后取簇質(zhì)心組成音頻字典，簇質(zhì)心為音頻字典的音頻字。采用聚類的方法生成音頻字典是在用主題模型對音頻文檔進(jìn)行主題分析時業(yè)內(nèi)常用的方法，該方法簡單高效。

在所述步驟(1.2)中求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣的過程中，包括：

根據(jù)音頻字典將訓(xùn)練音頻文檔集中所有幀映射成音頻字；

統(tǒng)計(jì)訓(xùn)練音頻文檔集里每個音頻文檔中各個音頻字的出現(xiàn)次數(shù)，得到訓(xùn)練音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣；

統(tǒng)計(jì)訓(xùn)練音頻文檔集里每個標(biāo)注的音頻事件中各個音頻字的出現(xiàn)次數(shù)，得到訓(xùn)練音頻文檔集的音頻事件-音頻字共現(xiàn)矩陣。對于具有多個音頻事件標(biāo)簽的音頻幀，其在參與統(tǒng)計(jì)音頻事件-音頻字共現(xiàn)矩陣時，是按比例分配給其內(nèi)包含的各個音頻事件，在標(biāo)簽序列中排序越靠前的音頻事件獲得的比例成分越大；

采用主題模型PLSA將音頻文檔-音頻字共現(xiàn)矩陣分解成第一子矩陣和第二子矩陣相乘的形式，其中，第一子矩陣為音頻事件-音頻字共現(xiàn)矩陣，第二子矩陣中的每一列對應(yīng)一個訓(xùn)練音頻文檔在各個音頻事件上的概率分布；

采用主題模型PLSA對第一子矩陣進(jìn)行矩陣分解，生成音頻事件-主題矩陣，音頻事件-主題矩陣的每一列表示一個音頻事件在各個主題上的概率分布；

根據(jù)音頻事件-主題矩陣的每一列中的音頻事件-主題分布求取各個音頻事件的主題熵；

根據(jù)主題熵求取各個音頻事件的加權(quán)系數(shù)；

采用各個音頻事件的加權(quán)系數(shù)對訓(xùn)練音頻文檔中的音頻事件分布進(jìn)行加權(quán)，對加權(quán)后的音頻事件分布進(jìn)行歸一化，并乘上訓(xùn)練音頻文檔集中音頻幀的總數(shù)目，最終得到訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣。

根據(jù)音頻字典將訓(xùn)練音頻文檔集中所有幀映射成音頻字的方法為：

對訓(xùn)練音頻文檔集中的每個幀，從音頻字典中找出與其最近鄰的音頻字來表示相應(yīng)的幀。

本發(fā)明提出的通過矩陣分解求取音頻文檔-音頻事件共現(xiàn)矩陣的方法能很好地保證訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣和測試集的音頻文檔-音頻事件共現(xiàn)矩陣的一致性，因而能有效地提高音頻場景識別準(zhǔn)確率。

此外，音頻事件分布加權(quán)處理后，音頻文檔的主題將更加突出，將能更好地表征不同的音頻場景，因而更有利于后續(xù)的音頻場景識別；本發(fā)明提出的加權(quán)方法并不局限于對音頻事件分布的加權(quán)，該加權(quán)方法的思路可以推廣至任何其它使用主題模型進(jìn)行分類識別的方法中。

所述步驟(2)求取待識別音頻文檔的主題分布作為音頻特征的過程，包括：

獲取待識別音頻文檔并存儲至待識別音頻文檔集中，求取待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣；

采用主題模型PLSA對待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析，求得待識別音頻文檔集中每個音頻文檔的主題分布；

將待識別音頻文檔集中每個音頻文檔的主題分布作為待識別音頻文檔的音頻特征。

每個音頻文檔中可能包含多個主題，但是這些主題的主次地位不同，那些分布概率大的主題是音頻文檔的主要主題，那些分布概率小的主題是次要主題；同理，每一種音頻場景類可能包含多個主題，這些主題的主次地位不同，同一音頻場景類中的音頻文檔的主要主題將集中于某幾個主題上，不同音頻場景類中的音頻文檔的主要主題趨向于集中在不同的主題上，因此音頻文檔的主題分布能很好地表征其場景類別信息，將使得不同音頻場景類下的音頻文檔具有很好的區(qū)分性。

待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣求取過程，包括：

對待識別音頻文檔進(jìn)行分幀處理，幀與幀之間有50％的重疊，并提取待識別音頻文檔每一幀的MFCC特征；

根據(jù)音頻字典將待識別音頻文檔集中所有幀映射成音頻字；

統(tǒng)計(jì)待識別音頻文檔集里每個音頻文檔中各個音頻字的出現(xiàn)次數(shù)，得到待識別音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣；

采用主題模型PLSA將待識別音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣分解成第一子矩陣和第二子矩陣相乘的形式，其中，第一子矩陣為訓(xùn)練音頻文檔集的音頻事件-音頻字共現(xiàn)矩陣；第二子矩陣中的每一列對應(yīng)一個待識別音頻文檔在各個音頻事件上的概率分布；

采用訓(xùn)練階段求得的各個音頻事件的加權(quán)系數(shù)對待識別音頻文檔中的音頻事件分布進(jìn)行加權(quán)，對加權(quán)后的音頻事件分布進(jìn)行歸一化，并乘上待識別音頻文檔集中音頻幀的總數(shù)目，最終得到待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣。

根據(jù)音頻字典將待識別音頻文檔集中所有幀映射成音頻字的方法為：

對待識別音頻文檔集中的每個幀，從音頻字典中找出與其最近鄰的音頻字來表示相應(yīng)的幀。

一種基于音頻事件和主題模型的音頻場景識別裝置，包括：

音頻場景分類模型生成模塊，所述音頻場景分類模型生成模塊包括音頻字典創(chuàng)建模塊，其被配置為獲取訓(xùn)練音頻文檔并存儲至訓(xùn)練音頻文檔集中，對訓(xùn)練音頻文檔集中的訓(xùn)練音頻文檔進(jìn)行分幀和提取特征處理，創(chuàng)建音頻字典；

音頻文檔-音頻事件共現(xiàn)矩陣求取模塊，其被配置為求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣；

音頻文檔的主題分布求取模塊，其被配置為采用主題模型PLSA對訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析，求得訓(xùn)練音頻文檔集中每個音頻文檔的主題分布；

音頻場景分類模型訓(xùn)練模塊，其被配置為將每個訓(xùn)練音頻文檔的主題分布作為音頻文檔的音頻特征來訓(xùn)練音頻場景分類模型；

所述音頻場景識別裝置還包括音頻特征提取模塊，其被配置為提取待識別音頻文檔的主題分布作為音頻特征；

輸出模塊，其被配置為將待識別音頻文檔的音頻特征代入音頻場景分類模型中進(jìn)行分類識別，并輸出待識別音頻文檔的音頻場景類別。

本發(fā)明的有益效果為：

(1)本發(fā)明提出以音頻事件作為統(tǒng)計(jì)單元，創(chuàng)新性地對音頻文檔-音頻事件共現(xiàn)矩陣進(jìn)行主題分析，其與人類的音頻場景識別模式更加一致，因此本發(fā)明提出的音頻場景識別思路更加合理，更能提高識別的準(zhǔn)確率。

(2)為了突出音頻文檔的音頻主題，本發(fā)明提出對音頻文檔的音頻事件分布進(jìn)行加權(quán)；該加權(quán)方法的權(quán)值是通過音頻事件的主題熵確定的，因此那些主題突出的音頻事件將得到加強(qiáng)，而那些主題不突出的音頻事件將被削弱。加權(quán)處理后，音頻文檔的主題將更加突出，將能更好地表征不同的音頻場景，因而更有利于后續(xù)的音頻場景識別；本發(fā)明提出的加權(quán)方法并不局限于對音頻事件分布的加權(quán)，該加權(quán)方法的思路可以推廣至任何其它使用主題模型進(jìn)行分類識別的方法中。

(3)本發(fā)明通過PLSA矩陣分解的方法求取音頻文檔-音頻事件共現(xiàn)矩陣，本發(fā)明提出的音頻文檔-音頻事件共現(xiàn)矩陣求取方法和常規(guī)的求取方法相比具有以下優(yōu)勢：本發(fā)明提出的矩陣分解方法不需要創(chuàng)建分類模型，因而計(jì)算量小，求解的效率高；能很好地保證訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣和測試集的音頻文檔-音頻事件共現(xiàn)矩陣的一致性，因而能有效地提高音頻場景識別準(zhǔn)確率。

附圖說明

圖1是本發(fā)明提出的音頻場景識別方法示意圖；

圖2是訓(xùn)練音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣分解過程示意圖；

圖3是訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣分解過程示意圖；

圖4是待識別音頻文檔集的音頻文檔-音頻字共現(xiàn)矩陣分解過程示意圖；

圖5是識別階段對待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣分解過程示意圖。

具體實(shí)施方式

下面結(jié)合附圖與實(shí)施例對本發(fā)明做進(jìn)一步說明：

如圖1所示，本發(fā)明提出的音頻場景識別方法主要分為兩大模塊：訓(xùn)練過程和識別過程。其中，訓(xùn)練過程包括創(chuàng)建音頻字典、求取音頻文檔-音頻事件共現(xiàn)矩陣、基于PLSA的主題分析和訓(xùn)練分類模型四部分；識別過程包括求取音頻文檔-音頻事件共現(xiàn)矩陣、基于PLSA的主題分析和識別輸出三部分。以下將對各個部分做詳細(xì)介紹。

首先介紹訓(xùn)練過程：

(一)創(chuàng)建音頻字典

對訓(xùn)練音頻文檔進(jìn)行分幀處理。因?yàn)閷σ纛l信號提取頻域特征時，要求信號必須是平穩(wěn)的，而音頻信號具有短時平穩(wěn)特性，因此分幀時幀長不能取得過長，通常幀長在20～60毫秒之間取值，本發(fā)明將幀長設(shè)定為30毫秒，將音頻文檔分割成30毫秒長的幀。為了使相鄰幀的特征平滑變化，設(shè)定幀與幀之間有50％的重疊。對每個幀提取39維的MFCC特征。標(biāo)準(zhǔn)的MFCC特征是13維的，標(biāo)準(zhǔn)MFCC只反映了音頻的靜態(tài)特征。研究表明把靜態(tài)、動態(tài)特征結(jié)合起來能有效地提高系統(tǒng)的識別性能，為此，本發(fā)明在提取標(biāo)準(zhǔn)MFCC的同時，通過一階差分和二階差分求得動態(tài)MFCC特征，靜態(tài)、動態(tài)特征總計(jì)39維。對訓(xùn)練集里每一音頻場景類中的所有幀進(jìn)行k均值聚類，聚類后取簇質(zhì)心組成音頻字典，也就是說音頻字典是由訓(xùn)練集中各個音頻場景類聚類后的簇質(zhì)心創(chuàng)建成的，這些簇質(zhì)心稱為音頻字典的音頻字。

(二)求取音頻文檔-音頻事件共現(xiàn)矩陣

首先根據(jù)音頻字典將訓(xùn)練集中所有幀映射成音頻字，映射的方法是：對每個幀，從音頻字典中找出與其最近鄰(基于歐氏距離)的音頻字，用此音頻字來表示該幀；其次，統(tǒng)計(jì)訓(xùn)練集里每個音頻文檔中各個音頻字的出現(xiàn)次數(shù)，得到訓(xùn)練集的音頻文檔-音頻字共現(xiàn)矩陣，記為C_train。訓(xùn)練音頻文檔中的音頻事件可以提前進(jìn)行標(biāo)注，因此訓(xùn)練集中各個幀的音頻事件標(biāo)簽是已知的，為此，可以統(tǒng)計(jì)訓(xùn)練集里每個音頻事件中各個音頻字的出現(xiàn)次數(shù)，進(jìn)而得到訓(xùn)練集的音頻事件-音頻字共現(xiàn)矩陣，記為A_train。

假設(shè)訓(xùn)練集中共有N個音頻文檔和n個不同的音頻事件，分別記為{d₁,…,d_N}和{e₁,e₂,…,e_n}，假設(shè)音頻字典中共有M個音頻字，則C_train是一個M×N的矩陣，A_train是一個M×n的矩陣。用主題模型PLSA(Probabilistic Latent Semantic Analysis)對矩陣C_train進(jìn)行分解，將C_train分解成A_train和B_train相乘的形式，如圖2所示。B_train是一個n×N的矩陣，其每一列對應(yīng)一個音頻文檔，表示音頻文檔在各個音頻事件上的概率分布；其中，N、M和n均為大于等于1的正整數(shù)。

由于在音頻文檔中，同一時刻經(jīng)常會有多個音頻事件同時發(fā)生，因此在為訓(xùn)練音頻文檔標(biāo)注音頻事件時，某一時間段若有多個音頻事件同時發(fā)生，將標(biāo)注所有的音頻事件標(biāo)簽，但是要對這些標(biāo)簽根據(jù)人類感知特性進(jìn)行排序，也就是說最突出的、首先被感知的音頻事件的標(biāo)簽排在第一位，其次被感知的音頻事件的標(biāo)簽排在第二位，以此類推。在此標(biāo)注情況下，訓(xùn)練集的音頻事件-音頻字共現(xiàn)矩陣A_train的統(tǒng)計(jì)方法如下：

假設(shè)訓(xùn)練集中某個音頻文檔的某一幀的音頻事件標(biāo)簽有m個，其音頻事件標(biāo)簽序列為[l₁,l₂,…,l_m]，l_i(i＝1,…,m)表示其音頻事件標(biāo)簽序列中的第i個標(biāo)簽，l_i從{e₁,e₂,…,e_n}中取值。其中，m為大于等于1的正整數(shù)。在統(tǒng)計(jì)音頻事件-音頻字共現(xiàn)矩陣A_train時，這一音頻幀將參與其內(nèi)包含的所有音頻事件的統(tǒng)計(jì)，但參與的比例不同。在統(tǒng)計(jì)該音頻文檔中由l_i所代表的音頻事件的出現(xiàn)次數(shù)時，該音頻幀參與的比例co(l_i)為：

$<mrow> <mi>c</mi> <mi>o</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <mrow> <mo>(</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>m</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>$

滿足

這表明：對于具有多個音頻事件標(biāo)簽的音頻幀，其在參與統(tǒng)計(jì)音頻事件-音頻字共現(xiàn)矩陣A_train時，是按比例分配給其內(nèi)包含的各個音頻事件，在標(biāo)簽序列中排序越靠前的音頻事件獲得的比例成分越大。之所以如此設(shè)置是因?yàn)槿祟愒谧R別音頻場景時，主要是根據(jù)音頻文檔中的突出音頻事件進(jìn)行判斷，而將其它次要音頻事件作為輔助，因此按照公式(1)將一幀按比例分配給各個音頻事件將有助于強(qiáng)調(diào)音頻文檔中的突出音頻事件。

在反映音頻文檔的主題時，各個音頻事件所發(fā)揮的作用是不同的，為了突出強(qiáng)調(diào)那些對反映主題起重要作用的音頻事件，有必要對音頻文檔的音頻事件分布進(jìn)行加權(quán)。本發(fā)明認(rèn)為如果一個音頻事件的主題十分突出，則這樣的音頻事件更加重要。

本發(fā)明用主題熵反映音頻事件的重要性，為此，首先通過PLSA對音頻事件-音頻字共現(xiàn)矩陣A_train進(jìn)行矩陣分解。假設(shè)有T1個潛在主題{z₁,…,z_T1}，z₁表示第1個潛在主題，z_T1表示第T1個潛在主題，則經(jīng)過PLSA矩陣分解后可以生成一個尺寸為T1×n的音頻事件-主題矩陣，記為E，E的每一列表示一個音頻事件在主題{z₁,…,z_T1}上的概率分布。矩陣E的第(i,j)個元素記為其中，z_i表示第i個主題，e_j表示第j個音頻事件，表示音頻事件e_j在主題z_i上的概率值。用尺寸為1×n的向量H表示各個音頻事件的主題熵，其第j個元素記為H(e_j)，H(e_j)表示音頻事件e_j的主題熵，其值通過下式求解：

$<mrow> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>T</mi> <mn>1</mn> </mrow> </munderover> <msubsup> <mi>p</mi> <msub> <mi>z</mi> <mi>i</mi> </msub> <msub> <mi>e</mi> <mi>j</mi> </msub> </msubsup> <msub> <mi>log</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <msubsup> <mi>p</mi> <msub> <mi>z</mi> <mi>i</mi> </msub> <msub> <mi>e</mi> <mi>j</mi> </msub> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>$

其中，表示矩陣E的第(i,j)個元素，z_i表示第i個主題，e_j表示第j個音頻事件。對音頻事件來說，主題熵值越小意味著其主題越突出，換句話說，主題熵越小意味著該音頻事件的發(fā)生主要反映少數(shù)幾個主題；而主題熵值越大意味著該音頻事件的發(fā)生將會反映很多不同的主題。因此，本發(fā)明認(rèn)為主題熵越小的音頻事件，其對反映音頻場景的主題的重要性越大?；谥黝}熵，本發(fā)明設(shè)計(jì)了一個系數(shù)，用其來評價音頻事件的重要性，并用其對音頻文檔的音頻事件分布進(jìn)行加權(quán)。用尺寸為1×n的向量c來表示各個音頻事件的加權(quán)系數(shù)，其第i個元素記為c(e_i)，c(e_i)表示音頻事件e_i的加權(quán)系數(shù)，其求解方法如下：

$<mrow> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mo>|</mo> <mi>H</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>min</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>/</mo> <mn>2</mn> <mi>var</mi> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>$

c(e_i)＝c(e_i)/min(c) (5)

公式(5)表示的是將c(e_i)用min(c)進(jìn)行歸一化以后再重新覆蓋原來的c(e_i)的值。

其中，H(e_i)表示音頻事件e_i的主題熵，min(H)表示求向量H中元素的最小值，var(H)表示求向量H中元素的方差，min(c)表示求向量c中元素的最小值。

記矩陣B_train的第(i,j)個元素為d_j表示第j個音頻文檔，e_i表示第i個音頻事件。用c對訓(xùn)練音頻文檔中的音頻事件分布進(jìn)行加權(quán)，即對B_train中的各列進(jìn)行加權(quán)：

$<mrow> <msubsup> <mi>p</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>j</mi> </msub> </msubsup> <mo>=</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>·</mo> <msubsup> <mi>p</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>j</mi> </msub> </msubsup> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>;</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>$

加權(quán)后，為了使矩陣B_train中的各列表達(dá)的是音頻文檔中各個音頻事件的出現(xiàn)次數(shù)，而不是在各個音頻事件上的概率分布，為此還要對B_train做以下處理：

$<mrow> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>=</mo> <mi>n</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> <mrow> <mo>(</mo> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>=</mo> <mi>f</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> <mo>·</mo> <msup> <mi>p</mi> <msub> <mi>d</mi> <mi>j</mi> </msub> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

其中，表示矩陣B_train的第j列，表示對進(jìn)行歸一化，fNum表示訓(xùn)練集中的幀的總數(shù)量。在做了以上處理之后的B_train即為求取的訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣。

(三)基于PLSA的主題分析

本發(fā)明采用PLSA作為主題模型。用PLSA對(二)中求取的訓(xùn)練集的音頻文檔-音頻事件共現(xiàn)矩陣B_train進(jìn)行矩陣分解，矩陣分解如圖3所示。假設(shè)共有T2個潛在主題，則矩陣分解后的P_train是一個尺寸為n×T2的矩陣，Q_train是一個尺寸為T2×N的矩陣。Q_train的每一列對應(yīng)一個音頻文檔，表示音頻文檔在T2個潛在主題上的概率分布。Q_train中的每一列即為對訓(xùn)練音頻文檔集經(jīng)過PLSA主題分析后所得到的訓(xùn)練音頻文檔的主題分布。

(四)訓(xùn)練分類模型

Q_train的每一列對應(yīng)一個音頻文檔的主題分布，將該主題分布作為音頻文檔的音頻特征，并用其訓(xùn)練分類模型。本發(fā)明采用支持向量機(jī)SVM(Support Vector Machine)作為分類模型。SVM是二值分類模型，在用其分類多個音頻場景時采用一對一的多類分類策略。

以下介紹識別過程：

(一)求取音頻文檔-音頻事件共現(xiàn)矩陣

識別階段對音頻文檔-音頻事件共現(xiàn)矩陣的求取和訓(xùn)練階段類似。首先將待識別的音頻文檔進(jìn)行分幀處理，幀長30毫秒，幀與幀之間有50％的重疊；然后，對于每一幀，通過在字典中找到其最近鄰以將其映射成音頻字；統(tǒng)計(jì)待識別音頻文檔中各個音頻字的出現(xiàn)次數(shù)即可得到待識別音頻文檔的音頻文檔-音頻字共現(xiàn)矩陣，記為C_test；用PLSA對C_test進(jìn)行矩陣分解，將C_test分解成A_train和B_test相乘的形式，矩陣分解如圖4所示。假設(shè)待識別的音頻文檔數(shù)目為N_test，則B_test是尺寸為n×N_test的矩陣。記矩陣B_test的第(i,k)個元素為d_k表示第k個待識別的音頻文檔，e_i表示第i個音頻事件，用訓(xùn)練階段求得的系數(shù)向量c對待識別音頻文檔中的音頻事件分布進(jìn)行如下加權(quán)：

$<mrow> <msubsup> <mi>q</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>k</mi> </msub> </msubsup> <mo>=</mo> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>e</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>·</mo> <msubsup> <mi>q</mi> <msub> <mi>e</mi> <mi>i</mi> </msub> <msub> <mi>d</mi> <mi>k</mi> </msub> </msubsup> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>;</mo> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>N</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

為了使矩陣B_test中的各列表達(dá)的是音頻文檔中各個音頻事件的出現(xiàn)次數(shù)，對B_test做以下處理：

$<mrow> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>=</mo> <mi>n</mi> <mi>o</mi> <mi>r</mi> <mi>m</mi> <mrow> <mo>(</mo> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

$<mrow> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>=</mo> <msub> <mi>fNum</mi> <mrow> <mi>t</mi> <mi>e</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>·</mo> <msup> <mi>q</mi> <msub> <mi>d</mi> <mi>k</mi> </msub> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

其中，表示矩陣B_test的第k列，表示對進(jìn)行歸一化，fNum_test表示待識別音頻文檔集中的幀的總數(shù)量。做了以上處理之后的B_test即為求取的待識別音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣。公式(11)表示的是將用fNum_test與的乘積重新覆蓋原來的的值。

(二)基于PLSA的主題分析

在訓(xùn)練階段對矩陣B_train進(jìn)行矩陣分解得到了尺寸為n×T2的矩陣P_train；在識別階段用PLSA對矩陣B_test進(jìn)行矩陣分解，將其分解成矩陣P_train和矩陣Q_test相乘的形式，矩陣分解如圖5所示。矩陣分解后得到的Q_test是一個尺寸為T2×N_test的矩陣，Q_test的每一列對應(yīng)一個音頻文檔，表示音頻文檔在T2個潛在主題上的概率分布。Q_test的每一列即為對待識別音頻文檔集經(jīng)過PLSA主題分析后所得到的待識別音頻文檔的主題分布。

(三)識別輸出

Q_test的每一列對應(yīng)一個音頻文檔的主題分布，將該主題分布作為音頻文檔的音頻特征，并將其代入訓(xùn)練階段訓(xùn)練得到的SVM分類模型中進(jìn)行分類識別，根據(jù)一對一的多類分類策略最終輸出得到待識別音頻文檔的音頻場景類別。

本發(fā)明的基于音頻事件和主題模型的音頻場景識別裝置，包括：

音頻文檔-音頻事件共現(xiàn)矩陣求取模塊，其被配置為求取訓(xùn)練音頻文檔集的音頻文檔-音頻事件共現(xiàn)矩陣；

音頻場景分類模型訓(xùn)練模塊，其被配置為將每個訓(xùn)練音頻文檔的主題分布作為音頻文檔的音頻特征來訓(xùn)練音頻場景分類模型；

所述音頻場景識別裝置還包括音頻特征提取模塊，其被配置為提取待識別音頻文檔的主題分布作為音頻特征；

輸出模塊，其被配置為將待識別音頻文檔的音頻特征代入音頻場景分類模型中進(jìn)行分類識別，并輸出待識別音頻文檔的音頻場景類別。

上述雖然結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行了描述，但并非對本發(fā)明保護(hù)范圍的限制，所屬領(lǐng)域技術(shù)人員應(yīng)該明白，在本發(fā)明的技術(shù)方案的基礎(chǔ)上，本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：冷嚴(yán);徐新艷;李登旺;程傳福;
技術(shù)所有人：山東師范大學(xué);
我是此專利的發(fā)明人

上一篇：一種語音信息識別方法和設(shè)備與流程
上一篇：利用知識圖的用于語音識別的語言建模的制作方法與工藝

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

unity3d場景模型下載相關(guān)技術(shù)

模型場景制作教程相關(guān)技術(shù)

maya場景模型相關(guān)技術(shù)

3d游戲場景模型下載相關(guān)技術(shù)

模型場景制作相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于音頻事件和主題模型的音頻場景識別方法及其裝置與流程