專利名稱:可增加和修正聲音類別的聲音分類系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種聲音分類系統(tǒng)及方法,特別是一種可增加和修正聲音類別的聲音分類系統(tǒng)及方法。
背景技術(shù):
參閱圖1,已知的聲音分類系統(tǒng)8是用于接收待辨識的聲音,并且將該聲音辨識出來以判斷該聲音是否屬于對使用者具有特定意義的聲音類別。
已知的聲音分類系統(tǒng)8可預(yù)先將多種具有特定意義的聲音分類并存入該聲音分類系統(tǒng)8,例如預(yù)先分類出警笛聲、電話鈴響聲及玻璃破碎聲三大類。而當(dāng)環(huán)境中有上述類型的聲音產(chǎn)生時(shí),該分類系統(tǒng)8可接收該聲音并將該聲音分類,并且通知使用者有某一類型的聲音產(chǎn)生。例如當(dāng)該分類系統(tǒng)8判斷出電話鈴聲時(shí),則可通知使用者接電話,或是當(dāng)該聲音分類系統(tǒng)8判斷出有玻璃破碎聲時(shí),則通知使用者可能有小偷打破窗戶欲入侵。
這種已知的聲音分類系統(tǒng)8是包括聲音接收器81、特征提取器82、分類器83、數(shù)據(jù)庫84及分類紀(jì)錄器85。該數(shù)據(jù)庫84存儲多種聲音信號的特征。該聲音接收器81是例如麥克風(fēng)等,可用于接收聲音的設(shè)備,而該特征提取器82可接收該聲音接收器81傳來的聲音信號,并找出該聲音信號的特征。
該特征提取器82是以梅爾倒頻譜系數(shù)(Mel-scale Frequency CepstralCoefficients,簡稱MFCC)法分析出聲音信號的特征向量,并以該特征向量作為聲音信號的特征。該MFCC法可參考L.Rabiner與B.-H.Juang于1993年P(guān)rentice Hall出版的“Fundamentals of Speech Recognition”,主要是將該聲音信號由時(shí)域(Time Domain)信號利用傅利葉轉(zhuǎn)換(FourierTransform),轉(zhuǎn)成頻域(Frequency Domain)信號,該頻域信號表示該聲音在每一頻率所具有的能量。接著由多組涵蓋不同頻率范圍的三角帶通濾波器(Triangular Band-pass Filters),分別取出相對應(yīng)的頻率范圍的能量值,且其中一組三角帶通濾波器涵蓋對應(yīng)于人類聽覺所能感應(yīng)的聲音頻率范圍,并由每一個(gè)三角帶通濾波器對該能量值乘上不同的加權(quán)數(shù)(weighting)來得到代表該頻率范圍的特征值,因此可以得到相等于三角帶通濾波器數(shù)目的多個(gè)特征值,且以該多個(gè)特征值作為一組可代表該聲音的特征向量。
該數(shù)據(jù)庫84中預(yù)存許多種聲音的特征,例如警笛類聲音、電話鈴聲類聲音、玻璃破碎類聲音以及開門類聲音。且每一種類型的聲音一般又包括多筆聲音,例如開門類聲音包括多筆預(yù)先錄制好的開門聲音。
而該分類器83則將該特征提取器82分析出的特征與該數(shù)據(jù)庫84中所預(yù)存的特征作比較,且當(dāng)由該特征提取器82分析出的特征符合或是接近該數(shù)據(jù)庫中某一聲音種類的特征時(shí),則將該聲音接收器81接收到的聲音視為是該種類的聲音。而該分類紀(jì)錄器85是存儲該分類器83對每一輸入聲音的分類結(jié)果及其特征。
該分類器83所使用的分類方法可以是S.-T.Bow所著并于1984年由Jwang Yuan出版的“Pattern Recognition”中所述的馬哈拉諾畢斯距離(Mahalanobis Distance)法。該方法主要用于計(jì)算該聲音接收器81收到的聲音信號的特征向量與數(shù)據(jù)庫84中所存聲音的特征向量之間的距離。當(dāng)該距離最小時(shí),表示該聲音接收器81接收到的聲音信號符合該數(shù)據(jù)庫84其中該類聲音類別。
但是實(shí)際生活中有為數(shù)眾多的聲音種類,一般預(yù)建的數(shù)據(jù)庫84無法含括所有可能會發(fā)生的聲音,而習(xí)知的聲音分類系統(tǒng)8也無法處理該些未被數(shù)據(jù)庫84存儲的聲音種類,故此時(shí)若能讓使用者自行增加該數(shù)據(jù)庫84的聲音類別,將能有效提升該聲音分類系統(tǒng)8的實(shí)用性。
另外,由于環(huán)境的差異,聲音在不同的環(huán)境中也會展現(xiàn)出不同的特性。例如同樣都是開門聲,但在一個(gè)較為寬敞的環(huán)境中,此開門聲的回音可能就會較大,但在一個(gè)較會吸收聲音能量的環(huán)境中,此開門聲的特性就會截然不同。在錄制數(shù)據(jù)庫84中各類別的聲音時(shí),這些聲音被錄制時(shí)的環(huán)境往往與使用者所處環(huán)境不同,如果使用者無法針對其使用環(huán)境增加或修改該預(yù)建數(shù)據(jù)庫84中該多種類別聲音的樣本,則可能會造成該聲音分類系統(tǒng)8在新環(huán)境中分類錯(cuò)誤的情形,甚至發(fā)生根本無法分類的問題。
發(fā)明內(nèi)容
因此,本發(fā)明的目的是提供一種可增加和修正聲音類別的聲音分類系統(tǒng)。該聲音分類系統(tǒng)可供使用者增加發(fā)生在其使用環(huán)境中的且對其具有特定意義的聲音類別,并可允許使用者修改接收到的聲音的類別。
而本發(fā)明的另一個(gè)目的是提供一種可增加或修改聲音類別的聲音分類方法。該聲音分類方法可根據(jù)分類結(jié)果的準(zhǔn)確度來判斷是否修正或是增加新的聲音類別。
于是,本發(fā)明可增加和修正聲音類別的聲音分類系統(tǒng)包括聲音接收器、特征提取器、第一數(shù)據(jù)庫、特征數(shù)據(jù)庫、分類器、分類紀(jì)錄器、第二數(shù)據(jù)庫、增加和修正命令處理器、精確度計(jì)算器及類別增加和修正器。
該聲音接收器接收待辨識的聲音信號。該特征提取器接收該聲音接收器傳來的該待辨識聲音信號,并找出該聲音信號的特征。而該第一數(shù)據(jù)庫存儲多種聲音的特征的統(tǒng)計(jì)值。該分類器與該特征提取器及該第一數(shù)據(jù)庫電連接,且接收該特征提取器分析出的特征,并依據(jù)該第一數(shù)據(jù)庫中各類聲音的統(tǒng)計(jì)值對該待辨識聲音信號分類,且輸出分類結(jié)果。
該分類紀(jì)錄器與該分類器電連接,且存儲該分類器的分類結(jié)果與該待辨識聲音信號的特征。而該第二數(shù)據(jù)庫與該第一數(shù)據(jù)庫電連接,且可備份該第一數(shù)據(jù)庫中所存儲的數(shù)據(jù),并且可以在該第一數(shù)據(jù)庫所存儲的數(shù)據(jù)改變后,適時(shí)地將備份之?dāng)?shù)據(jù)回存至該第一數(shù)據(jù)庫。
該特征數(shù)據(jù)庫可存儲多種樣本聲音信號的特征,并可將該等樣本聲音信號的特征輸出至該分類器。
該增加和修正命令處理器與該分類紀(jì)錄器電連接,并在收到要求修正分類結(jié)果或是增加一新分類的命令時(shí),由該分類紀(jì)錄器中輸出需要修正或需要增加新類別的聲音的特征。
該類別增加和修正器與該增加和修正命令處理器、該第一數(shù)據(jù)庫及該特征數(shù)據(jù)庫電連接,并接收該增加和修正命令處理器輸出需要修正或是需要增加的新類別聲音的特征,且在該第一數(shù)據(jù)庫數(shù)據(jù)備份至該第二數(shù)據(jù)庫后,以該聲音的特征更新該第一數(shù)據(jù)庫中的特征的統(tǒng)計(jì)值,而該分類器在該第一數(shù)據(jù)庫的統(tǒng)計(jì)值更新后,將提取該特征數(shù)據(jù)庫中所存儲的所有樣本聲音的特征,并依據(jù)該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值來重新判定該等樣本聲音特征的分類。
該精確度計(jì)算器與該分類器電連接,且計(jì)算該特征數(shù)據(jù)庫中的樣本聲音特征被該分類器正確分類的比例,并可顯示該比例,且在該比例高于一個(gè)臨界值時(shí),將該聲音的特征送至該特征數(shù)據(jù)庫存儲,并保留該第一數(shù)據(jù)庫更新后的統(tǒng)計(jì)值,并在該比例不大于該臨界值時(shí),該第二數(shù)據(jù)庫則將備份的數(shù)據(jù)回存至該第一數(shù)據(jù)庫。
于是,本發(fā)明可修改聲音類別的方法,適用于讓使用者修改聲音分類系統(tǒng)中的分類,該聲音分類系統(tǒng)包括存儲多種聲音特征的統(tǒng)計(jì)值的第一數(shù)據(jù)庫、分類器、第二數(shù)據(jù)庫、存儲多種已被正確分類的樣本聲音的特征的特征數(shù)據(jù)庫、增加和修正命令處理器、類別增加和修正器及精確度計(jì)算器,而該方法包含下列步驟(A)該增加和修正命令處理器接收修改聲音類別的命令。
(B)將該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值存儲至該第二數(shù)據(jù)庫,以備份該第一數(shù)據(jù)庫的數(shù)據(jù)。
(C)該類別增加和修正器將該需要修正分類的聲音的特征加入該第一數(shù)據(jù)庫中使用者選定的類別,并重新計(jì)算該第一數(shù)據(jù)庫中被選定類別的聲音特征的統(tǒng)計(jì)值。
(D)該分類器提取該特征數(shù)據(jù)庫中所有樣本聲音的特征,并依據(jù)該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值來重新判定該等樣本聲音特征的分類,且該精確度計(jì)算器計(jì)算該多個(gè)樣本聲音特征被該分類器正確分類的比例。
(E)如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例大于一個(gè)臨界值,則該類別增加和修正器將該被修正類別的聲音的特征存到該特征數(shù)據(jù)庫中;如果該等樣本聲音的特征被該分類器正確分類的比例不大于該臨界值,則該第二數(shù)據(jù)庫將數(shù)據(jù)回存到該第一數(shù)據(jù)庫。
而本發(fā)明的可增加聲音類別的方法,適用于讓使用者增加該聲音分類系統(tǒng)中的分類,該方法包含以下步驟
(A)該增加和修正命令處理器接收增加聲音類別的命令。
(B)將該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值存儲至該第二數(shù)據(jù)庫,以備份該第一數(shù)據(jù)庫中的數(shù)據(jù)。
(C)該類別增加和修正器將該需要增加聲音類別的聲音的特征加入該第一數(shù)據(jù)庫中,并計(jì)算該新增加聲音類別的特征的統(tǒng)計(jì)值。
(D)該分類器提取該特征數(shù)據(jù)庫中所有樣本聲音的特征,并依據(jù)該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值來重新判定該等樣本聲音特征的分類,且該精確度計(jì)算器計(jì)算該等樣本聲音特征被該分類器正確分類的比例。
(E)如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例大于一個(gè)臨界值,則該類別增加和修正器將該增加類別的聲音的特征存到該特征數(shù)據(jù)庫中;如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例不大于該臨界值,則該第二數(shù)據(jù)庫將數(shù)據(jù)回存到該第一數(shù)據(jù)庫。
圖1是說明已知的聲音分類系統(tǒng)的系統(tǒng)架構(gòu)的方框圖;圖2是說明本發(fā)明的可增加和修正聲音類別的聲音分類系統(tǒng)的系統(tǒng)架構(gòu)的方框圖,;圖3是增加和修正聲音類別操作接口的示意圖;圖4是增加聲音類別操作接口的示意圖;圖5是修正聲音類別操作接口的示意圖;及圖6是說明當(dāng)聲音需要修正類別時(shí)的步驟的流程圖,。
具體實(shí)施例方式
有關(guān)本發(fā)明的前述及其它技術(shù)內(nèi)容、特點(diǎn)與功效,在以下配合參考圖式的優(yōu)選實(shí)施例的詳細(xì)說明中,將可清楚地呈現(xiàn)。
參閱圖2,本發(fā)明的可增加和修正聲音類別的聲音分類系統(tǒng)優(yōu)選實(shí)施例包括聲音接收器101、特征提取器102、分類器103、第一數(shù)據(jù)庫104、第二數(shù)據(jù)庫105、分類紀(jì)錄器106、精確度計(jì)算器107、類別增加和修正器108、增加和修正命令處理器109、特征數(shù)據(jù)庫110及視頻攝取器111。
該聲音接收器101可接收外界的聲音,而該特征提取器102可接收該聲音接收器101傳來的聲音信號,并找出該聲音信號的特征。
而聲音信號的特征是以已知所述的梅爾倒頻譜系數(shù)(Mel-scaleFrequency Cepstral Coefficients,簡稱MFCC)法所分析出的特征向量來代表。由于該方法已在先前技術(shù)中說明,故在此不再贅述。
此外,值得注意的是,本發(fā)明的特征提取器102計(jì)算聲音的特征所使用的方法也可為其它頻域(frequency domain)分析法,例如利用各個(gè)子頻域(frequency bin)作為特征向量的分量,或是采用聲音信號的時(shí)域(time domain)特征,如將聲音信號的能量(energy)或越零率(zerocrossing rate)當(dāng)作聲音信號的特征,但并不以上述所提為限。
該第一數(shù)據(jù)庫104存儲多種聲音的特征的統(tǒng)計(jì)值,而每一種聲音都包括至少一個(gè)聲音信號。并且在本實(shí)施例中該統(tǒng)計(jì)值是該類聲音信號的所有特征的平均值(mean)以及變異數(shù)(variance),但不限于此。例如玻璃破碎類的聲音包括100筆玻璃破碎聲,且每一筆玻璃破碎聲都具有一特征,故此玻璃破碎類的統(tǒng)計(jì)值即包含該100筆玻璃破碎類聲音的特征的平均值以及變異數(shù)。
該分類器103則將該特征提取器102分析出的特征與該第一數(shù)據(jù)庫104中所存儲的各類聲音的特征的統(tǒng)計(jì)值作比較,以將該聲音接收器101接收到的聲音信號分類至適當(dāng)?shù)穆曇舴N類,并將分類結(jié)果送至該分類紀(jì)錄器106。
而在本實(shí)施例中,該分類器103所采用的比對方法為在先前技術(shù)中已提到的馬哈拉諾畢斯距離法,但并不限于此,該分類器103也可以使用已知的歐幾里得距離(Euclidian Distance)法來比對,且比對方式是藉由計(jì)算外界聲音的特征與該第一數(shù)據(jù)庫104的統(tǒng)計(jì)值的歐幾里得距離,且當(dāng)該歐幾里得距離最小時(shí),表示該聲音接收器101接收到的聲音信號符合該第一數(shù)據(jù)庫104的該類聲音。
而該分類器103也可采用其它方法如L.Rabiner與B.-H.Juang所著并于1993年由Prentice Hall出版的“Fundamentals of Speech Recognition”中所述之隱藏式馬爾克夫模型(Hidden Markov models)來判斷該聲音接收器101所接收聲音的分類。且此時(shí)是以該隱藏式馬爾克夫模型中的轉(zhuǎn)換矩陣(transfer matrix)作為該第一數(shù)據(jù)庫104的統(tǒng)計(jì)值。
此外,該分類器103也可采用類神經(jīng)網(wǎng)絡(luò)法(neural networks)來對該聲音接收器101所接收的聲音進(jìn)行分類。該方法可參考Martin T.Hagan、Howard B.Demuth及Mark H.Beale所著并于1996年由PWS-KENT出版的“Neural network design”。且此時(shí)是以該類神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元(neuron)的權(quán)值(weight)作為該第一數(shù)據(jù)庫104中各類聲音特征的統(tǒng)計(jì)值。
該視頻攝取器111與該分類紀(jì)錄器106電連接,且可將該聲音產(chǎn)生時(shí)的環(huán)境影像攝取下來,并存儲到該分類紀(jì)錄器106中以輔助判別聲音產(chǎn)生時(shí)環(huán)境中所發(fā)生的事件。例如當(dāng)該分類器103將該聲音分類為玻璃破碎類的聲音時(shí),可藉由該視頻攝取器111取得的影像得知該聲音是因窗戶玻璃破裂所產(chǎn)生,或是汽車窗戶玻璃破裂所產(chǎn)生。而使用者也可由該影像確認(rèn)該分類器103是否有分類錯(cuò)誤。
該分類紀(jì)錄器106存儲該分類器103對每一聲音的分類結(jié)果。該分類結(jié)果包括類別、特征向量、聲音被接收的時(shí)間、聲音波形、聲音產(chǎn)生時(shí)攝取的影像以及聲音時(shí)間長度。如果是接收的聲音無法歸類于該第一數(shù)據(jù)庫104中的任一聲音類別時(shí),該分類紀(jì)錄器106也會將該結(jié)果存儲起來。
當(dāng)該聲音分類系統(tǒng)運(yùn)作一段時(shí)間之后,該分類紀(jì)錄器106中會存儲多筆該段時(shí)間內(nèi)該聲音接收器101所接收的聲音的分類結(jié)果。當(dāng)一筆聲音分類結(jié)果錯(cuò)誤而不符合使用者預(yù)期時(shí),使用者可對該聲音進(jìn)行分類修正;或者是聲音無法歸類于該第一數(shù)據(jù)庫104中的任一類別時(shí),此時(shí)使用者可增加可代表該聲音的聲音類別。
該增加和修正命令處理器109可接收修正聲音分類以及增加聲音分類的命令,并可提取該分類紀(jì)錄器106中聲音的分類結(jié)果以供使用者選出須修正或是增加類別的聲音,并且將使用者選出須修正或是增加類別的聲音送至該類別增加和修正器108。
該特征數(shù)據(jù)庫110中存儲多筆樣本聲音的特征,該等樣本聲音特征是已被正確劃分類別的聲音,且可由使用者或系統(tǒng)制造商預(yù)先存儲并可由使用者依其需求而增加。
該增加和修正命令處理器109可顯示如圖3所示的增加和修正聲音類別操作接口3,以供使用者輸入要修正聲音分類或是增加聲音分類的命令。該增加和修正聲音類別操作接口3包括選擇區(qū)31、瀏覽區(qū)32、播放按鈕33、增加類別按鈕34及修正類別按鈕35。
該選擇區(qū)31包括紀(jì)錄窗口311及卷動(dòng)選擇鍵312,該紀(jì)錄窗口311可顯示多筆聲音的分類結(jié)果以供使用者點(diǎn)選欲修正或是增加類別的聲音。同時(shí),該紀(jì)錄窗口311中也會顯示被點(diǎn)選到的聲音其所屬類別的代表圖示。如如果點(diǎn)選到貓叫聲,則該紀(jì)錄窗口311中將顯示出貓的圖案。該卷動(dòng)選擇鍵312可由鼠標(biāo)或是游戲桿來控制移動(dòng),以卷動(dòng)該紀(jì)錄窗口311。
該瀏覽區(qū)32包括聲音波形窗口321、聲音頻譜窗口322及聲音影像窗口323,而當(dāng)使用者在該紀(jì)錄窗口311點(diǎn)選聲音分類的結(jié)果時(shí),該瀏覽區(qū)32的所有窗口321、322、323將會對應(yīng)地顯示該筆聲音分類結(jié)果的相關(guān)資料,即該聲音波形窗口321將顯示該聲音的波形,該聲音頻譜窗口322則顯示該聲音的頻譜,而該聲音影像窗口323則顯示該聲音發(fā)生時(shí),該視頻攝取器111所攝取到的影像。
使用者可按壓該播放按鈕33以播放所點(diǎn)選的聲音分類結(jié)果的聲音,以便親自確認(rèn)該聲音是否被該分類器103正確地分類。
而當(dāng)使用者按壓該增加類別按鈕34時(shí),該增加和修正命令處理器109將顯示如圖4所示的增加聲音類別操作接口4。該增加聲音類別操作接口4包括類別名稱輸入窗口41及增加類別提示窗口42。
該類別名稱輸入窗口41包括類別名稱輸入欄411、增加類別確定鍵412及增加類別取消鍵413,使用者可輸入新增的聲音類別名稱至該類別名稱輸入欄411。而該增加和修正命令處理器109會檢查輸入的聲音類別名稱是否已經(jīng)存在;如果是,則透過該增加類別提示窗口42通知使用者另行輸入其它類別名稱。而該增加類別確定鍵412及該增加類別取消鍵413分別可供使用者確定或是取消新增聲音類別的命令。
而當(dāng)使用者按壓該修正類別按鈕35,該增加和修正命令處理器109則會顯示如圖5所示的修正聲音類別操作接口5。該修正聲音類別操作接口5包括既存聲音類別窗口51及修正類別提示窗口52。該既存聲音類別窗口51包括現(xiàn)有聲音類別顯示區(qū)511、修正類別確定鍵512及修正類別取消鍵513,該現(xiàn)有聲音類別顯示區(qū)511可顯示所有已經(jīng)存在的聲音類別,該等聲音類別可供使用者選取,以取代該增加和修正聲音類別操作接口3的選擇區(qū)31中被點(diǎn)選的聲音分類結(jié)果的聲音類別,例如如果該選擇區(qū)31中被點(diǎn)選的聲音分類結(jié)果的聲音類別原來歸類于貓叫聲的類別,而使用者于該現(xiàn)有聲音類別顯示區(qū)511點(diǎn)選一尖叫聲的聲音類別,則貓叫聲的類別將被取代為尖叫聲的類別。
該增加和修正命令處理器109經(jīng)由該修正類別提示窗口52顯示重要信息給使用者。該修正類別確定鍵512及該修正類別取消鍵513分別可供使用者確定或是取消修正聲音類別的命令。
配合參閱圖6,本發(fā)明可修改聲音類別的方法包含以下步驟步驟21是該增加和修正命令處理器109接收使用者修改聲音類別的命令。
步驟22是該類別增加和修正器108先將該第一數(shù)據(jù)庫104中的統(tǒng)計(jì)值存儲至該第二數(shù)據(jù)庫105,以備份該第一數(shù)據(jù)庫104的數(shù)據(jù)。
步驟23是該類別增加和修正器108將該聲音的特征向量加入該第一數(shù)據(jù)庫104中使用者選定的類別,并重新計(jì)算該第一數(shù)據(jù)庫104中該類別聲音的特征向量的統(tǒng)計(jì)值。
步驟24是該分類器103提取該特征數(shù)據(jù)庫110中所有樣本聲音的特征向量,并依據(jù)該第一數(shù)據(jù)庫104中各分類聲音的特征向量的統(tǒng)計(jì)值來重新判定該等樣本聲音特征的分類。且該精確度計(jì)算器107計(jì)算該等樣本聲音特征被該分類器103正確分類的比例。
步驟25是判定該等樣本聲音的特征向量被該分類器103正確分類的比例是否可接受。如果是,則跳到步驟27;如果否,則跳到步驟26。
步驟26是當(dāng)該精確度無法被接受時(shí),將該第二數(shù)據(jù)庫105的數(shù)據(jù)回存到該第一數(shù)據(jù)庫104,使該第一數(shù)據(jù)庫104如同未被修改之前的狀態(tài)。
步驟27是當(dāng)使用者接受該第一數(shù)據(jù)庫104被修正后的精確度時(shí),該類別增加和修正器108將該被修正類別的聲音的特征向量存儲到該特征數(shù)據(jù)庫110中,使該特征數(shù)據(jù)庫110增加樣本聲音特征。
值得注意的是,該精確度計(jì)算器107也可預(yù)設(shè)精確度的臨界值,當(dāng)該分類器103將該特征數(shù)據(jù)庫110中的樣本聲音特征重新分類的精確度小于該臨界值時(shí),可由該精確度計(jì)算器107自動(dòng)地放棄該修正聲音類別的命令,且將該第二數(shù)據(jù)庫105備份的數(shù)據(jù)回存至該第一數(shù)據(jù)庫104。
當(dāng)使用者增加聲音類別時(shí),增加聲音類別的方法流程與修改聲音類別的方法流程類似,且該增加和修正命令處理器109、該類別增加和修正器108、該第一及第二數(shù)據(jù)庫105與該特征數(shù)據(jù)庫110的動(dòng)作與修正聲音的類別時(shí)大致相同,不同的地方在于使用者須在該增加聲音類別操作接口4對要增加的類別輸入類別名稱,而該增加和修正命令處理器109須判定該類別名稱是否已經(jīng)存在。如果是的話,須通知使用者輸入尚未存在的類別名稱。且該類別增加和修正器108以該新類別的聲音的特征向量計(jì)算該新類別的特征向量的平均值及變異數(shù)。
綜合上述,本發(fā)明可增加和修正聲音類別的聲音分類系統(tǒng)1透過該增加和修正命令處理器109及該類別增加和修正器108提供使用者選取所欲修正分類的聲音并加以修正分類,也可提供使用者增加聲音類別來含括新類別的聲音,且以該等聲音的特征來修改該第一數(shù)據(jù)庫104。若是該第一數(shù)據(jù)庫104經(jīng)修改后無法提供該分類器103足夠的精確度來判定該特征數(shù)據(jù)庫110中樣本聲音特征的所屬類別時(shí),也可放棄該修正聲音類別或是增加聲音類別的命令。藉此達(dá)到提供使用者可彈性地分類聲音,以及增加新的聲音分類的目的,且能維持系統(tǒng)聲音分類的準(zhǔn)確性,確實(shí)能達(dá)到本發(fā)明的功效。
以上所說明的僅是本發(fā)明的優(yōu)選實(shí)施例,而不能以此限定本發(fā)明實(shí)施的范圍,本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求所限定的精神和范圍的情況下對本發(fā)明內(nèi)容所作的簡單的等效變化與修飾,皆屬于本發(fā)明涵蓋的范圍。
權(quán)利要求
1.一種可增加和修正聲音類別的聲音分類系統(tǒng),包括聲音接收器,用于接收待辨識的聲音信號;特征提取器,用于接收該聲音接收器傳來的該待辨識聲音信號,并找出該聲音信號的特征;第一數(shù)據(jù)庫,用于存儲多種聲音的特征的統(tǒng)計(jì)值;分類器,用于與該特征提取器及該第一數(shù)據(jù)庫電連接,且接收該特征提取器分析出的特征,并依據(jù)該第一數(shù)據(jù)庫中各類聲音的統(tǒng)計(jì)值將該待辨識聲音信號分類,且輸出分類結(jié)果;分類紀(jì)錄器,用于與該分類器電連接且存儲該分類器的分類結(jié)果與該待辨識聲音信號的特征;第二數(shù)據(jù)庫,用于與該第一數(shù)據(jù)庫電連接,并且可備份該第一數(shù)據(jù)庫中所存儲的數(shù)據(jù),并可在該第一數(shù)據(jù)庫所存儲的數(shù)據(jù)改變后,適時(shí)地將備份的數(shù)據(jù)回存至該第一數(shù)據(jù)庫;特征數(shù)據(jù)庫,用于存儲多種樣本聲音信號的特征,并可將該多個(gè)樣本聲音信號的特征輸出至該分類器;增加和修正命令處理器,用于與該分類紀(jì)錄器電連接,并在收到要求修正分類結(jié)果或是增加新分類的命令時(shí),由該分類紀(jì)錄器輸出需修正或需增加新類別的聲音的特征;類別增加和修正器,用于與該增加和修正命令處理器、該第一數(shù)據(jù)庫及該特征數(shù)據(jù)庫電連接,并接收該增加和修正命令處理器輸出需修正或是需增加新類別的聲音的特征,且在該第一數(shù)據(jù)庫數(shù)據(jù)備份至該第二數(shù)據(jù)庫后,以該聲音的特征更新該第一數(shù)據(jù)庫中的特征的統(tǒng)計(jì)值,而該分類器在該第一數(shù)據(jù)庫的統(tǒng)計(jì)值更新后,將提取該特征數(shù)據(jù)庫中所存儲的所有樣本聲音的特征,并依據(jù)該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值來重新判定該多個(gè)樣本聲音特征的分類;及精確度計(jì)算器,用于與該分類器電連接,且計(jì)算該特征數(shù)據(jù)庫中樣本聲音特征被該分類器正確分類的比例,并可顯示該比例,且在該比例高于一個(gè)臨界值時(shí),將該聲音的特征送至該特征數(shù)據(jù)庫存儲,并保留該第一數(shù)據(jù)庫更新后的統(tǒng)計(jì)值,并在該比例不大于該臨界值時(shí),該第二數(shù)據(jù)庫則將備份的數(shù)據(jù)回存至該第一數(shù)據(jù)庫。
2.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),還包括與該分類紀(jì)錄器電連接的視頻攝取器,該視頻攝取器可攝取該待辨識的聲音信號產(chǎn)生時(shí)環(huán)境中的影像。
3.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該特征提取器是以梅爾倒頻譜系數(shù)法所找出的特征向量作為該聲音的特征。
4.根據(jù)權(quán)利要求3所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該分類器是利用馬哈拉諾畢斯距離法來對該聲音信號進(jìn)行分類。
5.根據(jù)權(quán)利要求4所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該第一數(shù)據(jù)庫存儲的每一類聲音信號的統(tǒng)計(jì)值是包含該類聲音信號的所有特征向量的平均值以及變異數(shù)。
6.根據(jù)權(quán)利要求3所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該分類器是利用歐幾里得距離法來對該聲音信號進(jìn)行分類。
7.根據(jù)權(quán)利要求6所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該第一數(shù)據(jù)庫存儲的每一類聲音信號的統(tǒng)計(jì)值是包含該類聲音信號的所有特征向量的平均值以及變異數(shù)。
8.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該分類器是利用類神經(jīng)網(wǎng)絡(luò)來對該聲音信號進(jìn)行分類。
9.根據(jù)權(quán)利要求8所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該第一數(shù)據(jù)庫存儲的每一類聲音信號的統(tǒng)計(jì)值是類神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元的權(quán)值。
10.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該分類器是利用隱藏式馬爾克夫模型來對該聲音信號進(jìn)行分類。
11.根據(jù)權(quán)利要求10所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該第一數(shù)據(jù)庫存儲的每一類聲音信號的統(tǒng)計(jì)值是隱藏式馬爾克夫模型的轉(zhuǎn)換矩陣。
12.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該特征提取器是分析該聲音信號頻譜的各個(gè)子頻域作為該聲音信號的特征。
13.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該特征提取器是計(jì)算聲音信號時(shí)域的能量做為該聲音信號的特征。
14.根據(jù)權(quán)利要求1所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該特征提取器是計(jì)算聲音信號時(shí)域的越零率做為該聲音信號的特征。
15.根據(jù)權(quán)利要求2所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該分類結(jié)果是包括聲音類別、聲音被接收的時(shí)間、聲音的波形、聲音產(chǎn)生時(shí)攝取的影像以及聲音的時(shí)間長度。
16.根據(jù)權(quán)利要求2所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該增加和修正命令處理器可顯示增加和修正聲音類別操作接口,以接收增加和修正聲音類別的命令,該增加和修正聲音類別操作接口包括選擇區(qū)、瀏覽區(qū)、播放按鈕、增加類別按鈕及修正類別按鈕,該選擇區(qū)包括紀(jì)錄窗口及卷動(dòng)選擇鍵,該紀(jì)錄窗口可顯示多筆聲音分類結(jié)果以供使用者點(diǎn)選要修正或是要增加類別的聲音,而該紀(jì)錄窗口中也會顯示被點(diǎn)選到的聲音其所屬類別的代表圖示,該卷動(dòng)選擇鍵可控制該紀(jì)錄窗口將要增加和修正聲音類別的聲音分類結(jié)果顯示出來,該增加類別按鈕可接收增加聲音類別的命令,而該修正類別按鈕可接收修正聲音類別的命令,且該播放按鈕可控制播放該筆被點(diǎn)選的聲音分類結(jié)果中的聲音,該瀏覽區(qū)包括聲音波形窗口、聲音頻譜窗口及聲音影像窗口,而當(dāng)使用者在該紀(jì)錄窗口點(diǎn)選聲音分類的結(jié)果時(shí),該瀏覽區(qū)的所有窗口將會對應(yīng)地顯示該筆聲音分類結(jié)果的相關(guān)資料,該聲音波形窗口將顯示該聲音的波形,該聲音頻譜窗口則顯示該聲音的頻譜,而該聲音影像窗口則顯示該聲音發(fā)生時(shí),該視頻攝取器所攝取到的影像。
17.根據(jù)權(quán)利要求16所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該增加和修正命令處理器接收到增加聲音分類的命令時(shí),可顯示增加聲音類別操作接口,該增加聲音類別操作接口包括類別名稱輸入窗口及增加類別提示窗口,該類別名稱輸入窗口包括類別名稱輸入欄、增加類別確定鍵及增加類別取消鍵,該類別名稱輸入欄可接收新增的聲音類別名稱,該增加和修正命令處理器經(jīng)由該增加類別提示窗口顯示重要信息,該增加和修正命令處理器檢查輸入該類別名稱輸入欄的聲音類別名稱是否已經(jīng)存在;如果是,則透過該增加類別提示窗口顯示該類別名稱已經(jīng)存在,而該增加類別確定鍵及該增加類別取消鍵分別可接收確定或是取消新增聲音類別的命令。
18.根據(jù)權(quán)利要求16所述的可增加和修正聲音類別的聲音分類系統(tǒng),其中,該增加和修正命令處理器接收到修正聲音分類的命令時(shí),可顯示修正聲音類別操作接口,該修正聲音類別操作接口包括既存聲音類別窗口及修正類別提示窗口,該既存聲音類別窗口包括現(xiàn)有聲音類別顯示區(qū)、修正類別確定鍵及修正類別取消鍵,該現(xiàn)有聲音類別顯示區(qū)可顯示所有已經(jīng)存在的聲音類別,該等聲音類別可供使用者選取,以取代該增加和修正聲音類別操作接口的選擇區(qū)中被點(diǎn)選的聲音分類結(jié)果的聲音類別,該增加和修正命令處理器經(jīng)由該修正類別提示窗口顯示重要信息,而該修正類別確定鍵及該修正類別取消鍵分別可接收確定或是取消修正聲音類別的命令。
19.一種可修改聲音類別的方法,且該方法適用于讓使用者修改聲音分類系統(tǒng)中的分類,該聲音分類系統(tǒng)包括存儲多種聲音特征的統(tǒng)計(jì)值的第一數(shù)據(jù)庫、分類器、第二數(shù)據(jù)庫、存儲多個(gè)已被正確分類的樣本聲音特征的特征數(shù)據(jù)庫、增加和修正命令處理器、類別增加和修正器及精確度計(jì)算器,而該方法包含以下步驟(A)該增加和修正命令處理器接收修改聲音類別的命令;(B)將該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值存儲至該第二數(shù)據(jù)庫,以備份該第一數(shù)據(jù)庫的數(shù)據(jù);(C)該類別增加和修正器將該需修正分類的聲音的特征加入該第一數(shù)據(jù)庫中使用者選定的類別,并重新計(jì)算該第一數(shù)據(jù)庫中被選定類別的聲音特征的統(tǒng)計(jì)值;(D)該分類器提取該特征數(shù)據(jù)庫中所有樣本聲音的特征,并依據(jù)該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值來重新判定該等樣本聲音特征的分類,且該精確度計(jì)算器計(jì)算該多個(gè)樣本聲音特征被該分類器正確分類的比例;及(E)如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例大于一個(gè)臨界值,則該類別增加和修正器將該被修正類別的聲音的特征存儲到該特征數(shù)據(jù)庫中;如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例不大于該臨界值,則該第二數(shù)據(jù)庫將數(shù)據(jù)回存到該第一數(shù)據(jù)庫。
20.根據(jù)權(quán)利要求19所述的可修改聲音類別的方法,其中,每一類聲音信號的統(tǒng)計(jì)值是包含該類聲音信號的所有特征的平均值以及變異數(shù)。
21.一種可增加聲音類別的方法,且該方法適用于讓使用者增加聲音分類系統(tǒng)中的分類,而該聲音分類系統(tǒng)包括存儲多種聲音特征的統(tǒng)計(jì)值的第一數(shù)據(jù)庫、分類器、第二數(shù)據(jù)庫、存儲多個(gè)已被正確分類的樣本聲音的特征的特征數(shù)據(jù)庫、增加和修正命令處理器、類別增加和修正器及精確度計(jì)算器,而該方法包含以下步驟(A)該增加和修正命令處理器接收增加聲音類別的命令;(B)將該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值存儲至該第二數(shù)據(jù)庫,以備份該第一數(shù)據(jù)庫中的數(shù)據(jù);(C)該類別增加和修正器將該需要增加聲音類別的聲音的特征加入該第一數(shù)據(jù)庫中,并計(jì)算該新增加聲音類別的特征的統(tǒng)計(jì)值;(D)該分類器提取該特征數(shù)據(jù)庫中所有樣本聲音的特征,并依據(jù)該第一數(shù)據(jù)庫中各分類聲音的特征的統(tǒng)計(jì)值來重新判定該多個(gè)樣本聲音特征的分類,且該精確度計(jì)算器計(jì)算該多個(gè)樣本聲音特征被該分類器正確分類的比例;及(E)如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例大于一個(gè)臨界值,則該類別增加和修正器將該增加類別的聲音的特征存儲到該特征數(shù)據(jù)庫中;如果該多個(gè)樣本聲音的特征被該分類器正確分類的比例不大于該臨界值,則該第二數(shù)據(jù)庫將數(shù)據(jù)回存到該第一數(shù)據(jù)庫。
22.根據(jù)權(quán)利要求21所述的可修改聲音類別的方法,其中,每一類聲音信號的統(tǒng)計(jì)值是包含該類聲音信號的所有特征的平均值以及變異數(shù)。
全文摘要
一種可增加和修正聲音類別的聲音分類系統(tǒng),包括存儲多種聲音特征的統(tǒng)計(jì)值的第一數(shù)據(jù)庫、分類器、第二數(shù)據(jù)庫、存儲樣本聲音的特征的特征數(shù)據(jù)庫、增加和修正命令處理器、類別增加和修正器及精確度計(jì)算器。增加和修正命令處理器在接收修改或增加聲音類別的命令后,第一數(shù)據(jù)庫中的數(shù)據(jù)將存儲至第二數(shù)據(jù)庫,而類別增加和修正器則將聲音的特征加入第一數(shù)據(jù)庫,并重新計(jì)算統(tǒng)計(jì)值,且分類器重新分類樣本聲音,而精確度計(jì)算器則計(jì)算正確分類的比例,且當(dāng)比例高時(shí),類別增加和修正器將被修正或增加類別的聲音的特征存到特征數(shù)據(jù)庫,而當(dāng)比例低時(shí),第二數(shù)據(jù)庫將數(shù)據(jù)回存到第一數(shù)據(jù)庫。
文檔編號G10L15/08GK1889172SQ20051007916
公開日2007年1月3日 申請日期2005年6月28日 優(yōu)先權(quán)日2005年6月28日
發(fā)明者嚴(yán)嘉鑫, 林哲民, 水島考一郎 申請人:松下電器產(chǎn)業(yè)株式會社