語音識別片上系統(tǒng)及采用其的語音識別方法

文檔序號：2830897閱讀：221來源：國知局

專利名稱：：語音識別片上系統(tǒng)及采用其的語音識別方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及語音識別才支術(shù)領(lǐng)域，尤其涉及一種語音識別片上系統(tǒng)及采用該i吾音識別片上系統(tǒng)的i吾音識別方法。
背景技術(shù)：
：語音識別是機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。它是一門交叉學科，是近半個世紀以來發(fā)展起來的新興學科，也是近年來十分活躍的研究領(lǐng)域。語音是人類最直接、最方便的交流方式，是人類進行生產(chǎn)生活的重要基礎(chǔ)，同時，因為語音向空間是全方位傳輸?shù)模谌搜垲櫦安坏降臅r候或是在人很難進入的狹小或危險場所，通過語音來控制設(shè)備的操作有著明顯的優(yōu)勢，故語音識別在工業(yè)、軍事、交通、醫(yī)學、民用等各方面都具有廣闊的應用前景，潛藏著巨大的經(jīng)濟效益，對于殘疾人，使用語音控制輔助設(shè)備，更會給生活帶來極大的便利。近二十年來，語音識別^支術(shù)耳又得顯著進步，語音識別沖支術(shù)已經(jīng)從實驗室走向市場。人們預計，未來10年內(nèi)，語音控制將進入工業(yè)、家電、通信、汽車電子等各個領(lǐng)域，是2000年至2010年間電子、信息領(lǐng)域十大科技成果應用之一。這一成果在全國乃至全世界的家電、通信以及工業(yè)控制領(lǐng)域?qū)⑵鸬较喈敶蟮漠a(chǎn)品換代作用。目前，世界上的許多公司都已經(jīng)在電信、服務(wù)業(yè)和工業(yè)生產(chǎn)線上使用了語音識別技術(shù)，并創(chuàng)造出一批新穎的語音產(chǎn)品(如語音記事本、聲控玩具、語音遙控器、家用服務(wù)器)，從而極大的減輕了勞動強度、4是高了工作效率，并曰益改變著人們的曰常生活。因此，語音識別技術(shù)被視為本世紀最有挑戰(zhàn)性、最具市場前景的應用技術(shù)之一。語音識別技術(shù)的應用產(chǎn)品主要分為兩類，一類是基于PC才幾上運行的軟件；另一類是基于集成電路的嵌入式語音識別芯片?；赑C機的語音識別軟件目前主要為微軟、IBM、Lucent等國際大公司所壟斷，國內(nèi)僅中科院、清華大學等有限的幾家科研才幾構(gòu)從事相關(guān)的科學研究，尚無實用化系統(tǒng)。目前，嵌入式語音識別芯片主要在國外中小公司之間進行竟爭，國外一些大的半導體公司現(xiàn)在也開始設(shè)計語音識別芯片，但這些大的半導體公司雖然能夠設(shè)計語音識別芯片硬件系統(tǒng)，但往往缺少高性能的語音識別算法，因此需要與其它研發(fā)機構(gòu)合作。隨著電子技術(shù)的發(fā)展，嵌入式設(shè)備得到了飛速發(fā)展，不但應用到了軍事、力元空4元天、交通運^T、工業(yè)生產(chǎn)等領(lǐng)^t而且已經(jīng)走入了人們的日常生活，因此，嵌入式語音識別芯片的應用也越來越廣泛。由于芯片集成度的提高，手持設(shè)備的體積可以做的越來越小，而輸入設(shè)備，無論是鍵盤還是手寫屏都限制了手持設(shè)備體積的進一步縮小，語音識別^支術(shù)就可以解決這個問題，它可以筒化設(shè)備繁雜的菜單，削減大量的按鈕。許多場合下人們的雙手被占用或不便于操作設(shè)備，如車輛駕駛，廚房炒菜等，這時基于語音識別技術(shù)的語音控制可以使人免除手的纟乘作，給人們帶來了極大的方便。語音控制的用途非常廣泛，比如語音撥號，家用電器的控制等，通過語音命令遙控可以大大減輕人的工作強度，方〗更人的生活。嵌入式語音識別系統(tǒng)還可以用于智能才幾器人和智能玩具，甚至可以用于要求不高的身份驗證。因為嵌入式語音識別系統(tǒng)針對的目標多為智能玩具、家電控制及工業(yè)控制等，通常只需要對幾十個詞的命令進行識別，屬于小詞匯量語音識別系統(tǒng)，對此類情況，無需實現(xiàn)大詞匯量和連續(xù)語音識別，故所應解決的主要問題，是提高識別的準確性與穩(wěn)健性，同時簡化系統(tǒng)的復雜度，降低成本。目前，國際上嵌入式語音識別專用芯片主要是美國的Sensory公司的RSC-X系列，該系列芯片的功能較為強大，性能較好，但其成本4交高，且對中文的適應性不好，不利于在國內(nèi)市場的推廣，定人(SD)語音識別模式，無法滿足越來越廣泛的實際應用需求，在國內(nèi)市場，目前包括上海聞通，深圳捷通等數(shù)家語音識別方案^是供商多使用SUNPLUS的通用語音芯片，進行語音識別產(chǎn)品開發(fā)，開發(fā)時間長，開發(fā)難度較大，一致性差。隨著微電子技術(shù)及IC設(shè)計技術(shù)的不斷提升，通過單顆高度集成的語音識別專用芯片來實現(xiàn)語音識別片上系統(tǒng)，降低語音識別模塊及產(chǎn)品的復雜度，具有越來越高的迫切性，而嵌入式語音識別專用芯片的研制也成為當前^吾音識別研究的一個熱點方向。(一)、語音識別的背景介紹語音識別是機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。它是一門交叉學科，是近半個世紀以來發(fā)展起來的新興學科，也是近年來十分活躍的研究領(lǐng)域。近二十年來，語音識別技術(shù)取得顯著進步，語音識別技術(shù)已經(jīng)從實驗室走向市場。人們預計，未來10年內(nèi)，語音控制將進入工業(yè)、家電、通信、汽車電子等各個領(lǐng)域，是2000年至2010年間電子、信息領(lǐng)域十大科才支成果應用之一。這一成果在全國乃至全世界的家電、通信以及工業(yè)控制領(lǐng)域?qū)⑵鸬较喈敶蟮漠a(chǎn)品換代作用。語音是人類最直接、最方便的交流方式，是人類進行生產(chǎn)生活的重要基礎(chǔ)，同時，因為語音向空間是全方位傳輸?shù)?，在人眼顧及不到的時候或是在人4艮難進入的狹小或危險場所，通過語音來控制設(shè)備的操作有著明顯的優(yōu)勢，故語音識別在工業(yè)、軍事、交通、醫(yī)學、民用等各方面都具有廣闊的應用前景，潛藏著巨大的經(jīng)濟效益，對于殘疾人，使用語音控制輔助設(shè)備，更會給生活帶來極大的便利。目前，世界上的許多/>司都已經(jīng)在電信、服務(wù)業(yè)和工業(yè)生產(chǎn)線上使用了語音識別技術(shù)，并創(chuàng)造出一批新穎的語音產(chǎn)品(如語音記事本、聲控玩具、語音遙控器、家用服務(wù)器)，從而極大的減輕了勞動強度、才是高了工作效率，并日益改變著人們的日常生活。因此，語音識別技術(shù)被視為本世紀最有挑戰(zhàn)性、最具市場前景的應用技術(shù)之一。語音識別一支術(shù)的應用產(chǎn)品主要分為兩類，一類是基于PC才幾上運行的軟件；另一類是基于集成電路的嵌入式語音識別芯片?；赑C才幾的語音識別軟件目前主要為樣i軟、IBM、Lucent等國際大/>司所壟斷，國內(nèi)4又中科院、清華大學等有限的幾家科研才幾構(gòu)從事相關(guān)的科學研究，尚無實用化系統(tǒng)。目前，嵌入式語音識別芯片主要在國外中小公司之間進行竟爭，國外一些大的半導體乂^司現(xiàn)在也開始設(shè)計語音識別芯片，但這些大的半導體公司雖然能夠設(shè)計語音識別芯片硬件系統(tǒng)，但往往缺少高性能的語音識別算法，因此需要與其它研發(fā)才幾構(gòu)合作。隨著電子技術(shù)的發(fā)展，嵌入式設(shè)備得到了飛速發(fā)展，不但應用到了軍事、4元空4元天、交通運輸、工業(yè)生產(chǎn)等領(lǐng)域，而且已經(jīng)走入了人們的日常生活，因此，嵌入式語音識別芯片的應用也越來越廣泛。由于芯片集成度的提高，手持設(shè)備的體積可以做的越來越小，而輸入設(shè)備，無論是鍵盤還是手寫屏都限制了手持設(shè)備體積的進一步縮小，語音識別沖支術(shù)就可以解決這個問題，它可以簡化設(shè)備繁雜的菜單，削減大量的按鈕。許多場合下人們的雙手被占用或不便于操作設(shè)備，如車輛駕駛，廚房炒菜等，這時基于語音識別技術(shù)的語音控制可以使人免除手的操作，給人們帶來了極大的方便。語音控制的用途非常廣泛，比如語音撥號，家用電器的控制等，通過語音命令遙控可以大大減輕人的工作強度，方〗更人的生活。嵌入式i吾音識別系統(tǒng)還可以用于智能機器人和智能玩具，甚至可以用于要求不高的身份驗證。因為嵌入式語音識別系統(tǒng)針對的目標多為智能玩具、家電控制及工業(yè)控制等，通常只需要對幾十個詞的命令進^f亍識別，屬于小詞匯量"i吾音識別系統(tǒng)，7十此類情況，無需實3見大詞匯量和連續(xù)語音識別，故所應解決的主要問題，是提高識別的準確性與穩(wěn)健性，同時簡化系統(tǒng)的復雜度，降低成本。隨著微電子技術(shù)及IC設(shè)計技術(shù)的不斷"R升，通過單顆高度集成的語音識別專用芯片來實現(xiàn)語音識別片上系統(tǒng)或準系統(tǒng)，降低語音識別模塊及產(chǎn)品的復雜度，具有越來越高的迫切性，而嵌入式語音識別專用芯片的研制也成為當前語音識別研究的一個熱點方向。(二)、嵌入式語音識別纟支術(shù)的發(fā)展歷史嵌入式語音識別系統(tǒng)的研究和開發(fā)始于80年代初期，才艮據(jù)其技術(shù)水平的發(fā)展，大致可分為三個階段第一階革殳為1981年-1985年。當時，i吾音識別才支術(shù)主要表現(xiàn)在LPCC特征參數(shù)的提出和DTW匹配算法的應用。特定人、小詞表、；瓜立詞i口、別算法已經(jīng)開始走向成熟。在這一時期，TI、Intel、NEC、NTT等公司的研究機構(gòu)，相繼展開了對特定人、小詞表、孤立詞嵌入式語音識別的研究，并開發(fā)出識別系統(tǒng)。按照所采用的識別框架可以大致分為LPCC+DTW和才莫擬特征+簡化DP算法兩類。這一時期的嵌入式語音識別系統(tǒng)功能較為簡單，識別性能較差，在當時系統(tǒng)的成本4艮高。第二階段是從1986年到1991年。在這一時期，非特定人、小詞表、孤立詞的嵌入式語音識別系統(tǒng)開始出現(xiàn)，這是嵌入式語音識別的突破性進展。由于當時芯片處理能力太弱，嵌入式非特定人識別系統(tǒng)還沒有使用基于HMM模型的識別算法，大多采用了簡化的算法，識別性能4交差，無法實用。特定人嵌入式語音識別系統(tǒng)也進一步完善，在詞匯量增大和識別率纟是高方面，都有了4艮大的進步。由于電子工業(yè)的進步，芯片的處理能力得到大大提高，非特定人識別系統(tǒng)的算法可以更加復雜，甚至可以在單片機上提取MFCC特征。但由于當時硬件成本非常昂貴，導致系統(tǒng)無法推廣。第三階段是從1991年至現(xiàn)在。進入二十世紀九十年代以后，半導體技術(shù)飛速發(fā)展，電子設(shè)備不斷小型化，智能手持設(shè)備開始普及，對嵌入式語音識別系統(tǒng)的需求變得更加迫切。由于需求的巨大牽引作用，4吏得語音識別寺支術(shù)得到快速提高。特定人識別系統(tǒng)已經(jīng)成熟，一般釆用LPCC或MFCC參數(shù)作為識別特征參數(shù)，識別方法采用改進型DTW算法。特定人識別系統(tǒng)，識別率和識別時間，已經(jīng)能夠滿足商用要求，已經(jīng)4殳入商業(yè)應用，許多手才幾已經(jīng)具有特定人撥號功能。非特定人中小詞表嵌入式語音識別系統(tǒng)也逐漸成熟，開始走向應用。非特定人語音識別系統(tǒng)一般采用MFCC參數(shù)作為識別特征參數(shù)，識別算法采用基于整詞的HMM算法或基于子詞的HMM算法。2003年，Motorola公司推出的帶有語音撥號功能的手機，可以實現(xiàn)千詞級別的非特定人人名撥號功能。此外，嵌入式語音識別系統(tǒng)在語音玩具、家電控制、語音撥號等多個領(lǐng)域也已經(jīng)投入商業(yè)應用。(三)、語音識別系統(tǒng)原理語音識別技術(shù)是模式識別的一種，它與人的認知過程是一樣的，分為訓練和識別兩個部分。在訓練階段，語音識另'J系統(tǒng)對語音樣本進行學習，學習結(jié)束把學習的內(nèi)容存儲到模板庫中。在識別階段，則把當前輸入的語音在模板庫中查找最相近的結(jié)果。圖1是現(xiàn)有技術(shù)的語音識別系統(tǒng)框圖。如圖1所示，預處理包含A/D釆樣轉(zhuǎn)換和語音分幀等。模擬的語音信號首先通過A/D轉(zhuǎn)換，轉(zhuǎn)變?yōu)閿?shù)字信號。該語音在進行特征提取前需要經(jīng)過分幀處理。語音信號的一個重要特點是具有短時穩(wěn)定性，即在一短段時間間隔內(nèi)，語音信號會保持相對穩(wěn)定一致的特征，這,殳時間一4殳耳又為550ms。將連續(xù)語音切分為多個短段時間序列的過程，稱分分幀。在語音識別的特征提取中，較為常用的特征參數(shù)包括線性預測悟H普參凄t(LinearPredictionCepstrumCoefficient,LPCC)詳口Mel步貞才示倒i普參凄t(MelFrequencyCepstrumCoefficient,MFCC)以及i皆頻線寸生予貞測參凄丈(PerceptualLinearPredictive,PLP)。其中LPCC為參l史化建才莫，利用自回歸(AutoRegressionAR)才莫型提取短時語音譜的語包絡(luò)，運算簡單。LPCC特征可以較好的模擬人的聲道特性，對元音描述能力很強，但沒有考慮人耳的聽覺特性，有對輔音描述能力差和抗噪性能差、易受外界噪聲干擾的缺點。不過因為是參數(shù)化建模，計算量和存儲量都很小，故常應用在運行效率有限但不要求精準描述的系統(tǒng)中。MFCC和PLP兩者都需要進4亍FFT計算，在頻i或上作聽覺特性的模擬，為非參數(shù)化建模。它們的性能好于LPCC，抗噪性能也有明顯提升，但因為FFT運算量比較大，對于某些低成本系統(tǒng)來說是難以厚義受的。訓練和識別是一個逆過程。訓練階段,所有的語音樣本經(jīng)特征提取后，通過數(shù)學方法，訓練成才莫板，因為該過程處理的是大量語音數(shù)據(jù)，運算量非常大，故在嵌入式應用中，該過程通常需要借助PC機來完成。識別過程則將待識別語句的特征與模型語音輸入首先經(jīng)過ADC,轉(zhuǎn)換為數(shù)字信號；經(jīng)過特征提耳又之后成為特征序列；將所有訓練集合的特征序列進行訓練，可以形成矢量量化(VectorQuantizationVQ)的碼本，同時將特4正分為許多類，每類用碼本中一個碼字描述；特征序列經(jīng)VQ碼本量化可得到以矢量標號表示的特征序列，這些特征序列進行^^型訓練，可輸出基于整詞的語音識別模型；其后這些特征序列用得到的各模型分別識別，可得到N個識別輸出分數(shù)用來訓練其后的置信度模型；最終通過置信度模型測試判斷是否該接受某次輸入作為識別結(jié)果。在識別階段，各步驟流程類似，但不對碼本或才莫型作調(diào)整，只輸出識別結(jié)果。在MCU上的部分則只有識別過程，其步驟和PC上——對應，所用的碼本和模型均為在PC上經(jīng)過定點化后再下載到外部存儲器中。模型選擇語音識別中，目前主要采用的識別算法有三種，分別為動態(tài)時間規(guī)整(DynamicTimeWarping，DTW);隱含馬爾科夫模型(HiddenMarkovModel,HMM);人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)。DTW算法才莫型簡單，不需預先訓練，計算匹配過程簡單易行。但是DTW不引入任何隱含的對語言本身的模型描述，只是從時間上只于在詞表范圍內(nèi)的詞--進4亍匹配。而在面向非特定人的應用中，不可能對所有的說話人都——存儲特定詞條的模板，因此DTW并不適用。ANN方法的優(yōu)點是高度的并行處理及容錯能力，因而在需要大量限制條件的認知任務(wù)中是非常吸引人的，但是ANN在反映i吾音的動態(tài)特性上存在重大擊夾陷，所以目前ANN通常和DTW或HMM結(jié)合使用。例如，Sensory公司就開發(fā)過基于ANN的語音識別系統(tǒng)。而HMM是基于大量語音數(shù)據(jù)的統(tǒng)計性才莫型，通過待識別語音同這些模型匹配的結(jié)果，確認匹配最好的模型，即為所得識別結(jié)果。由于HMM算法在訓練過程中，統(tǒng)計了大量的語音數(shù)據(jù)，只要這些數(shù)據(jù)能夠涵蓋大部分的情況，就能夠獲得一個穩(wěn)健的統(tǒng)計模型，能夠適應實際語音中的各種變化情況。因此它獲得了廣泛的應用。綜合考慮，本文決定采用基于HMM的統(tǒng)計才莫型，以便刻劃許多人說同一句話的整體特點。從模型的狀態(tài)輸出觀察矢量的概率分布形式上區(qū)分，HMM可分為連續(xù)HMM(ContinuousHMM)、離散HMM(DiscreteHMM)以及介于兩者之間的半連續(xù)HMM才莫型(Semi-CHMM);乂人識別單元上區(qū)分，可以分為整詞，音節(jié)，半音節(jié)才莫型；乂人連4妄關(guān)系上區(qū)分，可以分為上下文相關(guān)的CDHMM和上下文無關(guān)的CIHMM。其中CHMM算法用于非特定人識別時算法精度高、識別準確，在基于8位核的硬件平臺上實現(xiàn)CHMM算法比4交困難，CHMM算法運算量大，識別速度比較緩慢。針對于非特定人、混淆程度不高的小詞表到中大詞表識別任務(wù)，DHMM模型已經(jīng)可以達到識別精度的要求，它具有具有識別速度快、資源開銷小的優(yōu)點；^f旦是DHMM算法因為采用VQ過程降低才莫型精度，相對CHMM來講會帶來一定程度的識別率的下降。(四)、嵌入式語音識別芯片的現(xiàn)狀1).各種結(jié)構(gòu)的嵌入式語音識別系統(tǒng)的比較嵌入式語音識別系統(tǒng)4^f吏用主芯片的不同分三類MCU實現(xiàn)，DSP實現(xiàn)和專用語音識別芯片實現(xiàn)。使用MCU實現(xiàn)的嵌入式語音識別系統(tǒng)一^殳采用8位，16位或32位MCU實現(xiàn)，其中以8位和16位偏多。由于MCU的計算能力和存儲空間有限，一般多采用計算量較小的LPCC作為識別特征，識別算法以特定人的DTW和非特定人的DHMM整詞識別為主。DSP是為了適合數(shù)字信號處理算法高效運行而專門設(shè)計的微運算器，它具有適合數(shù)字信號處理運算的結(jié)構(gòu)單元，具有單指令周期的乘法器，它的總線一^:采用口合佛結(jié)構(gòu)，程序讀取和凄t據(jù)讀耳又可以同時進行，甚至有的DSP處理器具有多條數(shù)據(jù)總線，可以同時訪問多個內(nèi)存地址。DSP處理器往往都支持專門的尋址模式，這非常適合數(shù)字信號處理算法的執(zhí)行。嵌入式語音識別系統(tǒng)一般選用定點DSP芯片作為主處理器，定點處理器成本較低，功耗較小，運算速度和運算精度適中，比較適合用于語音識別。在識別要求較高，不計成本的場合也可以選有浮點DSP芯片。以DSP實現(xiàn)的嵌入式語音識別系統(tǒng)通常4吏用MFCC作為識別特4正，以CHMM為識別才莫型，常用維特比i,碼為識別解碼算法。專用的i吾音識別芯片一^:為一個MCU單元結(jié)合一個DSP單元或一個專門的運算器件。專用的語音識別芯片根據(jù)語音識別算法優(yōu)化了運算單元，為降低成本，簡化了一些DSP的結(jié)構(gòu)。專用的語音識別芯片合理配置了外設(shè)接口，使其更加適合語音應用的。比如酉G置了合適的ADC和DAC,集成了模擬音頻放大電路，去除了一些用處不大的接口，如USB接口，網(wǎng)絡(luò)接口等?？傊?，專用的語音識別芯片是為語音識別應用量身訂做的，從性能和成本上更加適合了語音識別的應用。專用的語音識別芯片片內(nèi)集成度高，使得芯片的外圍電3各4艮少，方1^更了用戶對i吾音識別系統(tǒng)的i殳計和應用。專用的語音識別芯片和MCU、DSP相比也有缺點，它過于傾向于語音應用，犧^f生了應用方向的靈活性。經(jīng)比專交，MCU性能信號處理能力差，只能完成簡單的應用，但成本最低，實現(xiàn)電路簡單；DSP功能強大，處理能力強，適合多種應用，價格也比較昂貴。DSP—般不集成ADC、DAC和音頻放大電路，而且對電源要求嚴格，一般還需要專門的電源芯片，由DSP芯片搭建的系統(tǒng)，外圍電路比較復雜，總體成本會很高。目前技術(shù)發(fā)展可以在MCU的基礎(chǔ)上，嵌入一個專用處理石更件才是升MCU處理能力，實現(xiàn)高性能語音處理。這就是專用的語音芯片的設(shè)計思路，這樣的芯片處理能力處于MCU和DSP之間，具有一定優(yōu)勢。專用的語音芯片計算能力完全能夠滿足特定的語音識別算法，集成了全面的語音處理的輸入輸出外設(shè)，實現(xiàn)系統(tǒng)總體成本較低，因此從性價比上講專用語音識別芯片用于語音識別是最優(yōu)的。2).典型的專用語音識別芯片介紹語音識別芯片已經(jīng)出現(xiàn)多年，下面介紹兩凍欠比較典型的芯片。(1)Unispeech圖2是現(xiàn)有技術(shù)的一種典型的語音芯片的框圖。如圖2所示，Unispeech是德國Infineon開發(fā)的專用語音芯片，它內(nèi)部集成了一個16位DSP核(OAK)和一個/\位MCU核(M8051)。該芯片集成了兩3各12bit的ADC和兩^各libit的DAC,104KB的SRAM以及高靈活性的MMU等器件。其中DSP最高工作頻率可達100MHz,MCU最高工作頻率為50MHz。芯片上的兩個處理器核是完全獨立工作的，具有獨立的寄存器空間和存儲器空間，它們通過雙核通信隊列(FIFO)協(xié)同工作。為了充分利用存儲空間和方便數(shù)據(jù)交換，Unispeech包含一個內(nèi)存管理單元(MMU)，4吏4尋單片才幾核和DSP核可以非常方^更的共享系統(tǒng)內(nèi)存。由于采用了SoC結(jié)構(gòu)，構(gòu)成系統(tǒng)的芯片數(shù)量少，系統(tǒng)的集成度和穩(wěn)定性高。因此該芯片非常適合于開發(fā)帶有語音識別功能的遙控器等應用。Unispeech芯片結(jié)才勾Unispeech的系統(tǒng)性能較高，應用靈活性也很強，但成本也較高。RSC畫4xRSC-4x是美國Sensory/>司最新一代(第4代)的語音識別產(chǎn)品，是2004年開發(fā)的，這是一款集成度4艮高的語音識別及語音合成處理器系列，針對的是消費類、手持類及車載類產(chǎn)品。RSC-4X系列芯片已為適用SENSORY語音識別7.0技術(shù)進行了優(yōu)化設(shè)計，7.0技術(shù)是一套具有多種功能的高性能的語音識別和合成軟件，如多詞匯非特定人語音識別，多詞匯特定人語音識別，連續(xù)語音中關(guān)4建詞捕獲，說話人身份校驗，語音與音樂合成等。RSC-4x內(nèi)部集成了多個適合i吾音識別和合成應用的部件，包4舌一個8bit的樣t控制器，一個帶有雙向直4妻存^[渚器(Twin-DMA)的向量加速器，16位A/D轉(zhuǎn)換器，10位D/A轉(zhuǎn)換器，片內(nèi)集成4.8K字節(jié)RAM(其中256字節(jié)可供用戶使用)，帶自動增益控制的麥克風前置放大器，PWM揚聲器驅(qū)動電路，計時器加單獨的看門狗電路，4個比較器輸入，2種省電模式及24個I/O口。RSC-4x系列的主要區(qū)別是內(nèi)部ROM集成的凄史量。其中RSC-4000沒有內(nèi)部ROM，RSC-4128集成128KbyteROM,RSC-4256集成256KbyteROM。RSC-4x系列芯片的語音識別沖支術(shù)基于HMM和人工神經(jīng)網(wǎng)絡(luò)，非特定人識別率高于97%，特定人識別率高于99%，識別的詞條數(shù)量只和存儲器大小有關(guān)。連續(xù)語音關(guān)鍵詞檢測最多可以檢測10個非特定人關(guān)4建詞或4個特定人關(guān)4建詞。RSC-4x可以實現(xiàn)高質(zhì)量的3.7-7.8kbps速率的合成語音。RSC-4x的大批量量產(chǎn)的供貨價格最低可達3.5美元。圖3是現(xiàn)有技術(shù)的另一種典型的語音識別芯片的框圖。如圖3所示，RSC-4x芯片結(jié)構(gòu)框圖，RSC-4x是通過低成本，低性能微處理器(4MIPS)加專用運算處理器件實現(xiàn)非特定人語音識別才支術(shù)的典型代表，它成本低，功耗小，性能較好。該芯片適合純應用性的開發(fā)，不需要開發(fā)人員具有語音識別技術(shù)，但是該芯片也存在缺點。它的語音識別和合成技術(shù)是通過軟件打包的方式提供的。該芯片不是開放式的，用戶不能接觸到具體運算代碼，也不能訪問和使用專用計算器件，應用的靈活性受到很大限制。由于該芯片的處理能力較弱，只能完成語音識別和合成功能，在實際應用時，一般只能在其他芯片的協(xié)助下工作，難以開發(fā)單芯片系統(tǒng)。目前，嵌入式語音識別系統(tǒng)的需求很大，尤其在低端產(chǎn)品中需求很大。市場需要性能較好且成本較低的嵌入式語音識別系統(tǒng)，以語音識別專用芯片來實現(xiàn)是最佳選擇。當前語音識別才支術(shù)及市面存在的語音識別芯片的缺點有1).開發(fā)難度大，普通客戶無法自行開發(fā)。市面出現(xiàn)的語音識別芯片，需要使用者具備良好的語音識別技術(shù)的功底，這對于普通客戶，是非常困難的。因為語音識別算法的復雜性，目前語音識別產(chǎn)品通常是由專門的方案提供公司來實現(xiàn)，客戶需要尋找此類公司，進行個案開發(fā)。方案公司通常會收取高額的開發(fā)費用，且開發(fā)出的產(chǎn)品不具備通用性，-修改和升級都非常麻煩，無法由用戶自4亍完成。本發(fā)明的目的正是要降低用戶的開發(fā)難度，使得普通用戶可以很容易地實現(xiàn)語音識別產(chǎn)品的開發(fā)和升級。2).成本高。無i侖是通用芯片還是市面已有的語音識別芯片，硬件系統(tǒng)的成本都相當昂貴，這制約了語音識別產(chǎn)品的普及。語音識別芯片成本偏高的主要原因在于需要有能力完成復雜的數(shù)學運算，針對這一點，本芯片設(shè)計了一種新的方案，在一顆普通8位核心的基礎(chǔ)上增加一個專用凄t學運算單元，既解決了運算效率的問題，也有效;也降<氏了成本。3).開發(fā)和生產(chǎn)周期長。市面已有的語音識別產(chǎn)品，絕大部分采用ROMCode的方式，禾呈序編寫完成后，需要對芯片進4亍4務(wù)月莫工藝，該工藝周期通常在一個半月以上，且掩膜需要收取掩膜費用，并有最小起訂量的問題，這使得產(chǎn)品的開發(fā)和生產(chǎn)周期長，并存在很大的廢棄和庫存風險。本發(fā)明則采用最新的OTP(OneTimeProgrammable,—次性編禾呈)Rom才支術(shù)，可以在芯片生產(chǎn)完成后再進行程序燒錄，調(diào)試和生產(chǎn)都非常方便、靈活、快捷，沒有起訂量的限制。4).通用性和一致性差。當前語音識別產(chǎn)品尚未形成統(tǒng)一的頭見格和標準，檢驗時也缺乏依據(jù)。個案開發(fā)時，雖然功能大同小異，但產(chǎn)品開發(fā)時卻需要重新設(shè)計，導致重復勞作，效率很低。本發(fā)明在總結(jié)現(xiàn)有芯片的功能和特點的基礎(chǔ)上，通過對語音識別常用功能部件的高度集成，構(gòu)成了一個完整的片上系統(tǒng)，同時，芯片預置按4建檢測、LED顯示、紅外發(fā)射驅(qū)動及馬達控制驅(qū)動等常用程序邏輯，用戶只需要進行簡單配置，即可完成語音識別產(chǎn)品的開發(fā)。
發(fā)明內(nèi)容鑒于以上所述的一個或多個問題，本發(fā)明提出了一種語音識別片上系統(tǒng)及采用該語音識別片上系統(tǒng)的語音識別方法，旨在設(shè)計一顆真正意義上的低成本高集成度的非特定人孤立詞語音識別專用芯片，使其可適用于語音對話玩具，家電控制等領(lǐng)域，降低語音識別產(chǎn)品的開發(fā)難度，推進語音識別產(chǎn)品的廣泛應用。根據(jù)本發(fā)明的一個方面的語音識別片上系統(tǒng)包括放大濾波模塊，用于對模擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；模數(shù)轉(zhuǎn)換模塊，用于將經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將數(shù)字語音信號發(fā)送給處理模塊；以及處理模塊，用于根據(jù)數(shù)字語音信號進行相應的處理；其中，放大濾波模塊、模數(shù)轉(zhuǎn)換模塊、及處理模塊均集成在一塊芯片上。其中，相應的處理包括相應的語音回々貴、相應的控制、及相應的處理結(jié)果的傳送中的至少一種處理。處理模塊包括數(shù)字信號處理單元，用于控制數(shù)學運算單元、一次性可編程單元、及暫存單元，并對數(shù)字語音信號進行相對簡單的處理；凄t學運算單元，對lt字語音信號進行相對復雜的處理；一次性可編程單元，用于存儲數(shù)字信號處理單元和數(shù)學運算單元進行處理所需的資料；以及暫存單元，用于暫存數(shù)字信號處理單元和數(shù)學運算單元進行處理的過程中的臨時數(shù)據(jù)。其中，數(shù)字信號處理單元可以是8位的類DSP。數(shù)學運算單元可以是通過石更件結(jié)構(gòu)實現(xiàn)算法的單元。該語音識別片上系統(tǒng)還可以包括語音播放單元，用于在處理模塊根據(jù)數(shù)字語音信號進行相應的語音回饋時播放所回饋的語音；I/O接口，用于在處理才莫塊根據(jù)數(shù)字語音信號進行相應的控制時輸出控制信號；以及通訊接口，用于在處理才莫塊根據(jù)數(shù)字語音信號進4亍相應的處理結(jié)果傳送時傳送處理結(jié)果。才艮才居本發(fā)明另一方面的采用該"i吾音識別片上系統(tǒng)的i吾音識別方法包括以下步驟步驟一，放大濾波纟莫塊對纟莫擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；步驟二，模數(shù)轉(zhuǎn)換模塊將經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將數(shù)字語音信號發(fā)送給處理一莫塊；以及步驟三，處理模塊根據(jù)數(shù)字語音信號進行相應的處理。其中，步驟三包括以下處理處理才莫塊將凄t字語音信號分成多個凄史字語音信號幀；處理才莫塊提耳又多個數(shù)字語音信號幀中的每一幀的特征參數(shù)；處理模塊將特征參數(shù)與預先存儲的模型數(shù)據(jù)進行比較以獲得數(shù)字語音信號的識別結(jié)果；以及處理才莫塊才艮據(jù)識別結(jié)果進行相應的處理。其中，相應的處理包括相應的語音回饋、相應的控制、及相應的處理結(jié)果傳送中的至少一種處理。通過本發(fā)明，提供了一顆真正意義上的低成本高集成度的非特定人《瓜立詞i吾音識別專用芯片，^吏其可適用于i吾音對-話3元具，家電控制等領(lǐng)域，降低語音識別產(chǎn)品的開發(fā)難度，推進語音識別產(chǎn)品的廣泛應用。此處所i兌明的附圖用來沖是供對本發(fā)明的進一步理解，構(gòu)成本申請的一部分，本發(fā)明的示意性實施例及其i兌明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當限定。在附圖中圖1是現(xiàn)有技術(shù)的語音識別系統(tǒng)框圖2是現(xiàn)有技術(shù)的一種典型的語音芯片的框圖3是現(xiàn)有4支術(shù)的另一種典型的語音識別芯片的框圖4是才艮據(jù)本發(fā)明實施例的語音識別片上系統(tǒng)的框圖5是才艮據(jù)本發(fā)明實施例的語音識別方法的流程圖6是才艮據(jù)本發(fā)明實施例的語音識別芯片的示意圖7是根據(jù)本發(fā)明實施例的DSP核心的框圖8是根據(jù)本發(fā)明實施例的陣列運算器的示意圖9是根據(jù)本發(fā)明實施例的語音識別芯片的語音識別的流程圖；以及圖10是才艮據(jù)本發(fā)明實施例的語音識別芯片具體應用的示意圖。具體實施例方式下面參考附圖，詳細i兌明本發(fā)明的具體實施方式。語音識別芯片是極具市場前景的高技術(shù)產(chǎn)品，但目前國內(nèi)尚無真正意義上的語音識別專用芯片。開發(fā)語音識別產(chǎn)品時，需要在一些通用芯片的基礎(chǔ)上，進行語音識別算法的研發(fā)，技術(shù)門榲高，且費時費力；國外雖然有語音識別專用芯片，^旦成本高，且對中文的適應性不好，另外，由于采用掩膜工藝，生產(chǎn)周期長，有最小起訂量的限制，難被用戶廣泛接受。本發(fā)明通過設(shè)計具備高集成度的語音識別專用芯片，統(tǒng)一技術(shù)規(guī)格，降低系統(tǒng)成本，縮短用戶的開發(fā)和生產(chǎn)周期，推進語音識別產(chǎn)品的應用。圖4是根據(jù)本發(fā)明一個實施例的語音識別片上系統(tǒng)的框圖。如圖4所示，該語音識別片上系統(tǒng)包括放大濾波才莫塊402,用于對模擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；模數(shù)轉(zhuǎn)換模塊404,用于將經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將數(shù)字語音信號發(fā)送給處理模塊；以及處理才莫塊406，用于根據(jù)數(shù)字語音信號進行相應的處理；其中，放大濾波模塊、模數(shù)轉(zhuǎn)換模塊、及處理模塊均集成在一塊芯片上。其中，相應的處理包^^相應的i吾音回々貴、相應的控制、及相應的處理結(jié)果的傳送中的至少一種處理。處理才莫塊包括數(shù)字信號處理單元，用于控制數(shù)學運算單元、一次性可編程單元、及暫存單元，并對數(shù)字語音信號進行相對簡單的處理；數(shù)學運算單元，對數(shù)字語音信號進行相對復雜的處理；一次性可編程單元，用于存^f諸數(shù)字信號處理單元和凄t學運算單元進行處理所需的資沖牛；以及暫存單元，用于暫存H字信號處理單元和凄t學運算單元進行處理的過程中的臨時數(shù)據(jù)。其中，數(shù)字信號處理單元可以是8位的類DSP。數(shù)學運算單元可以是通過石更件結(jié)構(gòu)實現(xiàn)算法的單元。該語音識別片上系統(tǒng)還可以包4舌i吾音插j文單元，用于在處理才莫塊根據(jù)數(shù)字語音信號進行相應的語音回饋時播;改所回饋的語音；I/O接口，用于在處理模塊根據(jù)數(shù)字語音信號進行相應的控制時輸出控制信號；以及通訊接口，用于在處理模塊根據(jù)數(shù)字語音信號進4亍相應的處理結(jié)果傳送時傳送處理結(jié)果。圖5是根據(jù)本發(fā)明實施例的語音識別方法的流程圖。如圖5所示，根據(jù)本發(fā)明實施例的采用上述的語音識別片上系統(tǒng)的語音識別方法包纟舌以下步艱朵步驟S502，放大濾波模塊對模擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；步驟S504,模數(shù)轉(zhuǎn)換模塊將經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將數(shù)字語音信號發(fā)送給處理;漠塊；以及步-驟S506，處理才莫塊才艮據(jù)數(shù)字語音信號進4于相應的處理。其中，步驟S506包括以下處理處理模塊將數(shù)字語音信號分成多個lt字語音信號幀；處理才莫塊沖是取多個lt字語音信號幀中的每一幀的特征參數(shù)；處理模塊將特征參數(shù)與預先存儲的模型數(shù)據(jù)進行比較以獲得數(shù)字語音信號的識別結(jié)果；以及處理模塊才艮據(jù)識別結(jié)果進4亍相應的處理。其中，相應的處理包才舌相應的i吾音回々貴、相應的4空制、及相應的處理結(jié)果傳送中的至少一種處理。圖6是根據(jù)本發(fā)明實施例的語音識別芯片的示意圖。如圖6所示，在本發(fā)明的實施例中提供了一顆真正意義上的低成本高集成度的語音識別專用芯片，使其可適用于智能對話玩具，家電控制等各類智能應用領(lǐng)域。芯片采用當前流行的軟硬件協(xié)同設(shè)計的模式，用戶無需對芯片進行任何編程，只需通過開發(fā)工具，對芯片的外掛存儲器進行簡單配置，即可實現(xiàn)語音識別產(chǎn)品的開發(fā)。根據(jù)本發(fā)明實施例的語音識別專用芯片，是在一顆芯片中嵌入8<立類DSP(digitalsignalprocessing,凄史字4言號處理)4亥心、RAM、ROM、A/D、D/A等，構(gòu)成一個完整的語音識別片上系統(tǒng)SOC(SystemOnChip,片上系統(tǒng))，并4十對語音識別，i吾音編解碼等的特歹朱需要，在芯片內(nèi)部集成了公司自創(chuàng)的專用數(shù)學運算單元，使8位DSP芯片能夠快速處理識別16位語音數(shù)據(jù)。芯片內(nèi)嵌語音識別引擎，該引擎采用目前國際主流的HMM孤立詞語音識別算法及LPCC/MFCC語音特征提耳又算法，并包含自4于i殳計的語音編解碼及語音合成等算法。語音信號通過AGC(autogaincontrol自動增益控制)音頻方文大電路模塊處理，再由ADC(analog-digitalconverter,模數(shù)轉(zhuǎn)換器)模塊將模擬信號轉(zhuǎn)換為數(shù)字信號提供給系統(tǒng)運算處理，模擬信號也可通過系統(tǒng)提供的16個I/O腳位輸入進行ADC轉(zhuǎn)換。各個模塊筒述ADC才莫塊芯片^是供3組16位元之轉(zhuǎn)換資料，架構(gòu)上為多工掃描，可同時進行3個模擬信號(從I/O腳位或是MIC訊號)轉(zhuǎn)換，再透過軟件設(shè)定切換信號源，達到測量多組模擬信號之目的。AGC模塊系統(tǒng)內(nèi)建了麥克風放大線路及自動增益調(diào)整之電路，讓輸入之語音資料能維持一定的SNR以上，對于語音識別應用會有相當程度的提升。IC(inter-integratedcircuit)&SPI(serialperipheralinterface)模塊系統(tǒng)內(nèi)建I2C及SPI傳輸接口，可輕易連接外部之擴展存儲器達成不同的語音資料庫儲存，亦可透過此接口更改存儲器的內(nèi)容。此外，也可通過次^接口，將系統(tǒng)定義為語音識別運算協(xié)處理器。TIMER(計時器)模塊內(nèi)建2個8位元計時器，可分別設(shè)定所需的周期，每次周期達到時可產(chǎn)生中斷信號，并要求DSP處理信號，其中包含聲音輸入編碼處理及語音輸出解碼處理等。1/0接口16個獨立設(shè)定之輸入/輸出I/O，可為類比訊號輸入選擇或是數(shù)位輸出入選"f奪，其中8個I/O具備中斷功能，提供系統(tǒng)處理按鍵功能。DAC(digital-analogconverter,凄t才莫4爭4奐器)才莫^::2個3蟲立的16位元DAC輸出電壓信號準位，可提供聲音信號輸出之依據(jù)或是模擬電壓信號提供外部控制電路所需之準位。也可通過ADC輸入信號后進行算法處理，更新電壓信號并輸出，實現(xiàn)數(shù)字濾波等各類處理功能。EQ(平4軒方文大器，equalizeramplifier)&AMP(功率力欠大器)由DAC輸出的音頻信號可通過內(nèi)建之EQ，由外接元件達成濾波器電路，再將此濾波信號輸入到系統(tǒng)提供的喇叭驅(qū)動電路，提供0.5W功率Class-AB方式的功方文(AMP)馬區(qū)動，AMP的馬區(qū)動〗言號亦可為PWM(pulsewidthmodulation,月永寬調(diào)制)凄t字1言號，可由芯片的配置寄存器進行設(shè)定。RC(Resistance-Capacitance電卩且電容)、OSC(Oscillator,才展蕩器)&PLL(phaseLockedLoop,鎖向環(huán))模塊芯片的運4亍頻率來源于自身RC^^蕩，芯片只需外沖妄一個電阻，即可產(chǎn)生一個2MHz基頻，再以這個頻率透過PLL產(chǎn)生高頻信號，倍頻lt的i殳定在程式運行中可動態(tài)調(diào)整，倍數(shù)范圍從16.13~38.40倍，調(diào)節(jié)精度約為0.25MHz。利用調(diào)整操作頻率，可取得運算復雜度與功耗間的最佳方案。SRAM(StaticRandomAccessMemory,,爭態(tài)隨才幾存取存々者器)SRAM為系統(tǒng)提供操作所需的資料暫存空間，本芯片還可將程序代碼載入到SRAM中運行，實現(xiàn)程式代碼的動態(tài)搬移，例如可由外部儲存器中讀取代碼，達到應用程序更新的目的。此空間支持資料暫存和程序代碼的混合使用，無特殊限制。OTPROM:OTP(OneTimeProgrammable,—次性可編程)ROM是系統(tǒng)上電時的默認程序資料的存儲器，其存儲內(nèi)容既可以是程序，也可以是數(shù)據(jù)，可將其視為類似BIOS形態(tài)。OTP使得芯片程序內(nèi)容可在出貨時再決定，達到少量多樣化，快速更新及快速交貨之目的。為實現(xiàn)語音識別應用需求，ROM中已預植入公司自行設(shè)計的非特定人孤立詞語音識別引擎。該引擎使用目前國際主流的HMM識別算法及LPCC/MFCC語音特征提取算法，并包含自行研發(fā)的i吾音編解碼及i吾音合成算法。PWM:此區(qū)塊可依i殳定之頻率產(chǎn)生中斷，而其有效周期可隨時更改，且可透過I/O將PWM的信號輸出，輸出信號可定義為ActiveHigh/Low。通過此才莫塊可實現(xiàn)紅外線傳輸?shù)膽?。另外此才莫塊還可進一步定義它的輸出來獨立控制P/NMOS之H/LSide,這樣，4吏用PWM功能，配合系統(tǒng)的Multi—ChannelADC可達到控制"無刷電才幾"的目的。圖7是根據(jù)本發(fā)明實施例的DSP核心的框圖。如圖7所示，簡單來說，DSP之內(nèi)部為一組高速暫存器之資料搬移，其拍義移行為的定義在uCode內(nèi)，如此設(shè)計可讓硬體電路設(shè)計單純化，但是其運算能力卻是無窮的。uCode為一'卜塊高速ROM,其內(nèi)容決定暫存器間拍殳移的關(guān)系，它的內(nèi)容是可變換更新的，意即不同的uCode賦予DSP不同的工作^"為=〉不同的指令定義=〉不同的指令集。在預設(shè)某一個應用領(lǐng)域的程式代碼時常常會因為uC指令集的定義限制，而無法讓效能再往上提升，也可能因為某個環(huán)節(jié)是運算瓶頸而限制了效能攀升的可能。這時可將此一瓶頸通過改寫uCode來解決，不同uCode,相同的代碼效能可差異到5倍之多。采用此種形式，也可定義出特殊應用領(lǐng)域的指令集，甚至是個人專屬的指令集。這對于提高語音識別應用的效率，起到了非常重要的作用。隨著uCode的變化，指令的定義也跟著變化，與之相應的，酉己合的Compiler也需變化，此點在HBR系列芯片設(shè)計之初已經(jīng)解決。在DSP內(nèi)部有一組MTR暫存器的定義，其目的是結(jié)合不同形態(tài)的存儲器，整合為一個SOC。各形態(tài)存儲器的執(zhí)行效率和反應時間皆不一樣。MTR就是來定義各個位置空間上的存儲器的效率。如此可根據(jù)需要來選擇是否搭配"快速讀寫存儲器"，以達到效率和成本的平衡。在存儲器讀寫的設(shè)計上，它是一個線性空間關(guān)系，此空間最大定義范圍16MB，這在消費性產(chǎn)品上來說已經(jīng)足夠。程序代碼，數(shù)據(jù)區(qū)，I/O口皆是由uCode的定義決定，并無一定關(guān)系存在。該語音識別芯片的中斷模式是由硬件完成信號判斷，得到中斷信號后其具體行為仍然是由uCode定義。中斷之種類共可分為Edge/LevelTrigger,在EdgeTrigger時又有GoHigh/Low之定義可供選擇。中斷向量可通過軟件更新ISR(中斷狀態(tài)寄存器)程式進入點，此位置為RAM的定義區(qū)，也即是程式運4亍中可動態(tài)改變所需之ISR。DSP也提供BUS—REQ之應用需求，可結(jié)合DMA形態(tài)之整合^沒計，在實際應用時可獲得最佳效能。MATHBlock(數(shù)學運算單元)陣列運算器，該部分為該語音識別芯片獨創(chuàng)的專用數(shù)學運算單元，特別適合于語音識別，語音壓縮編解碼等語音算法處理。該模塊使得該語音識別芯片在Kernel比國外專業(yè)運算DSP的運行頻率和配置都遠低得多的情況下，卻可以提供與之相當?shù)倪\算效率，大大降低了專業(yè)語音識別芯片的成本。在一些算法處理中，通常會有運算模型中的瓶頸，利用硬體模塊輔助運算，提升運算效率，可達到事半功倍之目的。為此，該語音識別芯片設(shè)計了陣列運算模塊，可進行如下數(shù)學運算。<formula>formulaseeoriginaldocumentpage27</formula>Xi與Yi之間的運算可為加、減、乘三種運算，平方運算可獨立控制。此才莫塊為一個DMA結(jié)構(gòu)i殳計，當運算啟動后，系統(tǒng)存4諸器匯流排會被此模塊占用，運算完成后再釋放控制權(quán)。圖8是根據(jù)本發(fā)明實施例的陣列運算器的示意圖。如圖8所示，系統(tǒng)DATABUS為8-Bit結(jié)構(gòu)，讀取16位元資料需2個CLOCK周期,最多時3個指針都會讀取資料，為了讓資源有效利用，因此采取Pipe-Line結(jié)構(gòu)設(shè)計,讓讀取與運算同時進4亍。完成一項陣列元素的運算需6+3個CLOCK,其中3個CLOCK是重疊的，不必重復計算。若陣列元素共有16個元素，則運算完成共需(16*6)+3=99個CXOCK。在累加運算過程中，對于溢位判斷加入了處理，而運算之資料可定義為有符號及無符號數(shù)處理，溢出結(jié)果會自動賦予正確的最大值和最小值。X、Y、Z三個數(shù)學陣列運算器的指針也可以單獨使用，可定義為16位元指標暫存器或定義為24位元指標器，用于對資料數(shù)據(jù)的運算、搬移及查表等，可提升運算效能。該語音識別芯片的軟件原理該語音識別芯片的ROM區(qū)已預植入公司自行設(shè)計的非特定人孤立詞語音識別引擎，可實時實現(xiàn)非特定人語音識別及HVC1高壓縮才各式i吾音的解碼回方文過程。該引擎4吏用目前國際主流的HMM識別算法及LPCC/MFCC語音特征提取算法，并包含自行研發(fā)的語音編解碼及語音合成算法。i吾音i只別該語音識別芯片設(shè)計了專用的數(shù)學運算單元，實現(xiàn)非特定人(SI,SpeakerIndependent)孑瓜立詞語音識別功能。相對于特定人(SD，SpeakerDependent)識別系統(tǒng)而言，非特定人識別的終端產(chǎn)品無須用戶訓練過程(UserTraining),這增加了產(chǎn)品使用的使_捷性，使得一套系纟克可以同時適應多個用戶。圖9是根據(jù)本發(fā)明實施例的該語音識別芯片的語音識別的流程圖。如圖9所示，特征提取算法提供線性預測倒譜參數(shù)LPCC(LinearPredictionCepstmmCoefficient)禾口Mel步貞才示悟Ji普參凄史MFCC(MelFrequencyCepstrumCoefficient,MFCC)兩種可選。采用此兩種特征提取算法的系統(tǒng)識別率會有差異，同樣運算復雜度上也存在很大差異，故所需的運行頻率、電壓和功耗也有很大差異，在實際使用中可根據(jù)具體需求綜合選取。訓練和匹配計算時，該語音識別芯片使用基于隱含馬爾科夫模型HMM(HiddenMarkovModel)算法，該算法通過對大量語音凄t據(jù)進4于lt據(jù)統(tǒng)計，建立識別詞條的統(tǒng)計才莫型，然后從待識別語音中揭:取特征，與這些模型匹配，通過比較匹配分數(shù)以獲得識別結(jié)果。通過大量的語音，就能夠獲得一個穩(wěn)健的統(tǒng)計模型，能夠適應實際語音中的各種突發(fā)情況。因此，HMM算法具有良好的識別性能和抗噪性能。該語音識別芯片可識別的最大詞條數(shù)為64條，這些詞條被稱為命令句或命令詞，命令句的長度(正常語速下)在0.5秒到2.5秒之間。命令句是基于統(tǒng)計方法建立的隱馬爾可夫模型，它們被存儲在通過串行接口與該語音識別芯片相連的SPIFlash中。該語音識別芯片具備自動i吾音端點#r測(VoiceActivityDetection)功能，才艮據(jù)語音的連貫性，一次有效的語音采集過程,皮分為四個狀態(tài)無聲狀態(tài)-〉激活狀態(tài)-〉有聲狀態(tài)-〉非激活狀態(tài)-〉無聲狀態(tài)，從激活狀態(tài)開始到非激活態(tài)結(jié)束的語音信號被作為有效信號，并用于識別。在該i吾音識別芯片上，一次完整的i吾音識別會經(jīng)歷如下階革殳語音分幀，將連續(xù)語音按每24ms—幀(Frame)進行分隔。特征l是耳又，提耳又每一幀語音數(shù)據(jù)的特征參數(shù)。端點;險測，通過判定每幀語音的能量及特征參ft等，4企測待識別語句的開始幀和結(jié)束幀。HMM匹配，利用已提取的特征數(shù)據(jù)與Flash中存儲的命令詞的HMM模型數(shù)據(jù)進行運算，得到待識別語句與每一個模型所代表之i吾音的似然分凄史(ModelLikelihood)。結(jié)果判定，對各模型的似然分數(shù)進行比較，找出最大及次大似然分lt值，并依據(jù)語音幀長、最大似然分lt及次大似然分數(shù)等進行條件判定，如符合門限要求，則最大似然分數(shù)模型所對應的命令詞即為識別結(jié)果，否則，待識別語句被認定為非識別集內(nèi)詞，需要加以才巨i口、。結(jié)果處理，一艮據(jù)判定結(jié)論進行語音插-》文及相應處理。在安靜環(huán)境下，該語音識別芯片可以得到上佳的識別率。在識別命令集包含20條語句的情況下，集內(nèi)詞的識別正確率達到97%以上，可滿足大部分無須4青確識別的產(chǎn)品的應用需求。該語音識別芯片具有對環(huán)境噪聲的自適應能力，故在平穩(wěn)噪聲環(huán)境下，該語音識別芯片具有良好的識別率。經(jīng)測試，在平穩(wěn)白噪聲環(huán)境，信噪比(SNR)為12dB時，識別率仍可達到90%。解碼》文音在語音4是示和識別應答時，都需要用到語音回i文。為節(jié)約存儲空間，原始語音應進行壓縮編碼，需要時再解碼播放。該語音識別芯片提供兩種高質(zhì)量解碼放音方法，它們都是針對存儲于外部SPIFlash內(nèi)的編碼語音數(shù)據(jù)進行的，其數(shù)據(jù)碼率分別為8Kbps和32Kbps。制作編碼數(shù)據(jù)時，根據(jù)不同的音源內(nèi)容，用戶可以選4奪適當?shù)膲嚎s編碼方式。對于以語音為主的部分，建議使用公司自行研發(fā)的HVCl(Helios-ADSPVoiceCodeingl)方法編碼，其壓縮數(shù)據(jù)的碼率為8Kbps,在獲得更高壓縮率的同時，能保證較高的質(zhì)量；對于器樂及搖滾等音樂內(nèi)容，建議使用ADPCM壓縮方法，其壓縮數(shù)，悟的碼率為32Kbps。該i吾音識別芯片可自動識別壓縮i吾音的編碼才各式，并解石馬回》文。其他功能該語音識別芯片包括PORT0及PORT1兩組共16個管腳，才是供SPIFlash接口、音頻電路的電源控制、按鍵輸入、LED驅(qū)動、MOTOR驅(qū)動、紅外發(fā)射驅(qū)動及串行數(shù)據(jù)輸出等多種常用功能。該語音識別芯片還提供雙線串行通訊功能，可作協(xié)處理器使用，便于系統(tǒng)的應用擴展。2)、主要技術(shù)與性能指標該語音識別芯片是一顆^f氐成本高性能的非特定人語音識別芯片，具有很高的集成度。其主要指標包括軟件指標非特定人、；瓜立詞i吾音識別功能可識別64條以內(nèi)的語音命令正確識別率達97%以上高質(zhì)量的8Kbps，32Kbps壓縮語音解碼硬件指標內(nèi)建R/C基頻振蕩電3各及PLL電^各內(nèi)建3路16位模擬/數(shù)字轉(zhuǎn)換音頻接口(ADC)內(nèi)建2^各16位凄t字/才莫擬轉(zhuǎn)換音頻4妄口(DAC)內(nèi)建1組混音濾波放大的運算放大器(Amplifier)內(nèi)建功率力文大電^各，可驅(qū)動8Q/0.5W喇叭或蟲奪鳴片(Buzzer)16個功能4空制I/0，內(nèi)建LED,MOTOR,IR馬區(qū)動4空制識別結(jié)果的雙線串行輸出低電壓復位(LVR)外部4姿4建p奐醒工4乍電壓范圍2.7V~3.6V正常工作電流14mA(3V，無負載，不》文音)^木眠才莫式電流8uA工作溫度范圍-40°C~85°C。綜上所述，在本發(fā)明的實施例中，提出了一種新的語音識別專用芯片的解決方案，設(shè)計獨特的數(shù)學運算單元，低成本實現(xiàn)高性能；提出了一種自行開發(fā)的語音壓縮編解碼算法HVC1,并在芯片上實現(xiàn)該算法的解碼部分；設(shè)計了獨特的8位類DSP核心，可以針對不同的應用，更改其邏輯;阡為，以達到最佳的效率；采用先進的OTP(OneTimeProgrammable)Rom4支術(shù)，無需^f專統(tǒng)的掩月莫工藝，具有開發(fā)時間少，生產(chǎn)周期短，方便靈活等優(yōu)勢，可以為廣大用戶提供低成本，高質(zhì)量，迅速快捷的芯片成品；高度集成性，內(nèi)部集成16bitADC，16bitDAC，音頻放大AGC電路及0.5W的音頻功放等語音處理單元，秉7fc了才及佳的單片系統(tǒng)(SOC)i殳計理念。芯片ROM中已才直入具備良好性能的非特定人語音識別及語音編解碼算法引擎，并預設(shè)各類常見的I/O控制和通訊功能，實現(xiàn)了一顆真正意義上的語音識別專用芯片。用戶無需對芯片編寫程序，也沒有程序燒錄過程，只需透過開發(fā)工具對4荅配的SPIFlash進4亍簡單配置，即可完成非特定人語音識別產(chǎn)品的開發(fā)過程。(1)理論創(chuàng)新提出了一種新的語音識別專用芯片的解決方案，設(shè)計獨特的的數(shù)學運算單元，低成本實現(xiàn)高性能。目前，國內(nèi)尚無真正意義上的i吾音識別芯片，嵌入式i吾音識別系統(tǒng)通常是采用通用語音處理芯片，依靠用戶自己進行語音識別算法的軟件開發(fā)，來實現(xiàn)語音識別和人才幾交互功能。這樣，所需的硬件平臺，通常是16位DSP及以上配置的芯片，其成本通常較高。該語音識別芯片通過自創(chuàng)的適合語音算法處理的專用數(shù)學運算單元，再配合一顆普通的8位類DSP核心，即可快速處理16位語音數(shù)據(jù)，實現(xiàn)原來只能在16位DSP芯片及以上配置才能實現(xiàn)的復雜算法和應用。該數(shù)學運算單元(MathBlock)可實現(xiàn)X，Y,Z三個16位數(shù)組的組合運算，只需指定三個數(shù)組的起始地址和數(shù)組元素的個數(shù)(最多32個)，即可一次性實現(xiàn)兩組或三組數(shù)值間的乘累加，乘乘加、平方和等運算，這使得語音處理算法中的各類頻繁運算得到極大的簡化，大大地降低了對芯片的工作頻率和執(zhí)行效率的要求。這樣，一個陣列運算器搭配一個運算能力較弱但控制功能較強的CPU核心，既可實現(xiàn)復雜的語音識別算法，又能達到4交好的控制功能，也非常有效地降低了成本。該數(shù)學運算單元可實現(xiàn)的操作是n[(XimYi)*ZiH其中m為運算子，可選l奪為加法，減法和乘法纟喿作；平方4喿作可選拷"使能或不使能，數(shù)組元素的個數(shù)i最大值為32。才是出了一種自4亍開發(fā)的語音壓縮編解碼算法HVC1,并在芯片上實現(xiàn)該算法的解碼部分。HVCl(Helios-ADSPVoiceCodingl)是北京承芯卓越科技有限/>司自主研發(fā)的一種適合嵌入式芯片實現(xiàn)的高壓縮率語音編解碼方法。該方法采用改進的CELP算法，其數(shù)據(jù)碼率為6Kbps16Kbps，在選擇8Kbps數(shù)據(jù)碼率的情況下，其解碼播放的語音質(zhì)量可達MOS分3.9以上。該語音識別芯片實現(xiàn)了HVC1格式語音的解碼算法。對于語音識別應用而言，通常沒有大量的錄音需求，故無需進行高壓縮率的語音編碼，但壓縮語音的解碼回放則非常必要。該語音識別芯片可以處理存儲在SPIFlash內(nèi)的壓縮語音H據(jù)，它可以自動判定語音壓縮格式，支持ADPCM及HVC1兩種格式，并實現(xiàn)解碼回放，達到良好的語音質(zhì)量。(2)技術(shù)創(chuàng)新設(shè)計了獨特的8位類DSP核心，可以針對不同的應用，更改其邏輯^f于為，以達到最佳的效率。芯片的CPU核心決定了芯片的基本特性和能力。該語音識別芯片的核心是一個增強型類似DSP的8位Kernel。芯片具有獨特的類DSP核心，該核心由uCode才莫塊和一組高速暫存器共同構(gòu)成。uCode才莫塊負責i全釋程序代碼，并決定高速暫存器間的搬移關(guān)系，完成CPU的邏輯行為，這樣的構(gòu)成，使得同一套硬件結(jié)構(gòu)，可實現(xiàn)的邏輯行為卻是無限的。因uCode模塊是一小塊特殊的高速ROM，每次投產(chǎn)時都可以更改，這樣，針對不同的應用算法，或者不同的需求，可以升纟及uCode，來達到最佳的歲文率。采用此種形式，也可定義出特殊應用領(lǐng)域的指令集，甚至是個人專屬的指令集。這對于提高語音識別應用的效率，起到了非常重要的作用。釆用先進的OTPRom技術(shù)，無需傳統(tǒng)的掩膜工藝，具有開發(fā)時間少，生產(chǎn)周期短，方便靈活等優(yōu)勢，可以為廣大用戶提供低成本，高質(zhì)量，迅速快捷的芯片成品。目前國內(nèi)的幾個同檔次的語音識別系統(tǒng)所用的芯片平臺，如臺灣Sunplus公司的SPEC061,美國Sensory/>司的RSC3XX，RSC4XXX等，都是采用傳統(tǒng)的掩膜工藝，其最小起訂量通常在10K左右，而掩模所需的時間長，存在的風險大，一旦代碼存在問題，就會造成大量的廢品積壓，造成重大損失，故而掩膜工藝非常不利于減小風險，少量多樣，快速供貨。在一個實施例中，該語音識別芯片4吏用臺灣力旺電子(eMemoryTechnology)的3.3V0.18s制程的NeobitOTP,此類OTP具有j氐功誄毛，高效能的特性，成為取代目前ROMcode,EPROM/Flash應用的一大趨勢。由于OTP可在晶片制作、測試及封裝完之后再進行可編程，而ROM則必須在晶片制作完成前寫入程序代碼，EPROM及Flash工藝則制程復雜，制造成本高，開發(fā)時間長，對于消費性電子制造商而言，OTP無疑是降低庫存風險的一大利器，且其制造成本也有20%到30%的下降空間。高度集成性，內(nèi)部集成16bitADC，16bitDAC，音頻放大AGC電路及0.5W的音頻功放等語音處理單元，秉承了極佳的單片系統(tǒng)(SOC)設(shè)計理念。該語音識別芯片在8位類DSP核的基礎(chǔ)上，集成了專用的數(shù)學運算單元，且芯片內(nèi)含充足的SRAM及OTPROM;此外，芯片提供3^各16位ADC及2^各16位DAC通道，可實現(xiàn)高質(zhì)量的音頻輸入輸出轉(zhuǎn)換；芯片內(nèi)置放大倍數(shù)軟件可調(diào)的AGC及ALC電路，實現(xiàn)從Microphone輸入的音頻信號的放大和處理，并提供到ADC的輸入口；芯片內(nèi)置輸出音頻功率放大器(AMPLIFIER),可直接驅(qū)動0.5W8Q的揚聲器；此外，片內(nèi)還集成有R/C基頻^展蕩電路及倍頻可控的PLL電路，集成了LVR低壓復位電路等。用戶只需要外4妄一顆串4亍SPIFlash,連4妄Microphone輸入和Speakerl命出，并配合幾個簡單的電阻電容，即可構(gòu)成一個完整的i吾音識別產(chǎn)品。SOCi殳計思蹤"使得該語音識別芯片的外圍電i各大大的精簡，成為目前嵌入式語音識別領(lǐng)域里集成度最高的芯片。(3)應用創(chuàng)新芯片ROM中已植入具備良好性能的非特定人語音識別及語音編解碼算法引擎，并預設(shè)各類常見的I/O控制和通訊功能，實現(xiàn)了一顆真正意義上的i吾音識別專用芯片。關(guān)于該i吾音識別芯片，旨在i殳計一顆真正意義的i吾音識別專用芯片，其目的是要使不具備語音識別專門知識的用戶也可以開發(fā)和設(shè)計屬于自己的語音識別產(chǎn)品，極大地降低用戶的開發(fā)難度，縮短開發(fā)周期，^f吏得語音識別產(chǎn)品具有通用性和一致性，拓展語音識別技術(shù)在日常生活中的應用，使其為生活帶來更大的便捷、效率和樂趣，促進生活質(zhì)量的改善。該i吾音i口、別芯片的OTPROM中已才直入非特定人"l瓜立詞i吾音i只別引擎，可實時實現(xiàn)非特定人的語音識別及HVC1高壓縮格式語音的解碼回i文過程；此外，該語音識別芯片定義了多個動作控制的端口，用戶僅需簡單配置即可實現(xiàn)按一睫輸入、LED顯示、馬達驅(qū)動及紅外發(fā)射驅(qū)動功能。該語音識別芯片還提供雙線串行數(shù)據(jù)通訊，可作協(xié)處理器使用，《更于系統(tǒng)的應用擴展。使用該語音識別芯片的用戶無需對芯片編寫程序，也沒有程序燒錄過程，只需透過北京承芯卓越科技有限公司提供的具備友好界面的PC開發(fā)工具^H荅配的SPIFlash進4于簡單配置，即可完成非特定人語音識別產(chǎn)品的開發(fā)過程。目前，已經(jīng)有很多客戶(包括香港漢鐳科技、臺灣瑜得、福建恒盛、中科院聲學所、深圳喜之寶、廣州優(yōu)揚、深圳優(yōu)碩等公司和機構(gòu))正在使用我公司的HBR系列語音識別芯片及PC開發(fā)套件。(4)國內(nèi)外同類項目比較<table>tableseeoriginaldocumentpage37</column></row><table><table>tableseeoriginaldocumentpage38</column></row><table>我公司以下分析本公司與國內(nèi)外竟爭對手相比優(yōu)勢:本公司同時具備了芯片硬件設(shè)計能力及語音識別算法設(shè)計能力，完成了一顆真正意義上語音識別專用芯片，這一點上，與國外Sensory/>司RSC-X系列芯片一致，優(yōu)于德國Infenion的Unispeech及臺灣Sunplus的SPEC061芯片。本公司芯片的集成度最高，音頻模塊所配置的各項指標也最高。本/>司的語音識別專用芯片售<介<=1美元/片，為目前市場同類芯片的最低價。本公司的語音識別芯片采用OTP沖支術(shù)，無須掩膜工藝，無最小起訂量限制，開發(fā)和生產(chǎn)周期短，可以啦文到小量多樣，無庫存風險。利用本公司提供PC端開發(fā)工具，用戶無須具備語音識別相關(guān)的專門知識，降低技術(shù)門檻，使得普通用戶也可以開發(fā)語音識別產(chǎn)品，這一點相比于其他7>司的產(chǎn)品有明顯優(yōu)勢。由于中國是世界工廠，有相當多的^元具、家電產(chǎn)品的加工生產(chǎn)商都在國內(nèi)，我們可以投入更多的技術(shù)支持力度，爭取更多用戶。本項目的主要研究內(nèi)容為研制一顆具有自主知識產(chǎn)斥又的4氐成本高性能非特定人《瓜立詞語音識別芯片。具體包括芯片的研發(fā)、制造、封裝和測試，基于芯片的應用樣品的研制，芯片應用開發(fā)套件的研制等。圖10是才艮據(jù)本發(fā)明實施例的語音識別芯片具體應用的示意圖。如圖IO所示，該:洽音識別芯片典型應用系統(tǒng)的示意圖。該i吾音識別芯片的作用將使用者的語音通過Microphone拾取，并經(jīng)AGC電路放大后，由ADC才莫塊轉(zhuǎn)換為凄t字信號，再通過內(nèi)部算法處理，進行語音特征提取及語音的起始和結(jié)束端點判定，提取的特征數(shù)據(jù)與系統(tǒng)已存儲的語音模型數(shù)據(jù)(Modd)進行匹配比對，得出輸入語音的識別結(jié)果，再依據(jù)識別結(jié)果，使用DAC，AMP和Speaker輸出應答語音，并進行相應的動作控制。該語音識別芯片本身^皮定義為一個迷你的完整應用的獨立片上系統(tǒng)(SOC)，這一點可以從上圖中看到，用戶只需要搭配一顆串行存儲器(SPIFlash)，用于存儲待播》文語音數(shù)據(jù)和待識別語音的才莫型數(shù)據(jù)，再連接麥克風輸入、揚聲器輸出、按鍵和指示燈等筒單外圍，即可構(gòu)成一個語音識別才莫塊。此外，該語音識別芯片也沖是供了雙線串行通訊功能，可以用作協(xié)處理芯片，便于系統(tǒng)的應用擴展。項目所涉及的關(guān)4建技術(shù)為類似DSP核心的8位Kernel的研制；適合各類語音算法處理的專用數(shù)學運算單元(陣列運算器)的設(shè)計適合于語音識別應用需求的uCode指令集的設(shè)計；39非特定人孤立詞語音識別引擎及應用框架程序的設(shè)計；高質(zhì)量高壓縮率的HVC1語音編解碼算法的研發(fā)。芯片主要技術(shù)指標包括軟件指標非特定人、；瓜立詞i吾音識別功能可識別64條以內(nèi)的語音命令正確識別率達97%以上高質(zhì)量的8Kbps，32Kbps壓縮i吾音解碼功能硬件指標內(nèi)建R/C基頻振蕩電路及PLL電路內(nèi)建3路16位模擬/數(shù)字轉(zhuǎn)換音頻接口(ADC)內(nèi)建2^各16位—凄史字/才莫擬轉(zhuǎn)換音頻*接口(DAC)內(nèi)建1組混音濾波i文大的運算方文大器(Amplifier)內(nèi)建功率方文大電路，可驅(qū)動8Q/0.5W喇叭或蜂鳴片(Buzzer)16個功能4空制I/0，內(nèi)建LED,MOTOR，IR驅(qū)動控制識別結(jié)果的雙線串行輸出低電壓復位(LVR)外部按鍵喚醒工4乍電壓范圍2.7V~3.6V正常工作電流14mA(3V，無負載，不放音)4木眠才莫式電^L:8uA工4乍溫度范圍—40°C~85°C。以上所述^f義為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內(nèi)。權(quán)利要求1.一種語音識別片上系統(tǒng)，其特征在于，包括放大濾波模塊，用于對模擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；所述模數(shù)轉(zhuǎn)換模塊，用于將所述經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將所述數(shù)字語音信號發(fā)送給處理模塊；以及所述處理模塊，用于根據(jù)所述數(shù)字語音信號進行相應的處理；其中，所述放大濾波模塊、所述模數(shù)轉(zhuǎn)換模塊、及所述處理模塊均集成在一塊芯片上。2.才艮據(jù)權(quán)利要求1所述的語音識別片上系統(tǒng)，其特征在于，所述相應的處理包括相應的語音回々責、相應的控制、及相應的處理結(jié)果的傳送中的至少一種處理。3.根據(jù)權(quán)利要求1所述的語音識別片上系統(tǒng)，其特征在于，所述處理—莫塊包括數(shù)字信號處理單元，用于控制數(shù)學運算單元、一次性可編程單元、及暫存單元，并對所述數(shù)字語音信號進行相對簡單的處理；所述數(shù)學運算單元，對所述數(shù)字語音信號進行相對復雜的處理；所述一次性可編程單元，用于存儲所述lt字信號處理單元和所述數(shù)學運算單元進行處理所需的資料；以及所述暫存單元，用于暫存所述lt字信號處理單元和所述數(shù)學運算單元進行處理的過程中的臨時數(shù)據(jù)。4.根據(jù)權(quán)利要求3所述的語音識別片上系統(tǒng)，其特征在于，所述數(shù)字信號處理單元是8位的類DSP。5.根據(jù)權(quán)利要求3所述的語音識別片上系統(tǒng)，其特征在于，所述數(shù)學運算單元是通過硬件結(jié)構(gòu)實現(xiàn)算法的單元。6.根據(jù)權(quán)利要求2所述的語音識別片上系統(tǒng)，其特征在于，還包括語音播》文單元，用于在所述處理才莫塊纟艮據(jù)所述數(shù)字語音信號進行相應的語音回饋時播放所回饋的語音。7.根據(jù)權(quán)利要求2所述的語音識別片上系統(tǒng)，其特征在于，還包括I/O接口，用于在所述處理模塊根據(jù)所述數(shù)字語音信號進行相應的控制時輸出控制信號。8.根據(jù)權(quán)利要求2所述的語音識別片上系統(tǒng)，其特征在于，還包括通訊接口，用于在所述處理模塊^f艮據(jù)所述數(shù)字語音信號進行相應的處理結(jié)果傳送時傳送處理結(jié)果。9.一種采用前述權(quán)利要求中任一項所述的語音識別片上系統(tǒng)的i吾音識別方法，其特4i在于，包4舌以下步冬聚步驟一，放大濾波模塊對模擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；步驟二，所述模數(shù)轉(zhuǎn)換模塊將所述經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將所述數(shù)字語音信號發(fā)送給處理才莫塊；以及步驟三，所述處理模塊根據(jù)所述數(shù)字語音信號進行相應的處理。10.根據(jù)權(quán)利要求9所述的語音識別方法，其特征在于，所述步驟三包4舌以下處理所述處理模塊將所述數(shù)字語音信號分成多個數(shù)字語音信號幀；所述處理模塊4是取所述多個數(shù)字語音信號幀中的每一幀的特征參數(shù)；所述處理模塊將所述特征參數(shù)與預先存儲的模型數(shù)據(jù)進行比較以獲得所述數(shù)字語音信號的識別結(jié)果；以及所述處理才莫塊才艮據(jù)所述識別結(jié)果進行相應的處理。11.根據(jù)權(quán)利要求9或10所述的語音識別方法，其特征在于，所述相應的處理包括相應的語音回々貴、相應的控制、及相應的處理結(jié)果傳送中的至少一種處理。全文摘要本發(fā)明提出了一種語音識別片上系統(tǒng)及采用該語音識別系統(tǒng)的語音識別方法，其中，語音識別片上系統(tǒng)包括放大濾波模塊，用于對模擬語音信號進行濾波和放大并將經(jīng)過濾波和放大的模擬語音信號發(fā)送給模數(shù)轉(zhuǎn)換模塊；模數(shù)轉(zhuǎn)換模塊，用于將經(jīng)過濾波和放大的模擬語音信號轉(zhuǎn)換為數(shù)字語音信號并將數(shù)字語音信號發(fā)送給處理模塊；以及處理模塊，用于根據(jù)數(shù)字語音信號進行相應的處理；其中，放大濾波模塊、模數(shù)轉(zhuǎn)換模塊、及處理模塊均集成在一塊芯片上。通過本發(fā)明，提供了一顆真正意義上的低成本高集成度的非特定人孤立詞語音識別專用芯片，使其可適用于語音對話玩具，家電控制等領(lǐng)域，降低語音識別產(chǎn)品的開發(fā)難度，推進語音識別產(chǎn)品的廣泛應用。文檔編號G10L15/28GK101315770SQ20081011072公開日2008年12月3日申請日期2008年5月27日優(yōu)先權(quán)日2008年5月27日發(fā)明者廖茂宇,徐國棟申請人:北京承芯卓越科技有限公司

完整全部詳細技術(shù)資料下載