用于語音識別的音素簽名候選的制作方法

文檔序號：8413610閱讀：546來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于語音識別的音素簽名候選的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別。
【背景技術(shù)】
[0002] 音素（phoneme)分析是語音識別過程的起點。基于隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)的算法是用于音素識別的一些著名技術(shù)。基于神經(jīng)網(wǎng)絡(luò)的算法開始于對傳入語音信號的一小部分進行頻譜分析。頻譜分析的結(jié)果然后被轉(zhuǎn)發(fā)到神經(jīng)網(wǎng)絡(luò)的輸入端。然而，神經(jīng)網(wǎng)絡(luò)表現(xiàn)出相對較少的成效，因此與隱馬爾可夫模型算法相比更少被廣泛使用。
[0003] 隱馬爾可夫模型是這樣的統(tǒng)計模型：其表示具有隱藏狀態(tài)的馬爾可夫過程，即，系統(tǒng)的實際狀態(tài)不被觀察者所知的過程。觀察者可以根據(jù)輸出參數(shù)的序列來判斷有關(guān)系統(tǒng)的狀態(tài)。當(dāng)被應(yīng)用于語音識別時，隱馬爾可夫模型的輸出采取η維實向量（其中"η"是小的整數(shù)，例如，小于15)的形式，所述向量的分量是傳入聲音信號的短幀的倒譜分解的'η'個第一主系數(shù)。這種變換被重復(fù)應(yīng)用以在η維歐氏空間產(chǎn)生可以進行統(tǒng)計分析的云。語音的每個音素趨于具有不同的輸出分布，并因此可以被清楚地識別。上面的描述大致概括了用于語音識別的隱馬爾可夫模型算法。雖然隱馬爾可夫模型是有用的模型，但是基于隱馬爾可夫模型的語音識別需要相當(dāng)多的計算資源。因此，基于隱馬爾可夫模型的語音識別可能無法在諸如智能電話、平板計算機等的便攜式電子設(shè)備中實現(xiàn)。為了解決這個問題，使用客戶端-服務(wù)器架構(gòu)，其中，在后端執(zhí)行實際的語音識別。然而，客戶端-服務(wù)器算法的效率依賴于網(wǎng)絡(luò)速度和可用性。

【發(fā)明內(nèi)容】

[0004] 根據(jù)本發(fā)明的一方面，提供了一種有形地存儲指令的非臨時性計算機可讀存儲介質(zhì)，當(dāng)該指令由計算機運行時使得計算機執(zhí)行操作，所述操作包括：在計算設(shè)備處確定語音信號的基礎(chǔ)頻率；基于歸一化的音素函數(shù)計算極值點處的曲率，其中，所述歸一化的音素函數(shù)是音素函數(shù)的時間周期和音素函數(shù)的值的函數(shù)；將計算出的曲率與音素的基準(zhǔn)曲率進行比較；以及當(dāng)計算出的曲率的序列與基準(zhǔn)曲率的序列相匹配時，識別相應(yīng)的音素。
[0005] 根據(jù)本發(fā)明的另一方面，提供了一種用于音素鑒別的計算機實現(xiàn)方法，該方法包括：在計算設(shè)備處確定語音信號的基礎(chǔ)頻率；基于歸一化的音素函數(shù)計算極值點處的曲率，其中，所述歸一化的音素函數(shù)是音素函數(shù)的時間周期和音素函數(shù)的值的函數(shù)；將計算出的曲率與音素的基準(zhǔn)曲率進行比較；以及當(dāng)計算出的曲率的序列與基準(zhǔn)曲率的序列相匹配時，識別相應(yīng)的音素。
[0006] 根據(jù)本發(fā)明的另一方面，提供了一種用于音素鑒別的計算機系統(tǒng)，包括：存儲器，用于存儲程序代碼；以及處理器，用于運行程序代碼以執(zhí)行操作，所述操作包括：確定語音信號的基礎(chǔ)頻率；基于歸一化的音素函數(shù)計算極值點處的曲率，其中，所述歸一化的音素函數(shù)是音素函數(shù)的時間周期和音素函數(shù)的值的函數(shù)；將計算出的曲率與音素的基準(zhǔn)曲率進行比較；以及當(dāng)計算出的曲率的序列與基準(zhǔn)曲率的序列相匹配時，識別相應(yīng)的音素。
【附圖說明】
[0007] 權(quán)利要求闡明了具有特性的實施例。實施例通過舉例方式示出，并且不限于附圖中的圖形，在附圖中相同參考標(biāo)記指示相同元素。根據(jù)以下結(jié)合附圖的詳細描述，可以最好地理解實施例連同它的優(yōu)勢。
[0008] 圖1示出語音信號作為例子。
[0009] 圖2示出根據(jù)一個實施例的用于音素鑒別的方法的流程圖。
[0010] 圖3不出根據(jù)一個實施例的被劃分成幀的語音信號。
[0011] 圖4示出曲率的概念作為例子。
[0012] 圖5示出語音信號的曲率作為例子。
[0013] 圖6示出根據(jù)一個實施例的具有計算出的曲率的語音信號。
[0014] 圖7示出根據(jù)一個實施例的比較曲率和坐標(biāo)并且識別相應(yīng)的音素的框圖。
[0015] 圖8示出根據(jù)一個實施例的示出實施場景的框圖。
[0016] 圖9示出根據(jù)另一實施例的示出實施場景的框圖。
[0017] 圖10是根據(jù)一個實施例的示例性計算機系統(tǒng)的框圖。
【具體實施方式】
[0018] 本文描述了用于語音識別的音素簽名候選（phoneme signature candidate)的技術(shù)的實施例。在以下描述中，闡明了許多具體細節(jié)以提供對實施例的徹底理解。然而，相關(guān) 領(lǐng)域的技術(shù)人員將意識到，這些實施例可以在沒有一個或多個具體細節(jié)的情況下實施或利用其它方法、組件、材料等實施。在其他實例中，公知的結(jié)構(gòu)、材料或操作未示出或未詳細描述。
[0019] 貫穿本說明書引用的"一個實施例"、"這個實施例"或類似短語意指結(jié)合該實施例描述的特定特征、結(jié)構(gòu)或特點包括在一個或多個實施例中的至少一個中。因此，貫穿本說明書的不同位置出現(xiàn)的這些短語不一定全部涉及相同實施例。此外，特定特征、結(jié)構(gòu)、或特點可以在一個或多個實施例中以任何適當(dāng)?shù)姆绞竭M行組合。
[0020] 圖1示出語音信號100作為例子。語音信號是通過介質(zhì)行進的聲波。聲音傳播為縱波，而且語音信號可以被表示為隨時間的氣壓值。語音信號以時間繪制X軸102,而且以氣壓的改變繪制Y軸104。語音信號100具有若干個極值點。極值點是語音信號100改變方向的點。因此，極值點也可以被稱為轉(zhuǎn)折點（turning point)。語音信號100在一段時間內(nèi)若干次改變方向，因而產(chǎn)生若干極值點。例如，達到〇. 01秒的語音信號100包括四個極值點106、108、110和112。語音信號100向下行進，到達第一極值點106,然后向上轉(zhuǎn)。語音信號100繼續(xù)向上行進，并且在第二極值點108向下轉(zhuǎn)。語音信號100繼續(xù)向下行進，并且在第三極值點110向上轉(zhuǎn)。語音信號100然后繼續(xù)向上行進，并且在第四極值點112向下轉(zhuǎn)。
[0021] 應(yīng)當(dāng)理解的是，語音信號100被示出為例子，以提供概念性的概述。語音信號的實際輪廓可以變化，并取決于繪圖裝置、分辨率等。例如，在百分之一秒內(nèi)可以有若干個極值點。
[0022] 語音包括詞語的序列。詞語包括音素的組合。音素是語音的最小單位，其可以被用于使一個詞語不同于另一個詞語。音素也可以被定義為最小的對比語言單位。音素在兩條斜線之間表示。例如，對于詞語"hat"，存在三個音素，目卩"/h/"，"/a/"和"/t/"。作為另一例子，詞語"block"有四個音素，即，"/b/"，"/1/"，"/〇/"和"/k/"。音素識別是語音識別應(yīng)用（例如，語音到文本應(yīng)用）的關(guān)鍵步驟。
[0023] 圖2示出用于音素識別的方法200的實施例。在202中，確定語音信號的基礎(chǔ) 頻率（base frequency)或基本頻率（fundamental frequency) (fQ)?；A(chǔ)頻率被定義為波形的最低頻率。在一個實施例中，音調(diào)檢測技術(shù)可以被用于估計

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2