亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于語音識別的音素簽名候選的制作方法

文檔序號:8413610閱讀:546來源:國知局
用于語音識別的音素簽名候選的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別。
【背景技術(shù)】
[0002] 音素(phoneme)分析是語音識別過程的起點。基于隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)的 算法是用于音素識別的一些著名技術(shù)。基于神經(jīng)網(wǎng)絡(luò)的算法開始于對傳入語音信號的一小 部分進行頻譜分析。頻譜分析的結(jié)果然后被轉(zhuǎn)發(fā)到神經(jīng)網(wǎng)絡(luò)的輸入端。然而,神經(jīng)網(wǎng)絡(luò)表 現(xiàn)出相對較少的成效,因此與隱馬爾可夫模型算法相比更少被廣泛使用。
[0003] 隱馬爾可夫模型是這樣的統(tǒng)計模型:其表示具有隱藏狀態(tài)的馬爾可夫過程,即,系 統(tǒng)的實際狀態(tài)不被觀察者所知的過程。觀察者可以根據(jù)輸出參數(shù)的序列來判斷有關(guān)系統(tǒng)的 狀態(tài)。當(dāng)被應(yīng)用于語音識別時,隱馬爾可夫模型的輸出采取η維實向量(其中"η"是小的 整數(shù),例如,小于15)的形式,所述向量的分量是傳入聲音信號的短幀的倒譜分解的'η'個 第一主系數(shù)。這種變換被重復(fù)應(yīng)用以在η維歐氏空間產(chǎn)生可以進行統(tǒng)計分析的云。語音的 每個音素趨于具有不同的輸出分布,并因此可以被清楚地識別。上面的描述大致概括了用 于語音識別的隱馬爾可夫模型算法。雖然隱馬爾可夫模型是有用的模型,但是基于隱馬爾 可夫模型的語音識別需要相當(dāng)多的計算資源。因此,基于隱馬爾可夫模型的語音識別可能 無法在諸如智能電話、平板計算機等的便攜式電子設(shè)備中實現(xiàn)。為了解決這個問題,使用客 戶端-服務(wù)器架構(gòu),其中,在后端執(zhí)行實際的語音識別。然而,客戶端-服務(wù)器算法的效率 依賴于網(wǎng)絡(luò)速度和可用性。

【發(fā)明內(nèi)容】

[0004] 根據(jù)本發(fā)明的一方面,提供了一種有形地存儲指令的非臨時性計算機可讀存儲介 質(zhì),當(dāng)該指令由計算機運行時使得計算機執(zhí)行操作,所述操作包括:在計算設(shè)備處確定語音 信號的基礎(chǔ)頻率;基于歸一化的音素函數(shù)計算極值點處的曲率,其中,所述歸一化的音素函 數(shù)是音素函數(shù)的時間周期和音素函數(shù)的值的函數(shù);將計算出的曲率與音素的基準(zhǔn)曲率進行 比較;以及當(dāng)計算出的曲率的序列與基準(zhǔn)曲率的序列相匹配時,識別相應(yīng)的音素。
[0005] 根據(jù)本發(fā)明的另一方面,提供了一種用于音素鑒別的計算機實現(xiàn)方法,該方法包 括:在計算設(shè)備處確定語音信號的基礎(chǔ)頻率;基于歸一化的音素函數(shù)計算極值點處的曲 率,其中,所述歸一化的音素函數(shù)是音素函數(shù)的時間周期和音素函數(shù)的值的函數(shù);將計算出 的曲率與音素的基準(zhǔn)曲率進行比較;以及當(dāng)計算出的曲率的序列與基準(zhǔn)曲率的序列相匹配 時,識別相應(yīng)的音素。
[0006] 根據(jù)本發(fā)明的另一方面,提供了一種用于音素鑒別的計算機系統(tǒng),包括:存儲器, 用于存儲程序代碼;以及處理器,用于運行程序代碼以執(zhí)行操作,所述操作包括:確定語音 信號的基礎(chǔ)頻率;基于歸一化的音素函數(shù)計算極值點處的曲率,其中,所述歸一化的音素函 數(shù)是音素函數(shù)的時間周期和音素函數(shù)的值的函數(shù);將計算出的曲率與音素的基準(zhǔn)曲率進行 比較;以及當(dāng)計算出的曲率的序列與基準(zhǔn)曲率的序列相匹配時,識別相應(yīng)的音素。
【附圖說明】
[0007] 權(quán)利要求闡明了具有特性的實施例。實施例通過舉例方式示出,并且不限于附圖 中的圖形,在附圖中相同參考標(biāo)記指示相同元素。根據(jù)以下結(jié)合附圖的詳細描述,可以最好 地理解實施例連同它的優(yōu)勢。
[0008] 圖1示出語音信號作為例子。
[0009] 圖2示出根據(jù)一個實施例的用于音素鑒別的方法的流程圖。
[0010] 圖3不出根據(jù)一個實施例的被劃分成幀的語音信號。
[0011] 圖4示出曲率的概念作為例子。
[0012] 圖5示出語音信號的曲率作為例子。
[0013] 圖6示出根據(jù)一個實施例的具有計算出的曲率的語音信號。
[0014] 圖7示出根據(jù)一個實施例的比較曲率和坐標(biāo)并且識別相應(yīng)的音素的框圖。
[0015] 圖8示出根據(jù)一個實施例的示出實施場景的框圖。
[0016] 圖9示出根據(jù)另一實施例的示出實施場景的框圖。
[0017] 圖10是根據(jù)一個實施例的示例性計算機系統(tǒng)的框圖。
【具體實施方式】
[0018] 本文描述了用于語音識別的音素簽名候選(phoneme signature candidate)的技 術(shù)的實施例。在以下描述中,闡明了許多具體細節(jié)以提供對實施例的徹底理解。然而,相關(guān) 領(lǐng)域的技術(shù)人員將意識到,這些實施例可以在沒有一個或多個具體細節(jié)的情況下實施或利 用其它方法、組件、材料等實施。在其他實例中,公知的結(jié)構(gòu)、材料或操作未示出或未詳細描 述。
[0019] 貫穿本說明書引用的"一個實施例"、"這個實施例"或類似短語意指結(jié)合該實施例 描述的特定特征、結(jié)構(gòu)或特點包括在一個或多個實施例中的至少一個中。因此,貫穿本說明 書的不同位置出現(xiàn)的這些短語不一定全部涉及相同實施例。此外,特定特征、結(jié)構(gòu)、或特點 可以在一個或多個實施例中以任何適當(dāng)?shù)姆绞竭M行組合。
[0020] 圖1示出語音信號100作為例子。語音信號是通過介質(zhì)行進的聲波。聲音傳播為 縱波,而且語音信號可以被表示為隨時間的氣壓值。語音信號以時間繪制X軸102,而且以 氣壓的改變繪制Y軸104。語音信號100具有若干個極值點。極值點是語音信號100改變 方向的點。因此,極值點也可以被稱為轉(zhuǎn)折點(turning point)。語音信號100在一段時間 內(nèi)若干次改變方向,因而產(chǎn)生若干極值點。例如,達到〇. 01秒的語音信號100包括四個極 值點106、108、110和112。語音信號100向下行進,到達第一極值點106,然后向上轉(zhuǎn)。語 音信號100繼續(xù)向上行進,并且在第二極值點108向下轉(zhuǎn)。語音信號100繼續(xù)向下行進,并 且在第三極值點110向上轉(zhuǎn)。語音信號100然后繼續(xù)向上行進,并且在第四極值點112向 下轉(zhuǎn)。
[0021] 應(yīng)當(dāng)理解的是,語音信號100被示出為例子,以提供概念性的概述。語音信號的實 際輪廓可以變化,并取決于繪圖裝置、分辨率等。例如,在百分之一秒內(nèi)可以有若干個極值 點。
[0022] 語音包括詞語的序列。詞語包括音素的組合。音素是語音的最小單位,其可以被 用于使一個詞語不同于另一個詞語。音素也可以被定義為最小的對比語言單位。音素在兩 條斜線之間表示。例如,對于詞語"hat",存在三個音素,目卩"/h/","/a/"和"/t/"。作為另 一例子,詞語"block"有四個音素,即,"/b/","/1/","/〇/"和"/k/"。音素識別是語音識 別應(yīng)用(例如,語音到文本應(yīng)用)的關(guān)鍵步驟。
[0023] 圖2示出用于音素識別的方法200的實施例。在202中,確定語音信號的基礎(chǔ) 頻率(base frequency)或基本頻率(fundamental frequency) (fQ)?;A(chǔ)頻率被定義為 波形的最低頻率。在一個實施例中,音調(diào)檢測技術(shù)可以被用于估計
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1