發(fā)音測量裝置和方法

文檔序號：2643099閱讀：264來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>辦公文教;裝訂;廣告設(shè)備的制造及其產(chǎn)品制作工藝

專利名稱：發(fā)音測量裝置和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種發(fā)音測量裝置和一種測量發(fā)音的方法，可用于例如輔導(dǎo)學(xué)習(xí)語言的學(xué)生。
語音識別產(chǎn)品現(xiàn)在被用得越來越廣泛了。它們使用不同的方案將輸入語音的特征和預(yù)先設(shè)定的語音模型或在訓(xùn)練過程中確定的語音模型進行比較。這樣，例如和說話人無關(guān)的語音識別產(chǎn)品便能將接收到的語音的特征和“1”“2”等等這樣的單詞、或?qū)ｉT術(shù)語通常叫作“音素”或“三合音”的、能組合成完整的單詞模型的單詞要素的預(yù)先設(shè)定的模型進行比較。一個基于單詞要素的話音識別系統(tǒng)的優(yōu)點是用已經(jīng)存在于存儲器中的模型的組成部份可以構(gòu)造出新的單詞。例如，“promise”的組合模型的第一部分可以和“conduct”的模型的后一部份合并起來構(gòu)成單詞“product”的模型。同樣，也有語音驅(qū)動的單詞處理軟件，其中使用大量的組合模型以識別從麥克風(fēng)輸入的話音并在單詞處理應(yīng)用中顯示出被說出的單詞。
這類產(chǎn)品主要用于在輸入單詞為未知但屬于從詞典中有限選擇的單詞之一時識別單詞，或主要用于通過預(yù)先選擇用戶要說的單詞和當(dāng)說話人說出該單詞時在存儲器中為其建立一個模型或模式以訓(xùn)練一個這樣的識別器。描述的這類語音識別裝置都以說話人能相當(dāng)程度地說這種要識別的語言為先決條件。
僅通過實例并參考插圖描述了本發(fā)明的一個較好的實施例。

圖1是一個方框圖，說明依照本發(fā)明的較好實施例的一個發(fā)音測量裝置的電路原理圖。
圖2為表示圖1的維特比解碼器的詳細情況。
圖3是說明圖1的裝置工作的流程圖。
圖4是圖1的裝置加在顯示器上的一個輸出的圖解說明。
圖5是圖解說明一些特別希望的特征的分枝系統(tǒng)圖。
圖6是說明一個特別希望的特征的用戶圖形接口的圖解說明。
本發(fā)明需要一個說話人說出顯示在一個計算裝置附帶的顯示裝置上的一個單詞或一列單詞。本發(fā)明的作用是使說話人的語音和指示或顯示出的單詞的相應(yīng)模型相對照，同時測量出說話人對單詞的發(fā)音如何，并象老師對學(xué)生就所學(xué)語言打分一樣，也對單詞或詞的要素打分。和語音識別裝置相反，本發(fā)明假定說話人可能對目標(biāo)語言不太熟練。
參看圖1，表示有一個發(fā)音測量用的裝置10，它可以合適地稱呼為“語音輔導(dǎo)員”。此裝置包括有一個被連接到模數(shù)轉(zhuǎn)換器12的麥克風(fēng)11。模數(shù)轉(zhuǎn)換器12再被連接到微處理器13的一個輸入端。同樣連接到微處理器13的還有輸入裝置14、存儲器15和顯示器16。存儲器15中有一個詞典20，其中包含有單詞和每個單詞的音素串或其他的單詞分段的串。例如，單詞“computer”儲存在詞典20中，和該單詞一起還儲存有如下的兩個音素串k-ah-m-p-uw-t-er和k-ah-m-p-uw-d-er。
這些音素串表示單詞“computer”兩種可供選擇的普通發(fā)音方式。在存儲器15中裝有本地語音說話人數(shù)據(jù)庫21。該數(shù)據(jù)庫包含有著用戶希望模仿的發(fā)音的本地語音說話人的各種音素、單詞和句子的統(tǒng)計數(shù)據(jù)。在存儲器15中也可以存放本地語音說話人的語音合成數(shù)據(jù)以合成用戶要模擬的語音。
微處理器13包含有由軟件形成的許多單元。它們包括特征提取單元30，其輸入端為31而輸出端為32；包括一個維特此解碼器33，其一個輸入端連接到特征提取單元30的輸出端，而一個輸入端34連接到詞典20，還有第一輸出端35、第二輸出端36、和一個部份回掃輸出端37；包括有統(tǒng)計分析單元40，其輸入端連接到維特比解碼器的輸出端35、36，而其輸入端41和42連接到本地語音說話人數(shù)據(jù)庫21的輸出端，另外有輸出端43和44；包括有以計算機程序形式提供的一個用戶圖形接口50，其輸入端被連接到統(tǒng)計分析單元40的輸出端43和44，并有一個輸出端51連接到顯示器16。在處理器13中也表示出了選擇器60。它被連接到輸入裝置14，并將輸出端連接到詞典20、本地語音說話人數(shù)據(jù)庫21和用戶圖形接口50。在處理器13中備有一個跟蹤工具62，其輸入端連接到維特比解碼器的輸出端37，而輸出端63被連接到用戶圖形接口50。
在圖2中通過實例表示出維特此解碼器33的較好的詳細情況。維特此解碼器33包含一個連接到輸入端34的單詞分段串選擇器100(即音素串選擇器)，并包含一個靜止模式101、和若干音素模式102-107，其中的音素模式102、103和104為串聯(lián)而音素模式104被連接到并聯(lián)連接的音素模式105和106，后者再和音素模式107串聯(lián)。最后，一個靜止模式108被加到模式網(wǎng)絡(luò)的末端。有一個記分比較器110和每個音素模式相連接。各個音素模式是設(shè)置來識別被選擇的音素(或其他的單詞分段)正如每個模式中表示的那樣。圖2使用單詞“computer”表示一個例子。任何其他的單詞或單詞序列都可以此方式表示出來。
對圖1的裝置的工作將參照圖3的流程圖進行說明。在200階段，一個單詞、詞組或其他表達詞是使用輸入裝置14進行選擇的。例如輸入裝置14是一個鍵盤，單詞“computer”即可輸入。此單詞被送至選擇器60。選擇器60在詞典20中發(fā)起一次查找(201階段)，上述的相應(yīng)音素串即從詞典20中輸入維特比解碼器的輸入端34。在202階段建立維特比解碼器并建立圖2的各個音素模式102-107。同時，選擇器60將選擇的單詞送到用戶圖形接口50由顯示器16進行顯示。
用戶現(xiàn)在向麥克風(fēng)11說話(210階段)。模數(shù)轉(zhuǎn)換器12將話音數(shù)字化成例如16KBPS的數(shù)字比特流。特征提取單元30以該種技術(shù)中熟知的辦法從數(shù)字比特流提取頻譜特征和激勵特征。這些特征被以通常每秒100個取樣的速率送至維特比解碼器33。這些取樣同時被按幀送至不同模式101-108的子集。各幀在圖中按照最佳匹配路徑從左至右由模式序列連續(xù)吸收。該最佳匹配路徑取決于在任何給定模式中的匹配結(jié)果。
每個音素模式在接收的取樣流中探測出它特有的音素并向記分比較器110送去第一個數(shù)值，指出取樣和被識別音素之間的相關(guān)程度，再送去第二個數(shù)值，指示出該音素的時間長度。當(dāng)單詞完成且靜止模式101在單詞結(jié)尾處探測到靜止時，記分比較器110將這些數(shù)值送至統(tǒng)計分析單元40。
選擇器60發(fā)起執(zhí)行另一次查找操作。這是在本地語音說話人數(shù)據(jù)庫21中發(fā)生，同時使所述單詞(“computer”)的統(tǒng)計數(shù)據(jù)被輸入到統(tǒng)計分析單元40的輸入端41和42。對于所述單詞的每一個音素，此音素的時間長度的目標(biāo)平均值和變化以及此音素記分的目標(biāo)平均值和變化分別被輸入輸入端41和42。這一階段在圖3中被表示為215階段，但此階段可以和201階段同時進行這一點將受到重視。
維特比解碼器33的輸出量的統(tǒng)計分析是在圖3的216階段中如下進行的。對于一個特定音素的時間長度，從輸出端35輸出的值在輸出端41處和此音素的目標(biāo)平均值時間長度進行比較。在輸入端42處計算出被測時間長度和目標(biāo)平均值時間長度間之差值并將其除以本地語音說話人的音素時間長度的偏差值。結(jié)果便是被測時間長度的可信度。如果此被測時間長度很接近于平均值時間長度，可信度便高。但即使此時間長度和平均值時間長度相差很大，如果由本地語音說話人說出的音素時間長度的偏差也高，則仍然可以獲得高的可信度。
同樣，對一個特定音素的記分(即相互關(guān)系)是在輸出端36處輸出，并和由本地語音說話人說出和在統(tǒng)計分析單元40的輸入端42處輸入的該音素的目標(biāo)平均值記分進行比較。同樣，該記分的變化量在輸入端42處送出。被測記分和目標(biāo)平均值記分之差被計算出并除以此記分的偏差。結(jié)果給出可信度，說明被說出的音素和本地語音說話人的音素之間的相關(guān)程度。這些音素時間長度的可信度和音素記分的可信度分別在統(tǒng)計分析單元40的輸出端43和44處輸出。它們被送至用戶圖形接口50，其結(jié)果在顯示器16上顯示。這一結(jié)果顯示在圖3上被表示為220階段。
這樣一來，統(tǒng)計分析單元40便成了一個統(tǒng)計比較器，能為維特此解碼器33的輸出端36或35處的一個信號相對于說話人數(shù)據(jù)庫21建立一個等級，并將此等級作為輸出送出。
用戶圖形接口50可以用許多不同形式將結(jié)果表示出來。在顯示器16上顯示結(jié)果的例子表示在圖4中。圖4中的表示法在同時對不同音素的相對時間長度和相互關(guān)系給出直觀表示時是很有利的。在圖4中，時間線400是將各個音素401分別排列于其下方而畫出的，對應(yīng)每個音素都有一個方塊402畫在時間線上方。方塊的高度表示和本地語言說話人的音素之間的相互關(guān)系。因此高的塊表示相關(guān)性好，即音素發(fā)音正確，而矮的方塊表示音素發(fā)音不正確。方塊的寬度403表示相對于本地語音說話人說出的音素的較好時間長度的、該音素的相對時間長度。因此對于該音素，寬的方塊表示發(fā)音時間長度過長而短的方塊表示時間長度過短。
于是，用戶很容易就可直觀地看到該單詞的發(fā)音質(zhì)量。例如，在被表示出的例子中，元音“AH”發(fā)音較差、時間長度也有些過長，而元音“UW”發(fā)音較好且其時間長度適中。這樣，用戶便知道對第一個元音的發(fā)音可以進行改進而第二個元音則發(fā)音合適。
上面敘述了一個簡單而有用的裝置。它可以幫助學(xué)習(xí)語言的學(xué)生學(xué)習(xí)和練習(xí)表達詞語的發(fā)音。這一工具幾乎可以適用于學(xué)習(xí)任何語言，只要把表達詞句劃分成音素并向用戶指出單個音素的發(fā)音質(zhì)量。已經(jīng)說明，向用戶指出的內(nèi)容最好包括發(fā)音質(zhì)量和發(fā)音時間長度。沒有必要指出單個音素發(fā)音的這些特殊的方面，而可以指出發(fā)音的確實可供選擇的方面如音高、強調(diào)等等。
所說明的工具可以被修改和擴大以給出另外的有用的特點。例如，可以將整個的詞組或句子輸入輸入裝置14并在輸出顯示器16上表示出來。對一個完整單詞的發(fā)音、或一個詞組、一整個句子、或某種別的表達詞語的發(fā)音可以指出其可信度。
圖5表示出對音素、單詞和句子給出可信度的一種方法。一個樹枝狀系統(tǒng)被畫出來，其中音素時間長度的可信度501和音素記分的可信度502合并成該音素的單一的可信度503。此音素的可信度和同一個單詞中另一個音素的可信度506合并。這些可信度一起給出此雙音素單詞的可信度507。此可信度507可以和另一個單詞的可信度508合并而給出單詞組合的可信度510、或甚至一個完整句子的可信度。當(dāng)然，圖5畫出的樹狀系統(tǒng)只是對一個完整詞組或句子的較大的樹狀系統(tǒng)的圖解說明。
在圖1中畫出了一種跟蹤工具62，下面對其進行較詳細的說明。該跟蹤工具62是一個可選擇的特征，能向用戶指出在一個句子發(fā)音過程中的進展。維特比解碼器的輸出端37向跟蹤工具62指出在該單詞的記分過程中維特比解碼器進展了多遠。當(dāng)圖2的每個音素模式102、103等等探測其特定音素并完成該音素的探測，以及下一個音素模式開始探測隨后的音素時，一個部份回掃指示被送至跟蹤工具62，以指出一個音素的探測完成和下一個音素的探測開始。跟蹤工具62將此進展和句子的正被發(fā)音的單詞聯(lián)系起來。跟蹤工具62在輸出端63處向用戶圖形接口50指示出這一進展。一個例子表示在圖6中。
在圖6中，顯示器16上畫出了一個顯示輸出，其中詞句“I love my computer”是被輸入輸入裝置14的句子并由用戶發(fā)音。當(dāng)跟蹤工具62向用戶圖形接口50指出用戶在句子發(fā)音中的活動進展時，用戶圖形接口50產(chǎn)生一個彈球600。當(dāng)用戶發(fā)音讀出句子時，彈球的樣子是從一個音節(jié)跳到一個音節(jié)。這種球的一個個音節(jié)的跳動或其他的合適的進展指示器的初始化是由跟蹤工具62經(jīng)輸出端63進行的。
僅通過實例，已對一種測量發(fā)音的方法和一種進行發(fā)音測量的裝置進行了說明。一個技術(shù)熟練人員能夠不用離開本發(fā)明的范圍和主旨而很容易進行細節(jié)的修改。
權(quán)利要求
1.一種測量發(fā)音的方法，包括有接收語音輸入(31)；進行一次查找操作以得到語音輸入的一個預(yù)先設(shè)定的模式(34)；將語音輸入加予模式以給出一個記分(36)；相對于一個預(yù)先確定的說話人(21)的記分對前述記分進行分析(40)，由此給出結(jié)果(43、44)；并指示出結(jié)果。
2.權(quán)利要求1的方法還包括有一個選擇表達詞句的階段，其中進行查找操作的階段包括從存儲器(20)為被選擇的表達詞句取得一個預(yù)先設(shè)定的模式。
3.權(quán)利要求1的方法，其中將語音輸入送至模式以給出記分的階段包括有一個第一輸出端(35)，它可給出單詞分段的時間長度測量；還有一個第二輸出端(36)可以給出在語音輸入中的單詞分段和預(yù)先設(shè)定的模式中的單詞分段之間的相互關(guān)系的測量。
4.權(quán)利要求3的方法，其中分析記分的階段包括對第一輸出端(35)就其對預(yù)先確定的說話人的單詞分段時間長度進行的預(yù)先規(guī)定的測量(41)進行統(tǒng)計分析。
5.權(quán)利要求4的方法，其中表示結(jié)果的階段包括對統(tǒng)計分析的結(jié)果給出圖解說明。
6.權(quán)利要求3的方法，其中分析記分的階段包括對第二輸出端(36)就其對預(yù)先確定的說話人的單詞分段和預(yù)先規(guī)定的模式中的單詞分段之間的相互關(guān)系進行的預(yù)先設(shè)定的測量(42)進行統(tǒng)計分析。
7.權(quán)利要求6的方法，其中表示結(jié)果的階段包括對統(tǒng)計分析的結(jié)果給出圖解說明。
8.一種進行發(fā)音測量的裝置，包括有一個話音模擬單元(33)，它帶有一個輸入端(32)，用以接收一個相當(dāng)于說話人語音的信號，還有一個輸出端；一個說話人數(shù)據(jù)庫(15)；一個分析單元(40)，其第一輸入端(41、42)連接到說話人數(shù)據(jù)庫(15)，而其第二輸入端(35、36)連接到話音模擬單元的輸出端，還有一個輸出端(43、44)；以及一個指示器裝置(50、16)，被連接到分析單元的輸出端。
9.權(quán)利要求8的裝置，其中話音模擬單元包含有一個存儲器單元，后者中存放有多個相當(dāng)于不同表達詞語的預(yù)先設(shè)定的模式(102-108)。
10.權(quán)利要求9的裝置，還包含一個選擇輸入裝置(14、60)，后者被連接到話音模擬單元以選擇一種表達詞語以對其進行發(fā)音測量。
11.權(quán)利要求8的裝置，其中的話音模擬單元是一個單詞分段模擬單元。
12.權(quán)利要求11的裝置，其中的單詞分段模擬單元是一個音素模擬單元。
13.權(quán)利要求11的裝置，其中的話音模擬單元使用一個維特比解碼器。
14.權(quán)利要求8的裝置，其中的話音模擬單元包括一個第一輸出端(35)以給出時間長度測量，一個第二輸出端(36)可給出相互關(guān)系測量。
15.權(quán)利要求8的裝置，其中的指示器裝置是一個用戶圖形接口50。
16.權(quán)利要求15的裝置，其中的用戶圖形接口包括一個對說話人語音音素的時間長度進行可信度測量的指示器(403)和一個對說話人語音的一個音素的質(zhì)量進行可信度測量的指示器(401)。
17.權(quán)利要求15的裝置，其中的用戶圖形接口包括一個跟蹤工具(62)，以指示出被說出的表達詞并指示出說話人在說出該表達詞句的過程中其語音的進展?fàn)顟B(tài)。
18.權(quán)利要求8的裝置，其中的分析單元包括一個統(tǒng)計比較器，以對第二輸入端的一個信號相對于說話人數(shù)據(jù)庫建立一個等級并將此等級輸出。
全文摘要
在一個說話人數(shù)據(jù)庫(15)中進行一次查找操作以為在輸入端(11)處接收到的用戶的語音得到一個預(yù)先設(shè)定的模式。一個話音模擬單元模擬一個本地語音說話人的話音。語音輸入被加到模擬單元(102—107)以給出一個記分。該記分在一個分析單元(40)中被相對于一個預(yù)先確定的說話人的記分進行分析。一個被連接到此分析單元的輸出端的指示器裝置(16)將結(jié)果表示出來。
文檔編號G09B19/04GK1191354SQ9810368
公開日1998年8月26日申請日期1998年1月23日優(yōu)先權(quán)日1997年1月30日
發(fā)明者達納·比爾德, 斯蒂芬·奧斯汀申請人:摩托羅拉公司

完整全部詳細技術(shù)資料下載