專利名稱:交互式語言訓(xùn)練設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的領(lǐng)域本發(fā)明涉及在教育系統(tǒng)中特別有用的口語識別系統(tǒng),尤其是涉及用來教授語言的提供基于音素的口語識別的計算機(jī)系統(tǒng)。
本發(fā)明的背景用于教授語言的計算機(jī)系統(tǒng)是眾知的。美國專利No.5,487,671說明了一種用于教授語言的計算機(jī)系統(tǒng),該系統(tǒng)特別地給出了用戶的語言和基準(zhǔn)語言之間關(guān)系的一種指示,本發(fā)明的發(fā)明人是該專利發(fā)明人之一。
可以從The Learning Company(“學(xué)習(xí)公司”)購得商品名為“Learn toSpeak English(學(xué)習(xí)說英語)”的一種產(chǎn)品,該產(chǎn)品基本上具有上述專利的特性。
從以下各公司可購得這方面的其他一些產(chǎn)品HyperGlot、Berlitz、Syracuse Language Systems Mindscape Global Language和Rosetta StoneLanguage Library。
基于音素的口語識別計算機(jī)系統(tǒng)也是眾知的,并能購買到。這種系統(tǒng)的例子有“IBM Voice Type,Simply Speaking for students,home users a ndsmall businesses(IBM語音型,學(xué)生、家庭用戶和小公司的簡單口語)”,由IBM(國際商用機(jī)器公司)推出;“IBM Voice Type for professional and business use(IBM語音型,專業(yè)和商務(wù)應(yīng)用)”,由IBM推出;
“Talk To Me(對我說話)”,由美國麻省Newton市的Dragon Systems推出;“ASR-1500”,由比利時Leper市的Lernout&Hauspie SpeechProducts N.V.推出。
本發(fā)明概述本發(fā)明試圖提供一種進(jìn)一步改進(jìn)的用于教授語言的計算機(jī)系統(tǒng),它能夠向用戶指明用戶發(fā)音錯誤的類型。
于是,根據(jù)本發(fā)明的一個優(yōu)選實施例提供了一種用于交互式語言訓(xùn)練的設(shè)備,該設(shè)備包括一個觸發(fā)發(fā)生器,用于誘導(dǎo)用戶作出期望的語聲應(yīng)答;一個期望語聲應(yīng)答基準(zhǔn)庫,其中含有許多基準(zhǔn)期望應(yīng)答,這許多基準(zhǔn)期望應(yīng)答包含多個具有可接受的發(fā)音的第一類基準(zhǔn)期望應(yīng)答,并且對每一個具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都含有多個各自有不同的發(fā)音錯誤的第二類基準(zhǔn)期望應(yīng)答。
一個語聲應(yīng)答記分器,它指明用戶給出的期望語聲應(yīng)答和基準(zhǔn)期望應(yīng)答之間的關(guān)系;以及一個用戶反饋界面,它向用戶指明用戶給出的期望語聲應(yīng)答中的發(fā)音錯誤。
用戶反饋界面最好還向用戶給出關(guān)于如何克服發(fā)音錯誤的教導(dǎo)。
根據(jù)本發(fā)明的一個優(yōu)選實施例,用戶反饋界面在緊接著每個期望語聲應(yīng)答之后立即向用戶指明相應(yīng)的發(fā)音錯誤。
反饋界面最好聲響地和可視地指明發(fā)音錯誤。
根據(jù)本發(fā)明的一個優(yōu)選實施例,有一個語聲樣本發(fā)生器,它的工作使得期望發(fā)聲應(yīng)答是語聲樣本的復(fù)現(xiàn)。
或者,語聲樣本發(fā)生器的工作使期望語聲應(yīng)答不是語聲樣本的復(fù)現(xiàn)。
另一種選擇是,語聲樣本發(fā)生器的工作使期望語聲應(yīng)答是可以從多于一個的可能的期望語聲應(yīng)答中選擇的一個語聲樣本。
觸發(fā)發(fā)生器最好含有一個語聲樣本發(fā)生器,用來向用戶再生語聲樣本。
另一種選擇是,觸發(fā)發(fā)生器含有一個可視觸發(fā)發(fā)生器,或者增添一個可視觸發(fā)發(fā)生器,用來向用戶提供可視的觸發(fā)輸出。
期望語聲應(yīng)答庫最好包括一個期望語聲應(yīng)答基準(zhǔn)庫。
根據(jù)本發(fā)明的一個優(yōu)選實施例,期望語聲應(yīng)答基準(zhǔn)庫包括許多樣板,并且這個庫與說話人無關(guān)。
根據(jù)本發(fā)明的一個優(yōu)選實施例還提供了一種用于交互式語言訓(xùn)練的方法,該方法包括誘導(dǎo)用戶給出期望語聲應(yīng)答提供一個包含許多基準(zhǔn)期望應(yīng)答的期望語聲應(yīng)答基準(zhǔn)庫,這許多基準(zhǔn)期望應(yīng)答包含具有可接受的發(fā)音的多個第一類基準(zhǔn)期望應(yīng)答,并且對每一個具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都有多個各自有不同的發(fā)音錯誤的第二基準(zhǔn)期望應(yīng)答;指明用戶給出的期望語聲應(yīng)答和基準(zhǔn)期望應(yīng)答之間的關(guān)系;以及向用戶指明在用戶給出的期望語聲應(yīng)答中的發(fā)音錯誤。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,該方法還包括向用戶給出如何克服發(fā)音錯誤的教導(dǎo)。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,該方法還包括緊接著每個期望語聲應(yīng)答之后立即向用戶指明相應(yīng)的發(fā)音錯誤。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,該方法包括向上述用戶聲響地和可視地指明上述發(fā)音錯誤。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,該方法還包括期望語聲應(yīng)答是上述語聲樣本的復(fù)現(xiàn)。
或者,該方法還包括期望語聲應(yīng)答不是上述語聲樣本的復(fù)現(xiàn)。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,期望語聲應(yīng)答是可以從多于一個的可能的期望語聲應(yīng)答中選擇的一個語聲樣本。
還是根據(jù)本發(fā)明的又一個優(yōu)選實施例,誘導(dǎo)語聲應(yīng)答的步驟包括向用戶再生語聲樣本。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,誘導(dǎo)步驟包括向用戶提供可視的觸發(fā)輸出。
根據(jù)本發(fā)明的一個優(yōu)選實施例,還提供了一種口語識別設(shè)備,該設(shè)備包括至少一個含有至少是第一種語言和第二種語言的一些口語元素的數(shù)據(jù)庫;一個用來接收待識別口語的接收器;以及一個用來把口語的特征與至少是第一種語言和第二種語言的一些口語元素的特征的組合進(jìn)行比較的比較器。應(yīng)該指出,在某些情況下口語元素特征的組合可以是單個口語元素的特征。口語元素的特征可以是口語元素信號。
根據(jù)本發(fā)明的一個優(yōu)選實施例,還提供了一種語言教學(xué)系統(tǒng),該系統(tǒng)包括一個用來誘導(dǎo)用戶給出期望語聲應(yīng)答的觸發(fā)發(fā)生器;一個口語識別器,它用來接收用戶說出的期望語聲應(yīng)答,它含有至少一個含有至少是第一種語言和第二種語言的一些口語元素的數(shù)據(jù)庫;一個用來接收待識別口語的接收器;一個用來把上述口語的特征與上述至少是第一種語言和第二種語言的一些口語元素的特征的組合進(jìn)行比較的比較器;以及一個用戶反饋界面,用來向用戶指明在用戶給出的期望語聲應(yīng)答中的錯誤。應(yīng)該指出,在某些情況中口語元素的特征的組合特征可以是單個口語元素的特征??谡Z元素的特征可以是口語元素信號。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,口語元素包含音素、雙音素和音素間過渡中的至少一種。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,語言教學(xué)系統(tǒng)還含有一個樣板發(fā)生器,它的工作將產(chǎn)生短語樣板。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,該語言教學(xué)系統(tǒng)還含有一個特征提取器,它的工作將提取接收器所接收到的口語的特征。
根據(jù)本發(fā)明的一個優(yōu)選實施例,還提供了一種口語識別方法,該方法包括提供至少一個含有至少是第一種語言和第二種語言的一些口語元素的數(shù)據(jù)庫;接收待識別的口語;以及把口語的特征與至少是第一種語言和第二種語言的一些口語元素的特征的組合進(jìn)行比較。應(yīng)該指出,在某些情況中口語元素的特征的組合可以是單個口語元素的特征。口語元素的特征可以是口語元素信號。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,口語是用戶用第一種語言說出的,而該用戶的母語是第二種語言,并且其中至少一個數(shù)據(jù)庫同時含有第一種和第二種這兩種語言的口語元素。
還是根據(jù)本發(fā)明的一個優(yōu)選實施例,至少第一種和第二種語言是不同民族的語言。
仍是根據(jù)本發(fā)明的一個優(yōu)選實施例,至少第一種和第二種語言是同一民族的語言中的不同方言。
附圖的簡單說明通過下面結(jié)合附圖所作的詳細(xì)說明,將可更充分際了解和認(rèn)識本發(fā)明,在附圖中
圖1是根據(jù)本發(fā)明的一個優(yōu)選例構(gòu)筑和操作的一種交互式語言教學(xué)系統(tǒng)的概要圖形說明;圖2是在語言教學(xué)過程中圖1系統(tǒng)的操作的概要功能性方框圖;圖3是在根據(jù)本發(fā)明的一個實施例進(jìn)行語聲基準(zhǔn)庫生成的過程中圖1系統(tǒng)的操作的功能性方框圖;圖4是在根據(jù)本發(fā)明的另一個實施例進(jìn)行語聲基準(zhǔn)庫生成的過程中圖1系統(tǒng)的操作的概要功能性方框圖;圖5A和5B組成了說明在根據(jù)圖2的概要功能性方框圖進(jìn)行語言教學(xué)的過程中系統(tǒng)的操作的概要流程圖;圖6A、6B和6C組成了說明在根據(jù)圖3的概要功能性方框圖進(jìn)行用于語言教學(xué)的語聲基準(zhǔn)庫的生成過程中系統(tǒng)的一種操作方法的概要流程圖;圖7是說明在根據(jù)圖4的概要功能性方框圖進(jìn)行用于語言教學(xué)的語聲基準(zhǔn)庫的生成過程中系統(tǒng)的操作的概要流程圖8是圖4中所用類型的語音樣板數(shù)據(jù)庫的生成的簡化圖示說明;圖9是一個標(biāo)記語言(labeled speech)波形的簡化圖示說明;圖10是根據(jù)本發(fā)明的一個優(yōu)選實施例的多語言語音數(shù)據(jù)庫的生成的圖示說明;圖11是利用音素的口語識別的圖示說明;以及圖12是利用各種語言的音素的口語識別的圖示說明。
優(yōu)選實施例的詳細(xì)說明現(xiàn)在參見圖1和圖2,前者是根據(jù)本發(fā)明的一個優(yōu)選實施例構(gòu)作和操作的一種交互式語言教學(xué)系統(tǒng)的概要圖形說明,后者是在語言教學(xué)過程中圖1系統(tǒng)的操作的概要功能性方框圖。
應(yīng)該指出,圖1的系統(tǒng)與美國專利No.5,487,671中說明的ComputerizedSystem for Teaching Speech(用于口語教學(xué)的計算機(jī)系統(tǒng))有許多相似之處,該專利所公開的內(nèi)容在此引作參考。
如下面將要詳細(xì)說明的,本發(fā)明的系統(tǒng)與美國專利No.5,487,671的系統(tǒng)的差別在于,本系統(tǒng)操作中帶有一些各自有不同發(fā)音錯誤的基準(zhǔn)期望應(yīng)答,并且本系統(tǒng)含有一個語聲應(yīng)答記分器,它指明了用戶給出的期望語聲應(yīng)答和帶有發(fā)音錯誤的基準(zhǔn)期望應(yīng)答之間的關(guān)系。
圖1和2的系統(tǒng)具有根據(jù)本發(fā)明的一個優(yōu)選實施例的口語識別功能。
圖1和2的系統(tǒng)最好以一臺普通的個人計算機(jī)10為基礎(chǔ),該計算機(jī)例如是一臺IBM PC或兼容機(jī),其中采用了33MHz或更高主頻的Intel80486CPU(中央處理單元)、至少8MB的存儲器、并且用6.0版本或以上的DOS操作系統(tǒng)。個人計算機(jī)10最好配備有一個輔助聲響模塊12。例如,一種合適的聲響模塊12是由Digispeech,Inc公司制造并由美國加州Mountain View市的DSP SOLUTIONS Inc.公司在美國發(fā)行銷售的Digispeech Plus聲響適配器(DS311)。最好有一個頭盔14與聲響模塊12相連。
通常,對個人計算機(jī)10和聲響模塊12配置有適當(dāng)?shù)能浖?,以便提供下述各種功能一個用來誘導(dǎo)用戶給出期望語聲應(yīng)答的觸發(fā)發(fā)生器,該觸發(fā)發(fā)生器最好包括一個語聲樣本發(fā)生器,以向用戶再生語聲樣本,或者也可增加或更換成一個可視觸發(fā)發(fā)生器,以向用戶提供可視的觸發(fā)輸出;一個含有許多基準(zhǔn)期望應(yīng)答的期望語聲應(yīng)答基準(zhǔn)庫,這許多基準(zhǔn)期望應(yīng)答包含多個具有可接受的發(fā)音的第一類基準(zhǔn)期望應(yīng)答,并且對每一個具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都有多個各自有不同的發(fā)音錯誤的第二類應(yīng)答。多個第二類基準(zhǔn)期望應(yīng)答可以包含由各種語言的音素所構(gòu)成的應(yīng)答,并且一般可以應(yīng)用于口語識別;一個語聲應(yīng)答記分器,它指明用戶給出的期望語聲應(yīng)答和基準(zhǔn)期望應(yīng)答之間的關(guān)系;以及一個用戶反饋界面,它向用戶指明在用戶給出的期望語聲應(yīng)答中可能存在的發(fā)音錯誤。
用戶返饋界面最好通過聲響模塊12和頭盔14來提供聲響反饋。此外,從圖1和2可以看出,最好還提供一個顯示器16,以便用可視的方式向用戶指明發(fā)音錯誤,如圖1中所示。
根據(jù)本發(fā)明的一個優(yōu)選實施例,使用了總共6個不同的數(shù)據(jù)庫。為了方便于和易于理解本發(fā)明,下面按這6個數(shù)據(jù)庫在本發(fā)明中生成和使用的次序,對它們作一簡短的說明A.中間語聲樣本數(shù)據(jù)庫--該數(shù)據(jù)庫由記錄許多本民族民眾的說話來生成,這些民眾有不同出生地、不同年令和不同性別的分布。這許多本發(fā)族民眾可以包括說各種不同語言的人。每個說話人要發(fā)出多個預(yù)定短語的聲音。對于其中每一個預(yù)定短語,每個說話人要正確地發(fā)音該短語,還要重復(fù)幾次不正確的發(fā)音,每次發(fā)音帶有多種預(yù)定發(fā)音錯誤中的一種預(yù)定錯誤。該數(shù)據(jù)庫最好對每個說話人和每個上述短語發(fā)音有多次的記錄,以增強(qiáng)統(tǒng)計的基礎(chǔ)。
B.期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫--這是一個含有一些樣板而不是含有口語記錄的數(shù)據(jù)庫。
可以提供各種類型的樣板。一種在基于單詞的口語識別中有用的類型的樣板可以用后述方法從數(shù)據(jù)庫A中導(dǎo)出。另一種在基于音素的口語識別中有用的類型的樣板包括一些口語元素的特征的各種組合,這些口語元素的總體代表一個短語。
在基于單詞的口語識別中有用的樣板可以從中間語聲樣本數(shù)據(jù)庫A導(dǎo)出,其方法是從每個發(fā)音短語中提取一些口語參數(shù),并把它們統(tǒng)計地結(jié)合起來,以代表上述許多本民族民眾的發(fā)音。
這樣,每一個樣板便代表了一群本民族民眾發(fā)音的統(tǒng)計結(jié)合。
有可能只生成單個樣板來涵括在中間語聲樣本數(shù)據(jù)庫A中記錄了他們的發(fā)音的所有本民族民眾,或者,如果單個樣板不能精確地代表全部本民族民眾,則也可以用多個樣板。例如可以用一個樣板代表男性,另一個樣板代表女性。各個樣板也可以增添或代之以含有另一種語言的一些音素。
根據(jù)本發(fā)明的一個優(yōu)選實施例,期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B構(gòu)成了前述的期望語聲應(yīng)答基準(zhǔn)庫。這是一種與說話人無關(guān)的數(shù)據(jù)庫。
可以提供各種類型的樣板。一種類型的樣板在基于單詞的口語識別中有用,可以用上述方法從數(shù)據(jù)庫A導(dǎo)出。另一種類型的樣板在基于音素的口語識別中有用,包括一些口語元素的特征的各種組合,這些口語元素的總體代表一個短語。
C.語音數(shù)據(jù)庫--這是一種可購買到的關(guān)于某一種給定語言的一些音素的口語參數(shù)的數(shù)據(jù)庫。這數(shù)據(jù)庫例如可以從AT&T(美國電話電報公司)、美國科羅拉多州Boulder市的Speech Systems Incorporated公司、以及比利時Leper市的Lernout&Hauspie Speech Products N.V.公司購到??梢耘渲枚鄠€語音數(shù)據(jù)庫,其中每一個分別含有一種不同語言的音素口語參數(shù),這些語音數(shù)據(jù)庫的總體在這里仍叫做語音數(shù)據(jù)庫。
D.用戶應(yīng)答數(shù)據(jù)庫--這是用戶應(yīng)答記錄的一個集合。
E.期望語聲樣本數(shù)據(jù)庫--這是對每一個正確地發(fā)出了多個短語中每個短語的聲音的單個訓(xùn)練說話人的記錄的集合。
F.基準(zhǔn)語聲樣本數(shù)據(jù)庫--這是對每一個幾次不正確地發(fā)出了多個短語中每個短語的聲音的單個訓(xùn)練說話人的記錄的集合,其中每次不正確發(fā)音各帶有多種預(yù)定發(fā)音錯誤中的一種不同的錯誤。
現(xiàn)在參見圖2,這是一個在語言教學(xué)過程中圖1系統(tǒng)的操作的概要功能性方框圖。
為了誘導(dǎo)用戶給出期望語聲應(yīng)答,通過聲響模塊14(圖1)向用戶再生存儲在期望語聲樣本數(shù)據(jù)庫E中的語聲樣本。通常作為頭盔14的一部分的一個話筒20被用來記錄用戶的語聲應(yīng)答,該應(yīng)答被存儲在用戶應(yīng)答數(shù)據(jù)庫D中。典型地,語聲樣本是說出的短語。這些短語可以含有一個或多個單詞。為了誘導(dǎo)用戶給出期望語聲應(yīng)答,也可以增添或者代之以提供一個可視觸發(fā)發(fā)生器,向用戶提供可視的觸發(fā)輸出。
從用戶的語聲應(yīng)答中提取出所說短語的一些參數(shù),把這些參數(shù)與基準(zhǔn)短語參數(shù)相比較,以測量用戶語聲應(yīng)答中的所說短語參數(shù)和存儲在期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B中的相應(yīng)的正確或不正確的短語的基準(zhǔn)短語參數(shù)之間的匹配的相似性。
應(yīng)該指出,基準(zhǔn)短語參數(shù)并不必定包括單詞和單詞的組合?;鶞?zhǔn)短語參數(shù)也可以包括口語元素特征的各種組合,在執(zhí)行基于音素的口語識別時尤其是這樣。
相似性測量的結(jié)果是選出一個最接近于用戶發(fā)聲應(yīng)答的一個短語,或者是指明匹配失敗。向用戶給出一個聲響的(或者最好還有可視的)反饋說明,以指明所匹配的短語以及它是否正確。在教學(xué)過程中,用戶的應(yīng)答最好是一個單詞、幾個單詞、或其中還有一個或幾個短語是匹配的一個或幾個語句。最好還用聲響--可視形式來給出關(guān)于如何克服所指出的錯誤的附加教學(xué)信息。為此目的,最好使用最好是頭盔14(圖1)的一部分的頭戴耳機(jī)22和顯示器16。
現(xiàn)在參見圖3,這是一個在生成根據(jù)本發(fā)明的一個實施例的期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B的過程中圖1系統(tǒng)的操作的概要功能性方框圖。這里,用一個話筒30來記錄由多個本民族民眾說出的短語,這些在眾有各種出生地、各種年齡和性別分布。
每個說話人發(fā)出多個預(yù)定短語的聲音。對于其中每個預(yù)定短語,每個說話人正確地發(fā)音該短語,而且還重復(fù)幾次不正確的發(fā)音,每次發(fā)音帶有多種預(yù)定錯誤中的一種不同的錯誤。發(fā)音記錄被保存在中間發(fā)聲樣本數(shù)據(jù)庫A中。該數(shù)據(jù)庫最好對每個說話人的每個上述短語發(fā)音有多個記錄,以增強(qiáng)統(tǒng)計的基礎(chǔ)。
對于基于單詞的口語識別情況,提取出所說短語的一些參數(shù),并把它們與已經(jīng)存儲在期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B內(nèi)的短語參數(shù)融合在一起,以構(gòu)筑期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B。該數(shù)據(jù)庫包含許多基準(zhǔn)期望應(yīng)答,這些基準(zhǔn)期望應(yīng)答包括具有可接受的發(fā)音的第一類基準(zhǔn)期望應(yīng)答,并且對每一個具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都含有多個各自有不同的發(fā)音錯誤的第二類基準(zhǔn)期望應(yīng)答。
可以看出,每個短語都分別由M個說話人正確地發(fā)音N次進(jìn)行記錄。另外,還分別由M個說話人以L種各帶有不同發(fā)音錯誤的不同形式記錄N次。
現(xiàn)在參見圖4,這是一個在根據(jù)本發(fā)明的另一個實施例生成語聲基準(zhǔn)庫的過程中圖1系統(tǒng)的操作的概要功能性方框圖。這里,期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B是由計算機(jī)生成的,其方法是生成用來產(chǎn)生語音語言記錄的文本和語音語言文件。語音語言記錄與語音數(shù)據(jù)庫C一起用來產(chǎn)生一些短語樣板,這些板板的總體構(gòu)成了期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B。
在圖4的實施例中,典型的情況是,這些短語樣板不是單詞或單詞的組合,而是一些像音素、雙音素和音素間過渡這樣的口語的元素的特征的組合。在基于音素的口語識別中,把待識別口語的特征與這些組合相比較,以找到最佳的匹配。
現(xiàn)在參見圖5A和5B,它們一起構(gòu)成了說明在根據(jù)圖2的概要功能性方框圖進(jìn)行語言教學(xué)的過程中系統(tǒng)的操作的概要流程圖。一旦完成了該流程圖中指出的一些初始準(zhǔn)備之后,最好是在選定了想要從數(shù)據(jù)庫E聽到的語聲類型之后,便將選出某一篇課程,并向用戶說明如何發(fā)音某一選定聲音。對于每個選定聲音,將向用戶再生從基準(zhǔn)語聲樣本數(shù)據(jù)庫E取出的一個基準(zhǔn)語聲樣本,以誘導(dǎo)用戶給出期望語聲應(yīng)答。
用戶的應(yīng)答被“Student Response Specimen Recorder(學(xué)生應(yīng)答樣本記錄器)”記錄下來,并與含在期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B內(nèi)的基準(zhǔn)期望應(yīng)答進(jìn)行比較,上述記錄器在美國專利No.5,487,671中已有說明,其公開內(nèi)容引用于此作為參考。
如果最佳匹配是匹配于正確應(yīng)答的,則向用戶提供肯定反饋,課程進(jìn)入到下一個語聲樣本。
如果最佳匹配匹配于帶有發(fā)音錯誤的基準(zhǔn)期望應(yīng)答,則向用戶給出相應(yīng)的反饋,這個反饋最好包括對錯誤的說明以及如何進(jìn)行糾正,還包括再生該基準(zhǔn)期望應(yīng)答。根據(jù)本發(fā)明的一個優(yōu)選實施例,從基準(zhǔn)語聲樣本數(shù)據(jù)庫F向用戶再生該錯誤發(fā)音的短語。
可以使用一個用戶應(yīng)答數(shù)據(jù)庫D來再生最新的或較早的用戶應(yīng)答,以指明用戶的進(jìn)步,這個再生可以包含在系統(tǒng)的反饋中,或者用于其他目的。
現(xiàn)在參見圖6A、6B和6C,它們一起構(gòu)成了說明在根據(jù)圖3的概要功能性方框圖生成用于語言教學(xué)的語聲基準(zhǔn)庫的過程中系統(tǒng)的操作的概要流程圖。
一旦完成了該流程圖中指明的初始準(zhǔn)備后,訓(xùn)練的說話人說出正確的短語和多個不正確的短語和多個不正確的短語,后者的發(fā)音相似于正確的短語但在發(fā)音中有一個或幾個錯誤,以提供各個分別帶有不同發(fā)音錯誤的基準(zhǔn)期望應(yīng)答。記錄每一組這樣的正確和不正確短語。根據(jù)本發(fā)明的一個優(yōu)選實施例,中間語聲樣本數(shù)據(jù)庫A含有各種記錄。如前面參考圖3所說明的,數(shù)據(jù)庫A用來產(chǎn)生期望語聲應(yīng)答基準(zhǔn)庫B,圖6 C用于基于單詞的口語識別。
現(xiàn)在參見圖7,這是一個說明在根據(jù)圖4的概要功能性方框圖生成用于語言教學(xué)的語聲基準(zhǔn)庫的過程中系統(tǒng)的操作的概要流程圖。這里用一臺計算機(jī)進(jìn)入簡明的文本和發(fā)音語言,并把文本轉(zhuǎn)換成指明的語音語言。利用前述類型的語音數(shù)據(jù)庫C,產(chǎn)生短語樣板。然后把短語樣板存儲到期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫B中。這樣的處理對系統(tǒng)所采用的每一個短語樣板都執(zhí)行一次。應(yīng)該指出,這些短語樣板在典型情形中不是單詞或單詞的組合,而是像音素、雙音素和音素間過渡這樣的口語元素的特征的組合。在基于音素的口語識別中,把待識別口語的特征與這些組合進(jìn)行比較,以找到最佳的匹配。
現(xiàn)在參見圖8和9,它們說明根據(jù)本發(fā)明的一個優(yōu)選實施例生成圖4和7中所用類型的語音數(shù)據(jù)庫C的處理。例如在圖9中典型地示出的標(biāo)記口語的數(shù)據(jù)庫50可以從TI MI T Acoustic-phonetic Continuous Speech Corpora獲得,這可通過地址為online-service@ldc.upenn.edu的電子郵件從賓夕法尼亞大學(xué)的Linguistic Data Consortium購得。一個樣板構(gòu)筑器52在數(shù)據(jù)庫50上操作,給出語音數(shù)據(jù)庫C,該樣板構(gòu)筑器52典型地由一種可購得的軟件實現(xiàn),這種軟件例如是可通過地址為sales@entropic.com的電子郵件從Entropic CambridgeResearch Laboratories,Ltd有限公司購得的HTK(Hidden Markov Model Toolkit(隱藏馬爾科夫模型工具箱))。圖8的技術(shù)可應(yīng)用于各種語音。
對于語音數(shù)據(jù)庫58包括各種語言的一些音素的情況,語音數(shù)據(jù)庫C由結(jié)合多個語音數(shù)據(jù)庫54、56來實現(xiàn),如圖10所示。本發(fā)明的一個特有特征是,語音數(shù)據(jù)庫54和56包含被學(xué)習(xí)或口說的一種語言的一些音素,同時也包含用戶母語的一些音素,這樣它們可以結(jié)合起來給出增強(qiáng)的口語識別。
現(xiàn)在參見圖11,這是一個說明利用音素進(jìn)行口語識別的圖。在圖示的例子中,期望單詞是“tomato(西紅柿)”。生成了一個關(guān)于各種期望發(fā)音的網(wǎng)絡(luò)。這里,說話人可能把第一個“0”發(fā)音成“O”、“OW”、或“U”,其中“O”這個發(fā)音被認(rèn)為是正確的。
類似地,用戶可能把“a”發(fā)音成“A”或“EY”,其中“EY”這個發(fā)音被認(rèn)為是正確的。
圖11的特征在于,用來進(jìn)行口語識別的所有音素都屬于同一種語言。
現(xiàn)在參見圖12,這是一個說明利用各種語言的音素來進(jìn)行口語識別的圖。該例子是為識別由日本人所說的英語而設(shè)計的。這里期望單詞是“Los Angeles(洛杉礬)”中的“Los”。從圖中可以看出,說話人可能把“L”發(fā)音成“L”(圓圈內(nèi)的“L”)、英語的“R”(圓圈內(nèi)的“R”)、或者日語的“R”(方塊內(nèi)的“R”)。
圖12的特征在于,用來進(jìn)行口語識別的各音素并不全都屬于同一種語言。在圖12的例子中,一些音素是英語音素(圓圈內(nèi)的字母),而另一些音素則是日語音素(方框內(nèi)的字母)。
這樣便可以看到,當(dāng)利用圖12的口語識別技術(shù)來進(jìn)行語言教學(xué)時,系統(tǒng)將能識別出日本人特有的錯誤發(fā)音,從而可向用戶給出必要的教學(xué)反饋。當(dāng)圖12的口語識別技術(shù)用于其他口語識別應(yīng)用時,能識別出英語發(fā)音不完善的日本所說出的英語。
應(yīng)該指出,對于熟悉本技術(shù)領(lǐng)域的人們來說,本發(fā)明并不局限于前面具體示出和說明的內(nèi)容。反之,本發(fā)明的范疇?wèi)?yīng)包括前述各種特征和要素的結(jié)合和部分結(jié)合,同時包括它們各種顯然的變化和擴(kuò)充。
權(quán)利要求
1.交互式語言訓(xùn)練設(shè)備,它包括一個觸發(fā)發(fā)生器,用來誘導(dǎo)用戶給出期望語音應(yīng)答;一個期望語聲應(yīng)答基準(zhǔn)庫,它含有許多基準(zhǔn)期望應(yīng)答,這些基準(zhǔn)期望應(yīng)答包括多個具有可接受的發(fā)音的第一類基準(zhǔn)期望應(yīng)答,并且對上述每一個具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都含有多個各自有不同的發(fā)音錯誤的第二類基準(zhǔn)期望應(yīng)答。一個語聲應(yīng)答記分器,它指明用戶給出的期望語聲應(yīng)答和基準(zhǔn)期望應(yīng)答之間的關(guān)系;以及一個用戶反饋界面,它向用戶指明在用戶給出的期望語聲應(yīng)答中的發(fā)音錯誤。
2.根據(jù)權(quán)利要求1的設(shè)備,其中上述用戶反饋界面還向用戶給出如何克服發(fā)音錯誤的教導(dǎo)。
3.根據(jù)權(quán)利要求1的設(shè)備,其中上述用戶反饋界面在緊接著每個期望語聲應(yīng)答之后立即向用戶指明每個發(fā)音錯誤。
4.根據(jù)權(quán)利要求1的設(shè)備,其中上述反饋界面給出關(guān)于上述發(fā)音錯誤的聲響的和可視的指示。
5.根據(jù)權(quán)利要求1的設(shè)備,其中上述語聲樣本發(fā)生器的工作使得期望語聲應(yīng)答是上述語聲樣本的復(fù)現(xiàn)。
6.根據(jù)權(quán)利要求1的設(shè)備,其中上述語聲樣本發(fā)生器的工作使得期望語聲應(yīng)答不是上述語聲樣本的復(fù)現(xiàn)。
7.根據(jù)權(quán)利要求1的設(shè)備,其中上述語聲樣本發(fā)生器的工作使得期望語聲應(yīng)答是可以從多于一個的可能的期望語聲應(yīng)答中選擇的一個語聲樣本。
8.根據(jù)權(quán)利要求1的設(shè)備,其中上述觸發(fā)發(fā)生器包括一個用來向用戶再生語聲樣本的語聲樣本發(fā)生器。
9.根據(jù)權(quán)利要求1的設(shè)備,其中上述觸發(fā)發(fā)生器包括一個用來向用戶提供可視觸發(fā)輸出的可視觸發(fā)發(fā)生器。
10.根據(jù)權(quán)利要求1的設(shè)備,其中上述期望語聲應(yīng)答庫包括一個期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫。
11.根據(jù)權(quán)利要求10的設(shè)備,其中上述期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫包括許多樣板。
12.根據(jù)權(quán)利要求10的設(shè)備,其中上述期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫是與說話人無關(guān)的。
13.根據(jù)權(quán)利要求11的設(shè)備,其中上述期望語聲應(yīng)答基準(zhǔn)數(shù)據(jù)庫是與說話人無關(guān)的。
14.一種用于交互式語言訓(xùn)練的方法,它包括誘導(dǎo)用戶給出期望語聲應(yīng)答;提供一個含有許多基準(zhǔn)期望應(yīng)答的期望語聲應(yīng)答基準(zhǔn)庫,這許多基準(zhǔn)期望應(yīng)答包括多個具有可接受的發(fā)音的第一類基準(zhǔn)期望應(yīng)答,并且對每一個上述具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都含有多個各自有不同的發(fā)音錯誤的第二類基準(zhǔn)期望應(yīng)答;指明用戶給出的期望語聲應(yīng)答和基準(zhǔn)期望應(yīng)答之間的關(guān)系;以及向用戶指明在用戶給出的期望語聲應(yīng)答中的發(fā)音錯誤。
15.根據(jù)權(quán)利要求14的方法,它還包括向用戶給出關(guān)于如何克服發(fā)音錯誤的教導(dǎo)。
16.根據(jù)權(quán)利要求14的方法,它還包括在緊接著每個期望語聲應(yīng)答之后立即向用戶指明每一個發(fā)音錯誤。
17.根據(jù)權(quán)利要求14的方法,它還包括向上述用戶給出關(guān)于上述發(fā)音錯誤的聲響的和可視的指示。
18.根據(jù)權(quán)利要求14的方法,其中上述期望語聲應(yīng)答是上述語聲樣本的復(fù)現(xiàn)。
19.根據(jù)權(quán)利要求14的方法,其中上述期望語聲應(yīng)答不是上述語聲樣本的復(fù)現(xiàn)。
20.根據(jù)權(quán)利要求14的方法,其中上述期望語聲應(yīng)答是可以從多于一個的可能的期望語聲應(yīng)答中選擇的一個語聲樣本。
21.根據(jù)權(quán)利要求14的方法,其中上述誘導(dǎo)語聲應(yīng)答的步驟包括向用戶再生一些語聲樣本。
22.根據(jù)權(quán)利要求14的方法,其中上述誘導(dǎo)步驟包括向用戶提供一個可視觸發(fā)輸出。
23.口語識別設(shè)備,它包括至少一個含有至少是第一種和第二種語言的一些口語元素的數(shù)據(jù)庫;一個接收器,用來接收待識別口語;以及一個比較器,用來指上述口語的特征與上述至少是第一種和第二種語言的口語元素的特征的組合進(jìn)行比較。
24.一種語言教學(xué)系統(tǒng),它包括一個觸發(fā)發(fā)生器,用來誘導(dǎo)用戶給出期望語聲應(yīng)答;一個口語識別器,用來接收用戶所說的期望語聲應(yīng)答,該口語識別器包括至少一個含有至少是第一種和第二種語言的一些口語元素的數(shù)據(jù)庫;一個接收器,用來接收待識別的口語;以及一個比較器,用來把上述口語的特征與上述至少是第一種和第二種語言的上述口語元素的特征的組合進(jìn)行比較;以及一個用戶反饋界面,它向用戶指明在用戶給出的期望語聲應(yīng)答中的錯誤。
25.根據(jù)權(quán)利要求23的語言教學(xué)系統(tǒng),其中上述口語元素包括音素、雙音素和音素間過渡中的至少一種。
26.根據(jù)權(quán)利要求23的語言教學(xué)系統(tǒng),它還包括一個用來產(chǎn)生短語樣板的樣板發(fā)生器。
27.根據(jù)權(quán)利要求23的語言教學(xué)系統(tǒng),它還包括一個用來提取由上述接收器接收到的口語的特征的特征提取器。
28.一種口語識別方法,它包括提供至少一個含有至少是第一種和第二種語言的一些口語元素的數(shù)據(jù)庫;接收待識別的口語;以及把上述口語的特征與上述至少是第一種和第二種語言的口語元素的特征的組合進(jìn)行比較。
29.根據(jù)權(quán)利要求28的口語識別方法,其中上述口語是由一個母語為第二種語言的用戶用第一種語言說出的,并且其中至少一個數(shù)據(jù)庫含有第一種和第二種語言這兩種語言的一些口語元素。
30.根據(jù)權(quán)利要求28的方法,其中上述至少第一種和第二種語言包括不同民族的語言。
31.根據(jù)權(quán)利要求28的方法,其中上述至少第一種和第二種語言包括同一民族語言中的不同方言。
全文摘要
本發(fā)明是一種用于交互式語言訓(xùn)練的設(shè)備,它包括:一個用來誘導(dǎo)用戶給出期望語聲應(yīng)答的觸發(fā)發(fā)生器;一個含有許多基準(zhǔn)期望應(yīng)答的期望語聲應(yīng)答基準(zhǔn)庫,這許多基準(zhǔn)期望應(yīng)答包含多個具有可接受的發(fā)音的第一類基準(zhǔn)期望應(yīng)答,并且對每一個具有可接受發(fā)音的第一類基準(zhǔn)期望應(yīng)答都含有多個各自不同的發(fā)音錯誤的第二類基準(zhǔn)期望應(yīng)答;一個語聲應(yīng)答記分器,它指明用戶給出的期望語聲應(yīng)答和基準(zhǔn)期望應(yīng)答之間的關(guān)系;以及一個用戶反饋界面(12、14、16),它向用戶指明在用戶給出的期望語聲應(yīng)答中的發(fā)音錯誤。本發(fā)明還分開了口語識別設(shè)備,它包括:至少一個含有至少是第一種和第二種語言的一些口語元素的數(shù)據(jù)庫;一個用來接收待識別口語的接收器;以及一個比較器,用來把上述口語的特征與上述至少第一種和第二種語言的上述口語的特征的組合進(jìn)行比較。應(yīng)該指出,在某些情形中,一個口語元素的組合可以是單個口語元素。還公開了一種用于口語識別的方法。
文檔編號G10L15/22GK1197525SQ97190882
公開日1998年10月28日 申請日期1997年5月4日 優(yōu)先權(quán)日1996年7月11日
發(fā)明者澤夫·什皮羅 申請人:數(shù)字語音(以色列)有限公司