本發(fā)明涉及一種用于在指定語言中輔助改善用戶語音的方法和系統(tǒng),特別地,涉及以所述指定語言或另一語言接收從用戶將以指定語言說出的文本。
本發(fā)明在比較用戶說出文本的屬性與文本語音的相應(yīng)預(yù)期屬性以確定用戶說出文本的準(zhǔn)確性并向用戶輸出用戶說出文本的準(zhǔn)確性的反饋時(shí),具有特定但非排他性的應(yīng)用。
發(fā)明背景
傳統(tǒng)上,希望學(xué)習(xí)所需語言的人將與老師和其他學(xué)生采取適當(dāng)?shù)恼n程。在課程中,老師例如向?qū)W生提供要說出語言的一些文本,然后向?qū)W生提供關(guān)于他們說出文本與文本預(yù)期語音相比的反饋。所述反饋還可以包括與文本語音的特定屬性相關(guān)的評(píng)論,諸如流暢度和發(fā)音。此外,老師還可以為學(xué)生提供練習(xí)使得學(xué)生可在家里學(xué)習(xí)。然而,在這種情況下,學(xué)生在家中無法接收到任何反饋并且在某些情況下可能產(chǎn)生不良習(xí)慣,這將有損于學(xué)生學(xué)習(xí)和改善所需語言的語音的能力。
在現(xiàn)有示例中,可采用電子語音反饋系統(tǒng)來消除學(xué)生學(xué)習(xí)語言的語音時(shí)對(duì)實(shí)體教師的需要。在現(xiàn)有示例中,可提供具有已知的語音屬性(例如發(fā)音)的字詞給用戶以供用戶口頭練習(xí)。反饋系統(tǒng)接收用戶說出預(yù)定字詞的音頻,并應(yīng)用語音識(shí)別算法來確定用戶是否準(zhǔn)確地說出那些字詞。然而,在這個(gè)示例中,用戶可能會(huì)對(duì)這些預(yù)定并且經(jīng)常重復(fù)的字詞覺得乏味且感覺和自己并不相關(guān),因此,用戶可能喪失對(duì)改進(jìn)所需語言的語音的興趣。
技術(shù)實(shí)現(xiàn)要素:
根據(jù)本發(fā)明的第一方面,提供了一種在指定語言中輔助改善用戶語音的方法,所述方法包括:以指定語言或另一語言從用戶接收用戶將以指定語言說出的文本;處理文本以導(dǎo)出指定語言中的文本的語音的一個(gè)或多個(gè)預(yù)期屬性;接收用戶以指定語言說出文本的音頻;處理音頻以導(dǎo)出用戶說出文本的一個(gè)或多個(gè)屬性;比較用戶說出文本的一個(gè)或多個(gè)屬性與文本語音的一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定用戶說出文本的準(zhǔn)確性;以及向用戶輸出用于指出準(zhǔn)確性的反饋。
在一實(shí)施例中,文本語音的一個(gè)或多個(gè)預(yù)期屬性和用戶說出文本的屬性包括發(fā)音、流暢度和韻律特征中的至少一個(gè)。語音的韻律特征包括字詞的音節(jié)長(zhǎng)度、響度和音調(diào)的變化。本領(lǐng)域技術(shù)人員可理解的是,預(yù)期的發(fā)音、流暢度和韻律特征可以通過說話者指定語言的語音的經(jīng)驗(yàn)分析來確定。實(shí)際上,韻律特征可以用于指出指定語言的重音。在這種情況下,可由經(jīng)驗(yàn)分析來確定例如美國中西部口音的韻律特征,并且所述方法可以確定并向用戶輸出用于指出用戶以美國中西部口音說話的準(zhǔn)確性的反饋。
本領(lǐng)域技術(shù)人員可理解的是,確定用戶說出文本的準(zhǔn)確性包括基于比較用戶說出文本的一個(gè)或多個(gè)屬性與文本語音的一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性所確定的準(zhǔn)確性的總和來確定用戶說出文本的質(zhì)量的測(cè)量(例如,1/100至100/100)。因此,在所述實(shí)施例中,所述方法通過確定用戶說出文本的每個(gè)指定屬性(諸如步速、音調(diào)、能量、發(fā)音、流暢度等)的準(zhǔn)確性來確定用戶說出文本的準(zhǔn)確性。
在一實(shí)施例中,所述方法還包括將文本解析為一個(gè)或多個(gè)句子或字詞片段。例如,通過順序地搜索包括那些字詞的文本以找出出現(xiàn)諸如句點(diǎn)、問號(hào)和驚嘆號(hào)的未加引號(hào)的句子終止標(biāo)點(diǎn)符號(hào),從而將字詞集合解析成一個(gè)或多個(gè)句子。
或者,字詞集合被解析為一組具有固定字詞計(jì)數(shù)的字詞片段,每個(gè)字詞片段通常大小為2至8個(gè)字詞。然后,輸出這些片段,從而順序地教導(dǎo)給用戶,從最初教導(dǎo)一個(gè)片段,然后添加第二個(gè)片段,直到教導(dǎo)了整個(gè)字詞集合。在一變化中,這些字詞片段可以從字詞集合的開始處從左到右構(gòu)建,直到教導(dǎo)了整個(gè)集合?;蛘撸@些字詞片段可以從字詞集合的結(jié)尾處從右到左構(gòu)建。例如,如果字詞片段計(jì)數(shù)是三,則首先教導(dǎo)集合的最后三個(gè)字詞,然后教導(dǎo)最后六個(gè)字詞,然后教導(dǎo)最后九個(gè)字詞等,直到字詞集合完成。
在另一實(shí)施例中,還產(chǎn)生文本的一個(gè)或多個(gè)句子的語法。本領(lǐng)域技術(shù)人員將理解的是,所述語法(例如多個(gè)語法)指的是語音識(shí)別語法,亦即可以由實(shí)現(xiàn)語音識(shí)別算法的語音識(shí)別器識(shí)別的形式語法結(jié)構(gòu)。在一示例中,例如經(jīng)由顯示在用戶設(shè)備的顯示器上的第一個(gè)句子的文本以向用戶提供用于說出多個(gè)句子中的第一個(gè)句子的提示。所述方法還包括接收用戶說出文本的多個(gè)句子中的第一個(gè)句子的音頻,然后向用戶輸出用于指出用戶說出多個(gè)句子中的第一個(gè)句子的準(zhǔn)確性的反饋。在輸出反饋之后,然后提示用戶說出多個(gè)句子中的第二個(gè)句子。
因此,在使用的示例中,用戶首先以指定語言或者以另一語言輸入他們希望學(xué)習(xí)語音的文本,并且將其翻譯成指定語言以供向用戶顯示。然后將文本解析為句子。然后提示希望以指定語言改進(jìn)他們語音的用戶說出所顯示文本的第一個(gè)句子。用戶說出的語音由語音識(shí)別器接收和處理,使得用戶可以接收關(guān)于他們的語音的發(fā)音、流暢度等的反饋。在接收到反饋之后,用戶可以繼續(xù)到下一句并相應(yīng)地接收反饋,等等。
例如,所述方法使用語音識(shí)別語法規(guī)范(speechrecognitiongrammarspecification,srgs),其用于與實(shí)現(xiàn)語音識(shí)別算法的語音識(shí)別器一起控制所有識(shí)別操作。srgs是用于語音識(shí)別語法的萬維網(wǎng)聯(lián)盟(worldwidewebconsortium,w3c)標(biāo)準(zhǔn)。還將理解的是,語音識(shí)別語法是用于指出語音識(shí)別器關(guān)于期望人們說出什么的一組字詞模式。
在一實(shí)施例中,所述方法還包括處理文本以將文本呈現(xiàn)為指定語言的音頻,然后經(jīng)由用戶設(shè)備的揚(yáng)聲器將音頻輸出到用戶。也就是說,在本實(shí)施例中,可使用文本到語音生成器以幫助用戶改善指定語言的語音。例如,在使用中,用戶說出一個(gè)句子,接收關(guān)于用戶說出句子方式的準(zhǔn)確性的反饋,然后聽到所述句子的預(yù)期語音以用于比較。實(shí)際上,所述方法的順序可以是例如(a):輸入文本,輸入語音,然后提供預(yù)期的語音輸出或(b):輸入文本,提供預(yù)期的語音輸出,然后是語音輸入以用于比較。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,處理音頻以導(dǎo)出用戶說出文本的一個(gè)或多個(gè)屬性的步驟是使用語音識(shí)別算法來實(shí)現(xiàn)的,并且處理文本以導(dǎo)出一個(gè)或多個(gè)文本語音的預(yù)期屬性的步驟是使用語音合成算法來實(shí)現(xiàn)。
優(yōu)選地,所述準(zhǔn)確性包括多于一個(gè)的置信度值,其與對(duì)應(yīng)于文本語音的一個(gè)或多個(gè)預(yù)期屬性的用戶說出文本的一個(gè)或多個(gè)屬性的準(zhǔn)確性相關(guān)聯(lián)。置信度值可以例如是通過/失敗,其基于用戶的語音屬性與預(yù)期屬性有多接近。例如,以語音流暢度和發(fā)音以及用戶說出文本的預(yù)期流暢度和發(fā)音之間70%匹配作為基線,如果用戶說出文本的語音流暢度和發(fā)音超過70%匹配,則確定為通過。在一示例中,與精確度相關(guān)聯(lián)的置信度值包括:高度精確(例如80%以上匹配)、有限的精確(例如50%‐80%匹配),有限的不足(例如20%‐50%匹配)和非常不精確(例如0%‐20%匹配)。參考所述示例,所述反饋還包括顏色,其用于指出所述準(zhǔn)確性的置信度值中的不同置信度值。例如,用戶設(shè)備的顯示器上的綠色顯示為高度精確,橙色顯示為有限的精確,棕色顯示為有限的不足,紅色顯示為非常不精確。可以設(shè)想的是,也可以向用戶提供音頻反饋,例如經(jīng)由用戶設(shè)備的揚(yáng)聲器輸出語音“非常不精確”。其他形式的反饋包括數(shù)字等級(jí)(例如1‐10),字母等級(jí)(例如a‐f),徽章或反饋的一些其他視覺指示器。
在另一實(shí)施例中,所述方法還包括處理文本以導(dǎo)出文本中的預(yù)定禁止詞,以使禁止詞可被刪失。例如,預(yù)先確定表示仇恨言語等的諺語和詞語,并將其存儲(chǔ)在存儲(chǔ)器中,并在實(shí)現(xiàn)將文本解析為句子的步驟之前訪問預(yù)定禁止詞。
在一實(shí)施例中,所述方法還包括在存儲(chǔ)器中記錄用戶以指定語言說出文本的音頻。以這種方式,所述方法可以處理記錄在數(shù)據(jù)庫中的音頻以導(dǎo)出文本語音的一個(gè)或多個(gè)預(yù)期屬性。也就是說,可以通過分析許多用戶說出文本的記錄來確定文本的預(yù)期發(fā)音。另外,特定用戶的記錄語音可以用于稍后分析,例如用于指出用戶說出所指定語言的進(jìn)步程度。在另一示例中,用戶輸入并接收的所有文本則被留用于脫機(jī)分析。也就是說,搜索文本串的集合以用于重復(fù)(例如,來自不同用戶的相同輸入)以及在多個(gè)用戶中流行的特定詞或主題。
根據(jù)本發(fā)明的另一方面,提供了一種用于在指定語言中輔助改善用戶語音的系統(tǒng),所述系統(tǒng)包括處理器,處理器具有:輸入模塊,被配置為:以指定語言或另一語言從用戶接收用戶將以指定語言說出的文本,以及接收用戶以指定語言說出的文本的音頻;處理模塊,其被配置為:處理文本以導(dǎo)出指定語言中的文本語音的一個(gè)或多個(gè)預(yù)期屬性,處理音頻以導(dǎo)出用戶說出文本的一個(gè)或多個(gè)屬性,以及比較用戶說出文本的一個(gè)或多個(gè)屬性與文本語音的一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定用戶說出文本的準(zhǔn)確性;以及輸出模塊,其被配置為:向用戶輸出用于指出準(zhǔn)確性的反饋。
根據(jù)本發(fā)明的另一方面,提供了一種用于在指定語言中輔助改善用戶語音的系統(tǒng),所述系統(tǒng)包括:顯示器,被配置為以所指定的語言或以另一語言顯示文本;文本輸入設(shè)備,被配置為以指定語言或另一語言從用戶輸入用戶將以指定語言說出的文本;麥克風(fēng),被配置為輸入用戶以指定語言說出文本的音頻;以及處理器,所述處理器具有:輸入模塊,被配置為:以指定語言或另一語言從用戶接收用戶將以指定語言說出的文本,以及接收用戶以指定語言說出文本的音頻;處理模塊,被配置為:處理文本以導(dǎo)出指定語言中文本語音的一個(gè)或多個(gè)預(yù)期屬性,處理音頻以導(dǎo)出用戶說出文本的一個(gè)或多個(gè)屬性,以及比較用戶說出文本的一個(gè)或多個(gè)屬性與文本語音的一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定用戶說出文本的準(zhǔn)確性;以及輸出模塊,被配置為:向用戶輸出用于指出準(zhǔn)確性的反饋。
在一實(shí)施例中,所述系統(tǒng)還包括服務(wù)器,服務(wù)器包括通過網(wǎng)絡(luò)與包括顯示器、文本輸入設(shè)備和麥克風(fēng)的用戶設(shè)備進(jìn)行數(shù)據(jù)通信的上述處理器。也就是說,在所述實(shí)施例中,用戶具有用戶設(shè)備(例如,平板計(jì)算機(jī)、個(gè)人計(jì)算器或智能手機(jī)),其通過網(wǎng)絡(luò)(例如,因特網(wǎng))與主控處理器的服務(wù)器進(jìn)行數(shù)據(jù)通信且具有輸入和輸出功能。因此,用戶通過例如鍵入文本或?qū)碜晕奈募奈谋倦娮诱迟N到分配的文本框中來輸入將以指定語言說出的文本。文本通過網(wǎng)絡(luò)傳送到服務(wù)器,服務(wù)器將文本解析成句子,并通過網(wǎng)絡(luò)輸出要由用戶說出的第一個(gè)句子以顯示在用戶設(shè)備的顯示器上。用戶然后可以說出第一個(gè)句子,并且用戶說出的音頻由麥克風(fēng)接收并且被傳送到服務(wù)器而被處理,使得反饋可以經(jīng)由例如如上所述的用戶設(shè)備的顯示器確定和輸出。也就是說,用戶設(shè)備的顯示器還被配置為向用戶顯示反饋。
在另一實(shí)施例中,包括顯示器、文本輸入設(shè)備和麥克風(fēng)的用戶設(shè)備還包括處理器。因此,在本實(shí)施例中,所述處理可在用戶設(shè)備上本地執(zhí)行。
優(yōu)選地,處理模塊還被配置為將文本解析為一個(gè)或多個(gè)句子,并且輸出模塊還被配置為輸出用于使得用戶說出多個(gè)句子中的第一個(gè)句子的提示。此外,輸入模塊還被配置為接收用戶說出文本的多個(gè)句子中的第一個(gè)句子的音頻,并且輸出模塊還被配置為向用戶輸出用于指出用戶的一個(gè)或多個(gè)屬性的準(zhǔn)確性的反饋,所述一個(gè)或多個(gè)屬性對(duì)應(yīng)于文本中第一個(gè)句子的音頻的一個(gè)或多個(gè)預(yù)期屬性。
如在上面的一些實(shí)施例中所描述的,系統(tǒng)允許用戶生成文本以幫助用戶以指定語言改善他們的語音。文本被解析為句子,并且提示用戶一次說一個(gè)句子,使得用戶可以在每個(gè)句子的結(jié)尾處接收反饋。因此,在此情況下,輸出模塊還被配置成在向用戶輸出用以指出用戶說出第一句話的一個(gè)或多個(gè)屬性的準(zhǔn)確性的反饋之后,輸出用于使得用戶說出第二個(gè)句子的進(jìn)一步提示。
此外,處理模塊還被配置為生成文本的一個(gè)或多個(gè)句子的語法,并且所述提示包括多個(gè)句子中的第一個(gè)句子的文本。
在一實(shí)施例中,處理模塊還被配置為處理文本以導(dǎo)出指定語言文本的預(yù)期語音。在一實(shí)施例中,輸出模塊被配置為經(jīng)由用戶設(shè)備的揚(yáng)聲器輸出將被輸出到用戶的文本的預(yù)期語音。例如,處理模塊包括語音合成模塊,用于處理文本以導(dǎo)出預(yù)期語音,所述預(yù)期語音例如在用戶說話之后輸出給用戶,使得用戶可以比較并進(jìn)一步改善他們的語音。
在一實(shí)施例中,處理模塊還被配置為處理文本以導(dǎo)出文本中的預(yù)定禁止詞,以使禁止詞可被刪失。禁止詞存儲(chǔ)在可以位于配置在遠(yuǎn)程于處理器且可通過網(wǎng)絡(luò)訪問的服務(wù)器上或者可以位于本地的服務(wù)器。
根據(jù)本發(fā)明的另一方面,提供了當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)上述方法的計(jì)算器程序代碼。
根據(jù)本發(fā)明的另一方面,提供了一種包括上述程序代碼的有形計(jì)算器可讀介質(zhì)。
根據(jù)本發(fā)明的另一方面,提供了一種包括上述程序代碼的數(shù)據(jù)文件。
圖式的簡(jiǎn)要說明
為了能夠更清楚地理解本發(fā)明,現(xiàn)將實(shí)施例的示例與附圖一起描述,其中:
圖1是根據(jù)本發(fā)明實(shí)施例的在指定語言中輔助改善用戶語音的方法的流程圖;
圖2是根據(jù)本發(fā)明的實(shí)施例的用于在指定語言中輔助改善用戶語音的系統(tǒng)的示意圖;以及
圖3是圖2所示系統(tǒng)的另一示意圖,其示出了通過網(wǎng)絡(luò)與用戶設(shè)備通信的系統(tǒng)。
詳細(xì)說明
根據(jù)本發(fā)明的實(shí)施例,提供了一種如圖1所示的在指定語言中輔助改善用戶語音的方法10。方法10包括以下步驟,以指定語言或另一語言從用戶接收用戶將以指定語言說出的文本12,處理文本以導(dǎo)出指定語言文本的語音的一個(gè)或多個(gè)預(yù)期屬性14,接收用戶以指定語言說出文本的音頻16,處理音頻以導(dǎo)出用戶說出文本的一個(gè)或多個(gè)屬性18,比較用戶說出文本的一個(gè)或多個(gè)屬性與文本語音的一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定用戶說出文本的準(zhǔn)確性20,并且向用戶輸出用于指出準(zhǔn)確性的反饋22。
如上所述,文本語音的一個(gè)或多個(gè)預(yù)期屬性和用戶說出文本的屬性包括發(fā)音、流暢度和韻律特征中的至少一個(gè)。語音的韻律特征包括字詞的音節(jié)長(zhǎng)度、響度和音調(diào)的變化。因此,在一使用的示例中,輸入文本的預(yù)期語音的流暢度和發(fā)音是從文本導(dǎo)出,并且與從用戶說出文本的音頻導(dǎo)出的流暢度和發(fā)音進(jìn)行比較,以確定用戶說出文本的準(zhǔn)確性。然后將用戶語音的準(zhǔn)確性(在其在發(fā)音和流暢度方面)反饋給用戶,以幫助用戶改善他們指定語言(例如英語)的語音。
本發(fā)明的另一實(shí)施例提供了一種如圖2所示的系統(tǒng)24,其用于實(shí)現(xiàn)在指定語言中輔助改善用戶語音的方法10。系統(tǒng)24包括處理器26,其具有多個(gè)用于實(shí)現(xiàn)方法10的模塊。亦即,處理器26包括輸入模塊28、處理模塊30和輸出模塊32。處理器26和/或系統(tǒng)24的其它組件(例如存儲(chǔ)器52,圖3所示)被布置成通過例如網(wǎng)絡(luò)經(jīng)由通信通道34接收和發(fā)送信息。在本實(shí)施例中,處理器26由計(jì)算器來實(shí)現(xiàn),所述計(jì)算器通過通信信道34與包含在用戶設(shè)備38(圖3所示)的輸入設(shè)備和輸出設(shè)備通信。然而,如所描述的,存儲(chǔ)器52也可以配置在遠(yuǎn)程于處理器26且可通過網(wǎng)絡(luò)訪問的服務(wù)器上。在任何情況下,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,輸入28和輸出32模塊具有適當(dāng)接口,其用于與網(wǎng)絡(luò)、系統(tǒng)24中的模塊接口以及建立通信通道34。此外,還應(yīng)當(dāng)理解的是,輸入設(shè)備和輸出設(shè)備不需要包含在相同的用戶設(shè)備38中。例如,用戶將要說出的文本可以顯示在通過網(wǎng)絡(luò)與系統(tǒng)24通信的電視上,而音頻則由用戶使用通過網(wǎng)絡(luò)與系統(tǒng)24通信的智能電話來記錄。
如所描述的,在任何情況下,輸入模塊28被配置為從用戶接收以指定語言或另一種語言描述的文本,并接收用戶以指定語言說出文本的音頻。處理模塊30被配置為以使用例如語音識(shí)別算法處理文本以導(dǎo)出從輸入模塊28接收到的文本的語音的預(yù)期屬性(例如,流暢度),并處理從輸入模塊28接收的音頻以導(dǎo)出用戶說出文本的屬性。處理模塊30還用于將文本解析為一個(gè)或多個(gè)句子。也就是說,經(jīng)由處理模塊30順序地搜索文本中出現(xiàn)未引用的句子終止標(biāo)點(diǎn)符號(hào),例如句點(diǎn)、問號(hào)和驚嘆號(hào),輸入模塊28所接收到包括單詞集合的文本被解析為一個(gè)或多個(gè)句子。因此,在使用中,用戶可被提示說出所解析出多個(gè)句子中的第一個(gè)句子,并且通過輸入模塊28接收用戶說出文本中第一個(gè)句子的音頻,等等。
在一例子中,某一句子例如「他說,“我沒有做!”然后他繼續(xù)說話」被解析成單一個(gè)句子「他說,“我沒有做!”然后他繼續(xù)說話」。
但是,下面這個(gè)句子「他說,我沒有做!然后他繼續(xù)說話」則被解析成兩個(gè)句子。其一是「他說,我沒有做!」,其二是「然后他繼續(xù)說話」,以提示用戶說出這些句子。此外,一旦來自輸入文本的字詞集合已經(jīng)被解析為單個(gè)句子,則每個(gè)句子被轉(zhuǎn)換為與其預(yù)期屬性一致的語音識(shí)別語法。所述句子以視覺或聽覺方式呈現(xiàn)給用戶,然后提示用戶說出他或她所閱讀或聽到的內(nèi)容,并且用戶的口頭響應(yīng)從輸入模塊28傳遞到由處理模塊30實(shí)現(xiàn)的語音識(shí)別器與句子語法一同用于分析。
因此,處理模塊30將用戶說出文本的屬性與例如由語音識(shí)別供貨商提供的文本語音的預(yù)期屬性進(jìn)行比較,以確定與用戶說出文本相關(guān)的屬性的準(zhǔn)確性。輸出模塊32從處理模塊30接收所確定的精準(zhǔn)確性,并且向用戶輸出用于指出用戶說出文本的準(zhǔn)確性的反饋。
圖3示出了用于在指定語言中輔助改善用戶語音的系統(tǒng)36,其包括用于通過網(wǎng)絡(luò)40(例如因特網(wǎng))輸入和輸出信息到處理器26的用戶設(shè)備38。如所描述的,在圖中未示出的另一個(gè)實(shí)施例中,系統(tǒng)24可以是獨(dú)立的并且包括合適的組件以向處理器26輸入和輸出信息以實(shí)現(xiàn)方法10。盡管如此,處理器26在圖中例如以可通過因特網(wǎng)40訪問的服務(wù)器54實(shí)現(xiàn)來示出。處理器26和存儲(chǔ)器52還可以以例如具有虛擬服務(wù)器或跨多個(gè)實(shí)體服務(wù)器的云服務(wù)來實(shí)現(xiàn)。在一示例中,服務(wù)器54可經(jīng)由統(tǒng)一資源定位符(uniformresourcelocator,url)訪問,url可以嵌入在網(wǎng)站中供用戶經(jīng)由其用戶設(shè)備38訪問。在另一示例中,網(wǎng)絡(luò)40是局域網(wǎng)(localareanetwork,lan)且用戶設(shè)備38經(jīng)由例如wifi與服務(wù)器通信。
圖3所示的用戶設(shè)備38包括顯示器44,其被配置為向用戶顯示以指定語言或另一種語言描述的文本。在圖3中示出的示例中可以看出,顯示的文本是「喂joe,你在做什么」,并且用戶設(shè)備是具有觸摸屏或手勢(shì)讀取能力的平板計(jì)算器。如所描述的,其他用戶設(shè)備諸如智能電話和個(gè)人計(jì)算器亦可與系統(tǒng)36一起使用。
在一參考所述實(shí)施例的示例中,用戶經(jīng)由輸入設(shè)備46輸入文本「喂joe,你在做什么」作為學(xué)習(xí)英語時(shí)將要說出的文本的一部分,其中輸入設(shè)備46采用觸摸屏鍵盤的形式。一旦用戶完成文本的鍵入或粘貼來自另一文文件的文本,用戶就可以點(diǎn)擊“提交”按鈕(未示出),并通過因特網(wǎng)40將文本發(fā)送到服務(wù)器54。輸入的文本經(jīng)由因特網(wǎng)40通過通信通道42和34被發(fā)送到輸入模塊28,使得處理模塊30可以處理文本以導(dǎo)出文本語音的預(yù)期屬性。如上所述,處理模塊30將文本解析為將要顯示給用戶的句子,每次顯示一個(gè)要被用戶說出的句子,以便用戶在每個(gè)句子結(jié)束時(shí)接收用于指出用戶說出文本準(zhǔn)確性的反饋。此外,在一實(shí)施例中,處理模塊30將每個(gè)句子轉(zhuǎn)換為上下文無關(guān)的語法,其是由處理模塊30所采用用于分析用戶說出句子語音的目標(biāo)語音識(shí)別器所需的句法。也就是說,在本實(shí)施例中,語法代表著要傳達(dá)給語音識(shí)別器的文本所包裝的結(jié)構(gòu)。
在一參考相同實(shí)施例的示例中,文本「喂joe,你在做什么」經(jīng)由輸出模塊32被輸出回用戶設(shè)備38,并且作為提示用戶要說出的第一個(gè)句子顯示在顯示器44上。也就是說,所述提示包括用戶要說出的第一個(gè)句子的文本。麥克風(fēng)48用于記錄用戶說出所述句子,并且用戶說出所述句子的音頻經(jīng)由因特網(wǎng)40被發(fā)送到輸入模塊28,使得處理模塊30可以處理音頻以導(dǎo)出用戶說出所述句子的屬性。處理模塊30然后將音頻導(dǎo)出的屬性與預(yù)期屬性進(jìn)行比較,經(jīng)由目標(biāo)語音識(shí)別器算法來確定用戶說出文本的準(zhǔn)確性。
輸出模塊32然后將由處理模塊30確定的用于指出準(zhǔn)確性的反饋經(jīng)由因特網(wǎng)40輸出到用戶,所述反饋可以是要在顯示器44上顯示的顏色,以指出所確定準(zhǔn)確性的置信度值的不同水平。如所描述的,綠色用于指出與精確度為高精確度(例如80%以上匹配)相關(guān)聯(lián)的置信度值。在另一示例中,輸出模塊32以語音形式經(jīng)由用戶設(shè)備38的揚(yáng)聲器50向用戶輸出由處理模塊30所確定且用于指出用戶說出文本的準(zhǔn)確性的反饋。例如,當(dāng)處理模塊30確定置信度值大于80%時(shí),揚(yáng)聲器50輸出的語音反饋“高度準(zhǔn)確”狀態(tài)。如所描述的,顯示器44還可以被配置為顯示用于指出所確定的準(zhǔn)確性的置信度值的不同水平的其它協(xié)議,諸如數(shù)字和字母等級(jí)。此外,在一實(shí)施例中,處理模塊30包括語音合成算法,并且此處輸出模塊32可以被配置為將要從揚(yáng)聲器50輸出的文本的合成期望語音輸出給用戶,以進(jìn)一步輔助用戶改善他們的語音。
在輸出反饋之后,輸出模塊32還被配置為輸出由用戶輸入的文本且由處理模塊30解析出的下一個(gè)句子(未示出),以作為使用戶說出第二個(gè)句子的進(jìn)一步提示。包括第二個(gè)句子文本的提示也顯示在顯示器44上,并且麥克風(fēng)48用于記錄用戶說出所述句子。與第一個(gè)句子一樣,用戶說出第二個(gè)句子的音頻被發(fā)送到輸入模塊28,使得處理模塊30可以處理音頻以導(dǎo)出用戶說出文本的屬性。處理模塊30然后將音頻所導(dǎo)出的屬性與預(yù)期屬性進(jìn)行比較以確定用戶說出文本的準(zhǔn)確性,并且輸出模塊32向用戶輸出反饋,其可以是要在顯示器44上顯示的顏色,以指示處理模塊30所確定的準(zhǔn)確性。輸出模塊然后輸出下一個(gè)句子并重復(fù)所述過程,直到從用戶輸入的文本中解析的所有句子被用戶說出或者用戶提早終止所述過程。
如所描述的,存儲(chǔ)器52可以用于記錄用戶以指定語言說出文本的音頻。因?yàn)榭梢酝ㄟ^對(duì)用戶說話記錄的分析來確定文本的預(yù)期發(fā)音文本,因此,處理模塊30可以進(jìn)一步處理記錄在存儲(chǔ)器52中的音頻,以導(dǎo)出和細(xì)化文本語音的一個(gè)或多個(gè)預(yù)期屬性。此外,所記錄的語音與相關(guān)聯(lián)用于指出特定用戶的數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器52中,以使得記錄可被檢索以供之后的分析,諸如用于指出特定用戶他們?cè)谡Z言學(xué)習(xí)中的進(jìn)展。本領(lǐng)域技術(shù)人員還將理解的是,所述方法和系統(tǒng)可以用于希望改進(jìn)其他語言(諸如法語、漢語、日語等)的用戶。
根據(jù)對(duì)系統(tǒng)的以上描述,所述方法的其它方面將是顯而易見的。本領(lǐng)域技術(shù)人員還將理解的是,所述方法可以體現(xiàn)在程序代碼中。程序代碼可以以多種方式提供,例如在諸如磁盤或存儲(chǔ)器的有形計(jì)算器可讀介質(zhì)上或者作為數(shù)據(jù)信號(hào)或數(shù)據(jù)文件。
本發(fā)明領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解的是,在不脫離本發(fā)明的精神和范圍的情況下本發(fā)明可進(jìn)行改變,添加和/或修改。
應(yīng)當(dāng)理解的是,如果本發(fā)明在此引用任何現(xiàn)有技術(shù),則這樣的引用不構(gòu)成承認(rèn)現(xiàn)有技術(shù)形成任何國家的本領(lǐng)域的公知常識(shí)的一部分。
本發(fā)明可以用作關(guān)于一個(gè)或多個(gè)未來應(yīng)用的優(yōu)先級(jí)的基礎(chǔ),并且這些未來應(yīng)用的權(quán)利要求可以是本申請(qǐng)中描述的任何一個(gè)特征或特征的組合。因此,未來應(yīng)用包括以下權(quán)利要求中的一個(gè)或多個(gè),其通過示例給出并且關(guān)于任何未來的應(yīng)用中可以要求保護(hù)的內(nèi)容是非限制性的。
權(quán)利要求書(按照條約第19條的修改)
1.一種在指定語言中輔助改善用戶語音的方法,所述方法包括:
以所述指定語言或另一語言從所述用戶接收所述用戶將以所述指定語言說出的文本;
處理所述文本以導(dǎo)出所述指定語言中的所述文本的語音的一個(gè)或多個(gè)預(yù)期屬性;
接收所述用戶以所述指定語言說出的所述文本的音頻;
處理所述音頻以導(dǎo)出所述用戶說出所述文本的一個(gè)或多個(gè)屬性;
比較所述用戶說出所述文本的所述一個(gè)或多個(gè)屬性與所述文本的語音的所述一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定所述用戶說出所述文本的準(zhǔn)確性;以及
向所述用戶輸出用于指出所述準(zhǔn)確性的反饋,其中所述方法還包括:
將所述文本解析成要將由所述用戶說出的一個(gè)或多個(gè)句子或字詞片段;
接收所述用戶說出所述文本中第一個(gè)句子或片段的音頻;以及
向所述用戶輸出用于指出所述用戶說出所述句子或字詞片段的準(zhǔn)確性的所述反饋。
2.如權(quán)利要求2所述的方法,還包括輸出用于使所述用戶說出所述句子或所述片段中的第一個(gè)的提示,以及接收所述用戶說出所述文本中第一個(gè)句子或片段的音頻。
3.如權(quán)利要求2所述的方法,還包括向所述用戶輸出反饋,所述反饋用于指出所述用戶說出所述文本中第一個(gè)句子或片段。
4.如權(quán)利要求3所述的方法,還包括在向所述用戶輸出所述用戶說出所述文本中第一個(gè)句子或片段的準(zhǔn)確性的反饋之后,輸出用于使所述用戶說出所述文本中第二個(gè)句子或片段的提示。
5.如權(quán)利要求2所述的方法,其中,所述提示包括要在用戶設(shè)備的顯示器上向所述用戶顯示的第一個(gè)句子或片段的文本。
6.如權(quán)利要求1所述的方法,還包括生成所述文本的所述一個(gè)或多個(gè)句子的語法。
7.如權(quán)利要求1至6中任一項(xiàng)所述的方法,還包括處理所述文本以導(dǎo)出所述指定語言的所述文本的合成預(yù)期語音。
8.如權(quán)利要求7所述的方法,還包括經(jīng)由用戶設(shè)備的揚(yáng)聲器輸出所述文本的合成預(yù)期語音至所述用戶。
9.如權(quán)利要求1至8中任一項(xiàng)所述的方法,其中,所述準(zhǔn)確性包括多于一個(gè)的置信度值,其與對(duì)應(yīng)于所述文本語音的一個(gè)或多個(gè)預(yù)期屬性的所述用戶說出所述文本的一個(gè)或多個(gè)屬性的準(zhǔn)確性相關(guān)聯(lián)。
10.如權(quán)利要求9所述的方法,其中,所述反饋包括顏色,用于指出所述準(zhǔn)確性的不同置信度值。
11.如權(quán)利要求1至10中任一項(xiàng)所述的方法,還包括處理所述文本以導(dǎo)出所述文本中的預(yù)定禁止詞,以使所述禁止詞可被刪失。
12.如權(quán)利要求1至11中任一項(xiàng)所述的方法,其中,所述文本語音的一個(gè)或多個(gè)預(yù)期屬性和所述用戶說出文本的一個(gè)或多個(gè)屬性包括發(fā)音、流暢度和韻律中的至少一個(gè)特征。
13.如權(quán)利要求1至12中任一項(xiàng)所述的方法,還包括處理所述音頻以使用語音識(shí)別算法導(dǎo)出所述用戶說出所述文本的所述一個(gè)或多個(gè)屬性。
14.如權(quán)利要求1至13中任一項(xiàng)所述的方法,還包括處理所述文本以使用語音合成算法導(dǎo)出所述文本的所述一個(gè)或多個(gè)預(yù)期屬性。
15.一種用于在指定語言中輔助改善用戶語音的系統(tǒng),所述系統(tǒng)包括處理器,所述處理器具有:
輸入模塊,被配置為:
以所述指定語言或另一語言從所述用戶接收所述用戶將以所述指定語言說出的文本;以及
接收所述用戶以所述指定語言說出的所述文本的音頻;
處理模塊,被配置為:
處理所述文本以導(dǎo)出所述指定語言中的所述文本的語音的一個(gè)或多個(gè)預(yù)期屬性;
處理所述音頻以導(dǎo)出所述用戶說出所述文本的一個(gè)或多個(gè)屬性;以及
比較所述用戶說出所述文本的所述一個(gè)或多個(gè)屬性與所述文本的語音的所述一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定所述用戶說出所述文本的準(zhǔn)確性;以及
輸出模塊,被配置為向所述用戶輸出用于指出所述準(zhǔn)確性的反饋,其中
所述處理模塊還被配置為將所述文本解析成一個(gè)或多個(gè)句子或字詞片段;
所述輸入模塊還被配置為接收所述用戶說出所述文本的一個(gè)或多個(gè)句子或字詞片段的音頻;以及
所述輸出模塊還被配置為向所述用戶輸出用于指出所述用戶說出所述句子或字詞片段的準(zhǔn)確性的所述反饋。
16.如權(quán)利要求15所述的系統(tǒng),其中,所述輸出模塊還被配置為輸出用于使所述用戶說出所述句子或所述片段中的第一個(gè)的提示。
17.如權(quán)利要求16所述的系統(tǒng),其中,所述輸入模塊還被配置為接收所述用戶說出所述文本中第一個(gè)句子或片段的音頻。
18.如權(quán)利要求17所述的系統(tǒng),其中,所述輸出模塊還被配置為向所述用戶輸出反饋,所述反饋用于指出所述用戶說出所述文本中第一個(gè)句子或片段的準(zhǔn)確性。
19.如權(quán)利要求18所述的系統(tǒng),其中,所述輸出模塊還被配置為在向所述用戶輸出所述用戶說出所述文本中第一個(gè)句子或片段的準(zhǔn)確性的反饋之后,輸出用于使所述用戶說出所述文本中第二個(gè)句子或片段的提示。
20.如權(quán)利要求16所述的系統(tǒng),其中,所述提示包括要在用戶設(shè)備的顯示器上向所述用戶顯示的第一個(gè)句子或片段的文本。
21.如權(quán)利要求15所述的系統(tǒng),其中所述處理模塊還被配置為生成所述文本的語音識(shí)別語法。
22.如權(quán)利要求15至21中任一項(xiàng)所述的系統(tǒng),其中所述處理模塊還被配置為處理所述文本以導(dǎo)出所述指定語言的文本的合成期望語音。
23.如權(quán)利要求22所述的系統(tǒng),其中所述輸出模塊還被配置為經(jīng)由用戶設(shè)備的揚(yáng)聲器輸出所述文本的合成預(yù)期語音至所述用戶。
24.如權(quán)利要求15至23中任一項(xiàng)所述的系統(tǒng),其中,所述準(zhǔn)確性包括多于一個(gè)的置信度值,其與對(duì)應(yīng)于所述文本語音的一個(gè)或多個(gè)預(yù)期屬性的所述用戶說出所述文本的一個(gè)或多個(gè)屬性的準(zhǔn)確性相關(guān)聯(lián)。
25.如權(quán)利要求24所述的系統(tǒng),其中,所述反饋包括顏色,用于指出所述準(zhǔn)確性的不同置信度值。
26.如權(quán)利要求15至25中任一項(xiàng)所述的系統(tǒng),其中所述處理模塊還被配置為處理所述文本以導(dǎo)出所述文本中的預(yù)定禁止詞,以使所述禁止詞可被刪失。
27.如權(quán)利要求15至26中任一項(xiàng)所述的系統(tǒng),其中,所述系統(tǒng)還包括存儲(chǔ)器,其用于記錄所述用戶說出所述文本的音頻。
28.如權(quán)利要求27所述的系統(tǒng),其中,所述處理模塊還被配置為處理記錄于所述存儲(chǔ)器中的音頻,以導(dǎo)出所述文本的語音的一個(gè)或多個(gè)預(yù)期屬性。
29.如權(quán)利要求15至28中任一項(xiàng)所述的系統(tǒng),其中,所述文本語音的一個(gè)或多個(gè)預(yù)期屬性和所述用戶說出文本的一個(gè)或多個(gè)屬性包括發(fā)音、流暢度和韻律中的至少一個(gè)特征。
30.一種用于在指定語言中輔助改善用戶語音的系統(tǒng),所述系統(tǒng)包括:
顯示器,被配置為以所指定的語言或以另一語言顯示文本;
文本輸入設(shè)備,被配置為以所述指定語言或另一語言從所述用戶輸入所述用戶將以所述指定語言說出的文本;
麥克風(fēng),被配置為輸入所述用戶以所述指定語言說出的所述文本的音頻;以及
處理器,所述處理器具有:
輸入模塊,被配置為:
以所述指定語言或另一語言從所述用戶接收所述用戶將以所述指定語言說出的文本;以及
接收所述用戶以所述指定語言說出的所述文本的音頻;
處理模塊,被配置為:
處理所述文本以導(dǎo)出所述指定語言中的所述文本的語音的一個(gè)或多個(gè)預(yù)期屬性;
處理所述音頻以導(dǎo)出所述用戶說出所述文本的一個(gè)或多個(gè)屬性;以及
比較所述用戶說出所述文本的所述一個(gè)或多個(gè)屬性與所述文本的語音的所述一個(gè)或多個(gè)預(yù)期屬性中的對(duì)應(yīng)屬性,以確定所述用戶說出所述文本的準(zhǔn)確性;以及
輸出模塊,被配置為向所述用戶輸出用于指出所述準(zhǔn)確性的反饋,其中
所述處理模塊還被配置為將所述文本解析成一個(gè)或多個(gè)句子或字詞片段;
所述輸入模塊還被配置為接收所述用戶說出所述文本的一個(gè)或多個(gè)句子或字詞片段的音頻;以及
所述輸出模塊還被配置為向所述用戶輸出用于指出所述用戶說出所述句子或字詞片段的準(zhǔn)確性的所述反饋。
31.如權(quán)利要求30所述的系統(tǒng),其中,所述顯示器還被配置為向所述用戶顯示所述反饋。
32.如權(quán)利要求31所述的系統(tǒng),還包括服務(wù)器,所述服務(wù)器包括所述處理器,所述處理器通過網(wǎng)絡(luò)與包括所述顯示器,所述文本輸入設(shè)備和所述麥克風(fēng)的用戶設(shè)備進(jìn)行數(shù)據(jù)通信。
33.一種計(jì)算器程序代碼,當(dāng)被執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)權(quán)利要求1至14中任一項(xiàng)所述的方法。
34.一種包括如權(quán)利要求33所述的程序代碼的有形計(jì)算器可讀介質(zhì)。
35.一種包括權(quán)利要求33所述的程序代碼的數(shù)據(jù)文件。