專利名稱:日文及中文語音識別訓(xùn)練的動態(tài)發(fā)音支持的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及圖形識別。本發(fā)明特別涉及對訓(xùn)練現(xiàn)代語音識別系統(tǒng)的改進(jìn)。
(2)背景技術(shù)通常訓(xùn)練語音識別系統(tǒng)是為了提高其識別口語的能力。在訓(xùn)練的過程中,訓(xùn)練者將會給語音識別系統(tǒng)讀或者提供相當(dāng)大數(shù)量的語音。提供給系統(tǒng)的語音是已知的,因而訓(xùn)練者的已知語音說話方式可以用來調(diào)節(jié)用于語音識別的數(shù)學(xué)模式以提高準(zhǔn)確度。通常在訓(xùn)練中提供給語音識別系統(tǒng)的語音越多接下來的語音識別就越準(zhǔn)確。
因此,訓(xùn)練語音識別系統(tǒng)的過程將需要一段時間。在聲模型訓(xùn)練過程中能讓訓(xùn)練者盡可能長久感覺舒適是很重要的。遠(yuǎn)東的語言,諸如日語及國語在這方面尤其需要努力?,F(xiàn)代日文象中文一樣是大量用漢字書寫系統(tǒng)慢慢書寫的。漢字(或中文字)為代表發(fā)音和含義的象形文字,有時會給使用者帶來發(fā)音的問題。發(fā)展出稱作盧比(rubi)(日文的假名,中文的拼音)的發(fā)音輔助為此目的提供發(fā)音標(biāo)識。現(xiàn)在,在用于以漢字為基礎(chǔ)的語言的語音識別訓(xùn)練中,一給定單詞的盧比顯示在每一語音訓(xùn)練需要的單詞上顯示給定單詞的盧比。因此,同時顯示出給訓(xùn)練者讀的語音及相關(guān)的盧比就會比較雜亂。另外,相信顯示出每一個單詞的盧比實(shí)際上會惹惱那些在訓(xùn)練期間知道絕大部分單詞發(fā)音的訓(xùn)練者。
提供在幫助中文及日文字發(fā)音的同時簡化訓(xùn)練顯示并不惹惱訓(xùn)練者的語音識別訓(xùn)練對話將為用于諸如中文及日文的以漢字為基礎(chǔ)的語言的語音識別訓(xùn)練帶來重大的進(jìn)步。另外,這樣一個系統(tǒng)將會提高訓(xùn)練者更長時間更準(zhǔn)確地訓(xùn)練的能力,籍此提高語音系統(tǒng)的整體語音識別。經(jīng)提高的識別將進(jìn)一步改善用戶對語音識別系統(tǒng)的整體印象。
(3)發(fā)明內(nèi)容提供一種用于以漢字為基礎(chǔ)的語言的語音識別訓(xùn)練系統(tǒng)。該系統(tǒng)載有訓(xùn)練語音中為每一象形文字提供的發(fā)音幫助,但實(shí)際上并不顯示出象形文字,除非訓(xùn)練系統(tǒng)識別出一發(fā)音困難。一旦識別出發(fā)音困難,則顯示出與遇到問題的象形文字相關(guān)的發(fā)音幫助(盧比)。
(4)
圖1為可實(shí)施的本發(fā)明的計(jì)算環(huán)境的方框圖。
圖2可實(shí)施本發(fā)明的另一計(jì)算環(huán)境的方框圖。
圖3為已有技術(shù)的語音識別訓(xùn)練用戶接口的簡圖。
圖4為本發(fā)明一實(shí)施例的語音識別訓(xùn)練用戶接口的簡圖。
圖5為本發(fā)明一實(shí)施例的語音識別訓(xùn)練用戶接口的簡圖。
圖6為本發(fā)明一實(shí)施例的語音訓(xùn)練中有選擇地幫助發(fā)音的方法的方框圖。
(5)具體實(shí)施方式
圖1示出可實(shí)施本發(fā)明的合適的計(jì)算系統(tǒng)環(huán)境100的例子。該計(jì)算系統(tǒng)環(huán)境100僅僅是合適的計(jì)算環(huán)境的例子而并不意味著對本發(fā)明的使用范圍或功能性的任何限定。計(jì)算環(huán)境100不能被解釋成或?qū)τ谑纠牟僮鳝h(huán)境100中示出的任一元件或其組合存在依賴性或條件。
本發(fā)明是與眾多其它通用或特殊用途計(jì)算系統(tǒng)環(huán)境或結(jié)構(gòu)一起操作的??膳c本發(fā)明一起使用的已知計(jì)算系統(tǒng)、環(huán)境、和/或結(jié)構(gòu)的例子包括但不限于個人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手提或膝上裝置、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)個人計(jì)算機(jī)、微型計(jì)算機(jī)、大型計(jì)算機(jī)、電話技術(shù)系統(tǒng)、包含任何以上系統(tǒng)或裝置的分布式的計(jì)算環(huán)境、等等。
可以在可執(zhí)行計(jì)算機(jī)命令(例如由計(jì)算機(jī)執(zhí)行的程序模塊)的總的環(huán)境中描述本發(fā)明。程序模塊一般包含例行程序、程序、對象、部件、數(shù)據(jù)結(jié)構(gòu)、等等執(zhí)行特殊任務(wù)或?qū)嵤┨貏e的抽象的數(shù)據(jù)類型。本發(fā)明也可實(shí)施于任務(wù)由通過通信網(wǎng)絡(luò)連接的遠(yuǎn)端處理裝置執(zhí)行的分布式計(jì)算環(huán)境。在一分布式計(jì)算環(huán)境中,程序模塊可以處在本地的和遠(yuǎn)端的包含存儲裝置的遠(yuǎn)端計(jì)算機(jī)存儲媒體中。
圖1示出一實(shí)施本發(fā)明的包括以計(jì)算機(jī)110形式出現(xiàn)的通用計(jì)算裝置的示例系統(tǒng)。計(jì)算機(jī)110的元件可包括但不限于中央處理單元120、系統(tǒng)存儲器130、將包括系統(tǒng)存儲器的多種系統(tǒng)元件耦合到處理單元120的系統(tǒng)總線121。
所述系統(tǒng)總線121可以是幾種總線結(jié)構(gòu)中的任一種,包含存儲器總線或存儲器控制裝置、外圍總線和使用多種總線結(jié)構(gòu)中任一種的本地總線。作為示例而非限定,這些結(jié)構(gòu)包含工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)本地總線和周邊元件互連接口(PCI)總線也稱夾層總線。
計(jì)算機(jī)110通常包含多種計(jì)算機(jī)可讀媒體。計(jì)算機(jī)可讀媒體可以是可以由計(jì)算機(jī)110存取的任何媒體并包含易失性和非易失性媒體、可換及不可換媒體。作為示例而非限定,計(jì)算機(jī)可讀媒體可包括計(jì)算機(jī)存儲媒體和通信媒體。計(jì)算機(jī)存儲媒體包含實(shí)施于任何用于存儲諸如計(jì)算機(jī)可讀命令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息存儲的方法或技術(shù)的易失性和非易失性媒體、可換及不可換媒體。計(jì)算機(jī)存儲媒體包含但不限于RAM、ROM、EEPROM、閃速存儲器或其它存儲器技術(shù)、CD-ROM、數(shù)字通用光盤或其它光盤存儲、磁帶盒、磁帶、磁盤存儲器或其它磁存儲裝置或其它任何一種可用于存儲所需信息并可由計(jì)算機(jī)110存取的媒體。通信媒體通常實(shí)施計(jì)算機(jī)可讀命令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或經(jīng)調(diào)制的數(shù)據(jù)信號中的其它數(shù)據(jù),例如載波或其它傳輸機(jī)制并包含任何信息傳送媒體。經(jīng)調(diào)制的數(shù)據(jù)信號的意思是一個信號的一個或多個特性被以信號中信息編碼的方式調(diào)整或改變。作為示例而非限定,通信媒體包含諸如有線網(wǎng)絡(luò)或直接有線連接的有線媒體和諸如聲波、RF、紅外線的無線媒體和其它無線媒體。上述的組合也應(yīng)包括在計(jì)算機(jī)可讀媒體的范圍內(nèi)。
系統(tǒng)存儲器130包含以諸如只讀存儲器(ROM)131和隨機(jī)存取存儲器(RAM)132的易失和/或非易失性存儲器形式出現(xiàn)的存儲媒體。通常在ROM131存儲包含例如啟動時幫助在計(jì)算機(jī)110中的元件間傳送信息的基本例行程序的基本輸入/輸出系統(tǒng)133(BIOS)包含。RAM132通常包含可立即存取并且/或者當(dāng)前由處理單元120操作的數(shù)據(jù)和/或程序模塊。作為示例而非限定,圖1示出操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110也可包含其它可換/不可換、易失性/非易失性計(jì)算機(jī)存儲媒體。僅作為示例,圖1示出讀取或?qū)懭氩豢蓳Q、非易失性磁媒體的硬盤驅(qū)動器141,讀取或?qū)懭肟蓳Q、非易失性磁盤152的磁盤驅(qū)動器151、讀取或?qū)懭肟蓳Q、非易失性磁盤156(例如CD ROM或其它光學(xué)媒體)的光盤驅(qū)動器155,。其它可用于示例的操作環(huán)境的可換/不可換、易失性/非易失性計(jì)算機(jī)存儲媒體包含但不限于磁帶盒、閃速存儲卡、數(shù)字通用光盤、數(shù)字視頻帶、固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器141通常通過一個諸如接口140的不可換存儲接口連接到系統(tǒng)總線121,硬盤驅(qū)動器151和光盤驅(qū)動器155通常通過諸如接口150的可換存儲接口連接到系統(tǒng)總線121。
以上討論的及圖1示出的驅(qū)動器及與其相聯(lián)系的計(jì)算機(jī)存儲媒體提供了計(jì)算機(jī)可讀命令的存儲、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計(jì)算機(jī)110的其它數(shù)據(jù)。例如在圖1中硬盤驅(qū)動器141圖示為存儲操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146及程序數(shù)據(jù)147。注意這些元件既可與操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136及程序數(shù)據(jù)137相同也可與之不同。這里將操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146及程序數(shù)據(jù)147標(biāo)以不同的號碼是為了表示它們至少是不同的版本。
用戶可以通過諸如鍵盤162、麥克風(fēng)163的輸入裝置和諸如鼠標(biāo)跟蹤球或觸摸板的點(diǎn)擊設(shè)備將命令和信息輸入計(jì)算機(jī)110。其它輸入裝置(未示出)可包含操縱桿、游戲盤、圓盤式衛(wèi)星電視天線、掃描儀等等。這些及其它輸入裝置常常通過耦合至系統(tǒng)總線的用戶輸入接口160連接到處理單元120,但可以由其它接口或諸如并行端口、游戲端口或通用串行總線(USB)的總線結(jié)構(gòu)連接。監(jiān)視器191或其它類型的顯示裝置也經(jīng)過諸如視頻接口190的接口連接至系統(tǒng)總線121。除了監(jiān)視器之外,計(jì)算機(jī)還可包含其它諸如揚(yáng)聲器197、打印機(jī)196的可通過輸出外圍接口190連接的外圍輸出設(shè)備。
計(jì)算機(jī)110可在一個使用到對一個或多個諸如遠(yuǎn)端計(jì)算機(jī)180的遠(yuǎn)端計(jì)算機(jī)邏輯連接的聯(lián)網(wǎng)環(huán)境中操作。遠(yuǎn)端計(jì)算機(jī)180可以是個人計(jì)算機(jī)、手提裝置、服務(wù)器、路由器、PC網(wǎng)絡(luò)、同級設(shè)備或其它常用網(wǎng)絡(luò)節(jié)點(diǎn)并通常包含許多或所有以上對計(jì)算機(jī)110說明的元件。圖1所示的邏輯連接包含局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也包含其它網(wǎng)絡(luò)。這些網(wǎng)絡(luò)環(huán)境在辦公室、企業(yè)范圍網(wǎng)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和互聯(lián)網(wǎng)中是很平常的。
在用于局域網(wǎng)聯(lián)網(wǎng)環(huán)境時,計(jì)算機(jī)110由網(wǎng)絡(luò)接口或路由器170連接至局域網(wǎng)170。在用于廣域網(wǎng)聯(lián)網(wǎng)環(huán)境時,計(jì)算機(jī)110通常包含調(diào)制解調(diào)器172或其它用于在諸如互聯(lián)網(wǎng)絡(luò)的廣域網(wǎng)173上建立通信的裝置。調(diào)制解調(diào)器172可以是內(nèi)置的或外置的,可以通過用戶輸入接口160或其它適合的機(jī)構(gòu)與系統(tǒng)總線121相連。在聯(lián)網(wǎng)環(huán)境中,以上描述的與計(jì)算機(jī)110相關(guān)的程序模塊或其一部分可以存儲在遠(yuǎn)端存儲裝置。作為示例而非限定,圖1示出位于遠(yuǎn)端計(jì)算機(jī)180上的遠(yuǎn)端應(yīng)用程序185。可以理解圖示的網(wǎng)絡(luò)連接是示例,還可以使用建立計(jì)算機(jī)間通信連接的其它手段。
圖2為移動裝置200的方框圖,它是計(jì)算環(huán)境的示例。移動裝置200包含微處理器202、存儲器204、輸入/輸出(I/O)元件206和用于與遠(yuǎn)端計(jì)算機(jī)或其它移動裝置通信的通信接口208。在一個實(shí)施例中,上述元件之間通過合適的總線210互相耦合。
存儲器204是作為諸如帶有電池備份模塊(未示出)的隨機(jī)存取存儲器(RAM)這樣的非易失性電子存儲器實(shí)現(xiàn)的,該模塊使向移動裝置200供電的總電源關(guān)閉時存在存儲器204中的信息就不會丟失。存儲器204的一部分最好分配成用于執(zhí)行程序的可尋址的存儲器而存儲器204的另一部分最好用于存儲以模擬盤驅(qū)動器上的存儲。
存儲器204包括操作系統(tǒng)212、應(yīng)用程序214及目標(biāo)存儲216。在操作中,最好處理器202從存儲器204執(zhí)行操作系統(tǒng)212。在一較佳實(shí)施例中,操作系統(tǒng)212是市場上可從微軟公司購得的WINDOWCE牌操作系統(tǒng)。操作系統(tǒng)最好是為移動裝置設(shè)計(jì)的,并且實(shí)現(xiàn)應(yīng)用程序214可通過一套外露應(yīng)用編程接口和方法由利用的數(shù)據(jù)庫特性。目標(biāo)存儲216中的目標(biāo)由應(yīng)用程序214及操作系統(tǒng)212維護(hù),至少部分響應(yīng)對外露應(yīng)用編程接口和方法的調(diào)用。
通信接口208代表允許移動裝置200發(fā)送和接收信息的眾多裝置和技術(shù)。這些裝置包括有線和無線調(diào)制解調(diào)器、衛(wèi)星接收器、廣播調(diào)諧器等等。移動裝置200也可直接連接至計(jì)算機(jī)以與之交換數(shù)據(jù)。在這些例子中,通信接口208可以是紅外線接收器或串行或并行通信連接,它們都可以傳送流信息。
輸入/輸出元件206包括諸如觸摸屏、按鍵和麥克風(fēng)的多種輸入裝置和包含聲音發(fā)生器、振動裝置和顯示器的多種輸出裝置。上面列出的裝置只是示例不需要都出現(xiàn)在移動裝置200上。另外,在本發(fā)明的范圍內(nèi)其它輸入/輸出裝置可以附加在移動裝置200上或在該裝置上找到。
本發(fā)明的一個方面使用了用戶接口元件,它只動態(tài)顯示訓(xùn)練者發(fā)音有困難的字的盧比。這一新UI元件204為日本及中國用戶提供更友好更舒適的訓(xùn)練對話。圖3示出了根據(jù)已有技術(shù)的用戶接口元件。以前,在顯示一個句子給訓(xùn)練者讀之前,提示文件顯示用戶接口模塊230為所有字準(zhǔn)備盧比232然后將所有盧比232與整個句子一同顯示。接著已有技術(shù)用戶接口元件230等待來自語音識別引擎的通知,以加亮說出的字,顯示進(jìn)展,并在檢測到任何拒絕或不成熟的長時間停頓時重新造出新的免去上下文的語法以繼續(xù)適應(yīng)句子的其余部分。
根據(jù)本發(fā)明的一個主要的方面,用戶接口模塊240準(zhǔn)備盧比但并不顯示任何盧比。這樣,訓(xùn)練者在他們開始每一頁新的訓(xùn)練文本的時只看見句子本身。圖4示出狀況。隨著用戶接口模塊240繼續(xù)處理該句子,模塊240在每觀察到一個發(fā)音困難(語音識別拒絕或長時間停頓標(biāo)識)時就會在離困難字最近處顯示盧比。模塊240最好包含用于顯示一定數(shù)量訓(xùn)練文本的訓(xùn)練文本部分244。模塊240也包括用于接收來自語音識別引擎248的通知的通信通道246。以前,語音識別引擎只會簡單地提供一個經(jīng)識別的字的指示,使訓(xùn)練者適時地得到提示以繼續(xù)讀下去。然而,模塊240使用具有識別引擎248的通信通道來接收發(fā)音困難的通知。作為響應(yīng),模塊240有選擇地在訓(xùn)練者遇到發(fā)音困難的字上顯示盧比。因此,完全有可能如果訓(xùn)練者能無任何發(fā)音困難地讀出所有文本則顯示可以不被盧比干擾或中斷。相信這樣將為訓(xùn)練者提供最簡單最有效的語音訓(xùn)練顯示。
圖5示出訓(xùn)練者在語音訓(xùn)練中遇到發(fā)音困難的情形。用戶接口模塊240按需要顯示盧比。在這種情形下,訓(xùn)練者不知道字的正確發(fā)音,因此語音識別引擎生成一拒絕通知并由用戶接口模塊240接收。現(xiàn)在用戶接口模塊240以指出困難字的發(fā)音并使訓(xùn)練者可繼續(xù)的方式將該字的盧比242仔細(xì)地顯示出來。
圖6為根據(jù)本發(fā)明的一個方面的有選擇地顯示以漢字為基礎(chǔ)的訓(xùn)練文本的方法的流程圖。盡管在方框300訓(xùn)練文本的所有盧比都加載到系統(tǒng)存儲器,在方框300中用戶接口模塊一開始將不顯示盧比。在方框302語音識別檢測到一發(fā)音困難。例如這種困難包括停頓或錯誤發(fā)音。然而,根據(jù)本發(fā)明的實(shí)施例也可以使用其它合適的可檢測的發(fā)音困難。
在方框302語音識別模塊(未示出)將檢測到的發(fā)音困難通知用戶接口模塊240。隨后將控制傳遞到方框304,在那里用戶接口模塊確定訓(xùn)練者是否已完成訓(xùn)練頁。如果訓(xùn)練頁已經(jīng)完成,控制沿路線306傳遞且該頁的訓(xùn)練完成。然而,如沿路線308所示如果該頁還沒有由訓(xùn)練者完成,就如方框310指示的那樣用戶接口模塊將為訓(xùn)練文本中的下一個字顯示盧比。一旦顯示了盧比,控制返回至方框302且重復(fù)該方法。
盡管參照了特殊的實(shí)施例來描述本發(fā)明,本技術(shù)領(lǐng)域的技術(shù)人員將認(rèn)識到可不偏離本發(fā)明的精神和范圍地作對形式和細(xì)節(jié)上的改變。例如雖然原文中所述的發(fā)音幫助是廣本(盧比),也可以動態(tài)地提供諸如正確發(fā)音的錄音的其它合適的發(fā)音幫助。
權(quán)利要求
1.用于語音識別訓(xùn)練的用戶接口模塊,其特征在于,該模塊包含一用于顯示訓(xùn)練文本的訓(xùn)練文本部分;一從與訓(xùn)練文本中困難詞相關(guān)的語音識別引擎接收發(fā)音困難指示的可與語音識別引擎相耦合的通信通道;一配置成響應(yīng)發(fā)音困難指示幫助困難詞發(fā)音的有選擇地顯示的發(fā)音幫助。
2.如權(quán)利要求1所述的模塊,其特征在于,所述有選擇的發(fā)音幫助為盧比。
3.如權(quán)利要求1所述的模塊,其特征在于,所述訓(xùn)練文本包含至少一個象形文字。
4.如權(quán)利要求3所述的模塊,其特征在于,所述訓(xùn)練文本以中文書寫。
5.如權(quán)利要求3所述的模塊,其特征在于,所述訓(xùn)練文本以日文書寫。
6.如權(quán)利要求1所述的模塊,其特征在于,所述發(fā)音幫助顯示在困難字上方。
7.一種訓(xùn)練語音識別系統(tǒng)的方法,其特征在于,所述方法包含以至少一個象形文字的形式加載一定數(shù)量的訓(xùn)練文本;顯示沒有發(fā)音幫助的訓(xùn)練文本;接收一個在訓(xùn)練文本中與困難字相關(guān)的發(fā)音困難通知;且有選擇地提供與困難字相關(guān)的發(fā)音幫助。
8.如權(quán)利要求7所述的方法,其特征在于,所述提供發(fā)音幫助包括顯示盧比來輔助困難字的發(fā)音。
9.如權(quán)利要求7所述的方法,其特征在于,所述訓(xùn)練文本以中文書寫。
10.如權(quán)利要求7所述的方法,其特征在于,所述訓(xùn)練文本以日文書寫。
11.如權(quán)利要求7所述的方法,其特征在于,所述通知從一語音識別引擎接收。
12.如權(quán)利要求7所述的方法,其特征在于,所述發(fā)音困難包括停頓。
13.如權(quán)利要求7所述的方法,其特征在于,所述發(fā)音困難包括錯誤發(fā)音。
全文摘要
本發(fā)明提供一種用于以漢字為基礎(chǔ)的語言的語音識別訓(xùn)練系統(tǒng)。該系統(tǒng)為每一個訓(xùn)練講話中的象形文字加載一發(fā)音幫助(232),但實(shí)際上并不顯示出象形文字除非訓(xùn)練系統(tǒng)識別出發(fā)音困難。一旦識別出發(fā)音困難則為該困難象形文字顯示出相關(guān)的發(fā)音幫助(盧比)(232)。
文檔編號G10L15/00GK1551102SQ20041004345
公開日2004年12月1日 申請日期2004年4月30日 優(yōu)先權(quán)日2003年5月1日
發(fā)明者朱允誠, 洪小文, K·森竹 申請人:微軟公司