語音質(zhì)量評價設(shè)備、方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種語音質(zhì)量評價設(shè)備、方法和系統(tǒng),數(shù)據(jù)處理設(shè)備和方法,語音處理設(shè)備和方法,以及移動終端,以克服傳統(tǒng)技術(shù)只是利用聲學(xué)模型、而未利用參考語音來計算用戶語音得分的缺陷。語音質(zhì)量評價設(shè)備包括:下載單元,適于從預(yù)定服務(wù)器下載預(yù)定文本和與預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞;用戶語音接收單元,適于接收用戶針對預(yù)定文本所錄入的用戶語音;特征獲取單元,適于獲取用戶語音的用戶語音特征;以及語音質(zhì)量計算單元,適于基于參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。本發(fā)明的上述技術(shù)可應(yīng)用于語音【技術(shù)領(lǐng)域】。
【專利說明】語音質(zhì)量評價設(shè)備、方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音【技術(shù)領(lǐng)域】,尤其涉及一種語音質(zhì)量評價設(shè)備、方法和系統(tǒng),數(shù)據(jù)處理設(shè)備和方法,語音處理設(shè)備和方法,以及移動終端。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,基于互聯(lián)網(wǎng)的語言學(xué)習(xí)應(yīng)用也得到了快速的發(fā)展。在一些語言學(xué)習(xí)應(yīng)用中,應(yīng)用提供商通過互聯(lián)網(wǎng)將學(xué)習(xí)材料發(fā)送到客戶端,用戶經(jīng)由客戶端獲取學(xué)習(xí)材料,并根據(jù)學(xué)習(xí)材料的指示而在客戶端上進行操作,例如輸入文字、輸入語音或者進行選擇等,并獲得反饋,從而提高自己的語言能力。
[0003]對于語言學(xué)習(xí),除了學(xué)習(xí)語法和詞匯等之外,一個重要的方面是學(xué)習(xí)語言的聽說能力,尤其是說的能力。在現(xiàn)有的語音技術(shù)中,用戶通過客戶端的錄音設(shè)備錄制語音,系統(tǒng)根據(jù)與該語音相對應(yīng)的文本,就用戶的語音和現(xiàn)有聲學(xué)模型進行比較,從而向用戶提供整句錄音的發(fā)音評分,以及每個單詞的讀音是否正確的反饋。然而,現(xiàn)有的語音技術(shù)在評價用戶的發(fā)音情況時并未考慮用戶語音與用于參考的標(biāo)準(zhǔn)語音之間的相關(guān)性,從而沒有針對該相關(guān)性給出對用戶發(fā)音的準(zhǔn)確評價。
【發(fā)明內(nèi)容】
[0004]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0005]鑒于此,本發(fā)明提供了一種語音質(zhì)量評價設(shè)備、方法和系統(tǒng),數(shù)據(jù)處理設(shè)備和方法,語音處理設(shè)備和方法,以及移動終端,以至少解決現(xiàn)有的語音技術(shù)在評價用戶的發(fā)音情況時未考慮用戶語音與用于參考的標(biāo)準(zhǔn)語音之間的相關(guān)性的問題。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種語音質(zhì)量評價設(shè)備,該設(shè)備包括:下載單元,適于從預(yù)定服務(wù)器下載預(yù)定文本和與預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞;用戶語音接收單元,適于接收用戶針對預(yù)定文本所錄入的用戶語音;特征獲取單元,適于獲取用戶語音的用戶語音特征;以及語音質(zhì)量計算單元,適于基于參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。
[0007]根據(jù)本發(fā)明的另一個方面,還提供了一種數(shù)據(jù)處理設(shè)備,該設(shè)備適于駐留在服務(wù)器中,并包括:服務(wù)器存儲單元,適于存儲預(yù)定文本以及與預(yù)定文本對應(yīng)的參考語音;以及計算單元,適于計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在服務(wù)器存儲單元中,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在服務(wù)器存儲單元中。
[0008]根據(jù)本發(fā)明的另一個方面,還提供了一種語音處理設(shè)備,該設(shè)備適于駐留在計算機中,并包括:參考語音接收單元,適于接收特定用戶針對預(yù)定文本所錄入的語音作為參考語音,并將參考語音發(fā)送給預(yù)定服務(wù)器;以及計算單元,適于計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。
[0009]根據(jù)本發(fā)明的另一個方面,還提供了一種語音質(zhì)量評價方法,該方法包括如下步驟:從預(yù)定服務(wù)器下載預(yù)定文本和與預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞;接收用戶針對預(yù)定文本所錄入的用戶語音;獲取用戶語音的用戶語音特征;以及基于參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。
[0010]根據(jù)本發(fā)明的另一個方面,還提供了一種數(shù)據(jù)處理方法,該方法適于在服務(wù)器中執(zhí)行,并包括:存儲預(yù)定文本以及與預(yù)定文本對應(yīng)的參考語音;以及計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存。
[0011]根據(jù)本發(fā)明的另一個方面,還提供了一種語音處理方法,該方法適于在計算機中執(zhí)行,并包括如下步驟:接收特定用戶針對預(yù)定文本所錄入的語音作為參考語音,并將參考語音發(fā)送給預(yù)定服務(wù)器;以及計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。
[0012]根據(jù)本發(fā)明的另一個方面,還提供了一種移動終端,包括如上所述的語音質(zhì)量評價設(shè)備。
[0013]根據(jù)本發(fā)明的又一個方面,還提供了一種語音質(zhì)量評價系統(tǒng),包括如上所述的語音質(zhì)量評價設(shè)備和如上所述的數(shù)據(jù)處理設(shè)備。
[0014]上述根據(jù)本發(fā)明實施例的語音質(zhì)量評價方案,其基于獲取的用戶語音的用戶語音特征和參考語音特征之間的相關(guān)性,來計算用戶語音的語音質(zhì)量,能夠獲得至少以下益處之一:該設(shè)備在計算用戶語音的語音質(zhì)量的過程中考慮了用戶語音和參考語音之間的相關(guān)性,其利用參考語音特征所構(gòu)成的模型來分析用戶語音的質(zhì)量,克服了以往傳統(tǒng)技術(shù)只是利用聲學(xué)模型、而未利用參考語音來計算用戶語音得分的缺陷;節(jié)省計算時間和計算量;節(jié)省存儲空間;可以進行離線學(xué)習(xí);通過播放功能,容易發(fā)現(xiàn)用戶語音與參考語音之間的差別,便于用戶及時糾正自己的發(fā)音上的缺陷;更全面、更準(zhǔn)確地評價用戶語音的語音質(zhì)量;通過可視化輸出功能,能夠直觀地獲知自己的發(fā)音與參考語音的發(fā)音之間的差別,從而能夠更有針對性、更準(zhǔn)確地糾正用戶的發(fā)音。
[0015]通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu)點將更加明顯。
【專利附圖】
【附圖說明】
[0016]本發(fā)明可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中:
[0017]圖1是示意性地示出移動終端100的結(jié)構(gòu)框圖;
[0018]圖2是示意性地示出根據(jù)本發(fā)明一個實施例的語音質(zhì)量評價設(shè)備200的一種示例性結(jié)構(gòu)的框圖;
[0019]圖3是示意性地示出圖2所示的特征獲取單元230的一種可能結(jié)構(gòu)的框圖;
[0020]圖4是示意性地示出根據(jù)本發(fā)明其他實施例的語音質(zhì)量評價設(shè)備400的示例性結(jié)構(gòu)的框圖;
[0021]圖5是示意性地示出根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理設(shè)備500的一種示例性結(jié)構(gòu)的框圖;
[0022]圖6是示意性地示出根據(jù)本發(fā)明一個實施例的語音處理設(shè)備600的一種示例性結(jié)構(gòu)的框圖;
[0023]圖7是示意性地示出根據(jù)本發(fā)明的實施例的語音質(zhì)量評價方法的一種示例性處理的流程圖;
[0024]圖8是示意性地示出根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理方法的一種示例性處理的流程圖;
[0025]圖9是示意性地示出根據(jù)本發(fā)明的實施例的語音處理方法的一種示例性處理的流程圖;以及
[0026]圖10是示意性地示出根據(jù)本發(fā)明的實施例的語音處理方法的另一種示例性處理的流程圖。
[0027]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以便有助于提高對本發(fā)明實施例的理解。
【具體實施方式】
[0028]在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0029]在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。
[0030]本發(fā)明的實施例提供了一種語音質(zhì)量評價設(shè)備,該設(shè)備包括:下載單元,適于從預(yù)定服務(wù)器下載預(yù)定文本和與預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞;用戶語音接收單元,適于接收用戶針對預(yù)定文本所錄入的用戶語音;特征獲取單元,適于獲取用戶語音的用戶語音特征;以及語音質(zhì)量計算單元,適于基于參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。
[0031]根據(jù)本發(fā)明的實施例的上述語音質(zhì)量評價設(shè)備可以是在傳統(tǒng)的桌面型或者膝上型計算機(未示出)等中執(zhí)行處理的應(yīng)用,也可以是在移動終端(如圖1所示)中執(zhí)行處理的客戶端應(yīng)用(如圖1所示的移動終端100中的應(yīng)用154的一種),或者也可以是在上述傳統(tǒng)的桌面型、膝上型計算機用戶或移動終端上通過瀏覽器來訪問的網(wǎng)頁應(yīng)用等。
[0032]圖1是移動終端100的結(jié)構(gòu)框圖。具有多點觸摸能力的移動終端100可以包括存儲器接口 102、一個或多個數(shù)據(jù)處理器、圖像處理器和/或中央處理單元104,以及外圍接口106。
[0033]存儲器接口 102、一個或多個處理器104和/或外圍接口 106既可以是分立元件,也可以集成在一個或多個集成電路中。在移動終端100中,各種元件可以通過一條或多條通信總線或信號線來耦合。傳感器、設(shè)備和子系統(tǒng)可以耦合到外圍接口 106,以便幫助實現(xiàn)多種功能。例如,運動傳感器110、光傳感器112和距離傳感器114可以耦合到外圍接口106,以方便定向、照明和測距等功能。其他傳感器116同樣可以與外圍接口 106相連,例如定位系統(tǒng)(例如GPS接收機)、溫度傳感器、生物測定傳感器或其他感測設(shè)備,由此可以幫助實施相關(guān)的功能。
[0034]相機子系統(tǒng)120和光學(xué)傳感器122可以用于方便諸如記錄照片和視頻剪輯的相機功能的實現(xiàn),其中所述相機子系統(tǒng)和光學(xué)傳感器例如可以是電荷耦合器件(CCD)或互補金屬氧化物半導(dǎo)體(CMOS)光學(xué)傳感器。
[0035]可以通過一個或多個無線通信子系統(tǒng)124來幫助實現(xiàn)通信功能,其中無線通信子系統(tǒng)可以包括射頻接收機和發(fā)射機和/或光(例如紅外)接收機和發(fā)射機。無線通信子系統(tǒng)124的特定設(shè)計和實施方式可以取決于移動終端100所支持的一個或多個通信網(wǎng)絡(luò)。例如,移動終端100可以包括被設(shè)計成支持GSM網(wǎng)絡(luò)、GPRS網(wǎng)絡(luò)、EDGE網(wǎng)絡(luò)、W1-Fi或WiMax網(wǎng)絡(luò)以及BlueboothTM網(wǎng)絡(luò)的通信子系統(tǒng)124。
[0036]音頻子系統(tǒng)126可以與揚聲器128以及麥克風(fēng)130相耦合,以便幫助實施啟用語音的功能,例如語音識別、語音復(fù)制、數(shù)字記錄和電話功能。
[0037]I/O子系統(tǒng)140可以包括觸摸屏控制器142和/或一個或多個其他輸入控制器144。
[0038]觸摸屏控制器142可以耦合到觸摸屏146。舉例來說,該觸摸屏146和觸摸屏控制器142可以使用多種觸摸感測技術(shù)中的任何一種來檢測與之進行的接觸和移動或是暫停,其中感測技術(shù)包括但不局限于電容性、電阻性、紅外和表面聲波技術(shù)。
[0039]一個或多個其他輸入控制器144可以耦合到其他輸入/控制設(shè)備148,例如一個或多個按鈕、搖桿開關(guān)、拇指旋輪、紅外端口、USB端口、和/或指示筆之類的指點設(shè)備。一個或多個按鈕(未顯不)可以包括用于控制揚聲器128和/或麥克風(fēng)130音量的向上/向下按鈕。
[0040]存儲器接口 102可以與存儲器150相耦合。該存儲器150可以包括高速隨機存取存儲器和/或非易失性存儲器,例如一個或多個磁盤存儲設(shè)備,一個或多個光學(xué)存儲設(shè)備,和/或閃存存儲器(例如NAND,N0R)。
[0041]存儲器150可以存儲操作系統(tǒng)152,例如Android、1S或是Windows Phone之類的操作系統(tǒng)。該操作系統(tǒng)152可以包括用于處理基本系統(tǒng)服務(wù)以及執(zhí)行依賴于硬件的任務(wù)的指令。存儲器150還可以存儲應(yīng)用154。這些應(yīng)用在操作時,會從存儲器150加載到處理器104上,并在已經(jīng)由處理器104運行的操作系統(tǒng)之上運行,并利用操作系統(tǒng)以及底層硬件提供的接口實現(xiàn)各種用戶期望的功能,如即時通信、網(wǎng)頁瀏覽、圖片管理等。應(yīng)用可以是獨立于操作系統(tǒng)提供的,也可以是操作系統(tǒng)自帶的。應(yīng)用154可以包括根據(jù)本發(fā)明的語音質(zhì)量評價設(shè)備200。
[0042]圖2示出了根據(jù)本發(fā)明的實施例的語音質(zhì)量評價設(shè)備200的一個示例。如圖2所示,語音質(zhì)量評價設(shè)備200包括下載單元210、用戶語音接收單元220、特征獲取單元230以及語音質(zhì)量計算單元240。
[0043]如圖2所示,在語音質(zhì)量評價設(shè)備200中,下載單元210用于從預(yù)定服務(wù)器下載預(yù)定文本和與該預(yù)定文本對應(yīng)的參考語音特征。預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞。其中,語句中的每個詞通??梢园ǘ鄠€字母或至少一個文字。
[0044]根據(jù)一種實現(xiàn)方式,在預(yù)定文本的語言例如是諸如英語之類的、詞由字母構(gòu)成的語言時,預(yù)定文本除了包括一個或多個語句、以及每個語句的一個或多個詞這些文本內(nèi)容之外,還可以選擇性地包括每個詞的音節(jié)和/或音素等信息,以及每個詞的音節(jié)和/或音素等信息與構(gòu)成該詞的字母之間的對應(yīng)關(guān)系。
[0045]需要說明的是,雖然以上舉例所描述的為預(yù)定文本的語言是英語的情況,但實際預(yù)定文本的語言并不限于英語,可以是漢語、法語或德語等任意一種語言。
[0046]當(dāng)用戶啟動語音質(zhì)量評價設(shè)備200時,如上所述,下載單元210中已下載有上述預(yù)定文本和與該預(yù)定文本對應(yīng)的參考語音特征。然后,通過諸如移動終端100的觸摸屏146之類的顯示裝置,向用戶呈現(xiàn)待錄入的語音所對應(yīng)的文本內(nèi)容(即上述預(yù)定文本),并提示用戶錄制相應(yīng)的語音。這樣,用戶能夠通過諸如移動終端100的麥克風(fēng)130等輸入裝置來錄入相應(yīng)的語音,作為用戶語音,并由用戶語音接收單元220來接收該用戶語音。
[0047]然后,用戶語音接收單元220將其接收到的用戶語音轉(zhuǎn)發(fā)給特征獲取單元230,并由特征獲取單元230來獲取該用戶語音的用戶語音特征。
[0048]根據(jù)一種實現(xiàn)方式,用戶語音特征可以包括節(jié)奏特征、重音特征以及韻律特征中的至少一種。
[0049]一般來說,人們在說話時,往往在說完句子中的某些詞之后有適當(dāng)?shù)耐nD,而節(jié)奏正是表明在說了哪些詞之后進行停頓、以及停頓多久等。此外,當(dāng)詞的音節(jié)多于一個時,音節(jié)與音節(jié)之間的發(fā)音也存在一定的停頓時間。需要說明的是,在本發(fā)明的實施例中,說話節(jié)奏指詞與詞之間的停頓,而發(fā)音節(jié)奏則指音節(jié)與音節(jié)之間的停頓。因此,用戶語音特征中的節(jié)奏特征例如可以包括用于描述上述說話節(jié)奏和/或發(fā)音節(jié)奏的特征。
[0050]此外,不同的語句和不同的單詞都具有根據(jù)場景而改變的重音,而重音是指在一整句話中應(yīng)當(dāng)重讀哪些單詞(下文稱為說話重音),或者在一個單詞中應(yīng)當(dāng)對哪個音節(jié)進行重讀(下文稱為發(fā)音重音)。因此,用戶語音特征中的重音特征例如可以包括用于描述上述說話重音和/或發(fā)音重音的特征。
[0051]除此之外,對于每種語言來說,會根據(jù)不同的場景而在說話時具有不同的說話韻律。這里,韻律是指對發(fā)音抑揚頓挫的表示,既可以針對整句話確定句子的韻律(下文中稱為說話韻律),也可以針對每個詞確定詞的韻律(下文中稱為發(fā)音韻律)。因此,用戶語音特征中的韻律特征例如可以包括用于描述上述說話韻律和/或發(fā)音韻律的特征。
[0052]需要說明的是,下載單元210所下載的參考語音特征所包括的類型與后面提到的用戶語音特征所包括的類型是對應(yīng)的。
[0053]圖3示出了特征獲取單元230的一種可能的示例結(jié)構(gòu)。在該示例中,特征獲取單元230可以包括對齊子單元310和特征計算子單元320。
[0054]如圖3所示,對齊子單元310可以利用預(yù)定聲學(xué)模型(acoustic model)將用戶語音與預(yù)定文本進行強制對齊(force alignment),以確定預(yù)定文本中的每個詞和/或每個詞中的每個音節(jié)和/或每個音節(jié)的每個音素與用戶語音的部分之間的對應(yīng)關(guān)系。
[0055]一般而言,聲學(xué)模型是通過大量的母語發(fā)音人的錄音訓(xùn)練而成的,利用聲學(xué)模型可以計算輸入語音對應(yīng)于已知文字的可能性,進而能夠?qū)⑤斎胝Z音與已知文字進行強制對齊。這里,“輸入語音”可以是用戶語音或者下文中將提到的參考語音,而“已知文字”可以是預(yù)定文本。
[0056]其中,可以參考http://m1.eng.cam.ac.uk/ ?mjfg/ASRU_talk09.pdf 中的相關(guān)資料來獲知聲學(xué)模型的相關(guān)技術(shù),以及可以參考http://www.1sip.piconepress.com/projects/speech/software/tutorials/produc t1n/fundamentals/v1.0/sect1n_04/s04_04_p01.html 和 http://www.phon.0x.ac.uk/ jcoleman/BAAP_ASR.pdf 中的相關(guān)資料來獲知強制對齊的相關(guān)技術(shù),或者也可以利用其他現(xiàn)有技術(shù),這里不再詳述。
[0057]]此外,需要說明的是,通過將用戶語音與預(yù)定文本之間進行強制對齊,可以確定預(yù)定文本中的每個語句與用戶語音的部分語音(比如某個語音段)之間的對應(yīng)關(guān)系,也即,可以在用戶語音中確定與預(yù)定文本中的每個語句相對應(yīng)的語音段。
[0058]除此之外,如上所述,通過強制對齊還可以根據(jù)需要來獲得以下三種對應(yīng)關(guān)系中的任意一種或多種:預(yù)定文本中的每個詞與用戶語音的部分語音(比如某個語音塊)之間的對應(yīng)關(guān)系;預(yù)定文本中的每個詞中的每個音節(jié)與用戶語音的部分語音(比如某個語音塊)之間的對應(yīng)關(guān)系;以及預(yù)定文本中的每個詞中的每個音節(jié)的每個音素與用戶語音的部分語音(比如某個語音塊)之間的對應(yīng)關(guān)系。
[0059]這樣,基于對齊子單元310確定的對應(yīng)關(guān)系,特征計算子單元320可以計算用戶語音的用戶語音特征。
[0060]通過以上所述的強制對齊等處理,能夠根據(jù)實際需要選擇性地獲得一種或多種上述對應(yīng)關(guān)系,進而可以得到不同層面的用戶語音特征。例如,針對節(jié)奏特征來說,基于上述對應(yīng)關(guān)系,可以得到預(yù)定文本的每個語句的節(jié)奏特征,以及/或者可以得到每個語句中每個詞的節(jié)奏特征,等等。由此,利用該示例中的齊子單元310和特征計算子單元320所得到的用戶語音特征,不僅能夠從多個維度(比如節(jié)奏特征維度、重音特征維度以及韻律特征維度等)、而且能夠從多個層面(比如每個語句的特征和每個詞的特征等層面)來描述用戶語音的特征。
[0061]在一個例子中,基于對齊子單元310確定的對應(yīng)關(guān)系,可以得到預(yù)定文本的每個語句中每相鄰兩個詞在用戶語音中所對應(yīng)的兩個語音塊之間的時間間隔(例如作為用戶語音的節(jié)奏信息),然后,特征計算子單元320可以根據(jù)得到的上述時間間隔來獲得該語句在用戶語音中所對應(yīng)的語音段的節(jié)奏特征。然后,基于獲得的預(yù)定文本的各語句在用戶語音中所對應(yīng)的各語音段的節(jié)奏特征來形成整個用戶語音的節(jié)奏特征。假設(shè)預(yù)定文本中的某個語句中各詞之間的間隔依次為0.3秒、0.2秒、0.3秒,則該句子在用戶語音中對應(yīng)的語音段的節(jié)奏特征可以表示成向量(0.3,0.2,0.3),但不限于此。
[0062]在另一個例子中,基于對齊子單元310確定的對應(yīng)關(guān)系,可以得到預(yù)定文本中的每個語句的每個詞和/或每個詞中的每個音節(jié)在用戶語音中對應(yīng)的語音塊的特征參數(shù)(例如,特征參數(shù)可以包括每個語音塊對應(yīng)聲波波形的波峰和波谷的絕對值以及波形的能量值、每個語音塊的持續(xù)時長以及從每個語音塊中獲得的音調(diào)信息的平均值,等等),然后,利用經(jīng)過訓(xùn)練的預(yù)定專家模型和以上獲得的每個語音塊的特征參數(shù)來獲得每個語音塊的重讀屬性(即是否重讀)。例如,假設(shè)預(yù)定文本中的某個語句中各詞依次為重讀(比如可以用“I”表示)、非重讀(比如可以用“O”表示)、非重讀、非重讀,則該句子在用戶語音中對應(yīng)的語音段的重音特征可以表示為向量(I,0,0,O),但不限于此。
[0063]此外,在一個例子中,基于對齊子單元310確定的對應(yīng)關(guān)系,特征計算子單元320可以提取每個語句中每個詞在用戶語音中所對應(yīng)的語音塊的基頻信息,通過對基頻信息的平滑處理以及多項式擬合來獲得每個語句的基頻信息的各個分段多項式的表達式,通過向其中代入多個時間點(例如以單位時間為間隔的一組時間點),即可得到關(guān)于時間與基頻值的多個坐標(biāo)對。例如,假設(shè)以時間為橫坐標(biāo)(X軸)、基頻值為縱坐標(biāo)(Y軸),將以單位時間(例如每10_2秒為間隔)的一組時間點代入到某個語句的基頻信息的各個分段多項式中,得到N(例如100)個坐標(biāo)對(xl,yl)、(x2, y2)、……、(xN, yN),則可以將用戶語音的用戶語音特征表示成、但不限于{(xl,yl),(x2,y2),......, (xN, yN)}的形式。
[0064]這樣,語音質(zhì)量計算單元240可以基于參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。
[0065]根據(jù)一種實現(xiàn)方式,針對用戶語音特征中的每種特征(例如節(jié)奏特征、重音特征以及韻律特征中的每一種),語音質(zhì)量計算單元240可以計算用戶語音特征中的該種特征與參考語音特征中的該種特征之間的相似度,并將該相似度作為描述該用戶語音的該種特征的語音質(zhì)量的分?jǐn)?shù)。也就是說,計算的相似度越高,用戶語音的語音質(zhì)量也越高。
[0066]根據(jù)另一種實現(xiàn)方式,針對用戶語音特征中的每種特征(例如節(jié)奏特征、重音特征以及韻律特征中的每一種),語音質(zhì)量計算單元240也可以基于用戶語音特征中的該種特征與參考語音特征中的該種特征之間的相關(guān)性來計算二者之間的距離,并根據(jù)該距離獲得用于描述用戶語音的該種特征的語音質(zhì)量的分?jǐn)?shù)。例如,可以將計算得到的距離的倒數(shù)作為描述用戶語音的該種特征的語音質(zhì)量的分?jǐn)?shù)。也就是說,計算的距離越大,用戶語音的語音質(zhì)量越差。
[0067]此外,需要說明的是,如果下載單元210中下載的參考語音特征未表示成與用戶語音特征的形式(比如向量的形式)相同的形式,則可以首先將其表示成與之相同的形式,再計算二者之間的相似度或距離等。
[0068]另外,還需要說明的是,語音質(zhì)量計算單元240可以逐句計算用戶語音特征與參考語音特征之間的相關(guān)性(即相似度或距離),再逐句獲得用戶語音的質(zhì)量分?jǐn)?shù)(也即依次獲得用戶語音中與預(yù)定文本每個語句對應(yīng)的逐個語音段的質(zhì)量分?jǐn)?shù))。此外,語音質(zhì)量計算單元240也可以在計算完整個用戶語音的用戶語音特征與參考語音特征之間的相關(guān)性(即相似度或距離)后,再得到描述整個用戶語音的質(zhì)量分?jǐn)?shù)。
[0069]這樣,通過獲取一種或多種以上所述的用戶語音特征,使得能夠從多個維度來計算用戶語音特征和參考語音特征的相關(guān)性,以根據(jù)二者在多個維度的相關(guān)性來計算用戶語音的質(zhì)量分?jǐn)?shù),從而能夠更全面、更準(zhǔn)確地評價用戶語音的語音質(zhì)量。
[0070]下面結(jié)合圖4來描述根據(jù)本發(fā)明的實施例的語音質(zhì)量評價設(shè)備的其他一些示例。
[0071]如圖4所示,在一個示例中,語音質(zhì)量評價設(shè)備400除了包括下載單元410、用戶語音接收單元420、特征獲取單元430以及語音質(zhì)量計算單元440之外,還可以包括輸出單元450。其中,圖4所示的語音質(zhì)量評價設(shè)備400中的下載單元410、用戶語音接收單元420、特征獲取單元430以及語音質(zhì)量計算單元440可以分別具有與上文中結(jié)合圖2所描述的語音質(zhì)量評價設(shè)備200中的對應(yīng)單元相同的結(jié)構(gòu)和功能,并能夠達到相類似的技術(shù)效果,這里不再贅述。
[0072]輸出單元450可以可視化輸出語音質(zhì)量的計算結(jié)果,例如,可以通過諸如移動終端100的觸摸屏146之類的顯示裝置向用戶呈現(xiàn)上述語音質(zhì)量的計算結(jié)果。
[0073]根據(jù)一種實現(xiàn)方式,輸出單元450可以輸出反映語音質(zhì)量的分?jǐn)?shù)來作為語音質(zhì)量的計算結(jié)果。
[0074]例如,輸出單元450可以可視化地輸出(比如逐句輸出)反映用戶語音中與預(yù)定文本每個語句對應(yīng)的每個語音段的語音質(zhì)量的分?jǐn)?shù)。這樣,用戶能夠獲知自己所說的每句話的發(fā)音準(zhǔn)確性,尤其當(dāng)某一句的分?jǐn)?shù)較低時,用戶能夠立刻意識到該句的發(fā)音需要糾正,學(xué)習(xí)更有針對性。
[0075]又如,輸出單元450可以可視化地輸出反映整個用戶語音的語音質(zhì)量的分?jǐn)?shù)。這樣,用戶能夠整體感知自己所說的一段語音的韻律是否準(zhǔn)確。
[0076]此外,在其他例子中,輸出單元450也可以同時可視化地輸出反映用戶語音中與預(yù)定文本每個語句對應(yīng)的每個語音段的語音質(zhì)量的分?jǐn)?shù)、以及反映整個用戶語音的語音質(zhì)量的分?jǐn)?shù)。
[0077]此外,可選地,輸出單元450所輸出的分?jǐn)?shù)可以包括一種或多種得分,例如,包括節(jié)奏發(fā)音得分、重音發(fā)音得分和韻律發(fā)音得分中的一個或多個。這樣,用戶根據(jù)這些得分,能夠獲知自己在哪一方面存在不足,方便用戶針對不足的方面做出更有效、更準(zhǔn)確的改正。
[0078]根據(jù)另一種實現(xiàn)方式,針對用戶語音特征中的每種特征(例如節(jié)奏特征、重音特征以及韻律特征中的每一種),輸出單元450可以可視化地輸出用戶語音特征中的該種特征和參考語音特征中的各種特征之間的差別來作為語音質(zhì)量的計算結(jié)果。
[0079]例如,針對節(jié)奏特征,輸出單元450可以將參考語音和用戶語音用平行的兩行來表示,其中用“‘”號表示兩個詞之間存在停頓,如果停頓相同,則可以用一般方式來顯示,t匕如綠色的“‘”號;如果不同,則強調(diào)顯示該停頓,比如加粗的紅色“‘”。又如,針對重音特征,輸出單元450可以將參考語音和用戶語音用平行的兩行來表示,其中加粗顯示表示某個詞或者某個詞中的音節(jié)為重讀,如果重音位置相同,則以一般方式,例如綠色來顯示;如果重音位置不同,則強調(diào)顯示該重音,例如以紅色來顯示。此外,針對韻律特征,輸出單元450例如可以將用戶語音特征的韻律特征和參考語音特征的韻律特征用重疊的曲線、不同顏色來顯示,以便于用戶看清差別。
[0080]這樣,通過輸出單元450的輸出顯示,用戶能夠方便地獲知自己的發(fā)音與參考語音的發(fā)音之間的差別,差別有多大等,從而能夠更有針對性、更準(zhǔn)確地糾正自己的發(fā)音。
[0081]根據(jù)其他實現(xiàn)方式,輸出單元450也可以同時可視化地輸出反映語音質(zhì)量的分?jǐn)?shù)以及用戶語音特征和參考語音特征之間的差別來作為語音質(zhì)量的計算結(jié)果,該實現(xiàn)方式的具體細節(jié)可以參考關(guān)于以上兩種實現(xiàn)方式的描述,這里不再贅述。
[0082]此外,如圖4所示,在另一個示例中,語音質(zhì)量評價設(shè)備400除了包括下載單元410、用戶語音接收單元420、特征獲取單元430以及語音質(zhì)量計算單元440之外,還可以包括播放單元460。其中,圖4所示的語音質(zhì)量評價設(shè)備400中的下載單元410、用戶語音接收單元420、特征獲取單元430以及語音質(zhì)量計算單元440可以分別具有與上文中結(jié)合圖2所描述的語音質(zhì)量評價設(shè)備200中的對應(yīng)單元相同的結(jié)構(gòu)和功能,并能夠達到相類似的技術(shù)效果,這里不再贅述。
[0083]根據(jù)一種實現(xiàn)方式,下載單元410還可以從預(yù)定服務(wù)器下載與預(yù)定文本對應(yīng)的參考語音,這樣,播放單元460可以根據(jù)設(shè)置或需要來播放參考語音。例如,播放單元460可以根據(jù)用戶指令(例如當(dāng)用戶單擊屏幕上的參考語音播放按鈕時)來播放參考語音。其中,播放單元460例如可以通過諸如移動終端100的音頻子系統(tǒng)126和揚聲器128等來進行播放。這樣,通過收聽參考語音,用戶更加容易發(fā)現(xiàn)自己的語音與標(biāo)準(zhǔn)的參考語音之間的差別所在,從而更容易模仿參考語音的發(fā)音的方式(例如音準(zhǔn)、節(jié)奏、重音、韻律等等)。
[0084]這里,參考語音可以是由特定用戶(例如以預(yù)定文本的語言為母語的用戶、或與預(yù)定文本的語言相關(guān)的專業(yè)語言教師等)預(yù)先針對該預(yù)定文本錄制的語音。
[0085]根據(jù)另一種實現(xiàn)方式,播放單元460可以播放用戶語音。例如,播放單元460可以根據(jù)用戶指令(例如當(dāng)用戶單擊屏幕上的用戶語音播放按鈕時)來播放用戶語音,或者也可以在用戶錄制結(jié)束后立刻播放其錄制的用戶語音。通過該方式,用戶可以反復(fù)收聽自己的錄音,便于用戶發(fā)現(xiàn)自己發(fā)音(例如音準(zhǔn)、節(jié)奏、重音、韻律等等)上的不足以改正。
[0086]此外,根據(jù)其他實現(xiàn)方式,播放單元460也可以同時具有播放參考語音和用戶語音的功能。通過該方式,用戶能夠?qū)Ρ茸约旱匿浺襞c參考語音,進而容易發(fā)現(xiàn)二者之間的差另IJ,便于用戶及時糾正自己的發(fā)音(例如音準(zhǔn)、節(jié)奏、重音、韻律等等)上的缺陷。
[0087]需要說明的是,在其他示例中,語音質(zhì)量評價設(shè)備400也可以包括下載單元410、用戶語音接收單元420、特征獲取單元430、語音質(zhì)量計算單元440、輸出單元450和播放單元460,其中,各單元的處理可以和上文描述的對應(yīng)單元的處理相類似,并能夠達到相類似的功能和效果,這里不再一一贅述。
[0088]通過以上描述可知,上述根據(jù)本發(fā)明的實施例的語音質(zhì)量評價設(shè)備,其基于獲取的用戶語音的用戶語音特征和參考語音特征之間的相關(guān)性,來計算用戶語音的語音質(zhì)量。該設(shè)備在計算用戶語音的語音質(zhì)量的過程中考慮了用戶語音和參考語音之間的相關(guān)性,其利用參考語音特征所構(gòu)成的模型來分析用戶語音的質(zhì)量,克服了以往傳統(tǒng)技術(shù)只是利用聲學(xué)模型、而未利用參考語音來計算用戶語音得分的缺陷。
[0089]該設(shè)備設(shè)置在用戶客戶端對應(yīng)的計算機或移動終端上,但其所使用的預(yù)定文本和參考語音特征是從預(yù)定服務(wù)器下載而獲得的,因此,該設(shè)備不必通過計算來獲得上述參考語音特征,從而能夠節(jié)省計算時間和計算量。
[0090]此外,當(dāng)服務(wù)器中存在較多的預(yù)定文本時,用戶能夠根據(jù)實際需要從中選擇性地下載一個或多個以及相關(guān)的參考語音特征,而不需要下載全部,故能夠節(jié)省用戶客戶端所駐留的計算機或移動終端上的存儲空間。
[0091]此外,上述根據(jù)本發(fā)明的實施例的語音質(zhì)量評價設(shè)備對應(yīng)于用戶客戶端,其對用戶語音的計算和評價是在客戶端計算機或客戶端移動終端上完成的,而現(xiàn)有的語音技術(shù)通常是在服務(wù)器端完成對用戶語音的計算和評價的,本發(fā)明的語音質(zhì)量評價設(shè)備使用戶可以進行離線學(xué)習(xí)(已下載存儲學(xué)習(xí)材料的情況下),而無需像現(xiàn)有技術(shù)那樣必須進行在線學(xué)習(xí)。
[0092]此外,本發(fā)明的實施例還提供了一種數(shù)據(jù)處理設(shè)備,該設(shè)備適于駐留在服務(wù)器中,并包括:服務(wù)器存儲單元,適于存儲預(yù)定文本以及與預(yù)定文本對應(yīng)的參考語音;以及計算單元,適于計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在服務(wù)器存儲單元中,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在服務(wù)器存儲單元中。
[0093]圖5示出了根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理設(shè)備500的一個示例。如圖5所示,數(shù)據(jù)處理設(shè)備500包括服務(wù)器存儲單元510和計算單元520。
[0094]數(shù)據(jù)處理設(shè)備500例如可以實現(xiàn)為駐留在服務(wù)器上的應(yīng)用。服務(wù)器例如可以包括web服務(wù)器,其可以利用http協(xié)議和用戶客戶端(例如上文所描述的語音質(zhì)量評價設(shè)備200或400)進行通信,但不受限于此。
[0095]服務(wù)器存儲單元510可以存儲各種語言學(xué)習(xí)材料的文本材料,即預(yù)定文本。其中,對于每種語言來說,服務(wù)器存儲單元510除了可以存儲預(yù)定文本之外,還可以存儲與預(yù)定文本對應(yīng)的參考語音、或者可以從例如下文將要描述的語音處理設(shè)備600等外部設(shè)備接收并存儲參考語音。
[0096]根據(jù)一種實現(xiàn)方式,服務(wù)器存儲單元510可以例如通過網(wǎng)絡(luò)從外部(如下文中所提到的語音處理設(shè)備600所駐留的計算機)接收特征用戶針對預(yù)定文本所錄制的語音來作為參考語音。
[0097]應(yīng)當(dāng)理解的是,這里所說的預(yù)定文本和上文所說的預(yù)定文本類似,除了包括一個或多個語句、以及每個語句的一個或多個詞這些文本內(nèi)容之外,還可以選擇性地包括每個詞的音節(jié)和/或音素等信息(例如預(yù)定文本的語言是諸如英語之類的、詞由字母構(gòu)成的語言時),以及每個詞的音節(jié)和/或音素等信息與構(gòu)成該詞的字母之間的對應(yīng)關(guān)系。
[0098]根據(jù)一種實現(xiàn)方式,計算單元520可以通過計算來獲得參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將所獲得的參考信息與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在服務(wù)器存儲單元510中。在這種實現(xiàn)方式中,數(shù)據(jù)處理設(shè)備500可以在后續(xù)處理中將其存儲的預(yù)定文本和參考語音對應(yīng)的參考信息提供給用戶客戶端(例如上文所描述的語音質(zhì)量評價設(shè)備200或400)。
[0099]此外,根據(jù)另一種實現(xiàn)方式,計算單元520也可以根據(jù)所獲得的參考信息獲得參考語音的參考語音特征,并將該參考語音特征保存在服務(wù)器存儲單元510中。在這種實現(xiàn)方式中,數(shù)據(jù)處理設(shè)備500可以在后續(xù)處理中將其存儲的預(yù)定文本和參考語音特征提供給用戶客戶端(例如上文所描述的語音質(zhì)量評價設(shè)備200或400)。
[0100]其中,參考信息例如可以是從參考語音中提取到的節(jié)奏信息、特征參數(shù)或基頻信息等,參考語音的參考語音特征可采用與上文中所描述的用戶語音特征的獲取方式相同的處理方式來獲得,并能夠達到相類似的技術(shù)效果,這里不再贅述。此外,根據(jù)參考信息獲得參考語音特征的過程可以參考上文所舉例描述的根據(jù)用戶語音的節(jié)奏信息、特征參數(shù)或基頻信息來計算用戶語音特征的過程,這里不再詳述。
[0101]此外,本發(fā)明的實施例還提供了一種語音處理設(shè)備,該設(shè)備適于駐留在計算機中,并包括:參考語音接收單元,適于接收特定用戶針對預(yù)定文本所錄入的語音作為參考語音,并將參考語音發(fā)送給預(yù)定服務(wù)器;以及計算單元,適于計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。
[0102]圖6示出了根據(jù)本發(fā)明的實施例的語音處理設(shè)備600的一個示例。如圖6所示,語音處理設(shè)備600包括參考語音接收單元610??蛇x地,語音處理設(shè)備還可以包括計算單元620。
[0103]如圖6所示,根據(jù)一種實現(xiàn)方式,當(dāng)語音處理設(shè)備600只包括參考語音接收單元610時,可以通過參考語音接收單元610來接收特定用戶(如以預(yù)定文本語言為母語的用戶或與該語言相關(guān)的專業(yè)語言教師等)針對預(yù)定文本所錄入的語音,作為參考語音,并將參考語音發(fā)送給預(yù)定服務(wù)器(如上文中結(jié)合圖5所描述的數(shù)據(jù)處理設(shè)備500所駐留的服務(wù)器)。
[0104]此外,根據(jù)另一種實現(xiàn)方式,語音處理設(shè)備600還可以包括計算單元620,其可以計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將獲得的參考信息與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)獲得的參考信息獲得參考語音的參考語音特征,以將參考語音特征與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。
[0105]在實際應(yīng)用中,語音處理設(shè)備600可以對應(yīng)于設(shè)置在計算機或其他終端上的教師客戶端,例如以軟件實現(xiàn)。
[0106]教師客戶端的使用者可以針對預(yù)定文本中的每個語句錄制標(biāo)準(zhǔn)語音,以作為參考語音發(fā)送給相應(yīng)的服務(wù)器端,由服務(wù)器端執(zhí)行后續(xù)處理。這種情況下,可以方便服務(wù)器通過互聯(lián)網(wǎng)采集參考語音,而不需參與錄制語音的處理,能夠節(jié)省時間和操作。
[0107]此外,教師客戶端也可以直接在本地對其錄制的標(biāo)準(zhǔn)語音(即參考語音)進行處理分析,生成與該標(biāo)準(zhǔn)語音相對應(yīng)的參數(shù)(如參考語音特征),并連同預(yù)定文本一起傳輸?shù)椒?wù)器端存儲,從而能夠減少服務(wù)器端的處理負載。
[0108]另外,本發(fā)明的實施例還提供了一種移動終端,包括如上所述的語音質(zhì)量評價設(shè)備。該移動終端例如可以是手機(如智能手機)或平板電腦等移動通信設(shè)備。此外,該移動終端可以具有上述語音質(zhì)量評價設(shè)備所具有的功能,并能夠達到相類似的技術(shù)效果,這里不再詳述。
[0109]此外,本發(fā)明的實施例還提供了一種語音質(zhì)量評價系統(tǒng),該系統(tǒng)包括如上所述的語音質(zhì)量評價設(shè)備200或400和如上所述的數(shù)據(jù)處理設(shè)備500。
[0110]根據(jù)一種實現(xiàn)方式,上述語音質(zhì)量評價系統(tǒng)除了包括上述語音質(zhì)量評價設(shè)備200或400和上述數(shù)據(jù)處理設(shè)備500之外,還可以選擇性地包括服務(wù)器,其中,服務(wù)器中設(shè)有如上所述的語音處理設(shè)備600。
[0111]在這種實現(xiàn)方式中,語音質(zhì)量評價系統(tǒng)中的語音質(zhì)量評價設(shè)備200或400可以對應(yīng)于設(shè)置于計算機或移動終端中的用戶客戶端,數(shù)據(jù)處理設(shè)備500可以對應(yīng)于設(shè)置于服務(wù)器端,而語音處理設(shè)備600可以對應(yīng)于教師客戶端。在實際處理中,教師客戶端可以向服務(wù)器端提供參考語音(可選地還可以提供參考語音的特征參數(shù)或參考語音特征),服務(wù)器用于存儲這些信息和預(yù)定文本,而用戶客戶端則可以從服務(wù)器下載這些信息來分析用戶輸入的用戶語音,以對其完成語音質(zhì)量評價。處理的細節(jié)可以分別參考以上結(jié)合圖2或4、圖5以及圖6所給出的描述,這里不再贅述。
[0112]此外,本發(fā)明的實施例還提供了一種語音質(zhì)量評價方法,該方法包括如下步驟:從預(yù)定服務(wù)器下載預(yù)定文本和與預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞;接收用戶針對預(yù)定文本所錄入的用戶語音;獲取用戶語音的用戶語音特征;以及基于參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。
[0113]下面結(jié)合圖7來描述上述語音質(zhì)量評價方法的一種示例性處理。如圖7所示,根據(jù)本發(fā)明一個實施例的語音質(zhì)量評價方法的示例性處理流程700開始于步驟S710,然后,執(zhí)行步驟S715。
[0114]在步驟S715中,從預(yù)定服務(wù)器下載預(yù)定文本和與該預(yù)定文本對應(yīng)的參考語音特征。其中,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞。然后,執(zhí)行步驟S720,其中,步驟S715中的處理例如可以與上文中結(jié)合圖2所描述的下載單元210的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。
[0115]在步驟S720中,接收用戶針對預(yù)定文本所錄入的用戶語音。然后,執(zhí)行步驟S730。其中,步驟S720中的處理例如可以與上文中結(jié)合圖2所描述的用戶語音接收單元220的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。
[0116]根據(jù)一種實現(xiàn)方式,預(yù)定文本和參考語音特征是預(yù)先從預(yù)定服務(wù)器下載獲得的。
[0117]根據(jù)另一種實現(xiàn)方式,預(yù)定文本是預(yù)先從預(yù)定服務(wù)器下載獲得的,而參考語音特征是利用與預(yù)定文本的各語句對應(yīng)的參考語音的各語音段的基頻曲線的、從預(yù)定服務(wù)器預(yù)先下載的分段多項式計算獲得的。
[0118]在步驟S730中,獲取用戶語音的用戶語音特征。然后,執(zhí)行步驟S740。其中,步驟S730中的處理例如可以與上文中結(jié)合圖2所描述的特征獲取單元230的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。
[0119]其中,用戶語音特征例如可以包括節(jié)奏特征、重音特征以及韻律特征中的至少一種。
[0120]根據(jù)一種實現(xiàn)方式,在步驟S730中,例如可以利用預(yù)定聲學(xué)模型將用戶語音與預(yù)定文本進行強制對齊,以確定預(yù)定文本中的每個詞和/或每個詞中的每個音節(jié)和/或每個音節(jié)的每個音素與用戶語音的部分之間的對應(yīng)關(guān)系,并基于該對應(yīng)關(guān)系獲得用戶語音的用戶語音特征。
[0121]在步驟S740中,基于預(yù)定文本對應(yīng)的參考語音特征與用戶語音特征之間的相關(guān)性,計算用戶語音的語音質(zhì)量。其中,步驟S740中的處理例如可以與上文中結(jié)合圖2所描述的語音質(zhì)量計算單元240的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。然后,在步驟S750中結(jié)束處理流程700。
[0122]此外,根據(jù)另一種實現(xiàn)方式,在步驟S740之后,還可以選擇性地包括如下步驟:可視化輸出語音質(zhì)量的計算結(jié)果。
[0123]其中,語音質(zhì)量的計算結(jié)果可以包括:反映語音質(zhì)量的分?jǐn)?shù);和/或用戶語音特征和參考語音特征之間的差別。
[0124]此外,根據(jù)一種實現(xiàn)方式,處理流程700可以選擇性地包括如下步驟:從預(yù)定服務(wù)器下載與預(yù)定文本對應(yīng)的參考語音;以及例如根據(jù)用戶指令來播放參考語音。
[0125]另外,根據(jù)一種實現(xiàn)方式,處理流程700還可以選擇性地包括如下步驟:例如根據(jù)用戶指令來播放用戶語音。
[0126]通過以上描述可知,上述根據(jù)本發(fā)明的實施例的語音質(zhì)量評價方法,其基于獲取的用戶語音的用戶語音特征和參考語音特征之間的相關(guān)性,來計算用戶語音的語音質(zhì)量。該方法在計算用戶語音的語音質(zhì)量的過程中考慮了用戶語音和參考語音之間的相關(guān)性,其利用參考語音特征所構(gòu)成的模型來分析用戶語音的質(zhì)量,克服了以往傳統(tǒng)技術(shù)只是利用聲學(xué)模型、而未利用參考語音來計算用戶語音得分的缺陷。
[0127]該方法設(shè)置在用戶客戶端對應(yīng)的計算機或移動終端上,但其所使用的預(yù)定文本和參考語音特征是從預(yù)定服務(wù)器下載而獲得的,因此,該方法不必通過計算來獲得上述參考語音特征,從而能夠節(jié)省計算時間和計算量。
[0128]此外,當(dāng)服務(wù)器中存在較多的預(yù)定文本時,用戶能夠根據(jù)實際需要從中選擇性地下載一個或多個以及相關(guān)的參考語音特征,而不需要下載全部,故能夠節(jié)省用戶客戶端所駐留的計算機或移動終端上的存儲空間。
[0129]此外,上述根據(jù)本發(fā)明的實施例的語音質(zhì)量評價方法對應(yīng)于用戶客戶端,其對用戶語音的計算和評價是在客戶端計算機或客戶端移動終端上完成的,而現(xiàn)有的語音技術(shù)通常是在服務(wù)器端完成對用戶語音的計算和評價的,本發(fā)明的語音質(zhì)量評價方法使用戶可以進行離線學(xué)習(xí)(已下載存儲學(xué)習(xí)材料的情況下),而無需像現(xiàn)有技術(shù)那樣必須進行在線學(xué)習(xí)。
[0130]此外,本發(fā)明的實施例還提供了一種數(shù)據(jù)處理方法,該方法適于在服務(wù)器中執(zhí)行,并包括:存儲預(yù)定文本以及與預(yù)定文本對應(yīng)的參考語音;以及計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存。
[0131]下面結(jié)合圖8來描述上述數(shù)據(jù)處理方法的一種示例性處理。如圖8所示,根據(jù)本發(fā)明一個實施例的數(shù)據(jù)處理方法的示例性處理流程800開始于步驟S810,然后,執(zhí)行步驟S820。
[0132]在步驟S820中,存儲預(yù)定文本和與預(yù)定文本對應(yīng)的參考語音。然后,執(zhí)行步驟S830。其中,步驟S820中的處理例如可以與上文中結(jié)合圖5所描述的服務(wù)器存儲單元510的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。其中,參考語音例如可以是從外部接收的特定用戶針對所述預(yù)定文本錄制的語音。
[0133]在步驟S830中,計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存,或根據(jù)計算的參考信息獲得參考語音的參考語音特征并將該參考語音特征與預(yù)定文本中的每個語句相關(guān)聯(lián)地保存。其中,步驟S830中的處理例如可以與上文中結(jié)合圖5所描述的獲得單元520的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。然后,在步驟S840中結(jié)束處理流程800。
[0134]此外,本發(fā)明的實施例還提供了一種語音處理方法,該方法適于在計算機中執(zhí)行,并包括如下步驟:接收特定用戶針對預(yù)定文本所錄入的語音作為參考語音,并將參考語音發(fā)送給預(yù)定服務(wù)器;以及計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)計算的參考信息獲得參考語音的參考語音特征、以將參考語音特征與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。
[0135]下面結(jié)合圖9來描述上述語音處理方法的一種示例性處理。如圖9所示,根據(jù)本發(fā)明一個實施例的語音處理方法的示例性處理流程900開始于步驟S910,然后,執(zhí)行步驟S920。
[0136]在步驟S920中,接收特定用戶針對預(yù)定文本所錄入的語音,作為參考語音。可選地,在步驟S920中,還可以將參考語音發(fā)送給預(yù)定服務(wù)器。然后,執(zhí)行步驟S930。其中,步驟S920的處理例如可以與上文中結(jié)合圖6所描述的參考語音接收單元610的處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。
[0137]在步驟S930中,計算參考語音中與預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的參考信息與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。然后在步驟S940中結(jié)束處理流程1000。其中,步驟S930的處理例如可以與上文中結(jié)合圖6所描述的計算單元620的前部分處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。然后在步驟S940中結(jié)束處理流程900。
[0138]需要說明的是,在其他實施例中,處理流程900也可以不包括上述步驟S930,也即,只將參考語音發(fā)送給預(yù)定服務(wù)器,而不再計算及發(fā)送參考信息。
[0139]此外,圖10示出了上述語音處理方法的另一種示例性處理。如圖10所示,根據(jù)本發(fā)明一個實施例的語音處理方法的示例性處理流程1000開始于步驟S1010,然后,執(zhí)行步驟 S1020。
[0140]在步驟S1020中,接收特定用戶針對預(yù)定文本所錄入的語音,作為參考語音??蛇x地,在步驟S1020中,還可以將參考語音發(fā)送給預(yù)定服務(wù)器。然后,執(zhí)行步驟S1030。
[0141]在步驟S1030中,根據(jù)計算的參考信息獲得參考語音的參考語音特征,以將參考語音特征與預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器。然后在步驟S1040中結(jié)束處理流程1000。其中,步驟S1030的處理例如可以與上文中結(jié)合圖6所描述的計算單元620的后部分處理相同,并能夠達到相類似的技術(shù)效果,在此不再贅述。
[0142]All:一種語音質(zhì)量評價方法,包括如下步驟:從預(yù)定服務(wù)器下載預(yù)定文本和與所述預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞;接收用戶針對所述預(yù)定文本所錄入的用戶語音;獲取所述用戶語音的用戶語音特征;以及基于所述參考語音特征與所述用戶語音特征之間的相關(guān)性,計算所述用戶語音的語音質(zhì)量。A12:根據(jù)All所述語音質(zhì)量評價方法中,所述用戶語音特征包括節(jié)奏特征、重音特征以及韻律特征中的至少一種。A13:根據(jù)All或A12所述的語音質(zhì)量評價方法,其中所述獲取所述用戶語音的用戶語音特征的步驟包括:利用預(yù)定聲學(xué)模型將所述用戶語音與所述預(yù)定文本進行強制對齊,以確定所述預(yù)定文本中的每個詞和/或每個詞中的每個音節(jié)和/或每個音節(jié)的每個音素與所述用戶語音的部分之間的對應(yīng)關(guān)系;以及基于所述對應(yīng)關(guān)系計算所述用戶語音的用戶語音特征。A14:根據(jù)All或A12所述的語音質(zhì)量評價方法還包括:可視化輸出所述語音質(zhì)量的計算結(jié)果。A15:根據(jù)A14所述的語音質(zhì)量評價方法所述語音質(zhì)量的計算結(jié)果包括:反映所述語音質(zhì)量的分?jǐn)?shù);和/或所述用戶語音特征和所述參考語音特征之間的差別。。A16:根據(jù)All或A12所述的語音質(zhì)量評價方法還包括:從所述預(yù)定服務(wù)器下載與所述預(yù)定文本對應(yīng)的參考語音;以及播放所述參考語音。。A13:根據(jù)A16所述的語音質(zhì)量評價方法還包括:播放所述用戶語音。A18:一種數(shù)據(jù)處理方法,該方法適于在服務(wù)器中執(zhí)行,并包括:存儲預(yù)定文本以及與所述預(yù)定文本對應(yīng)的參考語音;以及計算所述參考語音中與所述預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的所述參考信息與所述預(yù)定文本中的每個語句相關(guān)聯(lián)地保存,或根據(jù)計算的所述參考信息獲得所述參考語音的參考語音特征、以將所述參考語音特征與所述預(yù)定文本中的每個語句相關(guān)聯(lián)地保存。A19:根據(jù)A18所述的數(shù)據(jù)處理方法中,所述參考語音是從外部接收的特定用戶針對所述預(yù)定文本錄制的語音。A20:—種語音處理方法,該方法適于在計算機中執(zhí)行,并包括:接收特定用戶針對預(yù)定文本所錄入的語音作為參考語音,并將所述參考語音發(fā)送給預(yù)定服務(wù)器;以及計算所述參考語音中與所述預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的所述參考信息與所述預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)計算的所述參考信息獲得所述參考語音的參考語音特征、以將所述參考語音特征與所述預(yù)定文本相關(guān)聯(lián)地發(fā)送至所述預(yù)定服務(wù)器。A21:—種移動終端,包括根據(jù)本發(fā)明的語音質(zhì)量評價設(shè)備。A22:—種語音質(zhì)量評價系統(tǒng),包括根據(jù)本發(fā)明的語音質(zhì)量評價設(shè)備和數(shù)據(jù)處理設(shè)備。A23:根據(jù)A22所述的語音質(zhì)量評價系統(tǒng)包括:根據(jù)本發(fā)明的語音質(zhì)量評價設(shè)備;服務(wù)器;以及根據(jù)本發(fā)明的語音處理設(shè)備。
[0143]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
[0144]本領(lǐng)域那些技術(shù)人員應(yīng)當(dāng)理解在本文所公開的示例中的設(shè)備的模塊或單元或組件可以布置在如該實施例中所描述的設(shè)備中,或者可替換地可以定位在與該示例中的設(shè)備不同的一個或多個設(shè)備中。前述示例中的模塊可以組合為一個模塊或者此外可以分成多個子模塊。
[0145]本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
[0146]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0147]此外,所述實施例中的一些在此被描述成可以由計算機系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實施的方法或方法元素的組合。因此,具有用于實施所述方法或方法元素的必要指令的處理器形成用于實施該方法或方法元素的裝置。此外,裝置實施例的在此所述的元素是如下裝置的例子:該裝置用于實施由為了實施該發(fā)明的目的的元素所執(zhí)行的功能。
[0148]如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來描述普通對象僅僅表示涉及類似對象的不同實例,并且并不意圖暗示這樣被描述的對象必須具有時間上、空間上、排序方面或者以任意其它方式的給定順序。
[0149]盡管根據(jù)有限數(shù)量的實施例描述了本發(fā)明,但是受益于上面的描述,本【技術(shù)領(lǐng)域】內(nèi)的技術(shù)人員明白,在由此描述的本發(fā)明的范圍內(nèi),可以設(shè)想其它實施例。此外,應(yīng)當(dāng)注意,本說明書中使用的語言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。對于本發(fā)明的范圍,對本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。
【權(quán)利要求】
1.一種語音質(zhì)量評價設(shè)備,包括: 下載單元,適于從預(yù)定服務(wù)器下載預(yù)定文本和與所述預(yù)定文本對應(yīng)的參考語音特征,該預(yù)定文本包括一個或者多個語句,且每個語句包括一個或者多個詞; 用戶語音接收單元,適于接收用戶針對所述預(yù)定文本所錄入的用戶語音; 特征獲取單元,適于獲取所述用戶語音的用戶語音特征;以及語音質(zhì)量計算單元,適于基于所述參考語音特征與所述用戶語音特征之間的相關(guān)性,計算所述用戶語音的語音質(zhì)量。
2.根據(jù)權(quán)利要求1所述的語音質(zhì)量評價設(shè)備,其中,所述用戶語音特征包括節(jié)奏特征、重音特征以及韻律特征中的至少一種。
3.根據(jù)權(quán)利要求1或2所述的語音質(zhì)量評價設(shè)備,其中,所述特征獲取單元包括: 對齊子單元,適于利用預(yù)定聲學(xué)模型將所述用戶語音與所述預(yù)定文本進行強制對齊,以確定所述預(yù)定文本中的每個詞和/或每個詞中的每個音節(jié)和/或每個音節(jié)的每個音素與所述用戶語音的部分之間的對應(yīng)關(guān)系;以及 特征計算子單元,適于基于所述對應(yīng)關(guān)系計算所述用戶語音的用戶語音特征。
4.根據(jù)權(quán)利要求1或2所述的語音質(zhì)量評價設(shè)備,還包括: 輸出單元,適于可視化輸出所述語音質(zhì)量的計算結(jié)果。
5.根據(jù)權(quán)利要求4所述的語音質(zhì)量評價設(shè)備,其中,所述輸出單元適于輸出如下結(jié)果來作為所述語音質(zhì)量的計算結(jié)果: 反映所述語音質(zhì)量的分?jǐn)?shù);和/或 所述用戶語音特征和所述參考語音特征之間的差別。
6.根據(jù)權(quán)利要求1或2所述的語音質(zhì)量評價設(shè)備,其中,所述下載單元還適于從所述預(yù)定服務(wù)器下載與所述預(yù)定文本對應(yīng)的參考語音;所述語音質(zhì)量評價設(shè)備還包括: 播放單元,適于播放所述參考語音。
7.根據(jù)權(quán)利要求6所述的語音質(zhì)量評價設(shè)備,其中,所述播放單元還適于播放所述用戶語音。
8.一種數(shù)據(jù)處理設(shè)備,該設(shè)備適于駐留在服務(wù)器中,并包括:服務(wù)器存儲單元,適于存儲預(yù)定文本以及與所述預(yù)定文本對應(yīng)的參考語音;以及計算單元,適于計算所述參考語音中與所述預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的所述參考信息與所述預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在所述服務(wù)器存儲單元中,或根據(jù)計算的所述參考信息獲得所述參考語音的參考語音特征、以將所述參考語音特征與所述預(yù)定文本中的每個語句相關(guān)聯(lián)地保存在所述服務(wù)器存儲單元中。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)處理設(shè)備,其中, 所述服務(wù)器存儲單元適于從外部接收特定用戶針對所述預(yù)定文本錄制的語音來作為所述參考語音。
10.一種語音處理設(shè)備,該設(shè)備適于駐留在計算機中,并包括: 參考語音接收單元,適于接收特定用戶針對預(yù)定文本所錄入的語音作為參考語音,并將所述參考語音發(fā)送給預(yù)定服務(wù)器;以及 計算單元,適于計算所述參考語音中與所述預(yù)定文本的每個語句對應(yīng)的語音段的參考信息,并將計算的所述參考信息與所述預(yù)定文本相關(guān)聯(lián)地發(fā)送至預(yù)定服務(wù)器,或根據(jù)計算的所述參考信息獲得所述參考語音的參考語音特征、以將所述參考語音特征與所述預(yù)定文本相關(guān)聯(lián)地發(fā)送至所述預(yù)定服務(wù)器。
【文檔編號】G10L25/60GK104505103SQ201410736332
【公開日】2015年4月8日 申請日期:2014年12月4日 優(yōu)先權(quán)日:2014年12月4日
【發(fā)明者】林暉 申請人:上海流利說信息技術(shù)有限公司