專利名稱:計算機語音合成自然度的評測方法和系統(tǒng)的制作方法
技術(shù)領域:
本發(fā)明涉及計算機語音合成系統(tǒng)的評測,特別是涉及計算機語音合成自然度的評測方法和系統(tǒng)。
背景技術(shù):
計算機語音合成是指通過計算機語音合成系統(tǒng),將文字信息轉(zhuǎn)換為語音信息。一個計算機語音合成系統(tǒng)的評價指標,主要包括語音的可懂度、清晰度和自然度。
要評價一個語音合成系統(tǒng)的自然度,必須要有一個評價和測試的方法。如圖1所示,對于語音合成系統(tǒng)自然度的評測目前通常是由評測主持單位選擇若干段用于評測的短文組成計算機的文本文件;各參評語音合成系統(tǒng)運行語音合成軟件將文字信息轉(zhuǎn)換為語音信息;評測主持單位運行排序軟件,將各個系統(tǒng)合成的所有語音文件隨機進行排序,生成新的語音文件;組織一定人數(shù)的測聽隊,播放排序后的語音文件,聽音人根據(jù)合成語音的自然度按MOS等級(共5等)進行打分;所有系統(tǒng)合成的所有短文播放完后,統(tǒng)計出每個系統(tǒng)的平均MOS得分。
相應于這種評測方法,現(xiàn)有的評測系統(tǒng)通常要包括一個計算機,該計算機存儲有一個排序軟件,該排序軟件對語音合成系統(tǒng)合成的語音文件進行排序。如前所述,在現(xiàn)有技術(shù)中,通常是僅對語音合成系統(tǒng)合成的語音文件進行隨機排序。
這種評測方法存在二個重要缺點一)要求聽音人能對不同的語音質(zhì)量給出按五個等級劃分的MOS分,這對聽音人的聽音要求非常高。
二)會產(chǎn)生“記憶效應”,就是在剛開始的時候,由于對播放的內(nèi)容不熟悉,主觀感覺會比較差,但在播放了許多遍后,主觀感覺就會有變化,那么排在前面播放的語音所得到的MOS分可能就不如在后面播放的高,這樣的評測方法就不是很科學。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種改進的計算機語音合成自然度評測方法,降低評測方法中對聽音人的聽音要求;本發(fā)明的目的還在于提供一種改進的計算機語音合成自然度評測方法,降低評測方法中產(chǎn)生的記憶效應;本發(fā)明最后還提供一種實現(xiàn)該方法的計算機語音合成自然度評測系統(tǒng)。
為了實現(xiàn)上述目的,本發(fā)明提供的計算機語音合成自然度的評測方法,包括步驟1)多個參評的計算機語音合成系統(tǒng)分別將多個文本文件合成為語音文件。
2)聽音人每次對同一文本文件對應的兩個計算機語音合成系統(tǒng)合成的語音文件進行兩兩對比,并給出自然度優(yōu)劣的對比結(jié)果;該兩兩對比遍及所有可能的計算機語音合成系統(tǒng)的兩兩組合,并且遍及所有的文本文件。
在步驟2)中,所述聽音人每次給出的自然度優(yōu)劣的對比結(jié)果包括兩個語音文件的自然度相同、兩個語音文件的自然度有優(yōu)劣區(qū)別。當兩個語音文件的自然度相同時,該兩個語音文件獲得相同的得分;當兩個語音文件的自然度有優(yōu)劣區(qū)別時,該兩個語音文件獲得不同的得分。當兩個語音文件的自然度有優(yōu)劣區(qū)別時,自然度優(yōu)的語音文件獲得一個相對高的得分,自然度劣的語音文件獲得一個相對低的得分;當兩個語音文件的自然度相同時,該兩個語音文件都獲得位于所述相對高的得分和所述相對低的得分之間的一個得分。聽音人對不同文本文件對應的語音文件交叉評測。
3)根據(jù)所有的對比結(jié)果,統(tǒng)計出每個計算機語音合成系統(tǒng)的評測結(jié)果。
本發(fā)明還提供一種應用于前述方法的計算機語音合成自然度的評測系統(tǒng),該評測系統(tǒng)存儲有多個參評的計算機語音合成系統(tǒng)分別對多個文本文件進行語音合成后的語音文件,并將所述語音文件排序后輸出以便聽音人進行評測,最后根據(jù)外部輸入的評測結(jié)果統(tǒng)計出每個參評的計算機語音合成系統(tǒng)的評測結(jié)果;該評測系統(tǒng)包括一計算機,該計算機包括配對列表生成模塊,用于生成配對列表,該列表包括了所有可能的計算機語音合成系統(tǒng)的兩兩配對組合;初始播放列表生成模塊,用于生成初始播放列表,該初始播放列表是將所述配對列表與所述多個文本文件分別結(jié)合而形成;配對列表中的每一個配對中包括同一個文本文件對應的兩個不同的計算機語音合成系統(tǒng)合成的語音文件;最終播放列表生成模塊,用于生成最終播放列表,該最終播放列表是將所述初始播放列表中的各個配對隨機排列;該隨即排列包括各個配對之間的隨機排列,還包括一個配對內(nèi)兩個語音文件的前后隨機排列;校驗模塊,用于根據(jù)校驗法則對最終播放列表進行校驗,如果符合校驗法則則由輸出模塊根據(jù)該最終播放列表輸出語音文件,如果不符合則由最終播放列表生成模塊重新生成最終播放列表;所述校驗法則包括a)各參評計算機語音合成系統(tǒng)在所有配對中出現(xiàn)在前的總次數(shù)相等,出現(xiàn)在后的總次數(shù)也相等;b)相同的文本文件對應的不同配對之間間隔排列;輸出模塊,用于根據(jù)最終播放列表輸出語音文件。
本發(fā)明的計算機語音合成自然度的評測系統(tǒng)對所有語音文件進行配對排序,然后按照最終播放列表輸出語音文件。
本發(fā)明的優(yōu)點在于(1)聽音人在進行評測時,只需要對兩個語音文件進行比較,而得出兩個語音文件的自然度基本相同或者有優(yōu)劣差異的評判結(jié)果,并給出相應的分數(shù)。相比于現(xiàn)有的按MOS等級對語音的自然度進行區(qū)分,本發(fā)明的方法對聽音人的要求比較低。
(2)本發(fā)明的計算機語音合成自然度的評測系統(tǒng)在生成最終播放列表時,使得不同文本文件對應的語音文件隨機交叉播放,這樣聽音人在某段連續(xù)時間內(nèi)不會因為總是聽同一語音文件而形成“記憶”。而且同一文本文件對應的語音文件先后播放的機會均等,因而它們對聽音人的影響也是相等的。
(3)本發(fā)明的計算機語音合成自然度的評測方法具有操作簡單、評測結(jié)果真實可靠等特點,對于科學、客觀、公正地評價語音合成技術(shù),促進語音技術(shù)和產(chǎn)業(yè)的發(fā)展具有重要意義。
圖1是現(xiàn)有的語音合成自然度MOS評測方法流程框圖;圖2是本發(fā)明的語音合成自然度評測方法流程框圖;圖3是本發(fā)明的語音文件排序軟件流程圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細描述。
如圖1所示,首先由評測主持單位選擇若干段用于評測的短文組成計算機的文本文件(以下簡稱“短文”)。各參評系統(tǒng)運行語音合成軟件,將評測的短文合成為語音文件。評測主持單位在一計算機上運行排序軟件,將各個系統(tǒng)合成的所有語音文件按照一定的排序方法進行組合,生成兩兩配對的語音文件,該排序方法將在下文中詳細描述。組織一定人數(shù)的測聽隊,在計算機上播放排序后的語音文件,對同一段短文,每次只播放某兩個系統(tǒng)合成的語音。聽音人根據(jù)合成語音的擬人性、連貫性及韻律感等對兩個系統(tǒng)做出判斷自然度水平基本相同或者能區(qū)分優(yōu)劣,并給出相應的分數(shù),例如,自然度水平基本相同的兩個語音文件各得1分,能區(qū)分優(yōu)劣的兩個語音文件中優(yōu)者得2分劣者得0分。每個系統(tǒng)合成的每一段短文都分別與其他系統(tǒng)進行比較,并打分。所有系統(tǒng)合成的所有短文兩兩比較完成后,統(tǒng)計出每個系統(tǒng)的得分。
本發(fā)明的語音文件排序軟件的排序策略如圖3所示,將排序過程分解為四個連貫的子過程,分別由配對列表生成模塊、初始播放列表生成模塊、最終播放列表生成模塊模塊和校驗模塊完成。為了便于理解,以一個實施例來詳細說明各個模塊的功能。在該實施例中,參加評測的語音合成系統(tǒng)為三個,分別用A、B、C表示,用于評測的短文有兩段,用數(shù)字1和2表示。首先,三個參評系統(tǒng)分別運行語音合成軟件,將這兩段短文合成為語音文件,三個系統(tǒng)合成的語音文件分別用A(1)、A(2)、B(1)、B(2)、C(1)和C(2)表示。然后進行排序,具體為第一步,配對列表生成模塊生成參評系統(tǒng)兩兩對比的配對列表,列表中的每個元素就是某兩個參評系統(tǒng)配好的對子。這里的配對是要遍及所有可能的參評系統(tǒng)的兩兩組合。在本實施例中,可能的配對組合有三種A~B、A~C和B~C,并以此順序構(gòu)成配對列表。一般來說,如果有N個參評系統(tǒng),其配對組合為CN2個。
第二步,由初始播放列表生成模塊生成初始播放列表。其中,初始播放列表生成模塊首先將配對列表生成模塊生成的配對列表和某段短文結(jié)合,就生成了該短文的一個初始播放順序表,在該順序表中,同一個短文對應的對子按配對列表順序排列。所有短文的初始播放順序表組合在一起就構(gòu)成了初始播放列表。在本實施例中,配對列表和兩段短文結(jié)合,分別生成這兩段短文的初始播放順序表,將這兩個初始播放順序表合在一起就構(gòu)成了初始播放列表,即,A(1)~B(1)、A(1)~C(1)、B(1)~C(1)、A(2)~B(2)、A(2)~C(2)、B(2)~C(2)。
第三步,最終播放列表生成模塊將初始播放列表中的各個配對隨機排列。這里所說的隨機排列包括兩個含義,一個是指各個配對之間的隨機排列,另一個是指在一個配對內(nèi)兩個語音文件的前后隨機排列。
第四步,校驗模塊根據(jù)校驗法則對中間播放列表進行校驗,如果符合校驗法則由輸出模塊根據(jù)該最終播放列表輸出語音文件,如果不符合則由最終播放列表生成模塊重新生成最終播放列表。在這里,校驗法則包括a)各參評計算機語音合成系統(tǒng)在所有配對中出現(xiàn)在前的總次數(shù)相等,出現(xiàn)在后的總次數(shù)也相等。該法則保證同一篇短文的各參評系統(tǒng)合成的語音先后播放的機會均等,因而它們對聽音人的影響也是相等的。
b)相同的短文對應的不同配對之間間隔排列。該法則使得不同文本文件對應的語音文件隨機交叉播放,從而降低了聽音人的“記憶”效應。
經(jīng)過校驗模塊的校驗,最后可通過校驗的最終播放列表可以為A(1)~B(1)、C(2)~B(2)、B(1)~C(1)、A(2)~C(2)、C(1)~A(1)、B(2)~A(2)。該列表只是所有符合要求的列表中的一種,應當理解,也可存在其它符合要求的列表。
經(jīng)過上述四步生成最終播放列表后,在計算機的輸出模塊上按照該列表播放語音文件。最后,組織30人的測聽隊,對同一段短文,每次只播放某兩個系統(tǒng)合成的語音,聽音人根據(jù)合成語音的擬人性、連貫性及韻律感等對兩個系統(tǒng)做出判斷自然度水平不相上下的,各得1分;能區(qū)分優(yōu)劣的,優(yōu)者得2分,劣者得0分。每個系統(tǒng)合成的每一段短文都分別與其他系統(tǒng)進行比較,并打分;所有系統(tǒng)合成的所有短文兩兩比較完成后,統(tǒng)計出每個系統(tǒng)的得分。
權(quán)利要求
1.一種計算機語音合成自然度的評測方法,包括步驟1)多個參評的計算機語音合成系統(tǒng)分別將多個文本文件合成為語音文件;2)聽音人每次對同一文本文件對應的兩個計算機語音合成系統(tǒng)合成的語音文件進行兩兩對比,并給出自然度優(yōu)劣的對比結(jié)果;該兩兩對比遍及所有可能的計算機語音合成系統(tǒng)的兩兩組合,并且遍及所有的文本文件;3)根據(jù)所有的對比結(jié)果,統(tǒng)計出每個計算機語音合成系統(tǒng)的評測結(jié)果。
2.根據(jù)權(quán)利要求1所述的計算機語音合成自然度的評測方法,其特征在于,在步驟2)中,所述聽音人每次給出的自然度優(yōu)劣的對比結(jié)果包括兩個語音文件的自然度相同、兩個語音文件的自然度有優(yōu)劣區(qū)別。
3.根據(jù)權(quán)利要求2所述的計算機語音合成自然度的評測方法,其特征在于,在步驟2)中,當兩個語音文件的自然度相同時,該兩個語音文件獲得相同的得分;當兩個語音文件的自然度有優(yōu)劣區(qū)別時,該兩個語音文件獲得不同的得分。
4.根據(jù)權(quán)利要求3所述的計算機語音合成自然度的評測方法,其特征在于,當兩個語音文件的自然度有優(yōu)劣區(qū)別時,自然度優(yōu)的語音文件獲得一個相對高的得分,自然度劣的語音文件獲得一個相對低的得分;當兩個語音文件的自然度相同時,該兩個語音文件都獲得位于所述相對高的得分和所述相對低的得分之間的一個得分。
5.根據(jù)權(quán)利要求1所述的計算機語音合成自然度的評測方法,其特征在于,聽音人對不同文本文件對應的語音文件交叉評測。
6.一種應用于權(quán)利要求1所述方法的計算機語音合成自然度的評測系統(tǒng),該評測系統(tǒng)存儲有多個參評的計算機語音合成系統(tǒng)分別對多個文本文件進行語音合成后的語音文件,并將所述語音文件排序后輸出以便聽音人進行評測,最后根據(jù)外部輸入的評測結(jié)果統(tǒng)計出每個參評的計算機語音合成系統(tǒng)的評測結(jié)果;該評測系統(tǒng)包括一計算機,其特征在于,該計算機包括配對列表生成模塊,用于生成配對列表,該列表包括了所有可能的計算機語音合成系統(tǒng)的兩兩配對組合;初始播放列表生成模塊,用于生成初始播放列表,該初始播放列表是將所述配對列表與所述多個文本文件分別結(jié)合而形成;配對列表中的每一個配對中包括同一個文本文件對應的兩個不同的計算機語音合成系統(tǒng)合成的語音文件;最終播放列表生成模塊,用于生成最終播放列表,該最終播放列表是將所述初始播放列表中的各個配對隨機排列;該隨即排列包括各個配對之間的隨機排列,還包括一個配對內(nèi)兩個語音文件的前后隨機排列;校驗模塊,用于根據(jù)校驗法則對最終播放列表進行校驗,如果符合校驗法則則由輸出模塊根據(jù)該最終播放列表輸出語音文件,如果不符合則由最終播放列表生成模塊重新生成最終播放列表;所述校驗法則包括a)各參評計算機語音合成系統(tǒng)在所有配對中出現(xiàn)在前的總次數(shù)相等,出現(xiàn)在后的總次數(shù)也相等;b)相同的文本文件對應的不同配對之間間隔排列;輸出模塊,用于根據(jù)最終播放列表輸出語音文件。
全文摘要
本發(fā)明公開了一種計算機語音合成自然度的評測方法及其系統(tǒng),在該方法中聽音人每次對同一文本文件對應的兩個計算機語音合成系統(tǒng)合成的語音文件進行兩兩對比,并給出自然度優(yōu)劣的對比結(jié)果;最后根據(jù)所有的對比結(jié)果,統(tǒng)計出每個計算機語音合成系統(tǒng)的評測結(jié)果。在本發(fā)明中,由計算機完成語音文件的排序,該計算機包括配對列表生成模塊、初始播放列表生成模塊、最終播放列表生成模塊和校驗模塊。本發(fā)明的評測方法對聽音人要求較低且降低了評測過程中的“記憶”效應。該評測方法具有操作簡單、評測結(jié)果真實可靠等特點,對于科學、客觀、公正地評價語音合成技術(shù),促進語音技術(shù)和產(chǎn)業(yè)的發(fā)展具有重要意義。
文檔編號G06F19/00GK1641674SQ20041000006
公開日2005年7月20日 申請日期2004年1月8日 優(yōu)先權(quán)日2004年1月8日
發(fā)明者錢躍良, 林守勛, 熊德意, 褚誠緣, 謝縈 申請人:中國科學院計算技術(shù)研究所