專利名稱:基于高斯混合模型的變換中的軟校準的制作方法
基于高斯混合模型的變換中的軟校準
背景技術:
本公開涉及例如使用基于高斯混合模型(GMM)技術的標量變換 或矢量變換,以用于生成聲音轉換函數(shù)。聲音轉換是源說話者的聲音(例 如,音調、發(fā)音)到目標說話者的聲音的自適應特性。近年來,對高效 地生成其它相關轉換模型的聲音轉換系統(tǒng)和應用的興趣顯著提高。這種 系統(tǒng)的一個應用涉及個性化文本轉語音(TTS)系統(tǒng)中的聲音轉換的用 戶。如果沒有聲音轉換技術和對來自不同說話者的語音矢量的有效變 換,則只能通過耗時、昂貴的過程(諸如,大量的錄音和人工注解)來 創(chuàng)建新的聲音。
公知的基于GMM的矢量變換可以用在聲音轉換和其它變換應用 中,這是通過根據(jù)源說話者和目標說話者的特征矢量來生成聯(lián)合特征 矢量,接著通過使用該聯(lián)合矢量來訓練GMM參數(shù),并且最終創(chuàng)建源聲 音和目標聲音之間的轉換函數(shù)。典型的聲音轉換系統(tǒng)包括三個主要步 驟特征提取、源說話者和目標說話者的已提取特征之間的校準、以及 對經(jīng)校準的源矢量和目標矢量的GMM訓練。在典型的系統(tǒng)中,源矢量 序列和目標矢量序列之間的矢量校準必須在訓練GMM參數(shù)之前或創(chuàng)建 轉換函數(shù)之前執(zhí)行。例如,如果錄制了來自兩個不同說話者的一組相同 的講話,則在試圖建立轉換函數(shù)之前,必須在兩個錄音中識別相應的講 話。這個概念被稱為源矢量和目標矢量的校準。
傳統(tǒng)的矢量校準技術通常是例如通過專家來人工執(zhí)行,或者通過動 態(tài)時間彎曲(DTW)過程來自動地執(zhí)行。然而,人工和DTW二者都具 有明顯的缺點,這些缺點對矢量變換的整體質量和效率可能具有負面影 響。例如,這兩種方案都依賴于"硬校準"的概念。也即,對于每個目 標矢量,將每個源矢量確定為精確地與一個目標矢量完全校準,或者確定為根本沒有被校準,反之亦然。
參考圖1,在源矢量序列110和目標矢量序列120之間示出了傳統(tǒng) 硬校準方案的例子。矢量序列110和120分別包含特征矢量集合Xi - x16
和y廣y16,其中每個特征矢量(語音矢量)可以表示例如較大聲音片段
中的基本語音聲音。這些矢量序列IIO和120可以是等價的(也即,包
含許多相同語音特征),例如對說著相同單詞或短語兩個不同的人進行 錄音所形成的矢量序列。如圖1中所示,即使是等價的矢量序列也常常 包含不同數(shù)量的矢量,并且也可能在序列中的不同位置具有等價的語音
特征(例如xw和y12)。例如,源說話者對某些聲音發(fā)音可能比目標說 話者要慢,或者在聲音之間停頓的比目標說話者稍長,等等。因此,在 源矢量和目標矢量之間的一對一的硬校準常常結果導致丟棄某些特征 矢量(例如,x4、 x5、 x1()...),或者導致對特征矢量的復制或插值以為校 準匹配創(chuàng)建額外配對。其結果是,小的校準錯誤可能被放大成更大的錯 誤,并且整個校準過程可能變得更加復雜和高代價。最后,在許多情況 下硬校準可能是完全不可能的。即使是最好的專家或任何DTW自動裝 置常常也不能將從話音中提取的特征矢量完全校準。因此,硬校準意味 著即使其被完美無缺地執(zhí)行也仍然存在某種程度的錯誤。
作為由硬校準方案引起的校準錯誤放大的例子,圖2示出將要為了 矢量變換而進行;歐準的源序列210和目標序列220的框圖。在這個例子 中,序列210和220雖然是相同的,但是在不同的奇偶位上被兩取一地 抽取。因此,就像在許多現(xiàn)實世界情景中一樣,完美的一對一的特征矢 量匹配是不可能的,因為被完美地校準的源矢量-目標矢量配對是不可 獲得的。使用硬校準方案,每個目標矢量與其最近的源矢量配對,并且 在此后將該配對假設為完全、完美地校準。因此,可能無法檢測到或者 考慮校準錯誤,因為在校準過程中沒有考慮其它附近的矢量。結果,硬 校準方案可以生成引入噪聲到數(shù)據(jù)模型中,增加校準誤差,并且導致校 準過程的更大的復雜性。
因此,需要一種對數(shù)據(jù)序列進行校準以用于矢量變換(諸如用于聲 音轉換的、基于GMM的變換)的方法和系統(tǒng)。
發(fā)明內容
根據(jù)前述背景知識,下面給出本發(fā)明的簡化概要,目的是提供對本 發(fā)明的某些方面的基本理解。該概要不是對本發(fā)明的詳盡的縱覽,并非 意在標識本發(fā)明的關鍵和重要元素或者描繪本發(fā)明的范圍。以下概要僅 僅以筒化形式提供本發(fā)明的某些概念,以作為下文^是供的更詳細描述的前序。
根據(jù)本發(fā)明的一個方面,源矢量和目標矢量之間的校準可以在變換 過程期間執(zhí)行,所述變換例如是在源說話者和目標說話者之間的基于高
斯混合模型(GMM)的語音矢量變換。在生成變換模型和轉換函數(shù)之 前,通過使用軟校準方案對源矢量和目標矢量進行校準,使每個源矢量 -目標矢量配對無需一對一地完全校準。反之,可以標識包括單個源矢 量或目標矢量的多個矢量配對以及針對每個配對的校準概率。可以基于 該矢量配對和相關聯(lián)的概率來生成聯(lián)合特征矢量的序列。
根據(jù)本發(fā)明的另 一方面,諸如GMM模型和矢量轉換函數(shù)之類的變 換模型可以基于源矢量和目標矢量以及所估計的校準概率來計算。變換 模型參數(shù)可以通過估計算法(例如,最大期望算法)來確定。根據(jù)這些 參數(shù),可以生成模型訓練和轉換特征,以及用于變換后續(xù)源矢量和目標 矢量的轉換函數(shù)。
因此,根據(jù)本發(fā)明公開的一些方面,例如,在聲音轉換中使用的基 于GMM的變換中,可通過使用軟校準來改進自動矢量校準。所公開的 軟校準技術可以降低校準誤差,并且在執(zhí)行矢量變換時可以提高效率和 質量。
在總體上概括描述了本發(fā)明之后,現(xiàn)在將參考附圖(附圖未必是按 比例繪制的),其中
圖1是說明用于在矢量變換中使用的傳統(tǒng)硬校準方案的線框圖; 圖2是說明用于在矢量變換中使用的傳統(tǒng)硬校準方案的方框圖;圖2說明了跟蹤設備的方框圖3是根據(jù)本發(fā)明的方面說明計算設備的方框圖4是根據(jù)本發(fā)明的方面示出用于在源矢量序列和目標矢量序列之
間執(zhí)行軟校準的說明性步驟的流程圖5是根據(jù)本發(fā)明的方面說明用于在矢量變換中使用的軟校準方案
的線框圖;以及
圖6是根據(jù)本發(fā)明的方面說明用于在矢量變換中使用的軟校準方案 的方框圖。
具體實施例方式
在對各種實施例的以下描述中,對附圖進行了參考,這些附圖構成 了描述的 一部分,并且在附圖中通過說明的方式示出了可以實踐本發(fā)明 的各種實施例。應當理解,可以使用其它實施例,并且在不偏離本發(fā)明 的范圍和精神的情況下,可以做出結構上和功能上的修改。
圖3說明了根據(jù)本發(fā)明說明性實施例的、可以使用的通用計算設備 301的方框圖。設備301可具有處理器303,用于控制計算設備及其關 聯(lián)部件(包括RAM305、 ROM 307、輸入/輸出模塊309和存儲器315 ) 的整體操作。
I/O 309可包括設備301的用戶可用來提供輸入的麥克風、鍵盤、 觸摸屏、以及/或者觸筆,并且還可包括用于提供音頻輸出的一個或多個 揚聲器,以及用于提供文本、音頻視頻和/或圖形輸出的視頻顯示設備。
存儲器315可存儲由設備301使用的軟件,諸如操作系統(tǒng)317、應 用程序319以及相關聯(lián)的數(shù)據(jù)321。例如,根據(jù)本發(fā)明的說明性實施例, 由設備301使用的一個應用程序321可包括計算機可執(zhí)行指令,該指令 用于執(zhí)行此處所描述的矢量校準方案和聲音轉換算法。
參考圖4,示出了描述生成在例如GMM矢量變換中所使用的轉換 函數(shù)的流程圖。在這個例子中,函數(shù)可以與聲音轉換/語音轉換相關,并 且可涉及表示源說話者和目標說話者語音特性的矢量變換。然而,本公 開不限于這種使用。例如,任何基于高斯混合模型(GMM)的變換,或者需要標量校準或矢量校準的其它數(shù)據(jù)變換均可與本公開結合使用。
除了基于GMM的技術之外,本公開還可涉及使用其它技術的矢量變換
和數(shù)據(jù)轉換,例如基于碼本的矢量變換和/或聲音轉換。
在步驟401中,接收源特征矢量和目標特征矢量。在這個例子中, 特征矢量可對應于由源說話者和目標說話者所產(chǎn)生的相同講話,該講話 被錄音并被劃分為數(shù)字化表示的數(shù)據(jù)矢量。更具體地,源矢量和目標矢 量每個都可以基于說話者聲音的某個特性,諸如音調或線性頻譜(LSF )。 在這個例子中,與源說話者相關聯(lián)的特征矢量可以由變量
X呵XhX2,X3.,.Xt…XnJ來表示,而與目標說話者相關聯(lián)的特征矢量可由變
量y呵yi,y2,y3…yt…yn]來表示,其中xt和》是時刻t處的語音矢量。
在步驟402中,例如通過計算設備301來估計不同源矢量-目標矢
量配對的校準概率。在這個例子中,可以通過使用與隱式馬爾可夫模型
(HMM)相關的技術來估計校準概率,其中,隱式馬爾可夫模型是一
種統(tǒng)計模型,涉及從數(shù)據(jù)分布模型中的可觀察參數(shù)中提取未知的或者隱 式的參數(shù)。例如,源矢量序列和目標矢量序列中的每個不同的矢量都可 以由從左到右的有限狀態(tài)機來生成,該狀態(tài)機每個時間單元改變一次狀 態(tài)。這種有限狀態(tài)機可稱為馬爾可夫模型。另外,校準概率還可以是訓
練權重,例如表示用以生成用于基于GMM的變換的訓練參數(shù)的值。因 此,校準概率無需表示成某概率范圍(例如,0到1,或者O到100)內 的值,而可以是對應于在轉換中使用的訓練權重方案中的某個權重的值。
在源矢量序列和目標矢量序列中較小的矢量集合可以表示或屬于 音素(phoneme)或語音的基本單位。音素可以對應于實現(xiàn)單詞意思的 最小聲音單位。例如,與單詞"took"中的音素't,或者單詞"hook" 中的音素'h,相對,單詞"book"中的音素'b,實現(xiàn)所說單詞的意思。 因此來自源矢量序列和目標矢量序列的短矢量序列或者甚至是單個矢 量(也稱為"特征矢量")可對應于這些'b,、 't,和'h,聲音,或者對 應于其它的基本語音聲音。特征矢量甚至可表示諸如音幀之類的比音素 更小的聲音單元,從而使在變換中所捕獲的時間和發(fā)音信息甚至可以更為精確。在一個例子中,單個特征矢量可表示短的語音段,例如10毫 秒的語音段。接著,類似大小的特征矢量結合可以一起表示一個音素。 特征矢量還可表示語音的邊界段,諸如在較大語音段中的兩個音素之間 的過渡。
每個HMM子單詞可以由一個或多個狀態(tài)來表示,并且HMM子單 詞模型的整個集合可以級聯(lián)以形成復合HMM模型,其包括聯(lián)合特征矢 量的狀態(tài)序列M或多個狀態(tài)。例如,可以通過級聯(lián)一組用于語內
(intra-lingual)語言語音轉換的、基于獨立于說話者的音素的HMM來 生成復合HMM模型。作為另一例子,甚至可以通過級聯(lián)用于進行語間
(cross-lingual)語言聲音轉換的、基于一組獨立于語言的音素的HMM 來生成復合HMM模型。在狀態(tài)序列M的每個狀態(tài)j中,源在時刻t處 的第j個狀態(tài)占用的概率可以標記為LSj (t),而在相同時刻t處相同狀 態(tài)j的目標占用概率可以標記為LTj(t)。這些值中的每個都可以例如由計 算設備301通過使用前后(forward-backward)算法來計算,該算法對 于本領域的普通技術人員來說是公知的,其用于計算被觀察事件序列的 概率(特別是在HMM模型的上下文中)。在這個例子中,可通過以下 公式來計算源的第j個狀態(tài)占用的前向概率
aj(t"P(Xi,.."xt,x(t)"!M) = n i(")* a" * bj(x。(公式工)
并且可通過以下公式來計算源的第j個狀態(tài)占用的反向概率
pj(t) -P (xw, .," xn I x(t) =v.,M) = WS,2 ay * bj (xw) * Pi(t + !)(公式2 )
因此,源在時刻t處的第j個狀態(tài)占用的總概率可以用以下公式來
計算
LSj(Xt),(tPPj(t))/P(xlM)(公式3)
可以類似地計算源序列和目標序列中的各個時刻和狀態(tài)處的占用 概率。也即,可將對應于上面公式l-公式3的公式應用于目標說話者的 特征矢量。另外,可以使用這些值來計算源矢量-目標矢量配對被校準的概率。在這個例子中,對于被潛在地校準了的源矢量-目標矢量配對
(例如,x/和yqT,其中Xp是時刻p處來自源說話者的特征矢量,而yq 是時刻q處來自目標說話者的特征矢量),可以通過使用以下公式來計 算校準概率(PApq ),其表示特征矢量xp和yq被校準的概率
PA (Xp, yq)
=PA(Xp, yq I x(p) = /, y(q) - /)
=(P A(xp I x(p) = /) * PA(yq i y(q) = /))
=L2/=1 LS; (Xp) * LT/ (yq) (公式4 )
在步驟403中,基于源矢量-目標矢量以及基于源矢量和目標矢量 配對的校準概率來生成聯(lián)合特征矢量。在這個例子中,聯(lián)合矢量可定義 為zk = Zpq = [xpT, yqT, PApjT。因為在本發(fā)明中所描述的聯(lián)合特征矢量可
以被軟校準,所以聯(lián)合概率PApq不需要像在其它校準方案中那樣只能是
0或1。相反,在軟校準方案中,校準概率PApq可以是任何值,而不僅 僅是表示非校準或校準的布爾值(例如O或1)。因此,可以使用非布爾 概率值(例如在0到1之間連續(xù)范圍中的非整數(shù)值)以及布爾值來表示 源矢量和目標矢量配對之間的校準似然性。另外,如上所述,校準概率 還可表示諸如訓練權重之類的權重,而不是映射為特定概率。
在步驟404中,基于在步驟403中所確定的聯(lián)合特征矢量,例如由 計算設備301來計算轉換模型參數(shù)。在混合模型的上下文中,確定模型 函數(shù)或轉換函數(shù)的恰當參數(shù)常常被稱為"估計"或者類似的"缺失數(shù)據(jù)" 問題。也即,可將在該模型中所觀察到的數(shù)據(jù)點(也即,源矢量序列和 目標矢量序列)假設為具有用于對數(shù)據(jù)進行建^f莫的分布的成員身份。雖 然這種成員身份開始是未知的,但是結合被表示為所選轉換函數(shù)在各個 模型分布中的成員身份的數(shù)據(jù)點,可以通過選擇該所選轉換函數(shù)的合適 參數(shù)來進行計算。這些參數(shù)可以是例如用于基于GMM變換的訓練參數(shù)。
在這個例子中,可以使用最大期望算法來計算GMM訓練參數(shù)。在 這個兩步算法中,可以用以下公式在期望步驟中估量先驗概率T/,w = PA (Xp, yq) * P/,pg (公式5 )
在這個例子中,可通過以下公式來計算最大化步驟 Ap(/) = (1 /m * n) * %m %=i 'P/,w
= n2p=i mS『i APj^ */ "12^4 Pf,w
、- %^ %^ AP,'W * (- 、) * (- 、)T /
^"1 "^一 (公式6 )
注意,在某些實施例中,在步驟404中,可以生成用于GMM訓練 和轉換的不同特征集合。也即,軟校準特征矢量無需與GMM訓練和轉 換特征相同。
最后,在步驟405中,生成轉換模型(例如轉換函數(shù)),其可以將 特征從源模型x轉換到標模型y。在這個例子中的轉換函數(shù)可以通過以 下/>式來表示
F(x) = E (y I x) = P/(x) * (W + T嚴(2嚴)4 (x -、。)(公式7 )
現(xiàn)在,可以使用該轉換函數(shù)或建模函數(shù)來將其它的源矢量(例如, 來自說話者的語音信號)變換成目標矢量。在應用于聲音轉換時,基于 軟校準GMM的矢量變換可以用來將語音矢量變換到相應的個性化目標 說話者,例如作為文本轉語音(TTS)應用的一部分。參考圖5,所示 框圖示出了與生成源矢量序列和目標矢量序列的校準概率估計相關的 本公開的方面。源特征矢量序列510包括五個語音矢量511-515,而目 標特征矢量序列520只包括三個語音矢量521-523。如上所述,這個例 子可說明源和目標具有不同數(shù)量的特征矢量的其它常見矢量變換情形。 在這種情況下,許多傳統(tǒng)方法在矢量校準期間可能需要對特征矢量進行丟棄、復制或插值,從而使兩個序列都包含相同數(shù)量的矢量并且可以一 對一地配對。
然而,如上所述,本發(fā)明的方面描述了源矢量和目標矢量的軟校準,
而不是需要硬性的一對一的匹配。在這個例子中,狀態(tài)矢量530包含三 個狀態(tài)531-533。將源序列矢量511-515連接到狀態(tài)序列531的每個線 可以表示在時刻t處源矢量511-515對狀態(tài)531的占用概率。當根據(jù)隱 式馬爾可夫模型(HMM)或類似的建模系統(tǒng)來生成狀態(tài)序列時,狀態(tài) 序列530可具有對應于每個時間單位t的狀態(tài)531-533。如圖5所示, 源特征矢量511-515以及目標特征矢量521-523 二者中的一個或多個可 以某個校準概率占用狀態(tài)531。在這個例子中,可通過級聯(lián)狀態(tài)序列530 中的所有狀態(tài)來生成復合HMM模型。
因此,如上面參考圖4所描述的,雖然可以在單個已校準配對上來 形成狀態(tài)序列530中的狀態(tài),諸如[XpT, yqT, PAqjT,但是本公開不限于單 個已校準配對以及狀態(tài)的概率估計。例如,狀態(tài)序列530中的狀態(tài)531 形成自5個源序列511-515、 3個目標矢量521-523、以及每個潛在校準 的源矢量-目標矢量配對的概率估計。
參考圖6,示出的方框圖描述與源矢量序列和目標矢量序列相關的 本公開的方面。在這個例子中,選擇了簡化的源矢量序列610和目標矢 量序列620來說明本公開相比于傳統(tǒng)硬校準方法(諸如圖2所示方法) 的潛在優(yōu)點。在這個例子中,源矢量序列610和目標矢量序列620是相 同的,不同之處在于已經(jīng)對不同序列610和620上的不同奇偶位應用 了兩取一抽取。例如可以這樣來進行這種抽取減少來自源和目標的語 音信號的輸出采樣率,從而使采樣值需要較少的存儲空間。
回想?yún)⒖紙D2所描述的傳統(tǒng)硬校準。在該傳統(tǒng)一對一映射中,每個 目標特征矢量僅與其最近的源特征矢量進行校準。該傳統(tǒng)系統(tǒng)假設完 全且完美地對附近的配對進行了校準,因此,可能無法檢測到或者考慮 較小的校準誤差,因為沒有考慮其它附近的矢量。結果,硬校準最終可 能不太準確并且更易受校準誤差的影響。
返回圖6,在這個簡單的例子中,以相等的概率(0.5)將每個目標數(shù)量采樣與源矢量序列中距其最近的兩個特征矢量進行配對。并非總是 對通過軟校準生成的轉換特征進行一對一配對,而且還可考慮其它相關 的特征矢量。因此,使用軟校準的轉換可以更為準確并且更不易受初始 校準誤差的影響。
根據(jù)本公開的另一方面,可使用諸如圖2和圖6中的并行測試數(shù)據(jù)
來比較經(jīng)過硬校準/軟校準的GMM性能。例如,可以使用均方誤差 (MSE)計算來相對于目標特征對并行數(shù)據(jù)的硬校準和軟校準之后的轉 換特征進行基準測試(benchmark)或求值。作為公知的誤差計算方法, MSE是標準誤差平方和偏差平方的和的平方根。MSE提供了對于采樣 估計的所有所期望誤差的測量。例如,在聲音轉換的上下文中,可以計 算諸如音素或線頻譜(LSF)之類的不同語音特性的MSE,并且可對其 進行比較,以便相對于基于軟校準的GMM變換來確定硬校準的整體 GMM性能。通過針對音素特性而單獨地對每個語音段執(zhí)行十取一抽取 和配對過程從而避免段間配對,可以使比較更為魯棒。。相反,LSF比 較可能僅需要針對整個數(shù)據(jù)集應用一次十取一抽取和配對過程,因為 LSF在數(shù)據(jù)集中的語音和非語音段上是連續(xù)的。
除了在這個例子中通過使用軟校準所獲得的潛在優(yōu)點之外,在更為 復雜的現(xiàn)實世界特征矢量變換中,還可以實現(xiàn)其它優(yōu)點。當使用較為復 雜的矢量數(shù)據(jù)時(例如,具有較大初始校準誤差以及不同數(shù)量的源特征 矢量和目標特征矢量),硬校準技術常常需要在校準期間對矢量進行丟 棄、復制或插值。這種操作可以增加變換的復雜度和成本,并且還有可 能放大初始校準誤差從而對變換質量產(chǎn)生負面影響。相反,軟校準技術 在校準期間可以不需要對矢量進行丟棄、復制或插值,其可以提高變換 質量和效率。
盡管示出了具體化本發(fā)明各種方面的、在此描述的說明性系統(tǒng)和方 法,本領域的普通技術人員應當理解,本發(fā)明不限于這些實施例。本領 域的普通技術人員可以進行修改,特別是按照上述教導進行修改。例如, 上述實施例中的組件中的每個可以單獨地或結合起來或者與其它實施 例中的組件進行子結合來進行使用。還應當意識到并理解,在不偏離本發(fā)明的真正精神和范圍的情況下,可以進行修改。因此,本描述被認為 對本發(fā)明是說明性而不是限制性的。
權利要求
1. 一種用于將第一序列的特征矢量與第二序列的特征矢量進行時間校準的方法,其包括步驟接收與源相關聯(lián)的第一序列的特征矢量;接收與目標相關聯(lián)的第二序列的特征矢量;以及生成第三序列的聯(lián)合特征矢量,其中每個聯(lián)合特征矢量的生成是基于來自所述第一序列的第一矢量;來自所述第二序列的第一矢量;以及第一概率值,所述第一概率值表示來自所述第一序列的所述第一矢量與來自所述第二序列的所述第一矢量被校準到其各自序列中的相同特征的概率。
2. 根據(jù)權利要求1所述的方法,其中所述第一序列與所述第二序 列包含不同數(shù)量的特征矢量。
3. 根據(jù)權利要求1所述的方法,其中所述第一序列對應于由第一 說話者產(chǎn)生的多個講話,而所述第二序列對應于由第二說話者產(chǎn)生的相 同的多個講話。
4. 根據(jù)權利要求1所述的方法,其中所述第三序列的聯(lián)合矢量包 括隱式馬爾可夫模型。
5. 根據(jù)權利要求1所述的方法,其中所述概率是非布爾值。
6. 根據(jù)權利要求1所述的方法,其中為了生成所述第三序列的聯(lián) 合特征矢量,對于所述第三序列中的每個聯(lián)合特征矢量而言,來自所述 第一序列的所述矢量和來自所述第二序列的所述矢量是不同的矢量。
7. 根據(jù)權利要求1所述的方法,其中至少一個所述聯(lián)合特征矢量 的生成還基于來自所述第一序列的第二矢量; 來自所述第二序列的第二矢量;以及第二概率值,所述第二概率值表示來自所述第 一序列的所述第二矢 量和來自所述第二序列的所述第二矢量被校準到其各自序列中的相同 特征的概率。
8. 存儲有計算機可執(zhí)行指令的一個或多個計算機可讀介質,當所 述指令在計算機系統(tǒng)上被執(zhí)行時,其執(zhí)行一種方法,所述方法包括接收與源相關聯(lián)的第 一序列的特征矢量; 接收與目標相關聯(lián)的第二序列的特征矢量;以及 生成第三序列的聯(lián)合特征矢量,其中每個聯(lián)合特征矢量是基于來自所述第一序列的第一矢量;來自所述第二序列的第二矢量;以及概率值,所述概率值表示所述第一矢量和所述第二矢量被 校準到其各自序列中的相同特征的概率。
9. 根據(jù)權利要求8所述的計算機可讀介質,其中所述第一序列與 所述第二序列包含不同數(shù)量的特征矢量。
10. 根據(jù)權利要求8所述的計算機可讀介質,其中所述第一序列對 應于由第一說話者產(chǎn)生的多個講話,而所述第二序列對應于由第二說話 者產(chǎn)生的相同的多個講話。
11. 根據(jù)權利要求8所述的計算機可讀介質,其中所述第三序列的 聯(lián)合矢量包括隱式馬爾可夫模型。
12. 根據(jù)權利要求8所述的計算機可讀介質,其中所述概率是非布 爾值。
13. 根據(jù)權利要求8所述的計算機可讀介質,其中為了生成所述第 三序列的聯(lián)合特征矢量,對于所述第三序列中的每個聯(lián)合特征矢量而 言,來自所述第一序列的所述矢量和來自所述第二序列的所述矢量是不 同的矢量。
14. 根據(jù)權利要求8所述的計算機可讀介質,其中至少一個所述聯(lián) 合特征矢量的生成還基于來自所述第一序列的第二矢量; 來自所述第二序列的第二矢量;以及第二概率值,所述第二概率值表示來自所述第一序列的所述第二矢 量和來自所述第二序列的所述第二矢量被校準到其各自序列中的相同 特征的概率。
15. —種數(shù)據(jù)變換方法,其包括 接收與第 一 源相關聯(lián)的第 一數(shù)據(jù)序列; 接收與第二源相關聯(lián)的第二數(shù)據(jù)序列;識別多個數(shù)據(jù)配對,每個數(shù)據(jù)配對包括來自所述第一數(shù)據(jù)序列的項 和來自所述第二數(shù)據(jù)序列的項;確定多個校準概率,每個校準概率與所述多個數(shù)據(jù)配對中的一個配 對相關聯(lián);以及基于所述多個數(shù)據(jù)配對和所述相關聯(lián)的多個校準概率來確定數(shù)據(jù) 變換函數(shù)。
16. 根據(jù)權利要求15所述的方法,其中確定所述數(shù)據(jù)變換函數(shù)包 括根據(jù)高斯混合模型(GMM)和基于碼本的技術之一來計算參數(shù),所 述參數(shù)與所述數(shù)據(jù)變換相關聯(lián)。
17. 根據(jù)權利要求16所述的方法,其中對所述參數(shù)的估計包括執(zhí) 行最大期望算法。
18. 根據(jù)權利要求15所述的方法,其中所述多個校準概率中的至 少一個是非布爾值。
19. 根據(jù)權利要求15所述的方法,其中所述第一數(shù)據(jù)序列對應于 由第 一源說話者產(chǎn)生的多個講話,所述第二數(shù)據(jù)序列對應于由第二源說 話者產(chǎn)生的多個講話,并且數(shù)據(jù)變換函數(shù)包括聲音轉換函數(shù)。
20. 根據(jù)權利要求19所述的方法,還包括接收與所述第一源相關聯(lián)的第三數(shù)據(jù)序列,所述第三數(shù)據(jù)序列對應 于由所述第一源說話者產(chǎn)生的語音矢量;以及將所述聲音轉換函數(shù)應用于所述第三數(shù)據(jù)序列。
全文摘要
提供了用于在基于高斯混合模型(GMM)的矢量變換以及其它矢量變換中執(zhí)行軟校準的系統(tǒng)和方法。軟校準可以針對源特征矢量和目標特征矢量配對來指派校準概率。繼而使用矢量配對以及相關聯(lián)的概率來計算轉換函數(shù),這例如是通過根據(jù)聯(lián)合矢量和校準概率來計算GMM訓練參數(shù),以創(chuàng)建用于將語音從源說話者轉換到目標說話者的聲音轉換函數(shù)。
文檔編號G10L17/00GK101432799SQ200780014971
公開日2009年5月13日 申請日期2007年4月4日 優(yōu)先權日2006年4月26日
發(fā)明者J·尼爾米南, J·蒂安, V·博帕 申請人:諾基亞公司