發(fā)明領域
本發(fā)明涉及應用于多媒體呈現系統(tǒng)的控制和使用中的說話者識別,特別地用于以更加用戶友好的操作模式瀏覽和選擇媒體文件,并且區(qū)分由一個或更多個用戶給出的口頭命令。
本發(fā)明還涉及從多個數字數據源獲取和提供向個體用戶供給的多媒體信息的訪問控制。訪問控制方法將在多用戶和多房間環(huán)境中使用。本發(fā)明的主要方面是基于i向量提取和驗證的說話者識別方法。
發(fā)明背景
通常,家用電器(如av系統(tǒng)和媒體服務器)不會在真正的多用戶環(huán)境中運行。通常,具有帶有音樂、電影、照片和其他數字文件的文件夾的服務器/磁盤可以被所有用戶無條件地訪問,所有用戶都具有相同的優(yōu)先級和訪問權限。每個人都可以訪問和處理所有信息,如編輯文件、讀取文件、寫入/創(chuàng)建文件、刪除文件和執(zhí)行文件。
在us8,924,468中公開了適用于多用戶訪問和多媒體信息的分發(fā)的系統(tǒng)的現有技術。
在dkpa201400147中公開了用于i向量檢測和分類的方法的現有技術。
到目前為止,挑戰(zhàn)是識別可能已經分配個體資源的特定用戶。要求用戶在從it系統(tǒng)知道的普通事件中“登錄”以識別他們自己是非常不方便的。
經由口頭命令和語音識別來識別用戶的新方法是可行的應用模式,但現有系統(tǒng)在識別命令并將這些命令轉換為相關控制命令時需要在線處理方面的大量資源。
i向量特征提取方法近年來一直是說話者識別中最先進的技術。i向量捕獲總可變性,其可包括說話者、頻道和源可變性。可變長度語音話語被映射到駐留在所謂的總可變性空間中的固定長度的低維向量中。
雖然可以直接使用原始i向量分布來工作,但是i向量的固定長度已經導致了許多功能強大且眾所周知的頻道補償技術,其處理不期望的頻道可變性并因此提高了說話者識別性能。
作為一個好的起點,線性判別分析(lda)是一種非概率方法,其被用于進一步降低i向量的維數,其同時最大化說話者之間的可變性,并最小化說話者內部的可變性。在定中心和白化之后,i向量或多或少均勻分布在超球體周圍。
通常進行的重要的進一步的改進是長度歸一化,其將i向量分布轉換成對模型更直接的(幾乎)高斯分布。概率lda是一種生成模型,其使用因子分析方法來單獨對導致說話者之間和講話者內部變化的因素進行建模。在現有技術中已經提出了在i向量方法的背景下的plda的許多變體。
另一種眾所周知的方法是類內協方差歸一化(wccn),其使用類內協方差矩陣的逆來對svm分類器中的線性內核進行歸一化。在i向量建模中使用多個級聯技術是典型的:例如為了確保plda的高斯假設,在plda階段之前進行白化,然后進行長度歸一化并不罕見。
由于頻道變化和源變化都有助于降低辨別說話者的能力,因此提出的反對頻道變化和源變化的方法彼此相似并不奇怪。
當從異構數據集中提取i向量時,它們不僅會捕獲說話者和頻道可變性,還會捕獲源變化。如果未解決此源變化,則會對說話者識別性能產生不利影響。源變化的概念與語音獲取方法(例如,電話相對于麥克風頻道類型)和錄制場景(例如,電話對話相對于面談風格)有關。風格和頻道類型的各種組合(例如,通過麥克風頻道記錄的面談語音)形成由相對均勻的子集組成的異構數據集。在此工作中,數據集由電話、麥克風(通過麥克風頻道錄制的電話對話)和面談子集或源組成。
存在幾個提議來解決在總可變性建模的背景下的源變化問題。異構數據集中常見的現象是以下事實:并不是所有的源都是同樣充裕的,且大多數的說話者只出現在源中的僅一個源中。在lda的背景中,源變化將被強烈地表示并被看作為說話者之間可變性的一部分,并因此將在最終的lda變換中被最優(yōu)化。解決這個問題的一個提議是確定合適的說話者間散射矩陣。
對于總可變性矩陣本身的訓練,盡管相當粗糙,但是最簡單的方法之一是僅僅將所有訓練數據匯集到異構集中,而不區(qū)分麥克風和電話數據。更加結構化的提議建議在已經訓練過的電話數據的總可變性矩陣之上訓練用于麥克風子集的輔助矩陣。
然后從通過連結這兩個矩陣形成的總可變性矩陣提取i向量。使用這種方法看到的有趣的觀察在于,麥克風數據駐留在由矩陣連結所定義的組合空間中,而電話數據僅駐留在電話空間中。
在總可變性建模中,對于說話者、頻道和總可變性潛在變量,假定無信息先驗,因為在使用信息先驗時,通用性沒有增益。至少在涉及均勻的數據集時,該斷言成立。信息先驗編碼領域知識的觀念不是新的概念,而以前已經被用于機器學習應用。在連續(xù)語音識別的背景中,在稀疏數據的情況下也使用了信息先驗來改善無限結構svm模型的普遍化。
本發(fā)明的一般公開
本發(fā)明公開了一種用于識別多個用戶中的個體用戶以用于對多媒體呈現系統(tǒng)的控制和使用的改進方法。
一種用于識別多媒體系統(tǒng)的多個用戶中的用戶的方法,該多媒體系統(tǒng)包括用于從一個或更多個數字信息源提供多媒體內容的一個或更多個設備,以便提供對來自多媒體系統(tǒng)的多媒體內容的單獨調整的訪問和控制,該方法包括以下步驟:提供i向量集的集合,每個i向量集包括基于多媒體系統(tǒng)的用戶所說出的一個或更多個單詞并且與該用戶的訪問簡檔相關聯的i向量;從當前用戶獲取語音話語,并使用總可變性建模來提取用于語音話語的i向量;將提取的i向量與集合中的每個i向量集進行比較,以便識別與提取的i向量最相似的目標集;根據與識別的目標集相關聯的訪問簡檔向當前用戶授予對多媒體系統(tǒng)的訪問權,其中使用多個源之一來獲取語音話語。在總可變性建模中,通過以下操作將源變化最小化:
-對于每個數據源,估計源特定信息先驗,其由平均值和協方差定義,以及
-對于使用特定數據源獲取的每個語音話語,將語音話語的一階統(tǒng)計量圍繞與源相關聯的信息先驗的平均值重新定中心,并且當提取用于語音話語的i向量時,使用與源相關聯的信息先驗的協方差。
根據本發(fā)明的方面,特定源的概率分布從語音數據被估計出,并且隨后在貝葉斯意義中使用以消除總可變性模型中的源可變性。估計的概率分布被稱為“源特定信息先驗”。根據本發(fā)明的解決方案增強了基于i向量的聲音識別的性能。
根據一種方法,已經訓練的總可變性矩陣和標準的無信息先驗被用于從數據的每個子集提取i向量,并然后使用這些i向量來估計源特定信息先驗。源特定信息先驗隨后被用于后驗概率分布的計算(稱為“后驗”)以計算新的i向量集。(后驗的平均值對應于i向量。)根據這種方法,使用源特定先驗的i向量可以被用于補償不需要的源可變性。
根據另一種方法,再次訓練總可變性矩陣。在這里,源特定先驗的作用被擴展到對于給定訓練迭代重新估計“信息”總可變性矩陣所需的每個期望最大化步驟中的后驗平均值和協方差的計算。對于每個訓練迭代,初步源特定先驗被計算并用于更新信息總可變性矩陣。一旦訓練完成,信息總可變性矩陣被用于提取i向量,并根據第一種方法估計源特定先驗。根據這種方法,可以通過使用先驗信息來改善總可變性矩陣的初始對準來提高第一種方法的性能。
根據又一種方法,使用因子分析來估計信息先驗。在這種方法中,考慮后驗的平均值和協方差(其中再次地,平均值對應于i向量)。
根據本發(fā)明的解決方案可能在其中需要識別大量不同的聲音的情況下特別有用。這樣的情況存在,例如,當用戶的聲紋(i向量)被存儲在云中時(與許多其他一起),或者當識別設備的功能被擴展到包括不是家庭一部分的其他用戶時。
根據一個實施例,目標i向量的集和相關聯的訪問簡檔被存儲在遠程數據庫中并使其可被多于一個多媒體系統(tǒng)訪問。
涉及大量不同用戶的一個具體情況是基于i向量聲紋的建議的協同過濾。協同過濾意味著用戶的先前選擇與其他用戶的選擇相匹配。然后基于匹配用戶做出的附加選擇,向用戶提供內容建議。在協同過濾中,希望的是包括盡可能多的用戶,并且然后聲音識別的性能變得至關重要。根據一個實施例,存儲每個用戶的內容消費模式,并且基于與當前用戶具有相似選擇的其他用戶的選擇向當前用戶提供建議。
根據另一個實施例,該方法包括提供類的集,每個類包括基于來自具有相似特性的用戶的語音的i向量的集,并且將所提取的i向量與每個類進行比較,以識別最類似于提取的i向量的類。有用的特性的示例是年齡、性別和情緒(例如,“憤怒”、“悲傷”、“中等”等)。每次用戶識別他/她自己時,可以進行對年齡、性別和情緒的識別。
根據本發(fā)明,根據用于訪問如按照用戶定義的資源的預定權限,向多個個體用戶提供諸如數據源和目的設備的系統(tǒng)資源的專用訪問權。
更具體地,本發(fā)明實現了對個體用戶能夠并可以通過許多設備(諸如,網關、服務器、媒體控制器)來訪問哪些信息源的控制以及在諸如av系統(tǒng)、遠程命令器、手機、媒體播放器、例如ipad等的平板電腦和智能手機之類的展示設備上的呈現。
訪問媒體信息通常意味著接收、讀取和/或發(fā)送用于給定目的的信息,諸如體驗或傳送/移動媒體信息。
訪問權限被應用于考慮到正在競爭獲得對一個或更多個資源的訪問和控制的其他用戶的權限,按照用戶確定對相同資源的訪問和控制的允許。
訪問簡檔可以是描述用戶相對于設備的權限的任何類型的信息。這樣的權限可能是打開或關閉設備、將音樂聲調大/調小、改變頻道/流。
訪問方法可以包括在多媒體系統(tǒng)中的個體設置和相關功能能力,按照用戶這例如是但不限于:
●在房間或房間的一部分(即,域)中的聲偏好;偏好是呈現類型(多聲道、立體聲、全向聲空間)、默認音量、默認濾波器設置(低聲部、高聲部、平衡)。
●媒體源偏好和呈現(頻道id、房間/域名)。
●共享選項(私人、按照房間/域共享、按照用戶共享)。
●使用模式記錄(個人、全部、按照用戶、按照房間/域)。
個體用戶對個體流的訪問權限可能會影響用戶刪除/停止/啟動/更改流的權利。可以由目的設備、媒體信息的源或任何其他設備來執(zhí)行該更改/刪除等。
在當前背景中,媒體信息可以是要提供給人的任何類型的信息,諸如音頻、視頻、圖像/圖片等。
數字信息的源可以是可以從其獲得或訪問數字信息的任何源:關于www、內聯網、lan、wan、儲存器(硬盤、ram、rom、prom、閃光燈、磁帶、cd-rom、dvd等)、相機、麥克風等的或經由其可訪問的信息載體/存儲/儲存器/提供者。
目的設備可以是適于向用戶提供媒體信息的任何類型的設備,例如,tv、音頻/視頻、多媒體系統(tǒng)、媒體播放器、立體聲、監(jiān)視器等。
此外,本發(fā)明支持多媒體系統(tǒng),包括在多房間概念中的音頻或音頻/視頻的分布,其中兩個或更多個用戶共享源和呈現設備。
因此,當用戶正在移動時,與個體用戶相關的個體設置可以適應于實際使用場景,在某個房間中或房間的某個部分中。
根據一個實施例,只有當新用戶的i向量足夠(根據預定閾值)不同于所有先前存檔的i向量時才識別和注冊該新用戶。這確保使用聲音識別的可靠的用戶識別。閾值可以例如基于最小余弦距離。
根據再一實施例,i向量集包括基于第一用戶說出的一個或更多個單詞并與第一訪問簡檔相關聯的第一i向量和基于由第二用戶說出的一個或更多個單詞并與第二訪問簡檔相關聯的第二i向量,并且方法還包括向第一用戶分配第一用戶識別,向第二用戶分配第二用戶識別,將第一用戶識別為當前用戶,從第一用戶接收指示第二用戶識別的第一輸入,以及根據第二訪問簡檔授予第一用戶訪問權。使用這種方法,一個用戶可以根據另一個用戶的(例如,家庭成員的)訪問簡檔訪問媒體內容。
在這種情況下,每個訪問簡檔可以定義用戶相關的訪問權限。例如,通常不允許一個用戶修改另一用戶的偏好。
每個用戶識別可以被分配給設備上的功能鍵或設備上的圖形圖標。
識別可以通過由用戶激活諸如觸摸板、觸摸按鈕、滾輪等的元件來執(zhí)行,或者輸入可被檢測和用作識別的視覺或音頻指令。識別可以僅僅是以下信息:當前提供的流被識別或者多個選擇可以提供給用戶,然后由用戶識別其中之一。
在一個實施例中,識別步驟還包括通過用戶所說的口述單詞來識別用戶。通常,這是確定用戶權限所必需的。可選地,用戶可以由例如用戶的個人可檢測令牌來間接識別,或者目的設備的指令(或目的設備本身)可以是用戶特有的。
在一個實施例中,一個或更多個源設備被連接到連接目的設備的一個或更多個的本地網絡。然后,也可以通過該網絡提供或傳輸流。這個網絡當然可以是無線的和/或經由電線。
此外,一個或更多個源設備優(yōu)選地經由適于例如與www,wan等通信的諸如路由器、交換機、調制器、收發(fā)器等的網關設備連接到全局網絡。以這種方式,可以獲得來自本系統(tǒng)外部的信息。
可以識別一個或更多個用戶在房間/域中的存在,然后可以將該識別用于對一個或更多個源設備和一個或更多個目的設備的訪問。
在一種情況下,用戶與輸出唯一標識符的預定便攜式設備有關,識別步驟包括通過唯一標識符識別用戶。可以間歇地或者當輸出其他信息或指令時(諸如當指示目的設備時或當識別流時),輸出該唯一標識符。
系統(tǒng)可以設置有用于執(zhí)行第一方面的方法的裝置。
在系統(tǒng)的一個實施例中,識別一個或更多個用戶在房間/域中的存在,并將該識別用于對一個或更多個源設備和一個或更多個目的設備的訪問。
本發(fā)明的另一方面涉及一種通過一個或更多個設備來訪問和控制來自一個或更多個數字信息源的媒體信息的方法,該一個或更多個設備為多個用戶中的個體用戶提供內容,該方法包括以下步驟:
應用與第一用戶相關的第一i向量,并且基于由第一用戶說出的一個或更多個單詞生成和存檔第一i向量,以及
應用與第二用戶相關的第二i向量,并且基于由第二用戶說出的一個或更多個單詞生成和存檔第二i向量,以及
向與第一i向量相關的用戶分配第一用戶識別,以及
向與第二i向量相關的用戶分配第二用戶識別,以及
使得第一用戶和/或第二用戶能夠單獨訪問和控制可用的媒體源和呈現設備。
本發(fā)明的另一方面涉及一種用于最小化異構數據(多個源)的總可變性建模中的源變化的方法,借此使用信息先驗代替無信息先驗來對每個源建模,并且該方法的特征在于:
對于每個數據源,并且在提取i向量之前,估計信息先驗,其由其自身的平均值和協方差定義,并且
其中使用信息先驗,并且其中源可變性的補償方法分為兩個階段:
-在提取用于每個語音話語的i向量之前,在高維超向量空間中,一階統(tǒng)計量圍繞源特定平均值重新定中心;
-當提取用于每個語音話語的i向量時,使用信息先驗的源特定協方差來代替單位矩陣。
附圖簡述
參照示出了本發(fā)明的當前優(yōu)選的實施例的附圖,將更詳細地描述本發(fā)明。
圖1示出根據本發(fā)明的實施例的說話者檢測。
優(yōu)選實施例的詳細描述
總體技術涉及多個用戶可如何與大量多媒體信息源交互以獲得對這些信息源的訪問權和控制。
根據按照用戶的預定義的訪問權限和功能特征及選項以及可選地根據由用戶他/她自己按照用戶限定的多個偏好,用于訪問和控制的可用信息是個體的。
用戶可以獲取對信息源的訪問權,并且必須具有將訪問的信息提供到目的設備上的必要權限,例如在專用說話者組(目的)上播放特定音樂文件(源)。
可以由用戶經由無線和便攜式遙控設備來控制信息源。個體用戶在邏輯上與一個專用遙控器相關;這意味著遙控器成為反映并向特定用戶提供僅根據用戶的相關信息和用戶與在用戶的控制下的完整系統(tǒng)設備的子集的用戶交互的設備。
因此,該系統(tǒng)實現多媒體信息的源被訪問并且與呈現在與該用戶相關的目的設備上并呈現在與該個體用戶相關的遠程便攜式設備上的信息的相關子集一起被提供給特定一個個體用戶,并且其中對設備的訪問由個體用戶訪問簡檔管理。
參考圖1,將討論本發(fā)明的實施例。
使用i向量方法來進行所提出的說話者識別。這由離線注冊階段(定義模式)和在線階段(運行時模式)組成。
在離線階段中,使用大量的中性語音數據來訓練總可變性矩陣??偪勺冃跃仃囍恍璞簧梢淮危⑶铱梢詮钠渲锌梢蕴崛向量。生成總可變性矩陣,包括來自多個用戶(25)的中性語音數據。將矩陣存檔在被稱為“用戶目標”的i向量數據(10)中。
在注冊階段,注冊說話者模型。對于家庭中的每個說話者,需要生成目標模型(i向量)。在現實設置中,提出了注冊過程或設置過程。對于每個個體用戶,基于諸如“你好”的口述單詞生成實際的i向量。更多的語音,可以獲得更好的性能。例如,可以使用每個人約一分鐘的語音。
將用戶存檔在被稱為“實際用戶”的i向量數據(10)中。
生成i向量數據的裝置(15、25)可以是智能手機,包括用于檢測說話者的麥克風和用于生產和評估i向量(10)的以“應用”形式的軟件包。
i向量處理中的一個選項是,可以從用戶給出的口述單詞中推斷人的性別男性/女性或者甚至兒童/成人。這可以通過存儲i向量類的集來實現,每個包括基于來自具有相似特性(年齡、性別等)的用戶的語音的i向量的集。然后可以將提取的i向量與這些類進行比較,以便識別與提取的i向量最相似的類。因此,可以確定諸如年齡、性別、情緒等特征。請注意,年齡、性別和情緒的類可以在系統(tǒng)投入使用之前進行注冊,而用戶的身份則在進行時注冊。在用戶使用他們的語音來訪問系統(tǒng)時,年齡、性別、情緒以及id都會被識別。
在識別個體用戶的過程中,第一用戶在用戶/性別表(20)中被分配用戶識別u1。與第一用戶不同的下一個用戶在用戶/性別表(20)中被分配用戶識別u2。與任何先前識別的用戶不同的隨后的新用戶被分配下一個可用的用戶id,例如u10。
命令程序(55)被實現以編輯/刪除用戶表(20)中的條目。此外,命令程序支持將功能按鈕分配給功能表(30)中的個體用戶識別。例如,用戶(55)可以分配用戶識別u1以關聯名為“黃色”的物理按鈕,該按鈕是遠程終端上的鍵或觸摸屏上的圖標。
在運行時模式下,用戶說出單詞,例如“你好”,且系統(tǒng)確定其目標模型。首先,未知人員的短的語音話語被轉換為i向量。然后將該i向量與i向量空間中的所有其他說話者的i向量進行比較,并且將具有最短余弦距離的i向量選為目標說話者。
通過使用閾值,可以相對容易地確定測試i向量與未知人員相關,例如,如果測試i向量與所有目標i向量之間的余弦距離大于定義的閾值θ。對于未知人員說話時的情況,可以實現具體的程序。一種替代方式是檢測默認簡檔。
一旦確定了目標人員,系統(tǒng)的其余部分(如遠程控制)能夠以該人員的簡檔設置。
用戶可以激活與他/她的用戶識別(20)相關的功能按鈕-“紅色/綠色/藍色/黃色”(45),并然后系統(tǒng)將通過啟用對于由指定的用戶(addresseduser)給出的以下命令的進入模式來反應(15)。
在運行期間,雜項數據(90)可按照用戶被記錄(65)和管理,例如但不限于:
●用戶模式播放記錄(個人、全部、按照用戶、按照房間/域)。
●記錄隨時間變化的用戶行為的模式播放(40),例如哪個媒體處于活動狀態(tài)、哪里(房間/域)、何時、多長時間。
●在房間或房間的一部分(即,域)中的聲偏好(50、60);偏好是呈現類型,例如,多聲道、立體聲、全向聲空間、默認音量、默認濾波器設置(低聲部、高聲部、平衡)。
●媒體源和呈現(70、80)偏好,例如,在房間/域id中的頻道id以及在用戶所在的房間中被用作默認播放列表。
●共享選項/偏好(60),例如,私人、按照房間/域共享、按照用戶共享。
本發(fā)明在家用電器中是非常有用的,其中多個用戶并行播放并且同時以安全的方式共享全套的系統(tǒng)特征和資源以及其中以可接受的方式重視源材料的權限和目的設備的共享。
一個或更多個便攜式設備可能存在于房間中;設備中的每一個單獨地并且根據應用所討論的設備的實際用戶來更新。
便攜式設備可以經由諸如紅外線、超聲信號、藍牙或無線lan的標準手段向/從目的設備進行通信。
便攜式設備的示例是但不限于:遠程終端、av命令器、pda、ipod、手機、多媒體播放器等。
本發(fā)明的應用領域的示例是但不限于:音頻/視頻系統(tǒng)、tv、pc、筆記本電腦、dvd、hdd、sda、ssr、媒體播放器和服務器。所提及的處理多種不同類型的源材料的系統(tǒng)設備,其類型可以是但不限于:數字廣播數據、數字tv頻道、數字音頻頻道、播客、萬維網文件檔案、以及音樂文件提供商和視頻文件提供商。
在下文中,將更詳細地討論i向量識別的細節(jié),其集中于對根據本發(fā)明的預定概率分布(稱為信息先驗)的使用。
i向量范例
總可變性模型假定話語的說話者和頻道相關的gmm超向量m被建模為
mi=m0+tw(1)
其中,m0是通過連結來自ubm的平均向量而獲得的說話者無關的超向量。隱藏變量w對矩陣t的列進行加權,以解釋觀察到的與m0的偏差。矩陣t被定義為具有低的秩,以便對其中說話者和頻道可變性(因此名稱為總可變性矩陣)最相關的子空間建模??偪勺冃跃仃嚨挠柧氉裱c訓練特征聲音矩陣相同的過程。主要的區(qū)別在于,來自相同說話者的話語單獨地被視為不相關的會話。
令{o1,o2,...ot}表示給定話語o的特征序列。假定特征向量是從其平均超向量gmm中取出的,如(1)所示。對于gmm的每個混合物組成c,定義了以下baum-welch統(tǒng)計:
其中,t延伸到話語的所有幀上,且γt(c)是幀ot對第c高斯的占用。我們進一步將定中心的一階統(tǒng)計量表示為
此外,令n表示其對角塊為n(c)×i的對角矩陣,并令
其中平均向量
以及精度矩陣l=(i+tt∑-1nt。然后通過后驗分布的平均向量φ給出i向量。類似于n,在(4)中的矩陣∑通過使其對角塊由ubm的協方差矩陣組成而構成。
在隱藏變量w上的先驗通常被認為是標準正態(tài)分布。雖然確實有可能定義信息先驗,但是這個先驗可以可總是從屬于全局平均向量m0和載荷矩陣t。這個步驟導致產生的先驗變成無信息,從而不需要改變(4)。因此,至少在數據集是均勻的情況下,沒有令人信服的理由使用信息先驗。在下面,我們示出了的形式
介紹信息先驗
通過捕獲參數之間的底層依賴關系,信息先驗編碼領域知識(即源變化)。在本節(jié)中,我們提出使用最小散度準則(minimumdivergencecriterion)來估計來自異構數據集的源特定先驗。然后我們示出如何在i向量提取公式中并入信息先驗。
最小散度估計
考慮其中個體語音源(例如,nistsre中的電話、麥克風或面談)形成了相對均勻的子集,并且每個語音源具有數量為i的話語的情況。對于每個話語,我們使用已訓練的t矩陣根據(4)計算后驗分布。給定后驗分布的集,我們尋求最好地描述i后驗分布的高斯分布n(μp,∑p)。這可以通過最小化來自所有的i后驗
以及協方差矩陣
請注意,對于每個語音源,話語i的數量通常是不同的。這里的核心思想是對所有數據源使用單個t矩陣,其中對由于不同源引起的可變性進行先驗建模??傊?,t和源特定先驗的組合更好地對來自異構數據集的源上的變化進行建模。
注意,信息先驗的平均值μp通過屬于目標集的所有i向量的平均值給出(記住,i向量由后驗分布的平均值給出)。i向量與μp的偏差形成協方差∑p的經驗項,而第二項說明了i向量的后驗協方差。
使用信息先驗的后驗推論
對于當如以上估計的信息先驗代替無信息先驗使用時的一般情況,我們?yōu)楹篁灧植贾贫ū磉_式。
提議1:考慮信息先驗p(w)~n(μp,∑p),具有平均值μp和協方差矩陣∑p。后驗分布p(w|o)是高斯分布,具有平均值
和精度
請注意,通過設置μp=0和∑p=0,后驗平均值φ(即,i向量)和精度l被降低至具有如(4)中的無信息先驗的i向量提取的標準形式。
證明。假設我們有參數集(t,∑),隱藏變量w和觀察值o。給定w和參數(t,∑),o的對數似然值可被表示為兩項的總和:
logpt,∑(o|w)=gt+ht,∑(10)
其中,gt由(3)定義,以及ht,∑被定義為
由于gt不取決于w,所以不進一步考慮該項。
給定平均值μp和協方差
給定o的w的后驗分布可以通過取得(11)和(12)的乘積來獲取,如下:
其中,φ和l為上述形式。
先驗補償的i向量提取
在貝葉斯意義上,信息先驗增加了異構數據集中每個源的位置和離差(dispersion)的先驗信念。我們注意到,對于i向量空間中的每個源,觀察到不同的擴展(spread),如現有技術中也記錄的。在交叉源試驗(cross-sourcetrials)的情況下,屬于一個源的測試i向量和屬于另一個源的目標i向量不再被假設為彼此靠近,即使在表示相同的說話者時也是如此。直接應用(8)的含義會加劇語音源之間的差異,導致較差的性能。
我們提出了通過在i向量提取時期中的不同階段處應用先驗平均值和協方差來補償語音源上(例如,電話相對于麥克風)的差異。更具體地說,我們將先驗平均值投影到聲學空間,而協方差作為先驗的一部分保持不變。分離先驗平均值和協方差的操作基于我們現在將證實的邊緣化的等式。
提議2:令πc為用于通過使用先驗w~n(μp,∑p)建模m=m0+tw獲得的高斯分布c的邊緣分布。對于這個源,可以通過使用先驗w~n(0,∑p)建模m=m0+tw+tμp來實現同樣的邊緣化πc。這給出以下等式:
比較(14)的第一行和第二行,先驗平均值μp被提出到條件密度,其描述了聲學觀察o。通過這樣做,先驗平均的投影tcμp對全局平均向量m0(c)施加偏移。這也導致了在原點(即,零平均值)處具有共模但是用于個體源的不同離差分散體∑p的先驗分布。在算法上,投影tcμp通過對一階統(tǒng)計量
在某種意義上,重新定中心將異構源帶入到總可變性空間的原點處的共模,并允許先驗僅關于彼此的協方差而有所不同。
提出的先驗補償的i向量提取可被總結為以下步驟:
1.用已經訓練的t矩陣開始。對于每個源,使用如上所述的最小散度估計來提取信息先驗n(μp,∑p)。
2.圍繞相關源特定的平均值來對一階統(tǒng)計量
3.通過將用于每個源的現在的零平均值信息先驗n(μp,∑p)與相關重新定中心的一階統(tǒng)計量進行匹配來提取i向量:
其中,精度l如(9)中給出的。
本領域中的技術人員認識到,本發(fā)明決不限于上面所述的優(yōu)選實施例。相反,很多修改和變化在所附權利要求的范圍內是可能的。例如,多媒體系統(tǒng)的細節(jié)可能與圖1中的示例不同。