專利名稱::高質(zhì)量的基于碼本的聲音轉(zhuǎn)換的存儲器高效系統(tǒng)和方法
技術(shù)領(lǐng)域:
:本發(fā)明一般涉及語音處理。更具體地,本發(fā)明涉及在語音處理中聲音轉(zhuǎn)換的實(shí)現(xiàn)。
背景技術(shù):
:該部分旨在提供在權(quán)利要求中限定的本發(fā)明的背景或環(huán)境。此處的描述可包括能夠遵循的概念,但未必是先前已經(jīng)設(shè)想出或已遵循的那些概念。因此,除非這里指出,否則該部分中所描述的不是對于本申請中的說明書和權(quán)利要求書的現(xiàn)有技術(shù),并且不會通過包含在該部分而承認(rèn)是現(xiàn)有技術(shù)。聲音轉(zhuǎn)換是用于有效保護(hù)說話者身份的技術(shù),即,改變源說話者的語音,從而聽起來好像語音由不同的"目標(biāo)"說話者發(fā)出。目前,正在開發(fā)各種不同的聲音轉(zhuǎn)換系統(tǒng),并且這些系統(tǒng)可用于各種應(yīng)用中。例如,聲音轉(zhuǎn)換可用于擴(kuò)展高端文語轉(zhuǎn)換(TTS,text-to-speech)的語言組合,其還4皮稱為以成本有效方式用于標(biāo)記的聲音的高質(zhì)量或HQTTS系統(tǒng)。在這個環(huán)境下,聲音轉(zhuǎn)換可用于以原始個人不能夠說出的語言作出被標(biāo)記的合成聲音講話。此外,可使用聲音轉(zhuǎn)換創(chuàng)建新TTS聲音,并且相同的技術(shù)可被使用在多種類型的娛樂應(yīng)用和游戲中。還存在可使用聲音轉(zhuǎn)換技術(shù)實(shí)現(xiàn)的多個新特征,例如通過發(fā)送者的聲音閱讀文本消息。一種可在聲音轉(zhuǎn)換中使用的技術(shù)涉及利用基于碼本(codebook)的方法。碼本是個人發(fā)出的說話聲的集合聲音單位。碼本被構(gòu)建以便提供在源碼本中的單位條目與目標(biāo)碼本中的單位條目之間的一對一映射。有時通過將所有的可用訓(xùn)練數(shù)據(jù)合并到碼本中來實(shí)現(xiàn)碼本,有時生成更小的碼本。在M.Abe,S.Nakamura,K.Shikano,H.Kuwabara的1988年4月的ICASSP公才艮"VoiceConversionthroughVectorQuantization"中討論了基于碼本的聲音轉(zhuǎn)換,其4^P內(nèi)容通過引用合并于此。盡管基于碼本的技術(shù)很有前途,但是該技術(shù)傳統(tǒng)地具有多個缺點(diǎn)。例如,在使用碼本時,輸出常常包含多個中斷。此外,如果目標(biāo)是實(shí)現(xiàn)精確轉(zhuǎn)換結(jié)果,則使用基于碼本的方案可使得存儲器需求和計算復(fù)雜度變大。在L.MArslan,DavidTalkin的1997年9月的Eurospeech公才艮"VoiceConversionbyCodebookMappingofLineSpectralFrequenciesandExcitationSpectrum"中討論了改進(jìn)基于碼本的聲音轉(zhuǎn)換中的連續(xù)性問題的一個嘗試,其全部內(nèi)容通過引用合并于此。然而,仍舊期望進(jìn)一步緩解以上討論的問題,同時還改進(jìn)在使用基本碼本的方法時的轉(zhuǎn)換精確性。
發(fā)明內(nèi)容本發(fā)明的各實(shí)施例提供了一種用于基于碼本的聲音轉(zhuǎn)換的改進(jìn)系統(tǒng)和方法,其顯著地降低了存儲器占用量并改善了輸出的連續(xù)性。各實(shí)施例還用于降低計算復(fù)雜度和提高轉(zhuǎn)換精確性。通過將成對的源目標(biāo)碼本實(shí)現(xiàn)為多級向量量化器(MSVQ,multi-stagevectorquantizer)來實(shí)現(xiàn)占用量降低。在轉(zhuǎn)換期間,樹搜索中的N個最佳候選被視為從量化器的輸出。在尋向量的N個候選。該方法是靈活的,并且可用于不同的聲音轉(zhuǎn)換系統(tǒng)中。除此之外,各實(shí)施例可用于避免過擬合的訓(xùn)練數(shù)據(jù);可針對不同使用情況對他們進(jìn)行調(diào)整;并且針對不同存儲器占用量和復(fù)雜水平他們是可擴(kuò)展的。此外,所述系統(tǒng)和方法包括全數(shù)據(jù)驅(qū)動技術(shù);不需要聚集任何特定語言的知識??山Y(jié)合2005年4月15日遞交的美國專利申請No.11/107,334中描述的聲音轉(zhuǎn)換架構(gòu)使用本發(fā)明的各實(shí)施例,其全部內(nèi)容通過引用合并于此。由結(jié)合附圖的以下具體描述,本發(fā)明的這些以及其他優(yōu)點(diǎn)和特征及其組織和運(yùn)行方式將變得明顯,其中在以下描述的幾幅附圖中相同的元件具有相同的標(biāo)號。圖1是本發(fā)明各實(shí)施例使用的M-L樹搜索過程的示圖;圖2是可在本發(fā)明的實(shí)現(xiàn)中使用的移動電話的透視圖;以及圖3是圖2的移動電話的電話電路的示意性表示。M實(shí)施方式本發(fā)明的各實(shí)施例提供了一種用于基于碼本的聲音轉(zhuǎn)換的改進(jìn)系統(tǒng)和方法,其顯著地降低了存儲器占用量并改善了輸出的連續(xù)性。各實(shí)施例還用于降低計算復(fù)雜度和提高轉(zhuǎn)換精確性。該方法是靈活的,并且可用于不同的聲音轉(zhuǎn)換系統(tǒng)中。除此之外,各實(shí)施例可用于避免過擬合的訓(xùn)練數(shù)據(jù);可針對不同使用情況對他們進(jìn)行調(diào)整;并且針對不同存儲器占用量和復(fù)雜水平他們是可擴(kuò)展的。此外,所述系統(tǒng)和方法包括全數(shù)據(jù)驅(qū)動^t支術(shù);不需要聚集任何特定語言的知識。通過將成對的源目標(biāo)碼本實(shí)現(xiàn)為MSVQ來實(shí)現(xiàn)本發(fā)明個實(shí)施例中占用量的降低。在轉(zhuǎn)換期間,樹搜索中的N個最佳候選被視為從量化器的輸換的每個向量的N個候選。通過使用運(yùn)行在源目標(biāo)空間中的失真測量,在聯(lián)合源目標(biāo)空間中執(zhí)行成對的源目標(biāo)量化器的訓(xùn)練??墒褂枚嗉壪蛄苛炕鞯耐瑫r聯(lián)合設(shè)計算法同時訓(xùn)練所有的個別級。在LeBlanc,W.P.,Bhattacharya,B.,Mahmoud,S.A.&Cuperman,V.的關(guān)于語音和音頻處理的IEEE事務(wù)1,4(1993)第373-385頁的"EfficientSearchandDesignProceduresforRobustMulti-StageVQofLPCParametersfor4kb/sSpeechCoding"中描述了一種這樣的算法,其全部內(nèi)容通過引用合并于此。一旦完成訓(xùn)練,僅使用空間的源側(cè)來執(zhí)行搜索,同時僅使用聯(lián)合向量的目標(biāo)部分生成輸出。對于MSVQ,可根據(jù)設(shè)計目標(biāo)(包括與目標(biāo)精確度、存儲器消耗、計算復(fù)雜度等相關(guān)的目標(biāo))調(diào)整級的數(shù)量和級的大小。例如,可使用M-L樹搜索過程來實(shí)現(xiàn)搜索過程。圖1中示出該過程。圖1中所示的搜索過程包括4個級,分別指示為<:(1)、c(2)、c(3)和c(4)。對于每個級,圖i中的搜索過程限定了16個不同的向量用于選擇。對于每個級,選擇預(yù)定數(shù)目的最佳候選路徑用于進(jìn)一步處理。由于該執(zhí)行選擇,搜索可輸出N個最佳候選作為副產(chǎn)品。應(yīng)注意,搜索過程需要在中間處理期間記得最佳路徑??筛鶕?jù)設(shè)計需求和/或偏好來設(shè)置N的值。在N個最佳候選可用于待轉(zhuǎn)換的給定數(shù)目的向量之后,使用動態(tài)編程獲得優(yōu)化的輸出序列。對于每個候選,在搜索過程期間存儲相應(yīng)的源-空間距離。此外,在每個相鄰候選對之間計算轉(zhuǎn)換距離。這些距離一起被用在基于動態(tài)編程的方法中,用以尋找"最佳輸出序列",即得到最小總距離的路徑。可使用用戶限定的或預(yù)定的權(quán)重因子設(shè)置在精確性和平滑性之間的相對重要性。在圖l所示的圖示中,在初始點(diǎn)100開始考慮多個潛在多級向量。基于路徑的總平滑性和精確性選擇所選路徑110。在該圖示中,所選路徑基于選擇級1中的向量5,級2中的向量14,級3中的向量9,以及級4中的向量7。以下將本發(fā)明的一個實(shí)施例的使用與一對傳統(tǒng)轉(zhuǎn)換系統(tǒng)相比較。在線譜頻率(LSF,linespectralfrequencies)的轉(zhuǎn)換中,在實(shí)際聲音轉(zhuǎn)換環(huán)境中測試這些方法。以10毫秒間隔從90個句子評估10維LSF參數(shù)。選擇14,942個向量用于訓(xùn)練,并且使用不同集合的另外14,942個向量用于測試。如上所述,該測試包括3個模型。第一模型遵循本發(fā)明的實(shí)施例,使用3個級,在每個級中具有16個向量。第二模型包括含有所有訓(xùn)練向量的全碼本。第三模型包含小型碼本,其具有與第一模型(具有真實(shí)源目標(biāo)向量)中描述的本發(fā)明實(shí)施例相同的占用量。省略動態(tài)編程處理,以獲得可比較的結(jié)果。從以下3個不同觀點(diǎn)評估所述3個模型性能/精確性、存儲器需求、和計算負(fù)載。使用平均的均方誤差來測量精確性,而存儲器需求被計算為必須被存儲在存儲器中的向量元素的數(shù)量。計算負(fù)載被評估為在搜索過程8期間所需向量比較的數(shù)量。在以下表l中總結(jié)了使用測試數(shù)據(jù)計算的評估結(jié)果。表l<table>tableseeoriginaldocumentpage9</column></row><table>圖1中略述的結(jié)果示出所選的本發(fā)明實(shí)施例從所有方面都表現(xiàn)強(qiáng)大其明顯提供了最佳精確性和最低存儲器使用。盡管第三模型提供了類似的存儲器和復(fù)雜度水平,但是轉(zhuǎn)換精確性明顯低于所選的本發(fā)明實(shí)施例。圖2和3示出其中可實(shí)現(xiàn)本發(fā)明的一個代表性電子設(shè)備12。然而,應(yīng)理解,本發(fā)明不限于一種特定類型的電子設(shè)備12。圖2和3的電子設(shè)備12包括殼體30、液晶顯示器形式的顯示器32、鍵區(qū)(keypad)34、麥克風(fēng)36、耳機(jī)38、電池40、紅外端口42、天線44、才艮據(jù)本發(fā)明的一個實(shí)施例的UICC形式的智能卡、讀卡器48、無線接口電路52、編解碼器電路54、控制器56、存儲器58。各電路和元件都是本領(lǐng)域,例如移動電話的Nokia領(lǐng)域,熟知的類型。在方法步驟或過程的一般環(huán)境中描述了各實(shí)施例,在一個實(shí)施例中其可通過包括由網(wǎng)絡(luò)環(huán)境中的計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令(例如程序代碼)的在計算機(jī)可讀介質(zhì)上實(shí)現(xiàn)的計算機(jī)程序產(chǎn)品來實(shí)現(xiàn)。計算機(jī)可讀介質(zhì)可包括可移動和不可移動存儲設(shè)備,包括但不限于,只讀存儲器(ROM)、隨M取存儲器(RAM)、壓縮盤(CD)、數(shù)字通用光盤(DVD)等。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等。計算機(jī)可執(zhí)行指令、關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)、和程序模塊代表用于執(zhí)行這里所公開的方法步驟的程序代碼的實(shí)例。這種可執(zhí)行指令或關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)的特定序列代表用于實(shí)現(xiàn)在這種步驟中描述的功能的相應(yīng)動作的實(shí)例。例的軟件和web方案,以實(shí)現(xiàn)各數(shù)據(jù)庫搜索步驟或過程、關(guān)聯(lián)步驟或過程、比較步驟或過程以及判決步驟或過程。還應(yīng)注意,這里和下面的權(quán)利要求中使用的詞語"組件"和"模塊"旨在包含使用一行或多行軟件代碼的方案、和/或硬件方案、和/或接收手動輸入的設(shè)備。為了示例和說明目的,呈現(xiàn)了本發(fā)明的實(shí)施例的以上描述。以上描述不是旨在窮盡或?qū)⒈景l(fā)明的實(shí)施例限制于所公開的精確形式,根據(jù)以上教導(dǎo)可進(jìn)行修改和改變,或者可根據(jù)本發(fā)明的實(shí)踐獲得修改和改變。選擇和描述此處討論的實(shí)施例,以便解釋各實(shí)施例的原理和本質(zhì)及其實(shí)際應(yīng)用,以使得本領(lǐng)域普通技術(shù)人員能夠利用各實(shí)施例中的本發(fā)明以及適于特定使用預(yù)期的各種修改。可以將這里所描述的實(shí)施例的特性組合到方法、裝置、模塊、系統(tǒng)、計算機(jī)程序產(chǎn)品的所有可能的組合中。權(quán)利要求1.一種實(shí)現(xiàn)基于碼本的聲音轉(zhuǎn)換的方法,包括使用成對的源目標(biāo)多級向量量化器創(chuàng)建成對的源目標(biāo)碼本,對于多個訓(xùn)練音頻條目中的每個,所述碼本通過以下被訓(xùn)練在所述多級向量量化器的多個級中的每個級,選擇預(yù)定數(shù)目的最佳候選路徑,用于進(jìn)一步處理;基于每個級的所選候選路徑識別多個候選向量序列;以及從所述多個候選向量序列選擇最佳候選向量序列。2.如權(quán)利要求1所述的方法,其中對于所迷多級向量量化器的每個級,訓(xùn)練基本同時進(jìn)行。3.如權(quán)利要求2所述的方法,其中通過使用多級向量量化器同時聯(lián)合沒計算法進(jìn)行同時訓(xùn)練。4.如權(quán)利要求1所述的方法,其中基于從包括目標(biāo)精確性、存儲器消耗以及計算復(fù)雜度的組選擇的至少一個因素,選擇在所述多級向量量化器中的級的數(shù)目。5.如權(quán)利要求1所述的方法,其中基于候選向量序列的相對平滑性以及候選向量序列的精確性的組合選擇最佳候選向量序列。6.如權(quán)利要求l所述的方法,其中所述多個級包括搜索級和目標(biāo)級,并且還包括基于接收用于轉(zhuǎn)換的輸入音頻條目,在所迷搜索級將所述輸入音頻條目與合適的向量匹配;以及基于在訓(xùn)練期間為所述輸入音頻條目選擇的最佳候選向量序列,輸出被轉(zhuǎn)換的音頻條目。7.—種在計算機(jī)可讀介質(zhì)中實(shí)現(xiàn)的計算機(jī)程序產(chǎn)品,用于實(shí)現(xiàn)基于碼本的聲音轉(zhuǎn)換,包括用于使用成對的源目標(biāo)多級向量量化器創(chuàng)建成對的源目標(biāo)碼本的計算機(jī)代碼,對于多個訓(xùn)練音頻條目中的每個,所述碼本通過以下被訓(xùn)練在所述多級向量量化器的多個級中的每個級,選擇預(yù)定數(shù)目的最佳候選路徑,用于進(jìn)一步處理;基于每個級的所選候選路徑識別多個候選向量序列;以及從所述多個候選向量序列選擇最佳候選向量序列。8.如權(quán)利要求7所述的計算;^^呈序產(chǎn)品,其中對于所述多級向量量化器的每個級,訓(xùn)練基本同時進(jìn)行。9.如權(quán)利要求8所述的計算^14呈序產(chǎn)品,其中通過使用多級向量量化器同時聯(lián)合設(shè)計算法進(jìn)行同時訓(xùn)練。10.如權(quán)利要求7所述的計算才A4呈序產(chǎn)品,其中基于從包括目標(biāo)精確性、存儲器消耗以及計算復(fù)雜度的組選擇的至少一個因素,選擇在所述多級向量量化器中的級的數(shù)目。11.如權(quán)利要求7所述的計算機(jī)程序產(chǎn)品,其中基于候選向量序列的相對平滑性以及候選向量序列的精確性的組合選擇最佳候選向量序列。12.如權(quán)利要求7所述的計算;b^呈序產(chǎn)品,其中所述多個級包括搜索級和目標(biāo)級,并且還包括用于基于接收用于轉(zhuǎn)換的輸入音頻條目,在所述搜索級將所述輸入音頻條目與合適的向量匹配的計算機(jī)代碼;以及用于基于在訓(xùn)練期間為所述輸入音頻條目選擇的最佳候選向量序列,輸出被轉(zhuǎn)換的音頻條目的計算機(jī)代碼。13.—種裝置,包括處理器;以及通信地連接至所述處理器的存儲器單元,并包括用于使用成對的源目標(biāo)多級向量量化器創(chuàng)建成對的源目標(biāo)碼本的計算機(jī)代碼,對于多個訓(xùn)練音頻條目中的每個,所述碼本通過以下被訓(xùn)練在所述多級向量量化器的多個級中的每個級,選擇預(yù)定數(shù)目的最佳候選路徑,用于進(jìn)一步處理;基于每個級的所選候選路徑識別多個候選向量序列;以及從所述多個候選向量序列選擇最佳候選向量序列。14.如權(quán)利要求13所述的裝置,其中對于所述多級向量量化器的每個級,訓(xùn)練基本同時進(jìn)行。15.如權(quán)利要求14所述的裝置,其中通過使用多級向量量化器同時聯(lián)合設(shè)計算法進(jìn)行同時訓(xùn)練。16.如權(quán)利要求13所述的裝置,其中基于從包括目標(biāo)精確性、存儲器消耗以及計算復(fù)雜度的組選擇的至少一個因素,選擇在所述多級向量量化器中的級的數(shù)目。17.如權(quán)利要求13所述的裝置,其中基于候選向量序列的相對平滑性以及候選向量序列的精確性的組合選擇最佳候選向量序列。18.如權(quán)利要求13所述的裝置,其中所述多個級包括搜索級和目標(biāo)級,其中所述存儲器單元還包括用于基于接收用于轉(zhuǎn)換的輸入音頻條目,在所述搜索級將所述輸入音頻條目與合適的向量匹配的計算機(jī)代碼;以及用于基于在訓(xùn)練期間為所述輸入音頻條目選擇的最佳候選向量序列,輸出被轉(zhuǎn)換的音頻條目的計算機(jī)代碼。全文摘要一種實(shí)現(xiàn)和執(zhí)行基于碼本的聲音轉(zhuǎn)換的改進(jìn)系統(tǒng)方法,其顯著地降低了存儲器占用量并改善了輸出的連續(xù)性。在各實(shí)施例中,成對的源目標(biāo)碼本被實(shí)現(xiàn)為多級向量量化器。在轉(zhuǎn)換期間,樹搜索中的N個最佳候選被視為從量化器的輸出。在尋找平滑而精確的輸出序列的動態(tài)基于編程的方法中使用對于待轉(zhuǎn)換的每個向量的N個候選。文檔編號G01L13/02GK101583859SQ200780049907公開日2009年11月18日申請日期2007年12月13日優(yōu)先權(quán)日2006年12月15日發(fā)明者J·努爾米寧,J·田,V·波帕申請人:諾基亞公司