亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

話音分組識(shí)別的制作方法

文檔序號(hào):2829233閱讀:290來源:國(guó)知局
專利名稱:話音分組識(shí)別的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及話音信號(hào)產(chǎn)生和處理。
背景技術(shù)
通常,在話音信號(hào)產(chǎn)生和處理中,話音信號(hào)不僅傳達(dá)講話內(nèi)容,而且還透露有關(guān)講話人身份的一些信息。在這方面,通過分析話音信號(hào)波形,人們可以將話音信號(hào)歸類為各種類別,例如,講話人ID、語言ID、激烈的話音音調(diào)以及話題。
按照慣例,話音分析是直接根據(jù)話音信號(hào)波形進(jìn)行的。例如,對(duì)于諸如圖1中所示的常規(guī)的講話人ID驗(yàn)證系統(tǒng)來說,首先將話音輸入102傅里葉變換到頻域中。在經(jīng)過頻譜能量計(jì)算106和預(yù)加重(pre-emphasis)處理(108)之后,頻率參數(shù)接著經(jīng)過一組梅爾刻度式(mel-Scale)對(duì)數(shù)濾波器(110)。在進(jìn)行余弦變換114以獲取“倒頻譜(cepstra)”之前,每個(gè)單獨(dú)的濾波器的輸出能量都是對(duì)數(shù)標(biāo)度的(例如,通過對(duì)數(shù)能量濾波器112)。該組“倒頻譜”然后充當(dāng)向量分類算法的特征向量,例如用于講話人ID驗(yàn)證的GMM-UBM(高斯混合模型-通用背景模型)(116)。對(duì)諸如圖1中所說明的算法使用的例子可以在以下文獻(xiàn)中找到DouglasReynolds,et.al.,“Robust Text-Independent Speaker Identification UsingGaussian Mixture Speaker Models”,IEEE Transactions on Speech andaudio processing,Vol.3,No.1,Jan.1995。
然而,在常規(guī)裝置中,一旦開始VoIP(基于互聯(lián)網(wǎng)協(xié)議的話音),話音就被壓縮和被分組化,并且被在因特網(wǎng)內(nèi)傳輸。常規(guī)的方法是將話音分組解壓縮成話音信號(hào)波形,然后進(jìn)行通過圖1所描述的分析過程。如果丟失了分組,例如由于網(wǎng)絡(luò)擁塞,則圖1中所示的方法便會(huì)失效。特別地,如果丟失了分組,那么解壓縮的波形將會(huì)失真,所得到的特征向量會(huì)是不正確的,并且分析會(huì)顯著下降。此外,獲取用于分析的特征向量的時(shí)間會(huì)由于解壓縮-FFT-梅爾刻度式濾波器-余弦變換而非常長(zhǎng)(參見Reynolds等人的上述內(nèi)容)。這將使實(shí)時(shí)話音分析變得非常困難。
鑒于上述情況,人們已經(jīng)意識(shí)到需要關(guān)注并改善常規(guī)裝置所出現(xiàn)的缺點(diǎn)和劣勢(shì)。

發(fā)明內(nèi)容
依照本發(fā)明的至少一個(gè)當(dāng)前優(yōu)選的實(shí)施例,在此大致設(shè)想了一種用于直接從壓縮域?qū)嵤┰捯舴治?例如,講話人ID驗(yàn)證)的機(jī)制。優(yōu)選地,基于特征向量對(duì)應(yīng)的物理意義,直接從壓縮比特流對(duì)其進(jìn)行分段。這將消除消耗在“解壓縮-FFT-梅爾刻度式濾波器-余弦變換”過程的時(shí)間,從而使得能夠直接從壓縮比特流進(jìn)行實(shí)時(shí)話音分析。此外,話音分組可能由于因特網(wǎng)網(wǎng)絡(luò)擁塞而漏失。另外,如果該系統(tǒng)必須分析每個(gè)壓縮話音分組,則計(jì)算能力要求是相當(dāng)高的。然而,如果所述壓縮話音分組中的一些被漏失或被二次抽樣,則解壓縮的話音會(huì)由于話音波形中的壓縮分組的相關(guān)性而變得高度失真,并且會(huì)明顯丟失其用于分析的性質(zhì)。因此,依照本發(fā)明的至少一個(gè)當(dāng)前優(yōu)選的實(shí)施例,可以直接從所述壓縮話音分組進(jìn)行分析。這將允許在時(shí)間上以某個(gè)固定的(例如10%)或可變的速率對(duì)所述壓縮話音數(shù)據(jù)分組進(jìn)行二次抽樣。這會(huì)節(jié)省所述計(jì)算能力要求,并且還會(huì)保留可能需要分析的、感興趣的話音分組性質(zhì)。
總之,本發(fā)明的一個(gè)方面提供了一種用于話音信號(hào)分析的設(shè)備,所述設(shè)備包括用于接受以壓縮形式傳送的話音信號(hào)的裝置;以及用于直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析的裝置。
在優(yōu)選實(shí)施例中,以分組傳送所述話音信號(hào)。這可以通過因特網(wǎng)來實(shí)現(xiàn)。
在優(yōu)選實(shí)施例中,以分組流傳送所述分組,并且以固定的或可變的速率對(duì)所述分組流進(jìn)行抽樣,以便在向前發(fā)送所述分組用于話音分組分析之前降低所述分組傳輸速率。
在優(yōu)選實(shí)施例中,有可能識(shí)別所述話音信號(hào)中與講話人身份關(guān)聯(lián)的至少一個(gè)特性。
在優(yōu)選實(shí)施例中,接受與所述話音信號(hào)關(guān)聯(lián)的特征向量。在該實(shí)施例中,通過從所述壓縮形式的話音信號(hào)的比特流對(duì)所述特征向量進(jìn)行分段,實(shí)施話音分析。
在優(yōu)選實(shí)施例中,基于相應(yīng)的物理意義對(duì)所述特征向量進(jìn)行分段。
在優(yōu)選實(shí)施例中,已經(jīng)通過CELP算法壓縮了所述壓縮形式的話音信號(hào)。這樣的CELP算法的例子是G729算法。
本發(fā)明的另一方面提供了一種話音信號(hào)分析的方法,所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào);以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。
在優(yōu)選實(shí)施例中,基于CELP壓縮參數(shù)進(jìn)行話音分組識(shí)別。
此外,本發(fā)明的又一方面提供了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,確實(shí)可執(zhí)行一種可由所述機(jī)器執(zhí)行的指令的程序,以便進(jìn)行用于話音信號(hào)分析的方法步驟,所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào);以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。


現(xiàn)在將僅通過實(shí)例的方式,并且參照以下附圖來描述本發(fā)明的優(yōu)選實(shí)施例,其中圖1是描述了常規(guī)的講話人ID分析的框圖;圖2是依照本發(fā)明的優(yōu)選實(shí)施例,描述了CELP G729算法的應(yīng)用的框圖;
圖3依照本發(fā)明的優(yōu)選實(shí)施例,以表格形式描述了G729比特流格式;圖4依照本發(fā)明的優(yōu)選實(shí)施例,闡述了壓縮流中的抽樣特征向量。
具體實(shí)施例方式
盡管依照本發(fā)明的至少一個(gè)目前優(yōu)選的實(shí)施例,大致設(shè)想了一種用于通常從其壓縮域?qū)嵤┰捯粜盘?hào)分析的裝置,然而,在分析通過CELP算法壓縮的信號(hào)方面得到了特別有利的結(jié)果。
實(shí)際上,現(xiàn)代話音壓縮常常是基于CELP算法的,例如,G723、G729、GSM。(參見例如,Lajos Hanzo,et.al.“Voice Compression andCommunications”John Wiley & Sons,Inc.,Publication,ISBN0-471-15039-8。)基本上,該算法將人的聲道(vocal tract)建模為一組濾波器系數(shù),并且發(fā)聲是一組激勵(lì)穿過已建模的聲道的結(jié)果。話音中的音調(diào)也被捕獲。依照本發(fā)明的至少一個(gè)目前優(yōu)選的實(shí)施例,分析通過CELP算法壓縮的分組具有非常有利的結(jié)果。
借由說明性和非限制性的例子,圖2中示出了可能的G729壓縮算法的框圖。如所示出的,在預(yù)處理(218)話音輸入202之后,優(yōu)選地采用LSF頻率變換(220)。在221處計(jì)算來自220與來自塊228的輸出之間的差(參見以下)。使用自適應(yīng)密碼本222來建模長(zhǎng)期的音調(diào)延遲信息,并且使用固定密碼本224來建模人類語音的短期激勵(lì)。增益塊226是用于捕獲語音幅度的參數(shù),并且塊220用于建模講話人的聲道,而塊228在數(shù)學(xué)上是塊220的倒置。
壓縮流將在比特流的不同字段明確地?cái)y帶這組重要的話音特性。例如,圖3中示出了可以想到的G729比特流。如所示出的,通過陰影以及單下劃線和雙下劃線描述了每個(gè)字段對(duì)應(yīng)的物理意義。
如圖3中所示,對(duì)于話音分析(例如,講話人ID驗(yàn)證)重要的話音特性(例如,聲道濾波器模型參數(shù)、音調(diào)延遲、幅度、話音殘余(voice residue)的激勵(lì)脈沖位置)都進(jìn)行了描述。因此,依照本發(fā)明的至少一個(gè)目前優(yōu)選的實(shí)施例,大致設(shè)想了諸如圖4中所示的話音特征向量,基于其相應(yīng)的物理意義對(duì)其進(jìn)行分段,用于直接在壓縮流中進(jìn)行話音分析。L0、L1、L2和L3捕獲講話人的聲道模型;P1、P0、GA1、GB1、P2、GA2和GB2捕獲講話人的長(zhǎng)期音調(diào)信息;并且C1、S1、C2和S2捕獲所探討的語音的短期激勵(lì)。
應(yīng)當(dāng)理解,依照至少一個(gè)目前優(yōu)選的實(shí)施例,本發(fā)明包括用于接受以壓縮形式傳送的話音信號(hào)的裝置,以及用于直接從壓縮形式的話音信號(hào)實(shí)施話音分析的裝置。同時(shí),可以在運(yùn)行適合的軟件程序的至少一個(gè)通用計(jì)算機(jī)上實(shí)現(xiàn)這些元件。還可以在至少一個(gè)集成電路或至少一個(gè)集成電路的一部分上實(shí)現(xiàn)這些。因而,應(yīng)當(dāng)理解本發(fā)明可以以硬件、軟件或二者的組合來實(shí)現(xiàn)。
如果文中沒有用別的方式進(jìn)行陳述,則假定特此通過引用的方式將文中所提及和引用的所有專利、專利申請(qǐng)、專利公布和其它公布(包括基于網(wǎng)絡(luò)的公布)完全納入本說明書,視同在此陳述其全部?jī)?nèi)容。
雖然在此已經(jīng)參照附圖描述了本發(fā)明的說明性實(shí)施例,但是應(yīng)該理解到,本發(fā)明并不限于那些明確的實(shí)施例,并且在不背離本發(fā)明的范圍和精神的情況下,本領(lǐng)域的技術(shù)人員可以對(duì)其進(jìn)行各種其它的改變和修改。
權(quán)利要求
1.一種用于話音信號(hào)分析的設(shè)備,所述設(shè)備包括用于接受以壓縮形式傳送的話音信號(hào)的裝置;以及用于直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析的裝置。
2.根據(jù)權(quán)利要求1的設(shè)備,其中所述話音信號(hào)以分組傳送。
3.根據(jù)權(quán)利要求2的設(shè)備,其中所述話音信號(hào)通過因特網(wǎng)以分組傳送。
4.根據(jù)權(quán)利要求3的設(shè)備,其中所述分組以分組流傳送,并且以固定的或可變的速率對(duì)所述分組流抽樣,以便在向前發(fā)送所述分組用于話音分組分析之前降低所述分組傳輸速率。
5.根據(jù)前述權(quán)利要求中任何一項(xiàng)的設(shè)備,其進(jìn)一步包括用于識(shí)別所述話音信號(hào)中與講話人身份關(guān)聯(lián)的至少一個(gè)特性的裝置。
6.根據(jù)前述權(quán)利要求中任何一項(xiàng)的設(shè)備,其中所述接受裝置適于接受與所述話音信號(hào)關(guān)聯(lián)的特征向量;所述用于實(shí)施話音分析的裝置適于從所述壓縮形式的話音信號(hào)的比特流對(duì)所述特征向量進(jìn)行分段。
7.根據(jù)權(quán)利要求6的設(shè)備,其中所述用于實(shí)施話音分析的裝置適于基于相應(yīng)的物理意義對(duì)所述特征向量進(jìn)行分段。
8.根據(jù)前述權(quán)利要求中任何一項(xiàng)的設(shè)備,其中已經(jīng)通過CELP算法對(duì)所述壓縮形式的話音信號(hào)進(jìn)行了壓縮。
9.根據(jù)權(quán)利要求8的設(shè)備,其中所述CELP算法包括G729算法。
10.一種話音信號(hào)分析的方法,所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào);以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。
11.根據(jù)權(quán)利要求10的方法,其中所述話音信號(hào)以分組傳送。
12.根據(jù)權(quán)利要求11的方法,其中所述話音信號(hào)通過因特網(wǎng)以分組傳送。
13.根據(jù)權(quán)利要求12的方法,其中所述分組以分組流傳送,并且以固定的或可變的速率對(duì)所述分組流抽樣,以便在向前發(fā)送所述分組用于話音分組分析之前降低所述分組傳輸速率。
14.根據(jù)權(quán)利要求10至13中任何一項(xiàng)的方法,其進(jìn)一步包括步驟識(shí)別所述話音信號(hào)中與講話人身份關(guān)聯(lián)的至少一個(gè)特性。
15.根據(jù)權(quán)利要求10至14中任何一項(xiàng)的方法,其中所述接受步驟包括接受與所述話音信號(hào)關(guān)聯(lián)的特征向量;所述實(shí)施話音分析的步驟包括從所述壓縮形式的話音信號(hào)的比特流對(duì)所述特征向量進(jìn)行分段。
16.根據(jù)權(quán)利要求15的方法,其中所述實(shí)施話音分析的步驟包括基于相應(yīng)的物理意義對(duì)所述特征向量進(jìn)行分段。
17.根據(jù)權(quán)利要求10至16中任何一項(xiàng)的方法,其中已經(jīng)通過CELP算法對(duì)所述壓縮形式的話音信號(hào)進(jìn)行了壓縮。
18.根據(jù)權(quán)利要求17的方法,其中所述CELP算法包括G729算法。
19.一種機(jī)器可讀的程序存儲(chǔ)設(shè)備,確實(shí)可執(zhí)行一種可由所述機(jī)器執(zhí)行的指令的程序,以便進(jìn)行用于話音信號(hào)分析的方法步驟,所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào);以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。
20.一種計(jì)算機(jī)程序,所述計(jì)算機(jī)程序包括當(dāng)所述程序在計(jì)算機(jī)上運(yùn)行時(shí),適于實(shí)現(xiàn)權(quán)利要求10至18中任何一項(xiàng)的方法的程序代碼裝置。
全文摘要
用于直接從話音信號(hào)的壓縮域?qū)嵤┰捯舴治?例如,講話人ID驗(yàn)證)的機(jī)制以及相關(guān)的方法。優(yōu)選地,基于特征向量相應(yīng)的物理意義,直接從壓縮比特流對(duì)所述特征向量進(jìn)行分段。
文檔編號(hào)G10L17/00GK101053015SQ200580037390
公開日2007年10月10日 申請(qǐng)日期2005年10月26日 優(yōu)先權(quán)日2004年10月30日
發(fā)明者D·薩哈, Z-Y·謝 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1