話音分組識(shí)別的制作方法

文檔序號(hào)：2829233閱讀：290來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：話音分組識(shí)別的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般涉及話音信號(hào)產(chǎn)生和處理。
背景技術(shù)：
通常，在話音信號(hào)產(chǎn)生和處理中，話音信號(hào)不僅傳達(dá)講話內(nèi)容，而且還透露有關(guān)講話人身份的一些信息。在這方面，通過分析話音信號(hào)波形，人們可以將話音信號(hào)歸類為各種類別，例如，講話人ID、語言ID、激烈的話音音調(diào)以及話題。
按照慣例，話音分析是直接根據(jù)話音信號(hào)波形進(jìn)行的。例如，對(duì)于諸如圖1中所示的常規(guī)的講話人ID驗(yàn)證系統(tǒng)來說，首先將話音輸入102傅里葉變換到頻域中。在經(jīng)過頻譜能量計(jì)算106和預(yù)加重(pre-emphasis)處理(108)之后，頻率參數(shù)接著經(jīng)過一組梅爾刻度式(mel-Scale)對(duì)數(shù)濾波器(110)。在進(jìn)行余弦變換114以獲取“倒頻譜(cepstra)”之前，每個(gè)單獨(dú)的濾波器的輸出能量都是對(duì)數(shù)標(biāo)度的(例如，通過對(duì)數(shù)能量濾波器112)。該組“倒頻譜”然后充當(dāng)向量分類算法的特征向量，例如用于講話人ID驗(yàn)證的GMM-UBM(高斯混合模型-通用背景模型)(116)。對(duì)諸如圖1中所說明的算法使用的例子可以在以下文獻(xiàn)中找到DouglasReynolds，et.al.，“Robust Text-Independent Speaker Identification UsingGaussian Mixture Speaker Models”，IEEE Transactions on Speech andaudio processing，Vol.3，No.1，Jan.1995。
然而，在常規(guī)裝置中，一旦開始VoIP(基于互聯(lián)網(wǎng)協(xié)議的話音)，話音就被壓縮和被分組化，并且被在因特網(wǎng)內(nèi)傳輸。常規(guī)的方法是將話音分組解壓縮成話音信號(hào)波形，然后進(jìn)行通過圖1所描述的分析過程。如果丟失了分組，例如由于網(wǎng)絡(luò)擁塞，則圖1中所示的方法便會(huì)失效。特別地，如果丟失了分組，那么解壓縮的波形將會(huì)失真，所得到的特征向量會(huì)是不正確的，并且分析會(huì)顯著下降。此外，獲取用于分析的特征向量的時(shí)間會(huì)由于解壓縮-FFT-梅爾刻度式濾波器-余弦變換而非常長(zhǎng)(參見Reynolds等人的上述內(nèi)容)。這將使實(shí)時(shí)話音分析變得非常困難。
鑒于上述情況，人們已經(jīng)意識(shí)到需要關(guān)注并改善常規(guī)裝置所出現(xiàn)的缺點(diǎn)和劣勢(shì)。

發(fā)明內(nèi)容
依照本發(fā)明的至少一個(gè)當(dāng)前優(yōu)選的實(shí)施例，在此大致設(shè)想了一種用于直接從壓縮域?qū)嵤┰捯舴治?例如，講話人ID驗(yàn)證)的機(jī)制。優(yōu)選地，基于特征向量對(duì)應(yīng)的物理意義，直接從壓縮比特流對(duì)其進(jìn)行分段。這將消除消耗在“解壓縮-FFT-梅爾刻度式濾波器-余弦變換”過程的時(shí)間，從而使得能夠直接從壓縮比特流進(jìn)行實(shí)時(shí)話音分析。此外，話音分組可能由于因特網(wǎng)網(wǎng)絡(luò)擁塞而漏失。另外，如果該系統(tǒng)必須分析每個(gè)壓縮話音分組，則計(jì)算能力要求是相當(dāng)高的。然而，如果所述壓縮話音分組中的一些被漏失或被二次抽樣，則解壓縮的話音會(huì)由于話音波形中的壓縮分組的相關(guān)性而變得高度失真，并且會(huì)明顯丟失其用于分析的性質(zhì)。因此，依照本發(fā)明的至少一個(gè)當(dāng)前優(yōu)選的實(shí)施例，可以直接從所述壓縮話音分組進(jìn)行分析。這將允許在時(shí)間上以某個(gè)固定的(例如10％)或可變的速率對(duì)所述壓縮話音數(shù)據(jù)分組進(jìn)行二次抽樣。這會(huì)節(jié)省所述計(jì)算能力要求，并且還會(huì)保留可能需要分析的、感興趣的話音分組性質(zhì)。
總之，本發(fā)明的一個(gè)方面提供了一種用于話音信號(hào)分析的設(shè)備，所述設(shè)備包括用于接受以壓縮形式傳送的話音信號(hào)的裝置；以及用于直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析的裝置。
在優(yōu)選實(shí)施例中，以分組傳送所述話音信號(hào)。這可以通過因特網(wǎng)來實(shí)現(xiàn)。
在優(yōu)選實(shí)施例中，以分組流傳送所述分組，并且以固定的或可變的速率對(duì)所述分組流進(jìn)行抽樣，以便在向前發(fā)送所述分組用于話音分組分析之前降低所述分組傳輸速率。
在優(yōu)選實(shí)施例中，有可能識(shí)別所述話音信號(hào)中與講話人身份關(guān)聯(lián)的至少一個(gè)特性。
在優(yōu)選實(shí)施例中，接受與所述話音信號(hào)關(guān)聯(lián)的特征向量。在該實(shí)施例中，通過從所述壓縮形式的話音信號(hào)的比特流對(duì)所述特征向量進(jìn)行分段，實(shí)施話音分析。
在優(yōu)選實(shí)施例中，基于相應(yīng)的物理意義對(duì)所述特征向量進(jìn)行分段。
在優(yōu)選實(shí)施例中，已經(jīng)通過CELP算法壓縮了所述壓縮形式的話音信號(hào)。這樣的CELP算法的例子是G729算法。
本發(fā)明的另一方面提供了一種話音信號(hào)分析的方法，所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào)；以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。
在優(yōu)選實(shí)施例中，基于CELP壓縮參數(shù)進(jìn)行話音分組識(shí)別。
此外，本發(fā)明的又一方面提供了一種機(jī)器可讀的程序存儲(chǔ)設(shè)備，確實(shí)可執(zhí)行一種可由所述機(jī)器執(zhí)行的指令的程序，以便進(jìn)行用于話音信號(hào)分析的方法步驟，所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào)；以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。

現(xiàn)在將僅通過實(shí)例的方式，并且參照以下附圖來描述本發(fā)明的優(yōu)選實(shí)施例，其中圖1是描述了常規(guī)的講話人ID分析的框圖；圖2是依照本發(fā)明的優(yōu)選實(shí)施例，描述了CELP G729算法的應(yīng)用的框圖；
圖3依照本發(fā)明的優(yōu)選實(shí)施例，以表格形式描述了G729比特流格式；圖4依照本發(fā)明的優(yōu)選實(shí)施例，闡述了壓縮流中的抽樣特征向量。
具體實(shí)施例方式
盡管依照本發(fā)明的至少一個(gè)目前優(yōu)選的實(shí)施例，大致設(shè)想了一種用于通常從其壓縮域?qū)嵤┰捯粜盘?hào)分析的裝置，然而，在分析通過CELP算法壓縮的信號(hào)方面得到了特別有利的結(jié)果。
實(shí)際上，現(xiàn)代話音壓縮常常是基于CELP算法的，例如，G723、G729、GSM。(參見例如，Lajos Hanzo，et.al.“Voice Compression andCommunications”John Wiley & Sons，Inc.，Publication，ISBN0-471-15039-8。)基本上，該算法將人的聲道(vocal tract)建模為一組濾波器系數(shù)，并且發(fā)聲是一組激勵(lì)穿過已建模的聲道的結(jié)果。話音中的音調(diào)也被捕獲。依照本發(fā)明的至少一個(gè)目前優(yōu)選的實(shí)施例，分析通過CELP算法壓縮的分組具有非常有利的結(jié)果。
借由說明性和非限制性的例子，圖2中示出了可能的G729壓縮算法的框圖。如所示出的，在預(yù)處理(218)話音輸入202之后，優(yōu)選地采用LSF頻率變換(220)。在221處計(jì)算來自220與來自塊228的輸出之間的差(參見以下)。使用自適應(yīng)密碼本222來建模長(zhǎng)期的音調(diào)延遲信息，并且使用固定密碼本224來建模人類語音的短期激勵(lì)。增益塊226是用于捕獲語音幅度的參數(shù)，并且塊220用于建模講話人的聲道，而塊228在數(shù)學(xué)上是塊220的倒置。
壓縮流將在比特流的不同字段明確地?cái)y帶這組重要的話音特性。例如，圖3中示出了可以想到的G729比特流。如所示出的，通過陰影以及單下劃線和雙下劃線描述了每個(gè)字段對(duì)應(yīng)的物理意義。
如圖3中所示，對(duì)于話音分析(例如，講話人ID驗(yàn)證)重要的話音特性(例如，聲道濾波器模型參數(shù)、音調(diào)延遲、幅度、話音殘余(voice residue)的激勵(lì)脈沖位置)都進(jìn)行了描述。因此，依照本發(fā)明的至少一個(gè)目前優(yōu)選的實(shí)施例，大致設(shè)想了諸如圖4中所示的話音特征向量，基于其相應(yīng)的物理意義對(duì)其進(jìn)行分段，用于直接在壓縮流中進(jìn)行話音分析。L0、L1、L2和L3捕獲講話人的聲道模型；P1、P0、GA1、GB1、P2、GA2和GB2捕獲講話人的長(zhǎng)期音調(diào)信息；并且C1、S1、C2和S2捕獲所探討的語音的短期激勵(lì)。
應(yīng)當(dāng)理解，依照至少一個(gè)目前優(yōu)選的實(shí)施例，本發(fā)明包括用于接受以壓縮形式傳送的話音信號(hào)的裝置，以及用于直接從壓縮形式的話音信號(hào)實(shí)施話音分析的裝置。同時(shí)，可以在運(yùn)行適合的軟件程序的至少一個(gè)通用計(jì)算機(jī)上實(shí)現(xiàn)這些元件。還可以在至少一個(gè)集成電路或至少一個(gè)集成電路的一部分上實(shí)現(xiàn)這些。因而，應(yīng)當(dāng)理解本發(fā)明可以以硬件、軟件或二者的組合來實(shí)現(xiàn)。
如果文中沒有用別的方式進(jìn)行陳述，則假定特此通過引用的方式將文中所提及和引用的所有專利、專利申請(qǐng)、專利公布和其它公布(包括基于網(wǎng)絡(luò)的公布)完全納入本說明書，視同在此陳述其全部?jī)?nèi)容。
雖然在此已經(jīng)參照附圖描述了本發(fā)明的說明性實(shí)施例，但是應(yīng)該理解到，本發(fā)明并不限于那些明確的實(shí)施例，并且在不背離本發(fā)明的范圍和精神的情況下，本領(lǐng)域的技術(shù)人員可以對(duì)其進(jìn)行各種其它的改變和修改。
權(quán)利要求
1.一種用于話音信號(hào)分析的設(shè)備，所述設(shè)備包括用于接受以壓縮形式傳送的話音信號(hào)的裝置；以及用于直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析的裝置。
2.根據(jù)權(quán)利要求1的設(shè)備，其中所述話音信號(hào)以分組傳送。
3.根據(jù)權(quán)利要求2的設(shè)備，其中所述話音信號(hào)通過因特網(wǎng)以分組傳送。
4.根據(jù)權(quán)利要求3的設(shè)備，其中所述分組以分組流傳送，并且以固定的或可變的速率對(duì)所述分組流抽樣，以便在向前發(fā)送所述分組用于話音分組分析之前降低所述分組傳輸速率。
5.根據(jù)前述權(quán)利要求中任何一項(xiàng)的設(shè)備，其進(jìn)一步包括用于識(shí)別所述話音信號(hào)中與講話人身份關(guān)聯(lián)的至少一個(gè)特性的裝置。
6.根據(jù)前述權(quán)利要求中任何一項(xiàng)的設(shè)備，其中所述接受裝置適于接受與所述話音信號(hào)關(guān)聯(lián)的特征向量；所述用于實(shí)施話音分析的裝置適于從所述壓縮形式的話音信號(hào)的比特流對(duì)所述特征向量進(jìn)行分段。
7.根據(jù)權(quán)利要求6的設(shè)備，其中所述用于實(shí)施話音分析的裝置適于基于相應(yīng)的物理意義對(duì)所述特征向量進(jìn)行分段。
8.根據(jù)前述權(quán)利要求中任何一項(xiàng)的設(shè)備，其中已經(jīng)通過CELP算法對(duì)所述壓縮形式的話音信號(hào)進(jìn)行了壓縮。
9.根據(jù)權(quán)利要求8的設(shè)備，其中所述CELP算法包括G729算法。
10.一種話音信號(hào)分析的方法，所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào)；以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。
11.根據(jù)權(quán)利要求10的方法，其中所述話音信號(hào)以分組傳送。
12.根據(jù)權(quán)利要求11的方法，其中所述話音信號(hào)通過因特網(wǎng)以分組傳送。
13.根據(jù)權(quán)利要求12的方法，其中所述分組以分組流傳送，并且以固定的或可變的速率對(duì)所述分組流抽樣，以便在向前發(fā)送所述分組用于話音分組分析之前降低所述分組傳輸速率。
14.根據(jù)權(quán)利要求10至13中任何一項(xiàng)的方法，其進(jìn)一步包括步驟識(shí)別所述話音信號(hào)中與講話人身份關(guān)聯(lián)的至少一個(gè)特性。
15.根據(jù)權(quán)利要求10至14中任何一項(xiàng)的方法，其中所述接受步驟包括接受與所述話音信號(hào)關(guān)聯(lián)的特征向量；所述實(shí)施話音分析的步驟包括從所述壓縮形式的話音信號(hào)的比特流對(duì)所述特征向量進(jìn)行分段。
16.根據(jù)權(quán)利要求15的方法，其中所述實(shí)施話音分析的步驟包括基于相應(yīng)的物理意義對(duì)所述特征向量進(jìn)行分段。
17.根據(jù)權(quán)利要求10至16中任何一項(xiàng)的方法，其中已經(jīng)通過CELP算法對(duì)所述壓縮形式的話音信號(hào)進(jìn)行了壓縮。
18.根據(jù)權(quán)利要求17的方法，其中所述CELP算法包括G729算法。
19.一種機(jī)器可讀的程序存儲(chǔ)設(shè)備，確實(shí)可執(zhí)行一種可由所述機(jī)器執(zhí)行的指令的程序，以便進(jìn)行用于話音信號(hào)分析的方法步驟，所述方法包括以下步驟接受以壓縮形式傳送的話音信號(hào)；以及直接從所述壓縮形式的話音信號(hào)實(shí)施話音分析。
20.一種計(jì)算機(jī)程序，所述計(jì)算機(jī)程序包括當(dāng)所述程序在計(jì)算機(jī)上運(yùn)行時(shí)，適于實(shí)現(xiàn)權(quán)利要求10至18中任何一項(xiàng)的方法的程序代碼裝置。
全文摘要
用于直接從話音信號(hào)的壓縮域?qū)嵤┰捯舴治?例如，講話人ID驗(yàn)證)的機(jī)制以及相關(guān)的方法。優(yōu)選地，基于特征向量相應(yīng)的物理意義，直接從壓縮比特流對(duì)所述特征向量進(jìn)行分段。
文檔編號(hào)G10L17/00GK101053015SQ200580037390
公開日2007年10月10日申請(qǐng)日期2005年10月26日優(yōu)先權(quán)日2004年10月30日
發(fā)明者D·薩哈, Z-Y·謝申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D.薩哈;Z-Y.謝
技術(shù)所有人：國(guó)際商業(yè)機(jī)器公司
我是此專利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

說話人識(shí)別語音數(shù)據(jù)庫(kù)相關(guān)技術(shù)

電話語音識(shí)別相關(guān)技術(shù)

語音識(shí)別和說話人識(shí)別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

話音分組識(shí)別的制作方法