實現(xiàn)語音自動分類的方法及系統(tǒng)的制作方法

文檔序號：9668710閱讀：338來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

實現(xiàn)語音自動分類的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音信號處理領(lǐng)域，具體涉及一種實現(xiàn)語音自動分類的方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著語音技術(shù)的發(fā)展，自動語音識別技術(shù)已經(jīng)被廣泛地應(yīng)用于生活的各個領(lǐng)域，出現(xiàn)了各種實用的語音識別系統(tǒng)，如語音轉(zhuǎn)寫系統(tǒng)，然而由于應(yīng)用需求的不同，用于語音識別的語音數(shù)據(jù)的類型也是多種多樣，如多人發(fā)言的會議錄音、采訪錄音等。對于不同類型的語音數(shù)據(jù)，識別文本的內(nèi)容差異較大，識別文本的展示形式也有多種，如對話類型的語音數(shù) 據(jù)識別結(jié)果為"今天中午吃什么，牛肉面怎么樣?要排很久的隊吧，可以提前去排隊了"。如果以這種形式展示給用戶，會對用戶的理解造成很大的困擾。但是，如果預(yù)先知道待識別語音數(shù)據(jù)的類型為對話類型，則可以將識別文本按照對話的形式展示給用戶，如展示結(jié)果為：
[0003] 說話人A: "今天中午吃什么，牛肉面怎么樣?"
[0004]說話人B"要排很久的隊吧，可以提前去排除了"。
[0005] 這樣可以方便用戶清晰地閱讀識別文本，提高識別文本的可懂度。
[0006] 現(xiàn)有的語音分類方法一般是通過人工聽語音數(shù)據(jù)給出相應(yīng)的語音數(shù)據(jù)類型，當(dāng)語音數(shù)據(jù)較多時，人工的工作量較大，同時給出的結(jié)果也存在主觀性。因此，如何準(zhǔn)確地得到語音數(shù)據(jù)的類型，對于語音識別的應(yīng)用具有較重意義。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明提供一種實現(xiàn)語音自動分類的方法及系統(tǒng)，以減少人工工作量，并提高語音數(shù)據(jù)分類的準(zhǔn)確率。
[0008] 為此，本發(fā)明提供如下技術(shù)方案：
[0009] 一種實現(xiàn)語音自動分類的方法，包括：
[0010]接收待分類語音數(shù)據(jù)；
[0011]對所述待分類語音數(shù)據(jù)進(jìn)行語音識別，得到識別文本；
[0012] 對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析，得到聲學(xué)上的分類特征；
[0013] 對所述識別文本進(jìn)行內(nèi)容分析，得到內(nèi)容上的分類特征；
[0014] 利用所述聲學(xué)上的分類特征、內(nèi)容上的分類特征、以及預(yù)先構(gòu)建的語音分類模型對所述待分類語音數(shù)據(jù)進(jìn)行分類，得到所述待分類語音數(shù)據(jù)所屬類型。
[0015] 優(yōu)選地，對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析包括：
[0016] 利用所述待分類語音數(shù)據(jù)本身對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析;和/或
[0017] 利用語音識別過程中得到的聲學(xué)相關(guān)數(shù)據(jù)對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析。
[0018] 優(yōu)選地，所述利用所述待分類語音數(shù)據(jù)本身對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析包括：
[0019] 根據(jù)所有有效語音的長度與待分類語音數(shù)據(jù)長度的比值，得到所述待分類語音數(shù) 據(jù)的有效語音占比；和/或
[0020] 對所述待分類語音數(shù)據(jù)進(jìn)行說話人分離，得到所述待分類語音數(shù)據(jù)的說話人總數(shù)。
[0021] 優(yōu)選地，所述利用語音識別過程中得到的聲學(xué)相關(guān)數(shù)據(jù)對所述待分類語音數(shù)據(jù)進(jìn) 行聲學(xué)分析包括：
[0022] 根據(jù)語音識別過程中解碼得到的詞后驗概率和音素后驗概率，計算得到所述待分類語音數(shù)據(jù)的置信度。
[0023]優(yōu)選地，所述對所述識別文本進(jìn)行內(nèi)容分析，得到內(nèi)容上的分類特征包括：
[0024] 對所述識別文本進(jìn)行預(yù)處理，所述預(yù)處理包括:文本過濾、文本順滑、數(shù)字規(guī)整、添加標(biāo)點；
[0025]計算預(yù)處理后的識別文本中各語句的置信度；
[0026]提取置信度大于設(shè)定閾值的各語句的內(nèi)容上的分類特征，所述內(nèi)容上的分類特征包括:情感極性以及以下任意一種或多種特征：詞面特征、詞性特征、標(biāo)點特征、語氣詞總數(shù)。
[0027]優(yōu)選地，所述方法還包括，按以下方式構(gòu)建所述語音分類模型：
[0028]收集多種類型的語音數(shù)據(jù)，并標(biāo)注各語音數(shù)據(jù)的類型；
[0029]提取各語音數(shù)據(jù)的分類特征及標(biāo)注特征，所述分類特征包括:聲學(xué)上的分類特征和內(nèi)容上的分類特征；
[0030]根據(jù)提取的各語音數(shù)據(jù)的分類特征及標(biāo)注特征訓(xùn)練語音分類模型。
[0031] 優(yōu)選地，所述方法還包括：
[0032]按照所述待分類語音數(shù)據(jù)所屬類型對所述識別文本進(jìn)行展示。
[0033] 一種實現(xiàn)語音自動分類的系統(tǒng)，包括：
[0034]接收模塊，用于接收待分類語音數(shù)據(jù)；
[0035]語音識別模塊，用于對待分類語音數(shù)據(jù)進(jìn)行語音識別，得到識別文本；
[0036]聲學(xué)分析模塊，用于對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析，得到聲學(xué)上的分類特征；
[0037]內(nèi)容分析模塊，用于對所述識別文本進(jìn)行內(nèi)容分析，得到內(nèi)容上的分類特征；
[0038]分類模塊，用于利用所述聲學(xué)上的分類特征、內(nèi)容上的分類特征、以及預(yù)先構(gòu)建的語音分類模型對所述待分類語音數(shù)據(jù)進(jìn)行分類，得到所述待分類語音數(shù)據(jù)所屬類型。
[0039]優(yōu)選地，所述聲學(xué)分析模塊包括：
[0040]第一聲學(xué)分析模塊，用于利用所述待分類語音數(shù)據(jù)本身對所述待分類語音數(shù)據(jù)進(jìn) 行聲學(xué)分析;和/或
[0041] 第二聲學(xué)分析模塊，用于利用語音識別過程中得到的聲學(xué)相關(guān)數(shù)據(jù)對所述待分類語音數(shù)據(jù)進(jìn)行聲學(xué)分析。
[0042]優(yōu)選地，所述第一聲學(xué)分析模塊包括：
[0043]有效語音占比計算單元，用于根據(jù)所有有效語音的長度與待分類語音數(shù)據(jù)長度的比值，得到所述待分類語音數(shù)據(jù)的有效語音占比；和/或
[0044]說話人分離單元，用于對所述待分類語音數(shù)據(jù)進(jìn)行說話人分離，得到所述待分類語音數(shù)據(jù)的說話人總數(shù)。
[0045]優(yōu)選地，所述第二聲學(xué)分析模塊，具體用于根據(jù)語音識別過程中解碼得到的詞后驗概率和音素后驗概率，計算得到所述待分類語音數(shù)據(jù)的置信度。
[0046]優(yōu)選地，所述內(nèi)容分析模塊包括：
[0047] 預(yù)處理單元，用于對所述識別文本進(jìn)行預(yù)處理，所述預(yù)處理包括：文本過濾、文本順滑、數(shù)字規(guī)整、添加標(biāo)點；
[0048]置信度計算單元，用于計算預(yù)處理后的識別文本中各語句的置信度；
[0049] 特征提取單元，用于提取置信度大于設(shè)定閾值的各語句的內(nèi)容上的分類特征，所述內(nèi)容上的分類特征包括:情感極性以及以下任意一種或多種特征：詞面特征、詞性特征、標(biāo)點特征、語氣詞總數(shù)。
[0050] 優(yōu)選地，所述系統(tǒng)還包括模型訓(xùn)練模塊，所述模型訓(xùn)練模塊包括：
[0051] 數(shù)據(jù)收集單元，用于收集多種類型的語音數(shù)據(jù)；
[0052]提取單元，用于提取各語音數(shù)據(jù)的分類特征及標(biāo)注特征，所述分類特征包括:聲學(xué) 上的分類特征和內(nèi)容上的分類特征，所述標(biāo)注特征用于指示各語音數(shù)據(jù)的類型；
[0053]訓(xùn)練單元，用于根據(jù)提取的各語音數(shù)據(jù)的分類特征及標(biāo)注特征訓(xùn)練語音分類模型。
[0054] 優(yōu)選地，所述系統(tǒng)還包括：
[0055] 展示模塊，用于按照所述待分類語音數(shù)據(jù)所屬類型對所述識別文本進(jìn)行展示。
[0056] 本發(fā)明實施例提供的實現(xiàn)語音自動分類的方法及系統(tǒng)，對接收的待分類語音數(shù)據(jù) 進(jìn)行語音識別，得到識別文本;然后分別從待分類語音數(shù)據(jù)的聲學(xué)上及內(nèi)容上提取分類特征;最后利用提取的分類特征及預(yù)先構(gòu)建的語音分類模型對待分類語音數(shù)據(jù)進(jìn)行分類，得到待分類語音數(shù)據(jù)的類別。本發(fā)明方案不僅實現(xiàn)了語音數(shù)據(jù)的自動分類，大大減少了人工工作量;而且，由于分別從待分類語音數(shù)據(jù)的聲學(xué)上及內(nèi)容上描述待分類語音數(shù)據(jù)，從而可以全面且準(zhǔn)確地提取語音數(shù)據(jù)包含的信息，有效提高了語音數(shù)據(jù)分類的準(zhǔn)確率。
【附圖說明】
[0057] 為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明中記載的

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡尹;潘青華;高建清;胡國平;胡郁;劉慶峰;
技術(shù)所有人：科大訊飛股份有限公司;
我是此專利的發(fā)明人

上一篇：一種用于對說話人識別的前端語音增強(qiáng)方法
上一篇：生成文字記錄的方法及系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

java實現(xiàn)語音識別相關(guān)技術(shù)

監(jiān)控如何實現(xiàn)語音對講相關(guān)技術(shù)

java實現(xiàn)語音聊天相關(guān)技術(shù)

js實現(xiàn)語音播報文字相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

實現(xiàn)語音自動分類的方法及系統(tǒng)的制作方法