一種聲學(xué)模型建立方法及基于該模型的語(yǔ)音解碼方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)音識(shí)別領(lǐng)域,主要針對(duì)黏著語(yǔ)語(yǔ)音識(shí)別系統(tǒng)。
【背景技術(shù)】
[0002]在語(yǔ)言形態(tài)學(xué)中,根據(jù)語(yǔ)言是否需要依靠詞尾的變化來(lái)表現(xiàn)其文法關(guān)系分為分析語(yǔ)和綜合語(yǔ),其中需要依靠詞尾的變化表現(xiàn)其文法關(guān)系的綜合語(yǔ)又可根據(jù)變化程度(屈折度)再次分類。黏著語(yǔ)是綜合語(yǔ)的一種,屬于屈折度較高的綜合語(yǔ),其詞級(jí)單元通常由大量詞素連接構(gòu)成,稱為黏著特性。由于語(yǔ)音識(shí)別系統(tǒng)在設(shè)計(jì)之初所針對(duì)的語(yǔ)種主要是分析語(yǔ)和準(zhǔn)分析語(yǔ),例如漢語(yǔ)和英語(yǔ),因此黏著特性的出現(xiàn)為傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)帶來(lái)的許多新的問題,使其需要進(jìn)一步完善和改良。
[0003]黏著特性所帶來(lái)的問題主要可以歸納為兩個(gè)方面。第一是在語(yǔ)言模型方面,黏著語(yǔ)缺乏自然的語(yǔ)言模型基本建模單元。分析語(yǔ)通常以詞作為語(yǔ)言模型基本建模單元,因?yàn)樵~級(jí)單元能夠比較多的包含語(yǔ)言層知識(shí)且數(shù)量相對(duì)有限。而黏著語(yǔ)中的詞級(jí)單元由于黏著特性的存在而數(shù)量劇增,常用詞語(yǔ)數(shù)量已遠(yuǎn)超字典可以容納的尺寸,故不宜作為語(yǔ)言模型基本建模單元;同時(shí)次級(jí)自然語(yǔ)言單元音素(或字,視語(yǔ)言不同次級(jí)單元有所差異)亦不適宜作為語(yǔ)言模型基本建模單元,因?yàn)轲ぶ匦詴?huì)加劇該級(jí)單元的短視現(xiàn)象。第二是在聲學(xué)模型方面,黏著語(yǔ)中音素的黏著會(huì)導(dǎo)致協(xié)同發(fā)音現(xiàn)象大量發(fā)生,即同一音素根據(jù)所處位置不同會(huì)具有多種不同的發(fā)音。在這種情況下,傳統(tǒng)針對(duì)分析語(yǔ)設(shè)計(jì)的聲學(xué)模型構(gòu)建方式會(huì)導(dǎo)致聲學(xué)模型性的不確定性升高(即高混淆度),進(jìn)而導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)性能整體下滑。
[0004]圍繞以上兩點(diǎn)問題,近年來(lái)研究者們進(jìn)行過許多研究。其中第一點(diǎn)問題目前已找到較為恰當(dāng)?shù)慕鉀Q方式,研究者使用基于統(tǒng)計(jì)或規(guī)則的方法生成一種新單元詞片作為語(yǔ)言模型建模單元。詞片單元介于詞和音素(字)之間,能夠較多的包含語(yǔ)言層知識(shí),而數(shù)量又相對(duì)有限。但第二點(diǎn)問題目前尚未找到有效的解決方案,是困擾黏著語(yǔ)語(yǔ)音識(shí)別的難點(diǎn)之一。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于,為克服上述問題,本發(fā)明提供一種聲學(xué)模型建立方法及基于該模型的語(yǔ)音解碼方法。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種聲學(xué)模型建立方法,所述方法包含:
[0007]步驟101)基于訓(xùn)練數(shù)據(jù),計(jì)算聲學(xué)模型所需的三因子高斯混合模型的統(tǒng)計(jì)量;
[0008]步驟102)采用自聚類方法根據(jù)統(tǒng)計(jì)量計(jì)算決策樹問題集,基于得到的決策樹的問題集采用決策樹算法對(duì)所述統(tǒng)計(jì)量進(jìn)行分割聚類,進(jìn)而得到同位音素;
[0009]步驟103)將基礎(chǔ)音素集與所述同位音素合并作為含同位音素的音素集,并通過決策樹過程對(duì)原始語(yǔ)音標(biāo)注進(jìn)行處理,處理后的語(yǔ)音標(biāo)注稱為含同位音素的語(yǔ)音標(biāo)注;
[0010]步驟104 )基于含同位音素的音素集和語(yǔ)音標(biāo)注,采用聲學(xué)模型訓(xùn)練方法進(jìn)行聲學(xué)模型訓(xùn)練,生成含同位音素的聲學(xué)模型。
[0011]上述步驟101)進(jìn)一步包含:
[0012]步驟101-1)從語(yǔ)音訓(xùn)練數(shù)據(jù)中提取語(yǔ)音特征;
[0013]步驟101-2)使用期望最大化算法計(jì)算基礎(chǔ)音素集的三因子高斯混合模型的統(tǒng)計(jì)量。
[0014]上述步驟102)進(jìn)一步包含:
[0015]步驟102-1)采用自聚類方法根據(jù)統(tǒng)計(jì)量自動(dòng)生成決策樹問題集;
[0016]步驟102-2)根據(jù)決策樹問題集將具有相同中心因子的三因子高斯混合模型分解為若干個(gè)子類,每個(gè)子類稱為一個(gè)同位音素;
[0017]其中,子類數(shù)量根據(jù)所設(shè)定的門限進(jìn)行控制。
[0018]上述步驟103)進(jìn)一步包含:
[0019]步驟103-1)將基礎(chǔ)音素集與分離出的同位音素合并作為音素集;
[0020]步驟103-2)通過決策樹過程對(duì)原始語(yǔ)音標(biāo)注進(jìn)行處理,根據(jù)上下文關(guān)系將標(biāo)注的中的基礎(chǔ)音素全部轉(zhuǎn)化為同位音素,處理后的語(yǔ)音標(biāo)注稱為含同位音素的語(yǔ)音標(biāo)注。
[0021]步驟104)所述聲學(xué)模型訓(xùn)練方法包含:期望最大化算法或深度神經(jīng)網(wǎng)絡(luò)算法。
[0022]此外,本發(fā)明還提供了一種語(yǔ)音解碼方法,該方法用于將輸入的語(yǔ)音信息解碼為文字信息且該方法基于權(quán)利要求1得到的同位音素分離結(jié)果與聲學(xué)模型,所述方法具體為:
[0023]步驟201)基于訓(xùn)練數(shù)據(jù),計(jì)算聲學(xué)模型所需的三因子高斯混合模型的統(tǒng)計(jì)量;
[0024]步驟202)采用自聚類方法根據(jù)統(tǒng)計(jì)量計(jì)算決策樹問題集,基于得到的決策樹的問題集采用決策樹算法對(duì)所述統(tǒng)計(jì)量進(jìn)行分割聚類,進(jìn)而得到同位音素;
[0025]步驟203)將基礎(chǔ)音素集與所述同位音素合并作為含同位音素的音素集,并通過決策樹過程對(duì)原始語(yǔ)音標(biāo)注進(jìn)行處理,處理后的語(yǔ)音標(biāo)注稱為含同位音素的語(yǔ)音標(biāo)注;
[0026]步驟204)基于含同位音素的音素集和語(yǔ)音標(biāo)注,采用聲學(xué)模型訓(xùn)練方法進(jìn)行聲學(xué)模型訓(xùn)練,生成含同位音素的聲學(xué)模型;
[0027]步驟205)基于同位音素分離結(jié)果對(duì)原始發(fā)音字典進(jìn)行處理,將發(fā)音字典中上下文關(guān)系符合同位音素決策條件的音素轉(zhuǎn)化為同位音素,處理后的發(fā)音字典稱為含同位音素的發(fā)音字典;
[0028]步驟206)依據(jù)聲學(xué)模型、語(yǔ)言模型和含同位音素的發(fā)音字典,對(duì)輸入的語(yǔ)音信息進(jìn)行解碼,輸出含同位音素的解碼結(jié)果;
[0029]步驟207)利用含同位音素的發(fā)音字典將解碼結(jié)果還原為文字信息,完成語(yǔ)音解碼。
[0030]總之,本發(fā)明將致力于解決黏著語(yǔ)語(yǔ)音識(shí)別系統(tǒng)中的高聲學(xué)模型混淆度問題。在對(duì)目標(biāo)語(yǔ)種各基礎(chǔ)音素的統(tǒng)計(jì)量進(jìn)行計(jì)算后,通過決策樹系統(tǒng)將高混淆度的基礎(chǔ)音素分解為若干易于區(qū)分的同位音素,大幅降低聲學(xué)模型混淆程度,從而改善系統(tǒng)整體性能。本算法完全基于統(tǒng)計(jì)進(jìn)行,不需要目標(biāo)語(yǔ)種額外的語(yǔ)言學(xué)知識(shí)。
[0031]與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)優(yōu)勢(shì)在于:
[0032]本發(fā)明所述方法可以有效降低黏著語(yǔ)聲學(xué)模型混淆度,從而大幅提升語(yǔ)音識(shí)別系統(tǒng)的整體性能。本發(fā)明亦不需要語(yǔ)言學(xué)知識(shí)支持,可以在缺乏語(yǔ)言學(xué)知識(shí)的情況下有效推廣至各類黏著語(yǔ)語(yǔ)音識(shí)別系統(tǒng)。
【附圖說(shuō)明】
[0033]圖1是本發(fā)明所述的黏著語(yǔ)語(yǔ)音識(shí)別同位音素分離算法框圖。
【具體實(shí)施方式】
[0034]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明所述方法進(jìn)行詳細(xì)說(shuō)明。
[0035]本發(fā)明所述的黏著語(yǔ)語(yǔ)音識(shí)別同位音素分離算法框圖如圖1所示。算法首先根據(jù)訓(xùn)練數(shù)據(jù)和采用基礎(chǔ)音素的訓(xùn)練標(biāo)注計(jì)算基礎(chǔ)音素三因子(Triphone)高斯混合模型(Gaussian Mixture Model,GMM)統(tǒng)計(jì)量,該統(tǒng)計(jì)量對(duì)每個(gè)基礎(chǔ)音素三因子在特征空間中的分布進(jìn)行估計(jì)。同位音素分離過程是對(duì)相同中心因子的三因子高斯混合模型進(jìn)行分割聚類的過程,分割手段在本算法中采用決策樹。一般情況下,決策樹過程所需的問題集會(huì)由專家知識(shí)所產(chǎn)生,但鑒于這種方式對(duì)語(yǔ)言學(xué)知識(shí)的依賴性較大,會(huì)嚴(yán)重限制算法的適用范圍,因此本算法采用自聚類方法根據(jù)統(tǒng)計(jì)量自動(dòng)生成決策樹問題