本發(fā)明涉及語音識別,尤其涉及一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)。
背景技術(shù):
1、近年來,自動語音識別(automatic?speech?recognition,asr)技術(shù)在多個(gè)領(lǐng)域獲得了廣泛應(yīng)用。然而,針對少數(shù)民族語言,如藏語等資源稀缺語言,其語音識別系統(tǒng)的性能仍然存在諸多挑戰(zhàn)。在藏語的三大方言中,現(xiàn)有公開數(shù)據(jù)集以衛(wèi)藏方言的標(biāo)注語音數(shù)據(jù)集規(guī)模最大,安多方言次之,而康巴方言的數(shù)據(jù)量最為有限,少于6小時(shí),屬于極低資源語言。因此,當(dāng)前藏語語音識別的研究主要集中于衛(wèi)藏方言和安多方言領(lǐng)域,康巴方言由于數(shù)據(jù)匱乏,相關(guān)研究十分稀少,導(dǎo)致缺乏高性能、可靠的康巴方言語音識別模型。這一現(xiàn)狀嚴(yán)重限制了康巴方言在語音識別技術(shù)中的應(yīng)用與發(fā)展。
2、為了提升極低資源語言的語音識別性能,當(dāng)前研究有以下兩類方法:
3、1.擴(kuò)充數(shù)據(jù)集方法,包括:
4、1.1采用數(shù)據(jù)增強(qiáng)技術(shù),如增加噪聲,譜擴(kuò)展等,通過擴(kuò)展訓(xùn)練數(shù)據(jù)集,提升模型對極低資源語言的適應(yīng)性;
5、1.2增加人工標(biāo)注數(shù)據(jù)以擴(kuò)充訓(xùn)練數(shù)據(jù)集。
6、2.改進(jìn)模型方法,包括:
7、2.1基于大量其他語言的語音數(shù)據(jù)預(yù)訓(xùn)練語音識別模型,再通過少量目標(biāo)語言數(shù)據(jù)進(jìn)行微調(diào),快速提升極低資源語言的語音識別效果,減少對標(biāo)注數(shù)據(jù)的依賴;
8、2.2基于自監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí),通過無標(biāo)簽數(shù)據(jù)訓(xùn)練模型,使其在資源匱乏的場景下仍能學(xué)習(xí)到語音特征,提升模型的泛化能力。
9、2.3通過多語言/多方言聯(lián)合訓(xùn)練方法,將目標(biāo)語言與其他語言的數(shù)據(jù)聯(lián)合訓(xùn)練,利用不同語言之間的共同特征,可以提高模型對目標(biāo)語言的語音識別能力。
10、然而,對于康巴方言,人工標(biāo)注數(shù)據(jù)的擴(kuò)充需要大量康巴方言母語者的參與,耗時(shí)且成本高昂,限制了數(shù)據(jù)集資源的擴(kuò)充,因此目前缺少通過人工標(biāo)注改善語音識別性能的研究。
11、為此,本發(fā)明提出了一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在的缺陷,而提出的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
3、一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),包括未標(biāo)注語音數(shù)據(jù)收集模塊、基于語音合成的偽音頻數(shù)據(jù)收集模塊、初始模型訓(xùn)練模塊、模型推理模塊、數(shù)據(jù)選擇與增強(qiáng)模塊、模型迭代訓(xùn)練模塊。
4、進(jìn)一步地,所述未標(biāo)注語音數(shù)據(jù)收集模塊用于從公開的網(wǎng)絡(luò)資源中收集未標(biāo)注的康巴語音數(shù)據(jù);
5、所述未標(biāo)注語音數(shù)據(jù)收集模塊包括:
6、網(wǎng)絡(luò)爬蟲模塊,用于從公共網(wǎng)絡(luò)上爬取康巴語音數(shù)據(jù);
7、人工切分模塊,與所述網(wǎng)絡(luò)爬蟲模塊相連接,用于對爬取的語音數(shù)據(jù)進(jìn)行句子級別的切分;
8、數(shù)據(jù)預(yù)處理模塊,與所述人工切分模塊相連接,用于對語音數(shù)據(jù)進(jìn)行預(yù)處理,規(guī)整數(shù)據(jù);
9、數(shù)據(jù)整合模塊,與所述數(shù)據(jù)預(yù)處理模塊相連接,用于將所有數(shù)據(jù)統(tǒng)一標(biāo)記、存儲,整合成最終的未標(biāo)注康巴方言語音數(shù)據(jù)集。
10、進(jìn)一步地,所述基于語音合成的偽音頻數(shù)據(jù)收集模塊用于通過語音合成技術(shù),根據(jù)藏文文本生成康巴方言的偽音頻數(shù)據(jù)。
11、進(jìn)一步地,所述初始模型訓(xùn)練模塊基于已有人工標(biāo)注數(shù)據(jù)集訓(xùn)練初始康巴方言語音識別模型。
12、進(jìn)一步地,所述模型推理模塊與所述未標(biāo)注語音數(shù)據(jù)收集模塊、基于語音合成的偽音頻數(shù)據(jù)收集模塊和初始模型訓(xùn)練模塊相連接,用于基于已訓(xùn)練的語音識別模型,對未標(biāo)注語音數(shù)據(jù)及合成偽語音識別為藏文文本。
13、進(jìn)一步地,所述數(shù)據(jù)選擇與增強(qiáng)模塊與所述模型推理模塊相連接,用于從未標(biāo)注語音數(shù)據(jù)及合成偽語音中選擇可靠的語音-文本對,并與人工標(biāo)注語音識別數(shù)據(jù)集共同擴(kuò)展為訓(xùn)練數(shù)據(jù)集。
14、進(jìn)一步地,所述模型迭代訓(xùn)練模塊與所述模型推理模塊和數(shù)據(jù)選擇與增強(qiáng)模塊相連接,用于基于擴(kuò)充的訓(xùn)練數(shù)據(jù)集迭代強(qiáng)化訓(xùn)練語音識別模型性能,最終獲得高準(zhǔn)確率的藏語康巴方言語音識別模型。
15、相比于現(xiàn)有技術(shù),本發(fā)明的有益效果在于:
16、1、本發(fā)明中提供的基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)通過未標(biāo)注的語音數(shù)據(jù)及語音合成的偽音頻擴(kuò)充訓(xùn)練數(shù)據(jù)集規(guī)模,利用自增強(qiáng)學(xué)習(xí)的思想迭代優(yōu)化語音識別模型,最終在極低資源的康巴方言語音識別上獲得更好的性能;
17、2、本發(fā)明不僅提高了藏語康巴方言語音識別性能,還獲得了一批可用的帶有高準(zhǔn)確率的標(biāo)簽的語音識別數(shù)據(jù)集;
18、3、本發(fā)明可以推廣到其他語言,特別是低資源語言的語音識別訓(xùn)練中,具有較高的應(yīng)用價(jià)值。
1.一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,包括未標(biāo)注語音數(shù)據(jù)收集模塊(1)、基于語音合成的偽音頻數(shù)據(jù)收集模塊(2)、初始模型訓(xùn)練模塊(3)、模型推理模塊(4)、數(shù)據(jù)選擇與增強(qiáng)模塊(5)、模型迭代訓(xùn)練模塊(6)。
2.根據(jù)權(quán)利要求1所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述未標(biāo)注語音數(shù)據(jù)收集模塊(1)用于從公開的網(wǎng)絡(luò)資源中收集未標(biāo)注的康巴語音數(shù)據(jù);
3.根據(jù)權(quán)利要求2所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述基于語音合成的偽音頻數(shù)據(jù)收集模塊(2)用于通過語音合成技術(shù),根據(jù)藏文文本生成康巴方言的偽音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述初始模型訓(xùn)練模塊(3)基于已有人工標(biāo)注數(shù)據(jù)集訓(xùn)練初始康巴方言語音識別模型。
5.根據(jù)權(quán)利要求4所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述模型推理模塊(4)與所述未標(biāo)注語音數(shù)據(jù)收集模塊(1)、基于語音合成的偽音頻數(shù)據(jù)收集模塊(2)和初始模型訓(xùn)練模塊(3)相連接,用于基于已訓(xùn)練的語音識別模型,對未標(biāo)注語音數(shù)據(jù)及合成偽語音識別為藏文文本。
6.根據(jù)權(quán)利要求5所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述數(shù)據(jù)選擇與增強(qiáng)模塊(5)與所述模型推理模塊(4)相連接,用于從未標(biāo)注語音數(shù)據(jù)及合成偽語音中選擇可靠的語音-文本對,并與人工標(biāo)注語音識別數(shù)據(jù)集共同擴(kuò)展為訓(xùn)練數(shù)據(jù)集。
7.根據(jù)權(quán)利要求6所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述模型迭代訓(xùn)練模塊(6)與所述模型推理模塊(4)和數(shù)據(jù)選擇與增強(qiáng)模塊(5)相連接,用于基于擴(kuò)充的訓(xùn)練數(shù)據(jù)集迭代強(qiáng)化訓(xùn)練語音識別模型性能,最終獲得高準(zhǔn)確率的藏語康巴方言語音識別模型。