亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)

文檔序號:40443804發(fā)布日期:2024-12-24 15:18閱讀:32來源:國知局
一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)

本發(fā)明涉及語音識別,尤其涉及一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)。


背景技術(shù):

1、近年來,自動語音識別(automatic?speech?recognition,asr)技術(shù)在多個(gè)領(lǐng)域獲得了廣泛應(yīng)用。然而,針對少數(shù)民族語言,如藏語等資源稀缺語言,其語音識別系統(tǒng)的性能仍然存在諸多挑戰(zhàn)。在藏語的三大方言中,現(xiàn)有公開數(shù)據(jù)集以衛(wèi)藏方言的標(biāo)注語音數(shù)據(jù)集規(guī)模最大,安多方言次之,而康巴方言的數(shù)據(jù)量最為有限,少于6小時(shí),屬于極低資源語言。因此,當(dāng)前藏語語音識別的研究主要集中于衛(wèi)藏方言和安多方言領(lǐng)域,康巴方言由于數(shù)據(jù)匱乏,相關(guān)研究十分稀少,導(dǎo)致缺乏高性能、可靠的康巴方言語音識別模型。這一現(xiàn)狀嚴(yán)重限制了康巴方言在語音識別技術(shù)中的應(yīng)用與發(fā)展。

2、為了提升極低資源語言的語音識別性能,當(dāng)前研究有以下兩類方法:

3、1.擴(kuò)充數(shù)據(jù)集方法,包括:

4、1.1采用數(shù)據(jù)增強(qiáng)技術(shù),如增加噪聲,譜擴(kuò)展等,通過擴(kuò)展訓(xùn)練數(shù)據(jù)集,提升模型對極低資源語言的適應(yīng)性;

5、1.2增加人工標(biāo)注數(shù)據(jù)以擴(kuò)充訓(xùn)練數(shù)據(jù)集。

6、2.改進(jìn)模型方法,包括:

7、2.1基于大量其他語言的語音數(shù)據(jù)預(yù)訓(xùn)練語音識別模型,再通過少量目標(biāo)語言數(shù)據(jù)進(jìn)行微調(diào),快速提升極低資源語言的語音識別效果,減少對標(biāo)注數(shù)據(jù)的依賴;

8、2.2基于自監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí),通過無標(biāo)簽數(shù)據(jù)訓(xùn)練模型,使其在資源匱乏的場景下仍能學(xué)習(xí)到語音特征,提升模型的泛化能力。

9、2.3通過多語言/多方言聯(lián)合訓(xùn)練方法,將目標(biāo)語言與其他語言的數(shù)據(jù)聯(lián)合訓(xùn)練,利用不同語言之間的共同特征,可以提高模型對目標(biāo)語言的語音識別能力。

10、然而,對于康巴方言,人工標(biāo)注數(shù)據(jù)的擴(kuò)充需要大量康巴方言母語者的參與,耗時(shí)且成本高昂,限制了數(shù)據(jù)集資源的擴(kuò)充,因此目前缺少通過人工標(biāo)注改善語音識別性能的研究。

11、為此,本發(fā)明提出了一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在的缺陷,而提出的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)。

2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:

3、一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),包括未標(biāo)注語音數(shù)據(jù)收集模塊、基于語音合成的偽音頻數(shù)據(jù)收集模塊、初始模型訓(xùn)練模塊、模型推理模塊、數(shù)據(jù)選擇與增強(qiáng)模塊、模型迭代訓(xùn)練模塊。

4、進(jìn)一步地,所述未標(biāo)注語音數(shù)據(jù)收集模塊用于從公開的網(wǎng)絡(luò)資源中收集未標(biāo)注的康巴語音數(shù)據(jù);

5、所述未標(biāo)注語音數(shù)據(jù)收集模塊包括:

6、網(wǎng)絡(luò)爬蟲模塊,用于從公共網(wǎng)絡(luò)上爬取康巴語音數(shù)據(jù);

7、人工切分模塊,與所述網(wǎng)絡(luò)爬蟲模塊相連接,用于對爬取的語音數(shù)據(jù)進(jìn)行句子級別的切分;

8、數(shù)據(jù)預(yù)處理模塊,與所述人工切分模塊相連接,用于對語音數(shù)據(jù)進(jìn)行預(yù)處理,規(guī)整數(shù)據(jù);

9、數(shù)據(jù)整合模塊,與所述數(shù)據(jù)預(yù)處理模塊相連接,用于將所有數(shù)據(jù)統(tǒng)一標(biāo)記、存儲,整合成最終的未標(biāo)注康巴方言語音數(shù)據(jù)集。

10、進(jìn)一步地,所述基于語音合成的偽音頻數(shù)據(jù)收集模塊用于通過語音合成技術(shù),根據(jù)藏文文本生成康巴方言的偽音頻數(shù)據(jù)。

11、進(jìn)一步地,所述初始模型訓(xùn)練模塊基于已有人工標(biāo)注數(shù)據(jù)集訓(xùn)練初始康巴方言語音識別模型。

12、進(jìn)一步地,所述模型推理模塊與所述未標(biāo)注語音數(shù)據(jù)收集模塊、基于語音合成的偽音頻數(shù)據(jù)收集模塊和初始模型訓(xùn)練模塊相連接,用于基于已訓(xùn)練的語音識別模型,對未標(biāo)注語音數(shù)據(jù)及合成偽語音識別為藏文文本。

13、進(jìn)一步地,所述數(shù)據(jù)選擇與增強(qiáng)模塊與所述模型推理模塊相連接,用于從未標(biāo)注語音數(shù)據(jù)及合成偽語音中選擇可靠的語音-文本對,并與人工標(biāo)注語音識別數(shù)據(jù)集共同擴(kuò)展為訓(xùn)練數(shù)據(jù)集。

14、進(jìn)一步地,所述模型迭代訓(xùn)練模塊與所述模型推理模塊和數(shù)據(jù)選擇與增強(qiáng)模塊相連接,用于基于擴(kuò)充的訓(xùn)練數(shù)據(jù)集迭代強(qiáng)化訓(xùn)練語音識別模型性能,最終獲得高準(zhǔn)確率的藏語康巴方言語音識別模型。

15、相比于現(xiàn)有技術(shù),本發(fā)明的有益效果在于:

16、1、本發(fā)明中提供的基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)通過未標(biāo)注的語音數(shù)據(jù)及語音合成的偽音頻擴(kuò)充訓(xùn)練數(shù)據(jù)集規(guī)模,利用自增強(qiáng)學(xué)習(xí)的思想迭代優(yōu)化語音識別模型,最終在極低資源的康巴方言語音識別上獲得更好的性能;

17、2、本發(fā)明不僅提高了藏語康巴方言語音識別性能,還獲得了一批可用的帶有高準(zhǔn)確率的標(biāo)簽的語音識別數(shù)據(jù)集;

18、3、本發(fā)明可以推廣到其他語言,特別是低資源語言的語音識別訓(xùn)練中,具有較高的應(yīng)用價(jià)值。



技術(shù)特征:

1.一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,包括未標(biāo)注語音數(shù)據(jù)收集模塊(1)、基于語音合成的偽音頻數(shù)據(jù)收集模塊(2)、初始模型訓(xùn)練模塊(3)、模型推理模塊(4)、數(shù)據(jù)選擇與增強(qiáng)模塊(5)、模型迭代訓(xùn)練模塊(6)。

2.根據(jù)權(quán)利要求1所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述未標(biāo)注語音數(shù)據(jù)收集模塊(1)用于從公開的網(wǎng)絡(luò)資源中收集未標(biāo)注的康巴語音數(shù)據(jù);

3.根據(jù)權(quán)利要求2所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述基于語音合成的偽音頻數(shù)據(jù)收集模塊(2)用于通過語音合成技術(shù),根據(jù)藏文文本生成康巴方言的偽音頻數(shù)據(jù)。

4.根據(jù)權(quán)利要求3所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述初始模型訓(xùn)練模塊(3)基于已有人工標(biāo)注數(shù)據(jù)集訓(xùn)練初始康巴方言語音識別模型。

5.根據(jù)權(quán)利要求4所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述模型推理模塊(4)與所述未標(biāo)注語音數(shù)據(jù)收集模塊(1)、基于語音合成的偽音頻數(shù)據(jù)收集模塊(2)和初始模型訓(xùn)練模塊(3)相連接,用于基于已訓(xùn)練的語音識別模型,對未標(biāo)注語音數(shù)據(jù)及合成偽語音識別為藏文文本。

6.根據(jù)權(quán)利要求5所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述數(shù)據(jù)選擇與增強(qiáng)模塊(5)與所述模型推理模塊(4)相連接,用于從未標(biāo)注語音數(shù)據(jù)及合成偽語音中選擇可靠的語音-文本對,并與人工標(biāo)注語音識別數(shù)據(jù)集共同擴(kuò)展為訓(xùn)練數(shù)據(jù)集。

7.根據(jù)權(quán)利要求6所述的一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),其特征在于,所述模型迭代訓(xùn)練模塊(6)與所述模型推理模塊(4)和數(shù)據(jù)選擇與增強(qiáng)模塊(5)相連接,用于基于擴(kuò)充的訓(xùn)練數(shù)據(jù)集迭代強(qiáng)化訓(xùn)練語音識別模型性能,最終獲得高準(zhǔn)確率的藏語康巴方言語音識別模型。


技術(shù)總結(jié)
本發(fā)明公開了一種基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng),涉及語音識別技術(shù)領(lǐng)域,包括未標(biāo)注語音數(shù)據(jù)收集模塊、基于語音合成的偽音頻數(shù)據(jù)收集模塊、初始模型訓(xùn)練模塊、模型推理模塊、數(shù)據(jù)選擇與增強(qiáng)模塊、模型迭代訓(xùn)練模塊。本發(fā)明中提供的基于自增強(qiáng)學(xué)習(xí)的藏語康巴方言語音識別系統(tǒng)通過未標(biāo)注的語音數(shù)據(jù)及語音合成的偽音頻擴(kuò)充訓(xùn)練數(shù)據(jù)集規(guī)模,利用自增強(qiáng)學(xué)習(xí)的思想迭代優(yōu)化語音識別模型,最終在極低資源的康巴方言語音識別上獲得更好的性能;本發(fā)明不僅提高了藏語康巴方言語音識別性能,還獲得了一批可用的帶有高準(zhǔn)確率的標(biāo)簽的語音識別數(shù)據(jù)集;本發(fā)明可以推廣到其他語言,特別是低資源語言的語音識別訓(xùn)練中,具有較高的應(yīng)用價(jià)值。

技術(shù)研發(fā)人員:戚肖克,劉佳洛,趙小兵
受保護(hù)的技術(shù)使用者:中國政法大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1