亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于增強(qiáng)CRF層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法與流程

文檔序號(hào):40382892發(fā)布日期:2024-12-20 12:05閱讀:5來(lái)源:國(guó)知局
一種基于增強(qiáng)CRF層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法與流程

本發(fā)明涉及文本語(yǔ)義分析領(lǐng)域,尤其涉及一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法。


背景技術(shù):

1、bert是一種預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)在大量文本數(shù)據(jù)上的無(wú)監(jiān)督學(xué)習(xí),能夠捕捉豐富的語(yǔ)言特征和上下文信息。條件隨機(jī)場(chǎng)(crf)是一種統(tǒng)計(jì)模型,用于序列數(shù)據(jù)的標(biāo)注任務(wù),能夠考慮標(biāo)簽之間的依賴關(guān)系,提高序列標(biāo)注的準(zhǔn)確性;bert-crf模型結(jié)合了bert的上下文表示能力和條件隨機(jī)場(chǎng)(crf)的序列標(biāo)注能力,廣泛應(yīng)用于中文命名實(shí)體識(shí)別任務(wù),但是,現(xiàn)有技術(shù)中,由于bert-crf模型未進(jìn)行有效的捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系的訓(xùn)練,使得模型在語(yǔ)義要素識(shí)別任務(wù)上的適應(yīng)性和泛化能力的表現(xiàn)不盡人意。

2、中國(guó)專利公開(kāi)號(hào)cn110083831a公布了一種基于bert-bigru-crf的中文命名實(shí)體識(shí)別方法,方法包括三個(gè)階段,第一階段預(yù)處理海量文本語(yǔ)料,預(yù)訓(xùn)練bert語(yǔ)言模型;第二階段預(yù)處理命名實(shí)體識(shí)別語(yǔ)料,利用訓(xùn)練好的bert語(yǔ)言模型對(duì)命名實(shí)體識(shí)別語(yǔ)料進(jìn)行編碼;第三階段將編碼后的語(yǔ)料輸入bigru+crf模型中進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型對(duì)待識(shí)別語(yǔ)句進(jìn)行命名實(shí)體識(shí)別。由此可見(jiàn),上述技術(shù)方案存在以下問(wèn)題:模型未進(jìn)行有效的捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系的訓(xùn)練,使得模型在語(yǔ)義要素識(shí)別任務(wù)上的適應(yīng)性和泛化能力的表現(xiàn)差。


技術(shù)實(shí)現(xiàn)思路

1、為此,本發(fā)明提供一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,用以克服現(xiàn)有技術(shù)中模型在語(yǔ)義要素識(shí)別任務(wù)上的適應(yīng)性和泛化能力的表現(xiàn)差的問(wèn)題。

2、為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,包括:

3、步驟s1,針對(duì)樣本庫(kù)進(jìn)行樣本篩選分析以獲取若干訓(xùn)練樣本;

4、步驟s2,針對(duì)單個(gè)訓(xùn)練樣本,根據(jù)預(yù)設(shè)策略函數(shù)對(duì)訓(xùn)練樣本進(jìn)行語(yǔ)義要素提取以獲得標(biāo)簽序列;

5、步驟s3,計(jì)算標(biāo)簽序列對(duì)應(yīng)的累計(jì)折扣獎(jiǎng)勵(lì);

6、步驟s4,采用預(yù)設(shè)目標(biāo)函數(shù)獲取標(biāo)簽序列對(duì)應(yīng)的概率獎(jiǎng)勵(lì)期望值,采用預(yù)設(shè)梯度公式進(jìn)行梯度計(jì)算,并且針對(duì)模型參數(shù)進(jìn)行參數(shù)更新;

7、步驟s5,根據(jù)預(yù)設(shè)探索策略確定是否重新選擇標(biāo)簽;

8、步驟s6,重復(fù)步驟s2至s5,且在預(yù)設(shè)停止條件下,停止模型訓(xùn)練學(xué)習(xí)。

9、進(jìn)一步地,所述預(yù)設(shè)策略函數(shù)為π(a|s;θ),其中,s為給定狀態(tài),a為選擇下一個(gè)標(biāo)簽的概率,θ為模型參數(shù)。

10、進(jìn)一步地,累計(jì)折扣獎(jiǎng)勵(lì)為r,r的計(jì)算公式為:

11、,

12、其中,n為當(dāng)前時(shí)間步數(shù),為折扣因子,0<<1,為第t個(gè)時(shí)間步對(duì)應(yīng)的即時(shí)獎(jiǎng)勵(lì),t≤n。

13、進(jìn)一步地,所述預(yù)設(shè)目標(biāo)函數(shù)為:

14、。

15、進(jìn)一步地,所述預(yù)設(shè)梯度公式為:

16、;

17、其中,b為基準(zhǔn)函數(shù)。

18、進(jìn)一步地,所述預(yù)設(shè)探索策略包括:

19、檢測(cè)當(dāng)前執(zhí)行概率ε;

20、若執(zhí)行概率ε小于預(yù)設(shè)執(zhí)行概率,則隨機(jī)選擇重新選擇未使用標(biāo)簽;

21、若執(zhí)行概率ε大于或等于預(yù)設(shè)執(zhí)行概率,則選擇當(dāng)前標(biāo)簽記為最佳標(biāo)簽;

22、其中,執(zhí)行概率ε的計(jì)算公式為:

23、;

24、其中,m為迭代次數(shù),λ為衰減率,?min為最小探索概率,?max為最大探索概率。

25、進(jìn)一步地,預(yù)設(shè)調(diào)整條件下,針對(duì)模型動(dòng)作均勻狀態(tài)進(jìn)行檢測(cè),并且當(dāng)模型動(dòng)作均勻狀態(tài)處于預(yù)設(shè)模型動(dòng)作均勻狀態(tài)時(shí),針對(duì)預(yù)設(shè)目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換;

26、轉(zhuǎn)換后的預(yù)設(shè)目標(biāo)函數(shù)為:

27、;

28、其中,,α為正則化系數(shù),。

29、進(jìn)一步地,所述正則化系數(shù)的取值根據(jù)獎(jiǎng)勵(lì)參數(shù)值進(jìn)行確定;

30、所述正則化系數(shù)與損失波動(dòng)值為負(fù)相關(guān)關(guān)系。

31、進(jìn)一步地,所述樣本篩選分析包括:

32、隨機(jī)選擇預(yù)設(shè)數(shù)量的待選擇樣本;

33、針對(duì)樣本特征豐富度進(jìn)行檢測(cè);

34、若樣本特征豐富度處于第一預(yù)設(shè)樣本特征豐富度范圍,則針對(duì)訓(xùn)練樣本的數(shù)量進(jìn)行增大調(diào)節(jié);

35、若樣本特征豐富度處于第二預(yù)設(shè)樣本特征豐富度范圍,則判定訓(xùn)練樣本滿足訓(xùn)練需求。

36、進(jìn)一步地,所述樣本特征豐富度根據(jù)各待選擇樣本的特殊領(lǐng)域文本分割參考值以及特殊領(lǐng)域文本字符數(shù)量進(jìn)行確定。

37、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于,本發(fā)明技術(shù)方案中通過(guò)增強(qiáng)的crf層優(yōu)化策略能夠有效地捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系,提高模型在語(yǔ)義要素識(shí)別任務(wù)上的表現(xiàn),不僅提升了模型的學(xué)習(xí)能力,還增強(qiáng)了最終學(xué)習(xí)得到的模型適應(yīng)性和泛化能力,通過(guò)訓(xùn)練來(lái)優(yōu)化和微調(diào)模型參數(shù),實(shí)現(xiàn)了模型對(duì)特殊領(lǐng)域文本語(yǔ)義要素的識(shí)別效果的提高,顯著提高了特殊領(lǐng)域文本語(yǔ)義要素識(shí)別的準(zhǔn)確性和魯棒性,尤其提高了針對(duì)長(zhǎng)篇幅或多模態(tài)內(nèi)容的處理能力。

38、進(jìn)一步地,本發(fā)明中折扣因子對(duì)應(yīng)應(yīng)用有調(diào)節(jié)方式,可以根據(jù)訓(xùn)練樣本依賴參考值針對(duì)折扣因子進(jìn)行調(diào)節(jié),從而使得折扣因子的取值,更加符合實(shí)際工作場(chǎng)景,降低短時(shí)決策的識(shí)別誤差,進(jìn)而提高本發(fā)明模型訓(xùn)練精度。

39、進(jìn)一步地,本發(fā)明中預(yù)設(shè)目標(biāo)函數(shù)表示的是執(zhí)行動(dòng)作在狀態(tài)下的對(duì)數(shù)概率與獲得的累積獎(jiǎng)勵(lì)的乘積的期望值,這里的對(duì)數(shù)概率用于確保概率值的非負(fù)性,并且使得梯度計(jì)算更加穩(wěn)定,本發(fā)明能夠優(yōu)化策略參數(shù),以在長(zhǎng)期博弈訓(xùn)練中獲得最大的累積獎(jiǎng)勵(lì)。

40、進(jìn)一步地,所述正則化系數(shù)的取值根據(jù)獎(jiǎng)勵(lì)參數(shù)值進(jìn)行確定;所述正則化系數(shù)與損失波動(dòng)值為負(fù)相關(guān)關(guān)系,正則化系數(shù)的取值更加符合實(shí)際場(chǎng)景,使得正則化系數(shù)的取值能夠滿足模型學(xué)習(xí)的需求。



技術(shù)特征:

1.一種基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)策略函數(shù)為π(a|s;θ),其中,s為給定狀態(tài),a為選擇下一個(gè)標(biāo)簽的概率,θ為模型參數(shù)。

3.根據(jù)權(quán)利要求2所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述累計(jì)折扣獎(jiǎng)勵(lì)為r,r的計(jì)算公式為:

4.根據(jù)權(quán)利要求3所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)目標(biāo)函數(shù)為:

5.根據(jù)權(quán)利要求4所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)梯度公式為:

6.根據(jù)權(quán)利要求5所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述預(yù)設(shè)探索策略包括:

7.根據(jù)權(quán)利要求6所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,預(yù)設(shè)調(diào)整條件下,針對(duì)模型動(dòng)作均勻狀態(tài)進(jìn)行檢測(cè),并且當(dāng)模型動(dòng)作均勻狀態(tài)處于預(yù)設(shè)模型動(dòng)作均勻狀態(tài)時(shí),針對(duì)預(yù)設(shè)目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換;

8.根據(jù)權(quán)利要求7所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述正則化系數(shù)的取值根據(jù)獎(jiǎng)勵(lì)參數(shù)值進(jìn)行確定;

9.根據(jù)權(quán)利要求8所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述樣本篩選分析包括:

10.根據(jù)權(quán)利要求9所述的基于增強(qiáng)crf層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,其特征在于,所述樣本特征豐富度根據(jù)各待選擇樣本的特殊領(lǐng)域文本分割參考值以及特殊領(lǐng)域文本字符數(shù)量進(jìn)行確定。


技術(shù)總結(jié)
本發(fā)明涉及文本語(yǔ)義分析領(lǐng)域,尤其涉及一種基于增強(qiáng)CRF層的特殊領(lǐng)域文本語(yǔ)義要素識(shí)別方法,包括:針對(duì)樣本庫(kù)進(jìn)行樣本篩選分析以獲取若干訓(xùn)練樣本;針對(duì)單個(gè)訓(xùn)練樣本,根據(jù)預(yù)設(shè)策略函數(shù)對(duì)訓(xùn)練樣本進(jìn)行語(yǔ)義要素提取以獲得標(biāo)簽序列;計(jì)算標(biāo)簽序列對(duì)應(yīng)的累計(jì)折扣獎(jiǎng)勵(lì);采用預(yù)設(shè)目標(biāo)函數(shù)獲取標(biāo)簽序列對(duì)應(yīng)的概率獎(jiǎng)勵(lì)期望值,采用預(yù)設(shè)梯度公式進(jìn)行梯度計(jì)算,并且針對(duì)模型參數(shù)進(jìn)行參數(shù)更新;根據(jù)預(yù)設(shè)探索策略確定是否重新選擇標(biāo)簽;在預(yù)設(shè)停止條件下,停止模型訓(xùn)練學(xué)習(xí);本發(fā)明提高了模型有效地捕捉標(biāo)簽序列間的復(fù)雜依賴關(guān)系的能力,進(jìn)而提高模型在語(yǔ)義要素識(shí)別任務(wù)上的準(zhǔn)確性和魯棒性,以及提高了處理長(zhǎng)篇幅文本的能力。

技術(shù)研發(fā)人員:楊阿華,樊昀,鄭瑾,王強(qiáng),王鐵兵,邱松
受保護(hù)的技術(shù)使用者:中國(guó)人民解放軍63921部隊(duì)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1