本發(fā)明屬于自然語言處理和計(jì)算機(jī)視覺,尤其是一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法。
背景技術(shù):
1、命名實(shí)體識別技術(shù)近年來受到了廣泛的關(guān)注,是統(tǒng)一數(shù)據(jù)管理系統(tǒng)中最基礎(chǔ)的領(lǐng)域之一;盡管現(xiàn)有的命名實(shí)體識別相關(guān)工作取得了顯著的性能,但是在統(tǒng)一數(shù)據(jù)管理系統(tǒng)中往往存在以下缺陷:
2、一、單一模態(tài)的局限性使得我們無法從文本信息中獲取足夠的上下文來準(zhǔn)確識別實(shí)體。
3、例如,在沒有具體上下文的情況下,“apple”這個詞既可以指代一種水果,也可以指代一家科技公司,這就造成了詞義歧義問題。
4、二、文本信息本身可能并不完整,缺乏必要的視覺線索,這對于理解某些文本內(nèi)容至關(guān)重要。
5、比如,由于語言和文化差異,同一文本描述可能對應(yīng)不同的場景;再如,描述一場比賽時,文本可能不會詳細(xì)到每個運(yùn)動員的具體動作或場景,導(dǎo)致信息缺失。
6、三、噪音和非結(jié)構(gòu)化數(shù)據(jù)也是一大難題。
7、不同來源和傳播途徑的文本,如個人發(fā)布的社交媒體內(nèi)容、官方文件、紙質(zhì)書籍或網(wǎng)頁等,這些文本往往是非結(jié)構(gòu)化的,并且可能包含不同程度的錯別字、語法錯誤或語義傳遞錯誤,這對傳統(tǒng)命名實(shí)體識別模型的理解能力提出了挑戰(zhàn)。
8、同時,多樣化的表達(dá)方式也增加了實(shí)體識別的難度,因?yàn)橥粋€實(shí)體可能有多種稱呼或?qū)懛ǎ煌膶?shí)體可能在文本中表現(xiàn)出一定的相似性。
9、四、語言依賴性也是一個不容忽視的問題。
10、傳統(tǒng)的命名實(shí)體識別模型通常針對單一語言進(jìn)行訓(xùn)練和優(yōu)化,這使得它們難以處理多語言或跨語言的實(shí)體識別任務(wù)。
11、上述問題共同構(gòu)成了命名實(shí)體識別任務(wù)中的復(fù)雜挑戰(zhàn),需要研發(fā)出更加靈活和智能的方法來解決。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問題,本發(fā)明提供一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,通過四個任務(wù)單元架構(gòu)的獨(dú)創(chuàng)設(shè)計(jì),充分利用了多模態(tài)信息,更好地進(jìn)行命名實(shí)體識別;在數(shù)據(jù)增強(qiáng)階段,采用圖文檢索方法,對生成數(shù)據(jù)進(jìn)行進(jìn)一步的相似內(nèi)容抽取,在最后的命名實(shí)體識別部分引入大模型和混合專家模型,更好地處理多模態(tài)信息,提高模型的訓(xùn)練效果和泛化能力,從而提升模型在命名實(shí)體識別任務(wù)中的表現(xiàn)。
2、一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,設(shè)計(jì)有四個任務(wù)單元架構(gòu),包括:基于文生圖模型的數(shù)據(jù)增強(qiáng)任務(wù)、圖文檢索任務(wù)、基于混合專家模型的多模態(tài)信息融合任務(wù)以及基于大模型的生成式命名實(shí)體識別任務(wù),其中:
3、①所述基于文生圖模型的數(shù)據(jù)增強(qiáng)任務(wù):
4、用于加強(qiáng)命名實(shí)體識別任務(wù)效果,通過引入圖像信息,使得文本信息和所述圖像信息可以相互驗(yàn)證,減少了單一模態(tài)下的信息缺失及誤識別風(fēng)險;文生圖模型能構(gòu)造出與文本語義更加匹配、噪聲信息更少的圖像,該方法生成的圖文對作為數(shù)據(jù)庫;
5、作為一種舉例說明,提取來自所述文本信息和圖像信息混合的高級特征,可以有效地加強(qiáng)實(shí)體細(xì)節(jié)與圖像信息和文本信息的對齊關(guān)系,從而提升命名實(shí)體識別任務(wù)的性能。
6、②所述圖文檢索任務(wù):
7、對當(dāng)前輸入的目標(biāo)圖文對樣本的圖像信息和文本信息進(jìn)行特征計(jì)算,得到相應(yīng)圖像特征和文本特征,隨后遍歷數(shù)據(jù)庫中的每一對圖文對,分別計(jì)算其圖像信息和文本信息的特征,然后分別計(jì)算其與目標(biāo)圖文對樣本的圖像特征和文本特征之間的余弦相似度,并取加權(quán)平均值作為最終得到的圖文對相似度;
8、作為一種舉例說明,通過對所述數(shù)據(jù)庫的檢索,抽取相似度最高的k個圖文對,進(jìn)一步提升相關(guān)圖文特征的信息完備性。
9、作為一種舉例說明,所述檢索的相似度最高的k個圖文對,作為知識增強(qiáng)樣本。
10、③所述基于混合專家模型的多模態(tài)信息融合任務(wù):
11、用于確保每個輸入的文本信息和圖像信息的特征都能得到最優(yōu)處理,以增強(qiáng)對圖文特征的處理;將輸入的圖文特征通過交叉注意力機(jī)制處理后得到混合特征,然后經(jīng)過路由器的一個或多個線性層,得到各專家分?jǐn)?shù),再路由到各個混合專家模型進(jìn)一步處理;
12、作為一種舉例說明,基于所述混合專家模型的多模態(tài)信息融合任務(wù)在多模態(tài)特征融合階段引入了混合專家機(jī)制,通過所述路由器將混合特征按計(jì)算分?jǐn)?shù)分發(fā)給各混合專家模型,以擴(kuò)展參數(shù)規(guī)模,提高所述多模態(tài)信息融合模型的魯棒性,使其能夠更好地應(yīng)對噪聲干擾。
13、作為一種舉例說明,所述圖文檢索任務(wù)以及基于混合專家模型的多模態(tài)信息融合任務(wù)均是基于多模態(tài)模型open-flamingo進(jìn)行改進(jìn),通過clip模型對文本信息和圖像信息對進(jìn)行特征提取,進(jìn)而與所述數(shù)據(jù)庫中的其它圖文對進(jìn)行相似度檢索。
14、④所述基于大模型的生成式命名實(shí)體識別任務(wù):
15、首先,對于知識增強(qiáng)樣本,通過vision?encoder和language?encoder分別進(jìn)行編碼,并與目標(biāo)圖文對樣本的圖像信息和文本信息進(jìn)行組合,其中文本信息需要與指令進(jìn)行拼接后再進(jìn)行編碼,分別編碼及組合后得到的圖文特征輸入到多模態(tài)信息融合模型中進(jìn)行處理;
16、然后,將傳統(tǒng)的命名實(shí)體識別分類任務(wù)改進(jìn)為生成任務(wù),利用所述基于混合專家模型的多模態(tài)信息融合任務(wù)與大模型的解碼進(jìn)行結(jié)合;對于每層解碼層,先將輸入的圖文特征經(jīng)過第三單元架構(gòu)進(jìn)行處理,隨后由解碼層進(jìn)一步處理;
17、最后,對所述圖文特征進(jìn)行實(shí)體生成,以最小化語言模型損失l為目標(biāo)訓(xùn)練模型。
18、作為一種舉例說明,引入所述大模型對傳統(tǒng)命名實(shí)體識別任務(wù)的輸出方式進(jìn)行了改進(jìn),通過所述生成式的輸出方式,優(yōu)化多模態(tài)命名實(shí)體識別模型在為可見類上的泛化能力,深化多模態(tài)命名實(shí)體識別模型的知識基礎(chǔ)。
19、本發(fā)明的有益效果:
20、本發(fā)明設(shè)計(jì)架構(gòu)科學(xué)可靠,增強(qiáng)了改進(jìn)命名實(shí)體識別的效果。利用大模型本身豐富的知識,為命名實(shí)體識別提供額外知識,增強(qiáng)外部信息,從而輔助命名實(shí)體識別效果。
21、本發(fā)明充分利用圖像知識,并利用混合專家模型篩選重要信息,去除干擾信息,增強(qiáng)命名實(shí)體識別的魯棒性。
22、本發(fā)明利用圖文檢索方法檢索相似的命名實(shí)體識別例子,為目標(biāo)樣本識別提供增強(qiáng)的知識,增強(qiáng)實(shí)體識別性能,與現(xiàn)有技術(shù)相比,本發(fā)明提出的方法具有良好的性能和魯棒性。
1.一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,設(shè)計(jì)有四個任務(wù)單元架構(gòu),包括:基于文生圖模型的數(shù)據(jù)增強(qiáng)任務(wù)、圖文檢索任務(wù)、基于混合專家模型的多模態(tài)信息融合任務(wù)以及基于大模型的生成式命名實(shí)體識別任務(wù),其中:
2.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,提取來自所述文本信息和圖像信息混合的高級特征,可以增強(qiáng)所述文生圖模型對復(fù)雜實(shí)體的理解。
3.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,所述余弦相似度,其公式設(shè)計(jì)為:
4.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,通過對所述數(shù)據(jù)庫的檢索,抽取相似度最高的k個圖文對,用以提升相關(guān)圖文特征的信息完備性。
5.根據(jù)權(quán)利要求4所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,所述相似度最高的k個圖文對,作為知識增強(qiáng)樣本。
6.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,基于所述混合專家模型的多模態(tài)信息融合任務(wù)在多模態(tài)特征融合階段引入了混合專家機(jī)制,通過所述路由器將混合特征按計(jì)算分?jǐn)?shù)分發(fā)給各混合專家模型,以擴(kuò)展參數(shù)規(guī)模,提高所述多模態(tài)信息融合模型的魯棒性,使其能夠更好地應(yīng)對噪聲干擾。
7.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,所述圖文檢索任務(wù)以及基于混合專家模型的多模態(tài)信息融合任務(wù)均是基于多模態(tài)模型open-flamingo進(jìn)行改進(jìn),通過clip模型對文本信息和圖像信息對進(jìn)行特征提取,進(jìn)而與所述數(shù)據(jù)庫中的其它圖文對進(jìn)行相似度檢索。
8.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,引入所述大模型對傳統(tǒng)命名實(shí)體識別任務(wù)的輸出方式進(jìn)行了改進(jìn),通過所述生成式的輸出方式,優(yōu)化多模態(tài)命名實(shí)體識別模型在為可見類上的泛化能力,深化多模態(tài)命名實(shí)體識別模型的知識基礎(chǔ)。
9.根據(jù)權(quán)利要求1所述的一種基于大模型和混合專家的增強(qiáng)感知命名實(shí)體識別方法,其特征在于,所述最小化語言模型損失l,其公式設(shè)計(jì)為: