亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40385683發(fā)布日期:2024-12-20 12:08閱讀:5來(lái)源:國(guó)知局
一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及計(jì)算機(jī),尤其涉及一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、在問(wèn)答模型訓(xùn)練過(guò)程中,文本語(yǔ)料的質(zhì)量對(duì)于最終模型訓(xùn)練效果起到關(guān)鍵性作用。若收集到的文本語(yǔ)料質(zhì)量參差不齊,會(huì)極大的影響模型的訓(xùn)練效果。

2、為提升模型訓(xùn)練效果,目前常用的文本語(yǔ)料評(píng)分方式為人工標(biāo)注,不僅效率低,還會(huì)花費(fèi)大量人力成本。因此,如何高效的確定大量文本語(yǔ)料中每個(gè)文本語(yǔ)料的語(yǔ)料質(zhì)量,對(duì)于保證模型訓(xùn)練效果十分重要。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供了一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),以解決人工篩選文本語(yǔ)料效率低的問(wèn)題。

2、根據(jù)本發(fā)明的一方面,提供了一種文本語(yǔ)料評(píng)分方法,包括:

3、響應(yīng)于獲取到待評(píng)分文本,對(duì)所述待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元;

4、針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果;所述綜合過(guò)濾結(jié)果中包括每個(gè)啟發(fā)式過(guò)濾器針對(duì)所述最小評(píng)分單元的局部過(guò)濾結(jié)果;

5、基于所述綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù);

6、基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定所述待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)。

7、根據(jù)本發(fā)明的另一方面,提供了一種文本語(yǔ)料評(píng)分裝置,包括:

8、文本分割模塊,用于響應(yīng)于獲取到待評(píng)分文本,對(duì)所述待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元;

9、過(guò)濾結(jié)果確定模塊,用于針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果;所述綜合過(guò)濾結(jié)果中包括每個(gè)啟發(fā)式過(guò)濾器針對(duì)所述最小評(píng)分單元的局部過(guò)濾結(jié)果;

10、單元質(zhì)量分?jǐn)?shù)確定模塊,用于基于所述綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù);

11、綜合質(zhì)量分?jǐn)?shù)確定模塊,用于基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定所述待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)。

12、根據(jù)本發(fā)明的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:

13、至少一個(gè)處理器;以及

14、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,

15、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本發(fā)明任一實(shí)施例所述的文本語(yǔ)料評(píng)分方法。

16、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明任一實(shí)施例所述的文本語(yǔ)料評(píng)分方法。

17、根據(jù)本發(fā)明的另一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開(kāi)任一實(shí)施例的文本語(yǔ)料評(píng)分方法。

18、本發(fā)明實(shí)施例的技術(shù)方案,響應(yīng)于獲取到待評(píng)分文本,對(duì)待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元,進(jìn)而針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果,基于綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),最終基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù),通過(guò)多個(gè)啟發(fā)式過(guò)濾器的權(quán)重和過(guò)濾結(jié)果來(lái)對(duì)最小評(píng)分單元進(jìn)行評(píng)分,并根據(jù)最小評(píng)分單元的質(zhì)量分?jǐn)?shù)來(lái)計(jì)算待評(píng)分文本的質(zhì)量分?jǐn)?shù),解決了人工篩選文本語(yǔ)料效率低的問(wèn)題,提高了文本語(yǔ)料的質(zhì)量判定效率。

19、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識(shí)本發(fā)明的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本發(fā)明的范圍。本發(fā)明的其它特征將通過(guò)以下的說(shuō)明書(shū)而變得容易理解。



技術(shù)特征:

1.一種文本語(yǔ)料評(píng)分方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對(duì)所述待評(píng)分文本進(jìn)行文本分割之前,還包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,基于每個(gè)啟發(fā)式過(guò)濾器關(guān)聯(lián)的文本語(yǔ)料子集的驗(yàn)證困惑度,以及原始文本語(yǔ)料集合的驗(yàn)證困惑度,確定每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,包括:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù)計(jì)算方式如下:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)計(jì)算方式如下:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,最小評(píng)分單元在待評(píng)分文本中所占權(quán)重計(jì)算方式如下:

7.根據(jù)權(quán)利要求1-6任一所述的方法,其特征在于,所述啟發(fā)式過(guò)濾器包括文本復(fù)雜性過(guò)濾器、單詞重復(fù)比率過(guò)濾器、文本語(yǔ)法過(guò)濾器、文本長(zhǎng)度過(guò)濾器、情感分析過(guò)濾器、主題一致性過(guò)濾器、邏輯連貫性過(guò)濾器、用詞多樣性過(guò)濾器、文化敏感性過(guò)濾器、文本可讀性過(guò)濾器、信息密度過(guò)濾器、信息時(shí)效性過(guò)濾器、信息準(zhǔn)確性過(guò)濾器以及語(yǔ)義清洗度過(guò)濾器中的至少一項(xiàng)。

8.一種文本語(yǔ)料評(píng)分裝置,其特征在于,包括:

9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的文本語(yǔ)料評(píng)分方法。


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種文本語(yǔ)料評(píng)分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。文本語(yǔ)料評(píng)分方法,包括:響應(yīng)于獲取到待評(píng)分文本,對(duì)待評(píng)分文本進(jìn)行文本分割,得到最小評(píng)分單元;針對(duì)每個(gè)最小評(píng)分單元,分別采用至少兩個(gè)啟發(fā)式過(guò)濾器進(jìn)行過(guò)濾,得到每個(gè)最小評(píng)分單元的綜合過(guò)濾結(jié)果;綜合過(guò)濾結(jié)果中包括每個(gè)啟發(fā)式過(guò)濾器針對(duì)最小評(píng)分單元的局部過(guò)濾結(jié)果;基于綜合過(guò)濾結(jié)果和每個(gè)啟發(fā)式過(guò)濾器的權(quán)重,確定最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù);基于每個(gè)最小評(píng)分單元的單元質(zhì)量分?jǐn)?shù),確定待評(píng)分文本的綜合質(zhì)量分?jǐn)?shù)。本發(fā)明實(shí)施例的技術(shù)方案,可以高效確定文本語(yǔ)料的質(zhì)量。

技術(shù)研發(fā)人員:謝方敏,周峰,郭陟,利錦軒
受保護(hù)的技術(shù)使用者:廣州方舟信息科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1