亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

長文本解析方法、裝置、存儲介質(zhì)以及終端與流程

文檔序號:40378746發(fā)布日期:2024-12-20 12:01閱讀:5來源:國知局
長文本解析方法、裝置、存儲介質(zhì)以及終端與流程

本申請涉及計(jì)算機(jī),尤其涉及一種長文本解析方法、裝置、存儲介質(zhì)以及終端。


背景技術(shù):

1、面對包括各種文檔的知識庫,為了提升信息檢索的效率與準(zhǔn)確性,構(gòu)建高效、精準(zhǔn)的索引系統(tǒng)成為了不可或缺的一環(huán)。這一過程中,文檔解析的準(zhǔn)確性影響著文檔索引的準(zhǔn)確性。通常來說,文檔解析都是遵循著一套精心設(shè)計(jì)的規(guī)則與模式,將連續(xù)的文本流切割成一塊塊易于處理與理解的片段。然而,這種直接的解析方式,在應(yīng)對長文本時(shí)卻逐漸顯露出其局限性。長文本的內(nèi)部結(jié)構(gòu)復(fù)雜多變,上下文之間的關(guān)聯(lián)往往跨越了多個段落乃至章節(jié)。因此傳統(tǒng)的固定模式的解析方法,存在著容易割裂長文本的連貫性與邏輯性的問題,那么在解析長文本時(shí),就需要更加靈活的方法來適應(yīng)長文本的特點(diǎn)。


技術(shù)實(shí)現(xiàn)思路

1、本申請?zhí)峁┮环N長文本解析方法、裝置、存儲介質(zhì)以及終端,可以解決相關(guān)技術(shù)中難以完整、準(zhǔn)確地解析長文本的技術(shù)問題。

2、第一方面,本申請實(shí)施例提供一種長文本解析方法,該方法包括:

3、識別待解析長文本中的至少一個標(biāo)題,基于各標(biāo)題生成待解析長文本的目錄信息;

4、根據(jù)各標(biāo)題以及向量模型的輸入長度要求將待解析長文本劃分為多個文本段落;

5、從目錄信息中確定各文本段落對應(yīng)的目標(biāo)上級目錄,分別整合各文本段落以及各文本段落對應(yīng)的目標(biāo)上級目錄;

6、將整合后的各文本段落輸入向量模型,得到向量模型對各文本段落輸出的向量特征。

7、第二方面,本申請實(shí)施例提供一種長文本解析裝置,該裝置包括:

8、標(biāo)題識別模塊,用于識別待解析長文本中的至少一個標(biāo)題,基于各標(biāo)題生成待解析長文本的目錄信息;

9、段落拆分模塊,用于根據(jù)各標(biāo)題以及向量模型的輸入長度要求將待解析長文本劃分為多個文本段落;

10、語義整合模塊,用于從目錄信息中確定各文本段落對應(yīng)的目標(biāo)上級目錄,分別整合各文本段落以及各文本段落對應(yīng)的目標(biāo)上級目錄;

11、向量生成模塊,用于將整合后的各文本段落輸入向量模型,得到向量模型對各文本段落輸出的向量特征。

12、第三方面,本申請實(shí)施例提供一種計(jì)算機(jī)存儲介質(zhì),計(jì)算機(jī)存儲介質(zhì)存儲有多條指令,指令適于由處理器加載并執(zhí)行上述的方法的步驟。

13、第四方面,本申請實(shí)施例提供一種終端,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,計(jì)算機(jī)程序適于由處理器加載并執(zhí)行上述的方法的步驟。

14、本申請一些實(shí)施例提供的技術(shù)方案帶來的有益效果至少包括:

15、本申請?zhí)峁┮环N長文本解析方法,識別待解析長文本中的至少一個標(biāo)題,基于各標(biāo)題生成待解析長文本的目錄信息;根據(jù)各標(biāo)題以及向量模型的輸入長度要求將待解析長文本劃分為多個文本段落;從目錄信息中確定各文本段落對應(yīng)的目標(biāo)上級目錄,分別整合各文本段落以及各文本段落對應(yīng)的目標(biāo)上級目錄;將整合后的各文本段落輸入向量模型,得到向量模型對各文本段落輸出的向量特征。由于標(biāo)題是對文檔層次的準(zhǔn)確劃分,因此標(biāo)題中包含了文檔的上下文關(guān)聯(lián)關(guān)系,那么通過長文本的標(biāo)題生成目錄信息,再基于各級目錄將整個文檔拆分為符合模型輸入的長度要求的文本段落,實(shí)現(xiàn)了更合理的文本段落劃分。進(jìn)一步地,繼續(xù)根據(jù)其上級目錄中包含的上下文信息對長文本信息進(jìn)行整合,這樣結(jié)合了文本的原本語義和目錄標(biāo)題語義,讓文本段落的語義信息更加豐富;再將具有豐富語義信息的各文本段落輸入向量模型,使得模型能夠?qū)ζ溥M(jìn)行更準(zhǔn)確的理解和處理,從而得到了向量模型對各文本段落輸出的富含語義信息的向量序列。



技術(shù)特征:

1.一種長文本解析方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各標(biāo)題以及向量模型的輸入長度要求將所述待解析長文本劃分為多個文本段落,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述按照各標(biāo)題將所述待解析長文本拆分為多個文本片段,包括:

4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述目標(biāo)文本片段拆分為多個符合所述輸入長度要求的文本段落,包括:

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目錄信息為具有樹形數(shù)據(jù)結(jié)構(gòu)的目錄樹,所述目錄樹中以各標(biāo)題作為節(jié)點(diǎn)、以各標(biāo)題之間的級別關(guān)系作為連接節(jié)點(diǎn)的邊。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別整合各文本段落以及各文本段落對應(yīng)的目標(biāo)上級目錄,包括:

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述得到所述向量模型對各文本段落輸出的向量特征之后,還包括:

8.一種長文本解析裝置,其特征在于,所述裝置包括:

9.一種計(jì)算機(jī)存儲介質(zhì),其特征在于,所述計(jì)算機(jī)存儲介質(zhì)存儲有多條指令,所述指令適于由處理器加載并執(zhí)行如權(quán)利要求1~7任意一項(xiàng)的所述方法的步驟。

10.一種終端,其特征在于,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~7任一項(xiàng)所述方法的步驟。


技術(shù)總結(jié)
本申請公開了一種長文本解析方法、裝置、存儲介質(zhì)以及終端。識別待解析長文本中的至少一個標(biāo)題,基于各標(biāo)題生成待解析長文本的目錄信息;根據(jù)各標(biāo)題以及向量模型的輸入長度要求將待解析長文本劃分為多個文本段落;從目錄信息中確定各文本段落對應(yīng)的目標(biāo)上級目錄,分別整合各文本段落以及各文本段落對應(yīng)的目標(biāo)上級目錄;將整合后的各文本段落輸入向量模型,得到向量模型對各文本段落輸出的向量特征。由于通過長文本的標(biāo)題將整個文檔拆分為文本段落,對文本段落實(shí)現(xiàn)了更合理的劃分。繼續(xù)根據(jù)其上級目錄中的包含的上下文信息對長文本信息進(jìn)行整合,讓文本段落的語義信息更加豐富,在此基礎(chǔ)上就可以讓模型對其進(jìn)行更準(zhǔn)確的理解和處理。

技術(shù)研發(fā)人員:梁博,楊亦威,康博
受保護(hù)的技術(shù)使用者:北京奇虎科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1