本發(fā)明涉及計(jì)算機(jī),特別涉及一種摘要生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、自動(dòng)文本摘要技術(shù)是自然語言處理(nlp,即neuro-linguistic?programming)領(lǐng)域的一個(gè)重要研究方向,它能幫助用戶在短時(shí)間內(nèi)獲取大量文本的核心內(nèi)容?,F(xiàn)有的自動(dòng)文本摘要方法主要分為兩類:提取式摘要和生成式摘要。提取式摘要方法通過從源文本中選擇關(guān)鍵的句子或詞匯來生成摘要,由于該方法只能直接提取原文的內(nèi)容,所以生成的摘要可能在連貫性和可讀性上存在一定的問題。生成式摘要方法則通過學(xué)習(xí)源文本的信息并生成新的句子作為摘要,但是需要適當(dāng)?shù)年P(guān)鍵信息點(diǎn)作為輸入,才能保證摘要的準(zhǔn)確性。
2、因此,如何結(jié)合提取式和生成式的優(yōu)點(diǎn),既能準(zhǔn)確提取關(guān)鍵信息,又能生成連貫易懂的摘要,是當(dāng)前自動(dòng)文本摘要領(lǐng)域面臨的重要挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的在于提供一種摘要生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠生成具有連貫性和可讀性的摘要。其具體方案如下:
2、第一方面,本申請(qǐng)公開了一種摘要生成方法,包括:
3、利用預(yù)設(shè)自然語言處理方法對(duì)獲取到的待處理文本進(jìn)行文本切割處理以得到分割后文本,并基于所述分割后文本構(gòu)建所述待處理文本的目標(biāo)圖模型;
4、基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組,并基于所述權(quán)重?cái)?shù)組從各所述分割后文本中確定目標(biāo)分割后文本;
5、對(duì)所述目標(biāo)分割后文本進(jìn)行相應(yīng)的向量轉(zhuǎn)化以得到輸入向量,并將所述輸入向量輸入至預(yù)設(shè)語言模型中進(jìn)行訓(xùn)練以生成所述待處理文本的摘要。
6、可選的,所述利用預(yù)設(shè)自然語言處理方法對(duì)獲取到的待處理文本進(jìn)行文本切割處理以得到分割后文本,并基于所述分割后文本構(gòu)建所述待處理文本的目標(biāo)圖模型,包括:
7、利用textrank算法對(duì)獲取到的待處理文本進(jìn)行分段處理以得到分段后文本,并將所述分段后文本進(jìn)行分句處理后構(gòu)建textrank圖模型以得到處理中圖模型;
8、對(duì)所述處理中圖模型中的各句子進(jìn)行分詞處理以得到各目標(biāo)單詞,并對(duì)所述各目標(biāo)單詞中的停用詞和敏感詞進(jìn)行過濾以得到所述待處理文本的目標(biāo)圖模型。
9、可選的,所述基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組之前,還包括:
10、基于預(yù)設(shè)余弦相似度計(jì)算方法將所述目標(biāo)圖模型中各所述分割后文本轉(zhuǎn)化成對(duì)應(yīng)的處理向量,并基于所述處理向量確定所述目標(biāo)圖模型中各所述分割后文本之間的語義相似度。
11、可選的,所述基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組,并基于所述權(quán)重?cái)?shù)組從各所述分割后文本中確定目標(biāo)分割后文本,包括:
12、基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式和所述語義相似度對(duì)所述目標(biāo)圖模型中各所述分割后文本的權(quán)重進(jìn)行迭代訓(xùn)練以得到對(duì)應(yīng)的權(quán)重?cái)?shù)組;
13、從各所述分割后文本中確定目標(biāo)分割后文本,其中所述目標(biāo)分割后文本對(duì)應(yīng)的權(quán)重?cái)?shù)組的權(quán)值大于各所述分割后文本中的其它分割后文本。
14、可選的,所述對(duì)所述目標(biāo)分割后文本進(jìn)行相應(yīng)的向量轉(zhuǎn)化以得到輸入向量,包括:
15、利用?隱馬爾可夫模型對(duì)所述目標(biāo)分割后文本進(jìn)行分詞處理并轉(zhuǎn)化為對(duì)應(yīng)的令牌;
16、將所述令牌映射到預(yù)設(shè)高維向量空間形成嵌入向量以得到所述目標(biāo)分割后文本對(duì)應(yīng)的輸入向量。
17、可選的,所述將所述輸入向量輸入至預(yù)設(shè)語言模型中進(jìn)行訓(xùn)練以生成所述待處理文本的摘要,包括:
18、將所述輸入向量輸入至gpt-3模型中,并通過所述gpt-3模型中多頭注意力機(jī)制和變換層對(duì)所述輸入向量進(jìn)行轉(zhuǎn)化處理以得到輸出向量;
19、利用所述gpt-3模型中的線性轉(zhuǎn)換層和softmax函數(shù)對(duì)所述輸出向量進(jìn)行解碼以生成所述待處理文本的摘要。
20、可選的,所述通過所述gpt-3模型中多頭注意力機(jī)制和變換層對(duì)所述輸入向量進(jìn)行轉(zhuǎn)化處理以得到輸出向量,包括:
21、通過所述gpt-3模型中多頭注意力機(jī)制對(duì)所述輸入向量進(jìn)行線性變化以得到查詢向量、鍵向量和值向量;
22、對(duì)所述查詢向量和所述鍵向量進(jìn)行點(diǎn)積計(jì)算,并利用預(yù)設(shè)歸一化函數(shù)對(duì)所述點(diǎn)積計(jì)算的結(jié)果進(jìn)行歸一化以得到第一輸出值;
23、利用所述第一輸出值對(duì)所述值向量進(jìn)行加權(quán)求和以得到第二輸出值,并將所述第二輸出值輸入至所述gpt-3模型中的變化層進(jìn)行處理以得到輸出向量。
24、第二方面,本申請(qǐng)公開了一種摘要生成裝置,包括:
25、模型構(gòu)建模塊,用于利用預(yù)設(shè)自然語言處理方法對(duì)獲取到的待處理文本進(jìn)行文本切割處理以得到分割后文本,并基于所述分割后文本構(gòu)建所述待處理文本的目標(biāo)圖模型;
26、目標(biāo)文本確定模塊,用于基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組,并基于所述權(quán)重?cái)?shù)組從各所述分割后文本中確定目標(biāo)分割后文本;
27、摘要生成模塊,用于對(duì)所述目標(biāo)分割后文本進(jìn)行相應(yīng)的向量轉(zhuǎn)化以得到輸入向量,并將所述輸入向量輸入至預(yù)設(shè)語言模型中進(jìn)行訓(xùn)練以生成所述待處理文本的摘要。
28、第三方面,本申請(qǐng)公開了一種電子設(shè)備,包括:
29、存儲(chǔ)器,用于保存計(jì)算機(jī)程序;
30、處理器,用于執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)前述的摘要生成方法。
31、第四方面,本申請(qǐng)公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于保存計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)前述的摘要生成方法。
32、本實(shí)施例中,利用預(yù)設(shè)自然語言處理方法對(duì)獲取到的待處理文本進(jìn)行文本切割處理以得到分割后文本,并基于所述分割后文本構(gòu)建所述待處理文本的目標(biāo)圖模型;基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組,并基于所述權(quán)重?cái)?shù)組從各所述分割后文本中確定目標(biāo)分割后文本;對(duì)所述目標(biāo)分割后文本進(jìn)行相應(yīng)的向量轉(zhuǎn)化以得到輸入向量,并將所述輸入向量輸入至預(yù)設(shè)語言模型中進(jìn)行訓(xùn)練以生成所述待處理文本的摘要。即,通過預(yù)設(shè)自然語言處理方法從待處理文提取出關(guān)鍵信息點(diǎn),并利用預(yù)設(shè)語言模型對(duì)所述關(guān)鍵信息點(diǎn)形成一個(gè)連貫、有意義的摘要。這樣一來,充分考慮了提取式摘要和生成式摘要的優(yōu)點(diǎn),從而使所生成的文本摘要具有良好的可讀性及連貫性。
1.一種摘要生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述利用預(yù)設(shè)自然語言處理方法對(duì)獲取到的待處理文本進(jìn)行文本切割處理以得到分割后文本,并基于所述分割后文本構(gòu)建所述待處理文本的目標(biāo)圖模型,包括:
3.根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組之前,還包括:
4.根據(jù)權(quán)利要求3所述的摘要生成方法,其特征在于,所述基于所述預(yù)設(shè)自然語言處理方法中的預(yù)設(shè)權(quán)重計(jì)算公式確定所述目標(biāo)圖模型中各所述分割后文本的權(quán)重?cái)?shù)組,并基于所述權(quán)重?cái)?shù)組從各所述分割后文本中確定目標(biāo)分割后文本,包括:
5.根據(jù)權(quán)利要求1所述的摘要生成方法,其特征在于,所述對(duì)所述目標(biāo)分割后文本進(jìn)行相應(yīng)的向量轉(zhuǎn)化以得到輸入向量,包括:
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的摘要生成方法,其特征在于,所述將所述輸入向量輸入至預(yù)設(shè)語言模型中進(jìn)行訓(xùn)練以生成所述待處理文本的摘要,包括:
7.根據(jù)權(quán)利要求6所述的摘要生成方法,其特征在于,所述通過所述gpt-3模型中多頭注意力機(jī)制和變換層對(duì)所述輸入向量進(jìn)行轉(zhuǎn)化處理以得到輸出向量,包括:
8.一種摘要生成裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,用于保存計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)所述的摘要生成方法。