本技術(shù)涉及文本檢索領(lǐng)域,尤其涉及一種基于知識(shí)圖譜的文本檢索方法及裝置。
背景技術(shù):
1、隨著企業(yè)內(nèi)部,文本資料的電子化程度的普及,電子文檔數(shù)量隨著時(shí)間的推移也在不斷增多,即使對(duì)電子文檔進(jìn)行合理歸類,也無法使得企業(yè)內(nèi)部人員快速定位所需的文檔,更無法使得企業(yè)內(nèi)部人員直接獲取文檔中的所需要的關(guān)鍵信息。
2、現(xiàn)有技術(shù),往往通過關(guān)鍵詞,對(duì)文檔名進(jìn)行初步檢索,獲取所需要的文檔,然后人工從獲取的文檔的目錄中找到自身所需的關(guān)鍵信息的章節(jié),并進(jìn)行進(jìn)一步的搜尋,不僅費(fèi)事費(fèi)力,還可能遺漏其他相關(guān)的信息內(nèi)容。為了避免大量人工操作,部分企業(yè)通過結(jié)合大語言模型,將文檔切分,獲取小段的文段,并通過文本嵌入,將文段轉(zhuǎn)化為向量,并與用戶輸入的關(guān)鍵詞做相似度計(jì)算,從而獲取與檢索關(guān)鍵詞匹配的文段。上述方法容易使得相互關(guān)聯(lián)的文檔中的關(guān)鍵信息被遺漏,此外如果文段切分的大小不合理,將會(huì)使得最終獲取到的檢索信息過于分散,從而導(dǎo)致大語言模型無法根據(jù)匹配獲取的文段回答出符合要求的關(guān)鍵信息。
3、因此,如何提高文本檢索結(jié)果的完備性以及文本匹配過程中的準(zhǔn)確性,是當(dāng)前需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供了一種基于知識(shí)圖譜的文本檢索方法及裝置,以解決如何提高文本檢索結(jié)果的完備性以及文本匹配過程中的準(zhǔn)確性的技術(shù)問題。
2、為了解決上述技術(shù)問題,第一方面,本技術(shù)實(shí)施例提供了一種基于知識(shí)圖譜的文本檢索方法,包括:
3、獲取用戶輸入的第一文本信息,并通過預(yù)設(shè)的大語言模型向量化所述第一文本信息,獲取第一向量;
4、通過余弦相似度,結(jié)合所述第一向量,從預(yù)設(shè)的知識(shí)庫中篩選最相似的知識(shí)圖譜作為第一知識(shí)圖譜,并根據(jù)所述第一知識(shí)圖譜,獲取知識(shí)信息;所述知識(shí)圖譜,是通過提取預(yù)設(shè)的知識(shí)文檔中的關(guān)鍵詞,并結(jié)合預(yù)設(shè)的節(jié)點(diǎn)關(guān)聯(lián)規(guī)則而獲取;
5、將所述知識(shí)信息輸入至所述大語言模型,以使所述大語言模型根據(jù)所述知識(shí)信息,輸出文本檢索結(jié)果。
6、相比于現(xiàn)有技術(shù),本技術(shù)實(shí)施例具有如下有益效果:通過將文檔轉(zhuǎn)換為知識(shí)圖譜,從而引入了知識(shí)圖譜的網(wǎng)狀特征至檢索匹配過程中,該網(wǎng)狀特征可以有效保留不同文檔之間的關(guān)聯(lián)性以及不同關(guān)鍵字之間的關(guān)聯(lián)性。將文檔轉(zhuǎn)化為知識(shí)圖譜后,根據(jù)節(jié)點(diǎn)以及知識(shí)圖譜之間的關(guān)聯(lián)性,能夠更好地判斷字段與字段間的關(guān)聯(lián)性以及文檔與文檔間的關(guān)聯(lián)性,從而可以根據(jù)匹配獲取的一個(gè)知識(shí)圖譜,獲取完備性更高的文本檢索結(jié)果。此外,當(dāng)切分后的文檔過大或者輸入關(guān)鍵詞過多,導(dǎo)致向量過長(zhǎng),通過余弦相似度,判斷兩個(gè)向量之間的相似性,避免了向量長(zhǎng)度對(duì)于相似度評(píng)估的影響,提高了文本匹配過程的精準(zhǔn)性。
7、在本技術(shù)第一方面的一些實(shí)施例中,所述知識(shí)圖譜,是通過提取預(yù)設(shè)的知識(shí)文檔中的關(guān)鍵詞,并結(jié)合預(yù)設(shè)的節(jié)點(diǎn)關(guān)聯(lián)規(guī)則而獲取,包括:
8、切片處理所述知識(shí)文檔,獲取若干切片文檔,并統(tǒng)計(jì)所述知識(shí)文檔中各詞條在各所述切片文檔中出現(xiàn)的詞頻;
9、根據(jù)第一預(yù)設(shè)閾值,并依次結(jié)合各所述切片文檔中出現(xiàn)的詞條的所述詞頻,確定各所述切片文檔的所有第一關(guān)鍵詞;
10、將所述第一關(guān)鍵詞作為節(jié)點(diǎn),結(jié)合所述節(jié)點(diǎn)關(guān)聯(lián)規(guī)則,獲取對(duì)應(yīng)各所述切片文檔對(duì)應(yīng)的知識(shí)圖譜。
11、相比于現(xiàn)有技術(shù),上述實(shí)施例具有以下有益效果:通過切片文檔中詞條出現(xiàn)的頻率,確定該詞條是否為切片文檔中的關(guān)鍵詞,并將該切片文檔中的所有關(guān)鍵詞作為知識(shí)圖譜的節(jié)點(diǎn),并結(jié)合關(guān)鍵詞之間關(guān)聯(lián)的程度,建立對(duì)應(yīng)切片文檔的知識(shí)圖譜。當(dāng)其他切片文檔的關(guān)鍵詞與當(dāng)前切片文檔中的某個(gè)關(guān)鍵詞相同時(shí),兩個(gè)切片文檔通過知識(shí)圖譜的共享節(jié)點(diǎn)進(jìn)行關(guān)聯(lián),同時(shí)通過關(guān)鍵詞構(gòu)建知識(shí)圖譜的節(jié)點(diǎn),使得知識(shí)圖譜中包含了各切片文檔中的關(guān)鍵文本信息,提高了后續(xù)文本檢索結(jié)果的完備性。
12、在本技術(shù)第一方面的一些實(shí)施例中,所述根據(jù)第一預(yù)設(shè)閾值,并依次結(jié)合各所述切片文檔中出現(xiàn)的詞條的所述詞頻,確定各所述切片文檔的所有第一關(guān)鍵詞,包括:
13、統(tǒng)計(jì)各所述詞條被包含在各所述切片文檔中的文檔頻次;
14、根據(jù)當(dāng)前所述切片文檔中的第一詞條對(duì)應(yīng)的詞頻以及文檔頻次,獲取各第一詞條在對(duì)應(yīng)所述切片文檔中的權(quán)重;
15、根據(jù)各第一詞條的所述權(quán)重,結(jié)合所述第一預(yù)設(shè)閾值,從當(dāng)前切片文檔的所有第一詞條中篩選出所有所述第一關(guān)鍵詞。
16、相比于現(xiàn)有技術(shù),上述實(shí)施例具有以下有益效果:除了考慮單個(gè)詞條在單個(gè)切片文檔中出現(xiàn)的頻率,還統(tǒng)計(jì)了包含該詞條的切片文檔個(gè)數(shù),即文檔頻次,該過程,不僅考慮了詞條在單個(gè)切片文檔中的重要性,還考慮了在整篇文檔中的重要性,從而使得選擇出來的第一關(guān)鍵詞包含了文檔的更多語義特征,提高了后續(xù)文本匹配的準(zhǔn)確性。
17、在本技術(shù)第一方面的一些實(shí)施例中,所述根據(jù)所述第一知識(shí)圖譜,獲取知識(shí)信息,包括:
18、獲取與所述第一知識(shí)圖譜關(guān)聯(lián)的若干第二知識(shí)圖譜;其中,所述第二知識(shí)圖譜包括:與所述第一知識(shí)圖譜共享同一個(gè)節(jié)點(diǎn)的知識(shí)圖譜;
19、合并所述第一知識(shí)圖譜以及所有所述第二知識(shí)圖譜對(duì)應(yīng)的切片文檔,獲取所述知識(shí)信息。
20、相比于現(xiàn)有技術(shù),上述實(shí)施例具有以下有益效果:當(dāng)獲取到與用戶輸入的第一文本信息最為匹配的第一知識(shí)圖譜后,即可以確定與該第一文本信息最匹配的切片文檔,此時(shí)通過知識(shí)圖譜的網(wǎng)狀結(jié)構(gòu)特征,可以輕松找到與第一知識(shí)圖譜連接的第二知識(shí)圖譜,并根據(jù)第二知識(shí)圖譜獲取其對(duì)應(yīng)的切片文檔,從而獲取到與第一文本信息相關(guān)所有切片文檔,提高獲取到的知識(shí)信息的完備性。
21、在本技術(shù)第一方面的一些實(shí)施例中,所述通過余弦相似度,結(jié)合所述第一向量,從預(yù)設(shè)的知識(shí)庫中篩選最相似的知識(shí)圖譜作為第一知識(shí)圖譜,包括:
22、依次遍歷所述知識(shí)庫中的各知識(shí)圖譜,并通過預(yù)設(shè)的圖嵌入模型獲取當(dāng)前知識(shí)圖譜對(duì)應(yīng)的第二向量;
23、計(jì)算各所述第二向量與所述第一向量的余弦相似度,確定所述余弦相似度最大的第二向量對(duì)應(yīng)的知識(shí)圖譜為所述第一知識(shí)圖譜。
24、相比于現(xiàn)有技術(shù),上述實(shí)施例具有以下有益效果:由于文檔切分過程中,可能會(huì)出現(xiàn)切分后的文檔過大或者輸入關(guān)鍵詞過多,導(dǎo)致向量過長(zhǎng)。因此通過余弦相似度,判斷兩個(gè)向量之間的相似性,避免了向量長(zhǎng)度對(duì)于相似度評(píng)估的影響,提高了文本匹配過程的精準(zhǔn)性;此外,通過知識(shí)圖譜以及圖嵌入模型的結(jié)合,解決了文本信息和圖信息的匹配問題,使得可以運(yùn)用知識(shí)圖譜的節(jié)點(diǎn)關(guān)聯(lián)特征,提高后續(xù)文本匹配過程的精準(zhǔn)性。
25、在本技術(shù)第一方面的一些實(shí)施例中,所述大語言模型根據(jù)所述知識(shí)信息,輸出文本檢索結(jié)果,包括:
26、通過所述大語言模型,對(duì)所述知識(shí)信息進(jìn)行整理,獲取第三文本信息;
27、通過預(yù)設(shè)模板,模板化所述第三文本信息,獲取所述文本檢索結(jié)果。
28、相比于現(xiàn)有技術(shù),上述實(shí)施例具有以下有益效果:當(dāng)獲取到完整的知識(shí)信息后,此時(shí)知識(shí)信息還無法直接用于回復(fù)用戶。通過大語言模型,對(duì)知識(shí)信息進(jìn)行進(jìn)一步整合理解,并模板化整合后的第三文本信息,相當(dāng)于將離散化的關(guān)鍵信息碎片整合成完整且連貫的文本檢索結(jié)果,提高了文本檢索結(jié)果在表達(dá)上的準(zhǔn)確性以及提高了用戶的檢索信息獲取效率。
29、第二方面,本技術(shù)實(shí)施例還提供一種基于知識(shí)圖譜的文本檢索裝置,包括:文本向量獲取模塊、知識(shí)信息獲取模塊以及文本檢索結(jié)果獲取模塊;
30、其中,所述文本向量獲取模塊,用于獲取用戶輸入的第一文本信息,并通過預(yù)設(shè)的大語言模型向量化所述第一文本信息,獲取第一向量;
31、所述知識(shí)信息獲取模塊,用于通過余弦相似度,結(jié)合所述第一向量,從預(yù)設(shè)的知識(shí)庫中篩選最相似的知識(shí)圖譜作為第一知識(shí)圖譜,并根據(jù)所述第一知識(shí)圖譜,獲取知識(shí)信息;所述知識(shí)圖譜,是通過提取預(yù)設(shè)的知識(shí)文檔中的關(guān)鍵詞,并結(jié)合預(yù)設(shè)的節(jié)點(diǎn)關(guān)聯(lián)規(guī)則而獲??;
32、所述文本檢索結(jié)果獲取模塊,用于將所述知識(shí)信息輸入至所述大語言模型,以使所述大語言模型根據(jù)所述知識(shí)信息,輸出文本檢索結(jié)果。
33、在本技術(shù)第二方面的一些實(shí)施例中,所述知識(shí)圖譜,是通過提取預(yù)設(shè)的知識(shí)文檔中的關(guān)鍵詞,并結(jié)合預(yù)設(shè)的節(jié)點(diǎn)關(guān)聯(lián)規(guī)則而獲取,包括:
34、切片處理所述知識(shí)文檔,獲取若干切片文檔,并統(tǒng)計(jì)所述知識(shí)文檔中各詞條在各所述切片文檔中出現(xiàn)的詞頻;
35、根據(jù)第一預(yù)設(shè)閾值,并依次結(jié)合各所述切片文檔中出現(xiàn)的詞條的所述詞頻,確定各所述切片文檔的所有第一關(guān)鍵詞;
36、將所述第一關(guān)鍵詞作為節(jié)點(diǎn),結(jié)合所述節(jié)點(diǎn)關(guān)聯(lián)規(guī)則,獲取對(duì)應(yīng)各所述切片文檔對(duì)應(yīng)的知識(shí)圖譜。
37、在本技術(shù)第二方面的一些實(shí)施例中,所述知識(shí)信息獲取模塊,用于根據(jù)所述第一知識(shí)圖譜,獲取知識(shí)信息,包括:
38、獲取與所述第一知識(shí)圖譜關(guān)聯(lián)的若干第二知識(shí)圖譜;其中,所述第二知識(shí)圖譜包括:與所述第一知識(shí)圖譜共享同一個(gè)節(jié)點(diǎn)的知識(shí)圖譜;
39、合并所述第一知識(shí)圖譜以及所有所述第二知識(shí)圖譜對(duì)應(yīng)的切片文檔,獲取所述知識(shí)信息。
40、在本技術(shù)第二方面的一些實(shí)施例中,所述知識(shí)信息獲取模塊,用于通過余弦相似度,結(jié)合所述第一向量,從預(yù)設(shè)的知識(shí)庫中篩選最相似的知識(shí)圖譜作為第一知識(shí)圖譜,包括:
41、依次遍歷所述知識(shí)庫中的各知識(shí)圖譜,并通過預(yù)設(shè)的圖嵌入模型獲取當(dāng)前知識(shí)圖譜對(duì)應(yīng)的第二向量;
42、計(jì)算各所述第二向量與所述第一向量的余弦相似度,確定所述余弦相似度最大的第二向量對(duì)應(yīng)的知識(shí)圖譜為所述第一知識(shí)圖譜。