本發(fā)明涉及人工智能,具體涉及一種多模態(tài)檢索方法及裝置。
背景技術(shù):
1、多模態(tài)檢索是一種信息檢索技術(shù),可以從多種不同模態(tài)的數(shù)據(jù)中檢索信息,例如,文搜圖,圖搜文等。在多模態(tài)檢索中,用戶可輸入包含至少一種模態(tài)的查詢數(shù)據(jù),檢索系統(tǒng)可從不同模態(tài)的數(shù)據(jù)中召回和查詢數(shù)據(jù)相關(guān)的數(shù)據(jù),以提供更加豐富準(zhǔn)確的檢索結(jié)果。
2、目前大部分的多模態(tài)檢索均依賴于多模態(tài)模型實(shí)現(xiàn),然而,多模態(tài)模型在輸入上存在限制,有效輸入通常不超過20個(gè)token,對(duì)長(zhǎng)文本的處理能力不足,且由于多模態(tài)模型訓(xùn)練時(shí),目標(biāo)為對(duì)齊文本和圖像,導(dǎo)致其文本檢索能力較弱。多模態(tài)模型在學(xué)習(xí)文本和圖像之間的關(guān)聯(lián)時(shí),側(cè)重于使用整體的語義進(jìn)行匹配,難以捕捉到細(xì)節(jié)語義,進(jìn)而導(dǎo)致多模態(tài)檢索的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述問題,本發(fā)明的目的在于提供一種多模態(tài)檢索方法及裝置,以提升多模態(tài)檢索的準(zhǔn)確性。
2、為解決上述技術(shù)問題,本發(fā)明提供如下技術(shù)方案:
3、一方面,本發(fā)明實(shí)施例提供一種多模態(tài)檢索方法,包括:
4、獲取查詢信息以及預(yù)設(shè)數(shù)據(jù)集,所述預(yù)設(shè)數(shù)據(jù)集包括多個(gè)模態(tài)的預(yù)設(shè)數(shù)據(jù);
5、在文本空間中,基于所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)的匹配度,從所述預(yù)設(shè)數(shù)據(jù)集中確定所述查詢信息匹配的多個(gè)第一候選數(shù)據(jù);
6、在多模態(tài)空間中,基于所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度,從所述預(yù)設(shè)數(shù)據(jù)集中確定所述查詢信息匹配的多個(gè)第二候選數(shù)據(jù);
7、融合多個(gè)所述第一候選數(shù)據(jù)以及多個(gè)所述第二候選數(shù)據(jù),得到所述查詢信息對(duì)應(yīng)的查詢結(jié)果。
8、可選地,所述在文本空間中,基于所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)的匹配度,從所述預(yù)設(shè)數(shù)據(jù)集中確定所述查詢信息匹配的多個(gè)第一候選數(shù)據(jù),包括:
9、獲取每個(gè)所述預(yù)設(shè)數(shù)據(jù)對(duì)應(yīng)的預(yù)設(shè)描述,所述預(yù)設(shè)描述為所述預(yù)設(shè)數(shù)據(jù)在文本空間中的文本描述;
10、基于所述查詢信息的模態(tài)類型,生成所述查詢信息在所述文本空間中的文本描述,得到查詢描述,所述查詢描述和所述預(yù)設(shè)描述的生成方式相同;
11、基于所述查詢描述和每個(gè)所述預(yù)設(shè)描述,計(jì)算所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)之間的匹配度;
12、利用所述匹配度從所述多個(gè)預(yù)設(shè)數(shù)據(jù)中,確定所述查詢信息匹配的多個(gè)第一候選數(shù)據(jù)。
13、可選地,所述基于所述查詢信息的模態(tài)類型,生成所述查詢信息在所述文本空間中的文本描述,得到查詢描述,包括:
14、若所述查詢信息的模態(tài)類型為文本類型,將所述查詢信息作為查詢描述;
15、若所述查詢信息的模態(tài)類型為圖像類型,基于預(yù)設(shè)層次對(duì)應(yīng)的層次提示詞生成所述查詢信息在各個(gè)預(yù)設(shè)層次上的文本描述,得到查詢描述,所述預(yù)設(shè)層次包括圖像整體層次、圖像區(qū)域?qū)哟我约皥D像內(nèi)物體層次。
16、可選地,所述基于所述查詢描述和每個(gè)所述預(yù)設(shè)描述,計(jì)算所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)之間的匹配度,包括:
17、針對(duì)每個(gè)所述預(yù)設(shè)描述,計(jì)算所述查詢描述與所述預(yù)設(shè)描述之間的語義匹配度;
18、計(jì)算所述查詢描述與所述預(yù)設(shè)描述之間的文本匹配度;
19、融合所述語義匹配度和所述文本匹配度,得到所述查詢信息與所述預(yù)設(shè)數(shù)據(jù)之間的匹配度。
20、可選地,所述在多模態(tài)空間中,基于所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度,從所述預(yù)設(shè)數(shù)據(jù)集中確定所述查詢信息匹配的多個(gè)第二候選數(shù)據(jù),包括:
21、基于所述查詢信息的模態(tài)類型,對(duì)所述查詢信息進(jìn)行編碼處理得到查詢向量,所述查詢向量包括所述查詢信息中的每個(gè)編碼單元對(duì)應(yīng)的單元向量;
22、獲取每個(gè)所述預(yù)設(shè)數(shù)據(jù)對(duì)應(yīng)的預(yù)設(shè)向量,所述預(yù)設(shè)向量包括所述預(yù)設(shè)數(shù)據(jù)中的每個(gè)編碼單元對(duì)應(yīng)的單元向量;
23、根據(jù)每個(gè)所述預(yù)設(shè)向量以及所述查詢向量,計(jì)算所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度;
24、利用所述相似度,從所述多個(gè)預(yù)設(shè)數(shù)據(jù)中確定所述查詢信息匹配的多個(gè)第二候選數(shù)據(jù)。
25、可選地,所述基于所述查詢信息的模態(tài)類型,對(duì)所述查詢信息進(jìn)行編碼處理得到查詢向量,包括:
26、獲取所述查詢信息的模態(tài)類型,并確定所述模態(tài)類型對(duì)應(yīng)編碼單元以及編碼方式;
27、使用所述模態(tài)類型對(duì)應(yīng)的編碼方式,將所述查詢信息按照所述編碼單元進(jìn)行編碼處理,得到編碼向量;
28、對(duì)所述編碼向量進(jìn)行降維處理,得到所述查詢信息對(duì)應(yīng)的查詢向量。
29、可選地,所述使用所述模態(tài)類型對(duì)應(yīng)的編碼方式,將所述查詢信息按照所述編碼單元進(jìn)行編碼處理,得到編碼向量,包括:
30、若所述查詢信息的模態(tài)類型為文本類型,使用第一提示詞模板和所述查詢信息,得到查詢信息對(duì)應(yīng)的查詢輸入;
31、若所述查詢信息的模態(tài)類型為圖像類型,將查詢信息按照編碼單元進(jìn)行切分得到多個(gè)子查詢信息,并將所述多個(gè)子查詢信息與第二提示詞模板結(jié)合,得到所述查詢信息對(duì)應(yīng)的查詢輸入;
32、通過所述模態(tài)類型對(duì)應(yīng)的編碼器,按照編碼單元對(duì)所述查詢輸入進(jìn)行切分,并基于大語言模型進(jìn)行編碼處理,得到編碼向量。
33、可選地,所述根據(jù)每個(gè)所述預(yù)設(shè)向量以及所述查詢向量,計(jì)算所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度,包括:
34、針對(duì)所述查詢向量中的每個(gè)單元向量,計(jì)算所述查詢向量中的單元向量與預(yù)設(shè)向量中的每個(gè)單元向量之間的余弦相似度;
35、將所述余弦相似度中的最大值確定為所述單元向量的最大相似度;
36、計(jì)算所有單元向量的最大相似度的平均值,得到所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度。
37、可選地,所述融合多個(gè)所述第一候選數(shù)據(jù)以及多個(gè)所述第二候選數(shù)據(jù),得到所述查詢信息對(duì)應(yīng)的查詢結(jié)果,包括:
38、獲取所述多個(gè)第一候選數(shù)據(jù)組成的第一候選序列,所述第一候選序列中的多個(gè)第一候選數(shù)據(jù)按照所述匹配度排序;
39、獲取所述多個(gè)第二候選數(shù)據(jù)組成的第二候選序列,所述第二候選序列中的多個(gè)第二候選數(shù)據(jù)按照所述相似度排序;
40、針對(duì)每個(gè)候選數(shù)據(jù),獲取所述候選數(shù)據(jù)在所述第一候選序列的第一排名以及所述第二候選序列中的第二排名,所述候選數(shù)據(jù)包括所述第一候選數(shù)據(jù)以及所述第二候選數(shù)據(jù);
41、利用所述第一排名和所述第二排名,計(jì)算所述候選數(shù)據(jù)的目標(biāo)得分;
42、以所述目標(biāo)得分從所述多個(gè)候選數(shù)據(jù)中確定所述查詢信息對(duì)應(yīng)的查詢結(jié)果。
43、另一方面,本發(fā)明實(shí)施例還提供一種多模態(tài)檢索裝置,用于實(shí)現(xiàn)上述任一項(xiàng)所述的方法,所述裝置包括:
44、獲取模塊,用于獲取查詢信息以及預(yù)設(shè)數(shù)據(jù)集,所述預(yù)設(shè)數(shù)據(jù)集包括多個(gè)模態(tài)的預(yù)設(shè)數(shù)據(jù);
45、第一確定模塊,用于在文本空間中,基于所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)的匹配度,從所述預(yù)設(shè)數(shù)據(jù)集中確定所述查詢信息匹配的多個(gè)第一候選數(shù)據(jù);
46、第二確定模塊,用于在多模態(tài)空間中,基于所述查詢信息與每個(gè)所述預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度,從所述預(yù)設(shè)數(shù)據(jù)集中確定所述查詢信息匹配的多個(gè)第二候選數(shù)據(jù);
47、融合模塊,用于融合多個(gè)所述第一候選數(shù)據(jù)以及多個(gè)所述第二候選數(shù)據(jù),得到所述查詢信息對(duì)應(yīng)的查詢結(jié)果。
48、另一方面,本發(fā)明實(shí)施例還提供一種電子設(shè)備,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有多條指令;所述處理器從所述存儲(chǔ)器中加載指令,以執(zhí)行本發(fā)明實(shí)施例所提供的任一種多模態(tài)檢索方法中的步驟。
49、另一方面,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行本發(fā)明實(shí)施例所提供的任一種多模態(tài)檢索方法中的步驟。
50、另一方面,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的任一種多模態(tài)檢索方法中的步驟。
51、本發(fā)明提供的技術(shù)方案帶來的有益效果至少包括:
52、本發(fā)明實(shí)施例可以獲取查詢信息以及多個(gè)預(yù)設(shè)數(shù)據(jù),在文本空間中,計(jì)算出查詢信息和每個(gè)預(yù)設(shè)數(shù)據(jù)之間的匹配度,以便確定多個(gè)第一候選數(shù)據(jù),在多模態(tài)空間中,基于查詢信息和每個(gè)預(yù)設(shè)數(shù)據(jù)在編碼單元上的相似度,確定多個(gè)第二候選數(shù)據(jù),最后融合第一候選數(shù)據(jù)以及第二候選數(shù)據(jù),得到最終的查詢結(jié)果。通過將多模態(tài)數(shù)據(jù)翻譯至統(tǒng)一的文本空間,可利用文本進(jìn)行檢索,以提升多模態(tài)檢索中的純文本檢索和長(zhǎng)文本處理能力,在多模態(tài)空間中,基于在編碼單元上的相似度,可進(jìn)一步縮小不同的模態(tài)間的信息差異,實(shí)現(xiàn)更好地融合,最后合并兩種檢索方式的結(jié)果作為最終的查詢信息,更加準(zhǔn)確,進(jìn)而可有效提升多模態(tài)檢索的準(zhǔn)確度。