本發(fā)明涉及人工智能,尤其涉及一種減少算力損耗的多模態(tài)大模型緩存系統(tǒng)及方法。
背景技術(shù):
1、隨著人工智能技術(shù)的飛速發(fā)展,大模型(large?models)在自然語言處理、圖像識(shí)別、推薦系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用。大模型通常指的是參數(shù)量達(dá)到億級(jí)甚至十億級(jí)的深度學(xué)習(xí)模型,如openai的gpt-4、谷歌的transformer等。這些模型能夠處理復(fù)雜的任務(wù),提供高質(zhì)量的預(yù)測(cè)結(jié)果,但隨之而來的是對(duì)計(jì)算資源的巨大需求。
2、在大模型的推理應(yīng)用中,每當(dāng)用戶提出一個(gè)查詢或者輸入一個(gè)提示語(prompt),模型就需要進(jìn)行一次完整的推理過程,包括數(shù)據(jù)處理、模型推理和結(jié)果生成等步驟。這個(gè)過程需要消耗大量的計(jì)算資源,每次推理的成本可能非常高昂,尤其是在文生圖片、文生視頻、文生音頻這種多模態(tài)場(chǎng)景,算力、時(shí)間與能源的耗費(fèi)尤甚。這種重復(fù)的計(jì)算不僅造成了算力的浪費(fèi),也增加了運(yùn)行成本,限制了模型的廣泛應(yīng)用。
3、為了解決這個(gè)問題,研究者們提出了各種方法來優(yōu)化模型的推理過程。其中一種常見的方法是模型剪枝(model?pruning),通過減少模型中的參數(shù)數(shù)量來降低計(jì)算復(fù)雜度。另一種方法是知識(shí)蒸餾(knowledge?distillation),將大模型的知識(shí)轉(zhuǎn)移到一個(gè)小模型上,從而減少推理時(shí)的資源消耗。此外,還有一些工作嘗試通過硬件優(yōu)化,如使用專用的人工智能芯片來加速模型的推理過程。然而,上述方法都有其局限性。模型剪枝和知識(shí)蒸餾可能會(huì)導(dǎo)致模型性能的下降,而硬件優(yōu)化則需要額外的投資和復(fù)雜的部署過程。因此,有必要探索一種新的方法,能夠在不犧牲模型性能的前提下,有效地減少大模型的算力損耗和運(yùn)行成本。
技術(shù)實(shí)現(xiàn)思路
1、為了解決以上技術(shù)問題,本發(fā)明提供了一種減少算力損耗的多模態(tài)大模型緩存系統(tǒng)。
2、本發(fā)明的技術(shù)方案是:
3、一種減少算力損耗的多模態(tài)大模型緩存系統(tǒng),包括:
4、提示語格式化模塊,用于接收并預(yù)處理用戶輸入的原始提示語,將其轉(zhuǎn)換為標(biāo)準(zhǔn)化的新提示詞;
5、緩存存儲(chǔ)模塊,用于存儲(chǔ)格式化后的提示語及其對(duì)應(yīng)的多模態(tài)生成結(jié)果,并對(duì)外提供搜索能力;
6、緩存查詢模塊,用于在每次推理前,對(duì)新提示詞進(jìn)行搜索,如果搜索到對(duì)應(yīng)的多模態(tài)推理結(jié)果,則直接返回,否則進(jìn)入模型推理流程;
7、緩存評(píng)價(jià)模塊,用于對(duì)緩存中的數(shù)據(jù)進(jìn)行評(píng)價(jià),為緩存更新模塊提供判斷依據(jù);
8、緩存更新模塊,用于根據(jù)緩存評(píng)價(jià)模塊的評(píng)價(jià)結(jié)果,對(duì)緩存中的數(shù)據(jù)進(jìn)行更新或刪除操作。
9、進(jìn)一步的,
10、提示語格式化模塊通過預(yù)定義的規(guī)則或算法,將原始提示語轉(zhuǎn)換為標(biāo)準(zhǔn)化格式,確保不同形式的提示語在經(jīng)過處理后能映射到相同的標(biāo)識(shí)符。
11、提示語格式化模塊進(jìn)一步包括用于去除無關(guān)字符、統(tǒng)一大小寫、分詞處理、提取關(guān)鍵詞以及向量化表示和哈希編碼。
12、進(jìn)一步的,
13、緩存存儲(chǔ)模塊采用鍵值對(duì)存儲(chǔ)系統(tǒng),鍵為新提示詞,值對(duì)應(yīng)的多模態(tài)推理結(jié)果。
14、進(jìn)一步的,
15、其中,緩存評(píng)價(jià)模塊的評(píng)價(jià)依據(jù)包括數(shù)據(jù)的訪問頻率、新鮮度、準(zhǔn)確性、命中率、用戶滿意度。緩存更新模塊根據(jù)緩存評(píng)價(jià)模塊的評(píng)價(jià)結(jié)果,對(duì)緩存中的數(shù)據(jù)進(jìn)行更新或刪除操作。
16、此外,本發(fā)明還提供了一種減少算力損耗的多模態(tài)大模型緩存方法,通過將輸入的原始提示語通過分析,總結(jié)為設(shè)定長(zhǎng)度的、格式固定的新提示詞,隨后將生成的多模態(tài)結(jié)果與轉(zhuǎn)換后的新提示詞進(jìn)行綁定,并存入存儲(chǔ)介質(zhì)中,在之后的推理中,每次推理前也會(huì)首先對(duì)新提示詞進(jìn)行轉(zhuǎn)換,隨后在存儲(chǔ)介質(zhì)中搜索,如果搜索到了,則可以直接返回生成的多模態(tài)結(jié)果,如果未搜索到,則進(jìn)行推理生成,并將生成的結(jié)果放入存儲(chǔ)介質(zhì)中,作為之后的緩存。
17、進(jìn)一步的,
18、通過預(yù)定義的規(guī)則或算法,將原始提示語轉(zhuǎn)換為標(biāo)準(zhǔn)化格式,以確保不同形式的提示語在經(jīng)過處理后能映射到相同的標(biāo)識(shí)符。將原始提示語轉(zhuǎn)換過程包括去除無關(guān)字符、統(tǒng)一大小寫、分詞處理、提取關(guān)鍵詞以及向量化表示和哈希編碼。
19、進(jìn)一步的,
20、采用鍵值對(duì)存儲(chǔ)系統(tǒng),鍵為新提示詞,值對(duì)應(yīng)的多模態(tài)推理結(jié)果。
21、進(jìn)一步的,
22、其中,緩存評(píng)價(jià)模塊的評(píng)價(jià)依據(jù)包括數(shù)據(jù)的訪問頻率、新鮮度、準(zhǔn)確性、命中率、用戶滿意度;根據(jù)緩存評(píng)價(jià)模塊的評(píng)價(jià)結(jié)果,對(duì)緩存中的數(shù)據(jù)進(jìn)行更新或刪除操作。
23、本發(fā)明的有益效果是
24、本發(fā)明不僅能夠顯著降低算力損耗,提高數(shù)據(jù)處理效率,還能夠根據(jù)實(shí)時(shí)數(shù)據(jù)和用戶需求動(dòng)態(tài)調(diào)整緩存策略,確保了數(shù)據(jù)的可訪問性和用戶體驗(yàn)的最大化提高。這種創(chuàng)新的緩存方法及系統(tǒng)在多模態(tài)數(shù)據(jù)處理領(lǐng)域具有廣泛的應(yīng)用前景,能夠?yàn)橄嚓P(guān)行業(yè)帶來顯著的經(jīng)濟(jì)和社會(huì)效益。
1.一種減少算力損耗的多模態(tài)大模型緩存系統(tǒng),其特征在于,
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于,
6.一種減少算力損耗的多模態(tài)大模型緩存方法,其特征在于,
7.根據(jù)權(quán)利要求6所示的方法,其特征在于,
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,