本公開涉及終端,尤其涉及一種圖像處理方法和電子設(shè)備。
背景技術(shù):
1、在如今這個高度數(shù)字化的時代,用戶使用電子設(shè)備(例如,手機)進行拍照或通過網(wǎng)絡(luò)獲取圖像,已經(jīng)成為日常生活的一部分。然而,實際獲取過程中,由于各種因素的影響,可能出現(xiàn)圖像畫質(zhì)不佳的情況。例如,拍攝時的抖動會導致圖像模糊;雨天拍攝時圖像會出現(xiàn)雨點;從網(wǎng)絡(luò)獲取的圖像常常像素過低等。
2、針對上述畫質(zhì)不佳的情況,相關(guān)技術(shù)采用特定功能改善特定的畫質(zhì)效果。例如,利用去模糊功能改善模糊圖像;利用提高像素功能提升圖像的像素等等。而在采用特定功能改善特定的畫質(zhì)效果的過程中,通常需要用戶執(zhí)行大量重復。這不僅繁瑣,還可能無法完全滿足用戶需求。因此,如何為用戶提供更為便捷和靈活的圖像處理方案,已成為當前亟需解決的問題。
技術(shù)實現(xiàn)思路
1、本公開實施例提供一種圖像處理方法和電子設(shè)備,能夠根據(jù)用戶任意輸入的畫質(zhì)增強需求,生成對應的畫質(zhì)增強圖像,提高用戶的使用體驗。
2、為達到上述目的,本公開的實施例采用如下技術(shù)方案:
3、第一方面,本公開提供了一種圖像處理方法,該方法包括:接收對第一圖像的畫質(zhì)增強觸發(fā)操作;畫質(zhì)增強觸發(fā)操作包括畫質(zhì)增強需求文本;響應于畫質(zhì)增強觸發(fā)操作,根據(jù)畫質(zhì)增強需求文本特征、第一圖像特征、第二圖像特征、文本引導增強模型和擴散模型,得到第一輪融合文本圖像雙模態(tài)特征;其中,畫質(zhì)增強需求文本特征是通過對畫質(zhì)增強需求文本進行編碼后得到的;第一圖像特征是通過對第一圖像進行編碼后得到的;第二圖像特征是通過對第一圖像添加噪聲后,針對加噪結(jié)果進行特征提取得到的;根據(jù)第一輪融合文本圖像雙模態(tài)特征、畫質(zhì)增強需求文本特征、第一圖像特征、文本引導增強模型和擴散模型,進行n-1次迭代,得到第一增強圖像編碼特征;其中,擴散模型具備對第二圖像特征執(zhí)行去噪處理,并對去噪結(jié)果進行特征提取,生成第一輪擴散圖像特征集合;以及根據(jù)第一輪融合文本圖像雙模態(tài)特征進行j-1次迭代,生成第j輪擴散圖像特征集合的能力;文本引導增強模型具備在每次迭代過程中,融合畫質(zhì)增強需求文本特征、第一圖像特征和第j輪擴散圖像特征集合,生成第一增強圖像編碼特征的能力;j為正整數(shù),2≤j≤n;n為正整數(shù);對第一增強圖像編碼特征進行解碼,得到第二圖像;第二圖像為按照畫質(zhì)增強需求文本對第一圖像進行畫質(zhì)更強后的圖像。
4、基于第一方面的圖像處理方法,在電子設(shè)備接收到用戶的畫質(zhì)增強觸發(fā)操作后,可以利用擴散模型和文本引導增強模型進行多次迭代生成畫質(zhì)增強后的第二圖像。在每次迭代的過程中,當擴散模型生成擴散圖像特征集合(即,第j輪擴散圖像特征集合)后,文本引導增強模型可以將擴散圖像特征集合融合到畫質(zhì)增強需求文本特征、第一圖像特征中,這樣,在每次迭代過程中,都能參考畫質(zhì)增強需求文本來生成第二圖像。從而使最終得到的第二圖像滿足用戶的畫質(zhì)增強需求,且該實現(xiàn)過程方便簡單,用戶僅需執(zhí)行畫質(zhì)增強觸發(fā)操作即可。
5、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,根據(jù)畫質(zhì)增強需求文本特征、第一圖像特征、第二圖像特征、文本引導增強模型和擴散模型,得到第一輪融合文本圖像雙模態(tài)特征,包括:利用文本引導增強模型的第一個處理模塊對畫質(zhì)增強需求文本特征和第一圖像特征進行處理,得到第一輪中第一個處理模塊對應的文本圖像雙模態(tài)特征;利用擴散模型對第二圖像特征進行去噪處理,并對去噪結(jié)果進行特征提取,生成第一輪擴散圖像特征集合;第一輪擴散圖像特征集合包括m個特征;擴散模型包括m個處理模塊;擴散模型中的每一個處理模塊對應一個特征;m為正整數(shù);將第一輪中第一個處理模塊對應的文本圖像雙模態(tài)特征和第一擴散圖像特征進行融合,得到第一輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征;第一擴散圖像特征為擴散模型的第一個處理模塊輸出的特征;根據(jù)第一輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征、第一輪擴散圖像特征集合中除第一擴散圖像特征之外的其他特征和文本引導增強模型,得到第一輪融合文本圖像雙模態(tài)特征。
6、基于該方案,通過將文本圖像雙模態(tài)特征與擴散模型輸出的特征進行融合,使得第一圖像在畫質(zhì)增強過程中不僅考慮了第一圖像本身的特征,還結(jié)合了用戶的畫質(zhì)增強需求文本特征。這種融合方式可以讓畫質(zhì)增強更加有針對性,避免了單純依靠圖像特征進行處理可能出現(xiàn)的盲目性,從而顯著提升畫質(zhì)增強效果。
7、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,根據(jù)第一輪融合文本圖像雙模態(tài)特征、畫質(zhì)增強需求文本特征、第一圖像特征、文本引導增強模型和擴散模型,進行n-1次迭代,得到第一增強圖像編碼特征,包括:在第j輪的迭代過程中,根據(jù)第j-1輪融合文本圖像雙模態(tài)特征和擴散模型,確定第j輪擴散圖像特征集合;其中,j為正整數(shù),2≤j≤n;根據(jù)第j輪擴散圖像特征集合、畫質(zhì)增強需求文本特征、第一圖像特征和文本引導增強模型,得到第j輪融合文本圖像雙模態(tài)特征;其中,當j=n時,第j輪融合文本圖像雙模態(tài)特征為第一增強圖像編碼特征。
8、基于該方案,在迭代過程中,每一輪都基于上一輪的融合文本圖像雙模態(tài)特征進行進一步處理。隨著迭代次數(shù)的增加,對圖像特征的分析和調(diào)整將更加精細,能夠逐步去除圖像中的瑕疵,增強圖像的質(zhì)量。
9、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,根據(jù)第j輪擴散圖像特征集合、畫質(zhì)增強需求文本特征、第一圖像特征和文本引導增強模型,得到第j輪融合文本圖像雙模態(tài)特征,包括:利用文本引導增強模型的第一個處理模塊對畫質(zhì)增強需求文本特征和第一圖像特征進行處理,得到第j輪中第一個處理模塊對應的文本圖像雙模態(tài)特征;將第j輪擴散圖像特征集合中的擴散模型的第一個處理模塊輸出的特征和第j輪中第一個處理模塊對應的文本圖像雙模態(tài)特征進行融合,得到第j輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征;根據(jù)第j輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征、第j輪擴散圖像特征集合中除擴散模型的第一個處理模塊輸出的特征以外的特征和文本引導增強模型,得到第j輪融合文本圖像雙模態(tài)特征。
10、基于該方案,利用文本引導增強模型的第一個處理模塊對畫質(zhì)增強需求文本特征和第一圖像特征進行處理,能夠在早期階段就將文本和圖像兩種不同模態(tài)的信息進行融合。后續(xù)通過多輪迭代,可以充分參考用戶的畫質(zhì)增強需求與圖像本身的特征,更加有針對性地進行畫質(zhì)增強。
11、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,根據(jù)第j輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征、第j輪擴散圖像特征集合中除擴散模型的第一個處理模塊輸出的特征以外的特征和文本引導增強模型,得到第j輪融合文本圖像雙模態(tài)特征,包括:將第j輪中第i-1個處理模塊對應的融合文本圖像雙模態(tài)特征輸入文本引導增強模型的第i個處理模塊,得到第j輪中第i個處理模塊對應的文本圖像雙模態(tài)特征;其中,文本引導增強模型包括m個處理模塊,i為正整數(shù),2≤i≤m;將第j輪擴散圖像特征集合中擴散模型的第i個處理模塊輸出的特征和第j輪中第i個處理模塊對應的文本圖像雙模態(tài)特征進行融合,得到第j輪中第i個處理模塊對應的融合文本圖像雙模態(tài)特征;當i=m時,第j輪中第m個處理模塊對應的融合文本圖像雙模態(tài)特征輸入文本引導增強模型的輸出模塊,得到第j輪融合文本圖像雙模態(tài)特征?;谠摲桨?,提供一種示例性的迭代過程。
12、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,畫質(zhì)增強觸發(fā)操作包括畫質(zhì)增強需求音頻;響應于畫質(zhì)增強觸發(fā)操作之前,方法還包括:在畫質(zhì)增強觸發(fā)操作包括畫質(zhì)增強需求音頻的情況下,對畫質(zhì)增強需求音頻進行識別,得到畫質(zhì)增強需求文本。
13、基于該方案,可以增加畫質(zhì)增強觸發(fā)操作的多樣性。用戶不僅可以通過文本輸入方式來表達畫質(zhì)增強需求,還可以使用語音輸入。這樣,提高了用戶操作的便捷性和效率。
14、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,擴散模型為預訓練隱式擴散模型,文本引導增強模型為u-net模型。提供一種擴散模型和文本引導增強模型的示例。
15、結(jié)合第一方面,另一種可能的實現(xiàn)方式中,畫質(zhì)更強需求文本為降低噪音、減少模糊程度和提高分辨率。提供一種畫質(zhì)更強需求文本的示例。
16、第二方面,本公開實施例提供一種圖像處理裝置,該圖像處理裝置可以應用于電子設(shè)備,用于實現(xiàn)上述第一方面中的方法。該圖像處理裝置的功能可以通過硬件實現(xiàn),也可以通過硬件執(zhí)行相應的軟件實現(xiàn)。硬件或軟件包括一個或多個與上述功能相對應的模塊,例如,接收模塊和處理模塊等。
17、接收模塊,被配置為接收對第一圖像的畫質(zhì)增強觸發(fā)操作;畫質(zhì)增強觸發(fā)操作包括畫質(zhì)增強需求文本;
18、處理模塊,被配置為響應于畫質(zhì)增強觸發(fā)操作,根據(jù)畫質(zhì)增強需求文本特征、第一圖像特征、第二圖像特征、文本引導增強模型和擴散模型,得到第一輪融合文本圖像雙模態(tài)特征;其中,畫質(zhì)增強需求文本特征是通過對畫質(zhì)增強需求文本進行編碼后得到的;第一圖像特征是通過對第一圖像進行編碼后得到的;第二圖像特征是通過對第一圖像添加噪聲后,針對加噪結(jié)果進行特征提取得到的;根據(jù)第一輪融合文本圖像雙模態(tài)特征、畫質(zhì)增強需求文本特征、第一圖像特征、文本引導增強模型和擴散模型,進行n-1次迭代,得到第一增強圖像編碼特征;其中,擴散模型具備對第二圖像特征執(zhí)行去噪處理,并對去噪結(jié)果進行特征提取,生成第一輪擴散圖像特征集合;以及根據(jù)第一輪融合文本圖像雙模態(tài)特征進行j-1次迭代,生成第j輪擴散圖像特征集合的能力;文本引導增強模型具備在每次迭代過程中,融合畫質(zhì)增強需求文本特征、第一圖像特征和第j輪擴散圖像特征集合,生成第一增強圖像編碼特征的能力;j為正整數(shù),2≤j≤n;n為正整數(shù);對第一增強圖像編碼特征進行解碼,得到第二圖像;第二圖像為按照畫質(zhì)增強需求文本對第一圖像進行畫質(zhì)更強后的圖像。
19、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,處理模塊,還被配置為利用文本引導增強模型的第一個處理模塊對畫質(zhì)增強需求文本特征和第一圖像特征進行處理,得到第一輪中第一個處理模塊對應的文本圖像雙模態(tài)特征;利用擴散模型對第二圖像特征進行去噪處理,并對去噪結(jié)果進行特征提取,生成第一輪擴散圖像特征集合;第一輪擴散圖像特征集合包括m個特征;擴散模型包括m個處理模塊;擴散模型中的每一個處理模塊對應一個特征;m為正整數(shù);將第一輪中第一個處理模塊對應的文本圖像雙模態(tài)特征和第一擴散圖像特征進行融合,得到第一輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征;第一擴散圖像特征為擴散模型的第一個處理模塊輸出的特征;根據(jù)第一輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征、第一輪擴散圖像特征集合中除第一擴散圖像特征之外的其他特征和文本引導增強模型,得到第一輪融合文本圖像雙模態(tài)特征。
20、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,處理模塊,還被配置為在第j輪的迭代過程中,根據(jù)第j-1輪融合文本圖像雙模態(tài)特征和擴散模型,確定第j輪擴散圖像特征集合;其中,j為正整數(shù),2≤j≤n;根據(jù)第j輪擴散圖像特征集合、畫質(zhì)增強需求文本特征、第一圖像特征和文本引導增強模型,得到第j輪融合文本圖像雙模態(tài)特征;其中,當j=n時,第j輪融合文本圖像雙模態(tài)特征為第一增強圖像編碼特征。
21、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,處理模塊,還被配置為利用文本引導增強模型的第一個處理模塊對畫質(zhì)增強需求文本特征和第一圖像特征進行處理,得到第j輪中第一個處理模塊對應的文本圖像雙模態(tài)特征;將第j輪擴散圖像特征集合中的擴散模型的第一個處理模塊輸出的特征和第j輪中第一個處理模塊對應的文本圖像雙模態(tài)特征進行融合,得到第j輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征;根據(jù)第j輪中第一個處理模塊對應的融合文本圖像雙模態(tài)特征、第j輪擴散圖像特征集合中除擴散模型的第一個處理模塊輸出的特征以外的特征和文本引導增強模型,得到第j輪融合文本圖像雙模態(tài)特征。
22、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,處理模塊,還被配置為將第j輪中第i-1個處理模塊對應的融合文本圖像雙模態(tài)特征輸入文本引導增強模型的第i個處理模塊,得到第j輪中第i個處理模塊對應的文本圖像雙模態(tài)特征;其中,文本引導增強模型包括m個處理模塊,i為正整數(shù),2≤i≤m;將第j輪擴散圖像特征集合中擴散模型的第i個處理模塊輸出的特征和第j輪中第i個處理模塊對應的文本圖像雙模態(tài)特征進行融合,得到第j輪中第i個處理模塊對應的融合文本圖像雙模態(tài)特征;當i=m時,第j輪中第m個處理模塊對應的融合文本圖像雙模態(tài)特征輸入文本引導增強模型的輸出模塊,得到第j輪融合文本圖像雙模態(tài)特征。
23、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,畫質(zhì)增強觸發(fā)操作包括畫質(zhì)增強需求音頻;處理模塊,還被配置為在畫質(zhì)增強觸發(fā)操作包括畫質(zhì)增強需求音頻的情況下,對畫質(zhì)增強需求音頻進行識別,得到畫質(zhì)增強需求文本。
24、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,擴散模型為預訓練隱式擴散模型,文本引導增強模型為u-net模型。
25、結(jié)合第二方面,在一種可能的實現(xiàn)方式中,畫質(zhì)更強需求文本為降低噪音、減少模糊程度和提高分辨率。
26、第三方面,本公開提供一種電子設(shè)備,包括:存儲器、顯示屏和一個或多個處理器;存儲器、顯示屏與處理器耦合。其中,存儲器用于存儲計算機程序代碼,計算機程序代碼包括計算機指令;當電子設(shè)備運行時,該處理器用于執(zhí)行該存儲器存儲的一個或多個計算機指令,以使電子設(shè)備執(zhí)行如上述第一方面中任一項的圖像處理方法。
27、第四方面,本公開提供一種計算機存儲介質(zhì),包括計算機指令,當計算機指令在電子設(shè)備上運行時,使得電子設(shè)備執(zhí)行如第一方面中任一項的圖像處理方法。
28、第五方面,本公開提供一種計算機程序產(chǎn)品,當計算機程序產(chǎn)品在電子設(shè)備上運行時,使得電子設(shè)備執(zhí)行如第一方面中任一項的圖像處理方法。
29、第六方面,提供了一種裝置(例如,該裝置可以是芯片系統(tǒng)),該裝置包括處理器,用于支持第一設(shè)備實現(xiàn)上述第一方面中所涉及的功能。在一種可能的設(shè)計中,該裝置還包括存儲器,該存儲器,用于保存第一設(shè)備必要的程序指令和數(shù)據(jù)。該裝置是芯片系統(tǒng)時,可以由芯片構(gòu)成,也可以包含芯片和其他分立器件。
30、應當理解的是,上述第二方面至第六方面的有益效果可以參見上述第一方面中的相關(guān)描述,在此不再贅述。