本發(fā)明涉及數(shù)字人交互,具體涉及一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)。
背景技術(shù):
1、隨著人工智能技術(shù)的迅猛發(fā)展和普及,ai實時交互技術(shù)已成為多個領(lǐng)域的重要應(yīng)用,如虛擬客服、在線教育、娛樂互動以及虛擬現(xiàn)實等。這一技術(shù)通過模擬人類交互行為,為用戶提供了更加便捷、高效的服務(wù)體驗,極大地豐富了數(shù)字世界的互動性和沉浸感。然而,盡管ai實時交互技術(shù)取得了顯著的進步,但傳統(tǒng)的交互方法仍然面臨諸多挑戰(zhàn),其中最為突出的是缺乏個性化和用戶自定義的能力。
2、現(xiàn)有的數(shù)字人形象,盡管在外觀、行為模式及交互方式上已經(jīng)取得了一定的多樣性,但它們大多仍然由系統(tǒng)預(yù)設(shè),用戶在交互過程中只能被動接受,無法根據(jù)自己的喜好和需求進行個性化定制。這種缺乏靈活性和個性化的交互方式,不僅限制了用戶體驗的提升,也阻礙了ai實時交互技術(shù)在更多場景下的應(yīng)用拓展。在現(xiàn)代社會中,個性化需求日益凸顯,用戶對于能夠體現(xiàn)自己獨特品味和風(fēng)格的數(shù)字人形象有著越來越高的期待。他們希望數(shù)字人不僅能夠理解并回應(yīng)他們的語音和動作,還能夠在外貌、性格、行為模式等方面與他們產(chǎn)生共鳴,從而實現(xiàn)更加深入、真實的交互體驗。例如,在教育領(lǐng)域,學(xué)生可能更希望與一個具有親和力和耐心的數(shù)字人教師進行互動;在娛樂領(lǐng)域,用戶可能更傾向于與一個具有特定風(fēng)格或外貌的數(shù)字人角色進行游戲或聊天。
3、鑒于此,本領(lǐng)域需要一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)來解決上述問題。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,即解決現(xiàn)有技術(shù)中用戶與數(shù)字人交互時數(shù)字人缺乏個性化和用戶自定義的能力以及交互方式缺乏靈活性導(dǎo)致用戶體驗不佳的問題。
2、在一方面,本發(fā)明提供了一種支持用戶自定義數(shù)字人形象的ai實時交互方法,所述方法包括:
3、s1:獲取數(shù)字人形象的自定義信息和用戶信息;
4、s2:基于所述數(shù)字人形象的自定義信息確定數(shù)字人形象;
5、s3:基于用戶信息和確定的數(shù)字人形象生成數(shù)字人背景;
6、s4:實時獲取用戶輸入的語音交互信息并捕捉用戶的動作信息;
7、s5:基于所述用戶輸入的語音交互信息與用戶進行實時交互;
8、s6:基于所述用戶的動作信息確定數(shù)字人回應(yīng)于用戶的交互動作。
9、在某些優(yōu)選的實施方式中,所述用戶信息包括用戶的身份信息、用戶的當(dāng)前場景信息和用戶的歷史偏好信息;步驟s3具體包括:
10、s31:判斷系統(tǒng)中是否預(yù)存有用戶的歷史偏好信息;
11、s321:若系統(tǒng)中預(yù)存有用戶的歷史偏好信息,則將用戶的身份信息、用戶的當(dāng)前場景信息、用戶的歷史偏好信息和確定的數(shù)字人形象輸入到第一數(shù)字人背景生成模型中,基于所述第一數(shù)字人背景生成模型生成數(shù)字人背景;
12、s322:若系統(tǒng)中未預(yù)存有用戶的歷史偏好信息,則將用戶的身份信息、用戶的當(dāng)前場景信息和確定的數(shù)字人形象輸入到第二數(shù)字人背景生成模型中,基于所述第二數(shù)字人背景生成模型生成數(shù)字人背景。
13、在某些優(yōu)選的實施方式中,其特征在于,所述第一數(shù)字人背景生成模型為:
14、
15、其中,b1為輸出的數(shù)字人背景的多維向量,維度數(shù)量為b1,k1為求和的項數(shù),j1為層數(shù),ω1k、θ1jk、α1ij、β1ij、γ1ij和δ1ij均為權(quán)重,∈1j和∈0均為偏置項,d1為確定的數(shù)字人形象向量的維度數(shù)量,di為數(shù)字人形象向量d的第i個維度,i1為用戶的身份信息向量的維度數(shù)量,ii為用戶的身份信息向量的第i個維度,s1為用戶的當(dāng)前場景信息向量的維度數(shù)量,si為用戶的當(dāng)前場景信息向量的第i個維度,h1為用戶的歷史偏好信息向量h的維度數(shù)量,hi為用戶的歷史偏好信息向量的第i個維度。
16、在某些優(yōu)選的實施方式中,其特征在于,所述第二數(shù)字人背景生成模型為:
17、
18、其中,b2為輸出的數(shù)字人背景的多維向量,維度數(shù)量為b2,l1為卷積操作的數(shù)量,m1為變壓器操作的數(shù)量,為數(shù)字人形象向量,為用戶的身份信息向量,為用戶的當(dāng)前場景信息向量,η1m為權(quán)重,∈1為偏置項。
19、在某些優(yōu)選的實施方式中,步驟s5具體包括:
20、s51:將用戶輸入的語音交互信息轉(zhuǎn)換為文本信息;
21、s52:對轉(zhuǎn)換后的文本信息進行自然語言處理并提取關(guān)鍵信息;
22、s53:根據(jù)提取的關(guān)鍵信息從本地知識庫和/或云端數(shù)據(jù)庫檢索相關(guān)信息;
23、s54:根據(jù)檢索到的相關(guān)信息和確定的數(shù)字人形象生成回應(yīng)內(nèi)容;
24、s55:將生成的回應(yīng)內(nèi)容轉(zhuǎn)換為語音信號并對用戶進行語音回應(yīng);
25、s56:獲取用戶接收完語音回應(yīng)后的反應(yīng)信息,根據(jù)用戶的反應(yīng)信息對后續(xù)的實時交互進行調(diào)整。
26、在某些優(yōu)選的實施方式中,在步驟s52中,提取關(guān)鍵信息采用下述公式:
27、
28、其中,ξ為提取的關(guān)鍵信息集合,n為文本信息中的詞語數(shù)量,為第ι個詞語的權(quán)重,θι(ψ)為對第ι個詞語進行基礎(chǔ)自然語言處理函數(shù)操作后的結(jié)果,m為影響詞語權(quán)重的第一類因素數(shù)量,為第個第一類因素的權(quán)重系數(shù),為第ι個詞語在第個第一類因素下的特征函數(shù)結(jié)果,p為影響詞語權(quán)重的第二類因素數(shù)量,μχ為第χ個第二類因素的權(quán)重系數(shù),γχ(ψι)為第ι個詞語在第χ個第二類因素下的特征函數(shù)結(jié)果,ψ為轉(zhuǎn)換后的文本信息;
29、所述第一類因素包括詞語在特定主題領(lǐng)域的重要性、詞語與當(dāng)前交互場景的相關(guān)性、詞語與當(dāng)前熱點話題的關(guān)聯(lián)度、詞語在不同語境下的多義性以及詞語與用戶特定興趣領(lǐng)域的契合度中的至少兩種,所述第二類因素包括用戶的歷史交互偏好、當(dāng)前的時間、用戶的地理位置以及用戶的語言習(xí)慣中的至少兩種。
30、在某些優(yōu)選的實施方式中,在步驟s54中,生成回應(yīng)內(nèi)容采用下述公式:
31、
32、其中,為生成的回應(yīng)內(nèi)容,α′為數(shù)字人形象特征的權(quán)重,δ為數(shù)字人形象特征向量,β′為檢索信息特征的權(quán)重,σ為從本地知識庫和/或云端數(shù)據(jù)庫檢索到的相關(guān)信息特征向量,γ′為上下文信息特征的權(quán)重,ω為當(dāng)前交互的上下文信息特征向量,q為影響回應(yīng)內(nèi)容的第一類交互調(diào)整因素數(shù)量,ηλ為第λ個第一類交互調(diào)整因素的權(quán)重,λλ(δ,σ,ω)為在數(shù)字人形象特征向量、檢索信息特征向量和上下文信息特征向量共同作用下的第λ個第一類交互調(diào)整函數(shù)結(jié)果,s為影響回應(yīng)內(nèi)容的第二類交互調(diào)整因素數(shù)量,ξρ為第ρ個第二類交互調(diào)整因素的權(quán)重,ψρ(δ,σ,ω)為在數(shù)字人形象特征向量、檢索信息特征向量和上下文信息特征向量共同作用下的第ρ個第二類交互調(diào)整函數(shù)結(jié)果;
33、所述第一類交互調(diào)整因素包括用戶的情緒狀態(tài)、交互的緊急程度、用戶的情感傾向強度、交互的目的明確性以及數(shù)字人的當(dāng)前任務(wù)狀態(tài)中的至少兩種,所述第二類交互調(diào)整因素包括外部環(huán)境因素、流行趨勢、社會文化趨勢、行業(yè)動態(tài)變化以及數(shù)字人的成長階段中的至少兩種。
34、在某些優(yōu)選的實施方式中,步驟s6具體包括:
35、s61:對所述用戶的動作信息進行解析,其中,所述動作信息包括肢體動作信息和面部表情變化信息;
36、s62:根據(jù)解析后的動作信息,判斷用戶的動作意圖;
37、s63:根據(jù)用戶的動作意圖確定數(shù)字人回應(yīng)于用戶的交互動作;
38、s64:對所述數(shù)字人回應(yīng)于用戶的交互動作進行優(yōu)化。
39、在某些優(yōu)選的實施方式中,在步驟s64中,采用下述公式對所述數(shù)字人回應(yīng)于用戶的交互動作進行優(yōu)化:
40、
41、其中,doptimized為優(yōu)化后的數(shù)字人交互動作,daction_i為用戶的第i個子動作,n為子動作的總數(shù),m為時間序列中的幀數(shù),tj為第j幀的時間點,daction(tj)為在時間tj的數(shù)字人動作,daction(tj-1)為在時間tj-1的數(shù)字人動作,dmax_change為預(yù)設(shè)的最大動作變化幅度,k為真實人類動作數(shù)據(jù)庫中的動作總數(shù),haction_i為真實人類動作數(shù)據(jù)庫中的第i個動作,sim為相似度計算函數(shù),ccontext_detail為交互上下文的詳細(xì)環(huán)境信息,dcharacteristics_detail為數(shù)字人的詳細(xì)特征參數(shù),aconstraints為動作的約束條件,daction_history為數(shù)字人的動作歷史記錄,uexpectation為用戶的期望動作。
42、在另一方面,本發(fā)明還提供了一種支持用戶自定義數(shù)字人形象的ai實時交互系統(tǒng),所述系統(tǒng)包括:
43、第一信息獲取模塊,其用于獲取數(shù)字人形象的自定義信息和用戶信息;
44、數(shù)字人形象確定模塊,其用于基于所述數(shù)字人形象的自定義信息確定數(shù)字人形象;
45、數(shù)字人背景生成模塊,其用于基于用戶信息和確定的數(shù)字人形象生成數(shù)字人背景;
46、第二信息獲取模塊,其用于實時獲取用戶輸入的語音交互信息并捕捉用戶的動作信息;
47、實時交互模塊,其用于基于所述用戶輸入的語音交互信息與用戶進行實時交互;
48、數(shù)字人動作確定模塊,其用于基于所述用戶的動作信息確定數(shù)字人回應(yīng)于用戶的交互動作。
49、從上面可以看出,本發(fā)明提供的一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng),具有如下有益的技術(shù)效果:
50、本發(fā)明能夠允許用戶根據(jù)自己的喜好和需求,自由地定制數(shù)字人的形象,從而創(chuàng)造出符合個人期待和偏好的數(shù)字人形象,數(shù)字人的背景可以根據(jù)用戶信息和數(shù)字人形象自動生成,提高數(shù)字人整體布置的個性化和智能化,同時,本發(fā)明還需具備實時捕捉用戶語音和動作信息的能力,以便數(shù)字人能夠基于用戶的實時輸入,做出更加自然、流暢的交互回應(yīng),提高靈活性,進一步提升用戶體驗和交互效果,滿足用戶日益增長的個性化需求以及拓展ai實時交互技術(shù)的應(yīng)用場景。