亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種支持用戶自定義數(shù)字人形象的AI實時交互方法及系統(tǒng)與流程

文檔序號:40466854發(fā)布日期:2024-12-27 09:32閱讀:4來源:國知局
一種支持用戶自定義數(shù)字人形象的AI實時交互方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)字人交互,具體涉及一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)。


背景技術(shù):

1、隨著人工智能技術(shù)的迅猛發(fā)展和普及,ai實時交互技術(shù)已成為多個領(lǐng)域的重要應(yīng)用,如虛擬客服、在線教育、娛樂互動以及虛擬現(xiàn)實等。這一技術(shù)通過模擬人類交互行為,為用戶提供了更加便捷、高效的服務(wù)體驗,極大地豐富了數(shù)字世界的互動性和沉浸感。然而,盡管ai實時交互技術(shù)取得了顯著的進步,但傳統(tǒng)的交互方法仍然面臨諸多挑戰(zhàn),其中最為突出的是缺乏個性化和用戶自定義的能力。

2、現(xiàn)有的數(shù)字人形象,盡管在外觀、行為模式及交互方式上已經(jīng)取得了一定的多樣性,但它們大多仍然由系統(tǒng)預(yù)設(shè),用戶在交互過程中只能被動接受,無法根據(jù)自己的喜好和需求進行個性化定制。這種缺乏靈活性和個性化的交互方式,不僅限制了用戶體驗的提升,也阻礙了ai實時交互技術(shù)在更多場景下的應(yīng)用拓展。在現(xiàn)代社會中,個性化需求日益凸顯,用戶對于能夠體現(xiàn)自己獨特品味和風(fēng)格的數(shù)字人形象有著越來越高的期待。他們希望數(shù)字人不僅能夠理解并回應(yīng)他們的語音和動作,還能夠在外貌、性格、行為模式等方面與他們產(chǎn)生共鳴,從而實現(xiàn)更加深入、真實的交互體驗。例如,在教育領(lǐng)域,學(xué)生可能更希望與一個具有親和力和耐心的數(shù)字人教師進行互動;在娛樂領(lǐng)域,用戶可能更傾向于與一個具有特定風(fēng)格或外貌的數(shù)字人角色進行游戲或聊天。

3、鑒于此,本領(lǐng)域需要一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)來解決上述問題。


技術(shù)實現(xiàn)思路

1、為了解決上述技術(shù)問題,即解決現(xiàn)有技術(shù)中用戶與數(shù)字人交互時數(shù)字人缺乏個性化和用戶自定義的能力以及交互方式缺乏靈活性導(dǎo)致用戶體驗不佳的問題。

2、在一方面,本發(fā)明提供了一種支持用戶自定義數(shù)字人形象的ai實時交互方法,所述方法包括:

3、s1:獲取數(shù)字人形象的自定義信息和用戶信息;

4、s2:基于所述數(shù)字人形象的自定義信息確定數(shù)字人形象;

5、s3:基于用戶信息和確定的數(shù)字人形象生成數(shù)字人背景;

6、s4:實時獲取用戶輸入的語音交互信息并捕捉用戶的動作信息;

7、s5:基于所述用戶輸入的語音交互信息與用戶進行實時交互;

8、s6:基于所述用戶的動作信息確定數(shù)字人回應(yīng)于用戶的交互動作。

9、在某些優(yōu)選的實施方式中,所述用戶信息包括用戶的身份信息、用戶的當(dāng)前場景信息和用戶的歷史偏好信息;步驟s3具體包括:

10、s31:判斷系統(tǒng)中是否預(yù)存有用戶的歷史偏好信息;

11、s321:若系統(tǒng)中預(yù)存有用戶的歷史偏好信息,則將用戶的身份信息、用戶的當(dāng)前場景信息、用戶的歷史偏好信息和確定的數(shù)字人形象輸入到第一數(shù)字人背景生成模型中,基于所述第一數(shù)字人背景生成模型生成數(shù)字人背景;

12、s322:若系統(tǒng)中未預(yù)存有用戶的歷史偏好信息,則將用戶的身份信息、用戶的當(dāng)前場景信息和確定的數(shù)字人形象輸入到第二數(shù)字人背景生成模型中,基于所述第二數(shù)字人背景生成模型生成數(shù)字人背景。

13、在某些優(yōu)選的實施方式中,其特征在于,所述第一數(shù)字人背景生成模型為:

14、

15、其中,b1為輸出的數(shù)字人背景的多維向量,維度數(shù)量為b1,k1為求和的項數(shù),j1為層數(shù),ω1k、θ1jk、α1ij、β1ij、γ1ij和δ1ij均為權(quán)重,∈1j和∈0均為偏置項,d1為確定的數(shù)字人形象向量的維度數(shù)量,di為數(shù)字人形象向量d的第i個維度,i1為用戶的身份信息向量的維度數(shù)量,ii為用戶的身份信息向量的第i個維度,s1為用戶的當(dāng)前場景信息向量的維度數(shù)量,si為用戶的當(dāng)前場景信息向量的第i個維度,h1為用戶的歷史偏好信息向量h的維度數(shù)量,hi為用戶的歷史偏好信息向量的第i個維度。

16、在某些優(yōu)選的實施方式中,其特征在于,所述第二數(shù)字人背景生成模型為:

17、

18、其中,b2為輸出的數(shù)字人背景的多維向量,維度數(shù)量為b2,l1為卷積操作的數(shù)量,m1為變壓器操作的數(shù)量,為數(shù)字人形象向量,為用戶的身份信息向量,為用戶的當(dāng)前場景信息向量,η1m為權(quán)重,∈1為偏置項。

19、在某些優(yōu)選的實施方式中,步驟s5具體包括:

20、s51:將用戶輸入的語音交互信息轉(zhuǎn)換為文本信息;

21、s52:對轉(zhuǎn)換后的文本信息進行自然語言處理并提取關(guān)鍵信息;

22、s53:根據(jù)提取的關(guān)鍵信息從本地知識庫和/或云端數(shù)據(jù)庫檢索相關(guān)信息;

23、s54:根據(jù)檢索到的相關(guān)信息和確定的數(shù)字人形象生成回應(yīng)內(nèi)容;

24、s55:將生成的回應(yīng)內(nèi)容轉(zhuǎn)換為語音信號并對用戶進行語音回應(yīng);

25、s56:獲取用戶接收完語音回應(yīng)后的反應(yīng)信息,根據(jù)用戶的反應(yīng)信息對后續(xù)的實時交互進行調(diào)整。

26、在某些優(yōu)選的實施方式中,在步驟s52中,提取關(guān)鍵信息采用下述公式:

27、

28、其中,ξ為提取的關(guān)鍵信息集合,n為文本信息中的詞語數(shù)量,為第ι個詞語的權(quán)重,θι(ψ)為對第ι個詞語進行基礎(chǔ)自然語言處理函數(shù)操作后的結(jié)果,m為影響詞語權(quán)重的第一類因素數(shù)量,為第個第一類因素的權(quán)重系數(shù),為第ι個詞語在第個第一類因素下的特征函數(shù)結(jié)果,p為影響詞語權(quán)重的第二類因素數(shù)量,μχ為第χ個第二類因素的權(quán)重系數(shù),γχ(ψι)為第ι個詞語在第χ個第二類因素下的特征函數(shù)結(jié)果,ψ為轉(zhuǎn)換后的文本信息;

29、所述第一類因素包括詞語在特定主題領(lǐng)域的重要性、詞語與當(dāng)前交互場景的相關(guān)性、詞語與當(dāng)前熱點話題的關(guān)聯(lián)度、詞語在不同語境下的多義性以及詞語與用戶特定興趣領(lǐng)域的契合度中的至少兩種,所述第二類因素包括用戶的歷史交互偏好、當(dāng)前的時間、用戶的地理位置以及用戶的語言習(xí)慣中的至少兩種。

30、在某些優(yōu)選的實施方式中,在步驟s54中,生成回應(yīng)內(nèi)容采用下述公式:

31、

32、其中,為生成的回應(yīng)內(nèi)容,α′為數(shù)字人形象特征的權(quán)重,δ為數(shù)字人形象特征向量,β′為檢索信息特征的權(quán)重,σ為從本地知識庫和/或云端數(shù)據(jù)庫檢索到的相關(guān)信息特征向量,γ′為上下文信息特征的權(quán)重,ω為當(dāng)前交互的上下文信息特征向量,q為影響回應(yīng)內(nèi)容的第一類交互調(diào)整因素數(shù)量,ηλ為第λ個第一類交互調(diào)整因素的權(quán)重,λλ(δ,σ,ω)為在數(shù)字人形象特征向量、檢索信息特征向量和上下文信息特征向量共同作用下的第λ個第一類交互調(diào)整函數(shù)結(jié)果,s為影響回應(yīng)內(nèi)容的第二類交互調(diào)整因素數(shù)量,ξρ為第ρ個第二類交互調(diào)整因素的權(quán)重,ψρ(δ,σ,ω)為在數(shù)字人形象特征向量、檢索信息特征向量和上下文信息特征向量共同作用下的第ρ個第二類交互調(diào)整函數(shù)結(jié)果;

33、所述第一類交互調(diào)整因素包括用戶的情緒狀態(tài)、交互的緊急程度、用戶的情感傾向強度、交互的目的明確性以及數(shù)字人的當(dāng)前任務(wù)狀態(tài)中的至少兩種,所述第二類交互調(diào)整因素包括外部環(huán)境因素、流行趨勢、社會文化趨勢、行業(yè)動態(tài)變化以及數(shù)字人的成長階段中的至少兩種。

34、在某些優(yōu)選的實施方式中,步驟s6具體包括:

35、s61:對所述用戶的動作信息進行解析,其中,所述動作信息包括肢體動作信息和面部表情變化信息;

36、s62:根據(jù)解析后的動作信息,判斷用戶的動作意圖;

37、s63:根據(jù)用戶的動作意圖確定數(shù)字人回應(yīng)于用戶的交互動作;

38、s64:對所述數(shù)字人回應(yīng)于用戶的交互動作進行優(yōu)化。

39、在某些優(yōu)選的實施方式中,在步驟s64中,采用下述公式對所述數(shù)字人回應(yīng)于用戶的交互動作進行優(yōu)化:

40、

41、其中,doptimized為優(yōu)化后的數(shù)字人交互動作,daction_i為用戶的第i個子動作,n為子動作的總數(shù),m為時間序列中的幀數(shù),tj為第j幀的時間點,daction(tj)為在時間tj的數(shù)字人動作,daction(tj-1)為在時間tj-1的數(shù)字人動作,dmax_change為預(yù)設(shè)的最大動作變化幅度,k為真實人類動作數(shù)據(jù)庫中的動作總數(shù),haction_i為真實人類動作數(shù)據(jù)庫中的第i個動作,sim為相似度計算函數(shù),ccontext_detail為交互上下文的詳細(xì)環(huán)境信息,dcharacteristics_detail為數(shù)字人的詳細(xì)特征參數(shù),aconstraints為動作的約束條件,daction_history為數(shù)字人的動作歷史記錄,uexpectation為用戶的期望動作。

42、在另一方面,本發(fā)明還提供了一種支持用戶自定義數(shù)字人形象的ai實時交互系統(tǒng),所述系統(tǒng)包括:

43、第一信息獲取模塊,其用于獲取數(shù)字人形象的自定義信息和用戶信息;

44、數(shù)字人形象確定模塊,其用于基于所述數(shù)字人形象的自定義信息確定數(shù)字人形象;

45、數(shù)字人背景生成模塊,其用于基于用戶信息和確定的數(shù)字人形象生成數(shù)字人背景;

46、第二信息獲取模塊,其用于實時獲取用戶輸入的語音交互信息并捕捉用戶的動作信息;

47、實時交互模塊,其用于基于所述用戶輸入的語音交互信息與用戶進行實時交互;

48、數(shù)字人動作確定模塊,其用于基于所述用戶的動作信息確定數(shù)字人回應(yīng)于用戶的交互動作。

49、從上面可以看出,本發(fā)明提供的一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng),具有如下有益的技術(shù)效果:

50、本發(fā)明能夠允許用戶根據(jù)自己的喜好和需求,自由地定制數(shù)字人的形象,從而創(chuàng)造出符合個人期待和偏好的數(shù)字人形象,數(shù)字人的背景可以根據(jù)用戶信息和數(shù)字人形象自動生成,提高數(shù)字人整體布置的個性化和智能化,同時,本發(fā)明還需具備實時捕捉用戶語音和動作信息的能力,以便數(shù)字人能夠基于用戶的實時輸入,做出更加自然、流暢的交互回應(yīng),提高靈活性,進一步提升用戶體驗和交互效果,滿足用戶日益增長的個性化需求以及拓展ai實時交互技術(shù)的應(yīng)用場景。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1