一種支持用戶自定義數(shù)字人形象的AI實時交互方法及系統(tǒng)與流程

文檔序號：40466854發(fā)布日期：2024-12-27 09:32閱讀：4來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種支持用戶自定義數(shù)字人形象的AI實時交互方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)字人交互，具體涉及一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)。

背景技術(shù)：

1、隨著人工智能技術(shù)的迅猛發(fā)展和普及，ai實時交互技術(shù)已成為多個領(lǐng)域的重要應(yīng)用，如虛擬客服、在線教育、娛樂互動以及虛擬現(xiàn)實等。這一技術(shù)通過模擬人類交互行為，為用戶提供了更加便捷、高效的服務(wù)體驗，極大地豐富了數(shù)字世界的互動性和沉浸感。然而，盡管ai實時交互技術(shù)取得了顯著的進步，但傳統(tǒng)的交互方法仍然面臨諸多挑戰(zhàn)，其中最為突出的是缺乏個性化和用戶自定義的能力。

2、現(xiàn)有的數(shù)字人形象，盡管在外觀、行為模式及交互方式上已經(jīng)取得了一定的多樣性，但它們大多仍然由系統(tǒng)預(yù)設(shè)，用戶在交互過程中只能被動接受，無法根據(jù)自己的喜好和需求進行個性化定制。這種缺乏靈活性和個性化的交互方式，不僅限制了用戶體驗的提升，也阻礙了ai實時交互技術(shù)在更多場景下的應(yīng)用拓展。在現(xiàn)代社會中，個性化需求日益凸顯，用戶對于能夠體現(xiàn)自己獨特品味和風(fēng)格的數(shù)字人形象有著越來越高的期待。他們希望數(shù)字人不僅能夠理解并回應(yīng)他們的語音和動作，還能夠在外貌、性格、行為模式等方面與他們產(chǎn)生共鳴，從而實現(xiàn)更加深入、真實的交互體驗。例如，在教育領(lǐng)域，學(xué)生可能更希望與一個具有親和力和耐心的數(shù)字人教師進行互動；在娛樂領(lǐng)域，用戶可能更傾向于與一個具有特定風(fēng)格或外貌的數(shù)字人角色進行游戲或聊天。

3、鑒于此，本領(lǐng)域需要一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)來解決上述問題。

技術(shù)實現(xiàn)思路

1、為了解決上述技術(shù)問題，即解決現(xiàn)有技術(shù)中用戶與數(shù)字人交互時數(shù)字人缺乏個性化和用戶自定義的能力以及交互方式缺乏靈活性導(dǎo)致用戶體驗不佳的問題。

2、在一方面，本發(fā)明提供了一種支持用戶自定義數(shù)字人形象的ai實時交互方法，所述方法包括：

3、s1：獲取數(shù)字人形象的自定義信息和用戶信息；

4、s2：基于所述數(shù)字人形象的自定義信息確定數(shù)字人形象；

5、s3：基于用戶信息和確定的數(shù)字人形象生成數(shù)字人背景；

6、s4：實時獲取用戶輸入的語音交互信息并捕捉用戶的動作信息；

7、s5：基于所述用戶輸入的語音交互信息與用戶進行實時交互；

8、s6：基于所述用戶的動作信息確定數(shù)字人回應(yīng)于用戶的交互動作。

9、在某些優(yōu)選的實施方式中，所述用戶信息包括用戶的身份信息、用戶的當(dāng)前場景信息和用戶的歷史偏好信息；步驟s3具體包括：

10、s31：判斷系統(tǒng)中是否預(yù)存有用戶的歷史偏好信息；

11、s321：若系統(tǒng)中預(yù)存有用戶的歷史偏好信息，則將用戶的身份信息、用戶的當(dāng)前場景信息、用戶的歷史偏好信息和確定的數(shù)字人形象輸入到第一數(shù)字人背景生成模型中，基于所述第一數(shù)字人背景生成模型生成數(shù)字人背景；

12、s322：若系統(tǒng)中未預(yù)存有用戶的歷史偏好信息，則將用戶的身份信息、用戶的當(dāng)前場景信息和確定的數(shù)字人形象輸入到第二數(shù)字人背景生成模型中，基于所述第二數(shù)字人背景生成模型生成數(shù)字人背景。

13、在某些優(yōu)選的實施方式中，其特征在于，所述第一數(shù)字人背景生成模型為：

14、

15、其中，b1為輸出的數(shù)字人背景的多維向量，維度數(shù)量為b1，k1為求和的項數(shù)，j1為層數(shù)，ω1k、θ1jk、α1ij、β1ij、γ1ij和δ1ij均為權(quán)重，∈1j和∈0均為偏置項，d1為確定的數(shù)字人形象向量的維度數(shù)量，di為數(shù)字人形象向量d的第i個維度，i1為用戶的身份信息向量的維度數(shù)量，ii為用戶的身份信息向量的第i個維度，s1為用戶的當(dāng)前場景信息向量的維度數(shù)量，si為用戶的當(dāng)前場景信息向量的第i個維度，h1為用戶的歷史偏好信息向量h的維度數(shù)量，hi為用戶的歷史偏好信息向量的第i個維度。

16、在某些優(yōu)選的實施方式中，其特征在于，所述第二數(shù)字人背景生成模型為：

17、

18、其中，b2為輸出的數(shù)字人背景的多維向量，維度數(shù)量為b2，l1為卷積操作的數(shù)量，m1為變壓器操作的數(shù)量，為數(shù)字人形象向量，為用戶的身份信息向量，為用戶的當(dāng)前場景信息向量，η1m為權(quán)重，∈1為偏置項。

19、在某些優(yōu)選的實施方式中，步驟s5具體包括：

20、s51：將用戶輸入的語音交互信息轉(zhuǎn)換為文本信息；

21、s52：對轉(zhuǎn)換后的文本信息進行自然語言處理并提取關(guān)鍵信息；

22、s53：根據(jù)提取的關(guān)鍵信息從本地知識庫和/或云端數(shù)據(jù)庫檢索相關(guān)信息；

23、s54：根據(jù)檢索到的相關(guān)信息和確定的數(shù)字人形象生成回應(yīng)內(nèi)容；

24、s55：將生成的回應(yīng)內(nèi)容轉(zhuǎn)換為語音信號并對用戶進行語音回應(yīng)；

25、s56：獲取用戶接收完語音回應(yīng)后的反應(yīng)信息，根據(jù)用戶的反應(yīng)信息對后續(xù)的實時交互進行調(diào)整。

26、在某些優(yōu)選的實施方式中，在步驟s52中，提取關(guān)鍵信息采用下述公式：

27、

28、其中，ξ為提取的關(guān)鍵信息集合，n為文本信息中的詞語數(shù)量，為第ι個詞語的權(quán)重，θι(ψ)為對第ι個詞語進行基礎(chǔ)自然語言處理函數(shù)操作后的結(jié)果，m為影響詞語權(quán)重的第一類因素數(shù)量，為第個第一類因素的權(quán)重系數(shù)，為第ι個詞語在第個第一類因素下的特征函數(shù)結(jié)果，p為影響詞語權(quán)重的第二類因素數(shù)量，μχ為第χ個第二類因素的權(quán)重系數(shù)，γχ(ψι)為第ι個詞語在第χ個第二類因素下的特征函數(shù)結(jié)果，ψ為轉(zhuǎn)換后的文本信息；

29、所述第一類因素包括詞語在特定主題領(lǐng)域的重要性、詞語與當(dāng)前交互場景的相關(guān)性、詞語與當(dāng)前熱點話題的關(guān)聯(lián)度、詞語在不同語境下的多義性以及詞語與用戶特定興趣領(lǐng)域的契合度中的至少兩種，所述第二類因素包括用戶的歷史交互偏好、當(dāng)前的時間、用戶的地理位置以及用戶的語言習(xí)慣中的至少兩種。

30、在某些優(yōu)選的實施方式中，在步驟s54中，生成回應(yīng)內(nèi)容采用下述公式：

31、

32、其中，為生成的回應(yīng)內(nèi)容，α′為數(shù)字人形象特征的權(quán)重，δ為數(shù)字人形象特征向量，β′為檢索信息特征的權(quán)重，σ為從本地知識庫和/或云端數(shù)據(jù)庫檢索到的相關(guān)信息特征向量，γ′為上下文信息特征的權(quán)重，ω為當(dāng)前交互的上下文信息特征向量，q為影響回應(yīng)內(nèi)容的第一類交互調(diào)整因素數(shù)量，ηλ為第λ個第一類交互調(diào)整因素的權(quán)重，λλ(δ,σ,ω)為在數(shù)字人形象特征向量、檢索信息特征向量和上下文信息特征向量共同作用下的第λ個第一類交互調(diào)整函數(shù)結(jié)果，s為影響回應(yīng)內(nèi)容的第二類交互調(diào)整因素數(shù)量，ξρ為第ρ個第二類交互調(diào)整因素的權(quán)重，ψρ(δ,σ,ω)為在數(shù)字人形象特征向量、檢索信息特征向量和上下文信息特征向量共同作用下的第ρ個第二類交互調(diào)整函數(shù)結(jié)果；

33、所述第一類交互調(diào)整因素包括用戶的情緒狀態(tài)、交互的緊急程度、用戶的情感傾向強度、交互的目的明確性以及數(shù)字人的當(dāng)前任務(wù)狀態(tài)中的至少兩種，所述第二類交互調(diào)整因素包括外部環(huán)境因素、流行趨勢、社會文化趨勢、行業(yè)動態(tài)變化以及數(shù)字人的成長階段中的至少兩種。

34、在某些優(yōu)選的實施方式中，步驟s6具體包括：

35、s61：對所述用戶的動作信息進行解析，其中，所述動作信息包括肢體動作信息和面部表情變化信息；

36、s62：根據(jù)解析后的動作信息，判斷用戶的動作意圖；

37、s63：根據(jù)用戶的動作意圖確定數(shù)字人回應(yīng)于用戶的交互動作；

38、s64：對所述數(shù)字人回應(yīng)于用戶的交互動作進行優(yōu)化。

39、在某些優(yōu)選的實施方式中，在步驟s64中，采用下述公式對所述數(shù)字人回應(yīng)于用戶的交互動作進行優(yōu)化：

40、

41、其中，doptimized為優(yōu)化后的數(shù)字人交互動作，daction_i為用戶的第i個子動作，n為子動作的總數(shù)，m為時間序列中的幀數(shù)，tj為第j幀的時間點，daction(tj)為在時間tj的數(shù)字人動作，daction(tj-1)為在時間tj-1的數(shù)字人動作，dmax_change為預(yù)設(shè)的最大動作變化幅度，k為真實人類動作數(shù)據(jù)庫中的動作總數(shù)，haction_i為真實人類動作數(shù)據(jù)庫中的第i個動作，sim為相似度計算函數(shù)，ccontext_detail為交互上下文的詳細(xì)環(huán)境信息，dcharacteristics_detail為數(shù)字人的詳細(xì)特征參數(shù)，aconstraints為動作的約束條件，daction_history為數(shù)字人的動作歷史記錄，uexpectation為用戶的期望動作。

42、在另一方面，本發(fā)明還提供了一種支持用戶自定義數(shù)字人形象的ai實時交互系統(tǒng)，所述系統(tǒng)包括：

43、第一信息獲取模塊，其用于獲取數(shù)字人形象的自定義信息和用戶信息；

44、數(shù)字人形象確定模塊，其用于基于所述數(shù)字人形象的自定義信息確定數(shù)字人形象；

45、數(shù)字人背景生成模塊，其用于基于用戶信息和確定的數(shù)字人形象生成數(shù)字人背景；

46、第二信息獲取模塊，其用于實時獲取用戶輸入的語音交互信息并捕捉用戶的動作信息；

47、實時交互模塊，其用于基于所述用戶輸入的語音交互信息與用戶進行實時交互；

48、數(shù)字人動作確定模塊，其用于基于所述用戶的動作信息確定數(shù)字人回應(yīng)于用戶的交互動作。

49、從上面可以看出，本發(fā)明提供的一種支持用戶自定義數(shù)字人形象的ai實時交互方法及系統(tǒng)，具有如下有益的技術(shù)效果：

50、本發(fā)明能夠允許用戶根據(jù)自己的喜好和需求，自由地定制數(shù)字人的形象，從而創(chuàng)造出符合個人期待和偏好的數(shù)字人形象，數(shù)字人的背景可以根據(jù)用戶信息和數(shù)字人形象自動生成，提高數(shù)字人整體布置的個性化和智能化，同時，本發(fā)明還需具備實時捕捉用戶語音和動作信息的能力，以便數(shù)字人能夠基于用戶的實時輸入，做出更加自然、流暢的交互回應(yīng)，提高靈活性，進一步提升用戶體驗和交互效果，滿足用戶日益增長的個性化需求以及拓展ai實時交互技術(shù)的應(yīng)用場景。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭長水
技術(shù)所有人：北京烽火萬家科技有限公司
我是此專利的發(fā)明人

上一篇：帶有顯示屏的組合式智能門鎖的制作方法
上一篇：一種折疊式術(shù)后安置枕的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種支持用戶自定義數(shù)字人形象的AI實時交互方法及系統(tǒng)與流程