具有智能語音交互功能的三維數(shù)字人像的制作方法

文檔序號：8223284閱讀：509來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

具有智能語音交互功能的三維數(shù)字人像的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電數(shù)字?jǐn)?shù)據(jù)處理和一般的圖像數(shù)據(jù)處理或產(chǎn)生領(lǐng)域，特別涉及具有智能語音交互功能的三維數(shù)字人像。
【背景技術(shù)】
[0002]三維數(shù)字人像，又稱為三維化身，是人類在數(shù)字世界中的代名詞。三維數(shù)字人像的制作反映了千百年來人類真實(shí)再現(xiàn)和體驗(yàn)三維物理世界的理想。
[0003]近年來，三維數(shù)字人像的制作水平迅猛發(fā)展。當(dāng)前，三維數(shù)字人像的視覺效果達(dá)到了照片真實(shí)感，具有以假亂真的效果。但是，在三維數(shù)字人像的語音方面，產(chǎn)業(yè)界和學(xué)術(shù)界尚未深入開展相關(guān)的研宄工作。
[0004]本發(fā)明將提出具有語音交互功能的三維數(shù)字人像，三維數(shù)字人像程序運(yùn)行于手機(jī)、平板等移動終端上，該三維數(shù)字人像能夠與用戶進(jìn)行語音交互，與用戶的交互行為產(chǎn)生互動，發(fā)出與交互行為對應(yīng)的聲音。
[0005]根據(jù)檢索，與本發(fā)明相關(guān)的有專利CN201320121861。CN201320121861專利為一種智能語音對話玩具，語音控制系統(tǒng)設(shè)置在玩具本體內(nèi)。與之相比，本發(fā)明的對象不再是物理的玩具，而是數(shù)字化的三維人像，語音交互的方式更具智能性，具有觸摸發(fā)音、問題對答、個性化聲音錄制和播放等功能。

【發(fā)明內(nèi)容】

[0006]為了實(shí)現(xiàn)更具智能的三維數(shù)字人像，本發(fā)明提供一種具有智能語言交互功能的三維數(shù)字人像。
[0007]本發(fā)明提出的具有語音交互功能的三維數(shù)字人像系統(tǒng)，其組成包括以下四個部分:用戶輸入模塊、處理模塊、三維數(shù)字人像專家系統(tǒng)、反饋輸出模塊。用戶的輸入信息，經(jīng)輸入模塊的識別后，交給處理模塊處理。處理模塊在三維數(shù)字人像專家系統(tǒng)的幫助下，根據(jù)輸入信息，將三維數(shù)字人像進(jìn)行相應(yīng)的狀態(tài)變換，變換后的結(jié)果傳遞給反饋輸出模塊，完成與用戶的互動。
[0008]1、用戶輸入模塊基于手機(jī)和平板電腦等移動終端，利用其觸摸屏和語音輸入功能，接收用戶的輸入。
[0009]I)對于用戶的觸摸動作，根據(jù)觸摸動作所點(diǎn)擊的三維人像模型的位置，區(qū)分出用戶所點(diǎn)擊的模型部位，進(jìn)而識別出觸摸動作的含義，將該識別信息轉(zhuǎn)化為控制信號。在設(shè)計(jì)過程中，其實(shí)現(xiàn)流程如下:a)預(yù)先分割三維數(shù)字人像模型M為人像部位的集合，即M= {M”i=l,…，N}，其中，N為部位的總數(shù)目，Mi為特定的部位，例如，頭部、上臂、下臂、手、胸、腹、臀、大腿、小腿、腳等。b)對于用戶在屏幕上的觸摸動作I，檢測其點(diǎn)擊的人像部位％。從而，根據(jù)預(yù)先設(shè)定的動作知識庫，識別出I的含義，進(jìn)一步表示為控制信號W，并將其傳遞給處理模塊。
[0010]2)對于聲音輸入I，根據(jù)語言模型，識別聲音的語義，也將其轉(zhuǎn)化為相應(yīng)的控制信號W。具體而言，本發(fā)明采用基于統(tǒng)計(jì)模式識別的隱含馬爾科夫模型(Hidden MarkovModel，HMM)。從數(shù)學(xué)的角度，給定輸入信號或特征序列I=U1, I2,…，In}，符號集(詞典)W = Iff1, W2,…，WJ，求解符號串W=W1, W2,…，Wk，使得:
W = argmax P(W|I)
通過貝葉斯公式，上式可以改寫為 W = argmax P (I | W) P (W) / P(I)
上式中，P(IlW)為聲學(xué)特征模型，P(W)為詞串的統(tǒng)計(jì)建模。輸入串I，P(I)是確定的，因此，可以省略他們。從而，本發(fā)明的語音識別問題用下面的公式來表示W(wǎng) = argmax P (I | W) P (W)
在此式中，聲學(xué)特征模型P(I IW)為整個系統(tǒng)的關(guān)鍵，它包括三個步驟:a)評估，給定隱含馬爾科夫(HMM)模型參數(shù)以及一串觀測序列，如何求得觀測序列的似然度；b)解碼，給定隱含馬爾科夫(HMM)模型參數(shù)以及一串觀測序列，如何搜索出最優(yōu)的狀態(tài)序列；c)訓(xùn)練，給定觀測序列，如何得到模型參數(shù)。
[0011]簡而言之，對于用戶的輸入I (觸摸動作或聲音輸入)，轉(zhuǎn)化為控制信號W。
[0012]2)處理模塊
對于識別出的控制信號W，在專家系統(tǒng)的啟發(fā)下，完成三維數(shù)字人像M的相應(yīng)處理。也就是說，三維數(shù)字人像對控制信號做出相應(yīng)的狀態(tài)變換。狀態(tài)變換可以是多樣的，例如三維數(shù)字人像的肢體動作發(fā)生改變、面部表情發(fā)生改變、選擇出與控制信號相匹配的聲音。
[0013]在處理模塊中，本發(fā)明采用了哈希查找算法，將識別出的控制信號W作為關(guān)鍵字，快速查找出相對應(yīng)的三維數(shù)字人像的狀態(tài)變換功能/。因此，本發(fā)明采用了自適應(yīng)的哈希查找機(jī)制。具體過程包括:用給定的哈希函數(shù)構(gòu)造哈希表、根據(jù)選擇的沖突處理方法解決狀態(tài)變換功能的沖突、在哈希表的基礎(chǔ)上執(zhí)行哈希查找。從本質(zhì)上說，哈希查找是將控制信號映射成它的哈希值，該哈希值對應(yīng)于狀態(tài)變換功能。
[0014]但是，需要指出的是，由于三維數(shù)字人像的處理是具有相當(dāng)?shù)膹?fù)雜度的。同一個控制信號，在不同的上下文背景下，其所對應(yīng)的狀態(tài)變換功能是不一樣的。因此，需要強(qiáng)調(diào)的是，本發(fā)明的處理模塊，在三維數(shù)字人像專家系統(tǒng)的啟發(fā)下運(yùn)行。
[0015]3)三維數(shù)字人像專家系統(tǒng)
該系統(tǒng)其內(nèi)部含有大量的三維數(shù)字人像處理領(lǐng)域?qū)＜宜降闹R與經(jīng)驗(yàn)，進(jìn)行推理和判斷，模擬人類專家的決策過程，從而處理該領(lǐng)域問題。例如，根據(jù)控制信號，三維數(shù)字人像啟動休閑娛樂功能、講笑話或說評書；或者啟動智能聊天功能，與用戶進(jìn)行情感傾訴或調(diào)侃挑逗。
[0016]在本發(fā)明中，專家系統(tǒng)為具有專門三維數(shù)字人像知識和經(jīng)驗(yàn)的計(jì)算機(jī)智能程序系統(tǒng)，通過對三維數(shù)字人像的建模，采用人工智能中的知識表示和知識推理技術(shù)，來確定控制信號的上下文，模擬通常由專家才能解決的三維數(shù)字人像狀態(tài)變換問題，達(dá)到具有與專家同等解決問題能力的水平。
[0017]在三維數(shù)字人像專家系統(tǒng)中，知識庫和推理機(jī)為最核心的兩個組成部分。知識庫是問題求解所需要的領(lǐng)域知識的集合，包括三維數(shù)字人像的基本事實(shí)、處理的規(guī)則和其他有關(guān)信息。推理機(jī)則是對三維數(shù)字人像的知識進(jìn)行解釋的程序，根據(jù)知識的語義，對按一定策略找到的知識進(jìn)行解釋執(zhí)行，并把結(jié)果記錄到動態(tài)庫的適當(dāng)空間中。
[0018]4)反饋輸出模塊
反饋輸出模塊反饋三維數(shù)字人像的狀態(tài)變換結(jié)果，通過手機(jī)和平板電腦等移動終端，以視覺和聽覺信號的輸出方式，反饋給用戶，完成三維數(shù)字人像與用戶間的交互。
[0019]需要指出的是，用戶與三維數(shù)字人像間的交互是實(shí)時的。也就是說，當(dāng)用戶完成相應(yīng)的輸入，無需長時間的等待，三維數(shù)字人像即作出了相應(yīng)的狀態(tài)改變，并將結(jié)果及時地反饋給了用戶。
[0020]所述三維數(shù)字人像運(yùn)行在終端設(shè)備上，借助移動終端的觸摸屏、語音輸入等媒介，與用戶完成智能語音交互。
[0021]本發(fā)明的有益效果是，提出新型的具有語音交

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程志全;徐華勛;
技術(shù)所有人：湖南化身科技有限公司;
我是此專利的發(fā)明人

上一篇：一種顯示效果調(diào)節(jié)方法及電子設(shè)備的制造方法
上一篇：一種處理郵件的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

智能語音交互相關(guān)技術(shù)

智能語音交互系統(tǒng)相關(guān)技術(shù)

你好博越智能語音交互相關(guān)技術(shù)

智能語音交互技術(shù)相關(guān)技術(shù)

智能家居語音交互相關(guān)技術(shù)

智能機(jī)器人語音交互相關(guān)技術(shù)

智能語音交互系統(tǒng)設(shè)計(jì)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

具有智能語音交互功能的三維數(shù)字人像的制作方法