具有智能語音交互功能的三維數(shù)字人像的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電數(shù)字?jǐn)?shù)據(jù)處理和一般的圖像數(shù)據(jù)處理或產(chǎn)生領(lǐng)域,特別涉及具有智能語音交互功能的三維數(shù)字人像。
【背景技術(shù)】
[0002]三維數(shù)字人像,又稱為三維化身,是人類在數(shù)字世界中的代名詞。三維數(shù)字人像的制作反映了千百年來人類真實(shí)再現(xiàn)和體驗(yàn)三維物理世界的理想。
[0003]近年來,三維數(shù)字人像的制作水平迅猛發(fā)展。當(dāng)前,三維數(shù)字人像的視覺效果達(dá)到了照片真實(shí)感,具有以假亂真的效果。但是,在三維數(shù)字人像的語音方面,產(chǎn)業(yè)界和學(xué)術(shù)界尚未深入開展相關(guān)的研宄工作。
[0004]本發(fā)明將提出具有語音交互功能的三維數(shù)字人像,三維數(shù)字人像程序運(yùn)行于手機(jī)、平板等移動終端上,該三維數(shù)字人像能夠與用戶進(jìn)行語音交互,與用戶的交互行為產(chǎn)生互動,發(fā)出與交互行為對應(yīng)的聲音。
[0005]根據(jù)檢索,與本發(fā)明相關(guān)的有專利CN201320121861。CN201320121861專利為一種智能語音對話玩具,語音控制系統(tǒng)設(shè)置在玩具本體內(nèi)。與之相比,本發(fā)明的對象不再是物理的玩具,而是數(shù)字化的三維人像,語音交互的方式更具智能性,具有觸摸發(fā)音、問題對答、個性化聲音錄制和播放等功能。
【發(fā)明內(nèi)容】
[0006]為了實(shí)現(xiàn)更具智能的三維數(shù)字人像,本發(fā)明提供一種具有智能語言交互功能的三維數(shù)字人像。
[0007]本發(fā)明提出的具有語音交互功能的三維數(shù)字人像系統(tǒng),其組成包括以下四個部分:用戶輸入模塊、處理模塊、三維數(shù)字人像專家系統(tǒng)、反饋輸出模塊。用戶的輸入信息,經(jīng)輸入模塊的識別后,交給處理模塊處理。處理模塊在三維數(shù)字人像專家系統(tǒng)的幫助下,根據(jù)輸入信息,將三維數(shù)字人像進(jìn)行相應(yīng)的狀態(tài)變換,變換后的結(jié)果傳遞給反饋輸出模塊,完成與用戶的互動。
[0008]1、用戶輸入模塊基于手機(jī)和平板電腦等移動終端,利用其觸摸屏和語音輸入功能,接收用戶的輸入。
[0009]I)對于用戶的觸摸動作,根據(jù)觸摸動作所點(diǎn)擊的三維人像模型的位置,區(qū)分出用戶所點(diǎn)擊的模型部位,進(jìn)而識別出觸摸動作的含義,將該識別信息轉(zhuǎn)化為控制信號。在設(shè)計(jì)過程中,其實(shí)現(xiàn)流程如下:a)預(yù)先分割三維數(shù)字人像模型M為人像部位的集合,即M= {M”i=l,…,N},其中,N為部位的總數(shù)目,Mi為特定的部位,例如,頭部、上臂、下臂、手、胸、腹、臀、大腿、小腿、腳等。b)對于用戶在屏幕上的觸摸動作I,檢測其點(diǎn)擊的人像部位%。從而,根據(jù)預(yù)先設(shè)定的動作知識庫,識別出I的含義,進(jìn)一步表示為控制信號W,并將其傳遞給處理模塊。
[0010]2)對于聲音輸入I,根據(jù)語言模型,識別聲音的語義,也將其轉(zhuǎn)化為相應(yīng)的控制信號W。具體而言,本發(fā)明采用基于統(tǒng)計(jì)模式識別的隱含馬爾科夫模型(Hidden MarkovModel,HMM)。從數(shù)學(xué)的角度,給定輸入信號或特征序列I=U1, I2,…,In},符號集(詞典)W = Iff1, W2,…,WJ,求解符號串W=W1, W2,…,Wk,使得:
W = argmax P(W|I)
通過貝葉斯公式,上式可以改寫為 W = argmax P (I | W) P (W) / P(I)
上式中,P(IlW)為聲學(xué)特征模型,P(W)為詞串的統(tǒng)計(jì)建模。輸入串I,P(I)是確定的,因此,可以省略他們。從而,本發(fā)明的語音識別問題用下面的公式來表示W(wǎng) = argmax P (I | W) P (W)
在此式中,聲學(xué)特征模型P(I IW)為整個系統(tǒng)的關(guān)鍵,它包括三個步驟:a)評估,給定隱含馬爾科夫(HMM)模型參數(shù)以及一串觀測序列,如何求得觀測序列的似然度;b)解碼,給定隱含馬爾科夫(HMM)模型參數(shù)以及一串觀測序列,如何搜索出最優(yōu)的狀態(tài)序列;c)訓(xùn)練,給定觀測序列,如何得到模型參數(shù)。
[0011]簡而言之,對于用戶的輸入I (觸摸動作或聲音輸入),轉(zhuǎn)化為控制信號W。
[0012]2)處理模塊
對于識別出的控制信號W,在專家系統(tǒng)的啟發(fā)下,完成三維數(shù)字人像M的相應(yīng)處理。也就是說,三維數(shù)字人像對控制信號做出相應(yīng)的狀態(tài)變換。狀態(tài)變換可以是多樣的,例如三維數(shù)字人像的肢體動作發(fā)生改變、面部表情發(fā)生改變、選擇出與控制信號相匹配的聲音。
[0013]在處理模塊中,本發(fā)明采用了哈希查找算法,將識別出的控制信號W作為關(guān)鍵字,快速查找出相對應(yīng)的三維數(shù)字人像的狀態(tài)變換功能/。因此,本發(fā)明采用了自適應(yīng)的哈希查找機(jī)制。具體過程包括:用給定的哈希函數(shù)構(gòu)造哈希表、根據(jù)選擇的沖突處理方法解決狀態(tài)變換功能的沖突、在哈希表的基礎(chǔ)上執(zhí)行哈希查找。從本質(zhì)上說,哈希查找是將控制信號映射成它的哈希值,該哈希值對應(yīng)于狀態(tài)變換功能。
[0014]但是,需要指出的是,由于三維數(shù)字人像的處理是具有相當(dāng)?shù)膹?fù)雜度的。同一個控制信號,在不同的上下文背景下,其所對應(yīng)的狀態(tài)變換功能是不一樣的。因此,需要強(qiáng)調(diào)的是,本發(fā)明的處理模塊,在三維數(shù)字人像專家系統(tǒng)的啟發(fā)下運(yùn)行。
[0015]3)三維數(shù)字人像專家系統(tǒng)
該系統(tǒng)其內(nèi)部含有大量的三維數(shù)字人像處理領(lǐng)域?qū)<宜降闹R與經(jīng)驗(yàn),進(jìn)行推理和判斷,模擬人類專家的決策過程,從而處理該領(lǐng)域問題。例如,根據(jù)控制信號,三維數(shù)字人像啟動休閑娛樂功能、講笑話或說評書;或者啟動智能聊天功能,與用戶進(jìn)行情感傾訴或調(diào)侃挑逗。
[0016]在本發(fā)明中,專家系統(tǒng)為具有專門三維數(shù)字人像知識和經(jīng)驗(yàn)的計(jì)算機(jī)智能程序系統(tǒng),通過對三維數(shù)字人像的建模,采用人工智能中的知識表示和知識推理技術(shù),來確定控制信號的上下文,模擬通常由專家才能解決的三維數(shù)字人像狀態(tài)變換問題,達(dá)到具有與專家同等解決問題能力的水平。
[0017]在三維數(shù)字人像專家系統(tǒng)中,知識庫和推理機(jī)為最核心的兩個組成部分。知識庫是問題求解所需要的領(lǐng)域知識的集合,包括三維數(shù)字人像的基本事實(shí)、處理的規(guī)則和其他有關(guān)信息。推理機(jī)則是對三維數(shù)字人像的知識進(jìn)行解釋的程序,根據(jù)知識的語義,對按一定策略找到的知識進(jìn)行解釋執(zhí)行,并把結(jié)果記錄到動態(tài)庫的適當(dāng)空間中。
[0018]4)反饋輸出模塊
反饋輸出模塊反饋三維數(shù)字人像的狀態(tài)變換結(jié)果,通過手機(jī)和平板電腦等移動終端,以視覺和聽覺信號的輸出方式,反饋給用戶,完成三維數(shù)字人像與用戶間的交互。
[0019]需要指出的是,用戶與三維數(shù)字人像間的交互是實(shí)時的。也就是說,當(dāng)用戶完成相應(yīng)的輸入,無需長時間的等待,三維數(shù)字人像即作出了相應(yīng)的狀態(tài)改變,并將結(jié)果及時地反饋給了用戶。
[0020]所述三維數(shù)字人像運(yùn)行在終端設(shè)備上,借助移動終端的觸摸屏、語音輸入等媒介,與用戶完成智能語音交互。
[0021]本發(fā)明的有益效果是,提出新型的具有語音交