交互式3d語音服務系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種交互式3D語音服務系統(tǒng),包括用戶終端和服務器,其中,所述用戶終端,用于采集用戶的表情和語音并上傳給所述服務器;所述服務器,用于接收和處理所述表情和語音,生成3D虛擬人物視頻并發(fā)送給所述用戶終端。本發(fā)明基于語音識別技術和3D虛擬人物技術,將其與電視機、家庭智能設備、移動智能終端等結合,通過采集用戶的表情和語音,并根據(jù)該語音提取關鍵詞,通過搜索得到與關鍵詞對應的結果,并將該表情和語音賦予在3D虛擬人物模型上,形成3D虛擬人物視頻并發(fā)送給用戶終端,由用戶終端播放和顯示,完成用戶的需求。
【專利說明】交互式3D語音服務系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及一種服務系統(tǒng),尤其涉及一種交互式3D語音服務系統(tǒng)。
【背景技術】
[0002]在家庭中,由于網(wǎng)絡電視可提供給用戶的內(nèi)容資源過多,有時為了收看一些特定的節(jié)目,不得不在大量的節(jié)目單中找尋,浪費了大量的時間,造成使用上的不便;另外,在很多公眾場合,設置了一些用于信息查詢的終端,其一般是由觸摸屏和電腦一起構成,由用戶通過觸摸來進行查詢或者用鼠標、鍵盤來查詢,不能直接通過會話來進行信息查詢,這對一些手部不靈活的人造成了很大的不便,使得服務缺乏人性化。
【發(fā)明內(nèi)容】
[0003]本發(fā)明克服了現(xiàn)有技術的不足,提供一種使用便捷、反應快速的交互式3D語音服務系統(tǒng)。
[0004]為達到上述目的,本發(fā)明采用的技術方案為:一種交互式3D語音服務系統(tǒng),包括用戶終端和服務器,其中,
所述用戶終端,用于采集用戶的表情和語音并上傳給所述服務器;
所述服務器,用于接收、處理所述表情和語音,生成3D虛擬人物視頻并發(fā)送給所述用戶終端。
[0005]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述用戶終端包括攝像模塊、語音模塊和播放模塊。
[0006]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述服務器包括表情接收模塊、語音接收模塊、表情處理模塊、語音處理模塊、搜索模塊、數(shù)據(jù)庫、表情重現(xiàn)模塊和語音重現(xiàn)模塊。
[0007]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述語音處理模塊包括語音轉文字模塊和文字轉語音模塊。
[0008]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述搜索模塊根據(jù)所述語音轉文字模塊提取的關鍵詞在所述數(shù)據(jù)庫中進行搜索。
[0009]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述搜索模塊根據(jù)所述語音轉文字模塊提取的關鍵詞通過連接無線網(wǎng)絡進行搜索。
[0010]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述搜索的結果反饋給所述文字轉語音模塊。
[0011]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述用戶終端還包括將所述表情和語音發(fā)送給所述服務器的上傳模塊。
[0012]本發(fā)明一個較佳實施例中,交互式3D語音服務系統(tǒng)進一步包括所述上傳模塊通過無線網(wǎng)絡將所述表情和語音發(fā)送給所述服務器。
[0013]本發(fā)明解決了【背景技術】中存在的缺陷,本發(fā)明基于語音識別技術和3D虛擬人物技術,將其與電視機、家庭智能設備、移動智能終端等結合,通過采集用戶的表情和語音,并根據(jù)該語音提取關鍵詞,通過搜索得到與關鍵詞對應的結果,并將該表情和語音賦予在3D虛擬人物模型上,形成3D虛擬人物視頻并發(fā)送給用戶終端,由用戶終端播放和顯示,完成用戶的需求。
【專利附圖】
【附圖說明】
[0014]下面結合附圖和實施例對本發(fā)明進一步說明。
[0015]圖1是本發(fā)明的優(yōu)選實施例的結構框圖;
圖中:2、用戶終端,4、服務器,6、攝像裝置,8、語音模塊,10、上傳模塊,12、播放模塊,14、表情接收模塊,16、語音接收模塊,18、表情處理模塊,20、語音處理模塊,22、搜索模塊,24、數(shù)據(jù)庫,26、表情重現(xiàn)模塊,28、語音重新模塊,30、語音轉文字模塊,32、文字轉語音模塊,34、3D虛擬人模型。
【具體實施方式】
[0016]現(xiàn)在結合附圖和實施例對本發(fā)明作進一步詳細的說明,這些附圖均為簡化的示意圖,僅以示意方式說明本發(fā)明的基本結構,因此其僅顯示與本發(fā)明有關的構成。
[0017]如圖1所示,一種交互式3D語音服務系統(tǒng),包括用戶終端2和服務器4。其中,用戶終端2為智能電視機、電腦、智能手機、銀行終端、醫(yī)院終端等,用于采集用戶的表情和語音并上傳給服務器4;服務器4,用于接收、處理表情和語音,生成3D虛擬人物視頻并發(fā)送給用戶終端2。
[0018]本發(fā)明優(yōu)選用戶終端2包括攝像模塊6、語音模塊8、上傳模塊10和播放模塊12。攝像模塊6為攝像頭,用于采集用戶的表情;語音模塊8為麥克風,用于采集用戶的語音;上傳模塊10通過無線網(wǎng)絡將采集的表情和語音發(fā)送給服務器4,該無線網(wǎng)絡可以為紅外、微波、WIFI或3G網(wǎng)絡;播放模塊12用于播放服務器4傳送的3D虛擬人物視頻。
[0019]服務器4包括表情接收模塊14、語音接收模塊16、表情處理模塊18、語音處理模塊20、搜索模塊22、數(shù)據(jù)庫24、表情重現(xiàn)模塊26和語音重現(xiàn)模塊28。其中,表情處理模塊18用于將用戶的表情分割成由若干個單一五官或臉部肌肉位置組成的表情記錄;語音處理模塊20包括語音轉文字模塊30和文字轉語音模塊32,用于將用戶的語音轉換成文字和將文字轉換成用戶的語音;搜索模塊22根據(jù)語音轉文字模塊30提取的文字形式的關鍵詞在數(shù)據(jù)庫24中進行搜索;或者當數(shù)據(jù)庫24內(nèi)所存儲的內(nèi)容沒有與關鍵詞匹配的內(nèi)容時,搜索模塊22根據(jù)語音轉文字模塊30提取的文字形式的關鍵詞通過連接無線網(wǎng)絡進行搜索;搜索的結果反饋給文字轉語音模塊32,將搜索到的文字形式的結果轉換成語音。
[0020]本發(fā)明的交互式3D語音服務系統(tǒng)在使用時,用戶通過語音和表情向用戶終端發(fā)送需求,如用戶到達一個醫(yī)院,需要尋找眼科醫(yī)生的相關信息,則只需要說“我眼睛疼”,用戶終端2的攝像模塊6和語音模塊8采集用戶的表情和語音并上傳至服務器4,服務器4通過3D建模軟件制作出3D虛擬人模型34,語音處理模塊20的語音轉文字模塊30提取語音的“眼睛”關鍵詞并轉換為文字形式,通過搜索模塊22在數(shù)據(jù)庫24內(nèi)或通過連接無線網(wǎng)絡進行搜索,將眼科醫(yī)生的相關信息傳送給文字轉語音模塊32,表情處理模塊18將表情分割成由若干個單一五官或臉部肌肉位置組成的表情記錄,例如眨眼、眼睛睜大、嘴巴鼓起等,文字轉語音模塊32將搜索的結果轉換成用戶的語音,再通過表情重現(xiàn)模塊26和語音重現(xiàn)模塊28在3D虛擬人模型34上重現(xiàn)用戶的表情和語音,3D虛擬人模型34會做與用戶相同的表情,同時說出“眼科醫(yī)生在三樓305室”,形成3D虛擬人物視頻,最后發(fā)送給用戶終端2,由播放模塊12播放。
[0021]以上依據(jù)本發(fā)明的理想實施例為啟示,通過上述的說明內(nèi)容,相關人員完全可以在不偏離本項發(fā)明技術思想的范圍內(nèi),進行多樣的變更以及修改。本項發(fā)明的技術性范圍并不局限于說明書上的內(nèi)容,必須要根據(jù)權利要求范圍來確定技術性范圍。
【權利要求】
1.一種交互式3D語音服務系統(tǒng),其特征在于,包括用戶終端和服務器,其中, 所述用戶終端,用于采集用戶的表情和語音并上傳給所述服務器; 所述服務器,用于接收、處理所述表情和語音,生成3D虛擬人物視頻并發(fā)送給所述用戶終端。
2.根據(jù)權利要求1所述的交互式3D語音服務系統(tǒng),其特征在于:所述用戶終端包括攝像模塊、語音模塊和播放模塊。
3.根據(jù)權利要求2所述的交互式3D語音服務系統(tǒng),其特征在于:所述服務器包括表情接收模塊、語音接收模塊、表情處理模塊、語音處理模塊、搜索模塊、數(shù)據(jù)庫、表情重現(xiàn)模塊和語音重現(xiàn)模塊。
4.根據(jù)權利要求3所述的交互式3D語音服務系統(tǒng),其特征在于:所述語音處理模塊包括語音轉文字模塊和文字轉語音模塊。
5.根據(jù)權利要求4所述的交互式3D語音服務系統(tǒng),其特征在于:所述搜索模塊根據(jù)所述語音轉文字模塊提取的關鍵詞在所述數(shù)據(jù)庫中進行搜索。
6.根據(jù)權利要求4所述的交互式3D語音服務系統(tǒng),其特征在于:所述搜索模塊根據(jù)所述語音轉文字模塊提取的關鍵詞通過連接無線網(wǎng)絡進行搜索。
7.根據(jù)權利要求5或6所述的交互式3D語音服務系統(tǒng),其特征在于:所述搜索的結果反饋給所述文字轉語音模塊。
8.根據(jù)權利要求2所述的交互式3D語音服務系統(tǒng),其特征在于:所述用戶終端還包括將所述表情和語音發(fā)送給所述服務器的上傳模塊。
9.根據(jù)權利要求7所述的交互式3D語音服務系統(tǒng),其特征在于:所述上傳模塊通過無線網(wǎng)絡將所述表情和語音發(fā)送給所述服務器。
【文檔編號】G10L15/26GK103428293SQ201310363987
【公開日】2013年12月4日 申請日期:2013年8月19日 優(yōu)先權日:2013年8月19日
【發(fā)明者】張國祥, 羅霄 申請人:蘇州跨界軟件科技有限公司