專利名稱:基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng)及認知方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng)及認知方法,屬于增強現(xiàn)實技術(shù)領(lǐng)域。
背景技術(shù):
增強現(xiàn)實就是將計算機生成的虛擬對象與真實世界結(jié)合起來,構(gòu)造出虛實結(jié)合的虛擬空間。計算機系統(tǒng)提供的信息用來增強用戶對現(xiàn)實世界的感知能力,可以增強或捕捉人眼所看到的東西,將計算機生成的虛擬物體、場景或系統(tǒng)所提示的信息疊加到真實場景中,從而實現(xiàn)對現(xiàn)實世界的“增強”。增強現(xiàn)實技術(shù)在工業(yè)設(shè)計、機械制造、建筑、教育和娛樂等領(lǐng)域都有廣泛的應(yīng)用場景,它不僅提供了一種容易實現(xiàn)的虛擬現(xiàn)實方法,更代表了下一代更容易使用的人機界面發(fā)展趨勢。為了能夠進行增強現(xiàn)實應(yīng)用開發(fā),現(xiàn)在已經(jīng)有很多種用于AR系統(tǒng)開發(fā)的工具包和API,如ARToolkit、Coin3D和MR Platform等,在該系統(tǒng)中,我們采用ARToolkit工具包。ARToolkit是一個C/C++語言編寫的庫,通過它可以讓我們很容易編寫增強現(xiàn)實應(yīng)用程序。ARToolkit的工具包從跟蹤注冊的自然屬性出發(fā),在虛擬物體、真實環(huán)境、攝像頭、2D成像平面坐標(biāo)系之間的轉(zhuǎn)換,將虛擬物體注冊到真實場景中去,實現(xiàn)虛實無縫結(jié)合。目前國內(nèi)在增強現(xiàn)實方面研究和應(yīng)用已經(jīng)取得了一些進展,但是除了蘇州夢想人軟件公司開發(fā)的一種基于增強現(xiàn)實技術(shù)的學(xué)習(xí)系統(tǒng),但是該系統(tǒng)并沒有很好的實現(xiàn)語音互動,因此交互性相對較差。通過對每張圖片制作不同的3D模型,并且對一些有關(guān)聯(lián)的卡片做了邏輯關(guān)系處理。在模型的制作上,利用3D max制作出動態(tài)逼真場景來充分調(diào)動兒童的興趣。并引入語音識別系統(tǒng),通過向兒童提問問題讓兒童來回答,并根據(jù)語音識別來判斷回答是否正確。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)解決問題克服現(xiàn)有技術(shù)的不足,提供一種基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng)及認知方法,對傳統(tǒng)兒童識字的一種有效的補充,不僅能夠解決傳統(tǒng)兒童識字卡片枯燥無味、交互性差等缺點,而且能夠很好的適應(yīng)兒童好玩、好動、好奇心強的天性,發(fā)揮其模仿性強、感知靈敏及創(chuàng)造力非凡的特點。作為計算機圖形學(xué)、虛擬現(xiàn)實及人工智能等前沿學(xué)科的交匯,逼真的3D模型能夠很好地滿足兒童的視覺需要,語音識別系統(tǒng)在減少繁瑣操作的同時能夠給予兒童語言學(xué)習(xí)方面的足夠的刺激,而模式識別和虛擬則能夠增強兒童的浸入性,達到更好的交互效果。另外,該平臺通過語音交互,能夠很好的提高兒童的聽說能力,更大的提升兒童的學(xué)習(xí)能力、創(chuàng)新能力、溝通能力和綜合素質(zhì),具有良好的社會效益。本發(fā)明的技術(shù)解決方案基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng)及認知方法,如
圖1所示包括圖像信息錄入模塊=ARToolkit首先初始化攝像頭參數(shù),啟動攝像頭捕捉現(xiàn)實場景,導(dǎo)入矩形標(biāo)記模式文件作為匹配模版,然后根據(jù)用戶設(shè)定的閾值將采集到的一幀彩色圖像進行二值化處理,轉(zhuǎn)化為黑白二值圖像。在該二值黑白圖像中找出所有封閉的矩形區(qū)域,并把所有尋找出的矩形區(qū)域存儲起來作為候選區(qū)域,并將候選區(qū)域圖片信息存儲到模版庫中;圖片信息匹配模塊常用的匹配方法有基于灰度的方法和基于特征的方法。兩種方法中,后者的可靠性和魯棒性比前者好。采用最基礎(chǔ)和最重要的點匹配。近年來,譜圖理論被廣泛用于點匹配之中。采用圖像內(nèi)部的點親近矩陣來進行匹配,其方法實際上就是對賦權(quán)圖的鄰接矩陣進行處理。將譜圖分析方法和EM算法結(jié)合起來,通過點的親近矩陣來獲得點匹配的概率,提高了匹配的魯棒性和準確性。圈是圖論中基本概念,對圖論的發(fā)展及應(yīng)用起著及其重要的作用。利用基于圈基的譜匹配算法,首先分別對兩幅待匹配的圖像構(gòu)造完全圖,在每個完全圖中尋找所有的圈基,再通過各自的圈基構(gòu)造鄰接矩陣;然后進行奇異值分解,利用分解所得的特征向量構(gòu)造反映特征點之間匹配程度的概率矩陣;最后通過雙隨機矩陣計算譜匹配的概率矩陣,獲得匹配的最終結(jié)果。通過多次實驗,驗證了該算法在標(biāo)識平移、縮放、旋轉(zhuǎn)、仿射變換下的可行性;繪制模型模塊預(yù)先利用3D max繪圖工具為匹配模版庫中每個圖像制作了 3D動畫模型,當(dāng)圖像信息匹配成功時,就打開相應(yīng)的模型文件,運行對應(yīng)的程序。3D圖形畫面的繪制效果和表現(xiàn)力總是受到軟硬件的限制,為了增強圖形的表現(xiàn)力,有必要對圖形的優(yōu)化方法進行研究。采用OpenGL ES渲染管線技術(shù),使開發(fā)3D場景時對頂點的變換、法向量的計算、紋理坐標(biāo)的變換、光照材質(zhì)的應(yīng)用等均由開發(fā)者使用著色器代碼完成,靈活性大大提高。利用Virtools渲染平臺,將3D模型和音效整合到一起,即所有的分塊在Virtools平臺中具體運行,Virtool將所有的工作連接起來,按照一定順序和層級關(guān)系運作,從而完成全部工作;語音識別模塊成功打開3D動畫和音頻文件后,系統(tǒng)會進入語音識別模塊。當(dāng)用戶第一次使用該系統(tǒng)時,系統(tǒng)會引導(dǎo)用戶對聲音進行提取錄入,接下來系統(tǒng)利用MicrosoftSpeech SDK語音包進行錄音,生成WAVE文件,并生成其波形圖和語譜圖。從而對語音信號進行預(yù)處理和特征提取,將提取的信息放入數(shù)據(jù)庫中,實現(xiàn)了對用戶語音特征的學(xué)習(xí)。對語音特征學(xué)習(xí)完成后,則打開預(yù)先設(shè)定好的音頻文件,對用戶進行提問。當(dāng)用戶回答時,系統(tǒng)首先采集用戶回答的語音信號并提取信號中的特征參數(shù),接下來在數(shù)據(jù)庫中尋找匹配模版,如果找到,則認為匹配成功。用大詞匯量的連續(xù)語音識別技術(shù)提取語音信號中的關(guān)鍵詞,如果語音信號中存在系統(tǒng)預(yù)先設(shè)定好的關(guān)鍵詞,則認為回答正確,否則認為回答錯誤;所述的圖像信息錄入模塊實現(xiàn)過程如下(I)初始化攝像頭參數(shù),啟動攝像頭捕捉現(xiàn)實場景,導(dǎo)入預(yù)先做好匹配模版,然后根據(jù)用戶設(shè)定的閾值將采集到的一幀彩色圖像進行二值化處理,轉(zhuǎn)化為黑白二值圖像;(2)在該二值黑白圖像中找出所有封閉的矩形區(qū)域,對所有尋找出的矩形區(qū)域進行特征點提??;(3)由于高斯內(nèi)核函數(shù)是唯一的尺度空間內(nèi)核函數(shù),因此用高斯函數(shù)作為卷積核,構(gòu)建圖像的尺度空間函數(shù)。輸入圖像用I (x,y)表示,其尺度空間函數(shù)為L(x, y, 0) = G(x, y, o ) I (x, y)其中,G(x,y,o )為高斯函數(shù),表達式如下
權(quán)利要求
1.基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng),其特征在于包括 圖像信息錄入模塊利用ARToolkit初始化攝像頭參數(shù),啟動攝像頭捕捉現(xiàn)實場景,導(dǎo)入預(yù)先做好的識字手冊為作為匹配模版,然后根據(jù)用戶設(shè)定的閾值將采集到的ー幀彩色圖像進行ニ值化處理,轉(zhuǎn)化為黑白ニ值圖像。在該ニ值黑白圖像中找出所有封閉的矩形區(qū)域,把所有尋找出的矩形區(qū)域存儲起來作為候選區(qū)域,并將候選區(qū)域圖像信息存儲到匹配模版庫; 圖像信息匹配模塊,將預(yù)先準備好的識字手冊放在攝像頭前,利用ARToolkit捕捉圖像信息,把該圖像信息和匹配模版庫中的圖像信息進行匹配,根據(jù)設(shè)定匹配標(biāo)準,當(dāng)匹配概率的值達到標(biāo)準時,則認為匹配成功,進而繪制相應(yīng)的模型;所述匹配時采用利用基于圈基的譜匹配算法,具體如下首先分別對兩幅待匹配的圖像構(gòu)造完全圖,在每個完全圖中尋找所有的圈基,再通過各自的圈基構(gòu)造鄰接矩陣,然后進行奇異值分解,利用分解所得的特征向量構(gòu)造反映特征點之間匹配程度的概率矩陣,最后通過雙隨機矩陣計算譜匹配的概率矩陣,獲得匹配的最終結(jié)果; 繪制模型模塊預(yù)先利用3D max繪圖工具為匹配模版庫中每個圖像制作了 3D動畫模型,當(dāng)圖像信息匹配成功時,就打開相應(yīng)的模型文件,運行對應(yīng)的程序;同時利用Virtools渲染工具為每個模型整合音頻文件; 語音識別模塊成功打開3D動畫和音頻文件后,系統(tǒng)會進入語音識別模塊。當(dāng)用戶第一次使用該系統(tǒng)時,系統(tǒng)會引導(dǎo)用戶對聲音進行提取錄入,接下來系統(tǒng)利用MicrosoftSpeech SDK語音包進行錄音,生成WAVE文件,并生成其波形圖和語譜圖。從而對語音信號進行預(yù)處理和特征提取,將提取的信息放入數(shù)據(jù)庫中,實現(xiàn)了對用戶語音特征的學(xué)習(xí);對語音特征學(xué)習(xí)完成后,則打開預(yù)先設(shè)定好的音頻文件,對用戶進行提問;當(dāng)用戶回答時,首先采集用戶回答的語音信號并提取信號中的特征參數(shù),接下來在數(shù)據(jù)庫中尋找匹配模版,如果找到,則認為匹配成功。用大詞匯量的連續(xù)語音識別技術(shù)提取語音信號中的關(guān)鍵詞,如果語音信號中存在系統(tǒng)預(yù)先設(shè)定好的關(guān)鍵詞,則認為回答正確,否則認為回答錯誤。
2.根據(jù)權(quán)利要求1所述的基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng),其特征在于所述的圖像信息錄入模塊實現(xiàn)過程如下 (1)初始化攝像頭參數(shù),啟動攝像頭捕捉現(xiàn)實場景,導(dǎo)入預(yù)先做好匹配模版,然后根據(jù)用戶設(shè)定的閾值將采集到的ー幀彩色圖像進行ニ值化處理,轉(zhuǎn)化為黑白ニ值圖像; (2)在該ニ值黑白圖像中找出所有封閉的矩形區(qū)域,對所有尋找出的矩形區(qū)域進行特征點提?。? (3)由于高斯內(nèi)核函數(shù)是唯一的尺度空間內(nèi)核函數(shù),因此用高斯函數(shù)作為卷積核,構(gòu)建圖像的尺度空間函數(shù); (4)對于錄入的每幅圖像的尺度空間函數(shù),計算其梯度值和方向,在特征點周圍所在的ー個區(qū)域內(nèi),依據(jù)樣本點的梯度方向生成ー個用36為代表360度方向的方向直方圖,每個樣本根據(jù)其梯度值的大小及ー個具有參數(shù)0的高斯權(quán)重圓窗ロ而被添加到直方圖中,將方向直方圖中的峰值作為該特征點的主方向,0值是特征點尺度的1. 5倍,在最大值80%以內(nèi)的其他局部峰值也會被創(chuàng)建具有相同方向的一個特征點,當(dāng)特征點的位置、尺度、方向被確定后,選用ー個4x4的方向柱狀圖矩陣的描述符,矩陣中每個元素占有8個方向位,用這樣ー個4x4x8=128位的向量可以準確描述姆個特征點;(5)將每幅圖像特征點信息寫入到文件中,進而將文件添加到匹配模版庫中。
3.根據(jù)權(quán)利要求1所述的基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng),其特征在于所述圖像信息匹配模塊實現(xiàn)過程如下 (1)設(shè)I是帶匹配的圖片,包含有m個特征點,vi是圖片I上的第I個特征點(I = 1、2、 、!!!),首先利用歐式距離對對圖片I構(gòu)造完全圖D(I),其完全圖每條邊的權(quán)值為對應(yīng)兩點之間的歐式距離,在完全圖D(I)中尋找最小生成樹有最小生成樹和一條不在此最小生成樹的邊構(gòu)成圖片I的一組圈基Y (I);對任意一個圈基Tk SFOXl— m+1,其圈基中頂點的集為14 SF;對圖片I中任意兩個特征點v1、vj,若他們均屬于'…I* Pfcl.,則v1、vj兩點間的權(quán)值用圈基
4.根據(jù)權(quán)利要求1所述的基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng),其特征在于所述繪制模型模塊實現(xiàn)過程如下 (1)當(dāng)圖像匹配成功后打開對應(yīng)的3D模型文件; (2)利用Virtools渲染平臺,將3D模型和音效整合到一起,即所有的分塊在Virtools平臺中具體運行,Virtool將所有的工作連接起來,按照一定順序和層級關(guān)系運作,從而完成全部工作。
5.根據(jù)權(quán)利要求1所述的基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng),其特征在于所述語音識別模塊實現(xiàn)過程如下 (I)對用戶語音特征進行采集,使用Microsoft Speech SDK語音包實現(xiàn)錄音功能,生成WAVE文件,播放生成的語音WAVE文件,并生成其波形圖和語譜圖,為后續(xù)處理提供依據(jù); (2)采集到語音信號之后,需要對語音信號進行處理。處理步驟如下(2.1)提高信號的音頻部分,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中能用同樣的信噪比求頻譜,以便于頻譜分析或聲道參數(shù)分析,即對信號進行預(yù)加重處理; (2. 2)從一段信號中檢測出語音信號的起始點和結(jié)束點,這可借助語音信號的能量和過零率兩個時域參數(shù)來判斷各數(shù)字的邊界;有聲語音的能量值較大,無聲語音的過零率較高,因此可以通過計算短時能量大致判斷出語音的端點,然后使用過零率找到語音端點的相對精確位置,分解出每ー個語音段;(2. 3)利用濾波器對輸入信號的頻率進行選擇,允許特定頻率的信號通過,而其他信號的幅值受到衰減。從而將不同頻率的語音信號分開,使得識別器能更好地識別語音信號; (2.4)提取語音信號的特征參數(shù); (3)對語音信號提取完成后,將語音信號的特征參數(shù)存放到數(shù)據(jù)庫中;(4)當(dāng)用戶對問題的回答完成之后,對用戶的語音信號的特征參數(shù)與數(shù)據(jù)庫中的特征參數(shù)進行匹配,如果找到相似度最近的模版,則該模版就是待識別的語音,認為識別成功; (5)接下來要檢出關(guān)鍵詞,采用MicrosoftSpeech SDK的命令控制模式并設(shè)置適當(dāng)?shù)恼Z法來實現(xiàn)關(guān)鍵詞的檢出。關(guān)鍵詞檢出步驟如下 (5.1)在語音庫中搜索預(yù)先設(shè)定好的關(guān)鍵詞,批量地檢出含有關(guān)鍵詞的語音文件井生成檢出結(jié)果,檢出結(jié)果包括含關(guān)鍵詞語音文件的文件名、關(guān)鍵詞所在句子的開始時間及該句子; (5. 2)對檢出結(jié)果進行校驗,當(dāng)檢出的關(guān)鍵詞與系統(tǒng)設(shè)定的關(guān)鍵詞一致吋,則認為用戶回答正確。
6.基于增強現(xiàn)實技術(shù)的兒童認知方法,其特征在于所述實現(xiàn)步驟如下 (1)首先初始化攝像頭參數(shù),啟動攝像頭捕捉現(xiàn)實場景,導(dǎo)入矩形標(biāo)記模式文件作為匹配模版,然后根據(jù)用戶設(shè)定的閾值將采集到的ー幀彩色圖像進行ニ值化處理,轉(zhuǎn)化為黑白ニ值圖像;在該ニ值黑白圖像中找出所有封閉的矩形區(qū)域,并把所有尋找出的矩形區(qū)域存儲起來作為候選區(qū)域,并將候選區(qū)域圖片信息存儲到模版庫中;對匹配模版庫中的每個圖像構(gòu)造完全圖,在每個完全圖中尋找所有圈基,在再通過各自圈基構(gòu)造鄰接矩陣,進行賦權(quán)圖的鄰接矩陣處理; (2)把錄入的圖像同樣進行構(gòu)造完全圖,尋找圈基,依次和匹配模版庫中的圖像信息進行匹配,利用譜圖分析方法和EM算法,通過點的親近矩陣來獲得點匹配的概率。利用基于圈基的譜匹配算法,在每個完全圖中尋找所有的圈基,再通過各自的圈基構(gòu)造鄰接矩陣;然后進行奇異值分解,利用分解所得的特征向量構(gòu)造反映特征點之間匹配程度的概率矩陣;最后通過雙隨機矩陣計算譜匹配的概率矩陣,獲得匹配的最終結(jié)果;根據(jù)設(shè)定的匹配標(biāo)準,當(dāng)匹配概率達到標(biāo)準時,則認為匹配成功,進而繪制相應(yīng)的模型; (3)打開預(yù)先制作好的3D模型文件,同時利用Virtools集成開發(fā)工具將3D模型和音頻文件整合起來,在打開3D模型文件的同時,添加音頻效果;對用戶提出問題,進入語音識別模塊;(4)進入語音識別模塊之后,當(dāng)用戶第一次使用該系統(tǒng)時,系統(tǒng)會引導(dǎo)用戶對聲音進行提取錄入,接下來系統(tǒng)利用Microsoft Speech SDK語音包進行錄音,生成WAVE文件,并生成其波形圖和語譜圖。從而對語音信號進行預(yù)處理和特征提取,將提取的信息放入數(shù)據(jù)庫中,實現(xiàn)了對用戶語音特征的學(xué)習(xí)。對語音特征學(xué)習(xí)完成后,則打開預(yù)先設(shè)定好的音頻文件,對用戶進行提問。當(dāng)用戶回答時,系統(tǒng)首先采集用戶回答的語音信號并提取信號中的特征參數(shù),接下來在數(shù)據(jù)庫中尋找匹配模版,如果找到,則認為匹配成功。用大詞匯量的連續(xù)語音 識別技術(shù)提取語音信號中的關(guān)鍵詞,如果語音信號中存在系統(tǒng)預(yù)先設(shè)定好的關(guān)鍵詞,則認為回答正確,否則認為回答錯誤。
全文摘要
基于增強現(xiàn)實技術(shù)的兒童認知系統(tǒng)及認知方法,包括圖像信息錄入模塊、圖像信息匹配模塊、繪制模型模塊以及語音識別模塊。通過對ARToolkit增強現(xiàn)實開發(fā)包,Microsoft Speech SDK語音識別引擎,3D max建模工具等接口開發(fā)出一套識別標(biāo)識來觸發(fā)事件,通過語音識別與計算機中虛擬場景進行簡單交互的兒童認知平臺。通過OpenGL圖像處理技術(shù)和3D建模技術(shù)來實現(xiàn)模型的移動、放大、縮小等操作。本發(fā)明具有開發(fā)周期短、可維護性好、移植性好以及易修改性強的優(yōu)點,此外,用戶通過使用本發(fā)明編寫識字手冊達到更好的學(xué)習(xí)效果,為兒童使用增強現(xiàn)實應(yīng)用系統(tǒng)提供了一種交互性強的認知平臺。
文檔編號G06T19/00GK103035135SQ20121049223
公開日2013年4月10日 申請日期2012年11月27日 優(yōu)先權(quán)日2012年11月27日
發(fā)明者王海泉, 余少卿, 朱國偉, 李運, 陳遠飛 申請人:北京航空航天大學(xué)