一種基于Kincet和語音的人機(jī)交互方法
【專利摘要】本發(fā)明公開了一種基于Kincet和語音的人機(jī)交互方法,包括以下步驟:1)采用Kinect傳感器獲取場(chǎng)景中各物體的在kinect坐標(biāo)系K準(zhǔn)確空間位置和姿態(tài)信息,完成目標(biāo)檢測(cè)與識(shí)別;2)將Kinect分別采集的深度圖像和RGB經(jīng)過融合處理后得到三維點(diǎn)云數(shù)據(jù);3)空間點(diǎn)云物體識(shí)別:對(duì)三維點(diǎn)云數(shù)據(jù)進(jìn)行處理得到語義描述文件;4)對(duì)物體坐標(biāo)系O進(jìn)行坐標(biāo)變換得到坐標(biāo)系R下的三維場(chǎng)景語義地圖描述文件;5)接收用戶語音輸入,對(duì)輸入信號(hào)進(jìn)行處理,得到文本信息;6)將文本信息和XML語義地圖輸入智能推理機(jī),推理機(jī)產(chǎn)生執(zhí)行指令并輸出對(duì)用戶的答復(fù)和引導(dǎo)信息的文本信息。
【專利說明】
一種基于K i ncet和語音的人機(jī)交互方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種基于Kincet和語音的人機(jī)交互方法。
【背景技術(shù)】
[0002]傳統(tǒng)的人機(jī)交互系統(tǒng),多采用WMP界面形成了以窗口、菜單、圖符和指示裝置為基 礎(chǔ)的圖形用戶界面,通過按鍵、旋鈕或其他觸碰裝置輸入信息。這種交互系統(tǒng)只能根據(jù)交互 系統(tǒng)設(shè)計(jì)者預(yù)設(shè)的信息提供有限的選項(xiàng)供人選擇,無法與環(huán)境信息進(jìn)行交互大量信息還需 要操作人員手動(dòng)輸入,無論是應(yīng)用在服務(wù)環(huán)節(jié)還是生產(chǎn)制造中都需要有熟練工作人員操 作。無論如何優(yōu)化其結(jié)構(gòu)或改進(jìn)對(duì)用戶的引導(dǎo)方式,都只能降低使用難度不能真正減少工 作人員數(shù)量節(jié)約人力成本的目的。
[0003] 文獻(xiàn)檢索查到相關(guān)專利:2016年3月23日公開的申請(qǐng)?zhí)枮镃N201511016826.8的發(fā) 明專利《一種人機(jī)互動(dòng)的方法、裝置及機(jī)器人》,提出了一種基于語音和圖像信息的交互方 法,系統(tǒng)可以通過用戶的語音信息確定用戶的身份并能通過用戶的動(dòng)作判斷用戶的輸入。 2016年3月23日公開的申請(qǐng)?zhí)枮镃N201510658482.4的發(fā)明專利《餐飲服務(wù)系統(tǒng)》,提出了一 種基于語音處理單元獲取用戶指令和通過麥克風(fēng)陣列得出用戶位置的人機(jī)交互方法。
[0004] 但是,上述專利只涉及如何通過多媒體技術(shù)獲取用戶信息,但無法通過獲取場(chǎng)景 信息,必須保證交互系統(tǒng)用在特定的場(chǎng)景,一旦場(chǎng)景發(fā)生較大變化交互系統(tǒng)將無法應(yīng)答或 出現(xiàn)執(zhí)行錯(cuò)誤。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明要解決的技術(shù)問題在于針對(duì)現(xiàn)有技術(shù)中的缺陷,提供一種基于Kincet和語 音的人機(jī)交互方法。
[0006] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于Kincet和語音的人機(jī)交互 方法,包括以下步驟:
[0007] 2)處理三維點(diǎn)云數(shù)據(jù)求取在K坐標(biāo)系下的位置;所述坐標(biāo)系K為以kinect幾何中心 為原點(diǎn),以垂直于鏡頭向外的方向?yàn)閆軸正方向,以Kincet三個(gè)鏡頭的圓心的連線為X軸,建 立坐標(biāo)系;
[0008] 1)將Kinect分別采集的深度圖像和RGB經(jīng)過融合處理后得到三維點(diǎn)云數(shù)據(jù);
[0009] 3)空間點(diǎn)云物體識(shí)別:對(duì)三維點(diǎn)云數(shù)據(jù)進(jìn)行處理得到語義描述文件;
[0010] 4)對(duì)物體坐標(biāo)系0進(jìn)行坐標(biāo)變換得到坐標(biāo)系R下的三維場(chǎng)景語義地圖描述文件;物 體坐標(biāo)系0以點(diǎn)云的幾何中興為原點(diǎn),以過原點(diǎn)的物體內(nèi)部最長(zhǎng)的線段方向?yàn)閆軸,過原點(diǎn) 垂直于Z軸的平面就是XY平面;坐標(biāo)系R以地面為XY平面,機(jī)械臂底座的幾何中心為在XY平 面上的投影為原點(diǎn),過原點(diǎn)垂直于地面向上為Z軸正方向,Y軸均平行于K坐標(biāo)系的y軸;
[0011] 5)接收用戶語音輸入,對(duì)輸入信號(hào)進(jìn)行處理,得到文本信息;
[0012] 6)將文本信息和XML語義地圖輸入智能推理機(jī),推理機(jī)產(chǎn)生執(zhí)行指令并輸出對(duì)用 戶的答復(fù)和引導(dǎo)信息的文本信息。
[0013]按上述方案,所述步驟3)空間點(diǎn)云物體識(shí)別過程包括預(yù)處理、關(guān)鍵點(diǎn)提取、描述子 提取,再通過物體特征數(shù)據(jù)庫進(jìn)行特征匹配,最后獲得語義描述文件。
[0014]按上述方案,所述步驟3)中:
[0015] 3.1)預(yù)處理,所述預(yù)處理步驟用于濾除距離傳感器過遠(yuǎn)或過近的點(diǎn)云數(shù)據(jù);
[0016] 3.2)采用ISS算法對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行特征點(diǎn)檢測(cè),具體過程如下:
[0017] 3.2.1)查詢輸入點(diǎn)云數(shù)據(jù)中每一個(gè)點(diǎn)Pi半徑rfme內(nèi)所有點(diǎn)Pj,并按照公式1計(jì)算 權(quán)重;
[0018] ffij = 1/ | | Pi-Pj | | , | Pi-Pj | <rframe (1)
[0019] 3.2.2)根據(jù)權(quán)重按照公式2計(jì)算協(xié)方差矩陣
[0021] 3.2.3)計(jì)算協(xié)方差矩陣的特征值3丨,并將特征值按照從大到小順序排 列;
[0022] 3.2.4)設(shè)置比率閾值丫21和丫32,保留滿足</4<~和</#< ?<32的點(diǎn)集,這些 點(diǎn)即為關(guān)鍵特征點(diǎn);
[0023] 3.3)關(guān)鍵特征點(diǎn)的特征描述子計(jì)算,具體方法如下:
[0024] 首先通過計(jì)算位于關(guān)鍵點(diǎn)鄰域局部表面的點(diǎn)的協(xié)方差矩陣來構(gòu)建一個(gè)獨(dú)特的、明 確的和穩(wěn)定的局部參考坐標(biāo)系LRF,以關(guān)鍵點(diǎn)作為起始點(diǎn),旋轉(zhuǎn)局部表面直到LRF與物體坐 標(biāo)系〇的0x,0y和0z軸對(duì)齊,這樣可以使點(diǎn)具有旋轉(zhuǎn)不變性;
[0025]然后對(duì)每個(gè)軸Ox,0y,0z執(zhí)行如下幾步,我們把這些軸作為當(dāng)前軸:
[0026] 3.3.1)局部表面以指定角度繞當(dāng)前軸旋轉(zhuǎn);
[0027] 3.3.2)被旋轉(zhuǎn)的局部表面點(diǎn)投影到XY,XZ和YZ平面上;
[0028] 3.3.3)建立投影分布矩陣,這個(gè)矩陣僅僅顯示每個(gè)子域包含的點(diǎn)的數(shù)量,子域的 數(shù)量代表矩陣的維數(shù),和指定角度一樣它也是本算法的一個(gè)參量;
[0029] 3 ? 3 ? 4)計(jì)算分布矩陣中心距,即、y21、此、y22和e;
[0030] 3.3.5)計(jì)算的值級(jí)聯(lián)組成子特征;
[0031] 循環(huán)執(zhí)行上述步驟,迭代次數(shù)取決于給定的旋轉(zhuǎn)的數(shù)目;最后,將不同坐標(biāo)軸的子 特征級(jí)聯(lián)形成最終的RoPS描述子;
[0032] 3.4)特征值匹配,具體方法如下:
[0033] 本專利中使用基于閥值的特征匹配法,基于閾值的匹配模式下,如果兩個(gè)描述子 之間的距離小于設(shè)定的閾值,則表明兩個(gè)特征一致匹配。
[0034] 閥值所使用的距離公式為表征兩個(gè)物體聚類之間的差異(一個(gè)聚類由多個(gè)描述子 集合構(gòu)成),即兩個(gè)集合的幾何中心加上它們每一維度的標(biāo)準(zhǔn)偏差的曼哈頓距離之和如式3 和式5:
[0035] D(A,B) =Li(CA,CB)+Li(stdA,stdB) (3)
[0036]其中,D(A,B)代表兩個(gè)物體聚類即A和B的距離差,CA(i),CB(i)分別為A、B某一維度 的中心,L1代表曼哈頓距離公式,stdA(i)代表聚類A某一維度的標(biāo)準(zhǔn)偏差,stdB(i)代表聚類 B某一維度的標(biāo)準(zhǔn)偏差;
[0038] 兩個(gè)描述子a和13的1^距離如下:
[0040] 其中,n代表特征描述子的大小,即RoPS的維度135;
[0041] aj⑴代表A聚類中第j個(gè)關(guān)鍵點(diǎn)的RoPS描述子的i維度的值;
[0042] | A |代表聚類A中關(guān)鍵點(diǎn)的數(shù)量;
[0043] | B |代表聚類B中關(guān)鍵點(diǎn)的數(shù)量。
[0044] 按上述方案,所述步驟4)中,具體如下:選取合適的位置放置機(jī)械臂,建立坐標(biāo)系 R,坐標(biāo)系K原點(diǎn)在坐標(biāo)系R中的坐標(biāo)為(d,1,h),利用PCA法建立物體坐標(biāo)系0,經(jīng)過用坐標(biāo)系 0到坐標(biāo)系K再到坐標(biāo)系R兩次坐標(biāo)系變換得出物體的姿態(tài);從坐標(biāo)系K下的坐標(biāo)進(jìn)行坐標(biāo)變 換得到R坐標(biāo)系下的姿態(tài)信息,求出R坐標(biāo)系下語義描述文件對(duì)應(yīng)的位姿信息,再生產(chǎn)XML語 義地圖。
[0045] 按上述方案,所述步驟5)語音識(shí)別過程具體包括如下步驟:
[0046] 5.1)預(yù)處理:通過麥克風(fēng)陣列采集用戶語音信息,對(duì)輸入的原始語音信號(hào)進(jìn)行處 理,濾除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語音信號(hào)的端點(diǎn)檢測(cè)、語音分幀以及 預(yù)加重處理;
[0047] 5.2)特征提取:提取出反映語音信號(hào)特征的關(guān)鍵特征參數(shù)形成特征矢量序列;
[0048] 5.3)采用隱馬爾科夫模型(HMM)進(jìn)行聲學(xué)模型建模,在識(shí)別的過程中將待識(shí)別的 語音與聲學(xué)模型進(jìn)行匹配,從而獲取識(shí)別結(jié)果;
[0049] 5.4)對(duì)訓(xùn)練文本數(shù)據(jù)庫進(jìn)行語法、語義分析,經(jīng)過基于統(tǒng)計(jì)模型訓(xùn)練得到N-Gram 語言模型,從而提高識(shí)別率,減少搜索范圍。
[0050] 5.5)針對(duì)輸入的語音信號(hào),根據(jù)己經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語言模型及字典建立 一個(gè)識(shí)別網(wǎng)絡(luò),根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找最佳的一條路徑,這個(gè)路徑就是能夠以最大 概率輸出該語音信號(hào)的詞串,從而確定這個(gè)語音樣本所包含的文字。
[0051] 本發(fā)明產(chǎn)生的有益效果是:通過識(shí)別物體的位置解決了傳統(tǒng)自動(dòng)化設(shè)備,產(chǎn)品位 置限定范圍太小的缺點(diǎn);同時(shí)語音與物體位置信息的結(jié)合能在服務(wù)行業(yè)中有所應(yīng)用;
【附圖說明】
[0052]下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明,附圖中:
[0053] 圖1是kinect傳感器模型;以及K坐標(biāo)系示意圖;
[0054] 圖2是K坐標(biāo)系和地面對(duì)比的示意圖;
[0055]圖3是物體識(shí)別整體流程圖;
[0056]圖4是特征描述子流程圖;
[0057 ]圖5是K坐標(biāo)系和R坐標(biāo)系的關(guān)系不意圖;
[0058]圖6是物體位姿求取整體流程圖;
[0059]圖7是語音交互整體流程圖;
[0060]圖8是系統(tǒng)整體框圖。
【具體實(shí)施方式】
[0061] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本發(fā)明 進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限 定本發(fā)明。
[0062] 如圖1所示,一種基于Kincet和語音的人機(jī)交互方法,包括以下兩個(gè)部分:
[0063]第一部分場(chǎng)景交互,其中包括以下步驟:
[0064] 步驟一、正確安放Kinect,建立K坐標(biāo)系;
[0065] 將Kinect放在物體的正對(duì)面,Kinect探測(cè)范圍為1.8~3.6米,水平視野為53°垂直 視野為47°,物體對(duì)應(yīng)該保證擺設(shè)的物體在范圍之內(nèi)確保Kinect能正確采集數(shù)據(jù)。然后如圖 1所示建立以kinect的中心為原點(diǎn)的坐標(biāo)系K,Kinect與地面關(guān)系如圖2,其中z軸與水平面 的夾角為9。
[0066]步驟二、Kinect傳感器完成目標(biāo)檢測(cè)與識(shí)別;
[0067] Kinect分別采集深度圖像和RGB經(jīng)過融合處理后得到三維點(diǎn)云數(shù)據(jù);
[0068]首先經(jīng)過預(yù)處理濾除距離傳感器過遠(yuǎn)或過近的點(diǎn)云數(shù)據(jù),這樣可以有效降低計(jì)算 成本,提高處理速度,改善系統(tǒng)實(shí)時(shí)性。
[0069] 預(yù)處理之后,選擇ISS算法進(jìn)行特征點(diǎn)檢測(cè)。然后對(duì)檢測(cè)到特征點(diǎn)以S/C-R〇PS算法 進(jìn)行特征描述。再通過物體特征數(shù)據(jù)庫進(jìn)行特征匹配得設(shè)別出物體到語義描述文件。
[0070] 點(diǎn)云數(shù)據(jù)采集流程如圖3。
[0071]下面詳細(xì)敘述提取關(guān)鍵點(diǎn)、計(jì)算特征描述子和3D特征匹配三個(gè)步驟。
[0072]其中關(guān)鍵點(diǎn)提取的具體過程如下:
[0073] (1)查詢輸入點(diǎn)云數(shù)據(jù)中每一個(gè)點(diǎn)?1半徑rframe內(nèi)所有點(diǎn),并按照公式1計(jì)算權(quán)重
[0074] ffij = 1/|| Pi-Pj | | , | Pi-Pj | <rframe ( 1 )
[0075] (2)根據(jù)權(quán)重按照公式2計(jì)算協(xié)方差矩陣;
[0077] (3)計(jì)算協(xié)方差矩陣的特征值,并將特征值按照從大到小順序排列;
[0078] (4)設(shè)置比率閾值丫21和丫32保留滿足矽/^〈~和^以^~的點(diǎn)集上些點(diǎn)即 為關(guān)鍵特征點(diǎn)。
[0079] 其中特征描述子的計(jì)算方法如下:
[0080] 首先通過計(jì)算位于關(guān)鍵點(diǎn)鄰域局部表面的點(diǎn)的協(xié)方差矩陣來構(gòu)建一個(gè)獨(dú)特的、明 確的和穩(wěn)定的局部參考坐標(biāo)系(LRF),以關(guān)鍵點(diǎn)作為起始點(diǎn),旋轉(zhuǎn)局部表面直到LRF與0x,0y 和〇z軸對(duì)齊,這樣可以使點(diǎn)具有旋轉(zhuǎn)不變性;然后對(duì)每個(gè)軸0x,0y,0z執(zhí)行如下幾步,我們把 這些軸作為當(dāng)前軸:
[0081] 1)局部表面以指定角度繞當(dāng)前軸旋轉(zhuǎn);
[0082] 2)被旋轉(zhuǎn)的局部表面點(diǎn)投影到XY,XZ和YZ平面上;
[0083] 3)建立投影分布矩陣,這個(gè)矩陣僅僅顯示每個(gè)子域包含的點(diǎn)的數(shù)量,子域的數(shù)量 代表矩陣的維數(shù),和指定角度一樣它也是本算法的一個(gè)參量;
[0084] 4)計(jì)算分布矩陣中心距,即、y21、此、y22和e;
[0085] 5)計(jì)算的值級(jí)聯(lián)組成子特征。
[0086]循環(huán)執(zhí)行這幾步多次,迭代次數(shù)取決于給定的旋轉(zhuǎn)的數(shù)目。最后,將不同坐標(biāo)軸的 子特征級(jí)聯(lián)形成最終的RoPS描述子。
[0087]將局部表面的形狀或顏色信息加入RoPS,對(duì)編碼信息進(jìn)行擴(kuò)展和改進(jìn),生成一種 S/C-R〇PS描述子,算法的框圖如圖4所示,特征匹配的準(zhǔn)確度得到了優(yōu)化。
[0088]本專利采用一種基于置信度的決策層融合算法對(duì)S-R〇PS描述子和C-R〇PS描述子 進(jìn)行數(shù)據(jù)信息融合。具體思路是單獨(dú)使用S-R〇PS或C-R〇PS描述子進(jìn)行物體識(shí)別,這樣可以 獲得每個(gè)單模式方法下的最高置信度,融合策略是對(duì)兩種獨(dú)立方法所生成的所有候選模型 結(jié)果的置信度進(jìn)行比較,選擇具有最高置信度的候選模型。
[0089]其中特征值匹配方法如下:
[0090] 本專利中使用基于閥值的特征匹配法?;陂撝档钠ヅ淠J较?,如果兩個(gè)描述子 之間的距離小于設(shè)定的閾值,則表明兩個(gè)特征一致匹配。
[0091] 閥值所使用的距離公式為表征兩個(gè)物體聚類之間的差異(一個(gè)聚類由多個(gè)描述子 集合構(gòu)成),即兩個(gè)集合的幾何中心加上它們每一維度的標(biāo)準(zhǔn)偏差的曼哈頓距離之和如式3 和式5:
[0092] D(A,B) =Li(CA,CB)+Li(stdA,stdB) (3)
[OO94] stdB的計(jì)算與stdA類似,n代表特征描述子的大小
[0095] 兩個(gè)描述子a和13的1^距離如下:
[0097]步驟三、選取合適的位置機(jī)械臂,并建立坐標(biāo)系R,求取K坐標(biāo)系下的位姿;通過坐 標(biāo)變換和坐標(biāo)系變換將K下的位置和姿態(tài)信息轉(zhuǎn)換為坐標(biāo)系R下的坐標(biāo)和姿態(tài)信息(物體坐 標(biāo)系0是為了求取姿態(tài)而產(chǎn)生的臨時(shí)變量,沒有實(shí)際意義非原點(diǎn)的點(diǎn)故而是K到R而非0到 R),生產(chǎn)XML語義地圖。
[0098] 選取合適的位置放置機(jī)械臂,如圖5所示建立坐標(biāo)系R,坐標(biāo)系K原點(diǎn)在坐標(biāo)系R中 的坐標(biāo)為(d,1,h),利用PCA法建立物體坐標(biāo)系0,經(jīng)過兩次坐標(biāo)系變換,以及一次對(duì)K坐標(biāo)系 下的坐標(biāo)變換,求出R坐標(biāo)系下對(duì)應(yīng)的位姿信息。再生產(chǎn)XML語義地圖。具體流程如圖6。
[0099] 1)計(jì)算物體點(diǎn)云的幾何中心 i代表點(diǎn)數(shù)量,對(duì)所有點(diǎn)集去中心化 , /f = e-戶,將去中心化后的所有點(diǎn)的坐標(biāo)排列成3 x N的矩陣
[0101] 2)令M=A ? AT,計(jì)算M的特征值與特征向量:Ai ? Vi=M ? Vi,i = l,2,3,并將特征向 量正規(guī)化I |Vi| | =1,物體的長(zhǎng)軸方向?qū)?yīng)最大特征值的特征向量,設(shè)貝lj可得物 體坐標(biāo)系相對(duì)坐標(biāo)系K的旋轉(zhuǎn)矩陣= ,平移矩陣即為物體點(diǎn)云的幾何中心 尸=戶/』物體坐標(biāo)系在坐標(biāo)系K下的位姿如式7:
[0103] 設(shè)eamc={Pi},則"e表示模型庫物體坐標(biāo)系下的點(diǎn)云,依據(jù)長(zhǎng)軸 和中心點(diǎn),確定短軸和次長(zhǎng)軸平面,再依據(jù)平面點(diǎn)的極值分布確定短軸和次長(zhǎng)軸方向。
[0104] 在匹配階段,為了得到實(shí)際物體到模型庫物體的變換矩陣,采用三點(diǎn)法計(jì)算六自 由度位姿,對(duì)兩相對(duì)應(yīng)的三維點(diǎn)集合{m° dP},{°bjP},若滿足剛體變換關(guān)系 =,?,+ 0 t其中,:^為兩點(diǎn)集的旋轉(zhuǎn)矩陣和平移向量,利用最小二乘法求 解最優(yōu)解,得到使公式8中E最小時(shí)的和:
[0106]則實(shí)際物體到模型庫物體的變換矩陣如式9:
[0108]實(shí)際物體到傳感器坐標(biāo)系的位姿矩陣如式10:
[0110]旋轉(zhuǎn)矩陣可轉(zhuǎn)化為偏轉(zhuǎn)角a、俯仰角0、翻滾角y描述其姿態(tài)如公式11,平移矩陣可 轉(zhuǎn)化為中心坐標(biāo)描述其位置。
[0114]其中句代表旋轉(zhuǎn)矩陣i行j列對(duì)應(yīng)的元素。
[0115]坐標(biāo)系R與坐標(biāo)系K的關(guān)系如圖5
,兩者的變換矩陣如式12。
[0117] 其中,0代表Kinect相對(duì)水平面的傾斜角,{x,y,z}為物體在坐標(biāo)系R下的坐標(biāo)值, {xk,yk,zk}為物體在坐標(biāo)系K下的坐標(biāo)值。
[0118] 物體到坐標(biāo)系R的姿態(tài)矩陣如下;
[0122] 第二部分、語音人機(jī)交互,其中包括以下步驟:
[0123] 步驟一、用戶發(fā)出語音命令,經(jīng)處理將其轉(zhuǎn)變?yōu)槲谋拘畔ⅰ?br>[0124] 接收到用戶的語音后,經(jīng)過預(yù)處理和語音解碼最終得到文本信息,具體流程如圖 7:
[0125] 步驟二、將文本信息和XML語義地圖輸入智能推理機(jī),推理機(jī)產(chǎn)生執(zhí)行指令并輸出 文本信息;
[0126] 用戶通過語音控制三維地圖實(shí)時(shí)生成模塊構(gòu)建當(dāng)前場(chǎng)景的語義地圖文件,語音識(shí) 別和語音合成節(jié)點(diǎn)分別通過發(fā)送和接收文本來實(shí)現(xiàn)人機(jī)對(duì)話,智能推理機(jī)節(jié)點(diǎn)則結(jié)合地圖 文件進(jìn)行分析和反饋信息,通過深度對(duì)話完善用戶期望最終生成解決方案并發(fā)送給方案解 析與運(yùn)動(dòng)規(guī)劃模塊。語音識(shí)別使用的是PocketSphnix開源語音識(shí)別系統(tǒng),語音合成使用的 是Ekho開源語音合成系統(tǒng)。
[0127] 應(yīng)當(dāng)理解的是,對(duì)本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進(jìn)或變換, 而所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。
【主權(quán)項(xiàng)】
1. 一種基于Kincet和語音的人機(jī)交互方法,其特征在于,包括以下步驟: 1) 采用Kinect傳感器獲取場(chǎng)景中各物體的在坐標(biāo)系K準(zhǔn)確空間位置和姿態(tài)信息,完成 目標(biāo)檢測(cè)與識(shí)別;所述坐標(biāo)系K為以kinect幾何中心為原點(diǎn),以垂直于鏡頭向外的方向?yàn)閆 軸正方向,以Kincet三個(gè)鏡頭的圓心的連線為X軸,過建立坐標(biāo)系; 2) 將Kinect分別采集的深度圖像和RGB經(jīng)過融合處理后得到三維點(diǎn)云數(shù)據(jù); 3) 空間點(diǎn)云物體識(shí)別:對(duì)三維點(diǎn)云數(shù)據(jù)進(jìn)行處理得到語義描述文件; 4) 對(duì)物體坐標(biāo)系0進(jìn)行坐標(biāo)變換得到坐標(biāo)系R下的三維場(chǎng)景語義地圖描述文件; 5) 接收用戶語音輸入,對(duì)輸入信號(hào)進(jìn)行處理,得到文本信息; 6) 將文本信息和XML語義地圖輸入智能推理機(jī),推理機(jī)產(chǎn)生執(zhí)行指令并輸出對(duì)用戶的 答復(fù)和引導(dǎo)信息的文本信息。2. 根據(jù)權(quán)利要求1所述的基于Kincet和語音的人機(jī)交互方法,其特征在于,所述步驟3) 空間點(diǎn)云物體識(shí)別過程包括預(yù)處理、關(guān)鍵點(diǎn)提取、描述子提取,再通過物體特征數(shù)據(jù)庫進(jìn)行 特征匹配,最后獲得語義描述文件。3. 根據(jù)權(quán)利要求1所述的基于Kincet和語音的人機(jī)交互方法,其特征在于,所述步驟3) 中: 3.1) 預(yù)處理,所述預(yù)處理步驟用于濾除距離傳感器過遠(yuǎn)或過近的點(diǎn)云數(shù)據(jù); 3.2) 采用ISS算法對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行特征點(diǎn)檢測(cè),具體過程如下: 3.2.1) 查詢輸入點(diǎn)云數(shù)據(jù)中每一個(gè)點(diǎn)?1半徑rframe內(nèi)所有點(diǎn)仍,并按照公式1計(jì)算權(quán)重; Wij = 1/ | | Pi_Pj | |,| Pi_Pj | <rframe ( 1 ) 3.2.2) 根據(jù)權(quán)重按照公式2計(jì)算協(xié)方差矩陣3.2.3) 計(jì)算協(xié)方差矩陣的特征值丨,并將特征值按照從大到小順序排列; 3.2.4) 設(shè)置比率閾值丫21和丫32,保留滿足42/為1</21和為 3//1?2<;^的點(diǎn)集,這些點(diǎn)即為 關(guān)鍵特征點(diǎn); 3.3)關(guān)鍵特征點(diǎn)的特征描述子計(jì)算,具體方法如下: 首先通過計(jì)算位于關(guān)鍵點(diǎn)鄰域局部表面的點(diǎn)的協(xié)方差矩陣來構(gòu)建一個(gè)獨(dú)特的、明確的 和穩(wěn)定的局部參考坐標(biāo)系LRF,以關(guān)鍵點(diǎn)作為起始點(diǎn),旋轉(zhuǎn)局部表面直到LRF與物體坐標(biāo)系0 的Ox,Oy和Oz軸對(duì)齊,這樣可以使點(diǎn)具有旋轉(zhuǎn)不變性; 然后對(duì)每個(gè)軸0x,0y,0z執(zhí)行如下幾步,我們把這些軸作為當(dāng)前軸: 3.3.1) 局部表面以指定角度繞當(dāng)前軸旋轉(zhuǎn); 3.3.2) 被旋轉(zhuǎn)的局部表面點(diǎn)投影到XY,XZ和YZ平面上; 3.3.3) 建立投影分布矩陣,這個(gè)矩陣僅僅顯示每個(gè)子域包含的點(diǎn)的數(shù)量,子域的數(shù)量 代表矩陣的維數(shù),和指定角度一樣它也是本算法的一個(gè)參量; 3.3.4) 計(jì)算分布矩陣中心距,即1111、1121、1^12、1^22和6; 3.3.5) 計(jì)算的值級(jí)聯(lián)組成子特征; 循環(huán)執(zhí)行上述步驟,迭代次數(shù)取決于給定的旋轉(zhuǎn)的數(shù)目;最后,將不同坐標(biāo)軸的子特征 級(jí)聯(lián)形成最終的R〇PS描述子; 3.4)特征值匹配,具體方法如下: 本專利中使用基于閥值的特征匹配法,基于閾值的匹配模式下,如果兩個(gè)描述子之間 的距離小于設(shè)定的閾值,則表明兩個(gè)特征一致匹配; 閥值所使用的距離公式為表征兩個(gè)物體聚類之間的差異,即兩個(gè)集合的幾何中心加上 它們每一維度的標(biāo)準(zhǔn)偏差的曼哈頓距離之和,如式(3)和式(5): D(A,B) =Li(CA,CB)+Li(stdA,stdB) (3) 其中,D(A,B)代表兩個(gè)物體聚類即A和B的距離差,CA(i),CB(i)分別為A、B某一維度的中 心,L1代表曼哈頓距離公式,stdA(i)代表聚類A某一維度的標(biāo)準(zhǔn)偏差,stdB(i)代表聚類B某 一維度的標(biāo)準(zhǔn)偏差;n代表特征描述子的大??; 兩個(gè)描述子a和b的Li距離如下:aj (i)代表A聚類中第j個(gè)關(guān)鍵點(diǎn)的RoPS描述子的i維度的值; |A|代表聚類A中關(guān)鍵點(diǎn)的數(shù)量; B|代表聚類B中關(guān)鍵點(diǎn)的數(shù)量。4. 根據(jù)權(quán)利要求1所述的基于Kincet和語音的人機(jī)交互方法,其特征在于,所述步驟4) 中,具體如下:選取合適的位置放置機(jī)械臂,建立坐標(biāo)系R,坐標(biāo)系〇原點(diǎn)在坐標(biāo)系R中的坐標(biāo) 為(d,l,h),利用PCA法建立物體坐標(biāo)系0,經(jīng)過兩次坐標(biāo)變換,求出R坐標(biāo)系下語義描述文件 對(duì)應(yīng)的位姿信息,再生產(chǎn)XML語義地圖。5. 根據(jù)權(quán)利要求1所述的基于Kincet和語音的人機(jī)交互方法,其特征在于,所述步驟5) 語音識(shí)別過程具體包括如下步驟: 5.1) 預(yù)處理:通過麥克風(fēng)陣列采集用戶語音信息,對(duì)輸入的原始語音信號(hào)進(jìn)行處理,濾 除掉其中的不重要的信息以及背景噪聲,并進(jìn)行語音信號(hào)的端點(diǎn)檢測(cè)、語音分幀以及預(yù)加 重處理; 5.2) 特征提取:提取出反映語音信號(hào)特征的關(guān)鍵特征參數(shù)形成特征矢量序列; 5.3) 采用隱馬爾科夫模型(HMM)進(jìn)行聲學(xué)模型建模,在識(shí)別的過程中將待識(shí)別的語音 與聲學(xué)模型進(jìn)行匹配,從而獲取識(shí)別結(jié)果; 5.4) 對(duì)訓(xùn)練文本數(shù)據(jù)庫進(jìn)行語法、語義分析,經(jīng)過基于統(tǒng)計(jì)模型訓(xùn)練得到N-Gram語言 模型,從而提高識(shí)別率,減少搜索范圍。 5.5) 針對(duì)輸入的語音信號(hào),根據(jù)己經(jīng)訓(xùn)練好的HMM聲學(xué)模型、語言模型及字典建立一個(gè) 識(shí)別網(wǎng)絡(luò),根據(jù)搜索算法在該網(wǎng)絡(luò)中尋找最佳的一條路徑,這個(gè)路徑就是能夠以最大概率 輸出該語音信號(hào)的詞串,從而確定這個(gè)語音樣本所包含的文字。
【文檔編號(hào)】G06F3/0487GK106055244SQ201610306998
【公開日】2016年10月26日
【申請(qǐng)日】2016年5月10日
【發(fā)明人】閔華松, 齊詩萌, 李瀟, 林云漢, 吳凡
【申請(qǐng)人】武漢科技大學(xué)