一種機器人語音定位過程的攝像頭角度校準方法
【專利摘要】本發(fā)明公開了一種機器人語音定位過程的攝像頭角度校準方法,包括以下步驟:第一步,語音粗定位:根據(jù)語音信息將攝像頭轉(zhuǎn)到大致的語音源方位;第二步,人臉檢測:利用攝像頭檢測是否有人臉,若攝像頭檢測到人臉則進行第三步;第三步,人臉角度偏差計算:以攝像頭中心點為原點建立矩形坐標軸,并定位出人臉的中心坐標[X,Y],該坐標[X,Y]也為人臉中心與攝像頭中心的偏差;第四步:角度調(diào)整:根據(jù)人臉坐標與攝像頭中心點偏差換算出攝像頭沿X軸旋轉(zhuǎn)的角度degreeX和沿Y軸旋轉(zhuǎn)的角度degreeY,然后根據(jù)degreeX和degreeY旋轉(zhuǎn)攝像頭使人臉的中心點對準攝像頭的中心點。本發(fā)明提高了語音定位過程的攝像頭對準精度。本發(fā)明提高了語音定位過程的攝像頭對準精度。
【專利說明】
一種機器人語音定位過程的攝像頭角度校準方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及語音定位技術(shù)領(lǐng)域,特別是一種機器人語音定位過程的攝像頭角度校準方法。【背景技術(shù)】
[0002]隨著電子計算機科學(xué)的不斷發(fā)展,智能機器人的研究越發(fā)深入,其攜帶的功能也越來越多,具有視覺、聽覺、嗅覺等功能的高度智能化機器人已經(jīng)出現(xiàn),這種機器人均具有一套識別系統(tǒng),通過該識別系統(tǒng)采集信息,經(jīng)過處理器及其攜帶的處理系統(tǒng)所采集的信息獲取識別結(jié)果,常見的如人臉識別系統(tǒng),利用攝像頭采集人臉圖像,處理后即能識別出人的身份,但對于高度智能化的機器人來說僅通過一套人臉識別系統(tǒng)實現(xiàn)一系列復(fù)雜操作是不夠的,例如能夠與人交互的機器人,其還攜帶了360°的語音定位功能,用戶呼叫機器人,機器人根據(jù)語音信息判斷用戶所處大致方位,再調(diào)轉(zhuǎn)其攝像頭的方向?qū)嗜四樳M行圖像采集和識別,這種技術(shù)能夠?qū)崿F(xiàn)360°無差別的定位跟蹤,可以說更多技術(shù)的結(jié)合讓機器人的智能化程度逐步提升。
[0003]但是,目前機器人的語音定位技術(shù)還存在偏差,在上述的語音定位過程中,語音信息只能提供給機器人一個大致的方位,轉(zhuǎn)動攝像頭(即轉(zhuǎn)動機器人頭部)后很難精確找到人臉的中心位置,可能導(dǎo)致攝像頭獲取圖像不夠清晰,存在識別誤差的可能,在操作上只能通過用戶自己去尋找與攝像頭對準的點,因此機器人的語音定位技術(shù)有待改進。
【發(fā)明內(nèi)容】
[0004]本發(fā)明為解決上述問題,提供了一種機器人語音定位過程的攝像頭角度校準方法,其提高了語音定位過程的攝像頭對準精度。
[0005]為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:一種機器人語音定位過程的攝像頭角度校準方法,包括以下步驟:第一步,語音粗定位:機器人采集到聲波后,通過語音定位模塊定位出語音源位置,根據(jù)該語音源位置信息將帶有攝像頭的機器人面部轉(zhuǎn)到大致的語音源方位;第二步,人臉檢測:利用機器人面部的攝像頭采集圖像,通過人臉檢測模塊判斷所采集的圖像中是否有人臉,若存在人臉則進行第三步;第三步,人臉角度偏差計算:采集一張人臉圖像,檢測出人臉中心位置,以攝像頭中心點為原點建立矩形坐標軸,根據(jù)人臉中心位置和矩形坐標軸定位出圖像中人臉的中心坐標 [X,Y],該坐標[X,Y]也為人臉中心與攝像頭中心的偏差;第四步:角度調(diào)整:根據(jù)人臉坐標與攝像頭中心點偏差換算出攝像頭沿X軸旋轉(zhuǎn)的角度 degreeX和沿Y軸旋轉(zhuǎn)的角度degreeY,然后根據(jù)degreeX和degreeY值微調(diào)攝像頭,使人臉的中心點對準攝像頭的中心點,實現(xiàn)語音的精確定位。
[0006]所述第三步與第四步之間還包括步驟:將計算出的偏差與預(yù)設(shè)偏差標準值比較, 若偏差小于預(yù)設(shè)偏差標準值則執(zhí)行第四步,該預(yù)設(shè)偏差標準值根據(jù)攝像頭參數(shù)預(yù)先設(shè)置。
[0007]所述第二步中的矩形坐標中,原點位于矩形的幾何中心,所述第三步中degreeX和 degreeY的計算公式如下:degreeX = x / (width/2) * MAX_DEGREE_X / 2; degreeY = y / (height/2) * MAX_DEGREE_Y / 2;其中,width為矩形沿X方向的長度,height為矩形沿Y軸方向的長度,MAX_DEGREE_XS 攝像頭沿X方向的最大廣角,MAX_DEGREE_Y為攝像頭沿Y方向的最大廣角。
[0008]所述MAX_DEGREE_X為80°,MAX_DEGREE_Y 為40°。
[0009]本發(fā)明的有益效果是:本發(fā)明的一種機器人語音定位過程的攝像頭角度校準方法,通過在語音大致定位后, 根據(jù)攝像頭采集的圖像中人臉圖像與攝像頭中心點在所采集的圖像中的位置,計算出攝像頭需要微調(diào)的旋轉(zhuǎn)角度值,根據(jù)該旋轉(zhuǎn)角度值機器人的面部方向,使機器人面部的攝像頭對準人臉,針對機器人之前的語音粗定位進行微調(diào),實現(xiàn)語音的精確定位,不僅提高了機器人與人聲交互過程的拾音效果,提高語音識別的準確度,而且,機器人都能采集到交互對象人臉的正面圖像,提高了用戶體驗?!靖綀D說明】
[0010]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1為本發(fā)明的流程框圖。【具體實施方式】
[0011]為了使本發(fā)明所要解決的技術(shù)問題、技術(shù)方案及有益效果更加清楚、明白,以下結(jié)合附圖及實施例對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0012]如圖1所示,本發(fā)明揭示的一種機器人語音定位過程的攝像頭角度校準方法,其包括以下步驟:第一步,語音粗定位:機器人采集到聲波后,通過語音定位模塊定位出語音源位置,根據(jù)該語音源位置信息將帶有攝像頭的機器人面部轉(zhuǎn)到大致的語音源方位;第二步,人臉檢測:利用機器人面部的攝像頭采集圖像,通過人臉檢測模塊判斷所采集的圖像中是否有人臉,若存在人臉則進行第三步;第三步,人臉角度偏差計算:采集一張人臉圖像,檢測出人臉中心位置,以攝像頭中心點為原點建立矩形坐標軸,根據(jù)人臉中心位置和矩形坐標軸定位出圖像中人臉的中心坐標 [X,Y],該坐標[X,Y]也為人臉中心與攝像頭中心的偏差;第四步:角度調(diào)整:根據(jù)人臉坐標與攝像頭中心點偏差換算出攝像頭沿X軸旋轉(zhuǎn)的角度 degreeX和沿Y軸旋轉(zhuǎn)的角度degreeY,然后根據(jù)degreeX和degreeY值微調(diào)攝像頭,使人臉的中心點對準攝像頭的中心點,實現(xiàn)語音的精確定位。[〇〇13]所述第三步與第四步之間還包括步驟:將計算出的偏差與預(yù)設(shè)偏差標準值比較, 若偏差小于預(yù)設(shè)偏差標準值則執(zhí)行第四步,該預(yù)設(shè)偏差標準值根據(jù)攝像頭參數(shù)預(yù)先設(shè)置。
[0014]所述第二步中的矩形坐標中,原點位于矩形的幾何中心,所述第三步中degreeX和degreeY的計算公式如下:degreeX = x / (width/2) * MAX_DEGREE_X / 2; degreeY = y / (height/2) * MAX_DEGREE_Y / 2;其中,width為矩形沿X方向的長度,height為矩形沿Y軸方向的長度,MAX_DEGREE_XS 攝像頭沿X方向的最大廣角,MAX_DEGREE_Y為攝像頭沿Y方向的最大廣角。
[0015]所述MAX_DEGREE_X為80°,MAX_DEGREE_Y 為40°。
[0016]本發(fā)明的一種機器人語音定位過程的攝像頭角度校準方法,通過在語音大致定位后,根據(jù)攝像頭采集的圖像中人臉圖像與攝像頭中心點在所采集的圖像中的位置,計算出攝像頭需要微調(diào)的旋轉(zhuǎn)角度值,根據(jù)該旋轉(zhuǎn)角度值機器人的面部方向,使機器人面部的攝像頭對準人臉,針對機器人之前的語音粗定位進行微調(diào),實現(xiàn)語音的精確定位,不僅提高了機器人與人聲交互過程的拾音效果,提高語音識別的準確度,而且,機器人都能采集到交互對象人臉的正面圖像,提高了用戶體驗。
[0017]上述說明示出并描述了本發(fā)明的優(yōu)選實施例,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對其他實施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文發(fā)明構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識進行改動。而本領(lǐng)域人員所進行的改動和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護范圍內(nèi)。
【主權(quán)項】
1.一種機器人語音定位過程的攝像頭角度校準方法,其特征在于,包括以下步驟: 第一步,語音粗定位:機器人采集到聲波后,通過語音定位模塊定位出語音源位置,根據(jù)該語音源位置信息將帶有攝像頭的機器人面部轉(zhuǎn)到大致的語音源方位;第二步,人臉檢測:利用機器人面部的攝像頭采集圖像,通過人臉檢測模塊判斷所采集 的圖像中是否有人臉,若存在人臉則進行第三步;第三步,人臉角度偏差計算:采集一張人臉圖像,檢測出人臉中心位置,以攝像頭中心 點為原點建立矩形坐標軸,根據(jù)人臉中心位置和矩形坐標軸定位出圖像中人臉的中心坐標 [X,Y],該坐標[X,Y]也為人臉中心與攝像頭中心的偏差;第四步:角度調(diào)整:根據(jù)人臉坐標與攝像頭中心點偏差換算出攝像頭沿X軸旋轉(zhuǎn)的角度 degreeX和沿Y軸旋轉(zhuǎn)的角度degreeY,然后根據(jù)degreeX和degreeY值微調(diào)攝像頭,使人臉的 中心點對準攝像頭的中心點,實現(xiàn)語音的精確定位。2.如權(quán)利要求1所述的一種機器人語音定位過程的攝像頭角度校準方法,其特征在于: 所述第三步與第四步之間還包括步驟:將計算出的偏差與預(yù)設(shè)偏差標準值比較,若偏差小 于預(yù)設(shè)偏差標準值則執(zhí)行第四步,該預(yù)設(shè)偏差標準值根據(jù)攝像頭參數(shù)預(yù)先設(shè)置。3.如權(quán)利要求1所述的一種機器人語音定位過程的攝像頭角度校準方法,其特征在于: 所述第二步中的矩形坐標中,原點位于矩形的幾何中心,所述第三步中degreeX和degreeY 的計算公式如下:degreeX = x / (width/2) * MAX_DEGREE_X / 2; degreeY = y / (height/2) * MAX_DEGREE_Y / 2;其中,width為矩形沿X方向的長度,height為矩形沿Y軸方向的長度,MAX_DEGREE_XS 攝像頭沿X方向的最大廣角,MAX_DEGREE_Y為攝像頭沿Y方向的最大廣角。4.如權(quán)利要求3所述的一種機器人語音定位過程的攝像頭角度校準方法,其特征在于: 所述MAX_DEGREE_X為80°,MAX_DEGREE_Y 為40°。
【文檔編號】G06K9/00GK105975930SQ201610287804
【公開日】2016年9月28日
【申請日】2016年5月4日
【發(fā)明人】沈崇禧, 伍本強, 劉福權(quán)
【申請人】南靖萬利達科技有限公司