一種控制方法、控制裝置及控制設備的制作方法

文檔序號：7983416閱讀：314來源：國知局

一種控制方法、控制裝置及控制設備的制作方法
【專利摘要】本發(fā)明實施例提供一種控制方法、控制裝置及控制設備。所述控制方法包括：獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)；根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息；根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。本發(fā)明實施例支持拍攝設備能夠拍攝到處于原屏幕范圍外的目標聲音源。
【專利說明】一種控制方法、控制裝置及控制設備
【技術領域】
[0001 ] 本發(fā)明實施例涉及圖像跟蹤領域，尤其涉及一種控制方法、控制裝置及控制設備?！颈尘凹夹g】
[0002]視頻通信過程中，需要將攝像頭對準演講者。現(xiàn)有的解決方案是使用圖像識別技術識別出人臉，然后遙控攝像頭對準人臉位置，但此方案無法跟蹤超出屏幕范圍外的演講者或者處于屏幕范圍外的另一演講者。

【發(fā)明內(nèi)容】

[0003]有鑒于此，本發(fā)明實施例的目的是提供一種控制方法、控制裝置及控制設備，以支持拍攝設備能夠拍攝到處于原屏幕范圍外的目標聲音源。
[0004]為解決上述技術問題，本發(fā)明實施例提供方案如下:
[0005]本發(fā)明實施例提供一種控制方法，所述控制方法包括:
[0006]獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)；
[0007]根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息；
[0008]根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
[0009]優(yōu)選的，所述位置范圍信息為所述目標聲音源相對于所述拍攝設備的方向信息，所述根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動具體為:
[0010]確定所述方向信息對應的所述拍攝設備的轉動控制參數(shù)；
[0011]根據(jù)所述轉動控制參數(shù)控制所述拍攝設備的轉動。
[0012]優(yōu)選的，所述音頻數(shù)據(jù)由一聲音采集設備采集到，所述根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息具體為:
[0013]根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源相對于所述聲音采集設備的方位信息；
[0014]根據(jù)所述方位信息確定所述方向信息。
[0015]優(yōu)選的，所述根據(jù)所述方位信息確定所述方向信息具體為:
[0016]根據(jù)所述方位信息，以及所述方位信息與所述方向信息的預設對應關系確定所述方向信息。
[0017]優(yōu)選的，所述聲音采集設備用于確定所述方位信息的一預設平面和所述預設平面上的一預設參考點，所述拍攝設備在所述預設平面上對應一第一對應點，所述目標聲音源在所述預設平面上對應一第二對應點，
[0018]所述方位信息為所述第二對應點相對于所述預設參考點的位置坐標，所述方向信息為所述第二對應點相對于所述第一對應點的方向信息表征坐標，
[0019]所述對應關系為以所述預設平面上的發(fā)聲對應點相對于所述預設參考點的位置坐標為自變量、以所述第一對應點相對于所述預設參考點的位置坐標為參數(shù)、以所述發(fā)聲對應點相對于所述第一對應點的方向信息表征坐標為變量的平面幾何函數(shù)。
[0020]優(yōu)選的，所述第一對應點相對于所述預設參考點的位置坐標為屬于所述預設平面的以所述預設參考點為第一原點的直角坐標上的坐標(al，a2)，所述發(fā)聲對應點相對于所述預設參考點的位置坐標為所述直角坐標上的坐標(x，y)，y大于a2，所述方向信息表征坐標為屬于所述預設平面的以所述第一對應點為第二原點的極坐標上的角度坐標b，
[0021]當a2為O時，所述極坐標的極軸與所述直角坐標的X軸的方向相同；當a2不為O時，所述極坐標的極軸與所述直角坐標的X軸平行且方向相同，
[0022]所述平面幾何函數(shù)為b=arctan((y-a2)/(x_al)),其中，X不等于al ;或者，
[0023]所述平面幾何函數(shù)為:當X不等于al時，b=arctan((y-a2)/(x_al));當乂等于al時，b=90度。
[0024]優(yōu)選的，所述參數(shù)為根據(jù)通過學習訓練方式得到的至少一個訓練聲音源在所述預設平面上對應的訓練點相對于所述預設參考點的位置坐標和相對于所述第一對應點的方向信息表征坐標所確定。
[0025]本發(fā)明實施例提供一種控制裝置，所述控制裝置包括:
[0026]獲取模塊，用于獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)；
[0027]確定模塊，用于根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息；
[0028]控制模塊，用于根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
[0029]優(yōu)選的，所述位置范圍信息為所述目標聲音源相對于所述拍攝設備的方向信息，所述控制模塊包括:
[0030]第一確定單元，用于確定所述方向信息對應的所述拍攝設備的轉動控制參數(shù)；
[0031]控制單元，用于根據(jù)所述轉動控制參數(shù)控制所述拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
[0032]優(yōu)選的，所述音頻數(shù)據(jù)由一聲音采集設備采集到，所述確定模塊包括:
[0033]第二確定單元，用于根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源相對于所述聲音采集設備的方位信息；
[0034]第三確定單元，用于根據(jù)所述方位信息確定所述方向信息。
[0035]優(yōu)選的，所述第三確定單元包括:
[0036]確定子單元，用于根據(jù)所述方位信息，以及所述方位信息與所述方向信息的預設對應關系確定所述方向信息。
[0037]本發(fā)明實施例提供一種包括以上所述的控制裝置的控制設備。
[0038]從以上所述可以看出，本發(fā)明實施例提供的控制方法、控制裝置及控制設備至少包括如下技術效果:
[0039]通過獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)，據(jù)此確定目標聲音源的位置范圍信息，并根據(jù)該位置范圍信息控制當前無法拍攝到目標聲音源的拍攝設備的轉動，使得拍攝設備能夠拍攝到目標聲音源，從而支持拍攝設備能夠拍攝到處于原屏幕范圍外的目標
聲音源。
【專利附圖】

【附圖說明】[0040]圖1為本發(fā)明實施例提供的一種控制方法的流程圖；
[0041]圖2為本發(fā)明實施例提供的一種控制方法的較佳實施例一的陣列麥克與聲音源的位置坐標圖；
[0042]圖3為本發(fā)明實施例提供的一種控制方法的較佳實施例二的陣列麥克放置在攝像頭正前方的位置示意圖；
[0043]圖4為本發(fā)明實施例提供的一種控制方法的較佳實施例二的陣列麥克與聲音源的位置坐標圖；
[0044]圖5為本發(fā)明實施例提供的一種控制方法的較佳實施例二的訓練示意圖；
[0045]圖6為本發(fā)明實施例提供的一種控制方法的較佳實施例三的示意圖。
【具體實施方式】
[0046]為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚，下面將結合附圖及具體實施例對本發(fā)明實施例進行詳細描述。
[0047]圖1為本發(fā)明實施例提供的一種控制方法的流程圖，參照圖1，本發(fā)明實施例提供一種控制方法，所述控制方法包括如下步驟:
[0048]步驟101，獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)；
[0049]步驟102，根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息；
[0050]步驟103，根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
[0051]可見，通過獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)，據(jù)此確定目標聲音源的位置范圍信息，并根據(jù)該位置范圍信息控制當前無法拍攝到目標聲音源的拍攝設備的轉動，使得拍攝設備能夠拍攝到目標聲音源，從而支持拍攝設備能夠拍攝到處于原屏幕范圍外的目標聲音源。
[0052]顯然，所述目標聲音源應處于所述拍攝設備通過轉動可以達到的全部可拍攝范圍內(nèi)。
[0053]所述目標聲音源可以為說話的人，也可以為發(fā)聲設備。
[0054]所述拍攝設備可以為相機或攝像頭。
[0055]具體地，例如:所述聲音信息中可以包含預設的表示所述位置范圍信息的關鍵字內(nèi)容，則通過語音識別技術就可以根據(jù)所述音頻數(shù)據(jù)確定所述位置范圍信息。
[0056]或者，例如:所述位置范圍信息可以為所述目標聲音源相對于所述拍攝設備的方向信息，所述根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動具體可以為:
[0057]確定所述方向信息對應的所述拍攝設備的轉動控制參數(shù)；
[0058]根據(jù)所述轉動控制參數(shù)控制所述拍攝設備的轉動。
[0059]其中，所述轉動控制參數(shù)，例如:所述拍攝設備在若干可調(diào)整角度中的某一角度的標識，攝像頭的云臺控制器的旋轉角度，攝像頭的光軸的方向參數(shù)，等等。
[0060]具體地，所述音頻數(shù)據(jù)可以由一聲音采集設備采集到，所述根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息具體可以為:
[0061]根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源相對于所述聲音采集設備的方位信息；[0062]根據(jù)所述方位信息確定所述方向信息。
[0063]其中，所述聲音采集設備例如，陣列麥克。
[0064]所述方位信息可以為方向或位置信息。
[0065]進一步地，所述根據(jù)所述方位信息確定所述方向信息具體可以為:
[0066]根據(jù)所述方位信息，以及所述方位信息與所述方向信息的預設對應關系確定所述方向信息。
[0067]具體地，例如，通過足夠多個點的訓練來得到足夠多的方位信息和方向信息的組合，并通過對這些組合進行擬合而得到所述對應關系。例如，以0.1m為分布粒度來放置或移動訓練聲音源。
[0068]又例如，按照特定位置關系放置所述拍攝設備和所述聲音采集設備，使得所述目標發(fā)聲源處于任一位置時所述方位信息與所述方向信息所表不的方向?qū)恢?；基于該特定位置關系確定所述對應關系。比如，可以將所述拍攝設備和所述聲音采集設備放置在一起，或者，所述聲音采集設備水平放置時，所述拍攝設備放置在所述聲音采集設備的正上方。下面的較佳實施例一中就采用了放置在一起的方式。
[0069]需要說明的是，考慮到實際中所述拍攝設備在放置位置上的限制，所述拍攝設備放置位置可以允許一定的偏離，由于所述拍攝設備在同一時刻能夠拍攝到的是一個較寬的范圍，只要該偏離能使所述拍攝設備能夠拍攝到所述方位信息所表示的方向即可，這可以在工程實踐中實地操作實現(xiàn)，在此不再贅述。
[0070]又例如，所述聲音采集設備用于確定所述方位信息的一預設平面和所述預設平面上的一預設參考點，所述拍攝設備在所述預設平面上對應一第一對應點，所述目標聲音源在所述預設平面上對應一第二對應點，
[0071]所述方位信息為所述第二對應點相對于所述預設參考點的位置坐標，所述方向信息為所述第二對應點相對于所述第一對應點的方向信息表征值，
[0072]所述對應關系為以所述預設平面上的發(fā)聲對應點相對于所述預設參考點的位置坐標為自變量、以所述第一對應點相對于所述預設參考點的位置坐標為參數(shù)、以所述發(fā)聲對應點相對于所述第一對應點的方向信息表征值為變量的平面幾何函數(shù)。
[0073]其中，所述第一對應點，比如，所述拍攝設備的光心或者所述拍攝設備的光心在所述預設平面的投影。
[0074]所述第二對應點，比如，所述目標聲音源在所述預設平面的某一點或者所述目標聲音源不在所述預設平面的某一點在所述預設平面的投影。
[0075]所述發(fā)聲對應點，比如，聲音源在所述預設平面的發(fā)聲參考點或者聲音源不在所述預設平面的發(fā)聲參考點在所述預設平面的投影。其中，發(fā)聲參考點可以為人的喉嚨的某點或聲音源的聲音輸出單元的某點。
[0076]所述方向信息表征值，比如，以所述第二對應點為原點，所述預設平面上以該原點為中心有一軸坐標系時，所述發(fā)聲對應點在該軸坐標系的角度坐標值。
[0077]所述聲音采集設備所對應的預設平面和預設參考點與所述聲音采集設備具體采用哪種設備有關，比如平面陣列麥克所采用的定位平面和定位參考點。
[0078]需要說明的是，在實際應用中，聲音源的位置可以在所述預設平面內(nèi)，也可以在所述預設平面的某一側，且由于其它因素的影響，所得到的方位信息可能有很小的誤差，但是，由于拍攝設備在同一時刻所能拍攝到的是一個較寬的范圍，由此，這種誤差并不影響本發(fā)明實施例所要解決的技術問題的解決。
[0079]這里給出所述平面幾何函數(shù)的具體例子:所述第一對應點相對于所述預設參考點的位置坐標為屬于所述預設平面的以所述預設參考點為第一原點的直角坐標上的坐標(al, a2),所述發(fā)聲對應點相對于所述預設參考點的位置坐標為所述直角坐標上的坐標(X,y)，y大于a2，所述方向信息表征坐標為屬于所述預設平面的以所述第一對應點為第二原點的極坐標上的角度坐標b，
[0080]當a2為O時，所述極坐標的極軸與所述直角坐標的X軸的方向相同；當a2不為O時，所述極坐標的極軸與所述直角坐標的X軸平行且方向相同，
[0081]所述平面幾何函數(shù)為b=arctan ((y_a2) / (x_al)),其中，x不等于al ;或者，
[0082]所述平面幾何函數(shù)為:當X不等于al時，b=arctan((y-a2)/(x_al));當乂等于al時，b=90度。
[0083]所述參數(shù)可以通過工程實施過程中的實地測算得到；或者，所述參數(shù)可以為根據(jù)通過學習訓練方式得到的至少一個訓練聲音源在所述預設平面上對應的訓練點相對于所述預設參考點的位置坐標和相對于所述第一對應點的方向信息表征值所確定。
[0084]所述學習訓練方式例如:
[0085]確定一第一聲音源在所述預設平面上對應的第一訓練點相對于所述預設參考點的第一位置坐標和相對于所述第一對應點的第一方向信息表征值；
[0086]根據(jù)所述第一位置坐標和所述第一方向信息表征值得到所述參數(shù)；
[0087]其中，所述第一訓練點、所述第一對應點和所述預設參考點不共線。
[0088]下面的較佳實施例二中的學習訓練方式就是采用了這種學習訓練方式。
[0089]所述學習訓練方式又例如:
[0090]確定一第二聲音源在所述預設平面上對應的第二訓練點相對于所述預設參考點的第二位置坐標和相對于所述第一對應點的第二方向信息表征值；
[0091]確定一第三聲音源在所述預設平面上對應的第三訓練點相對于所述預設參考點的第三位置坐標和相對于所述第一對應點的第三方向信息表征值；
[0092]根據(jù)所述第二位置坐標、所述第二方向信息表征值、所述第三位置坐標、所述第三方向信息表征值得到所述參數(shù)；
[0093]其中，所述第二訓練點、所述第三訓練點和所述第一對應點不共線。
[0094]下面的較佳實施例三中的學習訓練方式就是采用了這種學習訓練方式。
[0095]為了對上述控制方法進一步闡述明白，以下給出所述控制方法的三個較佳實施例:
[0096]較佳實施例一:
[0097]圖2為本發(fā)明實施例提供的一種控制方法的較佳實施例一的陣列麥克與聲音源的位置坐標圖，參照圖2，陣列麥克有多種物理形態(tài)，本較佳實施例為一線性陣列麥克，上面包含至少3個咪頭。同時，攝像頭與陣列麥克放置在一起。本較佳實施例的步驟如下:
[0098]步驟201，使用陣列麥克的多個咪頭分別接收到音頻數(shù)據(jù)，濾除背景噪聲后發(fā)給處理中心,或發(fā)給處理中心后濾除噪聲。
[0099]步驟202.處理中心根據(jù)頻率將多路音頻數(shù)據(jù)中的人聲部分提取分離，然后根據(jù)多路音頻數(shù)據(jù)中人聲部分的相位差計算出多個咪頭收到的人聲時間差。
[0100]步驟203，根據(jù)多個咪頭收到的時間差乘以音速可以計算出距離差，再根據(jù)三個咪頭之間的距離差可以計算出聲音的方位。
[0101]具體地，陣列麥克咪頭直接距離為已知距離，我們設定為R，我們標注咪頭2為坐標原點，咪頭I坐標為(-R，O)，咪頭3坐標為(R，O)，我們需要計算得到的聲音源坐標為U，y)；
[0102]我們標注聲音源到達咪頭1、咪頭2、咪頭3的距離分別為L1、L2、L3，實際我們上一步測得的時間差乘以首速，為L1、L2、L3之間的差值，也就是說L1-L3L2-L3的值已知，我們標注已知的L1-L3為D13，L2-L3為D23 ；
[0103]根據(jù)勾股定理得出:
[0104]
【權利要求】
1.一種控制方法，其特征在于，所述控制方法包括: 獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)；根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息；根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
2.如權利要求1所述的控制方法，其特征在于，所述位置范圍信息為所述目標聲音源相對于所述拍攝設備的方向信息，所述根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動具體為: 確定所述方向信息對應的所述拍攝設備的轉動控制參數(shù)；根據(jù)所述轉動控制參數(shù)控制所述拍攝設備的轉動。
3.如權利要求2所述的控制方法，其特征在于，所述音頻數(shù)據(jù)由一聲音采集設備采集到，所述根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息具體為: 根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源相對于所述聲音采集設備的方位信息；根據(jù)所述方位信息確定所述方向信息。
4.如權利要求3所述的控制方法，其特征在于，所述根據(jù)所述方位信息確定所述方向信息具體為: 根據(jù)所述方位信息，以及所述方位信息與所述方向信息的預設對應關系確定所述方向信息。
5.如權利要求4所述的控制方法，其特征在于，所述聲音采集設備用于確定所述方位信息的一預設平面和所述預設平面上的一預設參考點，所述拍攝設備在所述預設平面上對應一第一對應點，所述目標聲音源在所述預設平面上對應一第二對應點，所述方位信息為所述第二對應點相對于所述預設參考點的位置坐標，所述方向信息為所述第二對應點相對于所述第一對應點的方向信息表征坐標，所述對應關系為以所述預設平面上的發(fā)聲對應點相對于所述預設參考點的位置坐標為自變量、以所述第一對應點相對于所述預設參考點的位置坐標為參數(shù)、以所述發(fā)聲對應點相對于所述第一對應點的方向信息表征坐標為變量的平面幾何函數(shù)。
6.如權利要求5所述的控制方法，其特征在于，所述第一對應點相對于所述預設參考點的位置坐標為屬于所述預設平面的以所述預設參考點為第一原點的直角坐標上的坐標(al, a2),所述發(fā)聲對應點相對于所述預設參考點的位置坐標為所述直角坐標上的坐標(X,y)，y大于a2，所述方向信息表征坐標為屬于所述預設平面的以所述第一對應點為第二原點的極坐標上的角度坐標b，當a2為O時，所述極坐標的極軸與所述直角坐標的X軸的方向相同；當a2不為O時，所述極坐標的極軸與所述直角坐標的X軸平行且方向相同，所述平面幾何函數(shù)為b=arctan ((y_a2) / (x_al)),其中，x不等于al ;或者，所述平面幾何函數(shù)為:當X不等于al時4=31"(^311((7-32)/ (x-al));當x等于al時，b=90 度。
7.如權利要求5所述的控制方法，其特征在于，所述參數(shù)為根據(jù)通過學習訓練方式得到的至少一個訓練聲音源在所述預設平面上對應的訓練點相對于所述預設參考點的位置坐標和相對于所述第一對應點的方向信息表征坐標所確定。
8.—種控制裝置，其特征在于，所述控制裝置包括: 獲取模塊，用于獲取包含目標聲音源的聲音信息的音頻數(shù)據(jù)；確定模塊，用于根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源的位置范圍信息；控制模塊，用于根據(jù)所述位置范圍信息控制當前無法拍攝到所述目標聲音源的拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
9.如權利要求8所述的控制裝置，其特征在于，所述位置范圍信息為所述目標聲音源相對于所述拍攝設備的方向信息，所述控制模塊包括: 第一確定單元，用于確定所述方向信息對應的所述拍攝設備的轉動控制參數(shù)；控制單元，用于根據(jù)所述轉動控制參數(shù)控制所述拍攝設備的轉動，使得所述拍攝設備能夠拍攝到所述目標聲音源。
10.如權利要求9所述的控制裝置，其特征在于，所述音頻數(shù)據(jù)由一聲音采集設備采集到，所述確定模塊包括: 第二確定單元，用于根據(jù)所述音頻數(shù)據(jù)確定所述目標聲音源相對于所述聲音采集設備的方位信息；第三確定單元，用于根據(jù)所述方位信息確定所述方向信息。
11.如權利要求10所述的控制裝置，其特征在于，所述第三確定單元包括: 確定子單元，用于根據(jù)所述方位信息，以及所述方位信息與所述方向信息的預設對應關系確定所述方向信息。
12.—種控制設備，其特征在于，所述控制設備包括權利要求8至11中任一項所述的控制裝置。
【文檔編號】H04N5/232GK103685906SQ201210350741
【公開日】2014年3月26日申請日期:2012年9月20日優(yōu)先權日:2012年9月20日
【發(fā)明者】陳軍, 黃強, 黃志宏, 袁潔申請人:中興通訊股份有限公司

完整全部詳細技術資料下載