一種直錄播互動系統(tǒng)中的音頻處理方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明屬于音頻處理領域,尤其涉及一種直錄播互動系統(tǒng)中的音頻處理方法及裝 置。
【背景技術】
[0002] 在音頻信號的采集和錄制過程中,需對接收到的音頻信號進行處理,再通過音頻 混音算法對采集到的多路語音信號進行混合,使混合后的語音信號中包含每一路麥克風采 集到的信息,以便能夠讓發(fā)聲者的說話信息傳送給每一個參與會議的成員。
[0003] 傳統(tǒng)的音頻混音算法大都是對采集到的語音信號進行分析,根據信號的強弱分配 不同的混音權重值,最后進行加權求和以達到混音的目的。這種方法可以在一定程度上實 現混音的效果,但是由于其使用的是后驗知識,即必須首先得到語音信號才能對每路麥克 風通道賦予相應的權重值,存在著處理上的滯后性和信號產生方位的不確定性,如果能夠 利用一些先驗知識,即在得到語音信號前就分配好了每路麥克風所對應的權重值,則可以 更為精準地實現混音的效果。
【發(fā)明內容】
[0004] 本發(fā)明提供一種直錄播互動系統(tǒng)中的音頻處理方法及裝置,以解決上述問題。
[0005] 本發(fā)明提供一種直錄播互動系統(tǒng)中的音頻處理方法。上述方法包括以下步驟:采 集當前圖像;根據第一策略確定所述當前圖像中各個音頻采集設備對應的一次混音權重 值;根據各個音頻采集設備采集的音頻信息、各個音頻采集設備對應的一次混音權重值確 定各個音頻采集設備的二次混音權重值;根據各個音頻采集設備的二次混音權重值、各個 音頻采集設備采集的音頻信息,進行混音,獲取混音后的音頻輸出值。
[0006] 本發(fā)明還提供一種直錄播互動系統(tǒng)中的音頻處理裝置,上述裝置包括:全景攝像 機、音頻采集設備和智能導播設備;所述全景攝像機和所述音頻采集設備分別與所述智能 導播設備相連;所述全景攝像機,用于采集當前圖像;所述音頻采集設備,用于采集音頻信 息;所述智能導播設備,用于根據第一策略確定所述當前圖像中各個音頻采集設備對應的 一次混音權重值,并根據各個音頻采集設備采集的音頻信息、各個音頻采集設備對應的一 次混音權重值確定各個音頻采集設備的二次混音權重值;所述智能導播設備還用于根據各 個音頻采集設備的二次混音權重值、各個音頻采集設備采集的音頻信息,進行混音,并獲取 混音后的音頻輸出值。
[0007] 相較于先前技術,根據本發(fā)明提供的直錄播互動系統(tǒng)中的音頻處理方法及裝置, 首先對獲取到的視頻圖像進行分析,提取出發(fā)聲者在房間內的具體位置,利用人員的位置 信息提前對房間內的多個麥克風設備分配相應的混音權重值,并且可以隨著人員的移動實 時改變權重值的大小,精準地實現混音效果。本發(fā)明利用根據發(fā)聲者實時的位置變化,能夠 更加準確有效地根據人員實時位置從而避免權重值變化的滯后,能夠使最終的混音效果變 化平緩、自然真實。
【附圖說明】
[0008] 此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0009] 圖1所示為根據本發(fā)明的較佳實施例提供的直錄播互動系統(tǒng)中的音頻處理方法 的流程圖;
[0010] 圖2所示為根據本發(fā)明的較佳實施例提供的整個直錄播教室的圖像中教師與麥 克風的位置不意圖;
[0011] 圖3所示為根據本發(fā)明的另一較佳實施例提供的整個直錄播教室的圖像中教師 與麥克風的位置示意圖;
[0012]圖4所示為根據本發(fā)明的較佳實施例提供的直錄播互動系統(tǒng)中的音頻處理裝置 的結構圖。
【具體實施方式】
[0013] 下文中將參考附圖并結合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的 情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0014] 如圖1所示為根據本發(fā)明的較佳實施例提供的直錄播互動系統(tǒng)中的音頻處理方 法的流程圖。如圖1所示,本發(fā)明的較佳實施例提供的直錄播互動系統(tǒng)中的音頻處理方法 包括步驟101-104。
[0015] 步驟101:采集當前圖像;
[0016] 步驟102 :根據第一策略確定所述當前圖像中各個音頻采集設備對應的一次混音 權重值;
[0017] 所述第一策略包括:建立各個音頻采集設備與劃分區(qū)域的對應關系;根據聲源所 在的區(qū)域、聲源區(qū)域及音頻采集設備混音權重動態(tài)分配表,確定各個音頻采集設備對應的 一次混音權重值。
[0018] 所述聲源區(qū)域及音頻采集設備混音權重動態(tài)分配表包括:聲源所在區(qū)域的音頻采 集設備對應的一次混音權重值、劃分區(qū)域中非聲源所在區(qū)域中的各個音頻采集設備分別對 應的一次混音權重值。
[0019] 舉例而言:在另一優(yōu)選的實施例中,在確定所述當前圖像中各個音頻采集設備對 應的一次混音權重值的方法還包括:假設聲源的發(fā)出者為教師,建立教師所在區(qū)域和麥克 風的混音權重動態(tài)分配表,具體如表1所示,將全景攝像頭采集到的圖像進行區(qū)域劃分,具 體如圖3所示,將采集到的圖像按照6個麥克風的位置劃分為6個區(qū)域,每個區(qū)域分別對應 著一個麥克風,假設教師在區(qū)域2中,根據混音權重動態(tài)分配表得到區(qū)域1中麥克風1對應 的一次混音權重值為0. 5,區(qū)域2中麥克風2對應的一次混音權重值為1,區(qū)域3中麥克風 3對應的一次混音權重值0. 5,區(qū)域4中麥克風4對應的一次混音權重值為0. 25,區(qū)域5中 麥克風5對應的一次混音權重值0. 5,區(qū)域6中麥克風6對應的一次混音權重值為0. 25。
[0020] 表1混音權重動態(tài)分配表
[0021]
[0022] 所述第一策略包括:根據獲取的聲源與各個音頻采集設備之間距離,確定各個音 頻采集設備對應的一次混音權重值。
[0023] 根據獲取的聲源與各個音頻采集設備之間距離,確定各個音頻采集設備對應的一 次混音權重值的過程為:
[0026] 其中,P(xp,yp)為所述聲源位置坐標,所述聲源位置坐標通過運動目標檢測方法實 時獲??;
[0027] 其中,^為第i路音頻采集設備位置坐標Mic i (Xi,yi)和聲源位置坐標P(xp,yp)之 間距離平方的倒數,i = 1,2, 3……n;
[0028] 其中,&為第i路音頻采集設備的一次混音權重值。
[0029] 步驟103 :根據各個音頻采集設備采集的音頻信息、各個音頻采集設備對應的一 次混音權重值確定各個音頻采集設備的二次混音權重值;
[0030] 根據各個音頻采集設備采集的音頻信息、各個音頻采集設備對應的一次混音權重 值,獲取各個音頻采集設備進行一次混音權重分配后的語音信號包絡值;對獲取的各個音 頻采集設備進行一次混音權重分配后的語音信號包絡值進行平滑處理;獲取各個音頻采集 設備平滑處理后的語音信號包絡值總和,并根據獲取的各個音頻采集設備平滑處理后的語 音信號包絡值總和,獲取各個音頻采集設備的語音信號權重值,并對所述語音信號權重值 進行平滑處理,得到二次混音權重值。
[0031] 根據各個音頻采集設備采集的音頻信息、各個音頻采集設備對應的一次混音權重 值,獲取各個音頻采集設備進行一次混音權重分配后的語音信號包絡值的過程為:en Vi = ei|*ki;其中,e ,表示第i路音頻采集設備直接采集到的語音信號幅值,h是第i路音頻采 集設備的一次混音權重值;enVi表示第i路音頻采集設備進行一次混音權重分配后的語音 信號包絡值。
[0032] 對一次