導(dǎo)播設(shè)備403 ;所述全景攝像機401和所述音 頻采集設(shè)備402分別與所述智能導(dǎo)播設(shè)備403相連;所述全景攝像機401,用于采集當(dāng)前圖 像;所述音頻采集設(shè)備402,用于采集音頻信息;所述智能導(dǎo)播設(shè)備403,用于根據(jù)第一策略 確定所述當(dāng)前圖像中各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值,并根據(jù)各個音頻采集設(shè)備 采集的音頻信息、各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值確定各個音頻采集設(shè)備的二次 混音權(quán)重值;所述智能導(dǎo)播設(shè)備403還用于根據(jù)各個音頻采集設(shè)備的二次混音權(quán)重值、各 個音頻采集設(shè)備采集的音頻信息,進行混音,并獲取混音后的音頻輸出值。
[0054] 此外,關(guān)于上述裝置的具體操作過程同上述方法所述,故于此不再贅述。
[0055] 綜上所述,相較于先前技術(shù),根據(jù)本發(fā)明提供的直錄播互動系統(tǒng)中的音頻處理方 法及裝置,首先對獲取到的視頻圖像進行分析,提取出發(fā)聲者在房間內(nèi)的具體位置,利用人 員的位置信息提前對房間內(nèi)的多個麥克風(fēng)設(shè)備分配相應(yīng)的混音權(quán)重值,并且可以隨著人員 的移動實時改變權(quán)重值的大小,精準(zhǔn)地實現(xiàn)混音效果。本發(fā)明利用根據(jù)發(fā)聲者實時的位置 變化,能夠更加準(zhǔn)確有效地根據(jù)人員實時位置從而避免權(quán)重值變化的滯后,能夠使最終的 混音效果變化平緩、自然真實。
[0056] 以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技 術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種直錄播互動系統(tǒng)中的音頻處理方法,其特征在于,包括w下步驟: 采集當(dāng)前圖像; 根據(jù)第一策略確定所述當(dāng)前圖像中各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值; 根據(jù)各個音頻采集設(shè)備采集的音頻信息、各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值確 定各個音頻采集設(shè)備的二次混音權(quán)重值; 根據(jù)各個音頻采集設(shè)備的二次混音權(quán)重值、各個音頻采集設(shè)備采集的音頻信息,進行 混音,獲取混音后的音頻輸出值。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一策略包括;建立各個音頻采集設(shè) 備與劃分區(qū)域的對應(yīng)關(guān)系;根據(jù)聲源所在的區(qū)域、聲源區(qū)域及音頻采集設(shè)備混音權(quán)重動態(tài) 分配表,確定各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述聲源區(qū)域及音頻采集設(shè)備混音權(quán)重 動態(tài)分配表包括;聲源所在區(qū)域的音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值、劃分區(qū)域中非聲 源所在區(qū)域中的各個音頻采集設(shè)備分別對應(yīng)的一次混音權(quán)重值。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一策略包括: 根據(jù)獲取的聲源與各個音頻采集設(shè)備之間距離,確定各個音頻采集設(shè)備對應(yīng)的一次混 音權(quán)重值。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)獲取的聲源與各個音頻采集設(shè)備之 間距離,確定各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值的過程為:其中,P(Vyp)為所述聲源位置坐標(biāo),所述聲源位置坐標(biāo)通過運動目標(biāo)檢測方法實時獲 ??; 其中,li為第i路音頻采集設(shè)備位置坐標(biāo)MiCi(Xi,yi)和聲源位置坐標(biāo)P(Xp,yp)之間距 離平方的倒數(shù),i= 1,2, 3......n; 其中,ki為第i路音頻采集設(shè)備的一次混音權(quán)重值。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)各個音頻采集設(shè)備采集的音頻信息、 各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值,獲取各個音頻采集設(shè)備進行一次混音權(quán)重分配 后的語音信號包絡(luò)值; 對獲取的各個音頻采集設(shè)備進行一次混音權(quán)重分配后的語音信號包絡(luò)值進行平滑處 理; 獲取各個音頻采集設(shè)備平滑處理后的語音信號包絡(luò)值總和,并根據(jù)獲取的各個音頻采 集設(shè)備平滑處理后的語音信號包絡(luò)值總和,獲取各個音頻采集設(shè)備的語音信號權(quán)重值,并 對所述語音信號權(quán)重值進行平滑處理,得到二次混音權(quán)重值。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,根據(jù)各個音頻采集設(shè)備采集的音頻信息、 各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值,獲取各個音頻采集設(shè)備進行一次混音權(quán)重分配 后的語音信號包絡(luò)值的過程為;envi=|e 其中,ei表示第i路音頻采集設(shè)備直接采 集到的語音信號幅值,ki是第i路音頻采集設(shè)備的一次混音權(quán)重值;envi表示第i路音頻 采集設(shè)備進行一次混音權(quán)重分配后的語音信號包絡(luò)值。8. 根據(jù)權(quán)利要求7所述的方法,其特征在于,對一次混音權(quán)重分配后的語音信號包絡(luò) 值enVi進行平滑處理;其中,處理過程如下;Ei=enVi*h+env'i*(l-h);env'i表示第i 路音頻采集設(shè)備上一個采樣點的語音信號包絡(luò)值,h表示平滑系數(shù),Ei表示第i路音頻采集 設(shè)備平滑處理后的語音信號包絡(luò)值。9. 根據(jù)權(quán)利要求8所述的方法,其特征在于,獲取各個音頻采集設(shè)備平滑處理后的語 音信號包絡(luò)值總和即及各個音頻采集設(shè)備的語音信號權(quán)重值10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,將各個音頻采集設(shè)備平滑處理后的語音 信號包絡(luò)值總和E與闊值Eth進行比較,并根據(jù)比較結(jié)果做出相應(yīng)處理。11. 根據(jù)權(quán)利要求10所述的方法,其特征在于,根據(jù)比較結(jié)果做出相應(yīng)處理的過程為: 若E《Eth,Eth表示音頻采集設(shè)備語音信號包絡(luò)總和的闊值,則對權(quán)重值Wi做平滑,得 到二次混音權(quán)重值Wi,其中mi、m2表示平滑系數(shù),Wth表示權(quán)重值的闊值; 如果E>Eth,對權(quán)重值做平滑:其中W/表示第i路音頻采集設(shè)備上一個采樣點所分配的權(quán)重值。12. 根據(jù)權(quán)利要求11所述的方法,其特征在于,根據(jù)各個音頻采集設(shè)備的二次混音權(quán) 重值、各個音頻采集設(shè)備采集的音頻信息,進行混音,獲取混音后的音頻輸出值的過程:混 音后的音頻輸出值13. 根據(jù)權(quán)利要求12所述的方法,其特征在于,所述方法還包括對混音后的音頻輸出 值進行限幅處理,根據(jù)混音后的音頻輸出值與預(yù)設(shè)限幅的闊值上限和預(yù)設(shè)限幅的闊值下限 的比較,并根據(jù)比較結(jié)果進行對應(yīng)的處理,得到混音后的最終輸出值。14. 一種直錄播互動系統(tǒng)中的音頻處理裝置,其特征在于,上述裝置包括:全景攝像 機、音頻采集設(shè)備和智能導(dǎo)播設(shè)備;所述全景攝像機和所述音頻采集設(shè)備分別與所述智能 導(dǎo)播設(shè)備相連; 所述全景攝像機,用于采集當(dāng)前圖像; 所述音頻采集設(shè)備,用于采集音頻信息; 所述智能導(dǎo)播設(shè)備,用于根據(jù)第一策略確定所述當(dāng)前圖像中各個音頻采集設(shè)備對應(yīng)的 一次混音權(quán)重值,并根據(jù)各個音頻采集設(shè)備采集的音頻信息、各個音頻采集設(shè)備對應(yīng)的一 次混音權(quán)重值確定各個音頻采集設(shè)備的二次混音權(quán)重值;所述智能導(dǎo)播設(shè)備還用于根據(jù)各 個音頻采集設(shè)備的二次混音權(quán)重值、各個音頻采集設(shè)備采集的音頻信息,進行混音,并獲取 混音后的音頻輸出值。
【專利摘要】本發(fā)明提供一種直錄播互動系統(tǒng)中的音頻處理方法及裝置,上述方法包括以下步驟:采集當(dāng)前圖像;根據(jù)第一策略確定所述當(dāng)前圖像中各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值;根據(jù)各個音頻采集設(shè)備采集的音頻信息、各個音頻采集設(shè)備對應(yīng)的一次混音權(quán)重值確定各個音頻采集設(shè)備的二次混音權(quán)重值;根據(jù)各個音頻采集設(shè)備的二次混音權(quán)重值、各個音頻采集設(shè)備采集的音頻信息,進行混音,獲取混音后的音頻輸出值。本發(fā)明還提供一種直錄播互動系統(tǒng)中的音頻處理裝置,上述裝置包括:全景攝像機、音頻采集設(shè)備和智能導(dǎo)播設(shè)備;所述全景攝像機和所述音頻采集設(shè)備分別與所述智能導(dǎo)播設(shè)備相連。
【IPC分類】G10L19/008, G10L21/0316
【公開號】CN104934037
【申請?zhí)枴緾N201510293434
【發(fā)明人】顧馳, 高華
【申請人】闊地教育科技有限公司
【公開日】2015年9月23日
【申請日】2015年6月2日