技術(shù)總結(jié)
本發(fā)明公開一種音視頻信息融合的麥克風(fēng)陣列語音增強系統(tǒng)及方法。所述系統(tǒng)包括視頻采集模塊、麥克風(fēng)陣列接收模塊、音視頻來波方向聯(lián)合估計模塊、麥克風(fēng)陣列語音增強模塊和音視頻聯(lián)合語音增強模塊,視頻采集模塊用于采集應(yīng)用場景中說話人的視頻信號;麥克風(fēng)陣列接收模塊用于接收說話人的音頻信號;音視頻來波方向聯(lián)合估計模塊利用音視頻信息聯(lián)合估計說話人音頻的來波方向;麥克風(fēng)陣列語音增強模塊利用麥克風(fēng)陣列接收模塊接收到的陣列語音信號來對語音信號進(jìn)行增強;音視頻聯(lián)合語音增強模塊利用語音和視頻信號聯(lián)合對語音進(jìn)行二次增強處理。本發(fā)明能顯著提高麥克風(fēng)陣列語音增強系統(tǒng)的性能,能廣泛應(yīng)用于視頻會議、車載電話、移動視頻通話終端等場合。
技術(shù)研發(fā)人員:張軍;陳鑫源;寧更新;馮義志;季飛;余華;陳芳炯
受保護(hù)的技術(shù)使用者:華南理工大學(xué)
文檔號碼:201610698586
技術(shù)研發(fā)日:2016.08.22
技術(shù)公布日:2017.01.11