混音處理方法及系統(tǒng)的制作方法
【專利摘要】一種混音處理方法及系統(tǒng),其方法包括步驟:分別獲取各個(gè)客戶端的音頻信息,所述音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息;分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀;在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,根據(jù)語(yǔ)音信息、音樂(lè)信息、語(yǔ)音音樂(lè)信息分別將標(biāo)志位設(shè)為語(yǔ)音標(biāo)志位、音樂(lè)標(biāo)志位、音樂(lè)標(biāo)志位;將所述擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器;獲取解包后的所述混音服務(wù)器的擴(kuò)展音頻編碼幀;根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。通過(guò)本方案提高了混音信息中背景音樂(lè)播放質(zhì)量。
【專利說(shuō)明】混音處理方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及視頻會(huì)議領(lǐng)域,特別是涉及ー種混音處理方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)和視頻會(huì)議的迅速發(fā)展,多方通話業(yè)務(wù)已經(jīng)成為公共交換電信網(wǎng)/綜合業(yè)務(wù)數(shù)字網(wǎng)、分組語(yǔ)音網(wǎng)和移動(dòng)網(wǎng)必備的補(bǔ)充業(yè)務(wù),同時(shí)在上述網(wǎng)絡(luò)會(huì)議電話和會(huì)議電視業(yè)務(wù)應(yīng)用也越來(lái)越廣泛?;镜恼Z(yǔ)音業(yè)務(wù)僅涉及兩個(gè)通話方,通話雙方可互相聽到對(duì)方的聲音,ニ在多方通話業(yè)務(wù)和會(huì)議業(yè)務(wù)中,同時(shí)通話方可能不止兩方,其中任意一方的語(yǔ)音信號(hào)都可以被傳送至所有其他通話方,而每一通話方都應(yīng)同時(shí)可聽到多個(gè)其他通話方的聲音。為此,在多方通話和會(huì)議電話業(yè)務(wù)中通常需要進(jìn)行混音處理,即將多個(gè)通話方的語(yǔ)音信號(hào)混合起來(lái),以便任意一個(gè)通話成員都可同時(shí)聽到其他通話方的聲音。
[0003]傳統(tǒng)方法,在客戶端編碼前進(jìn)行語(yǔ)音特征計(jì)算,語(yǔ)音特征和編碼數(shù)據(jù)一起發(fā)到混音服務(wù)器,這樣混音服務(wù)器只根據(jù)已計(jì)算好的語(yǔ)音特征挑選混音通道數(shù),然后將需要混音的m個(gè)通道數(shù)據(jù),全部發(fā)往各客戶端進(jìn)行解碼混音。
[0004]上述方法一般使用VAD (語(yǔ)音激活探測(cè))技木,同時(shí)在無(wú)語(yǔ)音的情況下不發(fā)送數(shù)據(jù)到子語(yǔ)音服務(wù)器(DTX技木)。但當(dāng)主會(huì)場(chǎng)需要播放背景音樂(lè),或者有分會(huì)場(chǎng)需要分享音樂(lè)吋,上述VAD+DTX技術(shù)會(huì)導(dǎo)致音樂(lè)時(shí)斷時(shí)續(xù)或完全沒(méi)有聲音。
【發(fā)明內(nèi)容】
[0005]基于此,有必要針對(duì)混音時(shí)音樂(lè)時(shí)斷時(shí)續(xù)或完全沒(méi)有聲音的問(wèn)題,提供一種混音處理方法及系統(tǒng)。
[0006]ー種混音處理方法,包括步驟:
[0007]分別獲取各個(gè)客戶端的音頻信息,所述音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息,其中,所述語(yǔ)音音樂(lè)信息為同一個(gè)客戶端同時(shí)接收的語(yǔ)音信息和音樂(lè)信息的混
曰;
[0008]分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀;
[0009]在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,若所述音頻信息為語(yǔ)音信息,則所述標(biāo)志位為語(yǔ)音標(biāo)志位,若所述音頻信息為音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位,若所述音頻信息為語(yǔ)音音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位;
[0010]將所述擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器;
[0011]獲取解包后的所述混音服務(wù)器的擴(kuò)展音頻編碼幀;
[0012]根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
[0013]一種混音處理系統(tǒng),包括:
[0014]第一獲取模塊,用于分別獲取各個(gè)客戶端的音頻信息,所述音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息,其中,所述語(yǔ)音音樂(lè)信息為同一個(gè)客戶端同時(shí)接收的語(yǔ)音信息和音樂(lè)信息的混音;
[0015]編碼模塊,用于分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀;
[0016]擴(kuò)展音頻幀模塊,用于在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,若所述音頻信息為語(yǔ)音信息,則所述標(biāo)志位為語(yǔ)音標(biāo)志位,若所述音頻信息為音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位,若所述音頻信息為語(yǔ)音音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位;
[0017]第一發(fā)送模塊,用于將所述擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器;
[0018]混音處理模塊,用于獲取解包后的所述混音服務(wù)器的擴(kuò)展音頻編碼幀,根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
[0019]上述混音處理方法及系統(tǒng),通過(guò)分別采集語(yǔ)音信息、音樂(lè)信息或者混音后的語(yǔ)音音樂(lè)信息,在音頻編碼幀前設(shè)置標(biāo)志位,將音樂(lè)信息、語(yǔ)音音樂(lè)信息和語(yǔ)音信息區(qū)分開,然后獲取混音服務(wù)器的擴(kuò)展音頻編碼幀,實(shí)現(xiàn)解碼混音,并返回至各個(gè)客戶端。從而實(shí)現(xiàn)會(huì)場(chǎng)有音樂(lè)需要分享時(shí),混音信息中存在完整音樂(lè)信息,提高了混音信息中背景音樂(lè)播放質(zhì)量。
【專利附圖】
【附圖說(shuō)明】
[0020]圖1為本發(fā)明混音處理方法實(shí)施例一的流程示意圖;
[0021]圖2為本發(fā)明混音處理系統(tǒng)實(shí)施例一的結(jié)構(gòu)不意圖;
[0022]圖3為本發(fā)明混音處理系統(tǒng)實(shí)施例二中子混音處理模塊的結(jié)構(gòu)示意圖;
[0023]圖4為本發(fā)明混音處理系統(tǒng)實(shí)施例二中主混音處理模塊的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]以下針對(duì)本發(fā)明混音處理方法及系統(tǒng)的各實(shí)施例進(jìn)行詳細(xì)的描述。
[0025]參見圖1,為本發(fā)明混音處理方法實(shí)施例一的流程示意圖,包括步驟:
[0026]步驟SlOl:分別獲取各個(gè)客戶端的音頻信息,音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息,其中,語(yǔ)音音樂(lè)信息為同一個(gè)客戶端同時(shí)接收的語(yǔ)音信息和音樂(lè)信息的混音。其中音樂(lè)信息可以是主會(huì)場(chǎng)播放的背景音樂(lè)、分會(huì)場(chǎng)分享的音樂(lè)等。當(dāng)一個(gè)會(huì)場(chǎng)同時(shí)存在語(yǔ)音信息和音樂(lè)信息時(shí),先將語(yǔ)音信息和音樂(lè)信息進(jìn)行混音。
[0027]步驟S102:分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀。即音頻編碼幀包括語(yǔ)音編碼幀、音樂(lè)編碼幀、語(yǔ)音音樂(lè)編碼幀。
[0028]步驟S103:在音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,若音頻為語(yǔ)音信息,則標(biāo)志位為語(yǔ)音標(biāo)志位,若音頻信息為音樂(lè)信息,則標(biāo)志位為音樂(lè)標(biāo)志位,若音頻信息為語(yǔ)音音樂(lè)信息,則標(biāo)志位為音樂(lè)標(biāo)志位。
[0029]步驟S104:將擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器。當(dāng)客戶端數(shù)量不多時(shí),比如參與視頻會(huì)議的會(huì)場(chǎng)較少時(shí),這里的混音服務(wù)器可以是一個(gè)主混音服務(wù)器,該主混音服務(wù)器連接多個(gè)客戶端,此時(shí)只需要進(jìn)行客戶端與服務(wù)器之間的交互過(guò)程。當(dāng)客戶端數(shù)量較多時(shí),可以設(shè)置多個(gè)子混音服務(wù)器和一個(gè)主混音服務(wù)器,具體根據(jù)需要設(shè)定。
[0030]步驟S105:獲取解包后的混音服務(wù)器的擴(kuò)展音頻編碼幀。[0031]步驟S106:根據(jù)擴(kuò)展音頻編碼幀的標(biāo)志位將音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
根據(jù)擴(kuò)展音頻編碼幀的標(biāo)志位將音頻編碼幀進(jìn)行解碼可以是,預(yù)先設(shè)定一些判斷條件,判斷音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息是否需要參與混音,語(yǔ)音標(biāo)志位對(duì)應(yīng)的音頻信息是否需要參與混音。也可以是直接將獲得到的一些音頻編碼幀進(jìn)行解碼混音,還可以是語(yǔ)音標(biāo)志位對(duì)應(yīng)的音頻信息默認(rèn)參與混音,對(duì)音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息進(jìn)行篩選,最終將篩選的音頻信息和語(yǔ)音標(biāo)志位對(duì)應(yīng)的音頻信息進(jìn)行混音等。
[0032]通過(guò)分別采集語(yǔ)音信息、音樂(lè)信息或者混音后的語(yǔ)音音樂(lè)信息,在音頻編碼幀前設(shè)置標(biāo)志位,將音樂(lè)信息、語(yǔ)音音樂(lè)信息和語(yǔ)音信息區(qū)分開,然后獲取混音服務(wù)器的擴(kuò)展音頻編碼幀,實(shí)現(xiàn)解碼混音,并返回至各個(gè)客戶端。從而實(shí)現(xiàn)會(huì)場(chǎng)有音樂(lè)需要分享時(shí),混音信息中存在完整音樂(lè)信息,提高了混音信息中背景音樂(lè)播放質(zhì)量。同時(shí),本方案在發(fā)送至混音服務(wù)器之前進(jìn)行了編碼,提高了客戶端與混音服務(wù)器之間的傳輸效率,從而提高了整個(gè)混音過(guò)程的效率。
[0033]在具體實(shí)施例中,還可以在步驟S106中,可以將混音后的混音音頻信息進(jìn)行編碼,然后將編碼后的信息發(fā)送至客戶端,這樣大大降低了發(fā)送客戶端的碼率,提高了傳輸混音信息的效率。
[0034]在具體實(shí)施例中,在音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀步驟,還包括步驟:在音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若音頻信息為語(yǔ)音信息,計(jì)算語(yǔ)音信息的語(yǔ)音特征值,則語(yǔ)音特征位為語(yǔ)音特征值。語(yǔ)音特征值可以是語(yǔ)音信號(hào)的能量量度、語(yǔ)音信號(hào)的幅度量度或語(yǔ)音信號(hào)強(qiáng)度等,具體根據(jù)需要設(shè)定。本實(shí)施例中,擴(kuò)展音頻編碼幀由三位組成,包括標(biāo)志位、語(yǔ)音特征位、語(yǔ)音編碼幀位。當(dāng)標(biāo)志位為音樂(lè)時(shí),語(yǔ)音特征值位可以為空,也可以對(duì)音樂(lè)標(biāo)志位對(duì)應(yīng)的擴(kuò)展音頻編碼幀不增加語(yǔ)音特征位。
[0035]根據(jù)擴(kuò)展音頻編碼幀的標(biāo)志位將音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端步驟,包括步驟:
[0036]若標(biāo)志位為語(yǔ)音標(biāo)志位,則根據(jù)擴(kuò)展音頻編碼幀的語(yǔ)音特征值與預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將參與混音的音頻編碼幀進(jìn)行解碼獲得音頻解碼信息。其中,根據(jù)語(yǔ)音特征值與預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的語(yǔ)音編碼幀的方法有很多種,比如語(yǔ)音特征值為信號(hào)能量,預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則是指信號(hào)能量排名前η的語(yǔ)音信息參與混音,又或者,對(duì)于主會(huì)場(chǎng),只要其講話,即被確定為語(yǔ)音信息混合處理所需通話方,對(duì)于其他通話方,則按照語(yǔ)音信號(hào)強(qiáng)度大小排序,并選擇信號(hào)強(qiáng)度較大的幾個(gè)通過(guò)方參與混音。
[0037]若標(biāo)志位為音樂(lè)標(biāo)志位,則將音頻編碼幀進(jìn)行解碼獲得音頻解碼信息。
[0038]將各音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
[0039]本實(shí)施例通過(guò)將音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息默認(rèn)參與混音,對(duì)語(yǔ)音標(biāo)志位對(duì)應(yīng)的音頻信息進(jìn)行篩選,最終將篩選的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息進(jìn)行混音,從而實(shí)現(xiàn)在全程會(huì)議中,只要有音樂(lè)分享,即可聽到該分享音樂(lè)。
[0040]在另一個(gè)實(shí)施例中,在音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀步驟,還包括步驟:在音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若音頻為語(yǔ)音信息,計(jì)算語(yǔ)音信息的語(yǔ)音特征值,則語(yǔ)音特征位為語(yǔ)音特征值;
[0041]獲取解包后的混音服務(wù)器的擴(kuò)展音頻編碼幀;根據(jù)擴(kuò)展音頻編碼幀的標(biāo)志位將音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端步驟,包括步驟:
[0042]獲取混音服務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來(lái)源;
[0043]當(dāng)數(shù)據(jù)包來(lái)自客戶端吋,解析數(shù)據(jù)包獲得解析擴(kuò)展音頻編碼幀,解析擴(kuò)展音頻編碼幀的標(biāo)志位,若標(biāo)志位為語(yǔ)音標(biāo)識(shí)位吋,讀取擴(kuò)展音頻編碼幀的語(yǔ)音特征值;根據(jù)語(yǔ)音特征值與第一預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將該音頻編碼幀解碼,若標(biāo)志位為音樂(lè)標(biāo)志位,則將音頻編碼幀進(jìn)行解碼,根據(jù)各解碼音頻信息獲得初選音頻信息,發(fā)送初選音頻信息和對(duì)應(yīng)的標(biāo)識(shí)位、語(yǔ)音特征值;
[0044]當(dāng)數(shù)據(jù)包來(lái)自主混音服務(wù)器吋,將數(shù)據(jù)包轉(zhuǎn)發(fā)至客戶端。在一個(gè)實(shí)施例中,該步驟可以讀取數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標(biāo)志位,若為混音標(biāo)識(shí)位時(shí),將數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端;若為轉(zhuǎn)發(fā)標(biāo)志位時(shí),根據(jù)被發(fā)送客戶端對(duì)數(shù)據(jù)包的終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值進(jìn)行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對(duì)應(yīng)客戶端。
[0045]獲取主混音服務(wù)器接收的初選音頻信息、標(biāo)志位、語(yǔ)音特征值,根據(jù)語(yǔ)音特征值與第二預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻信息,根據(jù)參與混音的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息獲得終選音頻信息,
[0046]將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。在一個(gè)實(shí)施例中,該步驟可以是將轉(zhuǎn)發(fā)標(biāo)志位和終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將終選音頻信息混音并編碼,將混音標(biāo)志位和該編碼信息封包發(fā)送至沒(méi)有客戶端參與混音的子服務(wù)端。
[0047]本實(shí)施例是針對(duì)多個(gè)客戶端時(shí),將混音服務(wù)器分為多個(gè)子混音服務(wù)器和一個(gè)主混音服務(wù)器。子混音服務(wù)器實(shí)現(xiàn)初選過(guò)程,并將編碼信息進(jìn)行解碼,主混音服務(wù)器直接接收解碼后的數(shù)據(jù),減少主混音服務(wù)器的工作量。然后主混音服務(wù)器也通過(guò)混音標(biāo)志位和轉(zhuǎn)發(fā)標(biāo)識(shí)位的形式,將終選后的混音信息混音并編碼,直接轉(zhuǎn)發(fā)至沒(méi)有參與混音的客戶端的子混音服務(wù)器,子混音服務(wù)器直接轉(zhuǎn)發(fā)至客戶端。主混音服務(wù)器還將沒(méi)有編碼的混音信息發(fā)給有參與混音的客戶端的子混音服務(wù)器,然后在子混音服務(wù)器中實(shí)現(xiàn)編碼,發(fā)送至客戶端。當(dāng)然,此時(shí)子混音服務(wù)器可以判斷混音信息中是否包含了被發(fā)客戶端發(fā)送的信息,如果有,則將混音信息中該客戶端發(fā)送的信息刪除后,再混音編碼,發(fā)送至該客戶端,使該客戶端不能聽到自己的聲音。
[0048]針對(duì)上述有客戶端參與混音的子混音服務(wù)器和沒(méi)有客戶端參與混音的子服務(wù)端,舉例說(shuō)明,例如:客戶端Cll、C12、C13連接子混音服務(wù)器Cl,客戶端C21、C22、C23連接子混音服務(wù)器C2。在主混音服務(wù)器中,終選出需要混音的信息是來(lái)源于客戶端C11、C12的信息。則子混音服務(wù)器Cl叫做有客戶端參與混音的子混音服務(wù)器,子混音服務(wù)器C2叫做沒(méi)有客戶端參與混音的子服務(wù)端。將C11、C12的信息混音編碼后直接轉(zhuǎn)發(fā)給子混音服務(wù)器C2,子混音服務(wù)器C2轉(zhuǎn)發(fā)給客戶端。將Cll、C12未編碼的信息直接發(fā)給子混音服務(wù)器Cl,子混音服務(wù)器Cl轉(zhuǎn)發(fā)給客戶端Cll時(shí),直接將C12信息轉(zhuǎn)發(fā)給客戶端C11,子混音服務(wù)器Cl轉(zhuǎn)發(fā)給客戶端C13時(shí),需要先將C11、C12的信息進(jìn)行混音并編碼,然后轉(zhuǎn)發(fā)給客戶端C13。[0049]在一個(gè)具體實(shí)施例中,具體過(guò)程如下:
[0050]分別獲取同一個(gè)客戶端的音樂(lè)信息和語(yǔ)音信息,計(jì)算語(yǔ)音信息的語(yǔ)音特征值;將音樂(lè)信息進(jìn)行編碼,獲得音頻編碼幀,將語(yǔ)音信息進(jìn)行編碼獲得語(yǔ)音編碼幀;接收為音頻編碼幀時(shí),將標(biāo)志位設(shè)為音樂(lè)標(biāo)志位,根據(jù)音頻編碼幀和音樂(lè)標(biāo)志位確定擴(kuò)展音頻編碼幀;接收為語(yǔ)音編碼幀時(shí),將標(biāo)志位設(shè)為語(yǔ)音標(biāo)志位時(shí),根據(jù)語(yǔ)音標(biāo)志位、語(yǔ)音特征值和語(yǔ)音編碼幀確定擴(kuò)展語(yǔ)音編碼幀;將擴(kuò)展音頻編碼幀和擴(kuò)展語(yǔ)音編碼幀分別封包,獲得數(shù)據(jù)包,數(shù)據(jù)包包括音樂(lè)數(shù)據(jù)包和語(yǔ)音數(shù)據(jù)包,發(fā)送該數(shù)據(jù)包;
[0051]解析混音服務(wù)器接收的該數(shù)據(jù)包,獲得擴(kuò)展音頻編碼幀和擴(kuò)展語(yǔ)音編碼幀;讀取語(yǔ)音特征值,根據(jù)語(yǔ)音特征值與預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的語(yǔ)音編碼幀;將語(yǔ)音編碼幀解碼,獲得語(yǔ)音信息,根據(jù)擴(kuò)展音頻編碼幀的音樂(lè)標(biāo)志位將擴(kuò)展音頻編碼幀解碼,獲得音樂(lè)信息;將音樂(lè)信息與語(yǔ)音信息混音并發(fā)送。
[0052]本實(shí)施例是考慮了獲取信息中有音樂(lè)信息和語(yǔ)音信息的情況。采用分開采集的方式,米集語(yǔ)音信息和音樂(lè)信息。音樂(lè)信息默認(rèn)參與混音信息,對(duì)音樂(lè)信息進(jìn)行篩選,選出需要參與混音的語(yǔ)音信息,然后將語(yǔ)音信息和音樂(lè)信息混音并發(fā)送至客戶端。
[0053]在一個(gè)具體應(yīng)用實(shí)例中,可運(yùn)用在多個(gè)客戶端連接一個(gè)子混音服務(wù)器,多個(gè)子混音服務(wù)器連接一個(gè)主混音服務(wù)器的實(shí)例中。在客戶端,分別獲取語(yǔ)音信息和音樂(lè)信息。當(dāng)一個(gè)客戶端同時(shí)存在語(yǔ)音信息和音樂(lè)信息時(shí),先將語(yǔ)音信息和音樂(lè)信息進(jìn)行混音得到語(yǔ)音音樂(lè)信息。分別將音頻信息進(jìn)行編碼,獲得音頻編碼幀。若所述音頻為語(yǔ)音信息,計(jì)算所述語(yǔ)音信息的語(yǔ)音特征值,則所述語(yǔ)音特征位為語(yǔ)音特征值。在語(yǔ)音特征位前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀。其中,若音頻為語(yǔ)音信息,則標(biāo)志位為語(yǔ)音標(biāo)志位,若音頻信息為音樂(lè)信息,則標(biāo)志位為音樂(lè)標(biāo)志位,若音頻為語(yǔ)音音樂(lè)信息,則標(biāo)志位為音樂(lè)標(biāo)志位。將擴(kuò)展音頻編碼幀打包后發(fā)送至子混音服務(wù)器。
[0054]在子混音服務(wù)器中,接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來(lái)源;
[0055]當(dāng)所述數(shù)據(jù)包來(lái)自客戶端時(shí),解析數(shù)據(jù)包獲得解析擴(kuò)展音頻編碼幀,解析擴(kuò)展音頻編碼幀的標(biāo)志位,若所述標(biāo)志位為語(yǔ)音標(biāo)識(shí)位時(shí),讀取所述擴(kuò)展音頻編碼幀的語(yǔ)音特征值;根據(jù)所述語(yǔ)音特征值與第一預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將該音頻編碼幀解碼,若所述標(biāo)志位為音樂(lè)標(biāo)志位,則將所述音頻編碼幀進(jìn)行解碼,根據(jù)各解碼音頻信息獲得初選音頻信息,發(fā)送所述初選音頻信息和對(duì)應(yīng)的標(biāo)識(shí)位、語(yǔ)音特征值。
[0056]當(dāng)所述數(shù)據(jù)包來(lái)自主混音服務(wù)器時(shí),讀取所述數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標(biāo)志位,若為混音標(biāo)識(shí)位時(shí),將數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端;若為轉(zhuǎn)發(fā)標(biāo)志位時(shí),根據(jù)被發(fā)送客戶端對(duì)所述數(shù)據(jù)包的終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值進(jìn)行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對(duì)應(yīng)客戶端。
[0057]在主混音服務(wù)器,接收的初選音頻信息、標(biāo)志位、語(yǔ)音特征值,根據(jù)所述語(yǔ)音特征值與第二預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻信息,根據(jù)參與混音的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息獲得終選音頻信息,將轉(zhuǎn)發(fā)標(biāo)志位和所述終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將所述終選音頻信息混音并編碼,將混音標(biāo)志位和該編碼信息封包發(fā)送至沒(méi)有客戶端參與混音的子服務(wù)端。
[0058]本方案還提供一種混音處理系統(tǒng),參見圖2,為本發(fā)明混音處理系統(tǒng)實(shí)施例一的結(jié)構(gòu)示意圖,包括:
[0059]第一獲取模塊201,用于分別獲取各個(gè)客戶端的音頻信息,音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息,其中,語(yǔ)音音樂(lè)信息為同一個(gè)客戶端同時(shí)接收的語(yǔ)音信息和音樂(lè)信息的混音。
[0060]編碼模塊202,用于分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀;
[0061]擴(kuò)展音頻幀模塊203,用于在音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,若音頻為語(yǔ)音信息,則標(biāo)志位為語(yǔ)音標(biāo)志位,若音頻信息為音樂(lè)信息,則標(biāo)志位為音樂(lè)標(biāo)志位,若音頻為語(yǔ)音音樂(lè)信息,則標(biāo)志位為音樂(lè)標(biāo)志位;
[0062]第一發(fā)送模塊204,用于將擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器;
[0063]混音處理模塊205,用于獲取解包后的混音服務(wù)器的擴(kuò)展音頻編碼幀,根據(jù)擴(kuò)展音頻編碼幀的標(biāo)志位將音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
[0064]本實(shí)施例,通過(guò)分別采集語(yǔ)音信息、音樂(lè)信息或者混音后的語(yǔ)音音樂(lè)信息,在音頻編碼幀前設(shè)置標(biāo)志位,將音樂(lè)信息、語(yǔ)音音樂(lè)信息和語(yǔ)音信息區(qū)分開,然后獲取混音服務(wù)器的擴(kuò)展音頻編碼幀,實(shí)現(xiàn)解碼混音,并返回至各個(gè)客戶端。從而實(shí)現(xiàn)會(huì)場(chǎng)有音樂(lè)需要分享時(shí),混音信息中存在完整音樂(lè)信息,提高了混音信息中背景音樂(lè)播放質(zhì)量。同時(shí),本方案在發(fā)送至混音服務(wù)器之前進(jìn)行了編碼,提高了客戶端與混音服務(wù)器之間的傳輸效率,從而提高了整個(gè)混音過(guò)程的效率。
[0065]在具體實(shí)施例中,混音處理模塊205可以將混音后的混音音頻信息進(jìn)行編碼,然后將編碼后的信息發(fā)送至客戶端,這樣大大降低了發(fā)送客戶端的碼率,提高了傳輸混音信息的效率。
[0066]在具體實(shí)施例中,擴(kuò)展音頻幀模塊203,還用于在音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若音頻為語(yǔ)音信息,計(jì)算語(yǔ)音信息的語(yǔ)音特征值,則語(yǔ)音特征位為語(yǔ)音特征值;
[0067]混音處理模塊包括:
[0068]第二獲取模塊,用于獲取解包后的混音服務(wù)器的第一擴(kuò)展音頻編碼幀;
[0069]第一擴(kuò)展音頻幀解析模塊,用于當(dāng)標(biāo)志位為語(yǔ)音標(biāo)志位吋,將擴(kuò)展音頻編碼幀發(fā)送至混音通道選取判決模塊,當(dāng)標(biāo)志位為音樂(lè)標(biāo)志位吋,將擴(kuò)展音頻編碼幀發(fā)送至第一解碼模塊;
[0070]混音通道選取判決模塊,用于根據(jù)擴(kuò)展音頻編碼幀的語(yǔ)音特征值與預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,并將參與混音的音頻編碼幀對(duì)應(yīng)的擴(kuò)展音頻編碼幀發(fā)送至第一解碼模塊;
[0071]第一解碼模塊,用于將接收的擴(kuò)展音頻編碼幀的音頻編碼幀進(jìn)行解碼,獲得音頻解碼信息;
[0072]第一混音模塊,用于將各音頻解碼信息進(jìn)行混音獲得混音音頻信息;
[0073]第二發(fā)送模塊,用于將混音音頻信息返回至各個(gè)客戶端。
[0074]本實(shí)施例通過(guò)將音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息默認(rèn)參與混音,對(duì)語(yǔ)音標(biāo)志位對(duì)應(yīng)的音頻信息進(jìn)行篩選,最終將篩選的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息進(jìn)行混音,從而實(shí)現(xiàn)在全程會(huì)議中,只要有音樂(lè)分享,即可聽到該分享音樂(lè)。[0075]在另一個(gè)實(shí)施例中,擴(kuò)展音頻幀模塊203,還用于在音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若音頻為語(yǔ)音信息,計(jì)算語(yǔ)音信息的語(yǔ)音特征值,則語(yǔ)音特征位為語(yǔ)音特征值。
[0076]由于可以有多個(gè)客戶端、多個(gè)子混音服務(wù)器、一個(gè)主混音服務(wù)器,子混音服務(wù)器連接多個(gè)客戶端,主混音服務(wù)器連接多個(gè)子混音服務(wù)器。因此,混音處理模塊,包括多個(gè)子混音處理模塊和一個(gè)主混音處理模塊,多個(gè)第一發(fā)送模塊與一個(gè)子混音處理模塊連接,多個(gè)子混音處理模塊與一個(gè)主混音處理模塊連接。如圖3所示,為本發(fā)明混音處理系統(tǒng)實(shí)施例二中子混音處理模塊的結(jié)構(gòu)示意圖,包括:
[0077]第三獲取模塊301,用于獲取子混音服務(wù)器接收的數(shù)據(jù)包;
[0078]數(shù)據(jù)包來(lái)源判斷模塊302,用于根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來(lái)源,當(dāng)數(shù)據(jù)包來(lái)自客戶端時(shí),將數(shù)據(jù)包發(fā)送至第二擴(kuò)展音頻幀解析模塊303,當(dāng)數(shù)據(jù)包來(lái)自主混音服務(wù)器時(shí),將數(shù)據(jù)包發(fā)送至第三發(fā)送模塊306 ;
[0079]第二擴(kuò)展音頻幀解析模塊303,用于解析數(shù)據(jù)包獲得解析擴(kuò)展音頻編碼幀,解析擴(kuò)展音頻編碼幀的標(biāo)志位,若標(biāo)志位為語(yǔ)音標(biāo)識(shí)位時(shí),將擴(kuò)展音頻編碼幀發(fā)送至混音通道選取初次判決模塊;若標(biāo)志位為音樂(lè)標(biāo)志位時(shí),將擴(kuò)展音頻編碼幀發(fā)送至第二解碼器;
[0080]混音通道選取初次判決模塊304,用于讀取擴(kuò)展音頻編碼幀的語(yǔ)音特征值,根據(jù)語(yǔ)音特征值與第一預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將參與混音的音頻編碼幀對(duì)應(yīng)的擴(kuò)展音頻編碼幀發(fā)送至第二解碼器;
[0081]第二解碼器305,用于將接收的擴(kuò)展音頻編碼幀的音頻編碼幀進(jìn)行解碼,獲得各音頻解碼息;
[0082]第三發(fā)送模塊306,用于根據(jù)各音頻解碼信息及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值獲得初選音頻信息,發(fā)送初選音頻信息至主混音服務(wù)器,將接收的數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端;
[0083]如圖4所示,為本發(fā)明混音處理系統(tǒng)實(shí)施例二中主混音處理模塊的結(jié)構(gòu)示意圖,包括:
[0084]第四獲取模塊401,用于獲取主混音服務(wù)器接收的初選音頻信息;
[0085]標(biāo)志位解析模塊402,用于解析初選音頻信息,若標(biāo)志位為語(yǔ)音標(biāo)識(shí)位時(shí),將初選音頻信息發(fā)送至混音通道選取終次判決模塊403 ;若標(biāo)志位為音樂(lè)標(biāo)志位時(shí),將擴(kuò)展音頻編碼幀發(fā)送至終選音頻模塊404 ;
[0086]混音通道選取終次判決模塊403,用于根據(jù)初選音頻信息的語(yǔ)音特征值與第二預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻信息,將參與混音的音頻信息發(fā)送至終選音頻模塊;
[0087]終選音頻模塊4 O 4,用于根據(jù)參與混音的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息獲得終選音頻信息;
[0088]第四發(fā)送模塊405,將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
[0089]在其他實(shí)施例中,第四發(fā)送模塊,用于將轉(zhuǎn)發(fā)標(biāo)志位和終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將終選音頻信息混音并編碼,將混音標(biāo)志位和該編碼信息封包發(fā)送至沒(méi)有客戶端參與混音的子服務(wù)端;
[0090]第三發(fā)送模塊,用于讀取數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標(biāo)志位,若為混音標(biāo)識(shí)位時(shí),將數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端;若為轉(zhuǎn)發(fā)標(biāo)志位時(shí),根據(jù)被發(fā)送客戶端對(duì)數(shù)據(jù)包的終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值進(jìn)行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對(duì)應(yīng)客戶端。[0091]本實(shí)施例是針對(duì)多個(gè)客戶端時(shí),將混音服務(wù)器分為多個(gè)子混音服務(wù)器和一個(gè)主混音服務(wù)器。子混音服務(wù)器實(shí)現(xiàn)初選過(guò)程,并將編碼信息進(jìn)行解碼,主混音服務(wù)器直接接收解碼后的數(shù)據(jù),減少主混音服務(wù)器的工作量。然后主混音服務(wù)器也通過(guò)混音標(biāo)志位和轉(zhuǎn)發(fā)標(biāo)識(shí)位的形式,將終選后的混音信息混音并編碼,直接轉(zhuǎn)發(fā)至沒(méi)有參與混音的客戶端的子混音服務(wù)器,子混音服務(wù)器直接轉(zhuǎn)發(fā)至客戶端。主混音服務(wù)器還將沒(méi)有編碼的混音信息發(fā)給有參與混音的客戶端的子混音服務(wù)器,然后在子混音服務(wù)器中實(shí)現(xiàn)編碼,發(fā)送至客戶端。當(dāng)然,此時(shí)子混音服務(wù)器可以判斷混音信息中是否包含了被發(fā)客戶端發(fā)送的信息,如果有,則將混音信息中該客戶端發(fā)送的信息刪除后,再混音編碼,發(fā)送至該客戶端,使該客戶端不能聽到自己的聲音。
[0092]具體細(xì)節(jié)上文混音處理方法已描述,在此不再贅述。
[0093]以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。
【權(quán)利要求】
1.一種混音處理方法,其特征在于,包括步驟: 分別獲取各個(gè)客戶端的音頻信息,所述音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息,其中,所述語(yǔ)音音樂(lè)信息為同一個(gè)客戶端同時(shí)接收的語(yǔ)音信息和音樂(lè)信息的混音; 分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀; 在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,若所述音頻信息為語(yǔ)音信息,則所述標(biāo)志位為語(yǔ)音標(biāo)志位,若所述音頻信息為音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位,若所述音頻信息為語(yǔ)音音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位; 將所述擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器; 獲取解包后的所述混音服務(wù)器的擴(kuò)展音頻編碼幀; 根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
2.根據(jù)權(quán)利要求1所述的混音處理方法,其特征在于, 所述在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀步驟,還包括步驟:在所述音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若所述音頻信息為語(yǔ)音信息,計(jì)算所述語(yǔ)音信息的語(yǔ)音特征值,則所述語(yǔ)音特征位為語(yǔ)音特征值; 所述根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端步驟,包括步驟: 若所述標(biāo)志位為語(yǔ)音標(biāo)志位,則根據(jù)所述擴(kuò)展音頻編碼幀的語(yǔ)音特征值與預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將所述參與混音的音頻編碼幀進(jìn)行解碼獲得首頻解碼?目息; 若所述標(biāo)志位為音樂(lè)標(biāo)志位,則將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息; 將各所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
3.根據(jù)權(quán)利要求1所述的混音處理方法,其特征在于, 所述在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀步驟,還包括步驟:在所述音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若所述音頻信息為語(yǔ)音信息,計(jì)算所述語(yǔ)音信息的語(yǔ)音特征值,則所述語(yǔ)音特征位為語(yǔ)音特征值; 所述獲取解包后的所述混音服務(wù)器的擴(kuò)展音頻編碼幀;根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端步驟,包括步驟: 獲取所述混音服務(wù)器接收的數(shù)據(jù)包,根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來(lái)源; 當(dāng)所述數(shù)據(jù)包來(lái)自客戶端時(shí),解析數(shù)據(jù)包獲得解析擴(kuò)展音頻編碼幀,解析擴(kuò)展音頻編碼幀的標(biāo)志位,若所述標(biāo)志位為語(yǔ)音標(biāo)識(shí)位時(shí),讀取所述擴(kuò)展音頻編碼幀的語(yǔ)音特征值;根據(jù)所述語(yǔ)音特征值與第一預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將該音頻編碼幀解碼,若所述標(biāo)志位為音樂(lè)標(biāo)志位,則將所述音頻編碼幀進(jìn)行解碼,根據(jù)各解碼音頻信息獲得初選音頻信息,發(fā)送所述初選音頻信息和對(duì)應(yīng)的標(biāo)識(shí)位、語(yǔ)音特征值; 當(dāng)所述數(shù)據(jù)包來(lái)自主混音服務(wù)器時(shí),將所述數(shù)據(jù)包轉(zhuǎn)發(fā)至客戶端;獲取主混音服務(wù)器接收的初選音頻信息、標(biāo)志位、語(yǔ)音特征值,根據(jù)所述語(yǔ)音特征值與第二預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻信息,根據(jù)參與混音的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息獲得終選音頻信息, 將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
4.根據(jù)權(quán)利要求3所述的混音處理方法,其特征在干, 所述將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器步驟,包括步驟: 將轉(zhuǎn)發(fā)標(biāo)志位和所述終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將所述終選音頻信息混音并編碼,將混音標(biāo)志位和該編碼信息封包發(fā)送至沒(méi)有客戶端參與混音的子服務(wù)端; 所述當(dāng)所述數(shù)據(jù)包來(lái)自主混音服務(wù)器吋,將所述數(shù)據(jù)包轉(zhuǎn)發(fā)至客戶端步驟,包括步驟: 讀取所述數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標(biāo)志位,若為混音標(biāo)識(shí)位時(shí),將數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端;若為轉(zhuǎn)發(fā)標(biāo)志位時(shí),根據(jù)被發(fā)送客戶端對(duì)所述數(shù)據(jù)包的終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值進(jìn)行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對(duì)應(yīng)客戶端。
5.—種混音處理系統(tǒng),其特征在于,包括: 第一獲取模塊,用于分別獲取各個(gè)客戶端的音頻信息,所述音頻信息為語(yǔ)音信息、音樂(lè)信息或語(yǔ)音音樂(lè)信息,其中,所述語(yǔ)音音樂(lè)信息為同一個(gè)客戶端同時(shí)接收的語(yǔ)音信息和音樂(lè)信息的混音; 編碼模塊,用于分別將各個(gè)客戶端對(duì)應(yīng)的音頻信息進(jìn)行編碼,獲得音頻編碼幀; 擴(kuò)展音頻幀模塊,用于在所述音頻編碼幀前設(shè)置標(biāo)志位,獲得擴(kuò)展音頻編碼幀;其中,若所述音頻信息為語(yǔ)音信息,則所述標(biāo)志位為語(yǔ)音標(biāo)志位,若所述音頻信息為音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位,若所述音頻信息為語(yǔ)音音樂(lè)信息,則所述標(biāo)志位為音樂(lè)標(biāo)志位; 第一發(fā)送模塊,用于將所述擴(kuò)展音頻編碼幀打包后發(fā)送至混音服務(wù)器; 混音處理模塊,用于獲取解包后的所述混音服務(wù)器的擴(kuò)展音頻編碼幀,根據(jù)所述擴(kuò)展音頻編碼幀的標(biāo)志位將所述音頻編碼幀進(jìn)行解碼獲得音頻解碼信息,將所述音頻解碼信息進(jìn)行混音獲得混音音頻信息,并將混音音頻信息返回至各個(gè)客戶端。
6.根據(jù)權(quán)利要求5所述的混音處理系統(tǒng),其特征在干, 所述擴(kuò)展音頻幀模塊,還用于在所述音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若所述音頻信息為語(yǔ)音信息,計(jì)算所述語(yǔ)音信息的語(yǔ)音特征值,則所述語(yǔ)音特征位為語(yǔ)音特征值; 所述混音處理模塊包括: 第二獲取模塊,用于獲取解包后的所述混音服務(wù)器的第一擴(kuò)展音頻編碼幀; 第一擴(kuò)展音頻幀解析模塊,用于當(dāng)所述標(biāo)志位為語(yǔ)音標(biāo)志位時(shí),將所述擴(kuò)展音頻編碼幀發(fā)送至混音通道選取判決模塊,當(dāng)所述標(biāo)志位為音樂(lè)標(biāo)志位時(shí),將所述擴(kuò)展音頻編碼幀發(fā)送至所述第一解碼模塊; 所述混音通道選取判決模塊,用于根據(jù)所述擴(kuò)展音頻編碼幀的語(yǔ)音特征值與預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,并將參與混音的音頻編碼幀對(duì)應(yīng)的擴(kuò)展音頻編碼幀發(fā)送至所述第一解碼模塊; 所述第一解碼模塊,用于將接收的擴(kuò)展音頻編碼幀的音頻編碼幀進(jìn)行解碼,獲得音頻解碼信息;第一混音模塊,用于將各所述音頻解碼信息進(jìn)行混音獲得混音音頻信息; 第二發(fā)送模塊,用于將混音音頻信息返回至各個(gè)客戶端。
7.根據(jù)權(quán)利要求5所述的混音處理系統(tǒng),其特征在于, 所述擴(kuò)展音頻幀模塊,還用于在所述音頻編碼幀前設(shè)置語(yǔ)音特征位,其中,若所述音頻信息為語(yǔ)音信息,計(jì)算所述語(yǔ)音信息的語(yǔ)音特征值,則所述語(yǔ)音特征位為語(yǔ)音特征值; 所述混音處理模塊,包括: 第三獲取模塊,用于獲取子混音服務(wù)器接收的數(shù)據(jù)包; 數(shù)據(jù)包來(lái)源判斷模塊,用于根據(jù)數(shù)據(jù)包的IP地址判斷數(shù)據(jù)包來(lái)源,當(dāng)所述數(shù)據(jù)包來(lái)自客戶端時(shí),將所述數(shù)據(jù)包發(fā)送至第二擴(kuò)展音頻幀解析模塊,當(dāng)所述數(shù)據(jù)包來(lái)自主混音服務(wù)器時(shí),將所述數(shù)據(jù)包發(fā)送至第三發(fā)送模塊; 所述第二擴(kuò)展音頻幀解析模塊,用于解析數(shù)據(jù)包獲得解析擴(kuò)展音頻編碼幀,解析擴(kuò)展音頻編碼幀的標(biāo)志位,若所述標(biāo)志位為語(yǔ)音標(biāo)識(shí)位時(shí),將所述擴(kuò)展音頻編碼幀發(fā)送至混音通道選取初次判決模塊;若所述標(biāo)志位為音樂(lè)標(biāo)志位時(shí),將所述擴(kuò)展音頻編碼幀發(fā)送至第二解碼器; 所述混音通道選取初次判決模塊,用于讀取所述擴(kuò)展音頻編碼幀的語(yǔ)音特征值,根據(jù)所述語(yǔ)音特征值與第一預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻編碼幀,將參與混音的音頻編碼幀對(duì)應(yīng)的擴(kuò)展音頻編碼幀發(fā)送至所述第二解碼器; 所述第二解碼器,用于將接收的所述擴(kuò)展音頻編碼幀的音頻編碼幀進(jìn)行解碼,獲得各首頻解碼?目息; 所述第三發(fā)送模塊,用于根據(jù)各音頻解碼信息及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值獲得初選音頻信息,發(fā)送所述初選音頻信息至主混音服務(wù)器,將接收的所述數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端; 第四獲取模塊,用于獲取主混音服務(wù)器接收的初選音頻信息; 標(biāo)志位解析模塊,用于解析初選音頻信息,若所述標(biāo)志位為語(yǔ)音標(biāo)識(shí)位時(shí),將所述初選音頻信息發(fā)送至混音通道選取終次判決模塊;若所述標(biāo)志位為音樂(lè)標(biāo)志位時(shí),將所述擴(kuò)展音頻編碼幀發(fā)送至終選音頻模塊; 混音通道選取終次判決模塊,用于根據(jù)所述初選音頻信息的語(yǔ)音特征值與第二預(yù)設(shè)的混音優(yōu)先級(jí)判定規(guī)則確定參與混音的音頻信息,將參與混音的音頻信息發(fā)送至終選音頻模塊; 所述終選音頻模塊,用于根據(jù)參與混音的音頻信息和音樂(lè)標(biāo)志位對(duì)應(yīng)的音頻信息獲得終選音頻信息; 第四發(fā)送模塊,將終選音頻信息混音、編碼并封包發(fā)送至各子混音服務(wù)器。
8.根據(jù)權(quán)利要求7所述的混音處理系統(tǒng),其特征在于, 所述第四發(fā)送模塊,用于將轉(zhuǎn)發(fā)標(biāo)志位和所述終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值封包發(fā)送至有客戶端參與混音的子混音服務(wù)器,將所述終選音頻信息混音并編碼,將混音標(biāo)志位和該編碼信息封包發(fā)送至沒(méi)有客戶端參與混音的子服務(wù)端; 所述第三發(fā)送模塊,用于讀取所述數(shù)據(jù)包的轉(zhuǎn)發(fā)/混音標(biāo)志位,若為混音標(biāo)識(shí)位時(shí),將數(shù)據(jù)包轉(zhuǎn)發(fā)至對(duì)應(yīng)客戶端;若為轉(zhuǎn)發(fā)標(biāo)志位時(shí),根據(jù)被發(fā)送客戶端對(duì)所述數(shù)據(jù)包的終選音頻信息以及對(duì)應(yīng)的標(biāo)志位和語(yǔ)音特征值進(jìn)行混音并編碼,將編碼后數(shù)據(jù)發(fā)送至對(duì)應(yīng)客戶端。
【文檔編號(hào)】G10L19/008GK103500580SQ201310436940
【公開日】2014年1月8日 申請(qǐng)日期:2013年9月23日 優(yōu)先權(quán)日:2013年9月23日
【發(fā)明者】李 根, 譚小剛 申請(qǐng)人:廣東威創(chuàng)視訊科技股份有限公司