本發(fā)明涉及直播平臺技術(shù)領(lǐng)域,具體涉及一種直播客戶端語音處理系統(tǒng)及其處理方法。
背景技術(shù):
隨著智能終端的多屏化發(fā)展,人們對“即時”與“互動”的需求越來越高。中國社交視頻的直播社區(qū)的活躍用戶正在不斷發(fā)展壯大中。巨大的市場同時也面臨著如火如荼的同行競爭,如何增強主播與用戶之間的互動,吸引用戶的關(guān)注,從而減少用戶的流失,是直播行業(yè)很長一段時間將要面臨的一道難題。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種增強主播與用戶之間互動的直播客戶端語音處理系統(tǒng)。
為達(dá)到以上目的,本發(fā)明采取的技術(shù)方案是:一種直播客戶端語音處理系統(tǒng),包括:
聲音采集模塊,其用于采集用戶輸入的語音;
特效加載模塊,其用于加載特效文件;
音頻混音模塊,其用于接收所述聲音采集模塊輸出的語音和特效加載模塊加載的特效文件,并對所述聲音采集模塊輸出的語音和特效加載模塊加載的特效文件采樣,并得到采樣數(shù)據(jù),所述音頻混音模塊還將所述采樣數(shù)據(jù)進(jìn)行疊加混合得到混合音頻數(shù)據(jù);以及
音頻輸出模塊,其用于接收并發(fā)送所述混合音頻數(shù)據(jù)至聲音播放設(shè)備。
在上述技術(shù)方案的基礎(chǔ)上,所述聲音采集模塊還包括變調(diào)開關(guān)和硬件處理模塊,所述變調(diào)開關(guān)用于開啟和關(guān)閉變調(diào)功能,所述硬件處理模塊用于判斷所述直播客戶端語音處理系統(tǒng)是否支持硬件處理變調(diào),所述直播客戶端語音處理系統(tǒng)還包括系統(tǒng)API和軟件API以及調(diào)用所述系統(tǒng)API或軟件API進(jìn)行變調(diào)處理的調(diào)用模塊;若所述變調(diào)開關(guān)關(guān)閉變調(diào)功能,所述音頻混音模塊接收所述語音;若所述變調(diào)開關(guān)開啟變調(diào)功能,則所述硬件處理模塊進(jìn)一步判斷所述直播客戶端語音處理系統(tǒng)是否支持硬件處理變調(diào),若是則所述調(diào)用模塊調(diào)用所述系統(tǒng)API進(jìn)行變調(diào)處理;若否則所述調(diào)用模塊調(diào)用軟件API進(jìn)行變調(diào)處理。
在上述技術(shù)方案的基礎(chǔ)上,所述特效加載模塊加載多路特效文件,所述音頻混音模塊包括多路開關(guān),所述多路開關(guān)用于開啟和關(guān)閉所述聲音采集模塊輸出的語音和每一路特效文件的輸入;所述音頻混音模塊還包括歸一化模塊,所述歸一化模塊用于將所述聲音采集模塊輸出的語音的采樣率和每一路特效文件的采樣率轉(zhuǎn)換為相同,所述音頻混音模塊還包括通道加權(quán)模塊,所述通道加權(quán)模塊用于調(diào)節(jié)所述聲音采集模塊輸出的語音的增益大小和每一路特效文件的增益大小,并通過加權(quán)法得到所述混合音頻數(shù)據(jù)。
在上述技術(shù)方案的基礎(chǔ)上,所述音頻輸出模塊還包括音頻限幅模塊,所述音頻限幅模塊用于限制所述混合音頻數(shù)據(jù)的幅度。
與此同時,本發(fā)明還提供一種增強主播與用戶之間互動的處理語音的方法。
為達(dá)到以上目的,本發(fā)明采取的技術(shù)方案是:一種利用上述直播客戶端語音處理系統(tǒng)處理語音的方法,包括以下步驟:
聲音采集模塊采集用戶輸入的語音,特效加載模塊加載特效文件;
音頻混音模塊接收聲音采集模塊輸出的語音和特效加載模塊加載的特效文件,并對聲音采集模塊輸出的語音和特效加載模塊加載的特效文件采樣得到采樣數(shù)據(jù),音頻混音模塊再將采樣數(shù)據(jù)疊加混合得到混合音頻數(shù)據(jù);
音頻輸出模塊接收并發(fā)送混合音頻數(shù)據(jù)到聲音播放設(shè)備。
在上述技術(shù)方案的基礎(chǔ)上,所述直播客戶端語音處理系統(tǒng)還包括系統(tǒng)API和軟件API,在聲音采集模塊采集用戶輸入的語音后并且在得到混合音頻數(shù)據(jù)前,開啟變調(diào)功能,并進(jìn)一步判斷所述直播客戶端語音處理系統(tǒng)是否支持硬件處理變調(diào);若支持,調(diào)用系統(tǒng)API進(jìn)行變調(diào);若不支持,調(diào)用軟件API進(jìn)行變調(diào)。
在上述技術(shù)方案的基礎(chǔ)上,所述特效加載模塊加載多路特效文件,然后將所述聲音采集模塊輸出的語音的采樣率和每一路特效文件的采樣率轉(zhuǎn)換為相同,再調(diào)節(jié)所述聲音采集模塊輸出的語音的增益大小和每一路特效文件的增益大小,并通過加權(quán)法得到所述混合音頻數(shù)據(jù)。
在上述技術(shù)方案的基礎(chǔ)上,所述音頻輸出模塊還包括音頻限幅模塊,所述音頻限幅模塊限制所述混合音頻數(shù)據(jù)的幅度。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
(1)本發(fā)明的直播客戶端語音處理系統(tǒng)包括聲音采集模塊、特效加載模塊和音頻混音模塊,音頻混音模塊將聲音采集模塊采集主播的語音和特效加載模塊加載的特效文件疊加混合,能夠很好的改善直播氛圍,增強了主播與用戶之間的互動。
(2)本發(fā)明中的聲音采集模塊還包括變調(diào)開關(guān)和硬件處理模塊,直播客戶端語音處理系統(tǒng)還包括系統(tǒng)API和軟件API以及調(diào)用系統(tǒng)API或軟件API進(jìn)行變調(diào)處理的調(diào)用模塊,本發(fā)明可利用變調(diào)開關(guān)、硬件處理模塊、系統(tǒng)API、軟件API和調(diào)用模塊對聲音采集模塊采集的語音進(jìn)行變調(diào)處理,變調(diào)后的語音更具有娛樂性,進(jìn)一步的增強了主播與用戶之間的互動。
附圖說明
圖1為本發(fā)明中直播客戶端語音處理系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為本發(fā)明中處理語音的方法的流程圖;
圖3為本發(fā)明中混音處理的步驟的流程圖;
圖4為本發(fā)明中處理語音的方法加入變調(diào)步驟的流程圖;
圖5為本發(fā)明中變調(diào)步驟的流程圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。
參見圖1所示,本發(fā)明提供一種直播客戶端語音處理系統(tǒng),其包括聲音采集模塊、特效加載模塊、音頻混音模塊和音頻輸出模塊。
其中,聲音采集模塊用于采集用戶輸入的語音,本發(fā)明中聲音采集模塊主要是用來采集主播的Mic(Microphone,麥克風(fēng))聲音。
特效加載模塊用于加載特效文件,特效文件可以是掌聲,笑聲等文件,特效文件的單個時長和文件個數(shù)沒有限制。這樣當(dāng)主播在講完一段話后,會有觀眾鼓掌或者觀眾大笑的背景音效,增強了主播與用戶之間的互動。
音頻混音模塊用于接收語音和特效文件,并對語音和特效文件采樣得到采樣數(shù)據(jù),然后音頻混音模塊再將采樣數(shù)據(jù)進(jìn)行疊加混合得到混合音頻數(shù)據(jù)。
由于音頻混合只能處理PCM(Pulse Code Modulation,脈沖編碼調(diào)制)、LPCM(線性脈沖編碼調(diào)制)格式的音頻數(shù)據(jù),如果原始的特效文件是這兩類格式,便不需要音頻解碼。如果原始的特效文件是其他格式,例如是MP3,M4A格式,就需要進(jìn)行音頻格式的轉(zhuǎn)換。故本發(fā)明還包括特效文件格式轉(zhuǎn)換模塊,利用特效文件格式轉(zhuǎn)換模塊來將特效文件轉(zhuǎn)換成為音頻混音模塊支持的格式。
音頻混音模塊還包括多路開關(guān),多路開關(guān)用于開啟和關(guān)閉聲音采集模塊輸出的語音和每一路特效文件的輸入。即本發(fā)明可以通過多路開關(guān)來隨意組合特效文件,從而方便達(dá)到滿意的效果。音頻混音模塊還包括歸一化模塊,歸一化模塊用于將聲音采集模塊輸出的語音的采樣率和每一路特效文件的采樣率轉(zhuǎn)換為相同的采樣率,音頻混音模塊還包括通道加權(quán)模塊,通道加權(quán)模塊用于調(diào)節(jié)聲音采集模塊輸出的語音的增益大小和每一路特效文件的增益大小,并通過加權(quán)法得到混合音頻數(shù)據(jù)。
本發(fā)明中的音頻混音模塊還包括音頻限幅模塊,音頻限幅模塊可以對混合音頻數(shù)據(jù)進(jìn)行幅度限制,避免混合音頻數(shù)據(jù)的幅度過高而產(chǎn)生高音嘯叫。具體的,音頻限幅模塊設(shè)置有幅度最大值和幅度最小值,當(dāng)混合音頻數(shù)據(jù)的幅度小于幅度最小值時,音頻限幅模塊工作使最后輸出的混合音頻數(shù)據(jù)的幅度為幅度最小值;當(dāng)混合音頻數(shù)據(jù)的幅度大于幅度最大值時,音頻限幅模塊工作使最后輸出的混合音頻數(shù)據(jù)的幅度為幅度最大值;而當(dāng)混合音頻數(shù)據(jù)的幅度位于幅度最大值和幅度最小值之間時,則最后輸出的是混合音頻數(shù)據(jù)幅度的實際值。
音頻輸出模塊用于接收并發(fā)送混合音頻數(shù)據(jù)到聲音播放設(shè)備,聲音播放設(shè)備通常為揚聲器或者耳機。
為了進(jìn)一步增強主播與用戶之間的互動,本發(fā)明中的聲音采集模塊還包括變調(diào)開關(guān)和硬件處理模塊,變調(diào)開關(guān)用于開啟和關(guān)閉變調(diào)功能,硬件處理模塊用于判斷直播客戶端語音處理系統(tǒng)是否支持硬件處理變調(diào)。直播客戶端語音處理系統(tǒng)還包括系統(tǒng)API(Application Programming Interface,應(yīng)用程序編程接口)和軟件API以及調(diào)用系統(tǒng)API或軟件API進(jìn)行變調(diào)處理的調(diào)用模塊。具體的變調(diào)過程如下:若變調(diào)開關(guān)關(guān)閉變調(diào)功能,則由音頻混音模塊接收語音。若變調(diào)開關(guān)開啟變調(diào)功能,則硬件處理模塊進(jìn)一步判斷直播客戶端語音處理系統(tǒng)是否支持硬件處理變調(diào),若是則調(diào)用模塊調(diào)用系統(tǒng)API進(jìn)行變調(diào)處理。若否則調(diào)用模塊調(diào)用軟件API進(jìn)行變調(diào)處理。聲音采集模塊將變調(diào)后的語音輸出給音頻混音模塊,然后音頻混音模塊再將變調(diào)后的語音和特效文件進(jìn)行疊加混合。變調(diào)后的語音娛樂性更好,能夠使主播與觀眾更好的互動。
實施例一,參見圖2所示,本發(fā)明還提供一種利用上述直播客戶端語音處理系統(tǒng)處理語音的方法,包括以下步驟:
S1:聲音采集模塊采集用戶輸入的語音,特效加載模塊加載特效文件。
S2:音頻混音模塊接收聲音采集模塊輸出的語音和特效加載模塊加載的特效文件,并對聲音采集模塊輸出的語音和特效加載模塊加載的特效文件采樣得到采樣數(shù)據(jù),音頻混音模塊再將采樣數(shù)據(jù)疊加混合得到混合音頻數(shù)據(jù)。
參見圖3所示,為了得到較好的混音效果,本發(fā)明中混音處理的步驟包括:
S21:音頻混音模塊通過多路開關(guān)開啟和關(guān)閉聲音采集模塊輸出的語音和每一路特效文件的輸入。
S22:音頻混音模塊對輸入的語音和特效文件采樣得到采樣數(shù)據(jù),并利用歸一化模塊將聲音采集模塊輸出的語音的采樣率和每一路特效文件的采樣率轉(zhuǎn)換為相同的采樣率。
S23:音頻混音模塊利用通道加權(quán)模塊調(diào)節(jié)聲音采集模塊輸出的語音的增益大小和每一路特效文件的增益大小,并通過加權(quán)法得到混合音頻數(shù)據(jù)。
混合音頻數(shù)據(jù)輸出可利用下面的公式進(jìn)行計算:
混合音頻數(shù)據(jù)輸出=通道1*增益1+通道2*增益2+…+通道n*增益n。
S24:音頻混音模塊利用音頻限幅模塊限制混合音頻數(shù)據(jù)的幅度。
音頻限幅模塊可以對混合音頻數(shù)據(jù)進(jìn)行幅度限制,避免混合音頻數(shù)據(jù)的幅度過高而產(chǎn)生高音嘯叫。
S3:音頻輸出模塊接收并發(fā)送混合音頻數(shù)據(jù)到聲音播放設(shè)備。
實施例2,參見圖4所示,為了更好的增加主播和觀眾之間的互動,還可以對聲音采集模塊采集的語音進(jìn)行變調(diào)處理,然后再與特效文件疊加混合得到混合音頻數(shù)據(jù),其包括如下步驟:
S1’:聲音采集模塊采集用戶輸入的語音并對其進(jìn)行變調(diào)處理,特效加載模塊加載特效文件。
本發(fā)明中的聲音采集模塊還包括變調(diào)開關(guān)和硬件處理模塊,直播客戶端語音處理系統(tǒng)還包括系統(tǒng)API和軟件API以及調(diào)用系統(tǒng)API或軟件API進(jìn)行變調(diào)處理的調(diào)用模塊。參見圖5所示對聲音采集模塊采集的語音進(jìn)行變調(diào)的步驟包括:
S11’:變調(diào)開關(guān)開啟變調(diào)功能。
S12’:硬件處理模塊進(jìn)一步判斷直播客戶端語音處理系統(tǒng)是否支持硬件處理變調(diào),若支持,執(zhí)行步驟S13’,若不支持,執(zhí)行步驟S14’。
S13’:調(diào)用模塊調(diào)用系統(tǒng)API對語音進(jìn)行變調(diào)處理,然后執(zhí)行步驟S15’。
S14’:調(diào)用模塊調(diào)用軟件API對語音進(jìn)行變調(diào)處理,然后執(zhí)行步驟S15’。
S15’:聲音采集模塊發(fā)送語音至音頻混音模塊。
S2’:音頻混音模塊接收聲音采集模塊輸出的語音和特效加載模塊加載的特效文件,并對聲音采集模塊輸出的語音和特效加載模塊加載的特效文件采樣得到采樣數(shù)據(jù),音頻混音模塊再將采樣數(shù)據(jù)疊加混合得到混合音頻數(shù)據(jù)。
混音處理的步驟與實施例1中相同。
S3’:音頻輸出模塊接收并發(fā)送混合音頻數(shù)據(jù)到聲音播放設(shè)備。
本發(fā)明不局限于上述實施方式,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍之內(nèi)。本說明書中未作詳細(xì)描述的內(nèi)容屬于本領(lǐng)域?qū)I(yè)技術(shù)人員公知的現(xiàn)有技術(shù)。